新人新语 | 王若松:构建现代机器学习的理论基础
2024年初,前沿计算研究中心迎来了一位新体制助理教授:王若松。他的研究方向是机器学习与理论计算机科学的结合:机器学习理论。
王若松,于2017年在清华大学交叉信息研究院获学士学位,于2022年在卡内基梅隆大学获博士学位,之后在华盛顿大学计算机科学与工程学院担任博士后研究员。2024年1月加入北京大学前沿计算研究中心,任助理教授。他的研究兴趣是机器学习理论,目前的主要研究方向为:1)设计有理论保证的强化学习算法,2)证明强化学习问题的采样复杂度下界,3)在理论研究的基础上,设计更高效、更鲁棒的强化学习系统和更合理的强化学习算法评估框架。
问:可否介绍一下你的研究方向?
王若松:我的主要研究方向是机器学习理论,目前专注于为现代机器学习算法提供理论基础。近些年,机器学习在各种应用中取得了良好的效果。然而,此前对机器学习的理论研究大大落后于实践应用,而我的研究目的则是缩小机器学习理论与实践间的差距。
我的一个代表性研究方向是强化学习理论。强化学习是目前最常用于建模序列决策问题的数学框架。现有的强化学习理论结果大多在上个世纪提出,面对现代强化学习应用,这些理论结果存在局限性。首先,传统的强化学习理论结果往往假设问题的状态空间很小,而现代强化学习应用场景中的状态空间往往是连续的,例如图片、文字或传感器信号。其次,传统的强化学习理论大多假设问题的时间跨度较短,而现代强化学习应用中智能体需要做出成千上万步决策。最后,现代强化学习系统中广泛使用深度神经网络,而深度神经网络的优化和泛化缺乏成熟的理论结果。我这几年的研究成果则从这三个方面推进了现代强化学习的理论分析。
问:已有研究成果中,你最喜欢哪个?
王若松:所有此前已知的强化学习算法的采样复杂度至少线性依赖于时间跨度。受此影响,微软研究员的研究人员在发表于2018年 COLT 会议中的一个开放问题中提出了下述猜想:任何强化学习算法的采样复杂度至少线性依赖于时间跨度。我们的研究成果推翻了该猜想并完整解决了该开放问题。具体来说,我们设计了一个全新的强化学习算法, 该算法的采样复杂度与时间跨度完全无关。为了设计该算法,我们引入了一系列全新的数学工具。例如,我们建立了有限时间跨度和无限时间跨度马尔可夫决策过程的值函数的联系,并给出了对马尔可夫决策过程更加精细的扰动分析。
问:可否讲讲你的研究风格?
王若松:传统机器学习理论研究主要聚焦在设计新算法和证明已有算法的高效性,而我在思考这些问题的同时,还会思考哪些机器学习问题是无法被高效解决的。例如,我发表在 ICLR 的代表性工作就证明了离线强化学习的困难性结果。为了证明这些困难性结果,我通常会构造一系列困难问题的例子并大量使用理论计算机科学中的工具,研究风格更加“组合”。而传统机器学习理论领域中的研究主要使用统计学和优化理论中的工具,研究风格更加“连续”。当然,我的研究风格也和我的研究经历有关。我在博士早期的研究主要专注于理论计算机科学中的问题,因此思维模式和研究风格更贴近于理论计算机科学。
问:可否谈谈你对今后研究的展望?
王若松:首先,我会继续对强化学习的理论研究。近些年,在研究人员的努力下,强化学习理论和实践之间的差距在逐步缩小。然而,该领域仍有大量重要的基础问题尚未被解决。例如,目前强化学习理论研究中的常用假设往往不够自然,且难以验证这些假设在实际强化学习问题中是否成立。我希望能够基于易于验证的假设设计有理论保证的强化学习算法。
此外,在现有理论研究的基础上,我希望能够设计更高效、更鲁棒的强化学习系统。其中,一个重要的研究方向是为实际中的强化学习系统设计表示学习算法。已有的强化学习系统往往将深度神经网络当作黑箱,使用的表示学习算法与监督学习一致。而我此前的理论结果揭示了强化学习与监督学习的不同之处:强化学习需要比监督学习更高质量的特征映射。因此,设计强化学习专用的表示学习算法有助于提高强化学习系统的效率。目前已有的理论结果给出了一系列对特征映射的假设,在这些假设下,高效的强化学习是可行的。如何将这些理论研究中的算法和分析与实践中的强化学习系统相结合则是我今后一个重要的研究方向。
同时,我也希望能够与对上述研究方向感兴趣的北大本科生合作,一起推动机器学习领域的发展。
招生信息
王若松老师目前招收2025年秋季学期入学的博士,感兴趣的同学,欢迎发送简历给王老师。王老师邮箱:ruosongwang@pku.edu.cn