新人新语 | 王鹤：在燕园探索具身人工智能-新闻动态-北京大学前沿计算研究中心

新闻动态

新人新语 | 王鹤：在燕园探索具身人工智能

时间 : 2021-11-27 来源 : 北京大学前沿计算研究中心作者 : 王鹤

编者按

　　2021年秋，前沿计算研究中心又迎来了一位年轻的新体制助理教授：王鹤。他于同年刚刚于斯坦福大学获得博士学位，还未毕业即选定了回国加盟北京大学任职。

　　王鹤，北京大学前沿计算研究中心助理教授，博士生导师。他于2014年在清华大学微纳电子学系获得工学学士学位，于2021年在斯坦福大学电子工程系获得博士学位，导师为美国两院院士 Leonidas J. Guibas 教授。他于2021年9月加入北京大学，并创立具身感知与交互实验室（Embodied Perception and InteraCtion Lab，简称 EPIC Lab）。他的研究围绕三维视觉、机器人学和机器学习，在 CVPR、ICCV、ECCV、NeurIPS 等国际顶级会议上发表10余篇论文。他的工作开辟了类别级物体六维位姿估计这一子领域，六次获得 CVPR/ICCV oral，并获得2019年 Eurographics 最佳论文提名奖。他目前担任 CVPR 2022 和 WACV 2022 领域主席以及诸多顶级会议和刊物的审稿人。

问：可以谈什么是具身人工智能？

王鹤：具身人工智能（Embodied AI）是当前人工智能领域里发展的前沿方向，是一条致力于通向通用人工智能（artificial general intelligence）的研究道路。

　　从语义上来说，Embodied 指具体的、具象的、有形的，而在这里对智能体我们翻译为具身，更着重于身体（body）这个属性，字面意思就是具有身体的。总的来说，Embodied AI 研究的就是可触碰、可交互、生活在现实世界中的智能体，很大意义上就是拥有物理身体和智能的机器人，这也就是为什么具身智能是人工智能和机器人的交叉领域。听起来具身人工智能是对智能机器人取了一个新的名字，然而研究具身化的智能其实是人工智能研究重大的、范式（paradigm）级别的变革，具有深远的意义。

　　我们可以先看看目前主流的、在深度学习时代广泛采用的学习范式：先是数据采集，然后是数据标注，最后是监督性训练。这样的范式严重依赖人类对学习资料的挑选，在数据充足、标注难度低、不需要交互的一些问题上已经取得很好的效果，比如人脸识别、机器翻译等等，然而这样的智能属于典型的弱人工智能，目前还看不清如何通向强人工智能或者说是通用人工智能。

　　反观具身智能，他立足于对人类婴儿认知的研究成果——智能的产生源于智能体与真实环境的感知和物理交互，从目的上就是要挑战通用智能。可以想见，作为典型的强人工智能体，我们人类在成长过程中比较少的依赖当前深度学习中采用的监督学习范式，而一些关键性的技能的发展，如行走、使用工具、学习新的技能，都更依赖于身体力行的尝试。

　　作为身在北大前沿计算研究中心、以推进计算与智能前沿领域发展为目标的青年学者，我的学术理想正是赋予智能体或者机器人与环境自主地交互、从交互中学习并衍生出通用智慧的能力，以期发展出可以更好地满足人类多种多样需求的强人工智能体，如家用机器人。同时，具身智能有很强的跨学科的特点，也能发挥我本科在物理和电子工程领域的一些积累。

问：可以谈谈你具体的研究问题吗？

王鹤：我当前的研究主要围绕发展可泛化的机器人视觉（robotic vision）系统和基于视觉的机器人物体操控（object manipulation）。具体来说，通用智能体需要感知和接触人类日常生活中各式各样的物体，包含大量的未见过的物体，需要很强的泛化性。在博士期间，我发表在 CVPR 2019 oral 的关于归一化物体坐标空间（Normalized Object Coordinate Space, NOCS）的工作开辟了类别级物体六维位姿估计（category-level 6D object pose estimation）的这一位姿估计的子领域，主要解决的问题就是如何把位姿估计（亦即估计物体的中心位姿和三维朝向）从只能感知几个已知物体的实例级推广和发展到能估计一类物体中各种各样的、包括大量训练中没有见过的物体实例的类别级。作为机器人视觉中的重要课题，位姿估计与机械手抓取等有密切联系，而我的这项工作将位姿估计的泛化性大幅提升，向通用机器人视觉系统迈进了重要的一步。

　　在北大，我着力于进一步拓展机器人视觉和操控的可泛化性。举例说明，如何学习可泛化到类别的物体操控策略，又或者如何实现超越类别级、对全新物体的感知和操控。另外，我对如何减少深度学习任务中对监督的依赖也很感兴趣，我认为这也是真正加速智能发展的一个重要手段。

问：你在教学上有什么规划？

王鹤：明年春季学期我将开设计算机视觉导论课程，主要面向中高年级本科生。在当今深度学习风靡的时代，如何面向本科生上好计算机视觉这门课，我有一定的思考。

　　计算机视觉作为人工智能中最重要的研究和应用领域之一，具有相对久的发展历史，有着众多经典的方法和问题解决思路。然而，随着近年来深度学习的兴起，在很多任务上深度学习都取得了更好的结果，在研究中渐渐有系统地替代传统视觉方法的趋势。值得注意的一点是，单纯使用深度神经网络对数据进行监督性训练带来的红利已经消失了，深度神经网络已经成为了常用的手段，因此进一步发展计算机视觉更依赖于对任务本身的理解，如对特征、对约束、对各种相关变量之间相互依赖的探索，而这些在传统计算机视觉中都有深入的研究。

　　因此，我认为应当平衡地介绍计算机视觉的传统方法和基于深度学习的方法，系统地介绍计算机视觉中基本的概念，突出计算机视觉传统方法中的精华，并辅以深度学习方法、展现效果最优的工作，以期学生们能够扎实基础、拓宽口径、与前沿研究和工业实践能够完成对接。并且，基于我个人的科研，我将会有选择的介绍除了对图片以外的各种数据载体的视觉方法，希望能够展现计算机视觉领域的全貌。

问：可以谈谈你到中心工作的体验吗？

王鹤：前沿计算研究中心给了我一个非常温暖和自由的工作环境。这里有丰富的学术交流活动，支持并鼓励我们邀请国际上活跃的学者来做报告，从我个人的研究领域来讲，报告的质量和数量都与美国顶尖名校相当。更加难能可贵的是，中心也是学生的家园。在科研和学术以外，中心还为图灵班学生、中心研究生和所有在这里做科研的学生及访问学者提供了丰富的文娱活动，营造了其乐融融的氛围，在我眼中甚至超越了我博士期间的体验。很高兴能在这里和这么多优秀和有天分的学生一起工作，并向其他杰出的学者学习。