王鹤课题组获 ICLR 2022 机器人ManiSkill挑战赛无额外标注赛道冠军
日前,由美国加州大学圣地亚哥分校、伯克利分校以及斯坦福大学联合在国际机器学习顶级会议 ICLR 2022上举办的机器人挑战赛 SAPIEN ManiSkill Challenge 2021落下帷幕。北京大学前沿计算研究中心王鹤老师领导的参赛队伍 EPIC Lab 在无额外标注(No External Annotation Track)赛道获得冠军。
获奖证书
论文链接:https://arxiv.org/abs/2203.02107
比赛详情
ManiSkill Challenge 致力于让机器人学习到可泛化的物体操作技巧,设置了4个不同的任务,分别是开抽屉、开橱柜门、推椅子以及移动水桶。每个任务都有多达数十个不同的物体实例,参赛者需要从训练实例中学习到可泛化、对未见过的测试实例工作的物体操纵策略。该比赛吸引了来自麻省理工学院、卡内基梅隆大学等全球知名高校和科研机构的30余支队伍参与其中。
比赛海报
王鹤老师带领具身感知与交互实验室(Embodied Perception and Interaction Lab,简称 EPIC Lab)的两位同学:北京大学工学院本科生沈昊和信息科学技术学院本科生万维康,组成 EPIC Lab 队伍,在无额外标注赛道上以成功率超越第二名18.35%的绝对优势获得冠军。两位同学在 ICLR 2022 期间举办的物理世界可泛化策略学习研讨会(Generalizable Policy Learning in the Physical World)上做获奖报告(winning oral presentation),并获颁3000美元的冠军奖金。
获奖方法简介
我们本次参与的是 ManiSkill Challenge 中的无额外标注赛道。在该赛道中,赛方提供了若干成功的机器人实现每个任务的演示示例,但是禁止使用除了官方提供数据以外的数据标注。机器人可以在 SAPIEN 模拟器中与环境交互,环境可以提供机器人的状态 robot state,含有环境点云的 observation,以及强化学习所需要的奖励函数 reward function。
针对这样的情况,我们的工作提出了一种基于模仿学习 imitation learning 的类别级物体操控策略学习方法。我们以 model-free 强化学习中的SAC算法结合生成对抗模仿学习(GAIL)算法作为基线模型。在此之上,为了探究如何提高机器人在类别层面(category-level)上的泛化能力,我们提出了三项重要改进,分别为:致力于提升对抗模仿学习稳定性的 progressive growing of discriminator in GAIL,解决演示策略和学习到的策略之间分歧性的 generative adversarial self-imitation learning from demonstration 以及消解模仿学习中马太效应的 category-level instance-balancing buffer 的方法。我们的消融实验验证了每一项改进可以使成功率与泛化能力显著地提高。
我们的改进方法与网络结构