董豪课题组 ICRA 2024 入选论文解读:远近视角结合,轻松应对点云噪声
本文是对发表于 ICRA 2024 的论文 Articulated Object Manipulation with Coarse-to-fine Affordance for Mitigating the Effect of Point Cloud Noise 的解读,该论文由北京大学董豪团队完成。
本文提出了一种由粗到细的工作流,有效利用远距离点云和近距离点云,将它们集成在一起以缓解点云噪声问题。8个物体类别上的对比实验和消融实验证明了我们方法的有效性和可泛化性。真实世界实验表明,我们的方法只要使用商用相机,即可完成物体操纵。
论文链接:https://arxiv.org/abs/2402.18699
项目主页:https://sites.google.com/view/coarse-to-fine/
01 背 景
对于下一代智能机器人技术而言,能否高效地辅助人类并与日常生活中常见的三维铰接物体(比如橱柜、抽屉等)进行精密互动显得至关重要。不同于人类,机器人尚不具备固有的部件语义理解能力,这一局限使它们在处理复杂关节对象时面临难题。近期的一系列研究已在探索基于三维几何数据的精细化操纵可行性分析领域取得进展,特别是点级可行性分析这一分支。其聚焦于物体各局部部位的几何细节,表征了对各类物体实施操作时每个点的可操作性信息,并已在多个应用场景中展现出了强大的表现力和广泛适用性,涵盖铰接型物体操纵、双臂协同操作、环境感知下的操控操纵,乃至可变形物体的操纵。
图2. Wu et al., "VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating 3D ARTiculated Objects," ICLR 2022.
然而,在实际应用中,上述可行性学习方法面临着“仿真到现实”(即 sim-to-real gap)的鸿沟。尽管在理想化的模拟环境中,利用完整无缺的点云数据训练的模型往往表现出色,但在直接迁移到充满噪声的真实世界场景,即对实物进行扫描获取的点云数据上时,这些经过模拟训练的策略时常会不再有效。这种模拟至真实世界间的性能衰减现象主要原因有二:一方面,仅在理想模拟环境下基于完美点云训练的模型难以适应真实世界中存在的位于物体轮廓以外的噪声点;另一方面,真实点云中的噪声可能导致对于精细操作极为重要的几何特征(如把手、边缘轮廓)失真甚至丢失,从而导致噪声点云无法为精确操作提供有效指导信息。
图3. 点云噪声的不利影响
为了缓解点云噪声对机器人性能的影响,本文利用了相机与目标物体间距越大,点云噪声也随之增大的特点,构建了一个由粗到细的层次性学习框架。
02 方 法
首先,在远距离拍摄大范围、低精度的噪声点云,通过可行性预测来划定大致的操作区域。即使像把手这类重要的局部几何特征受到扭曲甚至缺失,由于点云覆盖了整个物体,粗略的可行性预测仍能估计出较为准确的操作位置起点。
然后,机械臂末端搭载的相机被移动至由粗略可行性预测所指示的预期操作区域附近,采集该局部区域的精细点云数据。然而,单纯依赖精细点云确定操作点仍存在局限,因为它忽视了全局几何环境。例如,在执行开门动作时,精细点云不包含关于门轴方向的任何信息,因为近距离拍摄通常无法覆盖完整的门轴结构。
为此,在学习可行性和规划动作策略的过程中,我们将粗略点云所捕获的特征信息融入精细点云之中。这样,既能利用精细点云的局部精确性,又能借助粗略点云提供的全局几何上下文,从而更全面、稳健地指导机器人在真实世界中的行为。
最后,执行模块为近景点云中的每一个点输出一组操作动作集合,用以操控目标物体。
图4. 流程图
03 实验结果
通过采用 SAPIEN 物理模拟器以及配备了能依据真实世界传感器相同原理生成含噪声点云的光线追踪深度相机的 PartNetMobility 数据集,我们的实验以拉开和推关为主要任务,严谨地评估了我们的方法,证明了其有效性。
与基线的对比表明我们的方法能结合整体几何结构和局部几何结构,克服噪声所带来的不利影响。与随机选择粗粒度点、随机选择细粒度点的对比表明分两次选择点是有益处的。与单独处理远近视角的对比表明我们远近结合的设计是有效的。
表1. 模拟环境实验结果
为了验证我们方法在真实世界的适用性,我们在装备有 Realsense 相机的7自由度 Franka Emika Panda 机器人上开展了实验。结果证实了我们的方法可以直接应用于真实世界场景,并表现出良好的效果。
表2. 真实世界实验结果