新闻动态
新闻动态

董豪课题组、王亦洲课题组 RA-L 2023 入选论文解读:学会寻找从未听过的声源

  本文是 IEEE Robotics and Automation Letters (RA-L) 接收论文 Learning Semantic-Agnostic and Spatial-Aware Representation for Generalizable Visual-Audio Navigation 的解读。该论文是由北京大学董豪课题组、王亦洲课题组等单位合作完成。

 

  文章提出了用于学习语义无知(Semantic-agnostic)且空间相关(Spatial-aware)特征的即插即用方法,该方法可以提升现有的视觉声音导航(Visual-audio Navigation)算法在寻找从未听过的声源上的性能。

 

  论文地址:https://arxiv.org/abs/2304.10773

  项目主页:https://github.com/wwwwwyyyyyxxxxx/SA2GVAN

 

01 引 言

 

  导航对于具身机器人(Embodied Agent)而言,是一个非常重要的能力。当机器人需要完成一个任务的时候,它应该先能找到任务完成的地点——比如打扫房间、响应用户招呼。目前很多的机器人导航任务中,机器人仅仅接收视觉作为输入,这限制了机器人可完成任务的范围;而且从仿生学的视角看,人类可以整合听觉和视觉的信息更好的感知环境——特别是无法看见的地方。最近 SoundSpaces[1]的出现,让听觉在机器人导航任务中的相关研究变得更为容易,学者因此提出了视觉声音导航(Visual-audio Navigation,VAN)。

 

  在 VAN 中,机器人需要依赖听觉信息和视觉信息,寻找声源的位置。目前的算法 AV-Nav[1]和 AV-Wan[2]可以很好的解决不同尺寸的房间当中听过的声源(heard sound)的导航问题,表现出不错的性能,然而这些算法在从未听过的声源上的泛化性比较差。

 

  我们考虑到人类处理声音的方式是采用了双通道信息处理模式(duel-path model):“what”通道处理声音的语义信息,“where”通道处理空间位置信息;并且一个尚未认识世界的婴儿也能拥有对声音空间信息的感知能力。因此我们模仿人类的对声音信息的处理方案,将声音的信息分成两类处理。对于 VAN 任务的而言,如果保持机器人和声源的相对位置以及场景结构不变,语义信息会随着声音种类的改变而改变,但是空间信息却保持不变——这意味这空间信息可以达成声音种类之间的泛化;并且空间信息理论上足够完成导航任务。因此,为了提升导航任务的泛化性,我们希望模型能学到与空间信息相关的特征,而忽略与语义信息相关的特征。

 

  我们提出了两个即插即用的辅助任务用于让模型学习到上述特征。在第一个辅助任务当中,我们设计了一个分类器和声音编码器之间的对抗:声音编码器生成的特征向量被分类器用于鉴别声音种类,声音编码器要努力生成不被分类器正确之别种类的特征向量,而分类器则要努力正确识别种类;在第二个任务当中,我们设计了一个回归器,用于回归声音传来方向的角度信息,我们认为如果特征向量能回归出角度信息那么这个特征向量中一定存在空间位置相关的信息。

 

  我们在 Replica 和 Matterport3D 两个场景数据集上进行了测试,我们的算法均能对原有算法(AV-Nav[1]和AV-Wan[2])的泛化性能有提升。

 

02 方 法

 

模型流水线和训练过程示意图

 

语义无关学习(semantic-agnostic learning)

 

  本工作参考了域无关(domain agnostic)领域的文献[3]并提出了语义无关学习(semantic-agnostic learning)。具体来说,学习与语义无关的表示意味着,在固定某个位置的机器人和在另一个特定位置的声源的情况下,该方法在获取具有不同语义的声音时输出相同的表示。为了实现该效果,我们设计了一个对抗训练(adversarial training)模式的辅助任务,如流水线图中的绿色模块所示。其中音频编码器(audio encoder)需要削弱其输出的音频特征(audio features)的音频语义的可识别性,而音频分类器(audio classifier)则要试图通过音频特征来识别音频的语义种类。这样的对抗性训练迫使音频编码器学习与语义无关的表示。

 

  计算层面,我们通过使用梯度反转(gradient reverse)来实现对抗训练,对于音频分类器的参数Θ_{C},使用音频语义分类的交叉熵(cross-entropy)作为损失函数L_{C} 进行梯度下降训练:

  其中μ为学习率。

 

  而对音频编码器的参数Θ_{A},则使用除去L_{C}的其他 lossL_{O}(如强化学习部分的 Actor Critic Loss 等)的梯度方向和音频语义分类的损失函数L_{C} 的反向梯度进行梯度下降训练:

  其中λ 为权重参数,用来调节这两个 loss 之间的权重。

 

空间相关学习(spatial-aware learning)

 

  语义无关学习会忽略与导航无关的声音语义信息,但不会直接帮助机器人学习和导航任务相关的表示。尽管强化学习提供奖励来帮助机器人提取与导航相关的表示,但在初始探索阶段,机器人可能会忽略环境奖励,专注于忽略来自声音的语义信息。为了解决这一问题,我们设计了第二个辅助任务:预测声音源的方位,如图中红色模块所示。这可以有效地提供额外的训练信号,来帮助机器人提取空间信息并更好地学习导航任务。

 

  在实现中,我们不直接预测声音源的方位角,而是预测声音源的方位角的正弦和余弦。预测其正弦和余弦避免了由于角度的周期性导致的预测困难(如和表示的是同一个方位角)。我们使用均方损失(MSE,mean-square error)作为辅助损失函数L_{P}来进行训练。

 

03 实验结果

 

  实验结果表明,我们的方法在未曾听到过的声音上的泛化性和采样利用效率上均比基准线表现优异。

 

  我们的方法在不同的、未曾听到过的声音上的导航轨迹和之前的工作的对比:

 

 

参考文献

[1] C. Chen, U. Jain, C. Schissler, S. V. A. Gari, Z. Al-Halah, V. K. Ithapu, P. Robinson, and K. Grauman, "Soundspaces: Audio-visual navigation in 3d environments," in ECCV. Springer, 2020, pp. 17–36.

[2] C. Chen, S. Majumder, Z. Al-Halah, R. Gao, S. K. Ramakrishnan, and K. Grauman, "Learning to set waypoints for audio-visual navigation," in ICLR, 2020.

[3] Ganin, Y., Ustinova, E., Ajakan, H., Germain, P., Larochelle, H., Laviolette, F., Marchand, M. and Lempitsky, V., 2016. Domain-adversarial training of neural networks. The journal of machine learning research, 17(1), pp.2096-2030.