【IJTCS 2020】汪军教授谈多智能体学习

  首届国际理论计算机联合大会(International Joint Conference on Theoretical Computer Science,IJTCS)于2020年8月17日-22日在线上举行,主题为“理论计算机科学领域的最新进展与焦点问题”,由北京大学与中国工业与应用数学学会(CSIAM)、中国计算机学会(CCF)、国际计算机学会中国委员会(ACM China Council)联合主办,北京大学前沿计算研究中心承办。  

 

  8月19日,伦敦大学学院的汪军教授受邀在IJTCS大会上做了题为《多智能体学习(Multiagent Learning)》的特邀报告,主要讨论了近几年多智能体人工智能的理论和方法,聚焦智能体之间的竞争、合作和交流,并简述了最新的研究进展。报告由北京大学前沿计算研究中心讲席教授邓小铁主持。

  

 

  汪老师首先从宏观角度简述了人工智能的发展阶段,从模式识别到决策再到多智能体决策,由此引入了多智能体决策的概念。多智能体决策不仅要理解复杂的数据,还要给出反馈,并且通过多个智能体之间的交互获取信息。

 

  随后,通过引入强化学习的方法,我们可以把强化学习的通过试错优化而非预设模型的方法用于多智能体学习,即多智能体强化学习。这在理论上是一个简单的拓展,但实际上却很难进行优化。多智能体强化学习已经广泛应用于游戏 AI、在线广告推荐等领域。但如果将人类与学习算法做对比,会发现人类还有一些明显优势,比如研究表明,汉字的顺序并不一定能影响阅读,但对语言模型却是很大的困难。

 

  事实上,多智能体强化学习的鲁棒性也一直是一个需要解决的问题,由于强化学习算法倾向于在训练环境上过拟合,有些时候只要环境参数出现一点点变化就可能出错,这对于实际场景应用,如自动驾驶来说是不可容忍的。不过,最近的研究成果提出了基于最小最大值博弈(min-max game)和 Wasserstein 约束的鲁棒性好的强化学习算法。这也证明,强化学习只要有好的训练方法就可以保证鲁棒性和现实中的安全性。

 

  然而,想让多智能体决策具有更接近人的智能,还需要研究人脑和人的行为。以开车为例,如果专心开车,那么之后应该可以回忆起路上的情况;如果开车时分心,那么后来可能对道路情况就没有清晰记忆了。我们把前者的状态叫做有清醒意识的,后者则是潜意识的。脑与认知科学的研究者通过扫描两种情况下大脑的神经元活动水平,发现这是两种完全不同的决策方式,两种意识状态下激活的记忆也不相同。意识的计算理论的相关研究发现,简单的前馈神经网络不太可能产生意识,而当一些简单神经元的连接中出现回路时,学习的表现会得到明显提升。这也为多智能体学习的研究提供了借鉴的思路。而从工程上讲,要想设计一个具有“意识”的智能体的大脑,就要有一个世界模型,包括对周围环境和对手(其它智能体)的建模,还要有记忆、意识的状态等模块。

 

 

  接下来,为了体现多智能体的竞争和合作,汪老师通过几个典型的例子介绍多智能体强化学习。第一个是捕食者和猎物。将一百万个智能体分为捕食者和猎物进行强化学习,但并没有规定捕食者和食物的概念,仅仅以生存作为奖励,但很快捕食者和猎物就掌握了捕食和躲避的方法,而且捕食者和猎物数目的变化图像与自然界中生物的变化图像很相似。

 

  第二个例子是智能体互相理解的例子,智能体如果要相互配合完成任务,就免不了要理解和预测别的智能体,并根据对其他智能体的建模和环境做决定。这在理论上可以由一个公式概括,但实际中却很复杂,因为一个智能体并不知道别的智能体的思维深度。你以为对方在第一层,实际上对方可能在第四层。因此汪老师提出递归概率推理框架(Probabilistic recursive reasoning)模型。在 k 阶推理图模型中,在不同的思考深度上对对手进行隐式的预测。

 

 

  对于智能体的共同学习和竞争,汪老师认为可以用简单的网络让智能体决定哪些信息需要分享,并举了一个简单的例子。图中的蓝色智能体(向导)要引导黑色智能体(听者)前往蓝色目的地,这样两个智能体都可以获得奖励。两个智能体在这个环境下就学到了一套特殊的传递信息机制,向导靠近蓝色目的地运动,引导听者前往蓝色目的地。这个模型可以推广到不完全信息下的竞争决策,比如桥牌。

 

 

  接着,汪老师介绍了学习协调方面的研究进展。首先是在 Bi-level Coordination Game 中引入 Stackelberg 均衡作为学习目标而非纳什均衡(Nash Equilibrium),发现前者在学习地位不平等的智能体的一些博弈时非常有效。其次是借鉴物理学科中的势函数学习非零和随机博弈,可以仅仅用四个参数的势函数表示囚徒困境这一问题的所有信息,通过学习势函数可以在不需要解决原问题的情况下很快地学习并以此近似原博弈问题。

 

  汪老师还简单介绍了更多智能体参与的学习过程。平常所说的多智能体通常指两个,而如果有更多,则需要考察大量智能体的统计性质,将其转化为两个智能体的问题,考察其平均场估计量(如智能体的平均状态或者状态的经验分布)和智能体总数。汪老师进一步通过事例让听众感受到更多智能体参与决策的过程。

 

  最后,汪老师总结到:机器决策是 AI 要面对的下一个挑战,强化学习和多智能体学习是理论前沿,而要想有所突破还要结合对人脑更深刻的认识,人工智能还在期待新的革命性的理论。