新闻动态
新闻动态

静5青年讲座回顾:徐海峰博士谈机器学习中的经济学

  2023年9月6日,University of Chicago 的徐海峰博士访问北京大学前沿计算研究中心,并在静园五院作了题为“The Economics of Machine Learning”的报告,介绍了他所领导的实验室在将经济学和机器学习结合方向做的研究与努力,以其在推荐系统和学习预测定价方向做的研究为具体实例进行介绍。此报告由中心讲席教授邓小铁老师主持。

 

  目前,机器学习算法正变得越来越普及,而且深入到人们的日常生活中。这使得学习算法经常需要与其他智能体进行互动。在这些互动中,智能体与智能体、智能体与学习算法之间往往拥有不同的目标和服务对象。因此,利益冲突和博弈场景在所难免,这使得机器学习的经济学分析变得愈发重要。

 

  报告从两个方向展开:一是利用机器学习技术解决经济学问题,二是建立对机器学习的经济学理解。第一个部分主要关注推荐系统中内容创作者的博弈问题。作为我们日常生活中不可或缺的一部分,众多的机器学习算法被设计出来,以实现尽可能精确的内容推荐。然而,这些推荐算法通常都假设内容创作者和用户是稳定的,并针对稳定的环境进行内容推荐和预测。在报告中介绍的第一个研究中,作者们考虑了内容创作者的策略性——他们会选择创作最大化自身收益的内容,并研究了这种情况下内容创作者之间的博弈如何影响整个推荐系统的均衡结果。

 

  具体来说,假设每个内容创作者可以在自己的动作集中选择一个动作(例如选择制作多长的视频)。根据用户属性x(服从一个稳定的分布),系统将计算一个内容创作者与用户之间的匹配度(matching score)估计值。系统会选择匹配度最高的k个内容推送给用户,而用户将挑选真实匹配度最高的内容。他们关注的问题是:当每个内容创作者都运用无悔学习算法进行决策时,系统的社会福利将损失多少。这一损失可以用无政府代价(Price of Anarchy)来表示。

 

  本工作证明了该博弈的无政府代价的下界为1-\frac{1}{1+2logk},并且这个界在阶的意义下是紧的。

 

  通过这一结果,我们可以发现,当一次性可以推荐的内容数量较多(即k较大时),整个系统的效率也会更高。然而,在实际应用中,k 通常不超过15,这意味着仍会有约30%的效率损失。另一方面,为内容创作者制定合适的奖励机制以激励其创作是非常重要的。例如,如果创作者的收益与博弈中的用户流量成正比,则无政府代价会相当差。这促使我们思考第二个问题:如何设计恰当的奖励机制以进一步提高社会福利。

 

  在海峰博士及其合作者的第二项研究中,他们首先证明了,任何个人单调和群体单调的机制在均衡状态下都至少会损失1/k份的社会福利。接下来,他们证明了存在一个违反群体单调性的机制,使得其诱导的博弈在纯纳什均衡状态下可以实现最优的社会福利。该机制的核心思想是根据创作者的内容优于其他内容的程度来奖励创作者。在这个机制下,创作者间的博弈变成了一个势博弈(potential game)。这个项目与 Meta 展开合作,并开始进行了两阶段的在线测试。

 

  海峰博士的报告第二部分关注如何让机器学习成果和福利真正地惠及每个普通人和小商家。他们探讨了如何销售学习算法的预测,并将其建模成一个信息设计和机制设计问题。他们针对一个买家(例如,希望预测在某地开餐馆的人流量的人)和一个卖家(销售学习预测的公司),以及买家只有两个动作(开餐馆或不开餐馆)的情况,描绘了最优的机制。在这个机制中,最好的用于销售的预测具有阈值结构。同时,他们正尝试建立一个机器学习数据交易市场平台。

 

 

  最后,海峰博士强调,机器学习中的经济学是一个新兴的、兼具理论与应用实践的领域,有许多问题亟待我们研究和探索。