IJTCS 2021 | 工业分论坛精彩回顾
2021年8月16-19日,第二届国际理论计算机联合大会(International Joint Conference on Theoretical Computer Science,IJTCS)线上线下交互举行。大会由北京大学与中国工业与应用数学学会(CSIAM)、中国计算机学会(CCF)、国际计算机学会中国委员会(ACM China Council)联合主办,北京大学前沿计算研究中心承办。本期带来“工业分论坛”精彩回顾。
工业分论坛在线举办
本届大会工业分论坛的主题为“计算经济学对在线市场的影响(The Implication of EconCS in Online Markets)”,旨在讨论经济学、计算机理论、机器学习,以及算法博弈论在工业界的影响与应用。
论坛由清华大学经管学院副教授刘潇、AI TIME 负责人何芸共同主持,百度商业策略研发总监丁宗尧、百度资深研发工程师钱若函、贝壳找房人工智能技术中心算法架构师陈开江、腾讯广告策略算法中心衡量分析组组长朱志华等专家共同参与论坛讨论。
1 机器学习算法在工业界有着广泛地应用,例如业界非常关注的机器学习算法的可解释性问题。可否从工业界的角度谈谈对机器学习的应用重点、难点以及未来发展的看法?
钱若函首先分享了百度在机制和广告方面碰到的问题以及相关的想法。在他看来,模型的可解释性一直是一个很大的挑战:即使我们可以将模型做得越来越复杂,使各方面指标越来越好,却依旧不知道如何修改模型的相关参数使得广告相关的点击率变得更高。据此,我们自然产生了一个问题:如何在模型的性能及可解释性之间做一个折中处理。关于模型可解释性的重要性,另一个例子是,公司可以利用机器学习去生成拍卖机制,却不知道如何向客户解释这些生成的机制中隐藏的规则。
陈开江指出,在贝壳相关的行业里,消费者的行为占比非常重,而数据量却没有其他互联网行业占比多,因此在该行业中需要在一开始就把模型的可解释性考虑到业务中。对于贝壳行业来说,线下的业务规则可以帮助他们去启动和迭代模型。这种规则也许可以启发我们处理贝壳行业算法的可解释性。
朱志华认为,广告业界对机器学习的研究是比较广泛和深入的,然而大家往往高估了模型的作用。相比于数据的质量,模型的提升往往会遇到瓶颈。尤其在商业化的场景下,很多模型的提升其实是“虚假”的,在算法上线后也很难看到相关指标的抖动。总体来说,模型的作用远低于数据的作用。
陈开江表示,在过去我们使用大量数据带来的红利得到了很好的算法效果。当数据红利消失后,人们才开始关注模型的可解释性问题,以及数据背后的行为,例如:广告的点击率提升是由于算法对点击量的平移,还是算法真正理解了产生数据的行为。这是一种研究趋势的变化。
2 AB-test 是在工业界被广泛使用的工具,而线上社交网络的性质给传统的实验设计带来了新的机遇和挑战,可否针对这个话题谈谈其在工业界的业务场景?
陈开江首先分享了贝壳的线上环境现状,并用经纪人和客户之间的线上交流与线下委托解释了“转委托率”的概念。通过数据分析发现,对话的轮数越多,“转委托率”越高,因此对话轮数可以作为 AB 实验中的一个观测指标。然而在 AB 实验中发现该种观测指标并不奏效,进而发现不同客户的需求是不同的,所以在这种情况下容易被 AB 测试的结果所误导。这就使得我们需要在线下做大量的因果分析,分析客户的策略与状态变化,再回去考虑细化分组,进而执行 AB 实验,经过很长的周期才能得到一个确切的结论。
朱志华认为,大部分的互联网企业都面临多边市场或单边市场。在双边市场中存在双边网络效应,我们很难把不同的效应隔离开,因此很难去划分 AB 测试集。传统的 AB 设计已经到了深水区,目前很难做一些优雅的改进使其适用于双边甚至多边市场。即使目前已经有一些方法来隔绝网络效应,但是他们相关的误差和方差还是较高的,因此其适用范围并不是很广,尤其是在广告领域。
钱若函谈到,AB-test 的使用有一个隐含的假设:即所有的参与方都是静态的、没有策略性的。然而在博弈问题上,所有参与方都是策略性的。因此在博弈机制上,AB-test 的应用会面临很多挑战,其结果也会很有欺骗性。在多智能体或含有策略的环境下,用什么方案去评价一个策略的好坏是一个非常重要的问题。
3 最有可能与工业界结合的计算机理论是什么?
钱若函谈到,在百度的“拍卖机制”研究组,大部分人的背景为机器学习,并非拥有很强的计算机理论背景。学术界的博弈问题一般来源于一个简化的模型,然而在工业界的场景会复杂很多。另一方面,学术界一般会关注效率和收益的问题,但是在工业界不仅有效率相关的问题,还会有客户体验和客户生态的问题,这些问题在学术界的研究还比较少。这些问题都需要学术界和工业界更加紧密地结合起来,共同合作。
朱志华认为,就计算经济学这一交叉学科,工业界和学术界的 gap 大得不可思议。有些工业界的产品已经发布多年,但在经济学术界却几乎没有相关的理论。目前互联网工业界是由计算机背景的人在主导,而经济系的同学往往专注于理论模型的研究,导致他们的产出不容易被理解,因而难以在业界得到很好的发展。从这个现象也体现出经济学学术界输出的人才与互联网工业界需求的人才在一定程度上是平行的,缺少交叉。因此,如何使业界和学界更好的结合是一个未来需要持续研究的问题。
陈开江认为,学术界一般需要投入较长的时间来做研究,而工业界需要在短时间内解决问题。另一方面,学术界一般喜欢研究一些根深蒂固的本质问题,而工业界需要解决的是更浅层的、更具实用性的问题。如果业界与学界要有共同的产出,则需要共同解决一些“真问题”,即整个行业面对的共同问题,而不是某一个公司层面的问题;另外,要给解决这些“真问题”预设相当长的时间预期;最后,要有对应这些问题的标准数据集提供给学术界研究。
与会嘉宾针对以上话题进行了深入讨论,从工业界的角度分享了各自的观点,还提出了诸如“如何设计 AB-test 可以测量出策略变化后在经济学博弈下对结果的影响?”等一系列开放性问题,为学术界相关领域的研究提供了不同视角的思考与启发。