孔雨晴课题组 IJCAI 2021 入选论文解读：精彩！产生于节目结尾的意外-新闻动态-北京大学前沿计算研究中心

新闻动态

孔雨晴课题组 IJCAI 2021 入选论文解读：精彩！产生于节目结尾的意外

时间 : 2021-08-17 来源 : EconCS Lab 作者 : 许晟伟

　　本文是第三十届国际人工智能联合会议（IJCAI-21）入选论文《SURPRISE! and When to Schedule It.》的解读。该论文由北京大学前沿计算研究中心孔雨晴课题组与清华大学经管学院刘潇课题组、密歇根大学 Grant Schoenebeck 课题组合作，论文作者黄致焕、许晟伟、陆宇暄为北京大学图灵班学生。

　　该工作量化了信息流与观众感知质量之间的关系。信息流刻画了比赛直播过程中观众对于谁会获胜的信念，从而可以反映出比赛直播令人意外的程度。进行了一项实验研究，受试者在实验中观看世界上最大的电竞赛事之一，LOL S10。发现了：比赛结束时的意外程度在预测评分中起着主导作用。这表明了在影响感知质量的因素中，除了意外的总量外，意外释放的时间也起着举足轻重的作用。

　　论文链接：https://arxiv.org/abs/2106.02851

01
引子

　　距离2020年英雄联盟世界锦标赛（LOL S10）已经过去了近一年，千万英雄联盟玩家所期待的2021赛季的总决赛也将要打响，但在那个疫情影响下的夏天发生的一幕幕精彩的比赛瞬间，仍然为玩家所津津乐道：

　　我印象最深刻的比赛是 S10决赛 SN vs DWG 第二局。这局比赛从 BP 开始就很有意思，SN 第四选 pick 了狮子狗来针对 DWG 的伊芙琳，又在第五选 counter 位选出了无双剑姬，这两手选人极具“亮剑”精神。比赛中剑姬一秒四破单杀卢锡安，以及第四条小龙团中出肉的狮子狗精彩的操作都让人印象深刻。而最后一波团战中剑姬的五杀直接将比赛推向了高潮，以一个梦幻般的方式迎来了这局比赛的胜利。

——剑指S11

　　我印象最深的比赛是 sn 和 g2 的小组赛, 当时是争夺小组第一, sn 开局开始就一直落后到了30分钟打了一波好团拿下大龙推到基地看似要翻, 不过最后一波团被 g2 打赢了于是输了, 当时认为是最精彩的比赛之一。

——613

　　不仅仅是英雄联盟的赛事，DOTA2玩家总是对“水人波高地”耿耿于怀，足球粉丝大都对“诺坎普奇迹”的惊天逆转啧啧称奇，篮球迷们更是将“35秒13分”的麦蒂时刻奉为经典。为什么这些比赛“名场面”令人印象深刻，而有些比赛却很快被人遗忘？让直播赛事精彩的关键是什么？快来跟随孔雨晴课题组的工作《SURPRISE! and When to Schedule It.》来一探究竟吧。

研究问题

　　近年来，流媒体直播行业在世界各地蓬勃发展。这其中包括竞技性直播，而竞技性直播又包括电子竞技（如英雄联盟、Dota2、CS:GO、Apex Legends）、体育竞技（如足球、网球）等内容，以及象棋、扑克、虚拟赌场等其他游戏。根据相关统计数据，电子竞技及其相关内容占据了 Twitch.tv 上24.2%的观看时间。2016年约有6.09亿人共花费超过50亿小时观看竞技性直播。

　　直播节目在世界范围内收到了广泛欢迎，但它们的质量却参差不齐，是什么因素影响了直播节目到质量呢？我们认为观众对直播的感知质量，一定程度上来自于内容中的意外。刻画意外对感知质量影响的一个方法是收集节目中传递的信息流。在比赛开始之前，观众可能对比赛结果（哪一方会胜利）并不非常清楚。随着直播比赛的展开，观众会更好地了解到谁可能是赢家。而当比赛结束时，赢家就非常显而易见了。

　　此处，信息流衡量的是在比赛的持续时间内，观众对哪方会获胜的信念。直观地说，意外衡量的是信息流随时间波动的程度。

图1. 研究问题

　　我们的研究目标就是要量化观众的信息流和感知质量之间的关系（图1）。以往的研究要么从理论上假设这种关系 [1]，要么使用统计模型来产生理论上的信息流，并间接测量观众的感知质量（例如通过收视率）[2-4]。与以往不同，我们直接从观众那里收集数据来量化这种关系，并为这种感知质量模型的设计提供新的见解。具体来说，我们收集观众的实时信念来计算比赛中的意外值，并利用实验数据研究意外值总量和感知质量之间的关系，以及意外释放的时间和感知质量之间的关系。

结论概述

图2. 74场比赛中的两个例子

　　我们发现，受试者的平均评分与比赛的意外值总量明显正相关，同时，比赛结束时的意外值对受试者的平均评分影响最大（相对比赛的意外值总量更显著）。例如，在图2中，G2 和 SN 的比赛信息流波动更大，而且在结尾时释放了较多意外，比 DWG 和 PSG 的比赛更受观众欢迎。这可能是由于受试者会赋予在节目后期获得的体验更大的权重，而这一点在之前的研究中没有得到体现。

　　我们的结果表明，感知质量模型应该考虑时间因素，而且节目内容设计者可以使用更好的信息释放策略，比如提高比赛在接近尾声时出现转折的可能性。

研究方法

　　我们设计了信息流收集平台（Information Flow Elicitation Platform）来收集观众的实时信念和赛后评价。具体来说，直播开始前，受试者报告自己对于红蓝两队的偏好；比赛过程中，受试者观看流媒体比赛直播，并可以在任意时间更新他们对比赛结果的信念；直播结束后，平台根据被试报告的信息流发放报酬，更准确的预测会带来更高的报酬。另外，受试者在直播结束后会对比赛的质量进行评分。

图3. 研究流程概览

　　我们利用信息流收集平台进行了一项针对 LOL S10的研究，其中包括76场比赛。我们从中国顶级大学中招募了107名受试者。对于每场比赛，我们向所有参与者发送了一个参与链接。受试者可以根据自己的意愿参与或多或少的比赛。此外，我们没有限制每个游戏中报名的受试者的数量。

　　我们总共获得了4,566条数据，一条数据包括一位受试者参与一场比赛的全部信息。其中，5位受试者参与了所有76场比赛，有3位受试者只参加了一次。每位受试者参与的比赛的平均数量是42.67。

图4. 信息流实验平台截图

模型：信念曲线、中位数曲线和意外值

图5. 信念曲线

　　为了减少那些总是报告极端信念（如0%，或100%）的非理性受试者所造成的偏差，我们使用中位数曲线来计算意外值。图6说明了中位数曲线和意外值的定义。即意外值是中位数曲线变化量绝对值之和 [1]。

图6. 中位数曲线和意外值

结论

　　首先，我们分析了受试者的评分和游戏中的意外值之间的关系。图7中每个点代表一场比赛，x 轴表示意外值，y 轴表示比赛的评分。通过线性回归发现，平均评分与意外值有显著的正相关关系（图7第一列）。我们进一步将游戏分为前后两半，观察到两个时间窗口的相反结果。在后半程，评分和意外值之间存在明显的正相关（图7第三列），而这种相关在前半程是负的（图7第二列）。

图7. 评分与意外值的关系

　　值得注意的是，后半程的意外值比整体的意外值更能预测平均评分：在回归中，后半程意外值的系数值为1.743，而整体意外值的系数值为1.214。此外，使用后半程意外值时，adjusted R² 值也比使用整体意外值时更大。一种可能性是，受试者可能更重视他们在比赛的后半程的观看体验。我们的结果表明，为了优化信息释放的策略，优化目标应该考虑时间因素，更加强调后期的意外。

　　对这一结果的一个可能的解释是峰终效应（peak-end effect）。这是说，人们在评价一个体验时，主要是根据他们在高峰期（最激烈的时候）和结束时的感受，而不是根据他们在所有时刻的感受的平均。因此，我们进一步分析了我们的数据中峰值意外和结局意外的影响。我们的结果显示，它们都与平均评价高度相关，而结局意外具有最高的相关性（图8）。结局意外比后半段的意外能更好地预测感知质量（结局意外的 adjusted R² 值为0.232，大于后半程意外的 adjusted R² 值0.222）。

图8. 评分与峰值意外和结局意外的关系

　　此外，我们观察到支持的球队获胜（失败）的受试者的评分明显增加（减少）。在受众偏好同质化的游戏中，例如一个受欢迎的队伍对阵一个不受欢迎的队伍，这样的个人评分偏差导致了对游戏的平均评分不公平的高（低）。因此，我们将游戏分成三类：赢、输和中立。赢（输）类包括大多数受试者支持的队赢（输）的比赛。中立类包括两队都不被大多数人支持的游戏（受试者对队伍的偏好可以是中立的）。同样，我们在所有三类比赛中都观察到了与之前类似的结果（图9）。

图9. 评分与观众支持情况的关系

总结

　　我们研究了一场比赛的意外值和它的感知质量之间的关系，并为此开发了一个平台，以收集观众的对 LOL S10比赛的实时信念和赛后评分。我们的实证分析表明，游戏后期的意外程度对受试者的评分有更大的影响。这表明观众更希望意外发生在游戏的最后阶段。未来的工作方向是定义一个考虑到时间因素的新的感知质量模型，并从理论上分析这个模型随着时间推移揭示信息的最佳方式。未来的工作也可以类似地最优化悬念的设置。

　　此外，我们希望信念预测可以作为一种娱乐功能嵌入到赛事直播中。最后，我们还可以收集其他信息，如弹幕中的文字，以更好地构建信息流。

致谢

　　在此，我们全体作者向对我们的工作给予帮助的人们表示感谢。感谢 IJCAI 匿名审稿人提出的改进意见，感谢任珂凝、杨佳伦、张馨伦、郭永康、Yunsoo Kim、严帆和钟正的帮助和讨论，感谢全体参与 LOL 实验的受试者付出的时间和精力。

参考文献

[1] ELY J, FRANKEL A, KAMENICA E. Suspense and surprise[J]. Journal of Political Economy, 2015, 123(1): 215-260.

[2] BIZZOZERO P, FLEPP R, FRANCK E. The importance of suspense and surprise in entertainment demand: Evidence from Wimbledon[J]. Journal of Economic Behavior & Organization, 2016, 130:47-63.

[3] SCARF P, PARMA R, MCHALE I. On outcome uncertainty and scoring rates in sport: The case of international rugby union[J]. European Journal of Operational Research, 2019, 273(2): 721-730.

[4] BURAIMO B, FORREST D, MCHALE I G, et al. Unscripted drama: soccer audience response to suspense, surprise, and shock[J]. Economic Inquiry, 2020, 58(2): 881-896.

[5] BRIER G W. Verification of forecasts expressed in terms of probability[J]. Monthly Weather Review,1950, 78: 1-3.

[6] GNEITING T, RAFTERY A. Strictly Proper Scoring Rules, Prediction, and Estimation[J]. Journal of the American Statistical Association, 2007, 102: 359-378.

[7] LAMBERT N S, LANGFORD J, WORTMAN VAUGHAN J, et al. An axiomatic characterization of wagering mechanisms[J/OL]. Journal of Economic Theory, 2015, 156: 389-416.