新闻动态
新闻动态

静园5号院前沿讲座:Avrim Blum谈存在偏置数据和策略行为的学习

  2021年12月17日,丰田工业大学芝加哥分校(Toyota Technological Institute at Chicago)杰出教授、首席学术官 Avrim Blum 受邀作题为“On Learning in the Presence of Biased Data and Strategic Behavior”的在线报告。报告由中心邓小铁教授、孔雨晴助理教授主持,相关内容同步通过 Bilibili 在线直播。

 

Avrim Blum 教授在线报告现场

 

  在讲座的开始,Blum 教授给出了一个现实生活中关于偏置数据学习的例子:软件 COMPAS 在预测出狱罪犯的再犯罪率时,相比白人严重高估了黑人的再犯罪率。虽然该软件尽可能降低错误率,但是在降低错误率上没有考虑公平性的约束。形式化地来说,在没有公平性约束的情况下,预测器的预测结果可能会出现 Pr[True | Predict] 接近但 Pr[Predict | True] 不接近的情况。通过这个例子可以发现,而当数据存在偏差时,保证公平并不是一件容易的事。

 

  基于此人们提出了衡量公平的标准并对算法进行约束。通常人们认为,公平约束会降低算法的准确度,在设计算法时需要在准确率和公平中做取舍。Blum 教授总结了两种常见的数据偏置:under-representation bias 以及 labeling bias。Under-representation bias 指具有某特质的个体在训练集中以某概率被丢失,而 labeling bias 指具有某特质的个体在训练集中以某概率被标记错误。Blum 教授对常见的两种公平性要求和上述两种数据偏置下最简单的 ERM 学习方法进行推导讲解,证明了某些公平约束在特定场景下有助于提高算法的准确率,两者可以达到双赢。这打破了人们的传统观念,给公平约束的研究指明了一个新的方向。

 

  在接下来的部分,Blum 教授介绍了被分类对象存在策略行为时应该如何学习。这是现实中广泛存在的情况,被分类的对象希望能被分类为正面(如大学录取),因此被他们会尝试修改可观测特征来实现这一目的。这个设定的主要挑战在于,当我们改变学习算法时,被分类对象也会根据算法改变策略。之后,Blum 教授以一些存在策略行为的典型线性二分类问题为例,展示了被分类对象会如何应对分类算法。在对象策略行为成本已知、或没有太多未知量的情况下,策略敏感的算法是容易推导的。而当我们拓展到实际的铰链损失函数中时,问题变得不再平凡。一个未来的方向是研究更多策略模型、分类函数的情况下双方的表现。

 

  最后,现场同学们踊跃提问,Blum 教授对同学们的问题进行了详尽的解答和讨论。

 

  报告视频回放:https://www.bilibili.com/video/BV1LF411B7Cc/