【ICLR2019】孔雨晴、王亦洲课题组:Max-MIG:基于信息论的众包联合学习

  日前,第七届国际学习表征会议(The 7th International Conference on Learning Representations, ICLR2019)公布了论文接收名单。北京大学信息科学技术学院2016级图灵班本科生曹芃、许逸伦作为共同第一作者完成的学术论文《Max-MIG:基于信息论的众包联合学习》(Max-MIG: an information theoretic approach for joint learning from crowds)榜上有名;指导教师为北京大学前沿计算研究中心助理教授孔雨晴和信息学院教授/前沿计算研究中心副主任王亦洲。

 

  ICLR是深度学习领域的顶级会议,也是国际发展最快的人工智能专业会议之一。会议采取公开评审的审稿制度,因其在深度学习领域各方面(如人工智能、统计学和数据科学),以及计算机视觉、计算生物学等重要应用领域发表和展示前沿研究成果而享誉全球。ICLR2019将于2019年5月6—9日在美国路易斯安那州新奥尔良市举行。

 

  这篇论文为众包学习(Learning from crowds)问题提出了一个基于信息论思想的算法。众包(Crowdsourcing)是一个用来获取大量标注数据的可行方法,即从一个广泛的群体,尤其是在线的平台(比如亚马逊的众包平台Amazon Mechanical Turk)上获取对数据样本的标注。然而,由于给予标注的人的水平情况是未知的,他们给出的标注可能会有各种各样的错误,尤其是对于一些比较难的任务,比如医疗图像的标注。我们需要从他们的标注中推断出真实的标注。尽管前人的工作针对这个问题提出了很多不同的方法,但是有一个问题没有解决:标注者的标注错误并不一定是两两独立的,有些人可能被同一个人指导过,犯非常相近的错误。考虑这样一个情景:

  

  

  我们希望训练一个图片分类器,判断肿瘤的医疗图像是良性的还是恶性的,每张图片被很多实习医生标注,这些实习医生来自A,B,C三个医院,每个医院有一位专业医生曾对自己医院的实习医生进行指导,且这三位专业医生常犯的错误互不相关。这些提供标注的实习医生中有两位来自医院A,二十位来自医院B,两位来自医院C,但是我们收集数据的时候并不知道他们的身份、水平、来自于哪里。那么在收集到这24位实习医生的数据之后,如果我们用多数投票原则来推断真实标签,那么这种推断会大幅偏向于医院B。如果我们假设这24位医生之间所犯的错误是两两独立的,并且用前人根据这个假设的方法,那么根据该论文在附录中的证明,这种推断还是会大幅偏向于医院B。

  

  

  该论文的方法基于一个基础假设:在真实标签的条件上,群众的标注和数据本身是条件独立的。也就是说,真实的标签是群众标注和数据本身的交集。在很多种信息结构中,这个假设都是成立的,比如以下三种:(1)每个人所犯的错误都两两独立;(2)有一部分人认真标注,还有一部分人随便标注,比如给所有图片都标良性;(3)有一些专家之间所犯错误相互独立,但他们手下的实习生会犯高度相关的错误。

 

  

  该论文基于共同学习(co-training)的框架,和最大化互信息(mutual information)的方法,提出了一个适用于各种信息结构的算法Max-MIG。在这种算法中,我们同时训练数据分类器(data classifier)和标注聚合器(crowds aggregator),希望最大化的目标函数为二者输出的MIG,即互信息(mutual information)的一个下界。其中,数据分类器是一个卷积神经网络,标注聚合器是加权平均。该文章在附录中证明了当数据分类器与标注聚合器同时取到真实贝叶斯后验概率时,MIG取得最大值。MIG的计算方式可以理解为:如果两边的网络对相匹配的两个输入的输出一致,那么给予奖励;如果两边的网络对不匹配的两个输入一致,那么给予惩罚。这样可以防止两边的网络一直输出一样的无意义的输出,比如一直输出“良性”。它的公式是:

  

  

  该方法在生成的数据集上与真实的数据集上都取得了 state-of-the-art 的结果。

  

 

  原文链接:https://openreview.net/pdf?id=BJg9DoR9t7

  北京大学新闻网链接: http://pkunews.pku.edu.cn/xwzh/2018-12/25/content_305880.htm

  北京大学信息科学技术学院新闻链接:http://eecs.pku.edu.cn/Survey/news/7431.shtml