AI自动审稿“英语为母语的作者的论文更具有创新性”偏见

2021-08-19 09:11:11

谈及研究AI自动审稿系统的初衷,卡内基·梅隆大学博士后刘鹏飞说,“在不同的时代背景下,都会有一些新的、不同的发展需求;一个人如果能感受到它并且把握住,那么就会成为这个时代所在领域的弄潮儿,或者成为所在领域的领先者。”

科学研究的快速发展,使得同行评议的科学出版物呈现指数级增长。以机器学习和计算神经科学国际会议——神经信息处理系统大会(NeurIPS)为例,2017年其投稿量有3000余篇,至2020年,上升到了1万余篇。繁重的审稿工作给现有的审稿机制带来了巨大的挑战。

“所以我们思考自动审稿的可能性,即AI能否帮助我们从繁重的审稿工作中解放出来?”刘鹏飞于是和卡内基·梅隆大学硕士生袁玮哲、助理教授格雷厄姆·纽比格合作,着手研究AI自动审稿系统“ReviewAdvisor”。在日前的智源社区青源LIVE活动上,刘鹏飞与袁玮哲在线分享了研究该系统的历程。

解构

之前,也有人尝试做“自动审稿”任务,但这些工作几乎都是把AI生成的评审意见和人写的意见混在一起,让大家看看能不能区分。这些工作很难评价AI生成的评审意见是否合理以及高质量。

可以说,AI自动审稿这项工作的第一个贡献,就是提出了一些评价指标,能够从多角度刻画“评审意见”的质量。

“对于我们来说,首先需要回答的一个问题是,什么才是一个好的评审意见。”袁玮哲认为,否则自动审稿系统就无从谈起,“因为就算设计出了系统,没有好的指标去衡量生成的评审意见的质量,也很难去提升系统”。

为此,3人查阅了很多顶级会议的“论文评审指南”,总结出了一个好的评审意见应该具备的特征,主要有5个方面:判断性、全面性、合理性、准确性、拟人性。例如,判断性是指评审意见对一篇论文质量好坏的评判,与这篇论文最后是否被接收之间的关联性。

同时,“我们也希望系统生成的评审意见,与人写的评审意见相比,在书写结构、语义逻辑等方面,都应该是比较类似的。”袁玮哲说。

建模

评价指标的挑战解除后,随之而来的是数据集的挑战。“同行评审数据非常少,而且评审数据都是非常私人的,不愿意公开。”袁玮哲认为,之所以此前很难做“自动评审”这样的研究,数据少且不公开是重要原因。

而后出现的“公开评审”平台,让人们有机会从中获得一些评审意见数据。但因为前几年的投稿量非常少,“公开评审”平台上只有几百或者上千条数据,这样的数据量也很难进行一些自动审稿模型的训练。但近年来恰逢AI研究非常火热,投稿量基本上是年年翻倍,研究人员能够从公开评审平台上收集到足够多的数据,保证模型训练。

于是,3人用网络爬虫工具,获取了2017年~2020年的ICLR(国际学习表征会议)和2016年~2019年的NeurIPS会议的公开评审数据,一共收集到了8000多篇论文以及2.8万多条评审意见,一篇论文一般对应3~4条评审意见。

但爬取的这些评审意见数据,都是纯文本形式的,AI系统是无法理解的。“我们需要对评审意见里的信息进行‘表征’定义,然后,我们采取了一种半人工半自动的方法,对数据集进行标注。”袁玮哲表示,最终得到了质量非常高的数据集。

在其后的模型训练环节,研究人员先在论文中抽取一些非常重要的句子,用这些句子来做评审意见的生成。在这种先抽取后生成的框架下,他们综合运用了2种抽取策略以及两种生成策略,并最终成功形成了AI自动审稿系统“ReviewAdvisor”。

伦理

AI自动审稿系统“ReviewAdvisor”出来后,得到了很多正向的反馈。有人在试用了该系统后,表示该系统生成的评审意见,比过去他收到的一些由专家写的意见更具有建设性。

那么,论文审稿人真的就要被替代了吗?

在对一些客观条件识别方面,“ReviewAdvisor”具有明显的优势。例如论文违反了匿名规则,系统可以很快识别出来,直接给出“拒稿”意见。

但是,“我们的系统也会生成带有偏见的评审意见。”袁玮哲说。

对于英语为母语的作者的论文和非英语为母语的作者的论文,由人写的评审意见和系统生成的评审意见都认为,在论文的“清晰性”方面,英语为母语的作者表现得更好。袁玮哲认为,这或许是有一定道理的,“确实非英语为母语的作者在写文章时,用英语表达观点会有一些困难”。

但是,系统生成的评审意见还得出“英语为母语的作者的论文更具有创新性”。袁玮哲说,这可能是系统目前在“偏见”方面存在的比较显著的问题。

研究论文提交后,谷歌公司科学家在推特上说,“可以尝试一下这个系统,但千万不要用这个系统的结果取代审稿工作,否则也太对不起被审论文的作者了”。

关闭
新闻速递