AI自动审稿“英语为母语的作者的论文更具有创新性”偏见

2021-08-19 09:11:11

谈及研究AI自动审稿系统的初衷，卡内基·梅隆大学博士后刘鹏飞说，“在不同的时代背景下，都会有一些新的、不同的发展需求;一个人如果能感受到它并且把握住，那么就会成为这个时代所在领域的弄潮儿，或者成为所在领域的领先者。”

科学研究的快速发展，使得同行评议的科学出版物呈现指数级增长。以机器学习和计算神经科学国际会议——神经信息处理系统大会(NeurIPS)为例，2017年其投稿量有3000余篇，至2020年，上升到了1万余篇。繁重的审稿工作给现有的审稿机制带来了巨大的挑战。

“所以我们思考自动审稿的可能性，即AI能否帮助我们从繁重的审稿工作中解放出来?”刘鹏飞于是和卡内基·梅隆大学硕士生袁玮哲、助理教授格雷厄姆·纽比格合作，着手研究AI自动审稿系统“ReviewAdvisor”。在日前的智源社区青源LIVE活动上，刘鹏飞与袁玮哲在线分享了研究该系统的历程。

解构

之前，也有人尝试做“自动审稿”任务，但这些工作几乎都是把AI生成的评审意见和人写的意见混在一起，让大家看看能不能区分。这些工作很难评价AI生成的评审意见是否合理以及高质量。

可以说，AI自动审稿这项工作的第一个贡献，就是提出了一些评价指标，能够从多角度刻画“评审意见”的质量。

“对于我们来说，首先需要回答的一个问题是，什么才是一个好的评审意见。”袁玮哲认为，否则自动审稿系统就无从谈起，“因为就算设计出了系统，没有好的指标去衡量生成的评审意见的质量，也很难去提升系统”。

为此，3人查阅了很多顶级会议的“论文评审指南”，总结出了一个好的评审意见应该具备的特征，主要有5个方面：判断性、全面性、合理性、准确性、拟人性。例如，判断性是指评审意见对一篇论文质量好坏的评判，与这篇论文最后是否被接收之间的关联性。

同时，“我们也希望系统生成的评审意见，与人写的评审意见相比，在书写结构、语义逻辑等方面，都应该是比较类似的。”袁玮哲说。

建模

评价指标的挑战解除后，随之而来的是数据集的挑战。“同行评审数据非常少，而且评审数据都是非常私人的，不愿意公开。”袁玮哲认为，之所以此前很难做“自动评审”这样的研究，数据少且不公开是重要原因。

而后出现的“公开评审”平台，让人们有机会从中获得一些评审意见数据。但因为前几年的投稿量非常少，“公开评审”平台上只有几百或者上千条数据，这样的数据量也很难进行一些自动审稿模型的训练。但近年来恰逢AI研究非常火热，投稿量基本上是年年翻倍，研究人员能够从公开评审平台上收集到足够多的数据，保证模型训练。

于是，3人用网络爬虫工具，获取了2017年~2020年的ICLR(国际学习表征会议)和2016年~2019年的NeurIPS会议的公开评审数据，一共收集到了8000多篇论文以及2.8万多条评审意见，一篇论文一般对应3~4条评审意见。

但爬取的这些评审意见数据，都是纯文本形式的，AI系统是无法理解的。“我们需要对评审意见里的信息进行‘表征’定义，然后，我们采取了一种半人工半自动的方法，对数据集进行标注。”袁玮哲表示，最终得到了质量非常高的数据集。

在其后的模型训练环节，研究人员先在论文中抽取一些非常重要的句子，用这些句子来做评审意见的生成。在这种先抽取后生成的框架下，他们综合运用了2种抽取策略以及两种生成策略，并最终成功形成了AI自动审稿系统“ReviewAdvisor”。

伦理

AI自动审稿系统“ReviewAdvisor”出来后，得到了很多正向的反馈。有人在试用了该系统后，表示该系统生成的评审意见，比过去他收到的一些由专家写的意见更具有建设性。

那么，论文审稿人真的就要被替代了吗?

在对一些客观条件识别方面，“ReviewAdvisor”具有明显的优势。例如论文违反了匿名规则，系统可以很快识别出来，直接给出“拒稿”意见。

但是，“我们的系统也会生成带有偏见的评审意见。”袁玮哲说。

对于英语为母语的作者的论文和非英语为母语的作者的论文，由人写的评审意见和系统生成的评审意见都认为，在论文的“清晰性”方面，英语为母语的作者表现得更好。袁玮哲认为，这或许是有一定道理的，“确实非英语为母语的作者在写文章时，用英语表达观点会有一些困难”。

但是，系统生成的评审意见还得出“英语为母语的作者的论文更具有创新性”。袁玮哲说，这可能是系统目前在“偏见”方面存在的比较显著的问题。

研究论文提交后，谷歌公司科学家在推特上说，“可以尝试一下这个系统，但千万不要用这个系统的结果取代审稿工作，否则也太对不起被审论文的作者了”。

关闭

相关推荐