她从2万篇论文中挑出造假图片 只凭一双肉眼
图片来源: gfpeck, CC BY-ND 2.0
到目前为止,职业学术打假人 Elisabeth Bik 以一己之力筛查了数万篇论文,搜寻有篡改嫌疑的图像,她是如何踏上这条道路的?
原作 | Ingfei Chen
翻译 | 周舒义
编辑 | 魏潇
2013 年 6 月,微生物学家 Elisabeth Bik 对抄袭这个话题萌生了好奇心。她之前读到科研中的弄虚作假问题日益严重,便心血来潮,好奇是否会有人剽窃自己的工作。一天,Bik 用谷歌学术搜索了自己论文中的一句话,结果发现一本不起眼的在线书籍未经许可就照抄了她的一些句子。她把这本书同一章的另一些句子粘贴到搜索框,发现其中一部分竟然也是从其他科学家的著作那里抄来的。
Bik 是个有条不紊、细致周密的人。整个周末,她仔细分析了这一章内容,将抄袭文本用不同颜色高亮标注并分门别类,发现它们来自 18 处未注明的来源。从此,搜查抄袭成为了 Bik 的一种爱好。在作为美国斯坦福大学研究员的业余时间里,她开始在谷歌学术上搜寻更多的案例。很快,Bik 就找出了 30 篇造假的生物医学论文,其中一些还发表在备受推崇的期刊上。她给期刊编辑发了电子邮件,一些文章在几个月后遭到撤稿。
2014 年 1 月,当 Bik 浏览一篇可疑的学位论文时,文章中的图片引起了她的注意。这些图片是蛋白质印迹(Western blots)图,来自不同样本的蛋白质呈现深色条带状依次排列其上。Bik 觉得其中一条蛋白质条带看起来眼熟——它的一端有一个饱满的小黑点。在论文的另一处,她发现同一条带被伪装成来自不同实验的数据,被翻转后再次出现。Bik 继续寻找,找到了十几处复制粘贴或者巧妙篡改的痕迹。她了解到,这篇学位论文由美国凯斯西储大学(Case Western Reserve University)的一名研究生撰写,已于 2010 年作为两篇期刊文章发表。
Elisabeth Bik 图片来源:Gerard Harbers, CC BY-SA 4.0
有缺陷的图像不一定会把科学研究的主要结论全盘推翻,但它会是一个信号,表明一定是哪里出了问题。在 Bik 看来,重复或篡改的图像对科学的破坏力可能比抄袭更甚。
Bik 决定在开放获取期刊 PLOS One 上筛查一些新发表的研究。她在浏览器标签页中打开了 15 篇论文,然后略过文字,开始比对文中的图像。在几个小时内,她检查了大约一百篇论文并找出了被重复使用的图像。“这很快就让人欲罢不能,” Bik 操着浓重的荷兰口音告诉我。一些重复问题可能是无辜的——也许是一位科学家在满满当当的文件夹中搞混了图片。Bik 知道上述重复不可能出于偶然,但她也不想错误地将一位学者同行牵连到不正当行为中。她向发表这两项凯斯西储大学研究的期刊发送了礼貌的电子邮件。编辑最终回复了她,承诺会就她的关切进行调查。然后六个月过去,却没有进一步的消息,Bik 受阻了。
2012 年,三位科学家创建了 PubPeer 网站,研究人员可以在上面评议彼此发表的工作。在 Bik 看来,将她的发现在网上公之于众可能是越界了:质疑论文数据完整性的传统方式是与作者、期刊或大学进行私下交流。但她还是注册了一个匿名帐户。针对这两项凯西储斯大学的研究,Bik 写道:“我对这篇论文中的一些配图表示关切。”她上传了重复图片的截图,把关键区域用红色或蓝色方框清晰标出,并点击了提交按钮。
科学出版是一条价值数十亿美元的产业。仅在生物医学领域,每年发表的论文就超过了 130 万篇;在全学科领域,更有超过 12,000 种知名期刊。此外还有数以千计的网络期刊为了稿件处理费,不惜在经过虚假同行评审后发表垃圾透顶的稿件。与此同时,由于互联网降低了期刊的开办门槛,科学的发展越来越依赖于发表更多的论文。
2019 年 3 月,Bik 53 岁,她决定辞去工作,全职从事学术打假,并开设了名为“科学诚信文摘”(Science Integrity Digest)的博客。在过去的六年半时间里(在此期间她从咨询和演讲中获得了一些收入,并接受了一些众筹),Bik 已经鉴别出 4,900 多篇包含可疑重复图像的论文,并将它们记录在一个电子表格中。在 Twitter 上,有超过 10 万人正在关注她的“爆料”。
Bik 的一条推文
Bik 和两个兄弟姐妹在荷兰的豪达(Gouda)长大。八岁时,Bik 想要成为一名鸟类学家,会花几个小时用望远镜寻找花园里的鸟,并记录看到的所有种类。Bik 矢志科学,后来获得了微生物学博士学位并搬到了美国。当时她的丈夫、光学工程师 Gerard 在硅谷找到了一份工作。进入生物技术行业前,她在斯坦福的实验室里花了 15 年时间研究微生物组。
在 Bik 偶然发现图像重复问题之前,一些期刊编辑已经就此事写过文章,但没人清楚这种现象究竟有多普遍。Bik 联系了两位曾研究过学术出版撤稿问题的著名微生物学家 Ferric Fang 和 Arturo Casadevall,向他们介绍自己在 Infection and Immunity 和 mBio 中发现的图像重复问题——Fang 和 Casadevall 分别是这两家期刊的主编。三人达成共识,对此进行系统研究。Bik 负责从 40 种不同期刊中筛选论文,而 Fang 和 Casadevall 负责审核她的发现。
期刊编辑们检查问题图片时,通常会使用 Photoshop 对图像进行放大、翻转、拉伸或重叠,但 Bik 主要依靠自己的眼睛和记忆来完成工作。她以几分钟一篇的速度筛检了令人瞠目的 20,621 篇论文。2016 年,这个三人小组在 mBio 上发表了他们的成果。根据团队结论,Bik 的识别正确率达到了 90%,其余 10% 包含了一些因分辨率太低而无法明确判断的图像。他们一共报告了 782 篇(即全部论文的 4%)论文存在“不恰当”的图像复用。谈及 Bik 的能力,Fang 告诉我:“有时候,她靠大脑完成这些工作几乎就像魔法一样。”
Bik,Casadevall 和 Fang 的这篇论文迄今已被下载了 5 万多次。
三人估计,在已发表的数百万项生物医学研究中,有数万项包含了不可靠甚至伪造的图像,本应被撤回。但是核对实验记录的速度可能会慢得令人抓狂,尤其是在研究缺乏存档和记录的时候。期刊编辑前后一共花了三十多个月才撤回了 Bik 报告的那两篇凯斯西储论文。除了联系编辑,Bik 有时也会联系研究机构或美国的研究诚信办公室 (Office of Research Integrity,ORI),这是一个政府机构,负责调查受联邦资助的科研项目中的不端行为。但是 ORI 和各机构都有规定条款——他们必须取得实验记录、进行面谈等等——这些都需要时间来展开。
到 2016 年,Bik 已向各家期刊的编辑报告了 mBio 研究中的所有 782 篇论文。截至今年 6 月,有 225 篇论文被更正,12 篇被打上“编辑关切”标签,89 篇被撤回。据 Bik 所知,58% 的问题论文仍然逍遥法外。在过去五年里,她又报告了另外 4,132 项包含问题图像的研究;迄今为止,只有大约 15% 得到了解决(382 篇被撤稿)。她表示,只有五到十篇文章的作者澄清了她对论文图片的质疑。
学术打假漫长的处理周期令人沮丧, Bik 转而在网上分享她的更多发现,让期刊读者可以直接看到。在 PubPeer 上,她是最多产的实名发帖人,Bik 的评论慎之又慎——她通常仅会评价图像“非常相似”或者“相似度超过预期”。在社交媒体上,她更会营造节目效果,经常为网友直播“打假过程”。某天凌晨 2:41 ,Bik 发布推文:“#图像鉴别午夜版 :从入门到高级”,并贴出了来自心脏组织和肾脏组织的染色切片图像。回复不断涌入,他们用 Bik 常用的彩色边框圈出了图像的重复部分。凌晨 3:06,Bik 给其中一名留言者回了一个 🏆 的表情符号,作为对最佳回复的奖励。
Bik 和她的丈夫住在硅谷一幢 20 世纪中期现代主义风格的平层住宅里,这座房子拥有一个平缓的斜屋顶和活泼的橙色大门。这样的住宅在附近很常见,唯一的区别是配色不同。在新冠大流行前,我拜访了 Bik。她身材高大,戴着时髦的蓝色玳瑁眼镜,栗色长发披肩,身穿一件天蓝和橙色花纹交替的衬衫,蓝眼睛炯炯有神。Bik 泡茶时,她那穿着红色羊毛外套的丈夫烤了一些产自豪达的冻糖浆华夫饼。
Bik 得意地向我介绍着自家厨房的奇特之处,比如点缀着金色和黑色斑点的白色流理台。“这是随机的!” 她向我保证——花纹没有重复。带纹理的灰色瓷质地砖就不是这样了。Bik 解释说,当工人安装这些瓷砖时,她要求把相同纹理的瓷砖旋转一下,这样重复就不会那么明显。不管怎样,最后还是有几块重复的瓷砖并排镶在一起。但直到她用食指沿着两块瓷砖的花纹描出相同的曲线,我才发觉出它们是重复的。“对不起——我可能有点古怪。”她说,然后笑了起来。
在她卧室的衣柜里,Bik 把衬衫按照从黑色、棕色到绿色和蓝色的顺序悬挂排列。不久前,Bik 帮她的嫂子将一大堆鞋子按颜色摆放在新储物架上;她还会帮朋友将车库里凌乱的螺母、螺丝和钉子盒子分门别类整理进小抽屉。“没有什么事能比这更让我快乐。”她告诉我。她从小收藏了大约 2000 个乌龟公仔和玩具,它们被陈列在四个玻璃柜里,摆在一张浅色木餐桌旁边。她保存着一份电子表格,上面记录着她的“乌龟动物园”:有用贝壳制成的龟、黄铜龟、代尔夫特蓝瓷龟、摇头龟、带盖的龟形木盒以及“功能性”乌龟(钥匙链、卷笔刀)。Bik向我展示了一个缺了一只眼睛的毛绒玩具——这是她的第一个乌龟藏品。
那天下午,Bik 坐在餐桌旁,那里也是她的办公桌,后院盎然的绿意静悄悄地从落地窗爬进来。在她的曲面宽屏显示器上,Bik 查看着 Twitter——她的个人简介里有一张仙人掌花园的照片;“那就是我——浑身是刺。”她说着——然后调出了记录问题论文的总表。这份电子表格包含了数千个条目,尚未对外公开,其中每个条目都有二十多列的详细信息。她摘下眼镜,放在一杯甘菊茶旁边,坐直身体并凑到显示器跟前,开始快速检查 PLOS One 发表的论文。第一项研究——关于“亮氨酸拉链转录因子样 1(leucine zipper transcription factor-like 1)”——她凝视着其中一系列蛋白质印迹图像。Bik截取了一段图像并在预览中仔细检查,放大图片并调整对比度和亮度。(她偶尔也会使用 Forensically 和 ImageTwin,这些工具可以进行一些半自动化的照片取证分析。)Bik 接着查看了一篇包含粉色和紫色小鼠肠道组织横截面图像的论文,在包含着十几张半透明细胞团照片的图像上,她的目光停了下来。“这儿看起来像一只会飞的兔子。” 她轻轻笑着,指着一个斑点说。
Bik 没有发现任何问题。她说,PLOS One 已经“很好地规范了他们的行为。”该期刊的出版方聘请了一支由三名编辑组成的团队,负责处理学术道德问题,其中也包括 Bik 发现的案例。其中一位编辑 Renee Hoch 告诉我,调查过程中必须从作者那里获取原始的未加工图像,在某些情况下,还需要征求外部审稿人的意见,每个案例通常需要四到六个月的时间进行处理。Hoch 表示,在团队协助 Bik 解决的前一百九十多个案例中,46% 的论文需要更正,约 43% 被撤稿,另外 9% 收到了“编辑关切”。在已解决的问题中,只有两篇论文没有任何问题。“在绝大多数情况下,如果她提出质疑,那么我们跟进调查的结果往往会和她的判断一致。”Hoch 说。
Bik 的工作可以用电脑代劳吗?有观点认为,自动图像扫描可以更快、更准确,误报和漏报更少。美国加州大学伯克利分校(University of California, Berkeley)的计算机科学家和照片鉴定专家 Hany Farid 同意学术不端是个麻烦的问题,但他也对个别“图像侦探”根据主观判断公开鉴别可疑图片感到不安。他告诉我,学术声誉兹事体大,“人人都希望谨慎行事”。Farid 的保留态度部分源于人们对肉眼准确性的普遍怀疑。虽然我们的视觉系统在人脸识别等许多任务中表现出色,但它并不是对所有类型的图像识别任务都擅长。Farid 有时会在涉及图像篡改的案件中提供法庭证词;他的实验室设计了用于检测伪造日常场景照片的算法,准确率可以达到 80% - 95%,误报率大约为百分之一。以法庭的取证标准来看,他对 Bik 的战绩不以为然,而是希望对她的鉴别准确性进行更严格的评估。“你可以审查算法,” Farid说。“但你不能审查她的大脑。” 他希望看到类似的、经过设计和验证的系统,用于识别伪造或篡改的科研图像。
一些商业公司目前提供了专门用于检查科学图像的软件,但这些程序并不是为大规模、自动化检查而设计的。理想情况下,程序会从论文中提取图像,然后依托庞大的数据库进行快速检测,从而揪出重复或者篡改的图片。2020 年,包括爱思唯尔(Elsevier)、施普林格·自然(Springer Nature)和 EMBO 出版社(EMBO Press)在内的几家主要科学出版商召集了一个工作小组,指导编辑使用此类系统预筛选论文。许多项目(部分由 ORI 资助)正致力于开发强大的机器学习算法来完成这项工作。但这比人们预想的要难。美国雪城大学(Syracuse University)的计算机科学家 Daniel Acuña 告诉我,此类程序需要针对已发表的科学图像构成的大型数据集进行训练和测试,数据集中的图片是否被篡改应该是已知的。德国柏林一支由爱思唯尔资助的研究小组正慢慢建立一个这样的数据库,其中的图像来自被撤稿的文章;一些算法开发者也向 Bik 求助,Bik 向他们分享了一组存在篡改图片的论文。
Bik 告诉我,她欢迎行之有效的自动化图像扫描系统,比起自己,它们可以找出多得多的案例。不过,即使自动化平台可以识别有问题的图像,这些图像也必须经过人工审查。因为计算机无法辨别图像的重复使用是否出于正当目的(例如引用图片作为参考)。而且,如果已发表论文中已经存在问题图像,就必须有人联系期刊编辑或相关机构,直到他们采取行动。PubPeer 上有大约四万篇论文受到评论质疑,但对其中的绝大多数论文来说,“质疑完全是泥牛入海。” PubPeer 的志愿运营者、来自法国巴黎的神经科学家 Boris Barbour 告诉我:“即便有人公然舞弊,也很难看到正义伸张。”一些期刊也是论文造假的积极同谋。我采访过的一位前期刊编辑描述了他在一家刊物工作的情况,该期刊利润高、层次低,经常接收“糟糕得令人难以置信”的论文,这些文章充斥着抄袭和公然伪造的图像,编辑仅仅要求作者提供替代图像,将文章大量编辑后发表。这位前编辑在谈到 Bik 时说:“我认为她揭露的现象只是冰山一角。”
一些大学的学术诚信官员遗憾地指出,在社交媒体上举报学术不端行为可能会打草惊蛇,让涉事科学家有机会在接受调查前销毁证据。但 Bik 和其他学术打假人发现,在社交媒体上发帖会给期刊和相关机构施加更大压力,促使其作出回应。一些观察人士担心,学界家丑外扬可能会动摇公众对科学的信心。但 Bik 认为大多数研究都值得信赖,并将她的工作视为科学自我纠正机制的必要组成部分;她告诉我,大学可能不愿意调查能拉到基金的教职员工,出版商也会犹豫是否撤回问题文章,因为每篇被引用的论文都会提升期刊的引用排名。编辑常常接受篡改图片的各种牵强借口,她对此感到震惊——她说,这就像“狗吃了我的作业”一样蹩脚。去年,她发过一条推特,在一篇论文中找出了十多张有问题的图片——结果是,作者提供了替代图像,论文被更正了。“呃,”她写道,“这就像从一名赢得比赛的运动员的尿液中检出了兴奋剂,然后过两周又重新接受了一个干净的尿液样本。”
去年,Bik 的朋友 Jon Cousins,一位软件企业家,受她的工作启发,开发了一款名为 Dupesy 的电脑游戏。一天晚上,我们在 Bik 的电脑上玩了玩这款游戏的测试版。Bik 的丈夫先上手,点进了一个名为“猫脸”的链接。
屏幕上显示出一个 16 宫格,都是猫咪面部照片。一些猫看起来瞪大了眼,另一些则在生气。说明上写着,“找出并点击相同的两张图片。” Gerard 在前几轮轻松完成,然后在一轮更具挑战性的界面前叹了口气。
我是从“咖啡豆”开始的。在一组深度烘焙的咖啡豆上,我花了三十一秒才找到匹配的一对;下一轮,六秒钟。几轮过后,我卡壳了。我感觉眼睛不听使唤,附近的时钟滴答作响。
“我找到的时候应该说出来吗?” Bik 问道。“这会不会很烦人?”
“别别别。” Gerard 说。
“觉得我烦就直接告诉我,有时候我自己也没意识到。”她说。
“毫无疑问,你很烦人。”他答道。
轮到她时,Bik 速通了几轮“粗糙毛皮”,然后看了看其他的谜题链接。她说,有些谜题“要比我的日常工作还困难得多”。第二天,Cousins 给我们发了一封电子邮件,公布了游戏结果:Bik 解决谜题的时间中位数是 12 秒,与之相比,她丈夫和我大约耗时 20 秒。
几周后,我打电话给美国韦尔斯利大学(Wellesley University)的心理学学者 Jeremy Wilmer,询问是什么让 Bik 如此擅长挑出重复图案。Bik 否认她有很好的记性,还说她有些脸盲;人们通常以为她肯定很擅长玩“我是间谍”和“沃尔多在哪里?”(编者注:从眼花缭乱的图片或场景中找到目标图案的游戏),但其实她只擅长辨别相似之处,并不擅长找不同。(“我找不到沃尔多。”她开玩笑说。)Bik 将她的成功归功于练习,以及“足够疯狂”,能一连好几个小时端详图片。TestMyBrain.org 是一个对记忆、感觉和认知进行标准化在线测试的网络研究项目,Wilmer是其联合领导者,他认为 Bik 的才能可能源于天赋和专业知识积累的某种结合。他想知道,这是否反映出 Bik 具备非凡的记忆力、感知能力,或者两者兼而有之。
Wilmer 为 Bik 安排了 7 项线上测试,其中包括权威的剑桥面部记忆测试(Cambridge Face Memory Test)。在人脸识别方面,她的表现远低于平均水平。但在一项要求记住五十幅抽象艺术图像,然后挑出见过图像的任务中,Bik 的得分很高。她在一项任务中表现最佳——计算机屏幕快速交替切换两张真实世界场景的照片。这两张照片只有一处区域不同,并且在切换时被空白屏幕隔开一瞬间——受试者很容易因此忘记图片细节。大多数人不善于找出差异,但 Bik 拿到了百分制下的 99 分。Wilmer 告诉我,Bik “非常擅长”将复杂的场景放在脑海中进行比对。这种天赋此前对她来说毫无用处,直到 Bik 开始学术打假。
我们玩 Dupesy 的那天晚上,Bik 在 Gerard 上床后也没有睡觉,一直在检查图像。Bik 把染成紫色的癌细胞的两张照片并排放在一起,它们是相同的,只是一张照片旋转了 90 度并且缺失了一些细胞。“这些人不单旋转图片,他们还 P 图。”她开始将这一发现贴到 PubPeer 上,然后更新她的电子总表。她沉浸在周而复始的工作节奏里,当我离开时已是午夜,Bik 仍然在乌龟藏品们的陪伴下默默工作。第二天早上,我查看了她的 Twitter。“我正在敲响警钟。”她凌晨 2 点发推说。Bik 正与其他匿名的图像“侦探”一道追踪一个项目;他们查明有四百多篇粗制滥造的论文似乎来自同一个源头——中国一家出售造假英文稿件的“论文工厂”。
在过去的一年时间里,Bik 的影响力与日俱增。在我拜访她后不久,美国马里兰大学(University of Maryland)的一个研究小组撤回或更正了被她标记的几项研究。“胜利总是苦乐参半。”Bik 告诉我,这样的撤稿对科学有好处,但对作者团队来说可能是一次挫折。去年三月,Bik 在她的博客上剖析了一名法国学者的研究,该研究声称羟氯喹对 Covid -19 有效。除其他问题外,她还指出,稿件在短短 24 小时内就通过评审并被接收,而其中一位共同作者是发表该稿件的期刊主编。(出版商在一份声明中表示,为了避嫌,稿件审查工作已委托给一位副编辑。)几周后,其他研究小组的另外两项 Covid -19 研究被知名医学期刊撤稿。一名科学家同时卷入了这两起撤稿事件,Bik 检查了他的过往工作,在大鼠、沙鼠和豚鼠的内耳组织照片中发现了多处精修的图像重复。BuzzFeed 等媒体报道了她的发现。
声名鹊起的 Bik 已经成为了众矢之的。社交媒体上的喷子攻击她,批评者试图散布关于她的谣言。她告诉我:“我的维基百科页面上发生了一场编辑大战。”(支持者和毁谤者对她的维基条目反复进行拉锯式编辑。)领导羟氯喹研究的微生物学家 Didier Raoult 是法国马赛地中海大学医院感染研究所 (Institut Hospitalo-Universitaire Méditerranée Infection,I.H.U.) 的负责人。他在一条推文中称 Bik 为“猎巫人”,后来,在法国电视台的一次新闻采访中,他提到 “一个疯婆子 ”在批评他的工作——Bik 在 PubPeer 上对他的 60 多篇论文发表了评论;Raoult 在 I.H.U. 的同事 Eric Chabrière 在 Twitter 上公布了 Bik 的住址,对她进行“人肉搜索”。最近,他和 Raoult 在马赛提起法律诉讼,指控 Bik 和 Barbour 进行骚扰,以及 Bik 企图敲诈勒索(她否认了这些指控);两份支持 Bik 的请愿书收集到了数千位科学家的签名,法国政府的一个科学机构——Barbour 所在的法国国家科学研究中心——发表了一份支持 Bik 和 Barbour 的声明,谴责 Raoult 和 Chabrière 将“科学争议和批评带上法庭。”
一直以来,Bik 马不停蹄地推动着论文撤稿。去年 6 月,哈佛大学的研究人员撤回了一篇在《自然》(Nature)上发表了10 个月的论文,11 月,一名荷兰的知名科学家撤回了 2015 年发表于《科学》(Science)的一篇论文;Bik 已就这两篇论文中的蛋白质印迹重复问题向期刊的高级编辑发送了电子邮件,并在推文中@了两本期刊的官方号。(作者坚称他们的全部结论已经得到证实。)几家主流出版商也撤回了 Bik 和她的学术打假伙伴们标记的数百篇来自论文工厂的造假论文。英国微生物学会(The Microbiology Society)还为她的学术交流工作颁发了奖项。
最近,当我与 Bik 联系时,她透露自己“有些压力”。在与 I.H.U. 研究人员的纠纷事件中,媒体采访邀约像雪片般向她飞来。大学和科学组织蜂拥而至,邀请她做网络演讲。作为一个内向的人,Bik 有些不知所措。视频会议和琐事应酬令她应接不暇,收件箱里装满了不请自来的论文调查请求。Bik 怀念着钻研蛋白质印迹的工作节奏。她怅然地说:“我感觉自己无暇去做日常工作了。”不过,她最近还是找到了喘息的机会。推特上,Bik发布了四组被染成紫色的细胞照片。“#图像鉴别——高级,”推文中写道,“你能找出重复的部分吗?”