忙论文的各位注意了:自动化图片查重工具来啦!
百味科研芝士 发表于:2019-08-20 10:06:01
原标题:忙论文的各位注意了:自动化图片查重工具来啦!
本文首发于 ”百味科研芝士“ 微信公众号,未经允许,不得转载。
转眼暑期已经过去一半,想必在座的多数科研狗已经早早结束假期,踏上回校的旅途了,有些甚至埋头实验室就没有给自己安排假期!
Anyway,不知道诸位在假期前投的文章是否传来佳音?正巧,今天小编要和大家侃的,就是论文的问题。
众所周知,英文论文写作套路满满,一般小伙伴们都会参考一些相同领域的大佬的文章,学习英文写作的逻辑与套路。然而,就是我们习以为常的“引经据典”,如果把握不好度,就很容易变成抄袭!
在英文论文发表之前,科研党们除了找外文润色公司对自己写的不够地道的文章进行润色之外,还会对文章进行提前查重,不然在查重率上这一点文章被毙掉也是极其shame了。
除了对文字的重复率进行检测之外,其实目前科研界还在花很大力气做的一件事情就是对文章中的图片进行查重。但是图片查重远没有达到文字查重的简单高效。
此前,Nature的新闻版块就报道了约有4%的生物医学领域的论文的图像存在问题,也就是说每25篇论文中,就有一篇可能存在问题!
其中一些图片的重复使用可能是因为研究人员的无心之失,但是有更多的情况是故意为之,因为一副图像常常被发现经过了翻转或旋转后重复使用。
图片来源:Nature
大部分的图片查重仍然停留在人工手动筛查,例如, “ Nature”的做法就是对作者所提交的稿件中的图像进行随机抽查,并要求作者提交未经编辑的凝胶图像以供参考;一些期刊如“Journal of Cell Biology ”和“The EMBO Journal”等则手动检查作者提交的手稿中的大部分图像。这两大派系的查重方法带来的共同问题就是要么有侥幸文章成为漏网之鱼,要么费时费力。荷兰出版巨头Elsevier的负责人Aalbersberg就曾说,“为了发现所有文献中重复的图片,出版商需要创建一个共享的数据库,用于比较已发表和待发表的图片。”
可见论文图片查重是亟待解决的问题。
2018年2月,Nature的新闻版块报道了一项检测论文图片是否重复的研究。
它发布在bioRxiv预印本服务器上,由Syracuse University(雪城大学)的研究员Daniel E. Acuna领导的一个研究小组使用一种算法来寻找成千上万的生物医学论文中的重复图片。
Nature也专门对这篇研究进行了报道。
Acuna和两位同事使用一种算法从760,000篇文章中提取260多万张图像,包括细胞和组织的显微照片和凝胶印迹。该算法随后放大了功能最丰富的区域,以提取每个图像的特征数字“指纹”。
在消除了诸如箭头或流程图部件之类的特征之后,该团队最终获得了约200万幅图像。研究人员只对来自第一作者和通讯作者相同的论文中的图像进行比较,以避免要比较所有图片所带来的计算负担。
即使图片已被旋转,调整大小或改变对比度及颜色,该算法也可以发现潜在的重复项。
随后,三人手动检查了大约3,750个图像的样本,以判断他们是否存在重复的内容。根据他们的结果,他们预测数据库中1.5%的论文会包含可疑图像,0.6%的论文会包含欺诈图像。考虑到选取的论文样本量极大,这个比例算下来,已经有超过4500篇文章存在图片抄袭。
目前,其他研究人员还没有对他们的算法的准确性进行基准测试,因为没有任何已知的相关的科学图像数据库可以测试该工具。但是三位研究人员的工作依旧值得赞赏。
Dr. Acuna 图片来源:Syracuse University
很年轻很帅有没得?小编在线流口水。。。
随着国内外对学术不端问题越来越重视,论文图片查重已然成为学术论文检测其原创性十分重要的一部分。回望2014年震动世界科研界的Haruko Obokata论文图片造假事件,当时她发表在nature上的两篇文章被撤稿,假若这种论文图片查重软件能够早一些问世,或许这种学术丑闻也能够尽量避免。
对此,科研狗们怎么看呢?
责任编辑: