bioRxiv:人工智能ChatGPT写的医学论文摘要,审稿人无法辨别真假
时间:2023-01-25 06:02:41 热度:37.1℃ 作者:网络
ChatGPT,是由埃隆·马斯克等人创立的人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型——人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。
短短4天时间,其用户量到达百万级,注册用户之多导致服务器一度爆满。继 AI 绘画之后,由 OpenAI 上线的 ChatGPT 成了新的流量收割机,也引发了网友的一系列“花式整活”。ChatGPT的功能是如此强大,以此连马斯克都认为“我们离强大到危险的 AI 不远了”。
那么,新的广受欢迎的聊天机器人 ChatGPT 能否令人信服地制作虚假摘要,让科学家误以为这些研究是真实的?这是西北医学医师兼科学家 Catherine Gao 博士在与芝加哥大学的科学家合作设计一项研究以检验该理论时所担心的问题。
是的,他们的新研究报告发现科学家们可能会被愚弄。通过盲法审阅发现——当给出混合真实和错误生成的摘要时——只能在 68% 的时间内发现 ChatGPT 生成的摘要。 审稿人还错误地将 14% 的真实摘要识别为人工智能生成的。
而在2022年12月27日,美国西北大学的 Catherine Gao 等人在预印本 bioRxiv 上发表了题为:Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intelligence output detector, plagiarism detector, and blinded human reviewers 的研究论文。
研究团队使用AI聊天机器人 ChatGPT 写出了令人信服的研究论文摘要,甚至人类科学家都难以分辨真假。这让许多科学家担忧。
自从ChatGPT发布以来,研究人员就一直在努力解决围绕其使用的伦理问题,因为它的大部分输出很难与人类自己所书写的文本区分开来。在这篇发表于预印本论文中,Catherine Gao 领导的研究团队使用 ChatGPT 来生成研究论文摘要,以测试科学家是否能发现它们。
研究团队要求ChatGPT根据发表在 JAMA、NEJM、BMJ、Lancet 和 Nature Medicine 这5个顶级医学期刊上精选的论文来撰写50篇医学研究摘要。然后,研究团队通过论文剽窃检测器和人工智能输出检测器将这些摘要与原始摘要进行比较,并要求一组医学研究人员找出那些是ChatGPT所编造的摘要。
结果令人惊讶,ChatGPT所编写的摘要顺利通过了论文剽窃检查,原创性得分为100%,也就是没有检测到抄袭。人工智能输出检测器发现了33篇(识别率66%)由ChatGPT所编造的摘要,但人类审稿人并没有能做得更好,人类审稿人只正确地识别了34篇(识别率68%)由ChatGPT所编造的摘要和86%的真正的论文摘要。也就说是,人类审稿人把32%的ChatGPT所编造的摘要识别为真实的论文摘要,而将14%的真实论文摘要识别为ChatGPT所编造的摘要。这意味着,ChatGPT在编造研究论文摘要方面,达到了人类专家都难辨真假的程度。
Catherine Gao 表示,ChatGPT写出了令人信服的研究论文摘要,使用大型语言模型来帮助科学写作的道德和可接受的界限仍有待确定。
这将为我们带来一个显而易见的难题:如果科学家都不能判断这些由ChatGPT所编造的研究论文的真假,可能会带来“可怕的后果”。这不仅会给科研人员带来麻烦,因为他们阅读的研究论文可能是由ChatGPT编造的。这也可能对整个社会带来麻烦,因为科学研究在社会中发挥重要作用,基于科学研究的政策决定可能会受到ChatGPT编造的研究所误导。
新泽西州普林斯顿大学的计算机科学家 Arvind Narayanan 表示:“任何严肃的科学家都不太可能使用 ChatGPT 来生成摘要。” 他补充说,是否可以检测生成的摘要是“无关紧要的”。 “问题是该工具能否生成准确且引人注目的摘要。 它不能,因此使用 ChatGPT 的好处微乎其微,而坏处却很大,”他说。
因此,这篇论文作者建议,那些评估研究论文和学术会议纪录的人,应当制定政策,杜绝使用人工智能来生成文本。如果允许在某些情况下使用这些技术,应当建立明确的规则,并披露具体使用情况。
总部位于纽约和巴黎的人工智能公司 Hugging Face 研究人工智能社会影响的艾琳·索莱曼 (Irene Solaiman) 担心任何依赖大型语言模型进行科学思考的情况。 “这些模型是根据过去的信息进行训练的,社会和科学进步通常来自于思考,或者对思考持开放态度,这与过去不同,”她补充道。
作者建议,那些评估研究论文和会议记录等科学传播的人应该制定政策,杜绝使用人工智能生成的文本。 如果机构选择允许在某些情况下使用该技术,他们应该围绕披露制定明确的规则。 本月早些时候,将于 7 月在夏威夷火奴鲁鲁举行的大型 AI 会议——第四十届国际机器学习会议宣布禁止使用 ChatGPT 和其他 AI 语言工具撰写的论文。
Solaiman 补充说,在虚假信息可能危及人们安全的领域,例如医学,期刊可能不得不采取更严格的方法来验证信息的准确性。
普林斯顿大学的计算机科学家 Arvind Narayanan 表示,任何严肃的科学家都不太可能使用ChatGPT来生成论文摘要,使用ChatGPT的好处是微乎其微的,而缺点是显著的。解决使用ChatGPT来编造论文这一问题的方案不应该聚焦在ChatGPT工具本身,而应该聚焦在导致这种行为的动机上,比如有些大学在招聘和晋升审核时,只看论文数量,而不考虑论文的质量或影响力。
更为恐怖的是在2023年,openAI将发布GPT-4,也将应用chatGPT上,其功能更远胜人类,那时可能不是真假的问题了,详细见:狂人马斯克旗下OpenAI将发布最强大语言模型GPT-4,将是划时代突破!