Nat Mach Intell:人工智能(AI)在新冠检测中几乎全体失灵了?294款AI工具不适用于临床
时间:2021-08-03 10:02:23 热度:37.1℃ 作者:网络
自新冠疫情爆发以来,世界各地的研究团队开发了各种人工智能(AI)工具来帮助检测新冠病毒或者对新冠病毒的感染情况进行预测。但是很不幸,来自荷兰马斯特里赫特大学和英国剑桥大学的两个研究团队分别独立对数百种AI工具进行测试,发现没有任何一款人工智能工具适合临床使用,有些甚至还会有害。
人们不禁怀疑,AI真的有用吗?
共294种AI工具,均不适合临床使用
2020年3月,COVID-19开始袭击欧洲。世界各地的研究团队加紧进行研究,尤其是AI社区紧急开了发各种软件。许多人认为这些软件可以让医院更快地诊断或分诊患者,为抗击疫情的前线提供支持。但是,数百种检测工具被开发出来,却没有一个真正的产生作用。
Laure Wynants和她的同事研究了232种用来预测或诊断新冠肺炎患者的算法,结果发现都不适合临床使用,只有两个算法可能在未来会对临床上的检测有所帮助。这项研究结果发表在英国医学杂志(British Medical Journal)上,到现在这篇文章仍在随着新工具的发布和研究者对现有工具的测试而进行更新。
对于这样的结果Laure Wynants说道:“这十分令人震惊。我带着这样的担忧开始了这项工作,但是这个结果超出了我的预想,让我非常恐惧。”
▲荷兰马斯特里赫特大学流行病学家Laure Wynants
剑桥大学机器学习研究员Derek Driggs及其同事进行的另一项研究结果也得出了相同的结论。研究者采用系统综述分析 2020 年 1 月 1 日至 2020 年 10 月 3 日期间所有已发表的论文和预印本,这些论文和预印本描述了从 CXR 或 CT 图像诊断或预测 COVID-19 的新机器学习模型。搜索确定了 2,212 项研究,其中 415 项在初始筛选后被纳入,在质量筛选后,62 项研究被纳入本系统评价。但是结果和Laure Wynants的发现一致,没有一个工具适合临床使用。研究结果发表在Nature Machine Intelligence上。
Derek Driggs正在研究一种机器学习工具,希望能够在新冠疫情流行期间帮助医生,他说:“这次的疫情是一次对AI和医学的重大考验,不过我认为我们没有通过这个考验。”
尽管结果如此,Laure Wynants和Derek Driggs仍相信AI有潜力为医生提供帮助,同时他们也担心以错误的方式构建的AI工具不仅不会产生帮助甚至还会有害,因为这样可能会使医生做出错误的诊断或低估患者的病情。
Derek Driggs称,关于机器学习模型以及它的作用有很多炒作,人们对它们不切实际的期望促使这些工具被提前投入使用。Laure Wynants和Derek Driggs研究的数百种AI工具中的一部分已经被一些医院所使用,而有些正在被私人开发商四处兜售。“我担心他们可能伤害了病人。”Laure Wynants说。
新冠疫情让很多研究人员清楚的看到他们需要改变AI工具的构建方式。Laure Wynants谈道:“新冠疫情的流行让这个问题成为了人们关注的焦点。”
事实上,今年6月,英国国家数据科学和人工智能中心图灵研究所发布了一份报告,总结了其在2020年底举办的一系列研讨会上讨论的内容,这些研讨会中达成的一项明确共识是:AI工具在抗击新冠疫情的战斗中几乎没有产生任何实质性的影响。两个研究团队围绕着这些AI工具分别进行的两项研究得到的结果支持了这个结论。
训练AI的数据错误太多,让AI学习结果出偏差
研究人员发现,这些AI工具出现的问题很多都与开发者用来开发工具的数据质量有关。在新冠疫情蔓延期间,通常是治疗新冠肺炎的医生收集和共享关于这一疾病的信息,包括医学扫描图像。而这些信息和数据是工具开发者唯一可用的公共数据集,这意味着很多是使用错误标记的数据或未知来源的数据构建的。
Derek Driggs强调了这个他称作“Frankenstei”数据集的问题,这些数据集是从多个来源拼接在一起的,可能包含重复项。这意味着某些工具最终进行测试的数据可能与它们训练时使用的数据相同,让它们看起来比实际上更加准确。
开发者还有可能混淆了某些数据集的来源,这可能会错过一些影响模型训练结果的重要特征。比如有些人在不知不觉中使用了一个数据集,其中包含没有感染过新冠病毒的儿童的胸部扫描图,并将这些作为非新冠病毒感染病例的示例。结果AI学会的是如何识别儿童,而不是识别新冠病毒。
Derek Driggs的小组尝试使用一个数据集来训练自己的模型,该数据集中包含患者躺下和站起来时的混合扫描。由于躺下进行扫描的患者更有可能患有重病,因此AI错误地学会了从一个人的站立或躺下来预测患病严重程度。
还有一种情况,研究者发现一些AI会对某些医院用来标记扫描结果的文本字体产生反应,结果来自接收重症患者医院的字体成为了预测新冠肺炎患病风险的指标。
事后看来,这些错误似乎很容易被发现,如果开发者知道它们,也可以通过调整模型来进行修复。但是,许多工具要么是由缺乏医学专业知识的AI研究员开发的,他们很难从中发现数据缺陷;要么是由缺乏数学技能的医学研究人员开发的,他们很难用专业知识来弥补这些数据缺陷。
Derek Driggs还提到了一个更微妙的错误,那就是合并偏差(incorporation bias),或者说是数据集被标注时引入的偏差。例如,许多医学扫描是根据放射科医生对于它们是否显示出新冠病毒的判断来标记的,但是这会将一些医生的偏见嵌入或合并到数据集中。Derek Driggs说,用PCR测试的结果来标记医学扫描会比仅听医生的意见要好得多,但是在医院里往往没那么多时间去统计这些细节。
Laure Wynants称这些已知的错误并没有阻止其中一些工具被匆忙投入临床实践,目前尚不清楚哪些正在被使用,也不知道它们被如何使用。医院有时会说他们仅将工具用于研究目的,这让研究者很难评估医生对这些AI工具的依赖程度。
Laure Wynants曾要求一家销售深度学习算法的公司分享有关其方法的信息,但是并没有得到回应。后来她从与这家公司有关的研究人员那里得到了几个已经发表了的模型,不出任何意外,这些模型都有着很高的偏见风险。
“我们实际上并不知道这家公司都做了哪些工作。甚至一些医院还与医疗AI的供应商签了保密协议。”Laure Wynants说。当她问医生使用的什么算法或软件时,会被告知医院不允许医生将这些说出去。
“数据共享”也许能促进AI模型的提高
更加完善的数据可能会对解决这个问题有所帮助,但是在危机时期,这个要求很难做到。Derek Driggs称,更重要的是要充分利用已经拥有的数据集,应该让AI开发团队与临床医生进行更多合作。开发者要分享他们的模型,并公开他们是如何训练这些模型的,以便其他人可以测试它们并以此为基础来正确的使用。
“这是我们现在能够做到的几件事,它们可能会解决我们发现的50%的问题。”Derek Driggs说。
Laure Wynants、Derek Driggs和Bilal Mateen都发现的一个问题是,大多数开发者都急于开发自己的模型,而不是和他人合作或改进现有模型。这样造成的结果是全世界的开发者集体努力创造出了数百种无用的工具,而不是共同创造出几种经过训练和测试的工具。
Laure Wynants说:“这些模型非常相似,它们都使用了几乎相同的技术,只是进行了稍微的调整,输入几乎相同的数据,并且犯了几乎同样的错误。”
“从某种意义上说这是研究领域的老毛病了。学术研究人员几乎没有任何动机去分享工作经验或验证现有结果。将技术从实验室工作台带到病床边的最后一英里是没有回报的。”Bilal Mateen说。
为了解决这个问题,世界卫生组织正在考虑签订一份紧急数据共享协议,该协议将在国际健康危机期间生效。这会让研究人员更容易地跨境共享数据。在6月份英国举行G7峰会之前,来自参与国的领先科学团体也呼吁“准备好数据”,为未来的突发卫生事件做好准备。
这样的呼吁听起来有点含糊不清,并且带有着一丝一厢情愿的想法。在新冠疫情爆发之前,这类共享数据的举措已经停滞。
Bilal Mateen认为,新冠疫情让很多事情重新提上了议程。他说:“除非我们都认同在解决共享数据这一问题之前要先克服数据不能共享背后的难题,否则我们注定要重复同样的错误。如果这样的错误再次发生,将是不可接受的,忘记这次全球疫情的教训是对逝者的不尊重。”
AI在抗疫大战中仍然是婴儿
新冠疫情斗争中,AI被寄予了厚望,众多研究团队参与其中开发各种AI工具,希望能够帮助医生来检测和诊断新冠。但是事实证明,这些AI工具并没有起到真正有效的作用。不过,这并不能否定AI在疾病诊断方面的潜力。
要让AI实现对新冠病毒的检测,一方面需要更加准确完善的数据集对它进行训练,另一方面也需要AI工具的开发者与医学领域的专家进行合作,以便能够更加有效的发现其中存在的漏洞。
此外应对此类全球的健康危机还需要各国共同创造出一个开放的研究环境,让各类相关的研究数据能够更加自由的在各国的科研团体之间流动,这样才能让研究成果更加有效的用于对疾病的抗争中。
只要训练方式得当,AI能够更高效、更准确的对疾病做出诊断,但是很可惜一些被寄予厚望的AI工具在新冠疫情的斗争中并没有表现出应有的能力。这次全球疫情带来的教训或许能让AI开发者和相关组织机构认识到其中的不足,为下次全球可能出现的新危机做好准备。
原始出处:
Michael Roberts, et al. Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans. Nat Mach Intell 3, 199–217 (2021). https://doi.org/10.1038/s42256-021-00307-0
Wynants L, Van Calster B, Collins GS, Riley RD, Heinze G, Schuit E, Bonten MMJ, Dahly DL, Damen JAA, Debray TPA, de Jong VMT, De Vos M, Dhiman P, Haller MC, Harhay MO, Henckaerts L, Heus P, Kammer M, Kreuzberger N, Lohmann A, Luijken K, Ma J, Martin GP, McLernon DJ, Andaur Navarro CL, Reitsma JB, Sergeant JC, Shi C, Skoetz N, Smits LJM, Snell KIE, Sperrin M, Spijker R, Steyerberg EW, Takada T, Tzoulaki I, van Kuijk SMJ, van Bussel B, van der Horst ICC, van Royen FS, Verbakel JY, Wallisch C, Wilkinson J, Wolff R, Hooft L, Moons KGM, van Smeden M.Prediction models for diagnosis and prognosis of covid-19: systematic review and critical appraisal.BMJ. 2020 Apr 7;369:m1328. doi: 10.1136/bmj.m1328