Nature封面:人工智能AI新算法!跨越医疗数据隐私问题进行学习
时间:2021-06-22 19:02:03 热度:37.1℃ 作者:网络
6月15日消息,机器学习领域新进展又一次登上国际学术期刊《自然》(Nature)封面。
群体智能受蚁群、蜂群这类社会性动物的行为启发而来,可用于预测体育赛事、投票选举等活动的结果。但它还可以做到更多。比如,在不违反隐私法的情况下将来自全球的医疗数据进行整合,以便快速可靠地检测患有严重疾病的患者。
最近,德国波恩大学的研究人员联合惠普公司以及来自希腊、荷兰、德国的多家研究机构,共同开发了一种将边缘计算、基于区块链的对等网络结合起来的分散式人工智能方法——「Swarm Learning」(群体学习,SL),可以从分散存储的数据中检测出多种疾病,有助于加速全球范围内的精准医疗协作,能用于不同医疗机构之间数据的整合
研究人员基于1.64万份血液转录组和9.5万份胸部X射线图像数据,使用SL为白血病、肺结核和肺部疾病、COVID-19开发疾病检测分类器,发现SL在满足保密规范的同时优于单个医疗机构开发的分类器。算法识别出患病个体的准确率,在血液转录组数据集中平均为90%,在X射线图像数据集中表现为76%-86%。
研究成果于5月27日以 Swarm Learning for decentralized and confidential clinical machine learning 为题发表在杂志 Nature 上,并登上了最新一期的杂志封面。
论文链接:
https://www.nature.com/articles/s41586-021-03583-3
快速可靠地检测患有严重疾病的患者是精准医疗的主要目标,而 AI 可以很好地辅助。但由于隐私法的保护,技术上的可行和实施上的能行之间存在着巨大的差距。虽然 AI 解决方案本质上依赖于适当的算法,但实际却更依赖于大数据。目前,大量的数据掌握在世界各地成百上千万的医疗机构手中,很难安全高效地共享,而各自的本地数据又难以满足机器学习的训练。
针对这一问题,波恩大学的 Joachim Schultze 和他的合作伙伴提出了一种名为 Swarm Learning(群学习)的去中心化机器学习系统,取代了当前跨机构医学研究中集中数据共享的方式。Swarm Learning 通过 Swarm 网络共享参数,再在各个站点的本地数据上独立构建模型,并利用区块链技术对试图破坏 Swarm 网络的不诚实参与者采取强有力的措施。
Swarm learning 的框架
一、比联邦学习更安全,SL可保障医疗数据共享
精准医疗的目标是能快速准确地检测出患有严重疾病和异质性疾病的患者,而机器学习有助于实现这一目标,例如根据病人的血液转录组数据来识别是否患有白血病。然而,应用到实际还存在很多问题。
基于人工智能(AI)的疾病诊断方法,本质上不仅依赖于适当的算法,更依赖于大型训练数据集。由于医学数据本身是分散的,医疗机构本地的数据量通常不足以训练出可靠的分类器。因此,根据医疗数据构建出的模型,仅能解决本地问题。
从人工智能角度,将各地医疗数据进行集中处理是更好的选择,但这存在难以避免的缺陷。包括数据流量问题,以及对数据所有权、保密性、隐私性、安全性和数据垄断等情况的担忧。
因此,需要更有效、准确、高效的解决方案,并且能够在隐私和道德方面实现保密要求,还要进行安全和容错设计。
联邦学习方法(Federated Learning)解决了其中的一些问题。数据保存在数据所有者本地,保密性问题得到解决,但参数设置仍要中央协调员协调。此外,这种星型架构降低了容错能力。
相比于已比较流行的联邦学习方法,更好的选择是采取完全去中心化的人工智能解决方案,即SL来克服已有方案的不足,适应医学领域固有的分散式数据结构以及数据隐私和安全法规的要求。
SL具有以下优势:(1)将大量医疗数据保存至数据所有者本地;(2)不需要交换原始数据,从而减少数据流量;(3)提供高级别的数据安全保障;(4)能够保证网络中成员的安全、透明和公平加入,不再需要中央托管员;(5)允许参数合并,实现所有成员权力均等;(6)可以保护机器学习模型免受攻击。
从概念上讲,如果本地有足够的数据和计算机基础设施,机器学习就可以在本地进行。
对比几种机器学习方法,研究人员发现,基于云的机器学习(Central Learning)会产生数据集中移动,可用于训练的数据量大大增加,相比于数据和计算在不相关地点的Local Learnling方法,机器学习的结果得到改善,但存在数据重复、数据流量增加以及数据隐私、数据安全等方面的问题。联邦学习方法使用专用参数服务器负责聚合和分发,其他中央结构仍被保留。SL,省去专用服务器,通过Swarm网络共享参数,并且在各个节点的私有数据上独立构建模型。
四种机器学习方法比较
SL提供安全措施以支持数据主权,这由私人许可的区块链技术实现。每个参与者都有明确的定义,只有预先授权许可的参与者才可以执行交易。新的节点加入是动态的,有适当的授权措施来识别网络参与者。新节点通过区块链智能合约注册,获取模型,并执行模型的本地训练,知道满足定义的同步条件。接下来,模型参数通过Swarm应用程序编程接口(API)进行交换,并开始下一轮,合并创建一个具有更新参数设置的更新模型。
在每个节点,SL分为中间件和应用层。应用环境包括机器学习平台、区块链和SLL。应用层则包含模型,例如分析来自白血病、肺结核和COVID-19患者的血液转录组数据或放射影像等得到的模型结构。
二、群体学习,源于自然的灵感
蚂蚁通过一种非常特殊的方法来寻找食物的踪迹:不断释放信息素。它们向群体的其他成员发出自己的信号,每只蚂蚁都从所有其他蚂蚁的经验中学习,因此,每只蚂蚁都更接近食物来源。最终,群体根据个体蚂蚁的反馈确定最佳路径。 类似地, Swarm Learning 让网络上每个节点进行本地学习,学习到的结果通过区块链收集,并传递给其他各个节点。这个过程会重复多次,逐渐提高算法识别网络每个节点模式的能力。Swarm Learning 的所有数据都保留在本地,共享的只是算法和参数——从某种意义上说,就是经验。 波恩大学生命与医学科学教授 Joachim Schultze 强调:「 Swarm Learning 以一种大自然的方式满足了数据保护的要求。」三、训练样本减少50%时,SL性能仍更优
研究共展示了四个案例:
案例一是,使用12000多位患者的外周血单个核细胞(PBMC)转录组数据构成的三个数据集(A1-A3,包括两种类型的微阵列和RNA测序),以及默认设置的连续深度神经网络算法来进行测试。
针对每个真实世界场景,样本被分成不重复的训练数据集和一个全局测试数据集,用于测试在单个节点上SL建立的模型。训练数据集以不同的分布方式被“隔离”在每个Swarm节点上,来模拟临床医疗上的相关场景。
急性髓细胞白血病(AML)患者的样本作为病例(cases),其他所有样本作为对照组(controls)。模拟中的每个节点,都可以代表一个医疗中心、一个医院网络、一个国家或任何其他独立的组织,这些组织会产生有隐私要求的本地医疗数据。
SL检测白血病
首先,把病例和对照组不均匀的分布到节点(数据集A2)和节点上,发现SL结果优于单个节点的性能。在这种情况下,中心模型的表现仅略好于SL。使用数据集A1和A3测试同样有非常相似的结果,这强烈支持了SL性能的提高跟数据收集或者数据生成技术(微阵列或RNA测序)无关的观点。
另外五个场景同样在数据集A1-A3上进行了测试:(1)在测试节点使用均匀分布的样本,其病例和对照组比例与第一个场景中的相似;(2)使用均匀分布的样本,但将来自特定临床研究的样本分开,使训练节点和节点之间有不同的病例和对照组比例:(3)增加每个训练节点的样本大小;(4)在专用训练节点使用不同技术生成的孤立样本;(5)使用不同的RNA-seq技术。在这些场景中,SL的表现都优于单节点性能,并且接近或者和中心模型性能相同。
急性淋巴细胞白血病(ALL)患者的样本同样在这几个场景下进行了测试,将诊断范围扩展至以四种白血病类型为主的多类问题。
案例二是,用SL从血液转录组数据中识别肺结核患者。
基于肺结核样本,将病例和对照组比例均匀分布在各节点中。结果显示,在这些条件下,SL的性能优于单节点性能,并且表现略好于中央模型。研究仅对活动性肺结核进行诊断。将潜伏感染的肺结核患者作为对照组,样本和对照组保持均匀分布,但减少用于训练的样本数量。在这些更具挑战性的条件下,虽然SL整体性能有所下降,但是SL性能仍然优于任何单节点性能。
训练样本减少50%时,SL仍然优于单节点性能,不过这时单节点和SL性能都比较低。然而与一般条件下的观察结果一致,SL性能与中心模型比较接近:训练数据增加时人工智能的表现更好。将三个节点的训练数据分成六个较小节点时会降低每个节点的性能,但是利用SL产生的结果并没有变差。
SL检测肺结核
由于肺结核具有地方性特征,肺结核样本可以用来模拟潜在爆发的情景,以便确定SL的优势和潜在限制,进而研究确定如何解决这些问题。
由节点模拟的三个独立区域已经有足够的但不同数量的病例样本,在这种情况下,SL的结果几乎和之前没有什么变化。而案例和对照组最少的节点性能明显下降。测试节点的案例比例降低导致节点性能变差。
案例三是,使用一个大型的公开胸部X射线图像数据集来解决多类预测问题。SL在预测所有放射学发现(肺积水、渗出、浸润和无发现)方面优于每个节点的性能,这表明SL也适用于非转录组数据领域。
案例四,讨论了SL是否可以用于检测COVID-19患者。虽然通常COVID-19是使用基于PCR的检测方法来检测病毒RNA。但在病原体未知、特定病原体检测尚不可能、现有检测可能产生假阴性结果等情况下,评估特定宿主反应可能是有益的,而研究血液转录组有助于了解宿主的免疫反应。
SL检测COVID-19
作者通过在欧洲招募更多的医疗中心来获取数据,这些中心在年龄、性别和控制疾病的程度上有不同的患者分布,由此生成了八个单独特定中央子数据集。
SL可以应对性别、年龄或双重感染等偏差,并在区分轻度和重度COVID-19患者时,SL的表现优于单节点性能。证据表明,来自COVID-19患者的血液转录组代表了一个可以应用SL的特定领域。
四、SL前景广阔,加速全球精准医疗协作
随着各方都在关注如何加强数据隐私和安全问题以及减少数据流量和重复,去中心化的数据模型将成为处理、存储、管理和分析任何类型的大型医疗数据集的首选方法。
特别是在肿瘤学方面,基于机器学习的肿瘤检测、亚型分析和结果预测都取得了阶段性成功,但是其进展受到数据集规模有限的阻碍,目前的隐私法规使得开发集中式人工智能系统的吸引力降低。
SL作为一种去中心化的学习系统,取代了当前跨机构医学研究中数据共享的范式。
对于试图破坏Swarm网络的人,SL的区块链技术提供了强有力的应对措施。SL通过设计提供了保密的机器学习,可以继承差分隐私算法、函数加密或加密专用学习方法方面的新进展。
全球协作和数据共享非常重要,并且SL在这两个方面存在固有优势,并且更大的优势是不需要数据共享而直接转化成知识共享,从而实现完全数据保密条件下的全球协作。
事实上,立法者强调的隐私规则在发生大规模流行病时完全适用。特别是在此类危机中,人工智能系统需要遵守道德准则并且尊重人权。像SL这样的系统——允许公平、透明和被高度监管的共享数据分析同时保护数据隐私——将受到青睐。
研究人员认为应该探索SL根据X射线图像或CT扫描结果、结构化健康记录数据或者来自于疾病跟踪的可穿戴设备数据,来对COVID-19进行基于图像的诊断。
SL用于转录组学(或其他医学数据)分析是非常有前途的方法,可以在医学领域的推广人工智能的使用,同时提高数据保密性、隐私和数据保护程度,以及减少数据流量。
五、全球疫情背景下,期待SL发挥作用
这篇研究证明了SL的性能的可靠性。在全球疫情一直持续的情况下,病毒不断产生新的变种,对于各国医疗机构都是一种挑战。如果利用SL技术在数据保密的情况下对全球相关的医疗数据进行整合分析,更快诊断病情,可能对控制疫情会有重要帮助。
数据是人工智能发展的血液,但是数据隐私安全的问题日益凸显。我们已经了解到联邦学习技术能让数据在脱敏的情况下被处理分析,现在,SL成为一种新方法。它将通过分布式处理方式,为数据安全应用及人工智能行业的发展带来新的推动力。
Schultze 坚信他们的研究成果将会对全球范围内的医疗数据共享产生革新。「我相信 Swarm Learning 可以极大地推动医学研究和其他数据驱动的学科。目前的研究只是一次试运行。未来,我们打算将这项技术应用于阿尔茨海默氏症和其他神经衰退性疾病。」
惠普人工智能首席技术官兼高级副总裁 Eng Lim Goh 博士也表示:「Swarm Learning 为医学研究和商业合作开辟了新的机会。关键是所有参与者都可以相互学习,而不必共享机密数据。」
上述内容来自机器之心,智东西等