AI机器学习预测癌症患者对免疫治疗的疗效反应
时间:2022-02-21 17:20:02 热度:37.1℃ 作者:网络
只有一小部分癌症患者对PD-1/PD-L1类药物(免疫检查点阻断剂,ICB)的免疫治疗有效。而目前临床上确定癌症患者对ICB治疗是否有效的检测方法的准确性非常有限。从精准医学的角度来评估和实施免疫治疗,则对于能准确预测ICB治疗,在哪些患者中有明显疗效的需求越来越迫切。
几年来已有一系列预测ICB疗效的检测方法用于临床。其中主要包括:肿瘤细胞表面配体PD-L1表达百分比;肿瘤基因突变负荷(Tumor mutation burden, TMB);微卫星体高度不稳定性(MSI);和错配修复基因缺陷(dMMR)等单项指标。其中TMB检测是目前临床上认为准确性较优的单项检测方法。
TMB是指肿瘤细胞所含有的突变基因数量。高TMB意味着有很多突变,低TMB意味着没有很多突变。过去五年中已经确定,与TMB低的肿瘤相比,具有高TMB的肿瘤往往对ICB治疗的反应更好。由于ICB抑制剂只对一小部分癌症患者有效,因此准确预测患者对ICB疗效反应的能力,成为目前肿瘤临床免疫治疗中至关重要的课题。虽然TMB已是指导某些癌症治疗的决策指标,但是TMB检测本身仍然只是一个“粗略的预测指标”。例如临床上往往会遇到,具有低TMB的黑色素瘤可能仍然有很好的免疫治疗效果;就像具有高TMB评分的一些乳腺癌可能对免疫治疗反应不佳也同样会出现一样。因此除了TMB之外,癌症免疫治疗还需要更多和更准确的预测工具。
为了解决ICB临床疗效预测的问题,纽约斯隆-凯特琳记念癌症中心(MSKCC)的医生科学家,免疫学家和计算生物学家等组成的研究团队,采用人工智能机器学习的方法,试图克服依赖单一的特征性预测指标的局限性,以非线性方式组合不同类型的临床和实验室的相关指标,开发建立了一个机器学习算法模型,具体也称为集成学习随机森林分类器(ensemble learning random forest classifier,一种广泛使用的集成机器学习算法,在分类和回归建立预测模型上具有良好性能)。
使用MSKCC接受治疗的患者的大量临床和基因组数据,研究人员收集了已被证明具有预测价值,或认为可能具有预测价值的变量指标,包括基因组数据(MSK-IMPACT, 提供MSKCC患者肿瘤突变二代测序细节数据资料的工具);分子标志;临床数据和人口学的相关特征指标。纳入的变量总共16项,包括:TMB;基因拷贝数改变分数(fraction of copy number alteration FCNA);HLA-I类抗原进化差异(HLA-I evolutionary divergence,HED);HLA-I类抗原杂合性缺失状态(loss of heterozygosity,LOH); 微卫星体不稳定性状态(microsatellite instability,MSI); 体重指数(BMI); 性别; 血液中性粒细胞与淋巴细胞比率(blood neutrophil-to-lymphocyte ratio, NLR); 肿瘤分期; 免疫治疗药物类别; 年龄; 癌症类型; 患者在免疫治疗前是否接受了化疗; 血浆白蛋白; 血小板和血红蛋白(HGB)水平。将这16项变量(RF16)放入机器学习算法模型中,对该模型加以训练,看看在多大程度上能利用这些较大的信息数据来预测ICB治疗效果。
这项研究采集了从2015-2018年间在MSKCC接受ICB治疗的总共2,827例肿瘤患者,其中选择1479例包括16种实体瘤的病例。按癌症类型数据集将病例随机分成两个子集:训练集(1,184例, 80%)和测试集(295例,20%)(图1)。通过训练机器学习来开发和建立预测算法模型。对训练数据使用五重交叉验证来推导出基于二元分类(响应者-R和非响应者-NR,前者是治疗有效,包括对治疗有完全反应和部分反应者;后者是病情无变化和病情进展者)的ICB治疗预测模型,对测试组样本进行检测,以评估经过训练的分类器预测疗效反应的敏感性和特异性。
MSKCC的临床资料显示了16种类型肿瘤对ICB免疫治疗疗效反应的总体情况(图2),对临床免疫治疗有一定的参考价值。对于ICB治疗,黑色素瘤(Melannoma)和肾癌(Renal)有较高的疗效反应,总体上这两种癌症本身对免疫治疗(包括LAK,CIK,TIL细胞等)都比较敏感。而食道癌(Esophageal),胃癌(Gastric),子宫内膜癌(Endometrial)和非小细胞肺癌(NSCLC)对ICB治疗也有相对较好的疗效反应。个别类型的癌症,如直结肠癌(Colorectal)和小细胞肺癌(SCLC)疗效反应率分别在30%左右外。其余类型的癌症对ICB的疗效反应很差,其中胰腺癌的反应率只有3%,而肝癌只有16%,与这些癌症高恶性度的临床特点相一致。
在本组16项指标训练的机器学习预测结果显示,当单独分析各项变量时,TMB在16个单独变量中有最大的影响力,也就是说在本组RF16免疫治疗反应预测指标中是最强的一项,验证了TMB作为单项指标在以往临床上的应用价值。其他3个较强的预测因素是ICB治疗前接受过化疗,血液白蛋白水平和中性粒细胞与淋巴细胞比率(NLR)(图 3)。这4种测量指标中的每一个,理论上似乎都可以用来预测ICB免疫治疗的反应,而研究显示与任何一个单独预测指标相比,RF16模型的综合指标能更准确地预测疗效反应。
对于ICB治疗有疗效反应与无疗效反应患者之间的生存期差异,RF16特征模型也能够更好地预测。这进一步支持要使用RF16这种综合多种指标的预测方法,而不是采用单项指标预测。总之,研究结果表明,临床医生可以通过这种整合有临床,基因组和其他可用信息的机器学习方法(比如RF16模型),最终可以获得比单独使用TMB更为准确的预测数据。此外,TMB的预测值在不同癌症类型中差异很大,TMB升高的预测价值在黑色素瘤和非小细胞肺癌中得到了很好的证实。然而,在乳腺癌和前列腺癌中,尚未发现TMB可以准确预测免疫治疗反应。而RF16模型对于所有癌症类型都具有良好的预测能力。
ROC是受试者工作特征曲线(Receiver Operating Characteristic),ROC曲线上每个点都能反映对同一信号刺激的感受性。AUC(Area under Curve)是ROC曲线下的面积,AUC作为数值可以直观的评价分类器的好坏,数值越大越好。研究结果显示RF16模型,RF11模型和TMB单项指标在总体癌症组,黑色素瘤,非小细胞肺癌和其他癌症类型的训练组中,产生的ROC 曲线和对应的AUC值。其中RF11是作为RF16模型参照而建立的另一个机器学习模型,RF11比RF16减少了5项较强的预测指标(包括:IBC治疗前化疗,白蛋白,血红蛋白,血小板和癌症分型)。实验结果显示了RF16模型预测IBC疗效反应的灵敏度和特异性高于RF11和TMB单项检测,即使减少了较强预测指标的RF11模型其检测敏感性也高于TMB的单项检测(图 4)。因此,本文作者认为,机器学习模型可以同时评估免疫治疗反应的多项预测指标,是比检测单一预测指标更好的方法。
本文作者也提到他们的RF16模型没有做转录组学数据,也没包括目前临床用的单项检测dMMR和肿瘤PD-L1染色,以及其他评估肿瘤微环境的主要选项,这些都可能对模型预测准确性有限制性影响。不知道他们选择给机器学习的指标标准是什么?而另一项临床常用单项指标MSI排在了对RF16模型预测贡献的第16位,也就是MSI是对预测能力贡献最小的选项。不知道今后作为临床单项检测是否还需要使用这项指标?预期MSKCC的研究人员将用类似的机器学习方法,进行前瞻性试验,以进一步改进现有的分类器。他们预期,肿瘤免疫微环境的分子特征;微生物组学特征;T细胞受体组库的多样性;特异性肿瘤基因组改变;与ICB耐药相关的基因突变和转录组数据都可能会成为机器学习的选项,以进一步帮助改善机器学习的预测能力。作者认为这种量化模型将对精准免疫肿瘤学领域的发展产生重要的促进作用,将进一步改善患者的治疗效果。笔者认为MSKCC的RF16机器学习模型的预测能力,目前还只是一家之言。能否在临床获得有效应用,还需要在更多癌症中心和更大患者人群中得到可重复性的实验效果。
借鉴MSKCC的研究结果,可以预期AI技术将越来越多的深入生物医学领域。机器学习算法显然在某种意义上要胜过人脑的算法。简单的例子就是,人跑的再快也没有汽车这架机器跑的快。在思维领域,计算机的思维不知道将来会发展到什么地步?显然,谁掌握了先进的AI技术,谁就可能是将来跑在前面的领跑者。
MSKCC应该算是国际上头号的癌症中心,免疫治疗的先驱者William Coley早年就在MSKCC前身的纽约癌症医院工作,发现ICB蛋白的诺贝尔获奖者James Allison曾经是MSKCC的肿瘤免疫治疗中心主任。因此,MSKCC也算是癌症免疫治疗的领跑者之一。这篇文章的研究人员阵容的确令人刮目相看,除了外科,内科,病理科,肿瘤放疗科,流行病和生物统计常规科室外,还有专门的免疫遗传学和精准肿瘤学平台(Immunogenomics and Precision Oncology Platform),计算机和系统生物学部(Computational and Systems Biology Program), 计算机肿瘤学部(Computational Oncology),和信息系统(Information Systems)参与了这项研究。这样的包括AI专家的多学科领域人才和技术的组合,非常有助于在MSKCC院内完成大部分的AI精准肿瘤免疫学的开拓工作。看起来AI时代正在快速到来,个人单打独斗的时代已经过去。