VirtualFlow+Cloudam,让虚拟筛选提速28万倍
时间:2020-07-14 18:00:13 热度:37.1℃ 作者:网络
2020年伊始,一场突如其来的新冠疫情几乎将全世界打懵在地。在这个特殊时刻,原本显得神秘而高端的药物研发突然变得跟我们每个人息息相关。可以说,全世界都在对能够治疗新冠的新药或者疫苗翘首以盼。
但事实是,一款新药的研发往往需要10-15年时间,耗费20-30亿美元。在已知的4000多种疾病中,90%仍然无药可治。
新药的研发速度慢且成本高昂的主要原因之一是因为湿实验(wet-laboratory指台式实验)过于昂贵且耗时以及初始化合物命中率低。有鉴于此,如何日益强大的计算机算力来取代部分湿实验,从而大幅度提升新药研发的速度,降低成本,一直是研发人员所努力追求的。
今年3月,哈佛大学医学院(HMS)的研究人员在《Nature》杂志发表了论文《An open-source drug discovery platform enables ultra-large virtual screens》。论文提到作者使用了VirtualFlow的开源药物发现平台对超大规模化合物库进行基于结构的虚拟筛选。他们通过整合海量的云端高性能计算资源,将完成10亿级别的化合物分子筛选的时间从475年缩短到了15个小时! 没错,仅仅换一个平台和方法,虚拟筛选的完成速度就被提升了将近28万倍!
虚拟筛选在众多药物发现技术中一直备受追捧。但合成方法学的高速发展,越来越多的有机分子被创造出来,可用于进行虚拟筛选的各种分子库呈几何级数增长。现在可用于药物发现的有机分子已经超过10的60次方。在如此天量的有机分子中做虚拟筛选,传统的方法所能起到的作用已经越来越小。
于是才有了VirtualFlow平台来解决这个问题。
基于VirtualFlow平台的药物发现流程示意图。图片来源:Nature
那么,VirtualFlow到底是什么?这是由哈佛大学医学院牵头研发的全新开源药物发现平台,旨在利用高性能计算能力并行筛选潜在的有机化合物结构,以寻找有希望的新药物分子。该平台支持AutoDock Vina、QuickVina 2、Smina、AutoDockFR、QuickVina-W、VinaXB和Vina-Carb等应用,能够利用AWS、GCP等主流公有云的计算能力进行大规模并行计算。
简单地讲,VirtualFlow平台包含两个模块:配体准备(VirtualFlow for Ligand Preparation,VFLP)和虚拟筛选(VirtualFlow for Virtual Screening,VFVS)。VFVS模块兼容市面上大部分免费的分子对接程序,并可进行同时计算交叉验证。
以前的虚拟筛选方法中,研究人员通常会使用本地HPC或是Hadoop集群来进行计算。但面对线性增加的算力需求,计算资源的捉襟见肘也使得虚拟筛选所需的时间越来越长。正如该论文的作者之一,HMS研究所和哈佛大学物理系的助理Arthanari所言:“毕竟不是每个研究者都在哈佛或斯坦福任教,不可能动辄获得数万核的算力支持。”
VirtualFlow的优势在于,它能通过云端整合上万个CPU来进行分子对接,实测结果显示,VirtualFlow使用160000个CPU对接十亿个小分子耗时约15小时。这种超大规模计算的组织架构如下图所示。
VirtualFlow的计算工作流示意图。图片来源:Nature
更让人惊喜的是,此次用VirtualFlow平台进行的虚拟筛选项目在计算的准确性上也相当出色。为了验证这一点,作者选择了肿瘤研究领域热门的KEAP1蛋白作为虚拟筛选靶点,对含有13亿配体的数据库进行了虚拟筛选。在第一阶段,对13亿分子进行刚性对接,选择打分处于前3百万的分子进入第二阶段。在第二阶段,允许小分子对KEAP1和NFR2相互作用的13个氨基酸残基进行柔性对接,筛选出大约1万个打分优秀的分子。
研究人员随后从成药性、配体效率、化学多样性以及获取难度等方面在这约10000个候选分子中挑选了590个苗头化合物进行活性验证。在活性验证方面,作者选择了表面等离子体共振、核磁共振波谱、荧光极化以及生物层干涉4种目前认可度较高的生物物理学方法,最终给出了两个活性达到毫微摩尔级的代表性化合物iKEAP 1和iKEAP 2的多种实验结果,验证了VirtualFlow在对接10亿以上分子量时的高效性。
代表性化合物iKEAP 1和iKEAP 2的多种实验结果。图片来源:Nature
另外,该论文的作者们还发现了VirtualFlow的线性可扩展性。他们在实验中调集了三个计算集群,分别是拥有18000个CPU(分别为Intel Xeon和AMD Opteron处理器的不同型号)的本地计算集群LC1、拥有30000个英特尔Xeon8268处理器的本地集群LC2以及最多调用了160000个GCP和AWS的CPU的云端集群。
实验表明,VirtualFlow在多种情况下均体现了良好的线性可扩展性。这意味着VirtualFlow中算力越高,性能效率越高,而不会受到其他因素的影响。正如论文作者说的:“一个300核的计算机集群,可以在六周内筛选1亿个化合物;同样的工作1000核的计算机集群只需要两个星期就可以完成。而如果有10000个核心的计算机集群,可以在两周内筛选出10亿个化合物。”
总结一下,该论文主要论证了两点:
1、虚拟筛选的规模越大,筛选的化合物越多,真阳性率越高;
2、在VirtualFlow中,计算核心的数量也就是计算能力,能对性能效率产生最直接的影响。
应该说这个结论并没有精妙的科研思路或者优秀的实验结果,但其展示的VirtualFlow的特性很可能会大大提升新药研发的效率,并且降低研发成本。
说了这么多,VirtualFlow虽好,但使用的门槛也不低。无论是其涉及的代码,还是计算集群调度,又或是公有云平台的对接与优化,都能让一个不熟悉此类业务的人当场抓瞎。为了支持新药研发,国内弹性算力领导者云端软件已经基于其弹性算力平台云E推出了VirtualFlow 高通量虚拟筛选解决方案。
云E弹性算力平台整合了全球主流公有云近50个地域的高性能计算资源,能为人工智能、CAE仿真模拟、生物医药、材料化学等需要高性能计算的行业提供近乎无限的算力支持。
云E平台开箱即用,无需硬件投入、无需运营维护、无需任务排队,预集成近200种专业软件,支持一键式提交作业。云E提供最新最强悍的计算机型,单CPU节点可达224核处理器,单GPU节点可达8卡NVIDIATesla V100。平台拥有云端自主研发的Open Neutral Enterprise Cloud核心技术,具备自主学习与深度学习能力,能够根据用户的实例类型与计算要求智能推荐匹配合适的计算机型,将计算的虚拟损耗降至最低,提升计算效率,降低计算成本。
根据测试,在云E平台上使用100000核CPU,只需要3小时即可完成1亿量级的化合物虚拟筛选任务。而且整个流程简单清晰,使用者只需要基本的设置,既不用进行代码优化,也不用操心公有云计算资源的对接与调度,完全交由云E平台自动完成,为科研人员节省了很多的时间与精力。
目前,云E平台(cloudam)已经全面开放,欢迎各行业的有高性能计算需求的企业和科研人员前往官网注册使用,还能获得2000核时免费计算资源。