IVD前沿 | 长蛋白链的多通道、单分子纳米孔读取技术
时间:2024-09-28 06:07:11 热度:37.1℃ 作者:网络
纳米孔技术
是在一个绝缘膜上用一个纳米大小的孔隔开两个充满电解质的孔。施加在膜上的电压驱动离子电流通过纳米孔传感器。当单个分析分子通过这个孔时,它们可以在信号中产生可检测的变化。这种变化可以帮助我们深入了解分析物的分子性质。虽然最初被视为核酸链测序技术,现在已被商业化,但纳米孔传感在蛋白质分析方面具有巨大的潜力。
2024年9月11日美国研究人员在Nature上发表最新研究进展揭示了:长蛋白质链的多通道、单分子纳米孔读取技术。
文章背景
蛋白形式多样性是指由于转录、翻译和翻译后修饰(PTMs)的差异而存在的大量蛋白质变异,这些差异可以通过酶促(如磷酸化)和非酶促(如自发脱酰胺)过程发生。这些变异在单个蛋白质分子上独立发生或相互结合,创造了一个在驱动生物过程中具有独特和特定作用的“PTM代码”。在蛋白质的自然全长状态下对单个蛋白质分子进行测序的能力可以阐明这种蛋白质形式的多样性及其潜在的代码。然而,目前的方法,包括Edman降解和质谱,难以从复杂的样品中分析全长蛋白,并面临检测灵敏度、动态范围、分析通量和仪器成本等问题。为了应对这些挑战,人们提出了用于下一代蛋白质分析和测序的互补或潜在破坏性平台,包括单分子荧光标记和基于亲和力的方法。与纳米孔技术相比,这些新兴技术也有局限性,纳米孔技术有可能实现直接的、非标记的全长蛋白质测序。
主要内容
对单个蛋白质分子进行天然全长序列测定的能力将使研究人员能够更全面地了解蛋白质组学的多样性。然而,目前的技术在实现这一目标方面有限。在本研究中,作者建立了一种在商业纳米孔传感器阵列上对完整蛋白链进行远距离单分子读取的方法。
利用ClpX解折叠酶使棘轮蛋白质穿过CsgG纳米孔,作者提供了ClpX在两残基步骤中转运底物的单分子证据。这一机制实现了对合成蛋白质链上数百个氨基酸的单氨基酸的敏感性,使单氨基酸取代组合的测序和翻译后修饰(如磷酸化)的映射成为可能。为了进一步提高分类的准确性,作者展示了重复阅读单个蛋白质分子的能力,并探索了高度准确的蛋白质条形码测序的潜力。此外,作者开发了一个生物物理模型,可以在残留体积和电荷的基础上先验地模拟原始的纳米孔信号,增强了原始信号数据的解释。最后,作者应用这些方法来检查全长、折叠蛋白域进行完整的端到端分析。这些结果为平台提供了概念验证,该平台具有在单分子分辨率下识别和表征全长蛋白形式的潜力。
在建立了基于顺式的ClpX方法后,接下来试图研究该方法对单氨基酸的敏感性,作为开发长读长蛋白分析方法的第一步。
作者设计了包含5个重复序列块的蛋白质结构,每个序列块包含59个氨基酸。这些区块是由甘氨酸、丝氨酸、天冬氨酸和谷氨酸的碱基序列构建的。在每个区组的中心位置引入一个独特的氨基酸突变,并在每一端用双酪氨酸突变划定区组。
作者将这些策略性设计的蛋白质结构称为“通过优化区域进行氨基酸测序的蛋白质”(PASTORs)。这种间隔的目的是通过防止单个氨基酸突变同时占据孔隙来避免其信号贡献的纠缠。总共合成了8种不同的PASTOR变异体,每种变异体均包含不同的突变序列。PASTOR的设计能够在一个纳米孔读取中分析多达5个不同的突变,而总共8个PASTORs (C到N: HDKER, GNQST, FYWCP, AVLIM, VGDNY, TWAFH, PRMQE和KSILC)能够研究两个不同的PASTOR序列背景下的20个氨基酸。
考虑到单个氨基酸的体积和电荷之间的关系,以及它们对纳米孔信号的影响,作者建立了一个生物物理模型,旨在直接模拟蛋白质氨基酸序列的纳米孔信号。对合成蛋白质构建物(如PASTORs)进行测序可用于多种技术应用,包括蛋白质条形码。最初通过训练机器学习模型识别VR中存在的单个突变来解决这一问题。这个过程包括过滤和缩放每个原始信号痕迹,然后分割VR信号区域。为了特征化VR信号,作者使用了一种人工管理特征和dtw -距离特征(方法)的组合。
进而,作者探索了几个经典和深度机器学习模型,发现随机森林最常获得最高的准确性。所有分类分析都是在使用超参数优化的随机森林模型(除非另有说明),并在固定的保留测试集中进行评估。
总之,本文介绍了一种使用纳米孔和解折叠酶马达蛋白来单分子读取长蛋白质链的新方法。这种方法实现了对单氨基酸的敏感性,并证明了在长蛋白质链的特定序列环境中重新阅读和测序氨基酸替换的能力。这可能会立即推动蛋白质条形码技术,因为我们预计有能力设计合成肽序列库(超过10亿个)。此外,我们还应用我们的方法检测和绘制了不同激酶的活性,实现了沿着延长蛋白序列的酶促PTMs的位点特异性检测,以及对单一合成蛋白底物的100多种假定的蛋白形式的相对定量。
文章链接:Multi-pass, single-molecule nanopore reading of long protein strands | Nature