科学家使用机器学习获得前所未有的小分子视图

2022-12-30 12:14 365 阅读 ID:643
机器之心
机器之心

数以千计的不同小分子(称为代谢物)在整个人体中传输能量和传递细胞信息。由于它们非常小,因此很难在血液样本分析中将代谢物彼此区分开来——但识别这些分子对于了解运动、营养、饮酒和代谢紊乱如何影响健康非常重要。

尽管在过去十年中预测方法和工具取得了快速进展,但生物样本中小分子的结构注释仍然是非靶向代谢组学的关键瓶颈。液相色谱-串联质谱法(LC-MS)是使用最广泛的分析平台之一,可以检测样品中的数千个分子,即使使用一流的方法,其中绝大多数仍未被识别。

近日,来自阿尔托大学和卢森堡大学的研究人员开发了一种机器学习框架:LC-MS^2Struct,用于对 LC-MS 测量产生的小分子数据进行结构注释。经过数十个实验室的数据训练,成为识别小分子最准确的工具之一。

LC-MS^2Struct 获得了比早期方法显著更高的注释精度,并将最先进的 MS^2 评分器的注释精度提高了高达 106%。使用立体化学感知分子指纹可提高预测性能,这突出了现有方法的局限性,并对未来的计算 LC-MS 发展具有重要意义。

该研究以「Joint structural annotation of small molecules using liquid chromatography retention order and tandem mass spectrometry data」为题,于 2022 年 12 月 19 日发布在《Nature Machine Intelligence》上。

                            论文链接:https://www.nature.com/articles/s42256-022-00577-2

生物样品中小分子的结构注释是生物医学、生物技术、药物发现和环境科学等各个研究领域的关键瓶颈。非靶向代谢组学研究中的样本通常包含数千种不同的分子,其中绝大多数仍未被识别。LC-MS 是使用最广泛的分析平台之一,因为它可以进行高通量筛选、高度灵敏并且适用于范围广泛的分子。

对于每个离子,记录的碎片及其强度构成 MS^2 谱图,其中包含有关分子中子结构的信息,并作为注释工作的基础。在典型的非靶向 LC-MS^2 工作流程中,数千个 MS 特征(MS^1、MS^2、RT)来自单个样本。结构注释的目标是将每个特征与候选分子结构相关联,以供进一步的下游解释。

近年来,已经开发了许多预测 MS^2 质谱图结构注释的强大方法。有趣的是,RT 信息在基于 MS^2 的结构注释自动化方法中仍未得到充分利用。自动注释管道中另一个有点被忽视的方面是立体化学的处理,即分子的不同三维 (3D) 变体。

在此,研究人员着手为联合使用 MS^2 和 retention order (RO) 结合立体化学感知分子特征来提供 LC-MS^2 数据结构注释的新视角。提出了一种名为 LC-MS^2Struct 的新型机器学习框架,它学习如何以最佳方式组合 MS^2 和 RO 信息,以准确注释一系列 MS 特征。

LC-MS^2Struct 依赖于结构化支持向量机 (SSVM) 和最大间隔马尔可夫网络(max-margin Markov network)框架。框架不需要单独学习的 RO 预测模型。相反,它优化了 SSVM 参数,使得正确和任何其他注释序列之间的分数差最大化。通过这种方式,LC-MS^2Struct 学习如何以最佳方式使用来自一组 LC-MS^2 实验的 RO 信息。

根据 MassBank 提供的所有可用反相 LC 数据对LC-MS^2Struct 进行了训练和评估,包括来自 18 种不同 LC 配置的总共 4,327 个分子,因此在模型评估中达到了高水平的测量多样性。

                                        图示:LC-MS^2Struct 工作流程概览。(来源:论文)

LC-MS^2Struct 与其他三种方法(RT 过滤、logP 预测和 RO 预测)进行了比较。LC-MS^2Struct 可以与任何 MS^2 评分器结合使用,并使用 CFM-ID、MetFrag 和 SIRIUS 工具进行了演示。

                                    图示:组合 MS^2 和 RT 信息的不同方法。(来源:论文)

实验表明,LC-MS^2Struct 注释小分子的准确性远远优于更传统的 RT 过滤和基于 logP 的方法,也明显优于以前依赖 RO 的方法。所有三个研究的 MS^2 评分器都可以通过LC-MS^2Struct 进行改进,包括同类最佳的 SIRIUS,由于其已经很高的基线准确性,通常很难对其进行改进。对于 CFM-ID 和 MetFrag,LC-MS^2Struct 比 only-MS^2 的 top-1 准确度提高了 4.7 和 7.3% 单位,分别对应于 80.8% 和 106% 的性能增益。

研究结果显示了立体化学感知分子特征对于 LC-MS^2 数据结构注释的优越性。值得注意的是,这不仅适用于立体异构体的注释,也适用于仅通过其二维结构区分的候选物。

接下来,研究了LC-MS^2Struct 是否可以比单独使用 MS^2 更准确地注释立体异构体,考虑到双键方向不同的立体异构体之间的差异(例如,顺反异构或 E-Z 异构),这可能会导致其 LC 行为的差异。候选分子使用两种不同的分子指纹表示:一种包括立体化学信息 (3D);和一个省略它的 (2D)(方法)。这使我们能够评估立体化学感知特征对于结构注释的重要性。

                                      图示:使用LC-MS^2Struct 识别立体异构体。(来源:论文)

在查看LC-MS^2Struct (3D) 的单个 MS^2 评分器的 top-1 性能时,观察到 CFM-ID、MetFrag 和 SIRIUS 分别提高了 2.6、3.8 和 3.2 个百分比单位。这分别转化为 87.3%、95.9% 和 44.3% 的性能提升。

一般来说,LC-MS^2Struct 提高了所有三个 MS^2 评分者的排名。然而,当使用立体化学感知 (3D) 候选特征时,改进明显更大。有趣的是,在 ALLDATA 设置中可以观察到类似的行为,尽管绝对性能改进较小。该实验表明LC-MS^2Struct 可以使用 RO 信息来改进立体异构体的注释。

「我们的研究表明,虽然绝对保留时间可能会有所不同,但保留顺序在不同实验室的测量中是稳定的,」阿尔托大学的博士生 Eric Bach 解释道。「这使我们能够有史以来第一次合并所有公开可用的代谢物数据,并将其输入到我们的机器学习模型中。」

卢森堡大学卢森堡系统生物医学中心 (LCSB) 副教授 Emma Schymanski 说:「使用立体化学提高了鉴定性能这一事实对所有代谢物鉴定方法的开发人员来说都是一个启示。这种方法也可以用来帮助识别和追踪环境中的微污染物,或表征植物细胞中的新代谢物。」

参考内容:https://phys.org/news/2022-12-scientists-machine-unprecedented-view-small.html

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn