全自动、自主运行的代谢组学实验室

全自动、自主运行的代谢组学实验室

摘要

全自动代谢组学实验室一直是领域愿景,但受分析方法设计复杂度限制,至今尚未落地。本研究以此为目标,开发了1款基于质谱非靶向代谢组学、可自动设计液相色谱梯度的自优化框架BAGO。该工具以提升所有化合物(无论已知/未知)的分离效果为目标,实现代谢物全域检出能力的增强。BAGO依托数据驱动型贝叶斯优化算法,从已采集的质谱数据中迭代学习,输出更优的色谱梯度方案。研究提出全局分离指数,可量化已注释及未注释特征峰的共洗脱程度,无需依托化合物结构,即可对各类样本开展稳定优化。本研究选取4组代谢组学实验(覆盖多种样本基质、色谱柱类型与梯度时长)开展性能验证。BAGO通过平衡算法的探索与利用能力,仅需10轮迭代即可实现显著优化。经梯度优化后,样品中高斯型色谱峰数量、2级质谱采集率均有所提升,结合精准匹配与类似物检索2种方式,代谢物注释数量也同步增加。本研究进一步将BAGO应用于黑腹果蝇腹部躯体的性别差异代谢组学研究,分别采用初始梯度与优化后梯度完成平行实验。结果显示:优化方法使高斯型色谱峰数量提升41.9%,触发2级质谱采集的峰数量提升36.8%,并多鉴定出18种具有生物学意义的代谢物,其中包括章鱼胺、焦谷氨酸等与性别特征相关的物质。BAGO为开源免费工具,为非靶向代谢组学搭建全自动化、自优化实验流程奠定了通用化基础。

开源地址

https://github.com/HuanLab/bago

huaxuyu@zju.cn

thuan@chem.ubc.ca

#液相色谱梯度性能 #分离度 #贝叶斯优化 #自优化

方法

BAGO工作流程

图1BAGO算法设计与优化目标

(a) 流程图展示BAGO整体架构:算法基于分离效率与梯度程序的未知关联,对初始梯度开展迭代优化,直至得到最优梯度。

(b) 液质梯度设计的贝叶斯优化1维可视化。

上图:高斯过程回归(GPR)模型结合实测数据,对未知目标函数进行预测,并量化预测不确定性;

下图:基于高斯过程回归模型生成期望改进获取函数,筛选下一组待测试的液相色谱梯度。

(c) 采用BAGO算法优化人血清样本色谱梯度的结果对比。实验使用4极杆飞行时间质谱联用BEH C18色谱柱。

左上:初始梯度程序(流动相B占比随时间变化);

右上:初始梯度对应的液质基峰色谱图;

左下:优化后梯度程序;

右下:优化后梯度对应的液质基峰色谱图。

(d) 非靶向代谢组学中全局分离指数(GSI)的定义:该指数基于保留时间区间平方和计算。若所有化合物在洗脱区间内均匀分布,代表达到理想分离;若所有化合物在梯度起始位置共洗脱,则代表完全未分离。

(e) 3种不同分离状态对应的全局分离指数数值示例。

(f~h) 全局分离指数分别与3类指标的斯皮尔曼等级相关系数:

(f) 独立2级质谱谱图数量;

(g) 高斯型色谱峰数量;

(h) 带有2级质谱谱图的高斯型色谱峰数量。

结果

算法开发

2液质梯度优化中算法探索与利用能力的平衡分析

采用亲水作用色谱柱+ 4极杆飞行时间质谱,对单份人尿液样本开展142组梯度实验,覆盖全部梯度搜索空间。

(a) 梯度搜索空间的均匀流形逼近与投影可视化:对比纯利用、纯探索、期望改进3种策略的前10次实验选择。图中灰色点代表142组不同梯度对应的液质实验,彩色点为依次开展的实验,红色菱形为初始梯度。

(b) 期望改进、纯探索、纯利用3种策略的模型拟合效果对比(以决定系数R2为评价指标)。

(c) 3种策略的模型拟合效果对比(以中位数绝对误差为评价指标)。

(d) 3种策略的优化效率对比(以相对分离效率为评价指标)。

(e) 5种不同获取函数找到最优梯度所需实验次数的统计直方图;

EI =期望改进、PI =改进概率、Eps=ε-贪心算法。

性能基准测试

3BAGO在4组液质串联质谱代谢组学实验中的基准性能验证

高分辨4极杆飞行时间质谱平台

(a~d) 4组实验在BAGO迭代优化过程中,高斯型色谱峰数量(蓝色标识,上图)、触发2级质谱采集的峰数量(红色标识,下图)变化趋势:

(a) 小鼠粪便代谢组,9分钟亲水作用色谱梯度;

(b) 人尿液代谢组,9分钟亲水作用色谱梯度;

(c) 人血清极性代谢组,9分钟亲水作用色谱梯度;

(d) 人血清非极性脂质组,31分钟反相色谱梯度。

(e~h) 初始线性梯度与优化后梯度的曲线对比:

(e) 小鼠粪便样本;

(f) 人尿液样本;

(g) 人血清极性代谢组;

(h) 人血清脂质组。

(i) 梯度优化后,通过精准匹配检索与谱图模糊检索得到的、带有高斯峰形的代谢物注释数量变化。

(j) 不区分峰形,所有采集到的2级质谱谱图经精准匹配检索、谱图模糊检索得到的代谢物注释数量变化。

生物学应用

4BAGO应用于黑腹果蝇腹部躯体性别差异代谢组学的研究结果

(a) 结合BAGO梯度优化的非靶向代谢组学完整实验流程:样本采集、BAGO方法开发、液质串联质谱检测、数据分析与结果验证;分别采用初始线性梯度、优化后梯度完成检测,依托MassCube软件开展非靶向代谢组学分析与2级质谱谱图库匹配(数据库包含NIST23、MS-DIAL、北美质谱库、GNPS)。

(b) 高斯型色谱峰数量、带2级质谱峰数量、精准匹配注释数、模糊检索注释数的组间对比(初始梯度vs优化后梯度)。

(c) 经空白样本剔除、质控样本相对标准偏差过滤后,各类代谢组学特征指标的组间对比。

(d) 初始梯度下质控样本中质荷比130.050的提取离子流图:主峰为谷氨酰胺的源内裂解碎片,两种离子发生严重共洗脱。

(e) 优化后梯度下质控样本中质荷比130.050的提取离子流图:2种同质荷比离子实现有效分离。

(f) 新注释代谢物焦谷氨酸在雌雄果蝇组间的质谱信号强度对比(采用非配对双尾t检验,未进行多重检验校正)。

(g, h) 火山图:分别基于初始梯度数据(g)、优化后梯度数据(h)筛选雌雄果蝇间的显著差异代谢物;虚线为筛选阈值:倍数变化1.5、P<0.05,分析采用原始P值。

数据

所有液质联用原始数据已上传至Zenodo公共数据库,获取地址

https://zenodo.org/records/18167866

代码

数据分析代码、Python程序包、Windows客户端软件均开源,地址

https://github.com/HuanLab/bago

详细总结

思维导图

分数据集详细结果

与传统梯度优化工具的对比优势

参考

Anal Chem. 2026 Jun 15. doi: 10.1021/acs.analchem.6c01208.

BAGO: A Self-Optimizing Tool for LC-MS Gradient Design in Metabolomics

注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。