当前位置: 首页 > news >正文

全球公共代谢组数据的全局图谱绘制

摘要

海量公共代谢组学数据整合了数千项研究成果,但长期难以实现高效检索与深度挖掘。本研究开发了网页端工具StructureMASST,可依托分子名称或化学结构式,在各大公共代谢组学数据库中开展规模化、以化学结构为核心的检索。该工具依托预构建知识库完成检索,库内包含21.9亿条谱图匹配结果与4.2亿条元数据关联信息;支持耐受化学修饰检索与质量偏移检索,可将化学结构与物种分类、生物学背景、环境条件进行关联解析,进而加快科研发现进程。

https://structure-masst.gnps2.org/

elabiead@gmail.com

mingxun.wang@cs.ucr.edu

pdorrestein@health.ucsd.edu

#代谢组学 #串联质谱 #基于结构检索 #谱图匹配 #元数据 #公共数据库 #代谢物修饰

StructureMASST设计思路与核心功能

图1FASSTrecords与StructureMASST整体架构

a. 传统单图谱MASST检索流程:需使用者掌握多种工具与专业知识、具备质谱分析能力,依靠专家筛选单张特征图谱,手动整合元数据,仅能检索目标分子对应的部分谱图。

b. StructureMASST优化后的检索流程:无需复杂专业背景,支持基于完整结构/子结构检索全部串联质谱图谱与配套元数据,实现生物背景关联分析;同时兼容耐受修饰检索,可完成多图谱联合检索。

c. FASSTrecords数据整合逻辑:整合全球公共代谢组学数据集,依托GNPS2、MassBank、MoNA等谱图库建立分子与化学结构的关联,通过整型索引键统一接入结构化查询语言(SQL)数据库。

d. 数据库核心表结构与数据规模:数据库包含4张关联数据表,累计完成12.04350873亿条谱图匹配;整合920,790个原始数据文件、4,990套数据集、18亿张串联质谱图谱;结合PanReDU完成原始文件元数据索引,实现分子分布、子结构分布、分子类似物分布的可视化检索。

e. StructureMASST网页交互界面:支持基于结构检索库谱、多图谱联合匹配、分子分布解析等功能。

Multi-MASST两大检索运行模式

多图谱联合检索分为探索式检索、预计算检索2种模式,2者在检索速度、适用范围上存在差异。

表1存储公共代谢组学数据注释信息的SQLite数据库表结构

典型应用案例(功能实测)

研究选取咖啡因、表面活性素、铁载体类化合物、抗抑郁药舍曲林、抗心律失常药胺碘酮等多类物质开展实例验证,覆盖全结构检索、子结构检索、类似物/代谢物检索3大场景。

图2 基于子结构与结构类似物的代谢物图谱解析

a. 水杨酸-噻唑啉子结构检索结果:基于该核心子结构检索得到9种化合物的串联质谱图谱(余弦阈值0.7,匹配峰数≥5),多图谱联合检索证实这类分子同时存在于细菌与人类样本中。

b. 舍曲林类似物检索结果:该抗抑郁药及其类似物仅在人体组织样本中检出(余弦阈值0.6,匹配峰数≥5),筛选条件为母体离子与类似物离子共存于同一原始文件。

c. 质量亏损分析:区分含氯/无氯、单氯/二氯代谢物,判定离子碎片的氯原子组成,标注结果可信度高低。

d. 保留时间共流出分析:质量偏移-31.04 Da的碎片与母体离子共流出,证实该碎片为源内碎片离子,并非真实体内代谢产物。

e. 舍曲林羧基化修饰(质量偏移+ 43.99 Da)位点解析:红色标注为修饰高概率发生位点。

f. 舍曲林戊糖结合修饰(质量偏移+ 148.04 Da)位点解析:红色标注为修饰高概率发生位点。

数据

本研究所用全部质谱原始数据均可在4大公共代谢组学数据库获取:

GNPS/MassIVE、MetaboLights、Metabolomics Workbench和NORMAN/DSFP

已完成元数据标准化的参考谱图库可访问链接

https://external.gnps2.org/gnpslibrary

预计算数据库FASSTrecords会定期更新,稳定版本与实时版本分别发布于

https://zenodo.org/records/18199544

https://masst-records.gnps2.org/masst_records

该数据库遵循ODC-ODbL开放数据库协议

代码

StructureMASST工具的完整源代码已托管至GitHub开源平台

https://github.com/Wang-Bioinformatics-Lab/Structure_MASST_App

详细总结

思维导图

存储公共代谢组学数据注释信息的SQLite数据库表结构

参考

Nat Biotechnol. 2026 Apr 15. doi: 10.1038/s41587-026-03082-8.

Structure-centric searching enables global mapping of the public metabolome

260415StructureMASST.pdf

注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。

http://www.zskr.cn/news/1508725.html

相关文章:

  • 2026年长城故宫升旗一日游十大品牌推荐 - 工业设备
  • 【Springboot毕设全套源码+文档】基于Java的校园故障智能报修管理系统设计与实现(丰富项目+远程调试+讲解+定制)
  • MeloTTS多语种TTS引擎完整指南:从零部署到实战应用
  • 当通讯系统不能“上云”,私有化安全协作平台如何护航数字化转型
  • Altair+pynarrative:用声明式图表与自动叙事构建数据决策链
  • 2026年深圳电子元器件回收行业格局:谁在领跑?实战案例与机构深度解析 - 优质品牌商家
  • Python PDF自动化:文本提取、OCR识别与动态写入实战
  • Xposed环境下绕过反射拦截的Hook能力恢复工具
  • FaceFusion人脸融合实战:3步掌握专业级AI换脸技巧
  • 【Springboot毕设全套源码+文档】基于Java的学校资产管理系统的设计与实现(丰富项目+远程调试+讲解+定制)
  • 聊聊自组网价格,如何选择? - 工业推荐榜
  • 机器学习数据归一化:原理、方法与工程落地全指南
  • 5分钟快速上手:Nucleus Co-op让你在单台电脑上畅享多人分屏游戏
  • Qt属性系统Q_PROPERTY的隐藏玩法:除了读写,它还能帮你自动保存配置、做数据验证和依赖管理
  • 阿里Qwen也来卷Skill,大模型起飞
  • 美团三面被问:你说了那么多的Agent如何记忆,那该如何遗忘呢?我好像真的没仔细想过这个问题,没答上来
  • 科学数据处理系统的三层架构与智能代理实现
  • 2026年6月四川中外合作办学学校推荐:TOP5选择指南统招优势评测专业案例 - 品牌推荐
  • 【Springboot毕设全套源码+文档】基于springboot博物馆综合服务管理系统的设计与实现(丰富项目+远程调试+讲解+定制)
  • QIIME2实战:双端vs单端序列,DADA2与Deblur去噪插件到底该怎么选?
  • 从经济学‘影子价格’到程序并行化:线性规划对偶理论的两个硬核应用实例
  • 云计算入门三要素:计算、存储、网络实战解析
  • 如何用DyberPet开源框架打造你的专属桌面虚拟伙伴?完整指南
  • 2026年聚合广告平台行业观察:素材质量与变现效率如何影响APP商业化路径? - 优质品牌商家
  • 如何通过AI视觉重构技术从单张图片生成专业级材质贴图
  • 北京研学机构哪家好?求推荐靠谱的孩子独立北京行,老师负责的研学机构 - 品牌2026
  • 生产级PDF文档问答系统:Python手写RAG流水线实战
  • Rasa Action Server 异步调用实战:从原理到高可用落地
  • 【Linux网络】深入理解 TCP 协议(一):报头设计与可靠性基石
  • AI推广品牌哪家好,按年收费且性价比高的有哪些 - mypinpai