构建分子网络和共识谱图接口框架以建立质谱谱库的方法

文档序号:35070773发布日期:2023-08-09 13:19阅读:230来源:国知局
构建分子网络和共识谱图接口框架以建立质谱谱库的方法

本发明涉及一种构建分子网络和共识谱图接口框架以建立质谱谱库的方法,属于谱库构建。


背景技术:

1、分子网络是根据二级质谱图的相似性建立起来的可视化分子网络图,可以直观地获取各成分之间的关系,在网络中找寻标准品质谱图并对其做出解释,能够识别网络中与之相邻的节点,从而发现网络中的类似物。

2、现有的化合物质谱谱库如美国国家科学技术研究院(nist)出版的nist标准化合物质谱数据库,其在气相色谱质谱联用平台的代谢组学研究中发挥了巨大的作用。又如人类代谢组数据库(humanmetabolomedatabase,hmdb)是目前最完整且最全面的人类代谢物和人类代谢数据库,这类数据库在许多研究领域得到了广泛的应用。这些谱库的构建大多基于标准化合物,并由标准化合物推演到结构类似物的谱库构建中。

3、分子网络是解析质谱数据的重要工具,其原理是依据二级质谱图相似度的大小,将样品中的二级质谱数据整合为一种可视化的网络数据,以用于天然产物、药物代谢物等的结构鉴定研究,如有研究者通过分子网络技术成功地鉴定了细菌提取物中的酰化高丝氨酸内酯类化合物。但是分子网络节点中所包含的二级谱图,直接来源于样品,谱图来源单一,并且存在噪音。谱图质量不稳定,无法直接用于构建共识谱图,存放到质谱数据库中,用于鉴定其他样品中的未知化合物。

4、构建模拟谱库可以有效的增加谱库中谱图的数量,提高样本中未知化合物的检出率。通常,研究者分析标准化合物的二级谱图,并将其导入质谱谱库中,用于其他样品中未知化合物的解析。但是对于来源于检测样本中已被识别的,或尚未纳入谱库的,无标准品的,化合物的谱图,其共识谱图的构建依然存在技术难点。共识谱图最初被提出用于蛋白质组学中肽段的鉴定。通常来讲,高度相似的二级谱图被整合成高质量的代表性的二级谱图,被认为是共识谱图。生成的共识谱图有助于驱动谱库构建,例如,为代谢组学和中药物质组研究的数据处理带来便利。

5、分子网络技术能够根据谱图相似性辨析出结构类似物,有效的表征复杂网络中的结构类似物。但是网络中所对应的节点不能直接用来构建模拟谱库。因为用于构建网络的谱图来源单一,存在噪音干扰,得到的谱图不具有代表性。因此本发明开发了分子网络到模拟谱库的接口框架,该框架可以将分子网络中节点蕴含的谱图直接转化成共识谱图,并导入谱库中,用于其他样品的下机质谱数据的谱图比对和化合物鉴定。

6、现有技术的缺点:①分子网络只能用于发现未知化合物,不能用来直接产生共识谱图,不能直接导入谱库以供应用。②谱库中谱图的构建通常基于标准化合物,对无标准品的化合物的谱图构建无能为力。

7、本技术的改进之处:克服谱图构建时严重依赖于标准品的不足,通过本技术所阐述的分子网络和共识谱图的接口框架,可以将分子网络节点中所包含的谱图,或分子网络中无标准品的化合物,转换成供直接比对的共识谱图,导入谱库中供直接使用。该方法不依赖于标准品,转化准确,效率高,并且转化速度快。

8、构建接口框架中的技术难点:①二级质谱谱图是一种谱图信息,无法直接用于数据处理,本发明通过分箱操作,将二级谱图转化成稀疏矩阵;②分子网络节点中所包含的谱图,存在严重的干扰,或存在低质量的谱图,通过密度聚类的方法将干扰谱图去掉;③因为共识谱图来源于样品,无法评价所构建的参考谱图或模拟谱图,本技术采用4种方法平行构建参考谱图或模拟谱库,最终对4种方法构建的参考谱图或模拟谱库进行评价,得到最优解。

9、色谱质谱联用技术产生的数据通常需要结合质谱数据库来进行成分解析,现有的质谱数据库中的谱图大多是基于标准化合物构建的,将建立的谱图导入至谱库中,用于鉴定样品中的未知化合物。通过这种方法建立的质谱数据库,仅能够提供非常有限的化合物数目,而中药和生物样本等所含组分极其复杂,现有的基于标准化合物构建的质谱数据库并不能满足其化学成分的分析。为了解决上述质谱数据库的局限性,亟需构建一种新的谱库构建体系。构建来源于样本的共识谱图,并导入质谱谱库,用于更大范围的解析样品中的未知化合物。与传统的基于标准化合物构建的质谱谱库相比,所涵盖的化合物数目会大大增加。

10、分子网络可以识别并帮助解析样品中的未知化合物,但是分子网络中节点所包含的二级谱图,由于谱图来源单一,存在噪音干扰,不能直接用来构建共识谱图,并导入谱库中。本发明提出了一个分子网络和共识谱图接口框架的工作流程。通过该接口框架的工作流程,可以方便的将分子网络中的节点转化成共识谱图,将共识谱图导入质谱数据处理软件,用于直接比对其他样品数据。


技术实现思路

1、本发明所要解决的技术问题是,提供了一种构建分子网络和共识谱图接口框架以建立质谱谱库的方法,该法不依赖于标准品,转化准确,效率高,并且转化速度快。

2、为解决上述技术问题,本发明采用的技术方案为:

3、构建分子网络和共识谱图接口框架以建立质谱谱库的方法,包括以下步骤:

4、步骤一,采用色谱质谱联用仪对药材提取物或衍生化处理后药材提取物进行检测,获得药材提取物原始数据;

5、步骤二,利用药材提取物原始数据构建分子网络;

6、步骤三,构建分子网络和共识谱图接口框架。

7、步骤一中,药材经过提取或衍生化处理后,用色谱质谱联用仪对药材进行检测,得到色谱和质谱信息。

8、质谱仪至少具有二级裂解功能,包括四极杆-飞行时间质谱仪、四极杆-静电场轨道阱复合式质谱仪、线性离子阱-静电场轨道阱组合式质谱仪的任意一种。色谱条件可以选择正相色谱分离,也可以选择反相色谱分离。

9、步骤二中,构建分子网络时,某前体离子产生的二级谱图与另一个前体离子产生的二级谱图相比较,达到以下要求则两个前体离子以边edge相连接,而每一个前体离子以节点node表示,前体离子对应的二级谱图存储在节点中:

10、①两个前体离子产生的二级谱图中,存在大于等于3个碎片离子峰相匹配,即存在大于等于3个共有碎片离子或共有中性丢失;

11、②互相匹配:共有碎片离子或共有中性丢失之间质量误差值设定为0.02da;

12、③采用公式(1)计算两个前体离子的二级谱图的相似度,得分值必须≥0.7;

13、④如果某个节点与任何一个其他的节点相连,则称之为一个网络,如果网络中的节点小于等于2,则将该网络过滤掉;

14、scoreedge=a1×scorert+a2×scorecosine   (1)

15、其中,scorert表示两个前体离子的色谱峰的保留时间的接近度;scorecosine为两个二级谱图之间的余弦相似度;a1和a2为权重,a1的取值为0.3,a2的取值为0.7;

16、scorert的计算公式为:

17、其中,t1和t2分别为两个前体离子的色谱峰的保留时间,ttotal为总的洗脱时间;

18、scorecosine的计算公式为:

19、

20、其中,i和i’分别代表两个前体离子所对应二级谱图中相匹配的碎片离子,即共有碎片离子的相对强度;n为匹配碎片离子的个数。

21、5.根据权利要求1所述的方法,其特征在于,步骤三中,构建分子网络和共识谱图接口框架包括以下步骤:

22、s01,将所有样品导入ms-dial进行峰拾取和反卷积,然后将包含二级质谱信息的每个样品的峰列表合并,得到csv.格式数据。

23、s02,提取二级谱图,以分子网络中节点对应的前体离子的质核比m/z±0.02为关键词,提取.csv格式数据中所有二级谱图,并对提取获得的二级谱图进行连续编号spect_number,同时对节点进行编号node_number;

24、s03,提取二级谱图中所有的碎片离子及其相应的丰度,按照碎片离子大小进行排序,找到碎片离子的最小值和最大值,对最小值向下取整数,记作ms2_min;对最大值向上取整数,记作ms2_max;高分辨质谱数据的箱宽设定为m/z 0.02,低分辨质谱数据的箱宽设定为m/z 1.00,以碎片离子最小值ms2_min开始,每间隔一个箱宽的尺度设定一个箱子,箱标y则设定为:上限~下限,箱子数=(ms2_max-ms2_min)÷箱宽;

25、s04,如果箱宽是m/z 0.02,则按照以下公式确定每个碎片离子所在的箱标,y=int(碎片离子的m/z×100),y值如为偶数,则该碎片离子箱标的上限=y÷100;y值如为奇数,则该碎片离子箱标的上限=(y-1)÷100,箱标的下限=上限+箱宽;如果箱宽为m/z1.00,则每个碎片离子取整数,作为碎片离子的箱标上限,箱标的下限=上限+箱宽,通过以上步骤确定每个碎片离子所在的箱标;

26、s05,根据箱标确定碎片离子在矩阵中的行号和列号,其中,行号为二级谱图的连续编号spect_number,而列号=(上限-ms2_min)/箱宽;根据碎片离子的行号和列号,分别把碎片离子及其相对丰度依次放入两个矩阵中各自对应的位置上,箱子中存在的空缺值用0填补;由于矩阵含有零值的个数较多,因此将二维矩阵存储至稀疏矩阵中进行下一步的聚类分析;通过这一步骤,所有的谱图都被分箱转化,产生了两个稀疏矩阵数据,稀疏矩阵i存储碎片离子的质核比,稀疏矩阵ii存储碎片离子的相对丰度值;

27、s06,稀疏矩阵ii进行密度聚类dbscan分析,计算每张二级谱图到最近邻5张二级谱图的平均距离,绘制k-距离曲线图,选择曲线中明显拐点的位置作为密度聚类的eps参数;随机从一个未被访问的二级谱图开始,以eps为半径搜索所有相邻的二级谱图,如果相邻二级谱图的个数大于5,则聚类过程开始,当前二级谱图成为该簇的第一核心点,否则,该点被标记为噪声;而与第一核心点相邻的二级谱图则被归为同簇,对同簇内二级谱图进行重复访问,查看与之相邻二级谱图的个数,个数大于5,则纳入该簇,直到访问完同簇内所有的二级谱图为止,即完成该簇的划分;接着处理新的未访问二级谱图,重复以上步骤;通过该步骤分析,每张二级谱图都产生一个簇编号,如果编号为零则表示为噪音谱图;

28、s07,除去噪音谱图,如果分子网络中的节点对应的所有二级谱图,都在一个簇内,那么簇内所有二级谱图都用于该节点模拟谱图的构建;如果分子网络中的节点所对应的二级谱图,产生了一个以上的簇,则选择簇占比大于等于70%的簇,用于该节点模拟谱图的构建;簇占比的公式见公式2;如果分子网络中的节点产生了一个以上的簇,并且每一簇的簇占比都小于70%,则放弃该节点模拟谱图的构建;通过以上分析,每个节点均产生一个用于构建模拟谱库的簇;

29、簇占比=该簇二级谱图的张数÷节点对应的二级谱图总张数×100%(2)

30、s08,通过4种方法构建共识谱图;

31、方法一,计算稀疏矩阵ii中,每个簇的箱子中相对丰度值的算术平均值,作为该节点模拟谱图的丰度;相对应的,计算稀疏矩阵i中,每个簇的前体离子的质核比m/z的算术平均值,作为该节点模拟共识谱图的碎片离子质核比;

32、方法二,检查稀疏矩阵ii中每个簇中的数据,如果箱子中含有0的频次高于75%,则把该箱子删除;计算稀疏矩阵ii中,每个簇剩余箱子相对丰度值的算术平均值,作为该节点模拟谱图的丰度;相对应的,计算稀疏矩阵i中,每个簇的前体离子的质核比m/z的算术平均值,作为该节点模拟共识谱图的碎片离子质核比;

33、方法三,对每个簇中的二级谱图进行两两配对,计算每张二级谱图与簇中其余各二级谱图中相对丰度值的相似度,并求出算术平均值,算术平均值最大的那张谱图,即作为代表性的模拟共识谱图;

34、方法四,将簇内所有的二级谱图纳入一个模拟谱库中,导入至质谱数据处理软件中,用步骤一产生的药材提取物原始数据,原始数据包括色谱及质谱信息,对簇内所有二级谱图进行测试,选择匹配得分最大的谱图作为该聚类的代表,即为该节点的模拟共识谱图;

35、经过这个步骤,分子网络中的每个节点都产生了一个对应的模拟共识谱图,全部的节点的模拟共识谱图构成模拟谱库;

36、s09,对上述四种方法得到的模拟谱库进行评价;用外部数据集对四种方法得到的模拟谱库进行评价,外部数据集为除构建分子网络外的样本经过与步骤一相同的化学标记处理和液质方法采集得到;以四种方法获得的模拟谱库在外部数据集测试中的匹配分数的加权平均值,即权重值为评价指标,a为四种方法得到的碎片离子总个数,b为每种方法得到的碎片离子个数,权重值的计算公式如下:权重值=1-b÷a;从四种方法中选择权重值最大的方法来构建模拟共识谱图;

37、s10,根据模拟共识谱图和分子网络的结果对该节点进行结构解释,将化合物名称,化学标记后的分子式,前体离子和二级碎片离子,以及smiles信息录入模拟谱库即可。

38、高分辨质谱数据为分辨率大于等于10000fwhm的质谱仪采集的数据;低分辨质谱数据为分辨率小于10000fwhm的质谱仪采集的数据。

39、本发明的有益效果:

40、本发明克服谱图构建时严重依赖于标准品的不足,通过本发明所阐述的分子网络和共识谱图的接口框架,可以将分子网络节点中所包含的谱图,或分子网络中无标准品的化合物,转换成供直接比对的共识谱图,导入谱库中供直接使用。该方法不依赖于标准品,转化准确,效率高,并且转化速度快。

41、本发明构建来源于样本的共识谱图,并导入质谱谱库,用于更大范围的解析样品中的未知化合物。与传统的基于标准化合物构建的质谱谱库相比,所涵盖的化合物数目大大增加。

42、构建接口框架中的技术难点:①二级质谱谱图是一种谱图信息,无法直接用于数据处理,本发明通过分箱操作,将二级谱图转化成稀疏矩阵;②分子网络节点中所包含的谱图,存在严重的干扰,或存在低质量的谱图,通过密度聚类的方法将干扰谱图去掉;③因为共识谱图来源于样品,无法评价所构建的参考谱图或模拟谱图,本技术采用4种方法平行构建参考谱图或模拟谱库,最终对4种方法构建的参考谱图或模拟谱库进行评价,得到最优解。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1