一种基于深度学习的代谢质谱筛查方法及系统的制作方法
【技术领域】
[0001] 本发明设及代谢质谱筛查领域,尤其设及一种基于深度学习的代谢质谱筛查方法 及系统。
【背景技术】
[0002] 代谢物是生物体内完成代谢过程的小分子有机化合物总称,包含了丰富的生理状 态信息。代谢组学基于对代谢物的整体系统性研究,可有效掲示生理现象背后的真实机理, 并更为全面地展示生命体的动态状态。因此获得了越来越多的重视,被广泛应用于诸多科 研与实用领域中。质谱分析(Mass Spectromet巧,MS)是代谢组学最为重要的研究工具之 一,可有效鉴别不同的代谢物质,并准确衡量其相对浓度,数据形式如图1和图2所示。疾病 检测是代谢质谱主要的应用范畴之一。通过定量测定目标代谢物的存在与丰度变化,可获 得较传统方法更为丰富、完整的生理数据,对疾病的存在与发展状态进行有效判定,并协助 医生拟定针对性的治疗方案。
[0003] 现有基于代谢质谱的检测算法(例如应用于疾病检测或预测),其流程包含=个主 要步骤:1).峰值检测,将原始质谱经预处理消除噪声干扰,获取有效峰值。常用的预处理算 法包括正规化(Standardization)、PCA白化、ZCA白化等;2).峰值注释(Annotation),判定 目标峰值(群)所对应的具体代谢物质种类。运一过程往往由实验人员人工完成,但近年来 也出现了基于机器学习与人工神经网络的自动注释算法,获得了较好的效果;3).疾病判 定,W生物标志物数据库为基础,通过分析特定代谢物的出现、消失或浓度变化,预测可能 发生的疾病类型与发展状态。常用的生物标志物数据库包括小分子代谢途径数据库 (SMPDB )、人类代谢物数据库(HMDB)等,而常用的判定算法包括支持向量机分类器(Suppod Vector Machine Classifier)等。
[0004] 深度学习网络是目前机器学习与人工神经网络领域最前沿、性能最佳的分析方法 之一。在复杂认知问题上具有远优于传统算法的预测能力,泛化性能良好,并可同时对多个 目标状态进行判定。获得了学术与工业界的高度重视,已被成功应用于计算机视觉、音频识 别等重要领域中。
[0005] 现有基于代谢质谱的检测方法,其缺点在于:
[0006] 第一,现有方法需对质谱峰值进行判定与注释,W确定其对应的代谢物种类。运一 过程往往要求专业人员的深度参与,即使利用了机器学习等自动化算法,仍需要人工对注 释结果进行最终判定与调整。从而增加了应用成本与难度。此外,由于当前代谢组学知识仍 有着大量缺失,通常在质谱中仅有不到一半的峰值可被成功注释,其平均置信度也较低。从 而对于许多状态并不能进行有效预测。
[0007] 第二,现有方法需针对每种特定类别,分析与其关联的各代谢标志物变化情况,才 能对状态作出大致判断。运一过程较为复杂,需大量人工干预。且若部分标志物未能被成功 注释,或其注释的置信度较低,或噪声信号被错误注释为代谢标志物,都将严重影响预测准 确度。
[0008] 第=,现有方法在每次进行分析时,仅能判定单一的状态。而在实际应用中,往往 需检测多种不同的状态。若对其进行逐一分析,所需时间及成本都较高。如何设计并行化算 法,在单次运行中同时筛查多个状态,是当前亟需解决的重要问题。
[0009] 因此,现有技术还有待于改进和发展。
【发明内容】
[0010] 鉴于上述现有技术的不足,本发明的目的在于提供一种基于深度学习的代谢质谱 筛查方法及系统,旨在解决现有的代谢质谱检测方法其过程复杂、准确度低、时间及成本高 等问题。
[0011] 本发明的技术方案如下:
[0012] -种基于深度学习的代谢质谱筛查方法,其中,包括步骤:
[0013] A、获得训练样本数据集S={Sl,S2,…Sn,…,SN},其中任意质谱Sn=[(ml,il),(m2, i2),…(md,id),…],Hid和id分别为第d条谱线的质核比与强度值;所述训练样本数据集S对应 的类标矢量为。=山1,。2,,,',。山
[0014] B、对S中的每个质谱进行预处理得到代谢质谱特征数据集T=ITi,T2,…,Tn};
[001引C、构造类标集合为C=[Ci,C2,...,Cn],设若原类标矢量C中的任意样本类标Cn = k, 则对应的Cn构造为除第k维数值为1外,其余数值均为0的K维矢量;
[0016] D、将预处理后的代谢质谱特征数据集T= {Ti,T2,…,Tn}与类标集合C用于深度学 习网络的训练;
[0017] E、构造包含1个输入层,1个输出层,W及L个隐含层的深度学习网络结构,其中输 入层具有2D个节点,输出层具有K个节点,对于任意第IEL个隐含层,设其节点数为Pi,且具 有递减关系Pi-i〉Pi,D为从Sn中选择强度值最高的谱线数量;
[0018] F、使用找式自编码器分别训练各隐含层;
[0019] G、使用逻辑回归作为输出层节点的激活函数,逐一训练输出层的节点;
[0020] H、在对各层分别进行训练后,依次找式叠加,构成代谢质谱筛查深度学习网络;
[0021] I、使用BP算法对代谢质谱筛查深度学习网络的网络参数进行整体微调;
[0022] J、在训练完成后,将代谢质谱筛查深度学习网络用于代谢质谱样本的并行检测与 筛查。
[0023] 所述的基于深度学习的代谢质谱筛查方法,其中,在步骤J中,对于新输入的代谢 质谱样本S,先进行预处理,获得特征矢量T,而后送入代谢质谱筛查深度学习网络进行并行 预测,获得对应的输出状态矢量为0。
[0024] 所述的基于深度学习的代谢质谱筛查方法,其中,所述步骤B具体包括:
[0025] B1、从Sn中选择强度值最高的D条谱线,形成具有相同维度的质谱矢量S\=[(mi, 11),(1112 42)^。,細山)],若5。原长度小于0,则添加(0,0)谱线补齐;
[0026] 62、提取5^^的强度矢量为1。=山42,一4〇],对其进行正规化,使其在每个维度上 的数值都具有0均值及单位方差:
[0027]
[002引其中iin、Sn分别为In的均值与方差;
[0029] 63、提取5^^的质核比矢量为啦=[1111,1112,''',皿],将其与预处理后的1。拼接,构造质 谱特征矢量为Tn= [mi,m2,? ? ?,皿,i*i,i*2,? ? ?,i*D],其包含2D个特征值。
[0030] 所述的基于深度学习的代谢质谱筛查方法,其中,所述步骤F具体包括:
[0031] F1、设若当前训练的为第1个隐含层,构造3层自编码训练网络;
[0032] F2、使用双曲正切函数作为隐含层与自编码训练网络输出层的激活函数,则当前 隐含层节点输出为:
[0033]
[0034] 其中Whi为隐含层权值矩阵,Bhi为隐含层偏置矢量,出-1为第1-1层的隐含节点输 出,Hl-I= [ Iu-1,1, Iu-I, 2,... , Iu-I, Pl-I ];
[0035] F3、自编码训练网络输出层的节点输出为:
[0036]
[0037] 其中Cl为输出层权值矩阵,B°i为输出层偏置矢量。输出矢量化=[01,1,01,2,…, 01, Pl-I ]同样包含Pl-I个数值;
[0038] F4、定义差异代价函数为:
[0039]
[0040] 其中Il . Ik表示矢量差值的2范数,此外,基于h正则化定义稀疏因子为:
[0041] 化=I化111
[0042] F5、定义完整的代价函数为:
[0043] Ji= Wi+Api
[0044] 其中A为拉格朗日乘数;
[0045] F6、基于此完整的代价函数,使用反向传播算法训练A心1、胖°1及趴的数值,获得 最佳的隐含层训练结果;
[0046] F7、更新1 = 1+1,若KL则转至步骤F1。
[0047] 所述的基于深度学习的代谢质谱筛查方法,其中,所述步骤G具体包括:
[0048] G1、设当前训练的为输出层第k个节点,定义其差异代价函数为:
[0049]
[0050] 其中0Sk为输出层节点k的参数矩阵0k在第seS行的行矢量;S = 2为该节点所表示 的状态总个数;bk为偏置值;函数IsO为示性函数,其中0\为输出层节点k在输入为化"时的 输出,其值计算方法如下:
[0化1 ]
[0052] 其中化n为最后的隐含层在使用样本Tn训练时的输出;
[0053] G2、定义稀疏因子为参数矩阵的1范数:
[0化4]
[0055] G3、定义完整的代价函数为:
[0化6] Jk= Wk+入Pk
[0057]其中A为拉格朗日乘数;
[0化引 G4、更新更新k = k+l,若k<K则转至步骤G1。
[0059] -种基于深度学习的代谢质谱筛查系统,其中,包括:
[0060] 数据获取模块,用于获得训练样本数据集5=阳诚,一5。,一向},其中任意质谱5。 = [(mi,ii), (m2,i2) ,'''(!!!(!,id) ,???],md和id分别为第d条谱线的质核比与强度值;所述训练 样本数据集S对应的类标矢量为C=レ1,C2,???,CN};
[0061] 预处理模块,用于对S中的每个质谱进行预处理得到代谢质谱特征数据集T= {Ti, T2,-" ,Tn};
[0062] 类标集合构造模块,用于构造类标集合为C= [Cl,C2,…,CnL设若原类标矢量C中 的任意样本类标Cn=k,则对应的Cn构造为除第k维数值为1外,其余数值均为0的K维矢量;
[0063] 学习模块,用于将预处理后的代谢质谱特征数据集T= {Ti,T2,…,Tn}与类标集合C 用于深度学习网络的训练;
[0064] 深度学习网络结构构造模块,用于构造包含1个输入层,1个输出层,W及L个隐含 层的深度学习网络结构,其中输入