本发明属于生物信息领域,尤其涉及了基于集成分类器的ta蛋白靶向预测方法。
背景内容
末端锚定蛋白质(tail-anchoredproteins,ta蛋白质)是一类特殊的膜蛋白,存在于所有生物中。此类蛋白质通过位于c端的唯一疏水跨膜结构域锚定在多种细胞器膜上,参与细胞多种重要的生理生化反应,但是至今人们对ta蛋白所涉及的机制和信号尚未完全了解。蛋白质靶向定位过程之一是将蛋白质插入生物膜中,而膜蛋白的有效和准确的插入是保证其在不同细胞器中正常功能的重要步骤,并且任何靶向误差可能导致这些蛋白质的错误定位,而不利于细胞效应。因此,ta蛋白靶向的预测具有重要的意义。
ta蛋白质在c末端具有单个跨膜结构域(tmd),将其锚定在细胞膜上,并将其n末端结构区域暴露在细胞溶液中。研究发现,这类蛋白在细胞分裂、凋亡、脂质运输等过程起到关键性的作用。因此,其正确的靶向定位对于细胞和生物体是至关重要的。ta蛋白质的tmd仅在翻译终止后才从核糖体中出现,ta蛋白在三个亚细胞位点进入细胞膜系统:内质网(er),线粒体和过氧化物酶体。在哺乳动物中,trc40复合物参与将ta蛋白质插入到er中。过氧化物酶体和线粒体的蛋白质插入机制上不明确。
ta蛋白质的靶向信息包含在c末端,并且研究中已经确定tmd的疏水性和电荷量的存在是蛋白质选择靶向的重要因素。一般来说,er靶向的ta蛋白往往具有比线粒体的那些ta蛋白更具有疏水性,这其中包含tmd的非带电区域。实验中证明,尾部的电荷量对于过氧化物酶体靶向也是很重要的。此外,ta蛋白在哺乳动物细胞中过氧化物酶体和线粒体的靶向研究中,揭示了细胞器相互作用和新型过氧化物酶体功能之间的关系。并且在后续研究中发现,这两种靶向定位错误与细胞疾病存在关系。而且过氧化物酶体在脂质代谢中发挥重要的代谢功能,并且影响神经元的发育和衰老。
虽然生物信息学在ta蛋白在亚细胞器靶向已经有相关成果,但目前仍然缺乏更广泛深入的研究。
技术实现要素:
本发明的主要目的是提供一种基于集成分类器的ta蛋白靶向预测方法。
在研究拟南芥植物ta蛋白中,本发明技术人员发现疏水性、电荷量、序列和序列长度这些参数的变化,对ta蛋白定位都会产生影响。通过调整特征参数,可以得出更准确的模型,本发明技术人员发现植物与中疏水性比电荷量更能影响ta蛋白的定位。我们通过blast序列产生的pssm矩阵信息进行编码,利用基于互信息的最大相关最小冗余mrmr对ta蛋白序列特征进行选择,利用bayes算法进行特征提取,并采用对五中分类器结果集成分类,通过投票方式,实现ta蛋白的靶向预测。
为实现上述目的,本发明采用以下技术方案:
本发明主要目的是一种基于集成分类器的ta蛋白靶向预测方法,所述方法包括以下步骤:
(1)通过对ta蛋白质blast序列产生的pssm矩阵信息编码;
pssm(position-specificweightmatrix)被称作位置权重矩阵,是提取蛋白质序列编码的一个常用算法。一个pwm包含n行(列),当模型为蛋白质时,组成蛋白质的基本氨基酸有二十种,故行列式有二十行(列),n=20。同时pwm每个不同位置都对应一列(行)数据。首先,构建位置频度矩阵(pfm)。在构建pwm的第一步中,通过计算每个位置处每个核苷酸的出现来创建基本位置频率矩阵(pfm)。从pfm中,现在可以通过将每个位置的前核苷酸计数除以序列数目来产生位置概率矩阵(ppm),由此使这些值正常化。形式上,给定长度l的n个对齐序列的集合x,ppmm的元素计算如下:
通过计算ppm矩阵中各元素的对数似然值,可得出pssm矩阵,计算如下:
mk,j=log2(mk,j/bk)
通过上述方法,可以产生pssm矩阵信息,实现了对ta蛋白质序列的编码。
(2)特征提取:
利用基于互信息的最大相关最小冗余mrmr的特征选择算法对数据库中多关系进行特征选择,在每个关系表中都选择出对分类帮助最大的特征子集,根据贝叶斯方法,求出每个氨基酸在每个(正例或负例)位置发生的概率;
(3)对提取得到的不同特征值进行归一化处理;
(4)利用训练学习后的集成模型进行分类,采用投票的方式选择出最终的分类结果。
通过对分类器的分类结果进行某种组合来决定最终的分类,可以取得比单个分类器更好的性能。本发明中根据svm、nb、rf、logist、knn五类中分类器的分类结果,采用简单投票和贝叶斯投票的方式选择出最终的分类结果。
1)简单投票
投票法的基本思想是多个基本分类器都进行分类预测,然后根据分类结果用某种投票的原则进行投票表决,按照投票原则的不同投票法可以有一票否决、一致表决、少数服从多数、阈值表决等等。一票否决的思想是当且仅当所有的分类器都把实例划分到类的时候才把划分到,否则拒绝这个实例;一致表决的思想是没有分类器反对把划分到的时候就把划分到;少数服从多数顾名思义就是当让各个基本分类器进行投票(加权或者不加权),得票数多的那个分类作为对应实例的最终分类;阈值表决是首先统计出把实例划分为和不划分为的分类器数目分别是多少,然后当这两者比例超过某个阈值的时候把划分到。此外,对于连续目标值的分类问题,还可以采用平均取值、加权求和、中位数、最大值等等方式进行整合。
2)贝叶斯投票
简单投票法假设每个基本分类器都是平等的,没有分类能力之间的差别,但是这种假设并不总是合适的,在实际生活中,我们听取一个人的意见的时候会考虑到这个人过去的意见是否有用,贝叶斯投票法就是基于这种思想来提出的。贝叶斯投票法是基于每一个基本分类器在过去的分类表现来设定一个权值,然后按照这个权值进行投票,其中每个基本分类器的权值基于贝叶斯定理来进行计算。虽然理论上贝叶斯投票法在假设空间所有假设的先验概率都正确的情况下能够获得最优的集成效果,但是实际应用中往往不可能穷举整个假设空间,也不可能准确地给每个假设分配先验概率,从而使得在实际使用中其他集成方法也会优于贝叶斯投票法。
与现有技术相比,本发明具有以下优势:
(1)数据量问题学习的过程可以看作是在一个假设空间h中寻找一个最优的假设,如果训练集的数据量特别小的时候,由于训练数据不充分,可以学习到很多不同的假设,而这些假设在训练集上的正确率确是相同的,此时就很难抉择哪个假设在测试集上会得到好的结果了。本发明通过集成这些假设就可以减少选错分类器的风险。
(2)计算问题很多学习算法都会遇到局部最优的这种状况,例如,神经网络是通过梯度下降来最小化错误率的,决策树算法是通过贪婪分裂的规则去扩展决策树的,假如训练集是足够充足的,学习算法也很难得到全局最优解的。本发明通过把从不同起始点得到的分类器集成的方法可以更好的靠近全局最优解。
(3)假设描述问题大部分的应用中,机器学习算法很难用假设空间h中的假设去表达真实函数f;本发明通过对假设空间h中的假设进行加权进而扩展假设空间h的规模或许能够表示真实函数f。
本发明集成分类器能解决单个分类器的训练数据量小,假设空间小,局部最优的三个问题,因此,集成分类器的预测能力会优于单个分类器的预测能力。
附图说明
图1为基于集成分类器的ta蛋白靶向方法的流程图。
图2为支持向量机分类结果。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、部件和/或它们的组合。
本发明的目的在于:提供一种基于集成分类器的ta蛋白靶向预测方法。,所述方法包括以下步骤:
(1)通过对ta蛋白质blast序列产生的pssm矩阵信息编码;
(2)bayes特征提取:利用基于互信息的最大相关最小冗余mrmr的特征选择算法对数据库中多关系进行特征选择,在每个关系表中都选择出对分类帮助最大的特征子集,根据贝叶斯方法,求出每个氨基酸在每个(正例或负例)位置发生的概率;
蛋白质亚细胞定位预测可以看作一个多标签分类问题,利用本发明bayes特征提取方法,可有效提取对分类影响较好的特征集,从而大大提高分类效果。
(3)对提取得到的不同特征特征值进行归一化处理,使所有值都落入相同的数字取值区间内;归一化处理可以加快梯度下降求最优解的速度,同时还可提高算法预测能力,在本发明中所用算法knn中,如果不进行归一化,那么在进行距离计算中就主要取决于特征值域大的,但是实际情况是值域范围小的特征也非常重要。
(4)利用训练学习后的集成模型进行分类,采用投票的方式选择出最终的分类结果。
进一步,所述步骤(1)中,位置频率(p)矩阵为:
n=20,i为行号,j为列号,即:i∈(1,2,…,n),j∈(1,2,…,n),且i是指示函数;
pssm中的元素对数似然值为:
mk,j=log2(mk,j/bk)
进一步,所述步骤(2)朴素贝叶斯分类:先验概率:s=s1,s2,...,sn表示缩氨酸序列,s表示氨基酸。假设有两类样本,用c1和c-1表示:
表示在m条序列中氨基酸的概率,其中,表示所有正负样例中位置i的序列a发生的概率;
c1和c-1分别表示数据的标签,则根据贝叶斯方法:
p(c1)和p(c-1)分别表示每个类别的先验概率,假设s之间相互独立,则:
进一步,所述步骤(3)中,采用如下公式归一化所有特征:
其中,x,xmin,xmax分别表示输入数据值,特征向量中的最小值、最大值;x'表示在归一化处理后的输出值;如果某个特征向量中的一些数值xmax-xmin=0,将其取值设定为0。
进一步,所述步骤(4)中集成模型由svm、nb、rf、logist、knn五种弱分类器构成。在蛋白质亚细胞定位预测中,为了提高预测的准确率,在充分提取有效特征的同时,建立合理的多标签分类模型也是极为重要的。
svm对于高维的小样本训练数据亦可以得到全局最优点,并且在整个样本空间的期望风险以某个概率满足一定上界。朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率;对小规模的数据表现很好,能够处理多分类任务;随机森林(rf)能够收敛于更小的泛化误差,且对于不平衡的数据,还具有平衡误差的功能;logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,在相同的条件下logistic线性模型的稳定要优于非线性模型;k最近邻(knn,k-nearestneighbor)分类算法是数据挖掘分类技术中最简单的方法之一,特别适合于多分类问题。本发明将所述五类弱分类器集成,大大提高了预测的准确性。
进一步,所述svm分类选择径向基核函数:
k(si,sj)=exp(-γ||si-sj||2)
其中,si,为原空间的样例,sj为映射后空间的样例,在训练分类过程中,基于网格方式对参数γ和惩罚系数c进行优化。
进一步,所述步骤(4)中,基本分类器的整合方式有两个层次:抽象层次和排位层次;所述抽象层次:每个基本分类器只提供一个目标分类或者目标分类子集;所述排位层次:每个基本分类器提供一个可能的目标分类列表,其中的目标分类按照可能性大小排列。
进一步,所述步骤(4)中,投票法的基本思想是多个基本分类器都进行分类预测,然后根据分类结果用简单投票和/或贝叶斯投票的原则进行投票表决。
为了使得本领域技术人员能够更加清楚地了解本发明的技术方案,以下将结合具体的实施例详细说明本发明的技术方案。
实施例1
(1)数据收集
为了保证实验数据的准确性,实验用到的每条数据都至少有一篇或者多篇以上发表的论文中,证明ta蛋白在亚细胞器的靶向定位。
(2)构建pssm
pssm算法是生物信息学领域中的一个常用算法,模型为蛋白质时,n=20。故组成蛋白质的基本氨基酸有二十种,故行列式有二十行。同时pwm对于每个不同位置都对应一列(行)数据。首先,构建位置频度矩阵(pfm),计算出每一列中的各核苷酸的数量,然后存入矩阵的相应位置。通过pfm求出位置频率(p)矩阵:
其中,i为行号,j为列号,即:i∈(1,2,…,n),j∈(1,2,…,n),且i是指示函数。
通常,pwm中的元素被计算为对数似然值:
mk,j=log2(mk,j/bk)(2)
通过上述方法,我们分别构建出pssm、pssm_ac、pssm_smth编码方式。
(3)bayes特征提取
s=s1,s2,...,sn表示缩氨酸序列,s表示氨基酸。假设有两类样本,用c1和c-1表示。
则先验概率:
表示在m条序列中氨基酸的概率,其中,f(ai)表示所有正负样例中位置i的序列a发生的概率。
根据贝叶斯方法:
其中p(c1)和p(c-1)分别表示每个类别的先验概率,假设s之间相互独立,则:
我们采用上述bayes特征提取的方法融合已知类别信息进行特征向量的构建,然后用这些特征训练出能预测ta蛋白在亚细胞器靶向的分类器。
(4)归一化处理
在特征提取之后,我们发现一些特征的取值在0到1之间,我们发现有些值在一个更大的范围内。然而,相比于取值较小的特征那些较大值的特征可能对预测产生更大的影响。因此,为了提高预测的精确度,我们对不同的特征进行归一化处理,使所有值都落入相同的数字取值区间内。在本发明中,我们将所有特征值归一到[0,1],如表1所示。
表1ta蛋白数据归一化
(5)svm实现和参数优化
以二分类为例,采用svm进行分类。本发明中我们选择径向基核函数:
k(si,sj)=exp(-γ||si-sj||2)(8)
在分类过程中,基于网格方式对参数γ和惩罚系数c进行优化。
(6)集成模型
集成模型由svm、nb、rf、logist、knn五种弱分类器构成。其中每个模型单独进行训练。把这五种单个分类器集成起来,我们根据多个分类器的分类结果,采用投票的方式选择出最终的分类结果,可以取得比单个分类器更好的性能。最后,通过以上步骤我们可以实现对植物ta蛋白在亚细胞器的靶向预测。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。