基于支持向量机的剪接位点识别方法
【专利摘要】本发明涉及一种基于支持向量机的剪接位点识别方法,包括:构建数据集,数据集包括训练数据集及测试数据集;提取训练数据集的剪接位点序列的特征向量,记为第一特征向量;提取训练数据集的剪接位点上游序列及下游序列的特征向量,记为第二特征向量;根据第一特征向量及第二特征向量选取所述训练数据集的特征向量,记为第三特征向量;根据第三特征向量,构建SVM分类器;根据分类器识别所述测试数据集的剪接位点。本发明采用训练数据集构建马尔可夫模型,用该模型参数将训练数据集及测试数据集转换成特征向量,并将该特征向量和剪接位点上、下游密码子使用偏性的特征向量,进行线性组合,以提取剪接位点邻近序列中更多信息,从而提高分类精度。
【专利说明】基于支持向量机的剪接位点识别方法
【技术领域】
[0001]本发明涉及基因预测技术,尤其涉及一种基于支持向量机的剪接位点识别方法。【背景技术】
[0002]基因序列由碱基A、T、G、C组成。真核基因是由蛋白质编码序列(外显子)和非蛋白质编码序列(内含子)两部分组成的。剪接位点是外显子编码区与内含子非编码区的边界,外显子和内含子在序列水平上有明显的区别,编码区中每相邻的三个核苷酸组成的三联体称为一个密码子(codon),通常一个密码子对应一种氨基酸,而一种氨基酸可以有多个密码子,研究表明同一种氨基酸对应的不同密码子的使用频率是不一定相同的。氨基酸使对其相应的各种密码子使用频次的不同,称为密码子的使用偏性。密码子的使用偏性是编码区的特征,通过统计其在编码区和非编码区的分布差异可以识别剪接位点。剪接位点识别是基因预测分析的一个重要组成部分。精确地识别剪切位点对探测进而确定基因的位置有着重要的价值,有助于提高基因识别的精度和效率。
[0003]绝大部分剪接位点都以供体位点多为GT,受体位点多为AG为特征,一般被称为剪接位点识别的GT-AG法则。然而这些二聚体的出现并不意味着它们就是剪接位点。实际上,在生物序列中这些二聚体在非剪接位点位置也经常出现。因此,识别剪接位点需要从众多的保守供体位点以及受体位点中分辨出真正的剪接位点,可以把剪接位点识别看成一个分类问题。
[0004]支持向量机(support vector machine, SVM)是一种基于机器学习的模式识别方法,它在学习模型的复杂性和学习能力之间寻求最佳折衷,以此希望获得较好的泛化能力。SVM能够出色的解决分类问题并受到广泛地关注。现有基于SVM的剪接位点识别方法对当前位点到下一位点的碱基转移进行了统计,考虑了相邻碱基间的相关性,对剪接位点附近序列的保守性进行了分析,但没有考虑剪接位点附件序列的密码子使用偏性,忽略了对剪接位点本身所含分类信息的充分利用,从而影响了整体分类性能。
【发明内容】
[0005]基于此,有必要针对上述剪接位点的识别方法存在的缺陷,提供一种识别精确度高的基于支持向量机的剪接位点识别方法。
[0006]一种基于支持向量机的剪接位点识别方法,包括下述步骤:
[0007]构建数据集,所述数据集包括训练数据集及测试数据集,所述训练数据集包括剪接位点序列,所述剪接位点序列包括真剪接位点序列和假剪接位点序列,所述真剪接位点序列即为正样本,所述假剪接位点序列即为负样本;
[0008]提取所述训练数据集的剪接位点序列的特征向量,记为第一特征向量;
[0009]提取所述训练数据集的剪接位点上游序列及下游序列的特征向量,记为第二特征
向量;
[0010]根据所述第一特征向量及第二特征向量获取所述训练数据集的特征向量,记为第三特征向量;
[0011]根据所述第三特征向量,构建SVM分类器;
[0012]根据所述分类器识别所述测试数据集的剪接位点。
[0013]在本实施例中,其中,提取所述训练数据集的剪接位点序列的特征向量,记为第一特征向量,包括下述步骤:
[0014]将所述训练数据集中的正样本构建一阶马尔可夫模型Mt ;
[0015]将所述训练数据集中的负样本构建一阶马尔可夫模型Mf ;
[0016]基于所述一阶马尔可夫模型Mt构建Mt模型参数,并通过所述Mt模型参数将所述剪接位点序列转换为特征向量,记为第四特征向量,其中,所述Mt模型参数为{p (Si I Si^1),i=i = 1,2,…,1},其中Si, Sh e {A, G, T, C}, I为序列长度,p (Si | Si^1)表示在位置i_l和i上分别出现碱基Sp Sp1的概率,所述第四特征向量为(Pl,P2,…,Pd ;
[0017]基于所述一阶马尔可夫模型Mf构建Mf模型参数,并通过所述Mf模型参数将所述剪接位点序列转换为特征向量,记为第五特征向量,其中所述Mf模型参数为{p’(Si I Si^1), i=1,2…….,!,其中士,^^^ {A,G,T,C},I为序列长度,p' (SiIi^1)表示在位置1-Ι和i上分别出现碱基S1、Sp1的概率,所述第五特征向量为(p' j, 2,…,p' H);
[0018]将所述第四特征向量及第五特征向量线性组合,得到所述剪接位点序列的特征向量,记为第一特征向量,所述第一特征向量为(P1, P2,…,Pu, P' I, 2...,P' 1-1)。
[0019]在本实施例中,其中,提取所述训练数据集的剪接位点上游序列及下游序列的特征向量,记为第二特征向量,包括下述步骤:
[0020]构造公式
【权利要求】
1.一种基于支持向量机的剪接位点识别方法,其特征在于,包括下述步骤: 构建数据集,所述数据集包括训练数据集及测试数据集,所述训练数据集包括剪接位点序列,所述剪接位点序列包括真剪接位点序列和假剪接位点序列,所述真剪接位点序列即为正样本,所述假剪接位点序列即为负样本; 提取所述训练数据集的剪接位点序列的特征向量,记为第一特征向量; 提取所述训练数据集的剪接位点上游序列及下游序列的特征向量,记为第二特征向量; 根据所述第一特征向量及第二特征向量选取所述训练数据集的特征向量,记为第三特征向量; 根据所述第三特征向量,构建SVM分类器; 根据所述分类器识别所述测试数据集的剪接位点。
2.根据权利要求1所述的基于支持向量机的剪接位点识别方法,其特征在于,其中,提取所述训练数据集的剪接位点序列的特征向量,记为第一特征向量,包括下述步骤: 将所述训练数据集中的正样本构建一阶马尔可夫模型Mt ; 将所述训练数据集中的负样本构建一阶马尔可夫模型Mf ; 基于所述一阶马尔可夫模型Mt构建Mt模型参数,并通过所述Mt模型参数将所述剪接位点序列转换为特征向量,记为第四特征向量,其中,所述Mt模型参数为(P(SiISp1), i = i=1,2,…,1},其中Si, Sh e {A, G, T, C}, I为序列长度,p (Si | Si^1)表示在位置i_l和i上分别出现碱基S1、Sg的概率,所述第四特征向量为(Pl,P2,…,Ph); 基于所述一阶马尔可夫模型Mf构建Mf模型参数,并通过所述Mf模型参数将所述剪接位点序列转换为特征向量,记为第五特征向量,其中所述Mf模型参数为{p’(Si I Si^1), i =1,2…….,^,其中士,^^^ {A,G,T,C},I为序列长度,p' (SiISg)表示在位置1-Ι和i上分别出现碱基S1、Sh的概率,所述第五特征向量为(p' pp' 2,…,p' H); 将所述第四特征向量及第五特征向量线性组合,得到所述剪接位点序列的特征向量,记为第一特征向量,所述第一特征向量为(P1, Pb…,Ρι-1,P' 1,Ρ' 2....1-1)。
3.根据权利要求1所述的基于支持向量机的剪接位点识别方法,其特征在于,其中,提取所述训练数据集的剪接位点上游序列及下游序列的特征向量,记为第二特征向量,包括下述步骤: 构造公式
4.根据权利要求1或2或3所述的基于支持向量机的剪接位点识别方法,其特征在于,其中,根据所述第一特征向量及第二特征向量选取所述训练数据集的特征向量,记为第三特征向量,包括下述步骤: 计算所述第一特征向量(P1, P2,…,Ρι-1,P ' I, P ' 2....P ; 1-1)中每个特征向量的F-score并选取高分值的向量组合成第一子向量,所述第一子向量为(P1, P2,…); 计算所述第二特征向量(f1,f2,..., f64.f65....,fi28)为中每个特征向量的F-score并选取高分值的向量组合成第二子向量,所述第二子向量为(4^...); 将所述第一子向量与第二子向量线性组合,得到所述训练数据集的特征向量,记为第三特征向量,所述第三特征向量为(P1, P2,...,&,f2,...)。
5.根据权利要求4所述的基于支持向量机的剪接位点识别方法,其特征在于,其中,计算所述第一特征向量(P1, P2,…,Ρι-1,P' 1,Ρ' 2....1-1)中每个特征向量的F-score及计算第二特征向量(f\,f2)..., f64.f65....,fi28)为中每个特征向量的F-score,通过采用下述构造公式实现:
6.根据权利要求1所述的基于支持向量机的剪接位点识别方法,其特征在于,其中,根据所述分类器识别所述测试数据集的剪接位点还包括下述步骤: 根据所述训练数据集构建的Mt模型参数将所述测试数据集中的样本序列转换为特征向量(P1, P2, , P1-),记为第六特征向量; 根据训练数据集构建的Mf模型参数将所述测试数据集中的样本序列转换为特征向量(P' P' 2,...,P1 K),记为第七特征向量; 将所述第六特征向量及第七特征向量线性组合得到组合特征向量(Pl,P2,...,P1-1, P; I,2...,P'1-1),记为第八特征向量; 根据密码子使用偏性
【文档编号】G06F19/24GK103902853SQ201210572684
【公开日】2014年7月2日 申请日期:2012年12月25日 优先权日:2012年12月25日
【发明者】魏丹, 姜青山, 魏彦杰 申请人:中国科学院深圳先进技术研究院