一种基于组和图稀疏化的基因序列分类方法
【专利摘要】本发明提出了一种基于组和图稀疏化的基因序列分类方法,包括以下步骤:按照基因序列的特征,把特征空间内的特征分成不重叠的组。在组与组之间建立一个有向无环图。利用基于组和图稀疏化的分类模型为基因序列分类。本发明对现有的基于组稀疏化的基因序列分类方法进行改善和提高,能够避免组与组之间相互独立以及组与组之间规模差距大导致的分类精度下降问题。组与组之间建立有向无环图的方式,能够很好地避免上述两个问题,提高学习效率。基于组和图稀疏化逻辑回归分类器可以很好的根据建立的有向无环图选择出有用的组,提高分类的精度的同时,还加强了分类模型的可解释性。
【专利说明】 —种基于组和图稀疏化的基因序列分类方法
【技术领域】
[0001]本发明涉及一种计算机生物信息处理领域,特别是一种基于组和图稀疏化的基因序列分类方法。
【背景技术】
[0002]随着当今世界科学技术的飞速发展,大量的生物学问题需要进行处理。然而,随着数据量变的越来越大,用人力进行处理已经无法满足要求。随着计算机技术迅速普及和发展,利用计算机对生物学数据进行自动的处理在科研领域和应用领域都变得十分重要。这其中,对基因序列的分类就是一个非常重要的任务。基因序列分类就是根据具体的碱基序列,利用计算机给一个序列安排一个类别(正类和负类)。比如在基因序列的分类任务中,判断一个基因序列是否是一个剪接位点。如果一个基因序列是剪接位点,就是正类。不是剪接位点就是负类°(Yeo, G.W.and Burge, C.B.Maximum entropy modeling of short sequencemotifs with applications to rna splicing signals.Journal of ComputationalBiology, 11 (2/3):377 - 394,2004.)对于一个基因序列分类任务,首先把每一个碱基序列都映射到一个高维欧几里得空间,然后利用机器学习里的分类器,从大量的训练数据中学习出分类器模型,最后用这个分类器模型对未知类别的基因序列进行分类。近年来,随着机器学习技术的发展,基因序列的分类方法取得了一系列重要的进展。而在基因序列的表示步骤中,稀疏表示的方法有着广泛的应用。但是这种表示方法会导致稀疏性比较严重,同时,基因序列分类问题本身也有稀疏性,能够影响分类的关键特征只在特征空间中占有一小部分。这样就需要使用稀疏化的方法从大量的特征中训练出有用的特征。基于组稀疏化的方法就被大量用于这类问题。但是这个方法也有缺陷,在面对大规模问题的时候不能很好的表示出基因序列的结构特征。比如对于一个基因序列长度为90的数据集进行分类,如果用全部1,2,3阶模板的稀疏化表示,那么特征空间的维度大约是七百五十万维。这样大的特征空间用计算机处理就会比较吃力。更进一步,对于一个长度是90的基因序列,使用3阶模板并不够,想要表示更多的基因序列的结构信息,需要4阶,5阶,甚至更高的模板。但就这个问题来说,使用1,2,3,4阶模板会让特征空间增大到大约六亿六千万,这就很难使用甚至不能使用计算机来处理了。在组与组之间建立有向无环图可以让大的模板通过小的模板来表示,大的模板的结构信息可以通过小模板与小模板(组与组)之间的关系图结构来表示,比如把两个2阶的模板用一条边连接起来,就可以代替一个4阶的大模板。这样可以大大降低表达相似结构特征所需要的维度。同时,组与组之间规模差距大导致的分类精度降低的问题也可以通过建立组之间的有向无环图来解决。
【发明内容】
[0003]发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于组和图稀疏化的基因序列分类方法。
[0004]为了解决上述技术问题,本发明公开了一种基于组和图稀疏化的基因序列分类方法,包括以下步骤:
[0005]步骤一,对基因序列的特征空间进行分组:用稀疏表示的方法把训练集中每一个基因序列表示为向量构成特征空间,向量的每一维代表特征空间中的一个特征,并且把整个特征空间划分成互不相交的两个以上的组,每一个基因序列包括一个类标;
[0006]步骤二,在两个以上的组之间建立一个有向无环图,并且为有向无环图上的每一条边给定一个代价值;
[0007]步骤三,利用基于组和图稀疏化的逻辑回归分类器模型为基因序列分类。
[0008]步骤一包括以下步骤:
[0009]对于训练集中的基因序列Clj=C1, C2,…Cjj...,ck,其中Cjj e {A, C,G, T}为基因序列dj中的第j j个碱基,A为腺嘌呤、G为鸟嘌呤、T为胸腺嘧啶、C为胞嘧啶,jj=l, 2,…k,k表示基因序列4的总长度;例如,一个长度为7的序列AAGATTG,这里k=7。基因序列的稀疏表示方法是根据碱基的模板的实例来表示的,。碱基的模板是由碱基的位置{1,2,…,k}组成的。根据组成模板的位置的个数,模板分为不同的阶数。一个η阶的模板是由{l,2,一,k}中η个不同的位置组成的,所以对于长度为k的序列,η阶模板的个数就是从k个里面选择η个的组合数。模板的实例是该模板下可能的碱基序列。每一个实例表示一个特征,所有模板的所有实例组成整个特征空间。比如对于一个2阶模板{1,3},指的就是基因序列中第一个位置和第三个位置,根据上面的叙述,每一个位置有四种可能的碱基(Α,C,G,T)。所以,对于这个 2 阶模板的实例,总共有 42=16 个(AA,AC,AG,AT,CA,CC, CG, CT, GA, GC, GG, GT, TA,TC,TG, TT),也就是特征空间中的16个特征。对于基因序列dp特征空间中的一个特征如果出现在基因序列4中,则将这个特征对应的向量中的维度记为1,否则为O ;由此基因序列dj的稀疏表示的向量形式Xj为:
[0010]Xj= (w1;J, w2; j,..., wm;J),
[0011]m表示特征空间的总数,Wi,j表示特征的值,i e {1,2,……m},i表示特征的序号,wi;J表示对应的特征是否存在于基因序列中。
[0012]步骤一包括以下步骤:
[0013]根据模板来对特征空间中的特征进行分组,把特征空间划分成互不相交的组;
[0014]所述模板是由碱基的位置组成的,也就是集合{1,2,...Λ}中的元素组成的;根据组成模板的位置的个数,模板分为对应的阶数;一个η阶的模板是由{l,2,一,k}中η个不同的位置组成的,η的取值范围是KnSk的整数,对于长度为k的基因序列,η阶模板的个数就是从k个里面选择η个的组合数;模板的实例是该模板下所有可能组合的碱基序列;每一个实例表示一个特征,所有模板的所有实例组成整个特征空间;模板的个数由下面的公式来计算:
[0015]0 + 0+…+ Cf`[0016]其中nt表示一个正整数,表示使用的模板中的最大的阶数,nt的取值范围是
[0017]I ^ nt ^ k的整数;比如对于一个长度为7的基因序列,用所有的1,2,3阶模板的实例来作为特征,m=7 X 4+21 X 16+35 X 64=2604。
[0018]一个模板下的全部实例对应的特征组成一个组,把特征空间划分为互不相交的两个以上组,组的数目与模板数目相同。[0019]特征空间中的划分记为Ji=^1,…,Bi1...,Β,},π表示所有组的集合,q表示组的个数,ii表示组号,Bii表示特征空间I= {1,2,..., m}上的一个子集,也就是一个组,I表示
特征空间上的特征的序号的集合,并且满足条件J = IJA表示所有组的并集组成全部特
征空间,5其0, V5 E ; ,表示每个组都是非空集合,
【权利要求】
1.一种基于组和图稀疏化的基因序列分类方法,其特征在于,包括以下步骤: 步骤一,对基因序列的特征空间进行分组:用稀疏表示的方法把训练集中每一个基因序列表示为向量构成特征空间,向量的每一维代表特征空间中的一个特征,并且把整个特征空间划分成互不相交的两个以上的组,每一个基因序列包括一个类标; 步骤二,在两个以上的组之间建立一个有向无环图,并且为有向无环图上的每一条边给定一个代价值; 步骤三,利用基于组和图稀疏化的逻辑回归分类器模型为基因序列分类。
2.根据权利要求1中所述的方法,其特征在于,步骤一包括以下步骤: 对于训练集中的基因序列Clj=C1, C2,…Cjj...,ck,其中Cjj=)A,C,G, T}为基因序列Clj中的第jj个碱基,A为腺嘌呤、G为鸟嘌呤、T为胸腺嘧啶、C为胞嘧啶,jj=l, 2,…k,k表示基因序列4的总长度;对于基因序列dp特征空间中的一个特征如果出现在基因序列4中,则将这个特征对应的向量中的维度记为1,否则为O ;由此基因序列4的稀疏表示的向量形式Xj为:
Xj- (W1, P W2, P..., wm’ j), m表示特征空间的总数,Wu表示特征的值,i e {I, 2,......m}, i表示特征的序号,Wi,」表示对应的特征是否存在于基因序列中。
3.根据权利要求2所述的方法,其特征在于,步骤一包括以下步骤: 根据模板来对特征空间中的特征进行分组,把特征空间划分成互不相交的组; 所述模板是由碱基的位置组成的,也就是集合U,2,...,k}中的元素组成的;根据组成模板的位置的个数,模板分为对应的阶数;一个η阶的模板是由{l,2,一,k}中η个不同的位置组成的,η的取值范围是KnSk的整数,对于长度为k的基因序列,η阶模板的个数就是从k个里面选择η个的组合数;模板的实例是该模板下所有可能组合的碱基序列;每一个实例表示一个特征,所有模板的所有实例组成整个特征空间;模板的个数由下面的公式来计算: CK+…+ Cf 其中nt表示一个正整数,表示使用的模板中的最大的阶数,nt的取值范围是I ^ nt ^ k的整数; 一个模板下的全部实例对应的特征组成一个组,把特征空间划分为互不相交的两个以上组,组的数目与模板数目相同; 特征空间中的划分记为Ji=^1,…,Bi1..., B,},π表示所有组的集合,q表示组的个数,ii表示组号,Bii表示特征空间1={1,2,...,m}上的一个子集,也就是一个组,I表示特征空间上的特征的序号的集合,并且满足条件:7= U ^,BHB' = 0,yB,B'B',
4.根据权利要求1中所述的方法,其特征在于,步骤二包括以下步骤: 在组与组之间建立一个有向无环图G=(V,E),V表示图的节点集合,图上的每一个节点代表一个组,E表不图的边集。
5.根据权利要求4中所述的方法,其特征在于,步骤三包括以下步骤:根据基于组和图稀疏化逻辑回归分类器的目标函数:
6.根据权利要求5中所述的方法,其特征在于,步骤三包括以下步骤: 对于一个输入基因序列d,根据步骤一转化为向量形式X后,根据分类器模型y= V τχ判断基因序列的类别; 如果y>0,则为正类; 如果y〈0,则为负类。
【文档编号】G06F19/24GK103473484SQ201310464401
【公开日】2013年12月25日 申请日期:2013年9月30日 优先权日:2013年9月30日
【发明者】戴新宇, 付强 申请人:南京大学