一种基于支持向量机的跨膜蛋白残基作用关系预测方法
【专利摘要】本发明涉及一种基于支持向量机的跨膜蛋白残基作用关系预测方法,所述方法包括以下步骤:步骤S100、提取用于训练的跨膜蛋白所包含的残基对特征作为训练集;步骤S200、基于SVM对所述训练集进行训练得到预测模型;步骤S300、提取待预测跨膜蛋白所包含的残基对特征作为测试集;步骤S400、将所述测试集输入所述预测模型,输出分数S;步骤S500、将S与预设阈值T进行比较,若S≥T,则判定所述待预测跨膜蛋白包含的残基对为作用对,否则判定为非作用对。本发明提出的预测跨膜蛋白残基对作用关系的方法在精确度与覆盖度上优于现有技术中的TMhit、MEMPACK以及SVMcon。
【专利说明】一种基于支持向量机的跨膜蛋白残基作用关系预测方法 【【技术领域】】
[0001] 本发明涉及一种基于支持向量机的跨膜蛋白残基作用关系预测方法。 【【背景技术】】
[0002] 蛋白质作为一切细胞和组织结构必不可少的构成成分,是人类生命活动最重要的 物质基础之一。跨膜蛋白是埋嵌在生物膜脂质双层中的一类蛋白质,作为生物膜的基本构 成成分,膜蛋白约占生命体中蛋白质的30%。膜蛋白的主要功能包括作为转运体、酶、用于 接受识别信号以及连接结构等,膜蛋白在生命体中占有不可忽略的比重并发挥着重要的作 用。目前已知的以及正在研究的药物靶点中,膜蛋白约占6〇%。由于膜蛋白结构的实验解析 难度较大,因此在蛋白质数据库(Protein Data Bank,PDB)中超过9万个的已知蛋白质结 构里,膜蛋白结构仅占1%。
[0003] 目前解析蛋白质三维结构的生物学实验解析法主要有X-RAY法和NMR法,这两种 方法复杂、耗时,且花费较高。正因为实验解析法存在上述缺陷,使得计算方法的发展成为 必然。目前用于蛋白质三维结构预测的计算方法主要有同源模建法、折叠识别法和从头预 测法。Gromiha 和 Selvaraj 在文献"Inter-residue interactions in protein folding and stability"中证明了将残基作用关系应用到从头预测法中,不仅可以大大节约三维结 构的预测时间,还可以提高预测的精度。因此研究蛋白质残基的作用关系对预测蛋白质结 构有着重大的意义。
[0004] 现有技术中存在大量关于球蛋白残基作用关系的预测方法,如Cheng等人提出的 SVMcon方法等。但鉴于己知的膜蛋白结构十分有限,因此目前用于跨膜蛋白残基作用对的 预测方法较少,例如Nugent与Jones提出的MEMPACK方法以及Lo等人提出的TMhit方法, 这些方法的精度和覆盖度都不理想。 【
【发明内容】
】
[0005] 本发明旨在解决上述现有技术中存在的问题,提出一种基于支持向量机的跨膜蛋 白残基作用关系预测方法。
[0006] 本发明提出一种基于支持向量机的跨膜蛋白残基作用关系预测方法,所述方法包 括以下步骤:步骤S100、提取用于训练的跨膜蛋白所包含的残基对特征作为训练集;步骤 S200、基于SVM对所述训练集进行训练得到预测模型;步骤S3〇0、提取待预测跨膜蛋白所包 含的残基对特征作为测试集;步骤S400、将所述测试集输入所述预测模型,输出分数S ;步 骤S500、将S与预设阈值T进行比较,若S > T,则判定所述待预测跨膜蛋白包含的残基对 为作用对,否则判定为非作用对。
[0007] 本发明提出的预测跨膜蛋白残基对作用关系的方法在精确度与覆盖度上优于现 有技术中的TMhit、MEMPACK以及SVMcon。 【【专利附图】
【附图说明】】
[0008] 图1为本发明一实施例的基于支持向量机的跨膜蛋白残基作用关系预测方法流 程图。
[0009] 图2为本发明方法与现有技术的实验结果对比图。 【【具体实施方式】】
[0010] 为了使本发明的目的、技术方案及优点更加清晰,以下结合具体实施例及附图,对 本发明作进一步详细说明。应当理解,文中所描述的具体实施例仅仅用以解释本发明的技 术方案,而不应当理解为对本发明的限制。
[0011] 本发明提供一种基于支持向量机的跨膜蛋白残基作用关系预测方法,其中所述跨 膜蛋白包含N个α螺旋个数,其中NS2。所述跨膜蛋白残基对包括两个残基,所述两个残 基分别位于两个 α螺旋上。如图1所示,所述基于支持向量机(Support Vector Machine, SVM)的跨膜蛋白残基作用关系预测方法包括以下步骤:步骤S100、提取用于训练的跨膜蛋 白所包含的残基对特征作为训练集;步骤S200、基于SVM对所述训练集进行训练得到预测 模型;步骤S300、提取待预测跨膜蛋白所包含的残基对特征作为测试集;步骤S400、将所述 测试集输入所述预测模型,输出分数S ;步骤S500、将S与预设阈值T进行比较,判定所述待 预测跨膜蛋白包含的残基对作用关系,若S多T,则判定所述待预测跨膜蛋白包含的残基对 为作用对,否则判定为非作用对。
[0012] 下面对所述基于支持向量机的跨膜蛋白残基作用关系预测方法中的各个步骤作 进一步详细描述。
[0013] 在步骤S100中,提取用于训练的跨膜蛋白所包含的残基对特征作为训练集。具体 地,从 PDBTM (Protein Data Bank of Transmembrane Proteins)中下载 α 跨跨膜蛋白的 非冗余数据集,共405个。为了进一步减少冗余性,可利用PISCES(http://dunbrack·fccc· edu/PISCES. php)实施去冗余,选取序列相关性小于35%的跨膜蛋白。经PSICES处理后的 列表中的跨膜蛋白链由原来的405个缩减为168个。由于残基作用对只存在于包含2个及 以上的α螺旋的跨膜蛋白中,因此又从包含168个跨膜蛋白链的列表中选出了 α螺旋个 数在2及其以上的跨膜蛋白链。最终得到了 116个符合标准的跨膜蛋白链,以其中2012年 及之前解析的95个结构作为训练集,之后解析得到的21个结构作为测试集。
[0014] 优选地,所述残基对特征包括PSSM(Position_Specific Scoring Matrix,位置特 异性得分矩阵)特征。所述PSSM矩阵可通过运行PSI-BLAST (下载自http://blast.ncbi. nlm. nih. gov/Blast. cgi)得到,其中,所用数据库为UNIREF90,迭代次数为2,E-value截断 值为le-10。PSSM中的每个残基都由一个20维的向量表示,代表20种氨基酸分别在残基 对中两残基和其邻近残基中出现的概率。优选地,针对每一残基对(i,j ),分别提取以残基 i为中心的附近7个残基(包括残基i)、以残基j为中心的附近7个残基(包括残基j)共14 个残基的PSSM值,同时提取以残基(i+j)/2为中心的附近3个残基的PSSM值,因此对于每 一残基对,共获取(14+3) X 20=340个PSSM特征数据。
[0015] 优选地,所述残基对特征包括亲脂性特征,可通过对所述残基对中两残基的原始 亲脂性特征值进行归一化求得所述亲脂性特征。具体地,所述原始亲脂性特征通过运行 LIPS (http://tanto_ bioengr. uic· edu/lips/)获取,可采用 Z-Score 法进行归一化,公式 为X' =(x-μ )/σ,其中,X为残基原始亲脂性特征值,μ为残基原始亲脂性特征值的均值, σ为残基原始亲脂性特征值的标准差。对于每一残基对,可获取2个所述亲脂性特征数据。
[0016] 优选地,所述残基对特征包括残基在α螺旋中的相对位置特征,所述相对距离特 征代表所述残基对中两残基各自在α螺旋上的位置。对于每一残基对中的两残基,可获取 2个所述残基在α螺旋中的相对位置特征数据。
[0017] 优选地,所述残基对特征包括序列间隔特征,所述序列间隔特征代表所述残基 对中两残基在跨膜蛋白一级序列中的位置间隔。优选地,可以将序列间隔位于小于25、 25-50、50-75、75-100、100-125、125-150、150-175、175-200、大于 200 九类区间内的所述 间隔特征分别记为 000000001、000000010、000000100、000001000、000010000、000100000、 001000000、010000000、100000000,因此,对于每一残基对共有9个所述相对距离特征数 据。
[0018] 优选地,所述残基对特征包括氨基酸类型特征。所述残基根据氨基酸R基的极性 性质可分为酸性(谷氨酸及天冬氨酸)、碱性(赖氨酸、精氨酸及组氨酸)、极性(甘氨酸、丝 氨酸、半胱氨酸、苏氨酸、酿氨酸、天冬酰胺及谷氨酰胺)和非极性(丙氨酸、亮氨酸、异亮氨 酸、苯丙氨酸、甲硫氨酸、色氨酸、缬氨酸及腩氨酸)4种类型,所述4种类型两两组合,共10 种,所述氨基酸类型特征可将〇〇〇〇〇〇〇〇〇〇相应类型置1,因此,对于每一个残基对共有10个 所述氨基酸类型特征。
[0019] 优选地,所述残基对特征包括α螺旋个数特征,所述α螺旋个数特征代表所述 残基对所属的跨膜蛋白所包含的α螺旋个数。优选地,可以将α螺旋个数位于2-4、5-7、 8-10、大于10四类区间内的所述α螺旋个数特征分别记为〇〇〇1、〇〇1〇、〇1〇〇、1〇〇〇,因此,对 于每一残基对共有4个所述α螺旋个数特征数据。
[0020] 优选地,所述残基对特征包括序列长度特征,所述序列长度特征代表所述残基 对所属跨膜蛋白的一级序列长度。优选地,可以将一级序列长度位于小于100、100-400、 400-800、大于800四类区间内的所述序列长度特征分别记为0001、0010、0100、1000,因此, 对于每一残基对共有4个所述序列长度特征数据。
[0021] 在步骤S200中,将所述残基对特征作为训练集、基于SVM对所述训练集进行训练 得到预测模型。优选地,提取用于训练的95个跨膜蛋白所包含的残基作用对和非作用对的 特征值,对该特征矩阵进行训练,得到所述预测模型。其中,将的C a -C α原子距离小于81 的残基对定义为残基作用对。根据作用对的定义,将用于训练的跨膜蛋白α螺旋上的所有 残基对都标记为相互作用或非作用,从而产生了一个相互作用与非作用数量比为1 :62的 数据集。为了平衡训练集中两类数据的数量,并节约训练时间,在该步骤中保留所有的相互 作用残基对,并随机选取了非作用的残基对,最终得到了一个作用与非作用残基对数量比 为1 :1的训练集。
[0022] 优选地,利用 LIB-SVM (下载自 http://www. csie. ntu. edu. tw/ ?cjlin/ libsvm/),采用rbf核函数对所述训练集进行5-fold交叉验证,将SVM中的参数cost设置 为2,参数gamma设置为10,训练得到所述预测模型。
[0023] 在步骤S300中,提取待预测跨膜蛋白所包含的残基对特征作为测试集。优选地, 提取21个跨膜蛋白所包含的残基对特征作为测试集,方法同提取所述用于训练的95个跨 膜蛋白所包含的残基对特征,在此不再赘述。
[0024] 在步骤S400中,将所述测试集输入所述预测模型,输出分数S。所述预测模型用 于接收作用关系待预测的残基对特征,输出分数S,分数S越高,表明所述待预测的残基对 是作用对的概率越高;分数S越低,表明所述待预测的残基对是非作用对的概率越高。优 选地,在步骤S200中,利用LIB-SVM对所述残基对特征训练得到所述预测模型后,调用 LIB-SVM预测程序获得所述待预测的残基对所属类别的分数S。
[0025] 在步骤S500中,将S与预设阈值T进行比较,若S > T,则判定所述待预测的残基 对为作用对,否则判定为非作用对。预设阈值T设置越大,判定结果越准确,但漏检数越大; 预设阈值T设置越小,漏检数相应减小,但虚警率相应升高。优选地,将所述预设阈值T设 置为le-20。
[0026] 图2为本发明方法与TMhit、MEMPACK以及SVMcon的实验结果对比。其中精确度 定义为预测得到的真实作用对的数量与预测得到的所有作用对数量的比值;覆盖度定义为 预测得到的真实作用对的数量与真实存在的所有作用对数量的比值。
[0027] 图2中分别列出了本发明方法、TMhit、MEMPACK以及SVMcon得到的21个跨膜蛋白 ("跨膜蛋白ID"一列所示)的残基对作用关系预测结果。其中,2L0SA、2L0QA、2L0MA、4I9WA、 礼0從、4冊03、 21^认、40乂(^这8个跨膜蛋白中,位于〇螺旋上真实的残基作用对个数分 别为6、0、1、18、8、12、0、1,其残基作用对数量本身就很少,任何一种预测方法都难以达到较 高的预测精度和覆盖度,因此将这 8个跨膜蛋白的预测结果设为不计算入最终的平均 值。图2中标部分表示该方法并未返回残基作用对的预测结果,无法计算其精确度和 覆盖度;"平均"处标部分表示该方法存在部分结果无返回的情况。
[0028] 根据上述实验结果可以看出,三种针对跨膜蛋白的预测方法(本发明方法、TMhit、 MEMPACK)在精确度和覆盖度上明显优于SVMcon,表明适用于球蛋白的预测方法并不宜用于 跨膜蛋白残基作用关系的预测。而比较本发明方法、TMhit和MEMPACK的预测结果,可发现 本发明方法的精确度和覆盖度较高,明显优于TMhit,并较优于MEMPACK。上述实验结果证 明了本发明方法预测的准确性和有效性。
[0029] 虽然本发明参照当前的较佳实施方式进行了描述,但本领域的技术人员应能理 解,上述较佳实施方式仅用来解释和说明本发明的技术方案,而并非用来限定本发明的保 护范围,任何在本发明的精神和原则范围之内,所做的任何修饰、等效替换、变形、改进等, 均应包含在本发明的权利要求保护范围之内。
【权利要求】
1. 一种基于支持向量机的跨膜蛋白残基作用关系预测方法,所述跨膜蛋白包含N个α 螺旋个数,其中Ν > 2,所述方法包括以下步骤: 步骤S100、提取用于训练的跨膜蛋白所包含的残基对特征作为训练集; 步骤S200、基于SVM对所述训练集进行训练得到预测模型; 步骤S300、提取待预测跨膜蛋白所包含的残基对特征作为测试集; 步骤S400、将所述测试集输入所述预测模型,输出分数S ; 步骤S500、将S与预设阈值Τ进行比较,若S > Τ,则判定所述待预测跨膜蛋白包含的 残基对为作用对,否则判定为非作用对。
2. 根据权利要求1所述的基于支持向量机的跨膜蛋白残基作用关系预测方法,其特征 在于,所述残基对特征包括PSSM特征,所述PSSM特征为位置特异性得分矩阵特征,代表20 种氨基酸分别在残基对中两残基和其邻近残基中出现的概率。
3. 根据权利要求1所述的基于支持向量机的跨膜蛋白残基作用关系预测方法,其特征 在于,所述残基对特征包括亲脂性特征,对所述残基对中两残基的原始亲脂性特征值分别 进行归一化求得所述亲脂性特征。
4. 根据权利要求1所述的基于支持向量机的跨膜蛋白残基作用关系预测方法,其特征 在于,所述残基对特征包括相对距离特征,所述相对距离特征代表所述残基对中两残基在 α螺旋上的位置。
5. 根据权利要求1所述的基于支持向量机的跨膜蛋白残基作用关系预测方法,其特征 在于,所述残基对特征包括序列间隔特征,所述序列间隔特征代表所述残基对中两残基在 跨膜蛋白一级序列中的间隔距离。
6. 根据权利要求1所述的基于支持向量机的跨膜蛋白残基作用关系预测方法,其特征 在于,所述残基对特征包括氨基酸类型特征,构成所述残基的氨基酸为酸性、碱性、极性、非 极性4种类型之一,所述氨基酸类型特征为所述4种类型的两两组合,共10种。
7. 根据权利要求1所述的基于支持向量机的跨膜蛋白残基作用关系预测方法,其特征 在于,所述残基对特征包括α螺旋个数特征,所述α螺旋个数特征代表所述残基对所属跨 膜蛋白所包含的α螺旋个数。
8. 根据权利要求1所述的基于支持向量机的跨膜蛋白残基作用关系预测方法,其特征 在于,所述残基对特征包括序列长度特征,所述序列长度特征代表所述残基对所属跨膜蛋 白的一级序列长度。
9. 根据权利要求1至8任意一项所述的基于支持向量机的跨膜蛋白残基作用关系预测 方法,其特征在于,在步骤S200中,采用rbf核函数对所述训练集进行5-fold交叉验证,得 到所述预测模型。
10. 根据权利要求1至8任意一项所述的基于支持向量机的跨膜蛋白残基作用关系预 测方法,其特征在于,所述预设阈值T为le-20。
【文档编号】G06F19/12GK104252581SQ201310260822
【公开日】2014年12月31日 申请日期:2013年6月26日 优先权日:2013年6月26日
【发明者】张慧玲, 陈春, 魏彦杰, 彭丰斌, 孟金涛, 贝振东 申请人:中国科学院深圳先进技术研究院