一种预测细菌iv型分泌系统效应分子的方法
【专利摘要】本发明公开一种预测细菌IV型分泌系统效应分子的方法,服务器后台通过两个模块,将前台网页中用户提交的蛋白质序列输入预测程序;调用blastpgp程序,计算蛋白质序列的位置特异性迭代打分矩阵,并计算组成特征,将这些特征转换成一个特征向量,调用libSVM程序,并导入使用训练数据集预先建立的模型,对蛋白质进行计算预测并保存,JSP网页不断查询该数据,一旦获得结果,输出到前台网页。本发明预测IVA型效应分子的准确度为76.7%,预测IVB型效应分子的准确度为89.7%,为国内外已知的第一个非基于序列同源性方法的T4SS效应分子预测软件,可应用于细菌IV型分泌系统效应分子的筛选、鉴定和功能研究。
【专利说明】
一种预测细菌IV型分泌系统效应分子的方法
技术领域
[0001] 本发明属于预测细菌分泌系统效应分子的技术领域,尤其涉及一种预测细菌IV型 分泌系统效应分子的方法。
【背景技术】
[0002] IV型分泌系统(T4SS)是近年来发现的细菌的一种分泌装置,可以将蛋白质分子分 泌到宿主细胞,是维持细菌生存和致病性的一种重要的方式。通过T4SS分泌的蛋白质也称 为效应分子。众多病原菌,如嗜肺军团菌、鼠疫耶尔森菌、布鲁氏菌、立克次体都可以利用其 IV型分泌系统分泌效应分子,来攻击人体细胞,是其危害人类健康的一种重要手段。
[0003] 当前,已经在嗜肺军团菌等多种细菌中,通过实验鉴定了一些T4SS效应分子。然 而,研究人员已经发现,T4SS效应分子多种多样,序列的保守性远远低于构成T4SS装置的组 分蛋白质,这就使得仅仅依赖于序列同源性分析的方法,很难鉴定出细菌基因组内与已知 效应分子同源程度很低的新型效应分子。此外,完全基于实验的鉴定方法需要耗费大量的 人力物力和时间,随着大量细菌基因组测序的完成,已经远远不能满足在其中鉴定这类效 应分子的需求。
【发明内容】
[0004] 本发明的目的在于提供一种预测细菌IV型分泌系统效应分子的方法,旨在解决当 前实验鉴定一些T4SS效应分子中仅仅依赖于序列同源性分析,很难鉴定出细菌基因组内与 已知效应分子同源程度很低的新型效应分子的问题。
[0005] 本发明是这样实现的,一种预测细菌IV型分泌系统效应分子的方法,该预测细菌 IV型分泌系统效应分子的方法包括以下步骤:
[0006] 步骤一、用户登录web服务器主页,进入预测页面,输入待预测的蛋白序列;
[0007] 步骤二、服务器JSP程序获取用户输入的蛋白序列,并在前台网页产生结果输出链 接;
[0008] 步骤三、JSP程序调用blastpgp程序,将用户输入的蛋白序列与NCBI无冗余蛋白质 数据库进行两两比对,计算位置特异性得分矩阵(Position Specific Scoring Matrix, PSSM);
[0009] 步骤四、JSP程序查询结果保存目录,一旦PSSM计算完成,调用Matlab程序计算 PSSM组成特征;
[00?0]步骤五、Matlab程序使用自相关函数,计算PSSM的自相关特征,同时计算蛋白氨基 酸组成特征和氨基酸对组成特征;
[0011]步骤六、Matlab程序将多类特征依据预设方式进行组合,产生一个蛋白质特征向 量;
[0012]步骤七、Matlab程序调用IibSVM程序,使用训练好的模型,预测蛋白质是效应分子 的似然率;
[0013]步骤八、根据SVM预测结果判断其是否为IV型分泌系统效应分子,以HTML格式保存 到结果目录;
[0014]步骤九、负责结果输出的JSP程序不断查询结果保存目录,确认结果文件是否生 成;
[0015]步骤十、一旦结果生成,则服务器随时相应用户点击,将预测结果显示到前台网 页,包括判别结果和PSSM矩阵。
[0016] 进一步,所述步骤一采用FASTA格式在页面上的文本框内输入待预测的蛋白质序 列。
[0017] 进一步,所述步骤七中使用训练数据集和IibSVM程序,建立训练好的SVM模型并保 存。
[0018] 进一步,所述web服务器后台通过DataInOut和SmartUpload两个JAVA模块,将前台 网页提交的蛋白质序列输入mat Iab程序;
[0019] JSP程序调用blastpgp程序,依据预先设定的参数,将蛋白质序列与服务器本地安 装的NCBI无冗余蛋白质数据库nr进行比对,计算位置特异性迭代打分PSSM矩阵;
[0020] 然后从这个矩阵计算PSSM组成特征,并同时计算序列的氨基酸组成和氨基酸对组 成特征;
[0021 ]将这些特征转换成一个特征向量,将该特征向量输入支持向量机SVM分类器,SVM 分类器将输出判别结果,保存到本地磁盘;
[0022]最后,JSP网页不断查询该数据保存目录,结果计算完毕,则将预测结果和位置特 异性打分矩阵,输出到前台网页。
[0023] 进一步,从PSSM矩阵计算PSSM组成特征,还同时计算PSSM自相关特征。
[0024]进一步,所述SVM分类器利用libSVM3.12工具箱建立的分类器,包括根据训练数据 建立的分类模型,核函数,参数。
[0025]进一步,所述步骤三中的矩阵,该矩阵每行对应该蛋白质序列每一个位置,每列对 应20种氨基酸残基,每一个数值代表其所在行对应的序列位置上使用的氨基酸为其所在列 对应的氨基酸的保守性得分,若该数值越大,则表示蛋白质序列的这一个位置在进化过程 中氣基酸残基保守性越尚。
[0026] 进一步,所述步骤四中调用Matlab程序计算PSSM组成特征,该特征计算方式为:将 矩阵所有行的同一种氨基酸残基在每一列上的数值相加,并除以序列长度,得到一个20维 向量,20种氨基酸的向量相连,得至1」400维的特征向量,并归一化到[-I,1 ]区间内。
[0027]进一步,所述步骤五中计算PSSM的自相关特征,自相关特征的计算方式如下:首 先,PSSM矩阵可以表示为下列向量形式:
[0028] PSSM= (Si,S2,...,S2〇)
[0029] 这里,S1G = IJ,…,20)表示第i种氨基酸的列向量,每一个列向量可定义如下:
[0030] Sj=(si,j,s2,j, ,???,SLj)T(j = l,2,---,20)
[0031] 这里,L代表蛋白质序列的长度,Slj表示序列第i个位置所对应的第j种类型的氨基 酸的得分,自相关变换函数定义如下:
[0032]
[0033]上式中,(j = l,2, .",204= 1,2,…,G)。因此,PSSM的自相关变换为一个20 XG的 向量,G是一个正整数,表示自相关变换的分组数量,自相关变换将蛋白质序列的PSSM矩阵 转换为一个向量,反映的是相隔距离为G的两个氨基酸在进化上的相关性,氨基酸组成和氨 基酸对组成特征分别通过计算蛋白质序列中20种氨基酸以及400种氨基酸对的个数除以序 列长度来获得;
[0034] 所述步骤六中Matlab程序将400维的PSSM组成特征、20 XG维的PSSM自相关特征、 20维的氨基酸组成特征以及400维的氨基酸对组成特征,两个一组,三个一组或者四个一组 进行组合,从中选择预测性能最高的组合方式作为最终的蛋白质序列向量表示方式。
[0035] 进一步,所述步骤七中Matlab程序调用IibSVM程序,使用事先训练好的模型,预测 蛋白质是效应分子的似然率;该模型构建过程如下:使用数据库搜索、序列比对和文献挖掘 手段收集样本序列,并采用Smith-Waterman算法去除冗余序列,得到310个IVB型效应分子, 30个IVA型效应分子和1132个非效应分子作为训练数据集,其中的每一条蛋白质序列之间 的序列相似度不超过20%,且均为实验所证实。使用步骤一到六所述方法,计算蛋白质的序 列特征向量,使用I ibSVM3.12来建立支持向量机预测模型,其中核函数为RBF核函数,惩罚 因子等参数使用网格搜索和十倍交叉验证测试来确定,使用SVMtrain训练模型,使用敏感 性、特异性、总预测精度和马氏相关系数来评价预测性能,最终从测试结果中选择马氏相关 系数最优的特征组合方式和模型参数,将性能最优的模型作为最终模型输出保存。
[0036]本发明在深入分析已知效应分子序列特征的基础上,建立了一种计算蛋白质序列 位置特异性打分矩阵,并通过自相关函数转换为位置特异性特征的方法,并通过建立基于 支持向量机的机器学习分类器,发明了一种能够对未知功能的细菌蛋白质序列进行预测和 计算机鉴定的程序。该程序通过web服务器的方式,接受用户输入的蛋白质序列,预测其是 否为T4SS系统分泌的效应分子,并且具有较高的预测准确度。
[0037]该发明的核心是一个预测算法,其基本思想和技术细节如下:IV型分泌系统效应 分子序列,尤其是C端序列,在氨基酸的使用类型和频率上与非效应分子有一些差异,这一 差异是进化过程中形成的;找到描述这种进化差异的精确方法,显然有助于在未知的蛋白 质序列中识别这类蛋白质。已知氨基酸位置特异性打分矩阵能够体现蛋白质序列进化过程 中,不同功能的蛋白质在不同位置使用氨基酸的一种保守性,而机器学习算法则是对两种 差异数据进行分类的一种好的选择,因此,本发明基于上述科学思想,建立了一种基于蛋白 质进化保守信息和机器学习的效应分子预测算法,该算法首先构建了一个无冗余的数据 集,包含30条IVA型效应分子,310条IVB型效应分子,1132条非效应分子蛋白质序列;使用 blastpgp程序将蛋白质序列与NCBI无冗余的蛋白质数据库进行比对,计算位置特异性打分 矩阵(PSSM);为了将PSSM矩阵转换为特征向量,本发明设计了两种特征计算方法,一是从 PSSM计算20种氨基酸各自在整个序列中的特异性得分,称为PSSM组成,二是设计了 一个自 相关函数,计算同一类氨基酸在序列上下游附近区域出现的相关性;此外,进一步计算序列 的氨基酸组成和氨基酸对组成;通过将不同特征进行各种组合,来寻找最能区分效应分子 和非效应分子的组合方式;为了建立分类模型,使用在高维数据分类中性能出色的支持向 量机算法来建立分类模型;使用阳性率、阴性率、总预测精度、马氏相关系数、ROC曲线和曲 线下面积等多种指标来评估预测算法的性能,在训练数据集上使用十倍交叉验证方法进行 测试,结果表明该算法预测IVA型效应分子的阳性判别率、阴性判别率、总精度和马氏相关 系数最高可以达到76.7%,97.5%,93.3%,0.784;预测IVB型效应分子的上述指标最高可 以达到89.7 %,97.6 %,95.9 %,0.878;此外,该算法与国际上现有的两种预测方法进行了 比较,其马氏相关系数都更好,并且是唯一可以将IVA型和IVB型效应分子进行分别预测的 算法,使用该算法在导致"猫抓热"等疾病的病原菌汉赛巴尔通体的全基因组内进行预测, 能够准确预测到7个已经证实的效应分子,同时预测到了47个潜在的效应分子,证明该发明 应用于预测革兰阴性细菌IV型分泌系统效应分子,具有很好的敏感性。
[0038] 本发明能够在基因组蛋白质中识别与已知效应分子序列同源性很低的效应分子, 为国内外已知的第一个非基于序列同源性方法的T4SS效应分子预测软件,可以帮助细菌研 究人员在一些致病菌基因组内预测到潜在的效应分子蛋白质,得到很小规模的候选对象来 进行生物学实验鉴定,从而显著加快效应分子鉴定的进程,为揭示病原菌利用IV型分泌系 统侵袭宿主细胞的机制提供有效帮助。
【附图说明】
[0039] 图1是本发明实施例提供的预测细菌IV型分泌系统效应分子的方法流程图;
[0040] 图2是本发明实施例提供的预测算法的总体实现思路图。
【具体实施方式】
[0041] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明 进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于 限定本发明。
[0042] 该发明的核心是一个预测算法,其基本思想和技术细节如下:IV型分泌系统效应 分子序列,尤其是C端序列,在氨基酸的使用类型和频率上与非效应分子有一些差异,这一 差异是进化过程中形成的。找到描述这种进化差异的精确方法,显然有助于在未知的蛋白 质序列中识别这类蛋白质。已知氨基酸位置特异性打分矩阵能够体现蛋白质序列进化过程 中,不同功能的蛋白质在不同位置使用氨基酸的一种保守性。而机器学习算法则是对两种 差异数据进行分类的一种好的选择。因此,本发明基于上述科学思想,建立了一种基于蛋白 质进化保守信息和机器学习的效应分子预测算法。该算法首先构建了一个无冗余的数据 集,包含30条IVA型效应分子,310条IVB型效应分子,1132条非效应分子蛋白质序列。使用 blastpgp程序将蛋白质序列与NCBI无冗余的蛋白质数据库进行比对,计算位置特异性打分 矩阵(PSSM)。为了将PSSM矩阵转换为特征向量,本发明设计了两种特征计算方法,一是从 PSSM计算20种氨基酸各自在整个序列中的特异性得分,称为PSSM组成,二是设计了 一个自 相关函数,计算同一类氨基酸在序列上下游附近区域出现的相关性;此外,进一步计算序列 的氨基酸组成和氨基酸对组成。通过将不同特征进行各种组合,来寻找最能区分效应分子 和非效应分子的组合方式。为了建立分类模型,使用在高维数据分类中性能出色的支持向 量机算法来建立分类模型。使用阳性率、阴性率、总预测精度、马氏相关系数、ROC曲线和曲 线下面积等多种指标来评估预测算法的性能。在训练数据集上使用十倍交叉验证方法进行 测试,结果表明该算法预测IVA型效应分子的阳性判别率、阴性判别率、总精度和马氏相关 系数最高可以达到76.7%,97.5%,93.3%,0.784;预测IVB型效应分子的上述指标最高可 以达到89.7%,97.6%,95.9%,0.878。此外,该算法与国际上现有的两种预测方法进行了 比较,其马氏相关系数都更好,并且是唯一可以将IVA型和IVB型效应分子进行分别预测的 算法。使用该算法在导致"猫抓热"等疾病的病原菌汉赛巴尔通体的全基因组内进行预测, 能够准确预测到7个已经证实的效应分子,同时预测到了47个潜在的效应分子,证明该发明 应用于预测革兰阴性细菌IV型分泌系统效应分子,具有很好的敏感性。
[0043]下面结合附图对本发明的应用原理作详细描述。
[0044] 如图1所示:一种预测细菌IV型分泌系统效应分子的方法,该预测细菌IV型分泌系 统效应分子的方法包括以下步骤:
[0045] S101:用户登录web服务器主页,进入预测页面,输入FASTA格式的待预测的蛋白序 列;
[0046] S102:服务器JSP程序获取用户输入的蛋白序列,并在前台网页产生结果输出链 接;
[0047] S103: JSP程序调用blastpgp程序,将用户输入的蛋白序列与NCBI无冗余蛋白质数 据库进行两两比对,计算位置特异性得分矩阵PSSM;
[0048] S104: JSP程序查询结果保存目录,一旦PSSM计算完成,调用Matlab程序计算PSSM 组成特征;
[0049] S105:Matlab程序使用自相关函数,计算PSSM的自相关特征,同时计算蛋白氨基酸 组成特征和氨基酸对组成特征;
[0050] S106:Matlab程序将多类特征依据预设方式进行组合,产生一个蛋白质特征向量; [00511 S107:Matlab程序调用IibSVM程序,使用训练好的模型,预测蛋白质是效应分子的 似然率;
[0052] S108:根据SVM预测结果判断其是否为IV型分泌系统效应分子,以HTML格式保存到 结果目录;
[0053] S109:负责结果输出的JSP程序不断查询结果保存目录,确认结果文件是否生成;
[0054] S1010:-旦结果生成,则服务器随时相应用户点击,将预测结果显示到前台网页, 包括判别结果和PSSM矩阵。
[0055]所述SlOl采用FASTA格式在页面上的文本框内输入待预测的蛋白质序列。
[0056]所述S107中使用训练数据集和I ibSVM程序,建立训练好的SVM模型并保存。
[0057] 所述web服务器后台通过DataInOut和SmartUpload两个JAVA模块,将前台网页提 交的蛋白质序列输入mat Iab程序;
[0058] JSP程序调用blastpgp程序,依据预先设定的参数,将蛋白质序列与服务器本地安 装的NCBI无冗余蛋白质数据库nr进行比对,计算位置特异性迭代打分PSSM矩阵;
[0059]然后从这个矩阵计算PSSM组成特征,并同时计算序列的氨基酸组成和氨基酸对组 成特征;
[0000]将这些特征转换成一个特征向量,将该特征向量输入支持向量机SVM分类器,SVM 分类器将输出判别结果,保存到本地磁盘;
[0061]最后,JSP网页不断查询该数据保存目录,结果计算完毕,则将预测结果和位置特 异性打分矩阵,输出到前台网页。
[0062] 所述从PSSM这个矩阵计算PSSM组成特征,还同时计算和PSSM自相关特征。
[0063]所述将这些特征转换成一个特征向量,将该特征向量输入支持向量机分类器,所 述分类器利用libSVM3.12工具箱建立的分类器,包括根据训练数据建立的分类模型,核函 数,参数。
[0064] 所述S103中的PSSM矩阵,该矩阵每行对应该蛋白质序列每一个位置,每列对应20 种氨基酸残基,每一个数值代表其所在行对应的序列位置上使用的氨基酸为其所在列对应 的氨基酸的保守性得分,若该数值越大,则表示蛋白质序列的这一个位置在进化过程中氨 基酸残基保守性越尚。
[0065] 所述S104中调用Matlab程序计算PSSM组成特征,该特征计算方式为:将矩阵所有 行的同一种氨基酸残基在每一列上的数值相加,并除以序列长度,得到一个20维向量,20种 氨基酸的向量相连,得到400维的特征向量,并归一化到[-I,1 ]区间内。
[0066]所述S105中计算PSSM的自相关特征,自相关特征的计算方式如下:首先,PSSM矩阵 可以表示为下列向量形式:
[0067] PSSM= (Si,S2,...,S2〇)
[0068] 这里,Si(i = l,2,…,20)表示第i种氨基酸的列向量,每一个列向量可定义如下:
[0069] Sj=(si,j,s2,j, ,???,SLj)T(j = l,2,---,20)
[0070] 这里,L代表蛋白质序列的长度,Slj表示序列第i个位置所对应的第j种类型的氨基 酸的得分,自相关变换函数定义如下:
[0071]
[0072] 上式中,(]_ = 1,2,",2〇4=1,2,",6)。因此#51的自相关变换为一个20\6的 向量,G是一个正整数,表示自相关变换的分组数量,自相关变换将蛋白质序列的PSSM矩阵 转换为一个向量,反映的是相隔距离为G的两个氨基酸在进化上的相关性,氨基酸组成和氨 基酸对组成特征分别通过计算蛋白质序列中20种氨基酸以及400种氨基酸对的个数除以序 列长度来获得;
[0073] 所述S106中Matlab程序将400维的PSSM组成特征、20 XG维的PSSM自相关特征、20 维的氨基酸组成特征以及400维的氨基酸对组成特征,两个一组,三个一组或者四个一组进 行组合并向量首尾连接,从中选择预测性能最高的组合方式作为最终的蛋白质序列向量的 表不方式。
[0074] 所述S107中Matlab程序调用IibSVM程序,使用事先训练好的模型,预测蛋白质是 效应分子的似然率;该模型构建过程如下:使用数据库搜索、序列比对和文献挖掘等手段收 集样本序列,并采用Smith-Waterman算法去除冗余序列,得到310个IVB型效应分子,30个 IVA型效应分子和1132个非效应分子作为训练数据集,其中的每一条蛋白质序列之间的序 列相似度不超过20%,且均为实验所证实。使用步骤一到六所述方法,计算蛋白质的序列特 征向量,使用I ibSVM3.12来建立支持向量机预测模型,支持向量机预测模型的核函数为RBF 核函数,惩罚因子等参数使用网格搜索和十倍交叉验证测试来确定,使用IibSVM包中的 SVMtrain程序来训练模型,使用敏感性、特异性、总预测精度和马氏相关系数来评价预测性 能,最终从测试结果中选择马氏相关系数最优的特征组合方式和模型参数,将性能最优的 模型作为最终模型输出保存。
[0075]本发明提供一种预测细菌IV型分泌系统效应分子的程序使用方法,该程序使用方 法包括以下步骤:
[0076] 登陆 web 服务器:该程序的 web 服务器网址:http: //202 · 202 · 232 · 206/T4Ef fPred ; 或者:http: //bio inf 〇 · tmmu .edu.cn/T4EffPred;
[0077] 输入FASTA格式的蛋白质序列:进入prediction页面,采用FASTA格式在页面上的 文本框内输入待预测的蛋白质序列,输入序列以后,点击"SUBMIT"完成提交,等待服务器计 算完成,预测结果将显示在该网页上;
[0078] 预测结果查看:计算完成后,在网页上会自动显示预测结果的链接,点击链接查看 预测结果;
[0079]程序文件说明查看:
[0080] runpredict. jsp:后台获取蛋白质序列并发送到计算程序的JSP程序;
[0081] dispresult.jsp:后台获取预测结果发送到前台网页显示的JSP程序;
[0082] matlabcode目录:计算程序的matlab代码,计算蛋白质的序列特征并进行机器学 习预测,所述matlabcode目录内还包括计算所依赖的libSVM3.12程序和blast程序,以及 NCBI无冗余的蛋白质数据库nr;所述的data子目录包含了 SVM分类器训练所用的训练数据 集;
[0083] Data目录:所述的data目录包含SVM分类器训练所用的训练数据集,训练数据打包 下载;
[0084] Userdata:保存用户提交的数据及其计算结果。
[0085] 所述输入FASTA格式蛋白质序列:用户进入prediction页面,在页面上的文本框内 输入待预测的蛋白质序列,输入序列以后,点击"SUBMIT"完成提交,等待服务器计算完成, 预测结果将显示在该网页上,在等待服务器计算完成期间网页自动刷新。
[0086] 所述matlabcode目录中计算程序的matlab代码,所述matlab代码中t4effpred为 核心代码。
[0087] 本发明提供一种预测细菌IV型分泌系统效应分子的web服务器,该预测细菌IV型 效应分子的web服务器包括:该服务器使用ApacheTomcatS · 0 · 30作为JAVA服务器环境,操作 系统为Cent0S5 · I ILinux,JDK版本为1 · 8 · 0。
[0088] 该预测细菌IV型效应分子的web服务器包括下列内容:介绍web服务器的基本功能 和参考文献信息的Introduction、提供用户输入、结果输出信息的预测页面prediction、下 载程序源代码和算法所使用的训练数据集的download和提供联系方式的contact。
[0089] 下面结合总体设计和实施例对本发明的应用原理作进一步描述。
[0090] 二、总体设计
[0091 ] 2.1算法的总体设计思路:
[0092]该预测工具的总体实现思路如图2所示。
[0093] 2.2web预测服务器的工作环境
[0094] 该web服务器操作系统为CentOS Linux 5 · 11,JSP支持环境为apache-tomcat-8.0. 30。 网页代码使用 JSP 和 HTML 编写, 计算程序使用matlab 编写 ,程序 内集成 BLAST-2 · 2 · 26 和 LibSVM3 · 12,Matlab 开发版本为 R201 lb。
[0095] 2.3程序运行原理
[0096] 服务器后台通过DataInOut和SmartUpload两个JAVA模块,将前台网页提交的蛋白 质序列输入matlab程序,该程序调用blastpgp程序,依据预先设定的参数,将蛋白质序列与 服务器本地安装的NCBI无冗余蛋白质数据库nr进行比对,计算位置特异性迭代打分矩阵 (PSSM),然后从这个矩阵计算PSSM组成特征和PSSM自相关特征,并同时计算序列的氨基酸 组成和氨基酸对组成特征,将这些特征转换成一个特征向量,将该特征向量输入支持向量 机分类器(利用libSVM3.12建立的分类器,包括根据训练数据建立的分类模型,核函数,参 数等),SVM分类器将输出判别结果,保存到本地磁盘。最后JSP网页不断查询该数据保存目 录,一旦结果计算完毕,则将预测结果和位置特异性打分矩阵,输出到前台网页。
[0097]三、程序使用说明 [0098] 3.1主要功能
[0099]该程序可以对输入的蛋白质序列,计算其序列特征,利用内置的机器学习算法判 别其是否为一个T4SS分泌的蛋白质分子,每次输入一个长度大于50个氨基酸的蛋白质序 列。
[0100] 3.2预测性能
[0101] 预测IVA型效应分子的准确度(阳性判别率)达到76.7 %,预测IVB型效应分子的准 确度(阳性判别率)达到89.7%。能够在细菌基因组蛋白质中识别与已知效应分子序列同源 性很低的效应分子。这是国内外已知的第一个非基于序列同源性方法的T4SS效应分子预测 软件。
[0102] 3.3使用方法和步骤
[0103] 1)登陆web服务器。该程序的web服务器网址:http ://202.202.232.206/ T4Eff Pred;或者:http: //bio info · tmmu .edu.cn/T4EffPred。
[0104]主页包括四个方面功能:
[0105] I. Introduction:介绍了本工具的基本功能和参考文献信息。
[0106] 2.prediction:预测页面,提供用户输入、结果输出信息。
[0107] 3.download:可以下载程序源代码和算法所使用的训练数据集。
[0108] 4.contact:本项目的联系方式。
[0109] 2)输入FASTA格式的蛋白质序列
[0110] 进入prediction页面,在页面上的文本框内输入FASTA格式的待预测蛋白质序列。 输入序列以后,点击"SUBMIT"即可完成提交。等待服务器计算完成,预测结果将显示在该网 页上。期间,网页会自动刷新。
[0111] Example sequences中提供了一个FASTA格式蛋白质序列例子,该格式如下所示。 Standalone program提供了本算法的训练数据集,以及Linux版本和Windows版本的程序源 代码下载。
[0112] 输入蛋白质的序列格式:
[0113] >proteinl
[0114] MIMFESFRKCLSAISMRAPYASTPGHRNAQRANAGSEVLGTTLETFDPAASIPTKLAQTLISIYSLFRFDTHVSEKL IHLLQGSIAATQMGLGIALLFTGTECEEYTDADLCKAIFLLQLLYRGTLLVGWAPSEFSKDPYAEPKVVSEDKAESE EENEDEESRNSASV。
[0115] 3)预测结果查看
[0116] 计算完成以后,在网页上会自动显示预测结果的链接,点击链接即可查看预测结 果。例如,输入2)中的示例蛋白质序列,预测完成以后点击网页上的链接就可以显示该序列 的预测结果。其中,"Your input sequence"显示用户输入的蛋白质序列;Predictiontag = 1表示该蛋白质序列的预测标签为1(1表示阳性结果,-1表示阴性结果)。如果标签为1,则下 面提不"The protein is predicted as a T4SS effector",说明该蛋白质预测为T4SS效 应分子;如果标签为-I,则提不 "The protein is predicted as NOT a T4SS effector", 说明该蛋白质预测为非T4SS效应分子。
[0117] 3.4程序文件说明
[0?18] runpredict. jsp:后台获取蛋白质序列并发送给计算程序的JSP程序
[0119] dispresult. jsp:后台获取预测结果发送到前台网页显示的JSP程序。
[0120] matIabcode目录:计算程序的matIab代码,其中t4effpred为核心代码,计算蛋白 质的序列特征并进行机器学习预测,目录内还包括计算所依赖的libSVM3.12程序和blast 程序,以及NCBI无冗余的蛋白质数据库nr。其中的data子目录包含了 SVM分类器训练所用的 训练数据集。
[0121] Data目录:训练数据打包下载
[0122] Userdata:保存用户提交的数据及其计算结果。
[0123] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种预测细菌IV型分泌系统效应分子的方法,其特征在于,该预测细菌IV型分泌系 统效应分子的方法包括W下步骤: 步骤一、用户登录web服务器主页,进入预测页面,输入待预测的蛋白序列; 步骤二、服务器JSP程序获取用户输入的蛋白序列,并在前台网页产生结果输出链接; 步骤S、JSP程序调用bias化即程序,将用户输入的蛋白序列与NCBI无冗余蛋白质数据 库进行两两比对,计算位置特异性得分矩阵PSSM; 步骤四、JSP程序查询结果保存目录,一旦PSSM计算完成,调用Matlab程序计算PSSM组 成特征; 步骤五、Matlab程序使用自相关函数,计算PSSM的自相关特征,同时计算蛋白氨基酸组 成特征和氨基酸对组成特征; 步骤六、Matlab程序将多类特征依据预设方式进行组合,产生一个蛋白质特征向量; 步骤屯、Matlab程序调用libSVM程序,使用事先训练好的模型,预测蛋白质是效应分子 的似然率; 步骤八、根据SVM预测结果判断其是否为IV型分泌系统效应分子,WHTML格式保存到结 果目录; 步骤九、负责结果输出的JSP程序不断查询结果保存目录,确认结果文件是否生成; 步骤十、一旦结果生成,则服务器随时相应用户点击,将预测结果显示到前台网页,包 括判别结果和PSSM矩阵。2. 如权利要求1所述的预测细菌IV型分泌系统效应分子的方法,其特征在于,所述步骤 一采用FASTA格式在页面上的文本框内输入待预测的蛋白质序列。3. 如权利要求1所述的预测细菌IV型分泌系统效应分子的方法,其特征在于,所述步骤 屯中使用训练数据集和libSVM程序,建立训练好的SVM模型并保存。4. 如权利要求1所述的预测细菌IV型分泌系统效应分子的方法,其特征在于,web服务 器后台通过DatalnOut和SmartUpload两个JAVA模块,将前台网页提交的蛋白质序列输入 mat lab程序; JSP程序调用bias化gp程序,依据预先设定的参数,将蛋白质序列与服务器本地安装的 NCBI无冗余蛋白质数据库nr进行比对,计算位置特异性迭代打分PSSM矩阵; 然后从PSSM矩阵计算PSSM组成特征,并同时计算序列的氨基酸组成和氨基酸对组成特 征; 将运些特征转换成一个特征向量,将该特征向量输入支持向量机SVM分类器,SVM分类 器将输出判别结果,保存到本地磁盘; 最后,JSP网页不断查询该数据保存目录,结果计算完毕,则将预测结果和位置特异性 打分矩阵,输出到前台网页。5. 如权利要求4所述的预测细菌IV型分泌系统效应分子的方法,其特征在于,从PSSM矩 阵计算PSSM组成特征,还同时计算PSSM自相关特征。6. 如权利要求4所述的预测细菌IV型分泌系统效应分子的方法,其特征在于,所述SVM 分类器为利用libSVM3.12工具箱建立的分类器,包括根据训练数据建立的分类模型,核函 数,参数。7. 如权利要求1所述的预测细菌IV型分泌系统效应分子的方法,其特征在于,所述步骤 Ξ中的PSSM矩阵,该矩阵每行对应该蛋白质序列每一个位置,每列对应20种氨基酸残基,每 一个数值代表该数值所在行对应的序列位置上使用的氨基酸为该数值所在列对应的氨基 酸的保守性得分,若该数值越大,则表示蛋白质序列的运一个位置在进化过程中氨基酸残 基保守性越高。8. 如权利要求1所述的预测细菌IV型分泌系统效应分子的方法,其特征在于,所述步骤 四中调用Matlab程序计算PSSM组成特征,该特征计算方式为:将矩阵所有行的同一种氨基 酸残基在每一列上的数值相加,并除W序列长度,得到一个20维向量,20种氨基酸的向量相 连,得到400维的特征向量,并归一化到[-1,1 ]区间内。9. 如权利要求1所述的预测细菌IV型分泌系统效应分子的方法,其特征在于,所述步骤 五中计算PSSM的自相关特征,自相关特征的计算方式如下:首先,PSSM矩阵可W表示为下列 向量形式: PSSM=(Si,S2,...,S2〇) 运里,Si(i = l,2,…,20)表示第i种氨基酸的列向量,每一个列向量可定义如下: Sj = (si'j,S2'j',...,SL'j)T( j = l,2,... ,20) 运里,L代表蛋白质序列的长度,Su表示序列第i个位置所对应的第巧巾类型的氨基酸的 得分,自相关变换函数定义如下:上式中,(j = l,2,…,20,g=l,2,…,G)。因此,PSSM的自相关变换为一个20XG的向量, G是一个正整数,表示自相关变换的分组数量,自相关变换将蛋白质序列的PSSM矩阵转换为 一个向量,反映的是相隔距离为G的两个氨基酸在进化上的相关性,氨基酸组成和氨基酸对 组成特征分别通过计算蛋白质序列中20种氨基酸W及400种氨基酸对的个数除W序列长度 来获得; 所述步骤六中Matlab程序将400维的PSSM组成特征、20 XG维的PSSM自相关特征、20维 的氨基酸组成特征W及400维的氨基酸对组成特征,两个一组,Ξ个一组或者四个一组进行 组合,从中选择预测性能最高的组合方式作为最终的蛋白质序列向量表示方式。10. 如权利要求1所述的预测细菌IV型分泌系统效应分子的方法,其特征在于,所述步 骤屯中模型构建过程为:首先收集样本序列,并采用Smith-Waterman算法去除冗余序列,得 到310个IVB型效应分子,30个IVA型效应分子和1132个非效应分子作为训练数据集,去除冗 余序列后的每一条蛋白质序列之间的序列相似度不超过20%,使用步骤一到六所述方法, 计算蛋白质的序列特征向量,使用libSVM3.12建立支持向量机预测模型,支持向量机预测 模型的核函数选择RBF核函数,惩罚因子等参数使用网格捜索和十倍交叉验证测试来确定, 使用libSVM中的SVM化ain程序训练模型,使用敏感性、特异性、总预测精度和马氏相关系数 来评价预测性能,最终从测试结果中选择马氏相关系数最优的特征组合方式和模型参数, 将性能最优的模型作为最终模型输出保存。
【文档编号】G06F19/18GK105938522SQ201610222292
【公开日】2016年9月14日
【申请日】2016年4月11日
【发明人】邹凌云, 陈抗, 钟蔚
【申请人】中国人民解放军第三军医大学