基于深度自动编码器的lncRNA-蛋白质相互作用预测方法

文档序号:32752922发布日期:2022-12-31 01:56阅读:来源:国知局

技术特征:
1.基于深度自动编码器的lncrna-蛋白质相互作用预测方法,其特征在于所述方法包括以下步骤:获取待预测的lncrna初始特征和蛋白质初始特征,并将待预测的lncrna初始特征和蛋白质初始特征输入到训练好的lncrna-蛋白质相互作用预测模型中,获得相互作用预测结果;所述训练好的lncrna-蛋白质相互作用预测模型通过以下方式获得:步骤一、获取lncrna-蛋白质相互作用数据文件,并对lncrna-蛋白质相互作用数据文件进行预处理获得原始训练样本集合;步骤二、获取原始训练样本集合中的lncrna的序列及二级结构数据,蛋白质序列、蛋白质骨架结构片段:步骤三、利用原始训练样本集合中的lncrna的序列及二级结构数据,蛋白质序列、蛋白质骨架结构片段分别提取蛋白质特征和lncrna特征,并将获取的蛋白质特征和lncrna特征进行合并获取原始训练样本的初始特征;步骤四、将原始训练样本的初始特征输入到深度自动编码器中进行多层非线性变化获得原始训练样本的初始特征与其重构特征的平均重构误差最小时的编码和解码参数;步骤五、利用边际fisher分析准则和步骤四获得的编码和解码参数对步骤三获得的原始训练样本的初始特征进行处理获得原始训练样本的最优分类特征;所述编码和解码参数为原始训练样本的初始特征与其重构特征的平均重构误差最小时的编码和解码参数;步骤六、利用步骤五获得的原始训练样本的最优分类特征训练lncrna-蛋白质相互作用预测模型获得训练好的lncrna-蛋白质相互作用预测模型。2.根据权利要求1所述的基于深度自动编码器的lncrna-蛋白质相互作用预测方法,其特征在于:所述待预测的lncrna初始特征和蛋白质初始特征通过以下方式获得:s1、获取待预测的lncrna序列和二级结构;所述lncrna的二级结构包括:茎区、发卡、凸起、环、内环;s2、获取待预测蛋白质序列和骨架结构片段;所述骨架结构片段从蛋白质三维结构中抽取;s3、利用待预测的lncrna序列和二级结构提取lncrna初始特征,利用待预测蛋白质序列和骨架结构片段提取蛋白质初始特征;所述利用待预测的lncrna序列和二级结构提取lncrna初始特征,具体为:首先,提取lncrna序列中包含的4-核苷酸聚合体;然后,统计每种lncrna二级结构中包含的每种核苷酸聚合体的数目,对核苷酸聚合体归一化获得lncrna初始特征;所述利用待预测蛋白质序列和骨架结构片段提取蛋白质初始特征,具体为:首先,将每个待预测蛋白质序列中的氨基酸分组,将每组氨基酸用统一字符表示,从而获得多种氨基酸字符串;然后,将蛋白质骨架结构片段分别与每种氨基酸字符串组合,获得复合特征符号;最后,统计每种复合特征符号出现的频率,将复合特征符号进行归一化处理,获得蛋白质初始特征。
3.根据权利要求2所述的基于深度自动编码器的lncrna-蛋白质相互作用预测方法,其特征在于:所述将每个待预测蛋白质序列中的氨基酸分组,具体分为如下七组:{a,g,v},{i,l,f,p},{y,m,t,s},{h,n,q,w},{r,k},{d,e}和{c};其中,a是丙氨酸,g是甘氨酸,v是缬氨酸,i是异亮氨酸,l是亮氨酸,f是苯丙氨酸,p是脯氨酸,y是酪氨酸,m是甲硫氨酸,t是苏氨酸,s是丝氨酸,h是组氨酸,n是天冬酰胺,q是谷氨酰胺,w是色氨酸,r是精氨酸,k是赖氨酸,d是天冬氨酸,e是谷氨酸,c是半胱氨酸。4.根据权利要求3所述的基于深度自动编码器的lncrna-蛋白质相互作用预测方法,其特征在于:所述步骤一包括以下步骤:步骤一一、获取lncrna-蛋白质相互作用数据文件;步骤一二、对lncrna-蛋白质相互作用数据文件进行预处理获得原始训练样本集合:对于缺少序列或结构数据的lncrna-蛋白质相互作用对进行删除;随机构造与删除后的lncrna-蛋白质相互作用对数目相等的lncrna-蛋白质非作用对;将删除后的lncrna-蛋白质相互作用对、与删除后的lncrna-蛋白质相互作用对数目相等的lncrna-蛋白质非作用对组成原始训练样本集合。5.根据权利要求4所述的基于深度自动编码器的lncrna-蛋白质相互作用预测方法,其特征在于:所述步骤三包括以下步骤:步骤三一、利用原始训练样本集合中蛋白质的序列、蛋白质骨架结构片段提取蛋白质特征v
p
;所述利用蛋白质序列、蛋白质骨架结构片段提取蛋白质特征v
p
的方法与s3中的利用待预测蛋白质序列和骨架结构片段提取蛋白质初始特征相同;步骤三二、利用原始训练样本集中lncrna的序列及二级结构数据提取lncrna特征v
l
;所述利用lncrna的序列及二级结构数据提取lncrna特征v
l
的方法与s3中的利用待预测的lncrna序列和二级结构提取lncrna初始特征的方法相同;步骤三三、将白质特征v
p
与lncrna特征v
l
合并获得原始训练样本的初始特征。6.根据权利要求5所述的基于深度自动编码器的lncrna-蛋白质相互作用预测方法,其特征在于:所述步骤四包括以下步骤:首先,根据每个原始训练样本的初始特征x
(i)
抽取新特征y
(i)
和重构特征y
(i)
=f
θ
(x
(i)
)=s(wx
(i)
+b)
ꢀꢀꢀꢀ
(1)其中,y
(i)
是对x
(i)
进行非线性编码后的特征表示,是对y
(i)
进行解码后获得的重构特征,θ={w,b}和θ'={w',b'}分别表示编码参数和解码参数,s()是深度自动编码器对特征的作用函数,w是对特征x
(i)
的作用参数,b是常数项,w、b共同构成了编码参数,w'是对特征y
(i)
的作用参数,b’是常数项,w

、b’共同构成了编码参数同构成了解码参数;然后,获得x
(i)
和的平均重构误差最小时的编码和解码参数:其中,是x
(i)
和之间的重构误差,i∈[1,n]是原始训练样本的标号,n是原
始训练样本总数。7.根据权利要求6所述的基于深度自动编码器的lncrna-蛋白质相互作用预测方法,其特征在于:所述步骤五包括以下步骤:步骤五一、构建边际fisher分析准则jmf=s
c
/s
p
:其中,s
c
和s
p
分别表示类内紧凑性和类间分离性;步骤五二、利用步骤五一获得的边际fisher分析准则与公式(3)构建提取原始训练样本最优分类特征的目标函数,并对提取原始训练样本最优分类特征的目标函数进行正则化,获得如下目标函数:步骤五三、按照步骤五二获得的目标函数重新训练深度自动编码器,获得最优编码参数θ
*
,从而获得原始训练样本的最优分类特征y
(i)*
:所述最优编码参数θ
*
利用共轭梯度法获得;所述获得原始训练样本的最优分类特征y
(i)*
通过以下方式获得:按θ
*
对原始训练样本的初始特征x
(i)
进行编码,从而得到原始训练样本的最优分类特征y
(i)*
。8.根据权利要求7所述的基于深度自动编码器的lncrna-蛋白质相互作用预测方法,其特征在于:其中,s
c
是类内紧凑性,表示与指定的原始训练样本的初始特征属于同类,且是该原始训练样本的初始特征的k
1-近邻样本的集合,y
(j)
是对x
(j)
进行非线性编码后的特征表示,j是规定范围内任一原始训练样本的特征。9.根据权利要求8所述的基于深度自动编码器的lncrna-蛋白质相互作用预测方法,其特征在于:其中,s
p
是类间分离性,表示与指定的原始训练样本的初始特征属于不同类别,但是其k
2-近邻样本的集合。10.根据权利要求9所述的基于深度自动编码器的lncrna-蛋白质相互作用预测方法,其特征在于:所述lncrna-蛋白质相互作用预测模型的分类器为随机森林算法。

技术总结
基于深度自动编码器的lncRNA-蛋白质相互作用预测方法,涉及生物信息学领域。本发明是为了解决现有lncRNA-蛋白质相互作用预测方法还存在特征表达能力低导致的样本在特征空间的分布区别不大,进而导致lncRNA-蛋白质相互作用的预测准确率低的问题。本发明包括:获取待预测的lncRNA初始特征和蛋白质初始特征,并将待预测的lncRNA初始特征和蛋白质初始特征输入到训练好的lncRNA-蛋白质相互作用预测模型中,获得相互作用预测结果;本发明利用边际Fisher分析方法学习lncRNA-蛋白质相互作用样本的最优分类特征,提高了lncRNA-蛋白质相互作用预测的准确率。本发明用于预测lncRNA-蛋白质相互作用关系。白质相互作用关系。白质相互作用关系。


技术研发人员:滕志霞 张伊冉 郭茂祖 汪国华
受保护的技术使用者:东北林业大学
技术研发日:2022.10.20
技术公布日:2022/12/30
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1