一种自适应基因调控网格构建方法及装置

文档序号:26014042发布日期:2021-07-23 21:35阅读:196来源:国知局
一种自适应基因调控网格构建方法及装置

本发明涉及生物信息学领域,特别涉及一种自适应基因调控网格构建方法及装置。



背景技术:

基因调控网络模型的分析和构建,作为生物信息学领域中的非常重要的研究方向之一,同时也是基因表达数据分析的一个重要手段。基因网络研究通过建立基因转录调控网络模型对某一个物种或组织中的全部基因的表达关系进行整体的模拟分析和研究,从系统层面认识生命现象,特别是其中涉及的复杂的分子调控过程,支配基因表达和功能的基本规则,信息流动的规律和在整体的框架下研究基因的功能。

开展基因调控网络领域的相关研究,可以更好的理解基因表达过程中的信息传输规律。通过信息提取、数据分析、了解基因功能,深入开展基因调控网络的研究,可以系统性地研究基因的功能。这样,我们不仅可以从结构层次上研究基因的功能,还能够从网络层次上挖掘基因的潜在功能。

现阶段人工智能算法开始用于基因调控网格的辅助构建,为基因调控网格构建提供了一种新的思路,然后,现有人工智能算法针对某一特定工程问题建模后,其模型参数大多固定不变,导致模型的鲁棒性较差,不能很好的进行推广应用。因此,开发针对基因调控网格的自适应构建方法是必要且重要的,其能够是现在信息流动的规律和在整体的框架下研究基因的功能。



技术实现要素:

本发明的目的在于提供一种自适应基因调控网格构建方法,针对基因调控网格构建的难题,提出一种自适应基因调控网格构建方法及装置,实现基因调控网格的准确构建。

本发明提供了一种自适应基因调控网格构建方法,包括:

基于目标基因网络中的基因特征,建立基因表达数据集data1;

对于所述基因表达数据集data1中的每个基因特征,对所述基因特征的所有潜在调控者进行重要性评估,获得评估结果;

基于所述评估结果对所述基因表达数据集data1中的基因特征进行排序,得到基因特征的自适应排序结果;

利用飞蛾扑火优化算法从自适应排序后的基因表达数据集data1中筛选出最优的调控者子集,基于所述调控者子集建立基因调控网络。

作为一种可选的实施方式,所述基因表达数据集data1为:

作为一种可选的实施方式,所述对所述基因特征的所有潜在调控者进行重要性评估,获得评估结果,包括:

对于所述基因表达数据集data1中的每个基因特征,计算该基因特征的pearson相关系数,并基于计算结果,将所述基因表达数据集data1中的基因特征进行排序,得到基因特征排序a1;

对于所述基因表达数据集data1中的每个基因特征,计算该基因特征的计算互信息和最大信息系数,并基于计算结果,将所述基因表达数据集data1中的基因特征进行排序,得到基因特征排序a2;

借助递归特征消除算法对所述基因表达数据集data1中的每个基因特征进行排序,得到基因特征排序a3。

作为一种可选的实施方式,所述基于所述评估结果对所述基因表达数据集data1中的基因特征进行排序,得到基因特征的自适应排序结果,包括:

对基因特征排序a1、基因特征排序a2以及基因特征排序a3加权计算,得到基因特征自适应排序结果a。

作为一种可选的实施方式,所述基因特征自适应排序结果a为:

a=αa1+βa2+χa3

其中,α、β和χ分别表示权值系数。

作为一种可选的实施方式,所述利用飞蛾扑火优化算法从自适应排序后的基因表达数据集data1中筛选出最优的调控者子集,包括:

初始化参数:设置飞蛾种群规模n、搜索空间维度d、最大火焰数n及最大迭代次数t,当前迭代数为l=1;

初始化飞蛾位置和火焰矩阵:将自适应排序后的基因表达数据集data1作为搜索空间,并在搜索空间中随机初始化n个飞蛾位置,计算每个飞蛾个体的适应度值,并将结果置于火焰矩阵中;

更新飞蛾位置与火焰数量:计算飞蛾与火焰间的距离,利用s(mi,fj)=di·ebt·cos(2πt)+fj更新飞蛾位置,其中di表示第i只飞蛾到第j个火焰的距离,b表示螺旋常数,t为[-1,1]区间的随机数;利用更新火焰数量,其中l表示当前迭代次数,n表示火焰的最大数目,t表示最大迭代次数;

更新火焰矩阵:计算每个飞蛾个体适应度值同当代的火焰种群合并,将合并后的种群按照适应度从高到低排序,取前nflames个为火焰位置,并将其置于火焰矩阵中;

终止判断:若运算达到收敛或者最大迭代次数,则停止运算,否则返回执行更新飞蛾位置与火焰数量的步骤。

作为本发明的第二个方面,提供了一种自适应基因调控网格构建装置,包括:

建立模块,用于基于目标基因网络中的基因特征,建立基因表达数据集data1;

评估模块,用于对于所述基因表达数据集data1中的每个基因特征,对所述基因特征的所有潜在调控者进行重要性评估,获得评估结果;

排序模块,用于基于所述评估结果对所述基因表达数据集data1中的基因特征进行排序,得到基因特征的自适应排序结果;

筛选模块,用于利用飞蛾扑火优化算法从自适应排序后的基因表达数据集data1中筛选出最优的调控者子集,基于所述调控者子集建立基因调控网络。

作为一种可选的实施方式,所述评估模块用于:

对于所述基因表达数据集data1中的每个基因特征,计算该基因特征的pearson相关系数,并基于计算结果,将所述基因表达数据集data1中的基因特征进行排序,得到基因特征排序a1;

对于所述基因表达数据集data1中的每个基因特征,计算该基因特征的计算互信息和最大信息系数,并基于计算结果,将所述基因表达数据集data1中的基因特征进行排序,得到基因特征排序a2;

借助递归特征消除算法对所述基因表达数据集data1中的每个基因特征进行排序,得到基因特征排序a3。

作为一种可选的实施方式,所述排序模块用于:

对基因特征排序a1、基因特征排序a2以及基因特征排序a3加权计算,得到基因特征自适应排序结果a。

作为一种可选的实施方式,所述筛选模块,用于:

初始化参数:设置飞蛾种群规模n、搜索空间维度d、最大火焰数n及最大迭代次数t,当前迭代数为l=1;

初始化飞蛾位置和火焰矩阵:将自适应排序后的基因表达数据集data1作为搜索空间,并在搜索空间中随机初始化n个飞蛾位置,计算每个飞蛾个体的适应度值,并将结果置于火焰矩阵中;

更新飞蛾位置与火焰数量:计算飞蛾与火焰间的距离,利用s(mi,fj)=di·ebt·cos(2πt)+fj更新飞蛾位置,其中di表示第i只飞蛾到第j个火焰的距离,b表示螺旋常数,t为[-1,1]区间的随机数;利用更新火焰数量,其中l表示当前迭代次数,n表示火焰的最大数目,t表示最大迭代次数;

更新火焰矩阵:计算每个飞蛾个体适应度值同当代的火焰种群合并,将合并后的种群按照适应度从高到低排序,取前nflames个为火焰位置,并将其置于火焰矩阵中;

终止判断:若运算达到收敛或者最大迭代次数,则停止运算,否则返回执行更新飞蛾位置与火焰数量的步骤。

与现有技术相比,本发明具有如下显著优点:

本申请提供了一种自适应基因调控网格构建方法及装置,对基因特征的所有潜在调控者进行重要性评估,基于所述评估结果对所述基因表达数据集data1中的基因特征进行排序,再利用飞蛾扑火优化算法从自适应排序后的基因表达数据集data1中筛选出最优的调控者子集,基于所述调控者子集建立基因调控网络,从而实现了高精度、强鲁棒性的自适应基因调控网络的构建。

附图说明

图1为本发明提供的基因调控网格构建的流程图;

图2为本发明提供的mfo筛选最优的调控者子集的流程图。

具体实施方式

下面结合本发明中的附图,对本发明实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

为了实现上述发明目的,本发明提供了一种自适应基因调控网格构建方法,包括:

基于目标基因网络中的基因特征,建立基因表达数据集data1;

对于所述基因表达数据集data1中的每个基因特征,对所述基因特征的所有潜在调控者进行重要性评估,获得评估结果;

基于所述评估结果对所述基因表达数据集data1中的基因特征进行排序,得到基因特征的自适应排序结果;

利用飞蛾扑火优化算法从自适应排序后的基因表达数据集data1中筛选出最优的调控者子集,基于所述调控者子集建立基因调控网络。

本发明实施例中,首先对基因特征的所有潜在调控者进行重要性评估,基于所述评估结果对所述基因表达数据集data1中的基因特征进行排序,再利用飞蛾扑火优化算法从自适应排序后的基因表达数据集data1中筛选出最优的调控者子集,基于所述调控者子集建立基因调控网络,从而实现了高精度、强鲁棒性的自适应基因调控网络的构建。

为了便于理解和说明,如附图1-2所示,本发明提供了一种自适应基因调控网格构建方法,包括:

s1:构建基因表达数据集:基于目标基因网络中的基因特征,建立基因表达数据集data1。

可选的,s1中,所述基因表达数据集data1为:

s2:基因特征自适应排序:利用pearson相关系数、互信息和最大信息系数和递归特征消除这三种方法为目标基因网络中的每个目标基因的所有潜在调控者进行重要性评估,随后根据pearson相关系数、互信息和最大信息系数和递归特征消除这三种方法的自适应权值系数进行加权,得到基因特征的自适应排序结果;

可选的,s2中,对于所述基因表达数据集data1中的每个基因特征,通过公式计算pearson相关系数并排序得到基因特征排序a1;

可选的,s2中,对于所述基因表达数据集data1中的每个基因特征,通过公式计算互信息和最大信息系数并排序得到基因特征排序a2;

可选的,s2中,对于所述基因表达数据集data1中的每个基因特征,借助递归特征消除算法得到基因特征排序a3;

为了更好的对基因特征进行排序增加模型鲁棒性,分别给pearson相关系数、互信息和最大信息系数和递归特征消除这三种方法得到特征排序结果定义一个自适应权值系数α、β和χ,则基因特征自适应排序的结果可以表示为:

a=αa1+βa2+χa3

s3:飞蛾扑火优化筛选:将得到的重要性较高的调控者利用飞蛾扑火优化(moth-flameoptimization,mfo)算法筛选出最优的调控者子集,建立基因调控网络。

较佳地,所述步骤s3中,利用mfo算法筛选出最优的调控者子集,包括:

s31:初始化参数:设置飞蛾种群规模n、搜索空间维度d、最大火焰数n及最大迭代次数t,当前迭代数为l=1;

s32:初始化飞蛾位置和火焰矩阵:将自适应排序后的基因表达数据集data1作为搜索空间,并在搜索空间中随机初始化n个飞蛾位置,计算每个飞蛾个体的适应度值,并将结果置于火焰矩阵中;

s33:更新飞蛾位置与火焰数量:计算飞蛾与火焰间的距离,利用s(mi,fj)=di·ebt·cos(2πt)+fj更新飞蛾位置,其中di表示第i只飞蛾到第j个火焰的距离,b表示螺旋常数,t为[-1,1]区间的随机数;利用更新火焰数量,其中l表示当前迭代次数,n表示火焰的最大数目,t表示最大迭代次数;

s34:更新火焰矩阵:计算每个飞蛾个体适应度值同当代的火焰种群合并,将合并后的种群按照适应度从高到低排序,取前nflames个为火焰位置,并将其置于火焰矩阵中;

s35:终止判断:若运算达到收敛或者最大迭代次数,则停止运算,否则返回执行更新飞蛾位置与火焰数量的步骤。

作为一种可选的实施方式,所述自适应基因调控网格构建方法还包括:

s4:逆向工程验证:在逆向工程评估与方法对话数据集data2上进行实验,验证该基因调控网络的有效性。

在逆向工程评估与方法对话数据集data2上进行实验,验证该基因调控网络的有效性的过程中,采用fβ分数作为评价指标:

其中,β取值为0.5、1或者2,precision表示精确率,recall表示召回率。

与所述方法相对应的,本发明提供了一种自适应基因调控网格构建装置,包括:

建立模块,用于基于目标基因网络中的基因特征,建立基因表达数据集data1;

评估模块,用于对于所述基因表达数据集data1中的每个基因特征,对所述基因特征的所有潜在调控者进行重要性评估,获得评估结果;

排序模块,用于基于所述评估结果对所述基因表达数据集data1中的基因特征进行排序,得到基因特征的自适应排序结果;

筛选模块,用于利用飞蛾扑火优化算法从自适应排序后的基因表达数据集data1中筛选出最优的调控者子集,基于所述调控者子集建立基因调控网络。

作为一种可选的实施方式,所述评估模块用于:

对于所述基因表达数据集data1中的每个基因特征,计算该基因特征的pearson相关系数,并基于计算结果,将所述基因表达数据集data1中的基因特征进行排序,得到基因特征排序a1;

对于所述基因表达数据集data1中的每个基因特征,计算该基因特征的计算互信息和最大信息系数,并基于计算结果,将所述基因表达数据集data1中的基因特征进行排序,得到基因特征排序a2;

借助递归特征消除算法对所述基因表达数据集data1中的每个基因特征进行排序,得到基因特征排序a3。

作为一种可选的实施方式,所述排序模块用于:

对基因特征排序a1、基因特征排序a2以及基因特征排序a3加权计算,得到基因特征自适应排序结果a。

作为一种可选的实施方式,所述筛选模块,用于:

初始化参数:设置飞蛾种群规模n、搜索空间维度d、最大火焰数n及最大迭代次数t,当前迭代数为l=1;

初始化飞蛾位置和火焰矩阵:将自适应排序后的基因表达数据集data1作为搜索空间,并在搜索空间中随机初始化n个飞蛾位置,计算每个飞蛾个体的适应度值,并将结果置于火焰矩阵中;

更新飞蛾位置与火焰数量:计算飞蛾与火焰间的距离,利用s(mi,fj)=di·ebt·cos(2πt)+fj更新飞蛾位置,其中di表示第i只飞蛾到第j个火焰的距离,b表示螺旋常数,t为[-1,1]区间的随机数;利用更新火焰数量,其中l表示当前迭代次数,n表示火焰的最大数目,t表示最大迭代次数;

更新火焰矩阵:计算每个飞蛾个体适应度值同当代的火焰种群合并,将合并后的种群按照适应度从高到低排序,取前nflames个为火焰位置,并将其置于火焰矩阵中;

终止判断:若运算达到收敛或者最大迭代次数,则停止运算,否则返回执行更新飞蛾位置与火焰数量的步骤。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1