本发明涉及差异表达基因筛选
技术领域:
,尤其是涉及一种差异表达基因筛选方法及装置。
背景技术:
:基因的差异化表达由多种因素共同导致,并且与许多疾病的发生和发展有密切联系,对差异化表达的基因进行生物信息学以及生物统计学的分析对于研究细胞调节机制和疾病机理有着重要意义。目前,针对差异基因表达的筛选,现有技术基于传统方法已有大量的工具,但是传统方法没有设置再筛选过程,筛选精度低。技术实现要素:有鉴于此,本发明的目的在于提供一种差异表达基因筛选方法及装置,以解决传统方法中没有设置再筛选过程,筛选精度低的技术问题。第一方面,本发明实施例提供了一种差异表达基因筛选方法,包括:获取待筛选基因表达量;对所述待筛选基因表达量进行初步筛选,得到初筛差异表达基因;生成所述初筛差异表达基因对应的关联规则;基于所述关联规则,从所述初筛差异表达基因中筛选差异表达基因。结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,对所述待筛选基因表达量进行初步筛选,得到初筛差异表达基因的步骤,包括:获取所述待筛选基因表达量的表达矩阵、分组矩阵和差异比较矩阵;根据所述表达矩阵、分组矩阵和差异比较矩阵进行差异表达基因分析,得到初筛差异表达基因。结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,生成所述初筛差异表达基因对应的关联规则的步骤包括:根据所述初筛差异表达基因生成差异表达基因事务集;根据所述差异表达基因事务集确定频繁项集;根据所述频繁项集和所述基因事务集确定所述初筛差异表达基因对应的关联规则。结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,根据所述初筛差异表达基因生成差异表达基因事务集的步骤,包括:获取所述初筛差异表达基因对应差异表达倍数fc划分强度类别;基于所述初筛差异表达基因,根据所述强度类别,生成差异表达基因事务集。结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,基于所述关联规则,从所述初筛差异表达基因中筛选差异表达基因的步骤,包括:根据所述事务集确定所述关联规则的支持度;根据所述频繁项集确定所述关联规则的置信度;根据所述支持度、置信度及相应的提升度,从所述初筛差异表达基因中筛选差异表达基因。结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,根据所述支持度、置信度及相应的提升度,从所述初筛差异表达基因中筛选差异表达基因的步骤,包括:根据所述置信度比所述支持度确定所述提升度;获取预设的提升度阈值;利用所述提升度大于阈值的支持度和置信度在所述初筛差异表达基因中筛选差异表达基因。第二方面,本发明实施例还提供一种差异表达基因筛选装置,包括:获取模块,所述获取模块用于获取待筛选基因表达量;初筛模块,所述初筛模块用于对所述待筛选基因表达量进行初步筛选,得到初筛差异表达基因;生成模块,所述生成模块用于生成所述初筛差异表达基因对应的关联规则;筛选模块,所述筛选模块基于所述关联规则,从所述初筛差异表达基因中筛选差异表达基因。结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述生成模块包括:生成单元,所述生成单元根据所述初筛差异表达基因生成差异表达基因事务集;第一确定单元,所述第一确定单元根据所述差异表达基因事务集确定频繁项集;第二确定单元,所述第二确定单元根据所述频繁项集和所述基因事务集确定所述初筛差异表达基因对应的关联规则。第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述步骤。第四方面,本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述方法。在本发明实施例中,本发明通过获取待筛选基因表达量;对所述待筛选基因表达量进行初步筛选,得到初筛差异表达基因;生成所述初筛差异表达基因对应的关联规则;基于所述关联规则,从所述初筛差异表达基因中筛选差异表达基因的方式,建立了关联规则,实现对初筛差异表达基因进行再筛选,得到精度更高的差异表达基因的同时,还节省了对初筛差异表达基因逐一实验所需大量的人力物力。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的一种差异表达基因筛选方法流程图;图2为图1中步骤s102的方法流程图;图3为图1中步骤s103的方法流程图;图4为图3中步骤s301的方法流程图;图5为图1中步骤s104的方法流程图;图6为图5中骤s502的方法流程图。图7为本发明实施例提供的一种差异表达基因筛选装置模块示意图;图8为本发明实施例提供的生成模块内部单元示意图。图标:10-获取模块;20-初筛模块;30-生成模块;40-筛选模块;31-生成单元;32-第一确定单元;33-第二确定单元。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。根据本发明实施例,提供了一种差异表达基因筛选方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本发明实施例的差异表达基因筛选方法,如图1所示,该方法包括如下步骤:步骤s101,获取待筛选基因表达量;在本发明实施例中,带筛选基因表达量包括实验对象的实验组数据及对照组数据,例如:对八只小鼠中的四只实验药物,另外四只注射生理盐水,记录这八只小鼠在预设时间段的基因表达量,以此形成基因表达量的初始数据。步骤s102,对待筛选基因表达量进行初步筛选,得到初筛差异表达基因;在本发明实施例中,首先需要对待筛选基因表达量进行初步筛选,传统方法中已经存在很多方式对待筛选基因表达量进行筛选,例如r语言中基于主流研究方法封装好的affy、limma、pheatmap、ggplot2等软件包,为进行差异基因筛选提供了不少的便利,本发明对此不做限定,具体使用方法可以依据实际情况而定,基于步骤s102,对待筛选基因表达量进行初步筛选,得到初筛差异表达基因,本发明还提供了一种实施方式,如图2所示,包括:步骤s201,获取待筛选基因表达量的表达矩阵、分组矩阵和差异比较矩阵;在本发明实施例中,基因表达数据通常利用矩阵形式表示,称为基因表达矩阵。基因表达矩阵的行代表一个基因在不同环境条件下或不同时间点的表达,列代表不同条件或样本下(如组织、实验条件、处理因素等)所有基因的表达情况,每个格子的数据表示特定的基因在特定的样本中的表达水平,之后建立分组矩阵与差异比较矩阵,假设有实验组(y)与对照组(p)的数据,将数据分组后,差异比较矩阵中元素为差异倍数fc:步骤s202,根据表达矩阵、分组矩阵和差异比较矩阵进行差异表达基因分析,得到初筛差异表达基因。利用表达矩阵、分组矩阵和差异比较矩阵对差异表达基因进行分析得到初筛差异表达基因,其中差异表达矩阵形式如下:x6h.p1x6h.p2……a2a432ab……a2a863cd…………………………其中a、b、c、d均为差异倍数fc,列为时间段,行为实验组和对照组。分组矩阵如下:casecontrolx6h.p101x6h.p201………其中case为实验组,即加入药物的组,control为对照组,即加入生理盐水的组别,0代表否,1代表是,看基因是否显现出差异性表达,最后再通过差异比较矩阵可以计算得到实验则与对照组的比值。然后可以借助计算机预设的程序对矩阵进行运算,具体选用的方法可以依据实际情况而定,本发明中通过根据表达矩阵、分组矩阵和差异比较矩阵得到差异表达指标,通过差异表达指标对基因进行筛选得到初筛基因,具体实现流程如下所示:先使用limfit函数拟合模型:limfit有两个主要参数,即为上述表达矩阵和分组矩阵,分组矩阵本质上是指示矩阵。然后采用contrasts实验对比:一旦使用适当的分组矩阵拟合线性模型,拟合模型和差异对照矩阵可用contrasts.fit计算感性兴趣对比的倍数变化和t统计量,这可以计算实验中所有可能的成对比较。最后使用bayes评估差异表达:在拟合实验对比线性模型之后,使用bayes或使用简单的经验贝叶斯模型来调节标准误差。第一步经过初筛的表达基因结果如下:logfcaveexprtp.valueadj.p.valbchangep049192.8518.638.661.934979e-.050.04682.833upq9epk21.2816.326.811.139044e-040.13391.494not……………………步骤s103,生成初筛差异表达基因对应的关联规则;在本发明实施例中,传统方法中已经存在很多方式对待筛选基因表达量进行筛选,例如r语言中基于主流研究方法封装好的affy、limma、pheatmap、ggplot2等软件包,为进行差异基因筛选提供了不少的便利,但是由于适用范围的差异使得筛选结果参差不齐,所以需要对初筛差异表达基因进行进一步筛选,基于步骤s103,生成初筛差异表达基因对应的关联规则,本发明还提供了一种实施方式,如图3所示,包括:步骤s301,根据初筛差异表达基因生成差异表达基因事务集;在本发明实施例中,根据初筛差异表达基因生成一个表达基因事务集,表达基因事务集的每一列即一个事务,可以设置成一列为一个时间段内的表达基因,将表达基因以特定形式表示,具体的表现形式基于步骤s301,根据初筛差异表达基因生成差异表达基因事务集,本发明还提供了一种实施方式,如图4所示,包括:步骤s401,获取初筛差异表达基因对应差异表达倍数fc划分强度类别;在本发明实施例中,按fc的值划分为6个强度(上调:a/aa/aaa;下调:b/bb/bbb),每一个初筛差异表达基因对应一个强度。步骤s402,基于初筛差异表达基因,根据强度类别,生成差异表达基因事务集。在本发明实施例中,每一个初筛差异表达基因对应一个强度,根据的初筛差异表达基因及其对应的强度生成一个表达基因事务集,表达基因事务集的每一列即一个实务,行为时间段,例如:在预设的七个时间段内存在153个初筛差异表达基因,生成的事务集如下表所示:步骤s302,根据差异表达基因事务集确定频繁项集;在本发明实施例中,可以通过采用apriori算法思路根据差异表达基因事务集确定频繁项集,首先第一次扫描事务集时,产生1-频繁项集,比如4个{p04919aa}、3个{o35218bb}。在此基础上经过连接、修剪产生2-频繁项集,比如2个{p04919aa、o35218bb}。以此类推,直到无法产生更高阶的频繁项集为止,然后在第k次循环中,也就是产生k-频繁项集的时候,首先产生k-候选集,k-候选集中每一个项集都是对两个只有一个项不同的属于k-1频繁项集的项集连接产生的。比如5-候选集{p04919a、q9wuk2b、q9cww6bb、p01654a、q9es52bb}是由两个4-候选集{p04919aa、q9wuk2b、q9cww6bb、p01654a}和{p04919aa、q9wuk2b、q9cww6bb、q9es52bb}连接产生的,筛选后产生k-频繁项集。步骤s303,根据频繁项集和基因事务集确定初筛差异表达基因对应的关联规则。在本发明实施例中,频繁项集挖掘是数据挖掘研究课题中一个很重要的研究基础,它可以告诉我们在数据集中经常一起出现的变量,为可能的决策提供一些支持,频繁项集挖掘是关联规则挖掘任务的基础,本发明实施例根据频繁项集和事务集确定初筛差异表达基因对应的关联规则,以便后续使用关联规则对初筛差异表达基因进行再筛选得到更加精确的差异表达基因。步骤s104,基于关联规则,从初筛差异表达基因中筛选差异表达基因。在本发明实施例中,需要确定关联规则,基于步骤s104,基于关联规则,从初筛差异表达基因中筛选差异表达基因,本发明还提供了一种实施方式,如图5所示,包括:步骤s501,根据事务集确定所述关联规则的支持度;步骤s502,根据频繁项集确定所述关联规则的置信度;在本发明实施例中,关联规则可以根据两个标准来衡量,即支持度和置信度,假设有关联规则r,关联规则r的支持度是交易集同时包含x和y的交易数与|d|之比。即:其中支持度反映了x、y同时出现的概率,d表示事务集中的项数。对于关联规则r,置信度是指包含x和y的交易数与包含x的交易数之比。即:其中置信度反映了如果交易中包含x,则交易包含y的概率。步骤s503,根据支持度、置信度及相应的提升度,从初筛差异表达基因中筛选差异表达基因;在本发明实施例中,建立支持度与置信度的关联规则,然后需要利用提升度对关联规则进行筛选,筛选得到有效的关联规则,可以称之为强关联规则,基于步骤s502,根据支持度、置信度及相应的提升度,从初筛差异表达基因中筛选差异表达基因,本发明还提供了一种实施方式,如图6所示,包括:步骤s601,根据置信度比支持度确定提升度步骤s602,获取预设的提升度阈值;步骤s603,利用提升度大于阈值的支持度和置信度在初筛差异表达基因中筛选差异表达基因。在本发明实施例中,利用支持度和置信度确定提升度,所述提升度可以用来判断支持度与置信度的关联规则是否有效,具体计算公式如下:一般设置提升度阈值为1,当提升度大于1时,即判定置信度与支持度是相关的,确定关联规则为实验所需,即可根据此条关联规则进行再筛选过程;若提程度小于等于1,则说明置信度与支持度没有关联,不能形成关联规则,再得到有效的关联规则之后,即强关联规则,从频繁项集中可以再筛选出精度筛选的差异表达基因,比传统单一使用初步筛选的步骤得到进一步筛选更加准确的差异表达基因。基于上述方法代替传统方法在得到初筛差异表达基因后需要逐一对其进行实验分析从而确定是否为实验所需样本,不仅任务量增加,且浪费资源,效率低。通过事务集与频繁项集的建立,确定支持度与置信度,从而确定关联规则,再通过支持度与置信度对应的提升度作为关联规则的筛选条件,最终利用有效的关联规则再频繁项集中确定更加精确的差异表达基因。本发明实施例还提供了一种差异表达基因筛选装置,该差异表达基因筛选装置主要用于执行本发明实施例上述内容所提供的差异表达基因筛选方法,以下对本发明实施例提供的差异表达基因筛选装置做具体介绍如图7所示,包括:获取模块10,获取模块10用于获取待筛选基因表达量;初筛模块20,初筛模块20用于对待筛选基因表达量进行初步筛选,得到初筛差异表达基因;生成模块30,生成模块30用于生成初筛差异表达基因对应的关联规则;筛选模块40,筛选模块40基于关联规则,从初筛差异表达基因中筛选差异表达基因。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。在本发明实施例的又一实施例中,如图8所示,生成模块30包括:生成单元31,生成单元31根据初筛差异表达基因生成差异表达基因事务集;第一确定单元32,第一确定单元32根据差异表达基因事务集确定频繁项集;第二确定单元33,第二确定单元33根据频繁项集确定初筛差异表达基因对应的关联规则。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本发明实施例还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述步骤。本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述方法。另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本
技术领域:
的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。当前第1页12