联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法
【技术领域】
[0001] 本发明属于生物医学数据分析技术领域,涉及一种联合mRNA和microRNA表达谱 芯片的肿瘤特征基因选择方法。
【背景技术】
[0002] 目前快速发展的基因芯片技术具有高通量的优势,它为肿瘤研究提供了一种系统 性的研究手段。肿瘤的病因复杂,涉及基因组水平、基因调控水平和表观遗传水平的改变, 利用传统的方法难以全面展开研究,基因芯片技术可以用来区别多种常见肿瘤的分类标 志,用于帮助发现肿瘤的新分型以及与肿瘤相关的新的疾病生物标记,因此采用基因芯片 技术有明显的优势。
[0003]mRNA表达谱芯片能一次检测成千上万个基因的表达值,是最早用于肿瘤研究的基 因芯片产品。1999年,Golub等人[1]率先采用mRNA表达谱芯片对白血病的两种亚型AML 与ALL的分类问题进行了研究。Van't等人[2]将mRNA基因表达谱用于乳腺癌的诊断中, 利用包含70个基因的表达谱,区分预后好和预后差的亚型,效果好于临床参数。
[0004] 继mRNA表达谱芯片之后,microRNA表达谱芯片成为肿瘤新的研究热点。microRNA 是在真核生物中发现的一类内源性的具有调控功能的非编码RNA,其大小长约20~25个核 苷酸,microRNA通过阻断翻译或诱导靶mRNA降解,在转录后水平调苄基因表达,从而精细 地调节多种生物学过程,包括生长发育、信号转导、免疫调节、细胞死亡、细胞凋亡、细胞周 期、细胞增殖及肿瘤发生等。多数microRNA还具有高度保守性、时序性和组织特异性。人 类肿瘤microRNA表达模式与肿瘤诊断、分期、进展、预后及对治疗的反应密切相关[3]。
[0005] 在基因芯片技术中,一个众所周知的问题是其基因的数目远远大于样品数量。基 因芯片数据具有数据量大,样本数小(一般小于100),基因数量多(一般多于10000)的特 点,给后期的数据分析和处理带来很大的挑战。特征基因选择是基于基因芯片数据分类中 的关键技术[4-9]。基因选择的目的是消除噪声基因,将基因数量减至最小,减少后续的分 类任务中的计算负担,并提高学习模型的预测性能[7]。此外,一个较小的最优基因子集可 能包含着肿瘤生物标志物,且它们与某些肿瘤的表型间的生物学关系可以更方便地在后续 的分子生物学实验中进行验证,从而更好地理解肿瘤发生发展的分子机制[4, 8]。
[0006] 常见的特征选择算法有三种[10],即过滤(Filter)法、缠绕(Wrapper)法和嵌入 (embedded)法。过滤法的评估函数与分类器无关,过滤法的评价函数又可以分为距离测度 [11]、信息测度[12]、相关性测度[13]等。尽管使用过滤器的基因选择方法简单快速,但它 也有几个不足之处:首先,过滤法中的基因选择的标准不一定与分类器直接相关;其次,过 滤法并没有考虑到基因之间的相关性,从而降低了所选定的基因在分类器中的有效性;最 后,过滤法对于最终确定选择多少基因并无有力的理论支持,所选择的基因数量往往是随 意的。
[0007] 缠绕法[14, 15]采用分类器的分类错误率或正确率作为评价函数,缠绕法模式的 基因选择方法在某种程度上可以克服过滤法的上述问题。在缠绕法模式的基因选择方法 中,基因逐个顺序选择,并以优化分类器准确度的方式进行。也就是说,首先使用单个基因 训练分类器,并逐个加入新的基因到训练分类器;该过程持续进行,直到分类器具有足够高 的准确度。与过滤器模式相反,缠绕法模式的基因选择方法采取为特定分类器"量身订做" 的方式。此外,该方法确保新加入的基因与已经选择的基因是互补的,而不是相关的。该方 法还提供了一个停止条件,当选择的基因数量达到所需的准确度时,计算终止。然而,该方 法的一个主要缺点是,其对计算的要求是比较高,特别是当原始的基因集所含基因数目比 较大的情况下。
[0008] 嵌入法[5]考虑到分类器的内部特征(比如支持向量机分类器里的支持向量),能 与分类器较好地耦合,从而具有较高的精确度,但同对参与特征选择的分类器依赖性大,选 择结果适应性差,需要检验选择基因对其他分类器的有效性。
[0009] 尽管研究人员大量采用包括mRNA和microRNA表达谱芯片等多种基因芯片工具, 试图揭示肿瘤发生发展的分子机制,但为数众多的研究往往只是考虑一个平台的数据。比 如说,单独采用mRNA表达谱芯片进行特征基因的选择,并对肿瘤进行分子分类。然而研究 结果显示,肿瘤相关基因不但相互之间存在调控,构成网络,而且也受到包括microRNA等 非编码基因的调控。
【发明内容】
[0010] 本发明提供了一种联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法, 解决了现有技术往往只是考虑一个平台的数据,难以从多层面、多角度揭示肿瘤相关的分 子生物学改变的缺陷,以及单一平台对理解肿瘤的发生、发展机制以及研发诊断、判断预后 的分子标志物和治疗靶标,难以充分发挥有效的作用的问题。
[0011] 本发明的技术方案是,一种联合mRNA和microRNA表达谱芯片的肿瘤特征基因选 择方法,按照以下步骤具体实施:
[0012] 步骤1、通过mRNA和microRNA表达谱芯片检测到大量基因的表达值,采用过滤式 特征基因选择方法对所有基因的相关性进行排序,去除大量的低相关度基因,留下少量与 肿瘤分类密切相关的基因,
[0013] 通过过滤式特征基因选择方法的选择实施,分别去除mRNA和microRNA表达谱芯 片中大量的低相关度基因,留下少量与肿瘤分类密切相关的基因,分别在mRNA和microRNA 表达谱中选取得分最高的η个基因;
[0014] 步骤2、将采用过滤式特征基因选择方法获取的mRNA和microRNA特征基因进行合 并,形成基因池U;
[0015] 步骤3、通过遗传算法,对基因池进一步选择基因,消除冗余基因,搜索获得一个最 优特征的最优基因集S,使其具有更少的基因数量和更好的分类性能。
[0016] 本发明的有益效果是,本发明提出了一个联合mRNA和microRNA表达谱芯片的混 合模型,希望能从多层面、多角度揭示肿瘤相关的分子生物学改变,为理解肿瘤的发生、发 展机制以及研发诊断、判断预后的分子标志物和治疗靶标奠定基础,具体包括:
[0017] 1)联合mRNA和microRNA表达谱芯片各自的优势,获得了分类准确度更高的基因 集;2)获得的基因集既包含mRNA基因,又包含microRNA基因,便于更进一步分析它们之 间的调控关系;3)该方法最终选择的基因可以被认为是更鲁棒性,并且更有资格作为可靠 的生物标志物;4)该混合模型已经包含过滤法和缠绕法,可以综合各类基因选择方法的优 势。
【附图说明】
[0018] 图1是本发明方法的工作原理示意图。
【具体实施方式】
[0019] 下面结合附图和【具体实施方式】对本发明进行详细说明。
[0020] 参照图1,本发明的方法基于联合mRNA和microRNA表达谱芯片的肿瘤特征基因 选择混合模型,该模型的设置是,首先,分别使用多重过滤器在mRNA和microRNA表达谱芯 片中选择各自的特征基因,使用多个过滤器的过滤指标,确保在初始过滤阶段不会排除掉 有用的生物标志物。其次,将获取的mRNA和microRNA特征基因进行合并,形成基因池。最 后,采用遗传算法,进一步选择基因,目的是消除冗余基因,搜索一个最佳的子集,使其具有 更少的基因数量和更好的分类性能。
[0021] 该(肿瘤特征基因选择混合模型)的设置特征是,
[0022] 首先是过滤法选择,设定η=每个过滤器选择的基因数目:
[0023] 采用不同过滤器R,分别计算mRNA和microRNA表达谱芯片原始基因集中所有基 因的得分并排序,选取得分最高的η个基因。
[0024] 其次、将不同过滤器获得的基因进行合并,得到合并基因集U。
[0025] 最后、采用遗传算法,对合并基因集U进一步选择。
[0026] 输入:将合并基因集U作为训练数据集,该训练数据集中包含特征数ηι,采用遗传 算法训练包含特征数&的训练数据集,遗传算法的具体过程如下:
[0027] 1)编码方案。每个个体都是由叫位二进制字符串编码,其中"1"代表选择相应的 基因,而表示未选择。
[0028] 2)适应度函数。适应度函数用来最大限度地减少分类错误率,由一个SVM分类器 评估一个群体中每个个体的分类错误率。
[0029] 3)遗传算子,以轮盘赌选择算子为选择算子,采用一点交叉算子作为交叉算子,并 用位点变异算子作为变异算子。
[0030] 输出最优基因