本发明属于基因诊断领域,更具体地,本发明涉及肿瘤诊断标志物的筛选方法、以该方法获得的乳腺癌肺转移相关基因及其应用。
背景技术:
:肿瘤的产生是一个长期的基因突变逐渐积累的过程,由积累的基因突变驱动肿瘤的发生与发展。随着现代医学手术,放疗以及化疗技术的发展,特别是一些肿瘤靶向药物的出现,对原发肿瘤的治疗取得重大的进展。然而,肿瘤患者一旦出现复发和转移,其生存率就会大幅下降。实际上,约90%的肿瘤患者死于肿瘤的复发和转移。因此,筛选肿瘤转移和复发相关的基因,对原发肿瘤患者准确的进行转移或复发的可能性评估就显得非常重要。侵袭和转移是恶性肿瘤的基本生物学特征,也是肿瘤患者死亡的主要原因。肿瘤的转移包括局部侵袭、内渗进入邻近的血管或淋巴管、在循环系统内的生存及运输、从循环系统的管腔外渗到远端组织、在远端组织克隆形成可见的肿瘤。肿瘤的转移是肿瘤细胞、宿主细胞和肿瘤微环境之间一系列复杂的相互作用,相互影响的连续过程,多个基因,多条通路,多种细胞因子参与了整个的侵袭和转移的复杂过程。已有的研究表明,肿瘤原发组织中已经包含可以预测转移性或复发性的基因变化趋势,通过大范围的表达谱分析肿瘤原发组织中基因变化过程就可以筛选出用于表征肿瘤患者出现转移或复发可能性的生物分子标志物。现有筛选与展示肿瘤患者转移或复发标记物的方法主要有两种。一种是单个基因的展示方法。该方法是按单个基因的表达量(高表达,低表达)来表征某基因在转移或复发中的作用(如图1A所示)。肿瘤的转移是一个非常复杂的过程,单个基因的功能可能无法完全展示整个转移的复杂性,所以单个基因也无法准确预测肿瘤转移或复发的可能性。第二种方法是多个基因的cluster聚类分 析(如图1B所示)。这种方法是通过多个基因聚类的方式,将肿瘤患者分成两类,然后分析这两类病人出现转移或复发的可能性。这种分析很好的描述肿瘤发生过程中涉及的多个基因的组合过程,在肿瘤转移或复发相关性的描述中发挥重要的作用。但这种方法无法描述其中某单个基因对肿瘤转移复发的作用,并且无法确定单个基因高低对转移过程的贡献大小,同时该方法也不能清楚的展示多个基因之间的协同作用关系。因此,虽然这两种展示方法在基础研究肿瘤转移复发的相关性时是可取的,但在实际临床的应用中,作为肿瘤转移或复发的生物标志分子有明显的局限性。乳腺癌是发病率第一的常见女性恶性肿瘤类型,严重影响女性的身体健康。随着乳腺癌手术技术的提高,激素治疗(如:tamoxifen,他莫昔芬),以及HER2单克隆抗体(如:Trastuzumab,赫赛汀)的出现,90%的原发乳腺癌患者得到很好的治愈。然而乳腺癌患者一旦出现转移或复发,其生存率就下降到不足10%。已有的临床资料表明,乳腺癌的转移过程具有组织器官的特异性,大部分的肿瘤患者会转移到骨,肺,脑等器官。及时预测乳腺癌患者的转移趋势对肿瘤病人的后期治疗具有至关重要的作用。技术实现要素:本发明的目的在于提供一种肿瘤诊断标志物的筛选方法、以该方法获得的乳腺癌肺转移相关基因及其应用。在本发明的第一方面,提供一种多基因性疾病标志物的筛选方法,所述方法包括:(1)提供一组预后已知的多基因性疾病患者疾病组织的基因表达谱,其中包括n例患者的m个基因的表达谱;其中n是大于10的正整数,m是大于100的正整数;以表达谱中每一基因的表达量为基础,分别将n例患者划分为该基因高表达组和该基因低表达组,分别比较针对每一基因所分成的两组患者的疾病预后情况,发生统计学上差异的则认为该基因的高或低表达与相关预后有关联,获得一系列与相关预后有关联的基因;(2)对(1)获得的一系列与相关预后有关联的基因进行Pathway分析,获得这些基因的相互作用模式,确定在相互作用模式中处于关键节点的基因;(3)(2)获得的处于关键节点的基因构成一个用于诊断或预后的多基因性疾病标志物的组合。在一个优选例中,所述的疾病标志物的筛选方法为非疾病诊断或治疗方法。在另一优选例中,n是大于50的正整数,更佳地n是大于100的正整数(如200,500,1000);或m是大于1000的正整数,更佳地m是大于10000的正整数(如15000,20000,30000,50000)。在另一优选例中,所述的相关预后包括:疾病发生,疾病恶性化,疾病复发性,疾病的转移性,疾病的药物敏感性。在另一优选例中,所述的以表达谱中每一基因的表达量为基础、分别将n例患者划分为该基因高表达组和该基因低表达组包括:针对每一基因,统计在该n例患者的表达谱中表达平均值,n例患者中该基因高于该平均值的划入高表达组,该基因低于该平均值的划入低表达组。在另一优选例中,所述的预后已知的疾病患者的基因表达谱来自于NCBI的公共数据库中;TCGA的公共数据库;或能下载的互联网病人样本基因表达数据库。在另一优选例中,所述的Pathway分析采用采用Ctoscape软件中的GeneMANIA插件。在另一优选例中,所述的多基因性疾病包括:肿瘤,糖尿病,神经退行性疾病;较佳地,所述的肿瘤包括:乳腺癌,白血病,肺癌,肝癌,结肠癌,前列腺癌,卵巢癌,胰腺癌。在本发明的另一方面,提供一种基因组合在制备用于乳腺癌肺转移诊断或预后的试剂或试剂盒中的应用;所述的基因组合包括如下基因:FOXA1,HIF1A,EGFR,IL8和JUND。在本发明的另一方面,提供特异性检测FOXA1,HIF1A,EGFR,IL8和JUND的试剂的用途,用于制备乳腺癌肺转移诊断或预后的试剂盒。在本发明的另一方面,提供一种用于对乳腺癌肺转移进行诊断或预后的试剂盒,所述试剂盒中包括:特异性检测FOXA1表达水平的试剂;特异性检测HIF1A表达水平的试剂;特异性检测EGFR表达水平的试剂;特异性检测IL8表达水平的试剂;和特异性检测JUND表达水平的试剂;较佳地,用于检测表达水平的试剂包括:特异性引物或探针,或特异性抗体。在本发明的另一方面,提供一种对乳腺癌肺转移进行诊断或预后的方法,所述方法包括:(1)检测受试者肿瘤组织(较佳地,检测的是未转移的原发肿瘤组织)中FOXA1,HIF1A,EGFR,IL8和JUND的表达水平;若FOXA1、JUND高表达且HIF1A、EGFR、IL8低表达,则该受试者预后为乳腺癌肺转移低转移率;若FOXA1、JUND低表达且HIF1A、EGFR、IL8高表达,则该受试者预后为乳腺癌肺转移高转移率。本发明的其它方面由于本文的公开内容,对本领域的技术人员而言是显而易见的。附图说明图1、现有的两种展示肿瘤患者转移复发及生存率的生物标志分子的方法。(A)通过单个基因表达量的高低将肿瘤病人分成两组(左图),然后比较这两组肿瘤患者发生转移或复发的概率(右图)。(B)通过多个基因的cluster聚类分析,将肿瘤病人分成两组(左图)。然后比较这两组肿瘤患者发生转移或复发的概率(右图)。图2、筛选参与乳腺癌肺转移的相关基因并分析基因之间的相互作用。以NationalCenterforBiotechnologyInformation(NCBI)公共的芯片表达数据库GeneExpressionOmnibus(GEO)为基础,本发明人选取三套常用的具有肺转移时间点的乳腺癌病人表达谱实验数据,GSE2034(Lancet,2005),GSE2603(Nature,2005)和GSE5327(PNAS,2007)。本发明人以GSE2603为筛选对象, 寻找可能的乳腺癌肺转移相关基因。然后通过GSE2603,GSE2034以及GSE5327这三组数据进行单基因,及多基因之间组合分析,从而确定最佳的乳腺癌肺转移相关的肿瘤标记分子。首先,以GSE2603数据为基础,分析单个基因对肿瘤转移的作用。以单个基因的表达量高低进行病人样本分组,筛选出所有的可以区分肺转移概率高低的基因(如图1A所示)。本发明人共得到705个(p<0.01)与乳腺癌肺转移相关的基因。这705个基因具体见附表。以这705个基因作为输入数据,通过cytoscape软件对这些基因进行生物学pathway的展示分析。图3、筛选参与乳腺癌肺转移的重要节点。对图2中乳腺癌肺转移相关基因pathway分析中的重要的生物学功能节点进行进一步的展示。共11个重要的节点。这11个节点包括ESR1(estrogenreceptor,雌激素受体),AR(androgenreceptor,雄激素受体),FOXA1(forkhead蛋白),TP53(tumorprotein,肿瘤抑制蛋白p53),HIF1A(Hypoxiainduciblefactor,低氧诱导因子1),EGFR(epidermalgrowthfactorreceptor,表皮生长因子受体),NF-κB(nuclearfactor-kappaB,核因子κB),SMAD4(SMADfamilymember4,SMAD家族4),IL8(Interleukin8,白介素8),JUND(AP1,激活蛋白1),GATA3(GATAbindingprotein3,GATA结合蛋白3)。以某节点为中心,其周围有多个转移相关的基因与其相互作用,相互联系。图4、乳腺癌肺转移的相关重要节点基因在临床病人样本中的表达量分析。整合GSE2034(Lancet,2005),GSE2603(Nature,2005),和GSE5327(PNAS,2007)三套芯片数据,共404例乳腺癌患者,按照单个关键节点基因ESR1,AR,FOXA1,HIF1A,EGFR,IL8,JUND和GATA3的mRNA表达高低,将404例病人分为该基因高表达和低表达两组。n表示每组中的病人样本数。Pro表示该组病人样本出现肺转移的可能性。P值表示这两组乳腺癌病人在肺转移时间上的差异显著性。图5、乳腺癌肺转移的相关重要节点基因在乳腺癌细胞系中的表达量分析。在10种常用的乳腺癌细胞系中,通过荧光实时定量RT-PCR的方法检测 ESR1,AR,FOXA1,HIF1A,EGFR,IL8,JUND和GATA3的mRNA表达量。其中MCF10A是永生化,非成瘤乳腺细胞;BT474,MCF7,是非转移,雌激素受体阳性乳腺癌细胞;MDA-MB-453,SKBR3为非转移,雌激素受体阴性乳腺癌细胞;SUM159,MDA-MB-435,BT549,MDA-MB-231,以及LM2-4175都是转移性的乳腺癌细胞。所有基因的mRNA表达量以MCF10A为对照,以GAPDH的含量作为标准化内参。图6、以ESR1,AR,FOXA1,EGFR,HIF1A这5个基因的高低表达进行组合,分析其对乳腺癌肺转移的影响。以GSE2034,GSE2603和GSE5327所有的共404例乳腺癌患者为基础,按ESR1,AR,FOXA1,EGFR,HIF1A这5个基因的mRNA表达高低进行组合,分析各种组合对乳腺癌肺转移的影响。1代表基因的高表达,0代表基因的低表达。组合分析中去掉病人数小于3例的组合。共得到15种组合,包括389例病人。其中每组病人都有特异的基因表达模式以及肺转移的趋势。以00001(n=13,pro=0.604)为例,说明这一组有13例病人,这组病人的特征是ESR1,AR,FOXA1,EGFR低表达,而HIF1A高表达。这组病人发生肺转移的可能性为60.4%。图7、以FOXA1,HIF1A,EGFR,IL8,JUND这5个基因的高低表达进行组合,分析其对乳腺癌肺转移的影响。以GSE2034,GSE2603和GSE5327所有的共404例乳腺癌患者为基础,按FOXA1,HIF1A,EGFR,IL8,JUND这5个基因的mRNA表达高低进行组合,分析各种组合对乳腺癌肺转移的影响。1代表基因的高表达,0代表基因的低表达。组合分析中去掉病人数小于3例的组合。共得到20种组合,包括379例病人。以00110(n=5,pro=0.53)为例,说明这组病人的基因表达特征为FOXA1低表达,HIF1A低表达,EGFR高表达,IL8高表达,JUND低表达。这样的病人共有5例,其出现肺转移的概率为53%。图8、FOXA1,HIF1A,EGFR,IL8,JUND对乳腺癌肺转移的影响的权重分析。A:以图7中的20种病人组合为基础,本发明人这20种组合分为三组,一组病人90%的概率不会出现肺转移(0.9≤probability≤1),共8种组合,包括147例病人(上图);一组病人90%的概率会发生肺转移(0≤probability≤0.1),共4种组合,包括84例病人(下图);而第三组病人发生肺转移的概率介于两者之间,共8种组合,包括148例病人。B:对低转移和高转移组病人样本进行统计分析。低转移组病人基本符合FOXA1高表达,EGFR低表达,HIF1A低表达,IL8低表达,JUND高表达的基因组合模式。高转移组病人基本符合FOXA1低表达,EGFR高表达,HIF1A高表达,IL8高表达,JUND低表达的模式。然而这种模式不是绝对的。以符合该模式的病人样本数除以总病人数,就得到该基因在转移过程中的权重。该权重可以用来衡量某个基因对转移作用的大小。图9、以FOXA1,HIF1A,EGFR,IL8,JUND和GATA3这6个基因的高低表达量进行组合,分析其对乳腺癌肺转移的影响。以GSE2034,GSE2603和GSE5327所有的共404例乳腺癌患者为基础,按FOXA1,HIF1A,EGFR,IL8,JUND和GATA3这6个基因的mRNA表达高低进行组合,分析各种组合对乳腺癌肺转移的影响。组合分析中去掉病人数小于3例的组合。共得到19种组合,包括350例病人。具体实施方式本发明人经过深入的研究,采用新的生物信息学分析思路和方法,结合已有的分析工具,提供了一种新型的肿瘤标志物的筛选方法,该方法可用于从总体上分析疾病发生或导致疾病进展的关键性基因,对于多基因性疾病的分析特别适用。多基因性疾病标志物的筛选本发明所述的方法包括所述方法包括:(1)提供一组预后已知的肿瘤患者的肿瘤组织基因表达谱,其中包括n例患者的m个基因的表达谱;其中n是大于10的正整数,m是大于100的正整数;以表达谱中每一基因的表达量为基础,分别将n例患者划分为该基因高表达组和该基因低表达组,分别比较 针对每一基因所分成的两组患者的肿瘤预后情况,发生统计学上差异的则认为该基因的高或低表达与相关预后有关联,获得一系列与相关预后有关联的基因;(2)对(1)获得的一系列与相关预后有关联的基因进行Pathway分析,获得这些基因的相互作用模式,确定在相互作用模式中处于关键节点的基因;和(3)(2)获得的处于关键节点的基因构成一个用于诊断或预后的肿瘤标志物的组合。作为本发明的优选方式,n是大于50的正整数,更佳地n是大于100的正整数,如200,500,1000。应理解,n可以是更大的数值,一个相对更大的人群对于分析是有利的。作为本发明的优选方式,m是大于1000的正整数,更佳地m是大于10000的正整数,如15000,20000,30000,50000。应理解,m也可以是更大的数值,由于肿瘤是多基因多通路因素导致的,较多数量的基因的分析有利于构造出更为精确的基因之间相互作用网络,获得更为全面的结果。本发明的方法可用于筛选与展示肿瘤,包括但不限于乳腺癌,结肠癌,前列腺癌,肺癌,肝癌,胰腺癌,白血病在内的所有肿瘤患者发生转移复发及生存率的生物分子标志。本发明的方法还可以用来筛选与展示肿瘤以外其它多种疾病相关的生物标志物,前提是该疾病是与多基因性疾病,也即其由多种基因的异常表达所导致的疾病。本发明的方法还可以用来筛选与展示药物的敏感性,特别是预测肿瘤药物的敏感性的分子标记物。本发明的方法还可以用来筛选与展示各种与疾病相关的生物标志物,可以用于制备疾病发生、发展的诊断试剂。本发明人采用新的生物学分析方法,采纳吸收现有技术中两种方法(单个基因的展示方法和多基因的cluster聚类分析)的特长,同时避免上述两种方法在临床应用上的局限,既可以展示基因表达量的高低对转移的影响,同时又展示多个基因之间的相互作用关系。因此,本发明的新方法可以有效的,准确的预测肿瘤转移或复发的可能性。乳腺癌预后标记物在该发明中,采用新的生物信息学分析思路和方法,结合已有的常用的具有肺转移随访时间点的乳腺癌病人mRNA表达谱实验数据,本发明人发现,现有的临床上采用的以雌激素受体,孕激素受体,表皮生长因子受体的乳腺癌分类方式是不全面的。鉴于此,采用新的筛选方法,本发明人筛选出FOXA1(forkhead蛋白1),HIF1A(Hypoxiainduciblefactor,低氧诱导因子1),EGFR(epidermalgrowthfactorreceptor,表皮生长因子受体),IL8(Interleukin8,白介素8),JUND(AP1,激活蛋白1)5个与乳腺癌肺转移相关的特征基因,该5个基因的组合能准确、快速地预测出乳腺癌发生肺转移的可能性。因此,FOXA1,HIF1A,EGFR,IL8,JUND这5个基因的表达量的组合分析可以用于制备诊断乳腺癌肺转移的诊断试剂中的用途。以FOXA1,HIF1A,EGFR,IL8,JUND单个基因,或基因组合为靶点,可以用于制备乳腺癌治疗药物试剂的用途。特别是用于制备乳腺癌肺转移治疗药物的试剂或药物组合试剂盒的用途。并且本发明人发现FOXA1,HIF1A,EGFR,IL8,JUND这5个基因对乳腺癌转移的影响大小是不同的。可以采用新的基因权重的方法,来衡量这些基因在转移中的作用。基于本发明人的上述新发现,本发明还提供了特异性检测所述FOXA1,HIF1A,EGFR,IL8和JUND的检测试剂的用途,用于制备乳腺癌肺转移诊断或预后的试剂盒。用于检测表达水平的试剂包括但不限于:特异性引物或探针,或特异性抗体。作为本发明的优选方式,所述的特异性检测所述FOXA1,HIF1A,EGFR,IL8和JUND的检测试剂是抗体。制备抗体的技术是本领域中众所周知的。本发明的抗体可以是对FOXA1,HIF1A,EGFR,IL8和JUND的多肽具有特异性的单克隆抗体。单克隆抗体可以利用杂交瘤技术来制备(见Kohler等人,Nature256;495,1975;Kohler等人,Eur.J.Immunol.6:511,1976;Kohler等人,Eur.J.Immunol.6:292,1976;Hammerling等人,InMonoclonalAntibodiesandTCellHybridomas,Elsevier,N.Y.,1981)。所述单克隆抗体也可以利用FOXA1,HIF1A,EGFR,IL8和JUND的多肽或片段或功能区,通过免疫技术获得。此外,还可以利用重组方法制备或利用多肽合成仪合成。所述的抗体也可以是FOXA1,HIF1A,EGFR,IL8和JUND的多肽有特异性的多克隆抗体。所述的 多克隆抗体可通过常规的方法来制备,例如,可通过将所述的述FOXA1,HIF1A,EGFR,IL8和JUND多肽导入动物中来获得。此外,特异性针对FOXA1,HIF1A,EGFR,IL8和JUND的引物或探针也可作为检测FOXA1,HIF1A,EGFR,IL8和JUND转录或表达的试剂,本领域技术人员了解引物和探针的设计和制备方法。下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件如J.萨姆布鲁克等编著,分子克隆实验指南,第三版,科学出版社,2002中所述的条件,或按照制造厂商所建议的条件。材料和方法1、主要试剂和试剂盒胎牛血清(FBS)和L-15细胞培养液购自美国Invitrogen公司。RNA抽提TRIZOL试剂购自Gibco公司。ProteinInhibitorCocktail购买自Roche公司。DMEM,DMEM-F12细胞培养液购自美国Invitrogen公司。MCF10A培养液购自Lonza/Clonetics公司。PCRcleanupkit购自Axygen公司。反转录试剂盒(SuperScriptTMIIReverseTranscriptase)为Invitrogen公司产品。RNase-FreeDNaseSet试剂盒为Qiagen公司产品。2、细胞系、培养条件细胞系为乳腺癌细胞系MDA-MAB-231,以及来源于MDA-MB-231细胞,具有特异性肺转移的LM2-4175细胞。MDA-MB-231细胞购于中国科学院细胞库。LM2-4175由纽约斯隆凯瑟琳癌症纪念医院提供。MDA-MB-231以及LM2-4175用L15培养基与10%胎牛血清(FBS)混合培养细胞,放置于37℃、含5%CO2的、饱和湿度的细胞培养箱中。乳腺永生化细胞MCF10A购自TheGlobalBioresourceCenter(ATCC)。乳腺癌 BT474,MCF7,MDA-MB-453,SKBR3,SUM159,MDA-MB-435,BT549细胞购自中国科学院细胞库。其中MCF10A采用Lonza/Clonetics公司提供的特异性MCF10A培养液。SKBR3采用DMEM-F12培养基,BT474,MCF7,MDA-MB-453,SUM159,MDA-MB-435和BT549采用DMEM培养基。各种培养基与10%胎牛血清混合培养细胞,放置于37℃、含5%CO2的、饱和湿度的细胞培养箱中。3、RNA提取和纯化常规方法抽提细胞的RNA,用凝胶电泳的方法检测RNA质量,NanoDrop仪器检测RNA浓度。使用QIAGENRNeasyminikit试剂盒进行RNA纯化。4、荧光实时定量RT-PCRmRNA提取纯化后,反转录成cDNA(Promega)。荧光实时定量RT-PCR使用SYBRGreenI染料(AppliedBiosystem,FosterCity,CA),在荧光定量RT-PCR仪ABI7900(AppliedBiosystems)热循环检测系统上进行。RealtimePCR:反应体系包括1μl水,1μM的正向引物1μl,1μM的反向引物1μl,SYBRMasterMix5μl,模板2μl。以GAPDH的含量作为标准化对照。实验所检测的基因及其引物如表1(F代表正向引物,R代表反向引物)。表1基因名称引物序列(5’-3’)SEQIDNO:AR-FCCAGGGACCATGTTTTGCC1AR-RCGAAGACGACAAGATGGACAA2JUND-FTCATCATCCAGTCCAACGGG3JUND-RTTCTGCTTGTGTAAATCCTCCAG4HIF1A-FGAACGTCGAAAAGAAAAGTCTCG5HIF1A-RCCTTATCAAGATGCGAACTCACA6EGFR-FAGGCACGAGTAACAAGCTCAC7EGFR-RATGAGGACATAACCAGCCACC8ESR1-FCCCACTCAACAGCGTGTCTC9ESR1-RCGTCGATTATCTGAATTTGGCCT10FOXA1-FGCAATACTCGCCTTACGGCT11FOXA1-RTACACACCTTGGTAGTACGCC12IL8-FAGGACAAGAGCCAGGAAGAA13IL8-RGGGTGGAAAGGTTTGGAGTA145、芯片数据分析本发明所采用的乳腺癌患者表达谱实验数据都来自NCBI公共的芯片表达数据库。来自不同研究所的三套常用的具有肺转移时间点的乳腺癌病人表达谱实验数据GSE2034,GSE2603,GSE5327通过R语言进行分析整合。R语言分析单个基因表达量高低与肺转移的相关性,以及多个基因的高低组合模式与肺转移的相关性。基因表达量的高低的界定:应用本方法的筛选及应用过程中,基因表达高低的描述是基于整个肿瘤病人样本群体的平均水平来评判,即以该病群体某基因表达的平均值为基础,高于平均值属于该基因高表达的群体,低于平均值属于该基因低表达的群体。而在实际临床应用中,某基因在肿瘤样本中的高低表达,可以与其癌旁组织相比。也可以通过肿瘤组织的免疫组化样本分析来确定某基因的表达情况。6、肺转移相关基因的Pathway分析肺转移相关基因的Pathway分析采用的是Ctoscape软件中的GeneMANIA插件。实施例1、筛选参与乳腺癌肺转移的相关基因乳腺癌是发病率第一的常见女性恶性肿瘤类型。乳腺癌的转移过程具有器官的特异性,大部分的肿瘤患者会转移到骨,肺,脑等器官。乳腺癌的肺转移是研究比较详细的生物过程。因此,本发明人以乳腺癌的肺转移为例,筛选与展示乳腺癌患者发生肺转移的生物标志物。首先,鉴于肿瘤转移的复杂过程,本发明人想从整体上了解到底有多少基因可能参与乳腺癌的肺转移过程。从NationalCenterforBiotechnologyInformation(NCBI)公共的芯片表达数据库中,选取了三套常用的具有肺转移 时间点的乳腺癌病人表达谱实验数据:GSE2034(Lancet,2005),GSE2603(Nature,2005)和GSE5327(PNAS,2007)。以GSE2603为筛选对象,寻找可能的乳腺癌肺转移相关基因。GSE2603这套芯片中共有99例乳腺癌患者的20000多个基因的表达谱实验数据。其中82例肿瘤病人有随访的肺转移的复发时间。采用现有的,通过单个基因筛选与展示肿瘤患者转移标记物的方法,本发明人以其中某单个基因的表达量为基础,将82例乳腺癌患者分成两组。该基因高表达的病人为一组,低表达为一组。然后比较这两组乳腺癌患者发生肺转移的概率。如果P值小于0.01,就认为该基因与乳腺癌肺转移相关。通过比较分析,共得到705个与肺转移相关的基因。实施例2、参与乳腺癌肺转移的基因之间的相互作用分析在临床应用的过程中,同时检测分析这705个基因是比较复杂的事情。同时,检测的结果也不能明确的告诉人们这些基因组合的高低与乳腺癌肺转移的关系。那么如何从这705个基因中寻找出具有特征性的,可以代表这705个基因作用的基因呢?本发明人发现,这705基因之间并不是孤立的,而是存在彼此的相互作用。通过cytoscape软件的pathway分析,本发明人得到这705个基因之间的相互作用模式(图2)。在这个模式中,每个基因都同其他的基因相互联系在一起。并且在pathway的分析中,某些基因明显的处于整个网络的节点的位置上。本发明人展示了其中11个重要的节点(图3)。这11个节点包括ESR1(estrogenreceptor,雌激素受体),AR(androgenreceptor,雄激素受体),FOXA1(forkhead蛋白),TP53(tumorprotein,肿瘤抑制蛋白p53),HIF1A(Hypoxiainduciblefactor,低氧诱导因子1),EGFR(epidermalgrowthfactorreceptor,表皮生长因子受体),NF-κB(nuclearfactor-kappaB,核因子κB),SMAD4(SMADfamilymember4),IL8(Interleukin8,白介素8),JUND(AP1,激活蛋白1)和GATA3(GATAbindingprotein3,GATA结合蛋白3)。其中雌激素受体ESR1是已知的乳腺癌分类的分子标记物。临床的研究表明,ESR1阴性的乳腺癌患者更容易发生肺转移。其他的重要的节点分子都有报道跟乳腺癌的转移是相关的。本发明人认为,通过这11个关键的节点分子就可以刻画出整个乳腺癌的肺转移的过程,而通过对这11个关键的节点分子的高低表达的描述,就可以准确的预测出肿瘤病人发生肺转移的可能性。实施例3、乳腺癌肺转移pathway中重要节点基因的表达量的分析为了进一步验证上述11个节点基因的表达量跟乳腺癌肺转移的关系,本发明人扩大了病人样本数。将已有的GSE2603,GSE2034以及GSE5327这三组数据进行组合分析,去除芯片质量不好的病人样本,去除无肺转移随访的病人,共得到404例病人的表达谱实验数据。根据每个基因的表达量的高低,将这404例数据分成两组,然后分析这两组病人发生肺转移的可能性(图4)。结果发现ESR1,AR,FOXA1,HIF1A,EGFR,IL8,JUND和GATA3这8个基因都能很好的将这404例病人分为高转移组和低转移组。并且这两组病人之间有显著的肺转移可能性的差异(p<0.05)。其中ESR1,AR,FOXA1,JUND和GATA3这四个基因的低表达与乳腺癌肺转移相关,而HIF1A,EGFR,IL8这三个基因的高表达与乳腺癌肺转移相关。本发明人发现,TP53,NF-κB和SMAD4这三个基因mRNA表达量的高低跟乳腺癌肺转移无直接关系。为了进一步验证ESR1,AR,FOXA1,HIF1A,EGFR,IL8,JUND和GATA3这8个基因的mRNA表达量跟乳腺癌肺转移的相关性,本发明人在10种常用的乳腺癌细胞系中通过荧光实时定量RT-PCR的方法检测上述基因mRNA表达量(图5)。其中MCF10A是永生化,非成瘤乳腺细胞;BT474,MCF7,是非转移,雌激素受体阳性乳腺癌细胞;MDA-MB-453,SKBR3为非转移,雌激素受体阴性乳腺癌细胞;SUM159,MDA-MB-435,BT549,MDA-MB-231,以及LM2-4175都是转移性的乳腺癌细胞。本发明人发现在ESR1,AR,FOXA1,JUND和GAT3这5个基因在低转移的乳腺癌细胞中高表达,而HIF1A,EGFR,IL8这三个基因在高转移的乳腺癌细胞中高表达。这些结果进一步验证上述8个节点基因跟乳腺癌肺转移的相关性。实施例4、以ESR1,AR,FOXA1,HIF1A,EGFR这5个基因的高低表达量进行组合,分析其对乳腺癌肺转移的影响为了更好的在临床上根据这8个基因的表达量的变化来预测乳腺癌肺转移 的可能性,本发明人从这8个基因中选择了5个基因,按其高表达与低表达进行组合分析。图6显示了ESR1,AR,FOXA1,EGFR,HIF1A这5个基因的组合模式。理论上这样的组合有32组,去除掉小于3例病人的组合之后,本发明人只得到了15种组合,包括389例病人。这说明这5个基因的高低的组合并不是随机产生的。其中1代表该基因的高表达,0代表该基因低表达。以第一种组合00001(n=13,pro=0.604)为例,说明这一组合有13例病人,这组病人的特征是ESR1(0),AR(0),FOXA1(0),EGFR(0)低表达,而HIF1A(1)高表达。这组病人发生肺转移的可能性为60.4%。在这15种组合中本发明人发现,不论ESR1和AR的高低表达情况如何,只要组合之中存在FOXA1的高表达(第三列是1),病人的肺转移的概率都很低。而当FOXA1属于低表达时(第三列是0),这组病人的肺转移的概率都很高。这说明,在肺转移的过程中,FOXA1的功能基本上覆盖ESR1和AR的作用。这结果提示,现有的以雌激素受体为依据的乳腺癌的分类是不完善的。单个基因FOXA1可以取代雌激素受体(ER),以及雄激素受体(AR)的分类作用。并且FOXA1作为激素治疗如他莫昔芬等乳腺癌药物的分子标记物,可以明显的预测乳腺癌激素治疗药物的敏感性,以及出现耐药的可能性。在FOXA1的高表达的组合中,唯一例外的,肺转移概率比较高的组合为00111,即FOXA1高表达,EGFR高表达,HIF1A高表达。这结果说明FOXA1,EGFR,HIF1A这3个基因之间有明显的相互作用。在EGFR和HIF1A高时,FOXA1只能部分抑制乳腺癌的肺转移。实施例5、以FOXA1,HIF1A,EGFR,IL8,JUND这5个基因的高低表达量进行组合,分析其对乳腺癌肺转移的影响实施例4中,本发明人发现,FOXA1的作用基本上覆盖了ESR1和AR的作用,在FOXA1存在的情况下,ESR1和AR的高低对乳腺癌肺转移的分析基本没有影响。本发明人以FOXA1单个基因代替ESR1和AR的作用。因此,以FOXA1,HIF1A,EGFR,IL8,JUND这5个基因的高低组合进行乳腺癌病人肺转移分析(图7)。去除小于3例病人的分组,共得到20种组合,包括379例病人。从结果来看,本发明人得到一组非常适用于临床乳腺癌病人检测的基因高 低组合的模式。对于某个乳腺癌患者来说,只需检测这5个基因的表达量就可以清楚,简单,准确的判断这个病人有没有发生肺转移的可能性。以临床检测的某一病人为例,如果发现该病人FOXA1低表达(0),HIF1A低表达(0),EGFR高表达(0),IL8高表达(0),JUND低表达(1),对应到图中的00110(n=5,pro=0.53)组合,说明该病人出现肺转移的概率为53%。如果发现该病人FOXA1低表达(0),HIF1A低表达(1),EGFR高表达(0),IL8高表达(0),JUND低表达(0),对应到图中的01000(n=15,pro=0)组合,说明该病人出现肺转移的概率为100%,那么该病人就需要及时的随访,以及住院观察治疗。这样,通过FOXA1,HIF1A,EGFR,IL8,JUND这5个人基因的高低表达的组合,本发明人展示了整个404例乳腺癌病人的肺转移的分类。与单个基因的高低分类相比,这种多个基因的组合分析更能准确的描述乳腺癌肺转移这种复杂的生物学过程。与cluster的聚类分析相比,本发明的分析方法,更能准确的描述基因之间的高低表达的关系,更适用于临床病人样本的分析。实施例6、以权重分析某个基因对乳腺癌肺转移的影响的大小为了进一步了解FOXA1,HIF1A,EGFR,IL8,JUND这5个基因对乳腺癌肺转移的作用,本发明人将图7中的20种病人组合分为三组,一组病人90%的概率不会出现肺转移(0.9≤probability≤1),共8种组合,包括147例病人;一组病人90%的概率会发生肺转移(0≤probability≤0.1),共4种组合,包括84例病人;而第三组病人发生肺转移的概率介于两者之间,共8种组合,包括148例病人(图8A)。对低转移和高转移组病人进行统计分析。本发明人发现,低转移组病人中基本符合FOXA1高表达,EGFR低表达,HIF1A低表达,IL8低表达,JUND高表达的基因组合模式。而高转移组病人基本符合FOXA1低表达,EGFR高表达,HIF1A高表达,IL8高表达,JUND低表达的模式。然而这种模式不是绝对的。以符合该模式的病人样本数除以总病人数,就得到该基因在转移过程中的权重。该权重可以来衡量某个基因对转移作用的大小(图8B)。通过这样的权重分析就可以看到,FOXA1,HIF1A,EGFR,IL8,JUND这5个基因对乳腺癌肺转移的作用大小。在低肺转移的病人样本中,FOXA1(0.96)的作用明显高于EGFR(0.73),IL8(0.75),JUND(0.73)。而HIF1A 的低表达对该组病人的低肺转移的贡献基本没有。在高肺转移的病人样本中,FOXA1(1)和EGFR(1)的作用最为明显。而HIF1A(0.83)和JUND(0.82)的作用在其次。通过这样的分析就得出某个基因对乳腺癌转移过程影响的强弱。该分析提示,以FOXA1为靶点的药物可能比以JUND为靶点的药物更全面的抑制乳腺癌肺转移的过程。实施例7、以FOXA1,HIF1A,EGFR,IL8,JUND这5个基因的高低组合分析是最理想的生物学标记物以FOXA1,HIF1A,EGFR,IL8,JUND这5个基因的高低进行乳腺癌病人的肺转移分析,是否已经包含了所有的乳腺癌肺转移的模式呢?理论上来说,用越多的基因进行组合就可能包含越多的肺转移的模式。因此,本发明人在FOXA1,HIF1A,EGFR,IL8,JUND这5个基因的基础上,增加GATA3进行组合分析(图9)。GATA3是一个已经报道的,对乳腺癌肺转移过程有重要调节作用的基因。结果发现,增加GATA3的作用之后,只得到19种组合模式,包括350例病人。并且其组合分析的图形与FOXA1,HIF1A,EGFR,IL8,JUND这5个基因组合分析的图形几乎一致。这个结果表明,FOXA1,HIF1A,EGFR,IL8,JUND这5个基因的组合分析已经包含了几乎所有的乳腺癌肺转移的模式,再增加基因并不能更好的展示分析乳腺癌的肺转移过程。综上,通过新的筛选与展示肿瘤患者转移复发及生存率的生物分子标志的方法,本发明人确定以FOXA1,HIF1A,EGFR,IL8,JUND这5个基因的组合分析能准确,快速,具体的预测出乳腺癌发生肺转移的可能性。并通过基因权重的方法判断FOXA1,HIF1A,EGFR,IL8和JUND对乳腺癌肺转移影响的大小。实施例8、临床应用实例获得5位临床患者的乳腺癌,制备免疫组化样本(组织芯片),采用ImageScope软件对组织芯片进行扫描,扫描后采用该软件的Algorithms(PositivePixel Count)程序对每个芯片点进行“阳性Pixel”计算。进行基因表达评分。结合FOXA1,HIF1A,EGFR,IL8,JUND这5个基因的表达水平,去预测患者的预后。结果如下:3位患者FOXA1、JUND高表达且HIF1A、EGFR、IL8低表达,因此预后为乳腺癌肺转移低转移率;预后较为乐观,但需定期回访检查,必要时进行治疗。2位患者FOXA1、JUND低表达且HIF1A、EGFR、IL8高表达,因此预后为乳腺癌肺转移高转移率;建议后续进行积极检查和治疗。在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。当前第1页1 2 3