用于确定前列腺癌诊断和预后的材料和方法

文档序号:5866282阅读:316来源:国知局
专利名称:用于确定前列腺癌诊断和预后的材料和方法
技术领域
本文件涉及用于在细胞中确定基因表达以及用于诊断前列腺癌和评估前列腺癌患者的预后的材料和方法。
背景技术
前列腺癌是男性中最常见的恶性肿瘤,并且是相当多的发病和死亡的原因(Howe 等,(2001) J. Natl. Cancer Inst. 93 =824-842) 0鉴定可以作为前列腺癌以及其他疾病和病症的可靠的早期诊断和预后标志物以及治疗靶的基因,可能是有用的。

发明内容
本文件部分是基于下述发现,即可以鉴定到能够在不存在肿瘤细胞的情况下辨别正常前列腺基质与邻肿瘤基质的RNA表达变化,并且这样的表达变化可用于传递“存在肿瘤”的信号。以前已经开发和验证了从富含前列腺肿瘤的样品的阵列数据中鉴定RNA的细胞类型特异性表达的线性回归方法(参见美国专利公布20060292572和Muart等,(2004) Proc. Natl. Acad. Sci. USA 101 :615_620,二者在此以其全文引为参考)。正如本文中所述, 该方法被扩展到用于评估从正常志愿者的前列腺活检样品和邻肿瘤基质获得的差异表达数据。观察到超过一千个基因表达变化。使用一部分基质特异性基因产生了 131个探针组的分类物,其准确鉴定了大量独立测试病例的肿瘤或无肿瘤状态。这些观察表明邻肿瘤基质表现出较大量的基因表达变化,并可以选择一部分用于在不存在肿瘤细胞的情况下可靠地鉴定肿瘤。在病理判读不确定的富含基质的临床病例活检样品的诊断中,该分类物可能是有用的。本公开内容尤其包括下列(I)RNA生物标志物针对前列腺癌复发的跨多个数据集的广范交叉验证;( 用于产生分类物和将它们在具有混合组织的样品上测试的“双模态”方法;以及C3)用于在即使样品不含肿瘤但具有靠近肿瘤的“反应性基质”区域的情况下,在反应性基质中鉴定能够用作癌症存在的标志物的基因的两种方法。一方面,本文件的特征在于鉴定对象患有或未患前列腺癌的体外方法,所述方法包含(a)提供来自对象的前列腺组织样品;(b)测量样品中前列腺癌特征基因的表达水平;(c)将测量的表达水平与前列腺癌特征基因的参比表达水平进行比较;以及(d)如果测量的表达水平显著高于或低于参比表达水平,将对象鉴定为患有前列腺癌,而如果测量的表达水平不显著高于或低于参比表达水平,将对象鉴定为未患前列腺癌。前列腺组织样品可以不包含肿瘤细胞,或者前列腺组织样品可以包含肿瘤细胞和基质细胞。前列腺癌特征基因可以选自本文表3或表4中列出的基因。方法可以包括确定10个以上前列腺癌特征基因的测量的表达水平是否显著高于或低于所述10个以上前列腺癌特征基因的参比表达水平,以及如果测量的表达水平显著高于或低于参比表达水平,将对象分类为患有可能复发的前列腺癌,或者如果测量的表达水平不显著高于或低于参比表达水平,则将对象分类为患有可能不会复发的前列腺癌。所述10个以上前列腺癌特征基因可选自本文表3或表4 中列出的基因。方法可以包括确定20个以上前列腺癌特征基因的测量的表达水平是否显著高于或低于所述20个以上前列腺癌特征基因的参比表达水平,以及如果测量的表达水平显著高于或低于参比表达水平,将对象分类为患有可能复发的前列腺癌,或者如果测量的表达水平不显著高于或低于参比表达水平,则将对象分类为患有可能不会复发的前列腺癌。所述20个以上前列腺癌特征基因选自本文表3或表4中列出的基因。另一方面,本文件特征在于确定被诊断患有前列腺癌的对象的预后的方法,所述方法包含(a)提供来自对象的前列腺组织样品;(b)测量样品中前列腺癌特征基因的表达水平;(C)将前列腺癌特征基因的测量的表达水平与参比表达水平进行比较;以及(d)如果测量的表达水平不显著高于或低于参比表达水平,将对象鉴定为与测量的表达水平显著高于或低于参比表达水平的情况相比具有相对较好的预后,或者如果测量的表达水平显著高于或低于参比表达水平,则将对象鉴定为与测量的表达水平不显著高于或低于参比表达水平的情况相比具有相对较差的预后。前列腺组织样品可以不包含肿瘤细胞,或者前列腺组织样品可以包含肿瘤细胞和基质细胞。前列腺癌特征基因可以选自本文表8A或8B中列出的基因。另一方面,本文件特征在于鉴定对象患有或未患前列腺癌的方法,所述方法包含 (a)提供来自对象的前列腺组织样品,其中样品包含前列腺基质细胞;(b)测量基质细胞中一个或多个基因的表达水平,其中所述一个或多个基因是前列腺癌特征基因;(C)将所述一个或多个基因的测量的表达水平与参比表达水平进行比较,其中参比表达水平在来自非癌性前列腺组织的基质细胞中测定;以及(d)如果测量的表达水平显著高于或低于参比表达水平,将对象鉴定为患有前列腺癌,而如果测量的表达水平不显著高于或低于参比表达水平,则将对象鉴定为未患前列腺癌。前列腺组织样品可以不包含肿瘤细胞,或者前列腺组织样品可以包含肿瘤细胞和基质细胞。前列腺癌特征基因可以选自本文表3或表4中列出的基因。另一方面,本文件特征在于确定被诊断患有前列腺癌的对象的预后的方法,所述方法包含(a)提供来自对象的前列腺组织样品,其中样品包含前列腺基质细胞;(b)测量基质细胞中一个或多个基因的表达水平,其中所述一个或多个基因是前列腺癌特征基因; (c)将所述一个或多个基因的测量的表达水平与参比表达水平进行比较,其中参比表达水平在来自非癌性前列腺组织的基质细胞中测定;以及(d)如果测量的表达水平不显著高于或低于参比表达水平,将对象鉴定为与测量的表达水平显著高于或低于参比表达水平的情况相比具有相对较好的预后,或者如果测量的表达水平显著高于或低于参比表达水平,则将对象鉴定为与测量的表达水平不显著高于或低于参比表达水平的情况相比具有相对较差的预后。前列腺组织样品可以不包含肿瘤细胞,或者前列腺组织样品可以包含肿瘤细胞和基质细胞。前列腺癌特征基因可以选自本文表3或表4中列出的基因。另一方面,本文件特征在于鉴定对象患有或未患前列腺癌的方法,所述方法包含
(a)提供来自对象的前列腺组织样品;(b)测量样品中一个或多个前列腺细胞类型预测基因的表达水平;(c)根据测量的表达水平确定所述样品中的组织类型百分率;(d)测量样品中一个或多个前列腺癌特征基因的表达水平;(e)根据组织类型百分率和测量的表达水平确定分类物;以及(f)如果分类物落入前列腺癌分类物的预定范围内,将对象鉴定为患有前列腺癌,或者如果分类物未落入所述预定范围内,则将对象鉴定为未患前列腺癌。步骤
(b)和(d)可以同时进行。本文件特征还在于确定被诊断患有前列腺癌并进行过前列腺癌治疗的对象的预后的方法,所述方法包含(a)提供来自对象的前列腺组织样品;(b)测量样品中一个或多个前列腺组织预测基因的表达水平;(c)根据测量的表达水平确定样品中的组织类型百分率;(d)测量样品中一个或多个前列腺癌特征基因的表达水平;(e)根据组织类型百分率和测量的表达水平确定分类物;以及(f)如果分类物落入前列腺癌复发分类物的预定范围内,将对象鉴定为可能复发,或者如果分类物未落入所述预定范围内,则将对象鉴定为可能不复发。步骤(b)和(d)同时进行。另一方面,本文件特征在于鉴定组织样品中两种或更多种组织类型的比例的方法,所述方法包含(a)使用来自动物或植物中与组织样品具有相似解剖位置的、组织比例已知的一组其他样品,其中至少两个其他样品所包含的所述两种或更多种细胞类型每一种的相对含量都不相同;(b)测量每个其他样品中一种或多种基因表达或蛋白质分析物的总体水平;(c)确定其他样品中每种组织类型的相对比例与每种基因表达或蛋白质分析物的测量的总体水平之间的回归关系;(d)选择与其他样品中的组织比例相关的一种或多种分析物;(e)测量组织样品中步骤(d)的一种或多种分析物的总体水平;(f)将组织样品中每种分析物的水平与步骤(d)中分析物的水平进行匹配,以确定组织样品中每种组织类型的预测比例;以及(g)使用所有估算值的中位或平均比例,在步骤(f)中获得的组织样品的预测组织比例中进行选择。组织样品可以包含癌细胞(例如前列腺癌细胞)。另一方面,本文件特征在于在各含一个以上被测样品的两组数据中,比较通过一种或多种与生物现象的变化相关的方法所预测的两种或更多种分析物水平的方法,所述方法包含(a)只选择在两组数据中都被分析的分析物;(b)使用比较法例如与生物现象的变化相关的最高概率或最低假发现率,对每组数据中的分析物进行排序;(c)将步骤(b)中每个排序列表中的一组分析物进行相互比较,选择两个列表中都出现的分析物,并确定在两个列表中都出现并显示出与生物现象相关的水平以相同方向变化的分析物的数量;以及 (d)根据比较的数量将随机显示出观察到的同方向变化的数量的概率,计算一致性分值。在步骤(a)中,可以改变每个列表的长度,以确定两个排序表的最大一致性分值。除非另有定义,否则在本文中使用的所有技术和科学术语具有与本发明所属技术领域中的普通专业人员所通常理解的相同的意义。尽管与本文中描述的相似或等价的方法和材料可用于实践本发明,但下面描述了适合的方法和材料。本文中提到的所有出版物、专利申请、专利和其他参考文献,以其全文引为参考。在有冲突的情况下,以本说明书、包括定义为准。此外,材料、方法和实例仅仅是说明性的而不打算是限制性的。在下面的附图和描述中提出了本发明的一个或多个实施方案的详细情况。根据说明书和附图以及权利要求书,本发明的其他特点、目的和优点将变得显而易见。附图简述图IA是如实施例1中所述,对通过用于基因选择的105倍排列过程获得的339个探针组的关联数所作的图。水平虚线标出关联数=50。使用所有15个正常活检样品和13 个带有最小原发肿瘤的基质病例,选择所有关联数> 50的数据集利用PAM进行训练。图 1B-1E分别是对数据集1-4的肿瘤百分率作出的一系列柱状图。图IB和IC的肿瘤百分率数据由SPECS的病理学家提供,而图ID和IE的肿瘤百分率数据是使用Celll^ed估算的。 图IB中的星号表示数据集1中分类错误的带肿瘤病例。图2A是通过差异表达分析鉴定的基因的Verm图解。图中的“b”、“t”和“a”分别表示正常活检样品、邻肿瘤基质和快速尸检样品。图2B是散点图,显示了基质细胞和肿瘤细胞中160个探针组的差异表达。图2C是基于131个所选诊断探针组,训练组的PCA图。图3A-3D是如本文实施例2中所述,预测的组织百分率和病理学家估算的组织百分率的一系列散点图。X-轴预测的组织百分率;y_轴病理学家估算的组织百分率。图 3A-使用从数据集1产生的模型预测的数据集2的肿瘤百分率。图3B-使用从数据集1产生的模型预测的数据集2的基质百分率。图3C-使用从数据集2产生的模型预测的数据集 1的肿瘤百分率。图3D-使用从数据集2产生的模型预测的数据集1的基质百分率。图4是如本文实施例2中所述,对数据集3的预测组织百分率所作的一系列图。图 4A和4B是预测肿瘤百分率的柱状图,图4C是每个单独样品的肿瘤+基质的百分率图。图5是如本文实施例2中所述,被鉴定为发现在数据集1、2和3中在复发与未复发病例之间差异表达的特定基因的差异强度的一系列散点图。X-轴数据集1中复发对比未复发的强度变化。Y-轴数据集3(图5A和5B)或数据集2(图5C)中复发对比未复发的变化。图5A-数据集1和3共有的与复发相关的肿瘤特异性基因。图5B-数据集1和3 共有的与复发相关的基质特异性基因。图5C-数据集1和2共有的与复发相关的肿瘤特异性基因。图6是使用十折交叉验证,对计算机组织组分预测与病理学家估算相比的差异的平均预测误差率所作的一对图。实心圆形数据集1 ;空心圆形数据集2 ;空心正方形数据集3;空心菱形数据集4。X-轴在预测模型中使用的基因数量。Y-轴平均预测误差率(% )。图6A显示了对肿瘤组分的预测误差率,图6B显示了对基质组分的预测误差率。图7是显示了在公用数据集上组织组分预测的一对图。图7A是从作为富集肿瘤的前列腺癌样品制备的样品产生的219个阵列的计算机预测肿瘤组分(%)的柱状图。X-轴 计算机预测的肿瘤细胞百分率(%)。Y-轴样品频率。图7B是框图,显示了数据集5的未复发和复发的前列腺癌样品组中肿瘤组织组分的差异。X-轴样品组,NR 未复发组;REC 复发组。Y-轴肿瘤细胞百分率(% )。图8是显示了预测的组织百分率和病理学家估算的组织百分率的一系列散点图。 X-轴预测的组织百分率;y_轴病理学家估算的组织百分率。图8A-使用从数据集1产生的模型预测的数据集2的肿瘤百分率。泊松(Pearson)相关系数是0.74。图8B-使用从数据集1产生的模型预测的数据集2的基质百分率。泊松相关系数是0.70。图8C-使用从数据集1产生的模型预测的数据集2的BPH百分率。泊松相关系数是0.45。图8D-使用从数据集2产生的模型预测的数据集1的肿瘤百分率。泊松相关系数是0.87。图8E-使用从数据集2产生的模型预测的数据集1的基质百分率。泊松相关系数是0.78。图8F-使用从数据集2产生的模型预测的数据集1的BPH百分率。泊松相关系数是0. 57。图9是在U133A基因芯片上测量的91个患者病例组与在U133Aplus2平台上测量的独立的86个患者病例组相比,对疾病复发和无病病例之间被称为γ的差异基因表达量的相关性所作的一对图。基因被鉴定为对肿瘤上皮细胞——左图的“Y T”、或基质细胞—— 右图的“ Y S”的差异表达具有特异性。

图10是对受过训练的人类专家与提出的非监督方法之间染色浓度定量之间的相关性所作的图。圆形表示给定组织样品(总共97个样品)的个体分值。线是用于浓度估算的非监督光谱解混的结果。非监督方法在人工标记数据的线性回归的3%之内。图11是在结肠癌组织微阵列上演示的自动获取和可视化的流程图。所需的仅有输入值是扫描面积(x,y,dX,dy)和核心数量。在这些步骤完成之后,图像即准备好用于诊断/计分。“b”中的图像是来自20X物镜的单一视野,“C”是以20X获取的图像的剪辑图。图12是对使用不同样品尺寸(圆形)时鉴定到的基因所作的图。正方形表示最长的基因名单(666个基因,样品尺寸=120)与其他基因名单之间的重叠。其他点(s和t) 表示每个基因名单与使用MLR鉴定到的肿瘤/基质基因之间的重叠。图13A和1 是表示对肿瘤细胞鉴定到的复发相关基因的图,而图13C-13F显示了对基质细胞鉴定到的复发相关基因。圆形表示当使用不同样品尺寸时鉴定到的基因数量。正方形表示参比基因名单与其他基因名单之间的重叠。其他点表示每个基因名单与使用MLR鉴定到的肿瘤/基质基因之间的重叠。图14是使用不同样品尺寸进行差异表达分析时,对100个随机选择的样品进行平均而获得的结果所作的图。正方形、圆形和菱形分别表示特异性、灵敏度和假发现率。详细描述除非另有定义,否则本文中使用的所有技术和科学术语具有与本发明所属技术领域中的专业人员所通常理解的相同的意义。贯穿本文全部公开内容提到的所有专利、专利申请、已发表的申请和出版物、GENBANK 序列、网址和其他发表的材料,除非另有指明,均以其全文引为参考。在本文中的术语存在多个定义的情况下,以本部分中的定义为准。当对 URL或其他这种标识符或地址进行引用时,应该理解互联网上这种标识符的具体信息可能改变,通过搜索互联网能够发现等价的信息。对其进行的引用证明了这些信息的可用性和公共传播性。差异表达包括基因表达程度取决于分化发育和/或肿瘤生长的定量和定性差异两者。差异表达的基因可以代表标志基因和/或靶基因。本文公开的差异表达基因的表达图式可以用作对象的预后或诊断评估的一部分。差异表达的基因的表达图式可用于鉴定样品中特定细胞类型的存在。本文公开的差异表达的基因可用于鉴定试剂和化合物的方法、 这些试剂和化合物在对象治疗中以及治疗方法中的应用。术语“生物学活性”、“生物活性”、“活性”和“生物学功能”可以互换使用,并可以指由多肽(无论处于其天然还是变性构象中)或由其任何片段在体内或体外直接或间接执行的效应子或抗原功能。生物学活性包括但不限于与多肽结合、与其他蛋白质或分子结合、 酶活性、信号转导、作为DNA结合蛋白、作为转录调控物的活性和结合受损DNA的能力。可以通过直接影响对象多肽来调节生物活性。或者,也可以通过调节多肽的水平、例如通过调节相应基因的表达来改变生物活性。术语“基因表达分析物”是指其存在或浓度能够被检测并与基因表达相关联的生物分子。例如,基因表达分析物可以是特定基因的mRNA或其片段(包括例如mRNA剪接副产物和核溶解性切割片段)、特定基因的蛋白质或其片段(包括例如翻译后修饰的蛋白质或从中的副产物,和蛋白水解片段),以及其存在或不存在对应于特定基因的表达的其他生物分子例如糖类、脂类或小分子。基因表达水平是从基因产生的生物大分子的量。例如,特定基因的表达水平可以是指从该特定基因产生的蛋白质的量,或者可以是指从该特定基因产生的mRNA的量。基因表达水平可以是指绝对水平(例如摩尔或克数量)或相对水平(例如相对于标准品、参比物、校准物或另一个基因表达水平的量)。典型地,本文中使用的基因表达水平是相对表达水平。当在本文中用于确定细胞含量与表达水平之间的关系时,基因表达水平可以根据本技术领域中已知的描述基因表达的任何方式来考察。例如,考察基因表达水平的回归方法可以考察基因表达分析物水平的测量值或根据基因表达分析物水平的测量值计算或估算的水平。标志基因是差异表达的基因,其表达图式可用作表型指示方法例如预测方法、预后或诊断方法或其他细胞类型鉴别评估的一部分,或者,其还可用于鉴定对疾病或病症的治疗或预防有用的化合物的方法、或鉴定调节一种或多种基因产物的活性的化合物的方法中。由本文提供的方法所指示的表型可以是诊断指示、预后指示或对象中存在特定细胞类型的指示。诊断指示包括对象中疾病或病症的指示,例如肿瘤或瘤性疾病、炎性疾病、 自体免疫疾病以及本技术领域中已知可以根据特定细胞的存在或不存在或通过细胞的基因表达鉴定的任何其他疾病。在另一个实施方案中,预后指示是指疾病或病症的可能或预期的结果,包括但不限于对象存活的可能性、疾病或病症复发、侵袭性的可能性、疾病或病症惰性的可能性以及特定治疗方案成功的可能性。词组“对应于基因表达分析物水平的基因表达水平”是指指示基因表达的分析物与基因的实际表达水平之间的关系。典型地,在用于测定基因表达水平的实验方法中测量基因表达分析物的水平。正如本技术领域的专业人员所理解的,测量到的基因表达水平可以在多种具体水平上表示基因表达(例如基因表达的绝对量、基因表达的相对量、或指示表达水平增加或降低)。基因表达分析物的水平能够指示基因表达水平的具体水平,可以取决于各种因素,其包括使用的对照的数量、校准实验的数量或测定到的参比水平,以及本技术领域已知的其他因素。在本文提供的一些方法中,基因表达分析物水平的增加可以指示基因表达水平的增加,并且基因表达分析物水平的降低可以指示基因表达水平的降低。细胞类型的相对含量与测量到的基因表达分析物总体水平之间的回归关系,是按照本文提供的方法,根据两种或更多种样品中存在的细胞类型的量和实验测量的基因表达分析物水平而确定的细胞类型与基因表达分析物水平之间的定量关系。在一个实施方案中,通过确定每种基因表达分析物的总体水平对测得的细胞比例的回归来确定回归关系。 在一个实施方案中,回归关系通过线性回归来确定,其中将总体表达水平或表达分析物水平对于每种细胞类型轮流或一次全部地作为与细胞百分数成正比(例如呈线性)来处理,并且可以将这些线性关系的斜率表示成β值。当在本文中使用时,异质样品是指含有一种以上细胞类型的样品。例如,异质样品可以含有基质细胞和肿瘤细胞。典型地,当在本文中使用时,样品中存在的不同细胞类型,以超过约 0. 1%、0. 2%、0. 3%、0. 5%、0. 7%、1%、2%、3%、4%或 5%、或超过 0. 1%, 0. 2%,0. 3%,0. 5%,0. 7%、1%、2%、3%、4%或5%的量存在。正如在本技术领域中所理解的,细胞样品,例如来自对象的组织样品,可以含有少量的各种细胞类型(例如神经、血液、 血管细胞)。然而,当在本文中使用时,在样品中存在的量不超过约0. 1%、0. 2%,0. 3%, 0. 5%、0. 7%、1%、2%、3%、4%或 5%、或不超过 0. 1 %、0. 2%、0. 3%、0. 5%、0. 7%、1 %、 2^^3^^4%或5%的细胞类型,典型地不被当作异质细胞样品的组分。相关细胞样品可以是含有一种或多种共同细胞类型的样品。相关细胞样品可以是来自相同组织类型或来自相同器官的样品。相关细胞样品可以来自于相同或不同来源(例如相同或不同个体或细胞培养物或其组合)。正如在本文中提供的,在三种以上不同细胞样品的情况下,不需要所有样品都含有共同的细胞类型,但是如果第一种样品不含其他样品中存在的任何细胞类型,则第一种样品与其他样品不相关。肿瘤细胞是具有本技术领域的专业病理学家已知的、足以用来诊断各种类型癌症的细胞学和黏附性质的细胞,所述细胞学和黏附性质由细胞-细胞缔合的核和细胞质特点和模式组成。在某些实施方案中,肿瘤细胞具有异常的生长性质,例如瘤性生长性质。“与肿瘤相关的细胞”是指尽管不一定是恶性的,但存在于肿瘤性组织或器官或组织或器官的特定位置中,并且在正常组织或器官或组织或器官的特定位置中不存在或存在水平不显著的细胞。良性前列腺增生(BPH)细胞是增生前列腺的上皮衬里细胞。扩张性囊状腺体细胞是扩张性(萎缩性)囊状前列腺的上皮衬里细胞。基质细胞包括形成器官基质的结缔组织细胞和平滑肌细胞。示例性的基质细胞是前列腺基质的细胞。参比值是指用于一个或多个变量的值或一组相关值。在一个实例中,参比基因表达水平是指特定细胞类型中的基因表达水平。参比表达水平可以按照本文提供的方法或通过测定均质样品中细胞类型的基因表达水平来确定。正如本技术领域中所知的,参比水平可以是绝对或相对量。在某些实施方案中,参比表达水平可以指示特定细胞类型的存在。例如,在某些实施方案中,只有一种特定细胞类型可能具有特定基因的高表达水平,因此观察到具有高测量的表达水平的细胞类型可以与该特定细胞类型的表达水平相匹配,并因此表明样品中存在该特定细胞类型。在另一个实施方案中,参比表达水平可以指示特定细胞类型的不存在。正如本文中所提供的,可以考察两个或多个参比值以确定样品中是否存在特定细胞类型,或者也可以考察它们以确定样品中存在的特定细胞类型的相对量。改良t统计数值是特定基因产物或其指示物表明样品中存在或不存在特定细胞类型的能力的数值表示。整合了拟合优度和效应值的改良t统计数值可以按照已知方法用下列公式表示(参见例如 I\isheH2001) Proc. Natl. Acad. Sci. USA 98 :5116-5121),其中 σ β是系数的标准误差,k是小常数t = β / (k+ σ 0)细胞类型的相对含量或细胞比例是特定细胞类型所占细胞混合物的量。典型地,异质细胞混合物包含两种或更多种细胞类型,因此没有一种细胞类型占混合物的100%。相对含量可以表示成本技术领域中已知的各种形式;例如,相对含量可以表示成混合物中细胞总量的百分率,或可以表示成相对于特定细胞类型的量。当在本文中使用时,细胞百分率或细胞组成百分率是在异质细胞混合物例如对组织取样的显微切片中特定细胞类型占所有细胞的百分率。阵列或矩阵是装置上可寻址位置或地址的排列。位置可以排列成二维阵列、三维阵列或其他矩阵格式。位置的数量可以在几个到至少数十万个的范围内。最重要的是,每个位置代表完全独立的反应位点。阵列包括但不限于核酸阵列、蛋白质阵列和抗体阵列。 核酸阵列是指含有核酸探针例如寡核苷酸、多核苷酸或基因的较大部分的阵列。阵列上的核酸可以是单链的。其中探针是寡核苷酸的阵列被称为寡核苷酸阵列或寡核苷酸芯片。微阵列,在本文中也称为生物芯片,其阵列区域所具有的离散区域密度为至少约100/cm2,并可以为至少约1000/cm2。微阵列中的区域的典型尺寸例如直径在约10-250 μ m之间的范围内,并且与阵列中的其他区域相隔大约同样的距离。蛋白质阵列是指含有可以采取天然形式或变性形式的多肽探针或蛋白质探针的阵列。抗体阵列是指含有抗体的阵列,所述抗体包括但不限于单克隆抗体(例如来自小鼠)、嵌合抗体、人源化抗体或噬菌体抗体和单链抗体以及来自抗体的片段。激动剂是模拟或上调(例如增强或补充)蛋白的生物活性的剂。激动剂可以是野生型蛋白或其具有野生型蛋白的至少一种生物活性的衍生物。激动剂也可以是上调基因表达或增加蛋白的至少一种生物活性的化合物。激动剂也可以是增加多肽与另一种分子例如靶肽或核酸的相互作用的化合物。术语“多核苷酸”和“核酸分子”是指任何长度的核苷酸,可以是核糖核苷酸或脱氧核糖核苷酸。该术语仅仅指分子的一级结构。因此,该术语包括双链和单链DNA和RNA。 它还包括已知类型的修饰,例如本技术领域已知的标记物、甲基化、帽、将一个或多个天然存在的核苷酸用类似物取代、核苷间修饰例如具有不带电荷连键(例如硫代磷酸酯和二硫代磷酸酯)的修饰、含有悬垂部分例如蛋白质(包括例如核酸酶、毒素、抗体、信号肽和聚 L-赖氨酸)的修饰、具有嵌入剂(例如吖啶和补骨脂素)的修饰、含有螯合剂(例如金属和放射活性金属)的修饰、含有烷化剂的修饰、带有修饰连键(例如α异头核酸)的修饰和含有核苷酸类似物的修饰(例如肽核酸),以及未修饰形式的多核苷酸。源自于指定序列的多核苷酸典型为包含对应于指定核苷酸序列区域的至少约6 个核苷酸、至少约8个核苷酸、至少约10-12个核苷酸或至少约15-20个核苷酸的序列的多核苷酸序列。相应的多核苷酸与指定序列同源或互补。典型地,多核苷酸所源自的区域的序列与本文提供的基因所独有的序列同源或互补。重组多肽是使用重组技术、即通过重组核酸的表达所制造的多肽。重组多肽与天然存在的多肽可以通过至少一种或多种特征来区分。例如,可以将多肽从正常在其野生型宿主中与其相伴的一些或所有蛋白质和化合物中分离或纯化出来,因此多肽可以是基本上纯的。例如,分离的多肽不伴有在其天然状态下正常与其相伴的至少一些材料,其占给定样品中总蛋白的至少约0. 5重量%或至少约5重量%。基本上纯的多肽占总蛋白的至少约 50-75重量%、至少约80重量%或至少约90重量%。该定义包括在不同生物体或宿主细胞中生产来自一种生物体的多肽。或者,通过使用诱导型启动子或高表达启动子使制造的蛋白浓度水平增高,可以制造比正常所观察到的浓度明显更高的多肽。或者,多肽可以是正常不见于自然界中的形式,例如添加表位标签或具有氨基酸取代、插入或缺失,正如下面所讨论的。术语“疾病”或“病症”是指由例如感染或遗传缺陷而在生物体中引起的病理状况, 其特征为可鉴定的症状。特定核酸或氨基酸序列与特定序列标识号所指称的序列之间的“百分序列同一性”定义如下。首先,使用来自BLASTZ单机版的包含BLASTN 2. 0. 14版和BLASTP 2. 0. 14 版的BLAST 2Sequence(B12seq)程序,将核酸或氨基酸序列与特定序列标识号中显示的序列进行比较。该单机版BLASTZ可以从Fish & Richardson的网站(万维网上的fr. com/ blast网站)或美国政府的国家生物技术信息中心(National Center for Biotechnology Information)网站(万维网上的ncbi. nlm. nih. gov)获得。解释如何使用Blkeq程序的说明书,可见于伴随BLASTZ的自述文件。B12seq使用BLASTN或BLASTP算法执行两个序列之间的比较。BLASTN用于比较核酸序列,而BLASTP用于比较氨基酸序列。为了比较两个核酸序列,如下设置选项_i被设定为含有第一个待比较核酸序列的文件(例如C:\seql. txt) ;_j被设定为含有第二个待比较核酸序列的文件(例如C:\seq2.txt) ;-ρ被设定为 blastn;-0被设定为任何所需的文件名(例如C: \output.txt) ;_q被设定为-I ;_r被设定为2 ;并且所有其他选项保留为其缺省设置。例如,可以使用下列命令产生含有两个序列之间的比较的输出文件C:\B12seq_i c:\seql.txt_j c:\seq2.txt_p blastn-o c:\output. txt-q-l-r 2。为了比较两个氨基酸序列,可以如下设置Blkeq的选项-i被设定为含有第一个待比较氨基酸序列的文件(例如C:\seql. txt) ;_j被设定为含有第二个待比较氨基酸序列的文献(例如C:\seq2. txt) ;-ρ被设定为blastp ;-ο被设定为任何所需的文件名 (例如C: \output.txt);并且所有其他选项保留为其缺省设置。例如,可以使用下列命令产生含有两个氨基酸序列之间的比较的输出文件:C:\B12seq-i c:\seql.txt-j c:\seq2. txt-p blastp-o c:\output.txt。如果两个比较序列享有同源性,那么指定的输出文件将哪些同源的区域提呈为比对序列。如果两个比较序列不享有同源性,那么指定输出文件将不提呈比对序列。 一旦比对后,通过对在两个序列中提呈的同一的核苷酸或氨基酸残基的位置数进行计数,确定匹配的数量。百分序列同一性通过用匹配数除以被鉴定序列中显示的序列长度或除以分节长度(例如来自被鉴定序列中显示的序列的100个连续的核苷酸或氨基酸残基),然后将得到的值乘以100来确定。例如,当与1200bp序列比对时具有1166个匹配的核酸序列,与1200bp序列的百分同一性为97. 1(即1166 + 1200*100 = 97. 1)。应该指出, 百分序列同一性值被四舍五入到最接近的十分位数。例如,75. 11,75. 12,75. 13和75. 14被舍至75. 1,而75. 15,75. 16,75. 17,75. 18和75. 19被入至75. 2。还应该指出,长度值总是整数。在另一个实例中,含有20个核苷酸的区域的靶序列与来自如下的被鉴定序列的20 个连续核苷酸比对,含有与所述被鉴定序列共有75百分序列同一性的区域(即15 + 20*100 =75)。 具有至少90%同一性的多肽相对于参比多肽具有从90至100的百分同一性。水平为90%以上的同一性可以表明下述事实,即对于长度为100个氨基酸的多核苷酸来说, 测试多肽中不超过10% (即100个中的10个)的氨基酸与参比多肽的不同。类似的比较可以在测试和参比多核苷酸之间做出。这样的差别可以代表在氨基酸序列的整个长度上随机分布的点突变,或者它们可以在一个或多个不同长度的位置中成簇直到最大容许值,例如10/100个氨基酸差异(约90%同一性)。差异被定义为核酸或氨基酸取代或缺失。在高于约85-90%的同源性或同一性水平下,结果将不依赖于程序和间隙参数设置;这样的高同一性水平经常可以不依赖软件容易地评估。引物是指含有两个或多个脱氧核糖核苷酸或核糖核苷酸、典型三个以上的寡核苷酸,从其可以启动引物延伸产物的合成。引发合成的实验条件包括存在核苷三磷酸以及用于聚合和延伸的试剂,例如DNA聚合酶和适合的缓冲液、温度和pH。动物可以包括任何动物,例如但不限于山羊、奶牛、鹿、绵羊、啮齿动物、猪和人类。 非人类动物将人类排除在所考虑的动物之外。本文中提供的SP来自于任何来源,动物、植物、原核生物和真菌。遗传治疗可以包括将异源核酸例如DNA转移到患有这些疗法所针对的病症或病情的哺乳动物、特别是人类的某些细胞、靶细胞中。核酸例如DNA被导入到所选靶细胞中的方式要使得异源核酸例如DNA得到表达并产生由其编码的治疗性产物。或者,异源核酸例如DNA可以通过某种方式介导编码治疗性产物的DNA的表达,或者它能编码以某种方式直接或间接介导治疗性产物表达的产物,例如肽或RNA。遗传治疗也可用于递送编码基因产物的核酸,其代替所导入的哺乳动物或细胞中的缺陷基因或补充由所述哺乳动物或细胞产生的基因产物。被导入的核酸可以编码治疗性化合物,例如其生长因子抑制剂,或肿瘤坏死因子或其抑制剂,例如针对其受体,这些在哺乳动物宿主中正常不生产或不能以治疗有效量或在治疗有用时间生产。编码治疗性产物的异源核酸例如DNA,在导入到患病宿主的细胞中之前可以被修饰,以便增加或以其它方式改变产物或其表达。遗传治疗也可以包括递送基因表达的抑制剂或阻遏剂或其他调节剂。异源核酸是这样的核酸,其编码的DNA或RNA和蛋白正常不由表达所述核酸的细胞在体内生产,或者其介导或编码介导物,通过影响转录、翻译或其他可调控的生物化学过程改变内源核酸例如DNA的表达。异源核酸例如DNA也可以被称为外来核酸例如DNA。在本文中,异源核酸涵盖了本技术领域的专业人员认识或认为对于表达它的细胞来说是异源的或外来的任何核酸例如DNA ;异源核酸包括外源添加但也内源表达的核酸。异源核酸的实例包括但不限于编码可示踪标志蛋白例如赋予药物抗性的蛋白的核酸,编码治疗有效物质例如抗癌药剂、酶和激素的核酸,以及编码其他类型蛋白例如抗体的核酸例如DNA。由异源核酸编码的抗体可以分泌或表达在已导入异源核酸的细胞的表面上。异源核酸对于其所导入的细胞来说通常不是内源的,而是从另一种细胞获得的或合成制备的。一般来说,尽管不是必然,这样的核酸所编码的RNA和蛋白在正常情况下不由现在表达它的细胞生产。用于基因治疗的治疗有效产物可以是由异源核酸、典型为DNA所编码的产物,在将核酸导入宿主后,表达的产物能够改善或消除先天性或获得性疾病的症状、表象或治愈疾病。还包括生物活性核酸分子,例如RNAi和反义分子。疾病或病症治疗或化合物可以包括任何治疗方式和/或药剂,当其单独或与其他治疗或化合物组合使用时,能够减轻、降低、改善、阻止与疾病或病症相关的临床症状或诊断标志物或将其置于或维持在缓解的状态中。核酸包括DNA、RNA及其类似物包括肽核酸(PNA)和它们的混合物。核酸可以是单链或双链的。当提到任选用可检测标记物例如荧光或放射性标记物标记的探针或引物时, 所考虑的是单链分子。这样的分子的长度典型使它们的靶在统计上对于文库的探测或引发而言是独一无二的或低拷贝数的(典型少于5个,一般少于3个)。一般来说,探针或引物含有至少14、16或30个与目标基因互补或同一的连续序列。探针和引物的长度可以是10、 20、30、50、100个以上的核酸。异源核酸与调控或效应核苷酸序列例如启动子、增强子、转录和翻译终止位点以及其他信号序列的可操作连接,是指这样的核酸例如DNA与这样的核苷酸序列之间的关系。因此,可操作连接或操作性关联是指核酸例如DNA与调控和效应核苷酸序列例如启动子、增强子、转录和翻译终止位点以及其他信号序列的功能关系。例如,DNA与启动子可操作连接是指DNA与启动子之间的物理和功能关系使得这种DNA的转录被特异性识别、结合并转录所述DNA的RNA聚合酶从该启动子开始引发。为了优化表达和/或体外转录,可能需要移除、添加或改变克隆的5’非翻译部分,以消除多余的、可能不适合的其它翻译启动(即起始)密码子或能够在转录或翻译水平上干扰或降低表达的其他序列。或者,可以将共有核糖体结合位点(参见例如Kozak(1991) J. Biol. Chem. 266 :19867-19870)紧挨起始密码子的5’端插入,其能够增强表达。这种修饰的需要性(或需求),可以凭经验确定。与RNA的至少一部分互补的序列被称为反义寡核苷酸,是指具有足够的互补性、 一般在中度或高度严紧条件下能够与RNA杂交形成稳定双链体的序列;因此在双链反义核酸的情况下,可以测试双链体DNA(或dsRNA)的单链,或者可以分析三链体形成。杂交的能力取决于互补性程度和反义核酸的长度。一般来说,杂交的核酸越长,它可以在包含越多的与编码RNA的基因的碱基错配下仍能形成稳定双链体(或三链体,视情况而定)。通过使用确定杂交复合物的解链点的标准程序,本技术领域的专业人员可以确定错配的可容忍程度。反义多核苷酸是与mRNA或双链DNA的有义链互补的合成的核苷酸碱基序列。有义与反义多核苷酸的混合物在适合条件下导致这两种分子的结合或杂交。当这些多核苷酸与 mRNA结合(杂交)时,发生蛋白质合成(翻译)的抑制。当这些多核苷酸与双链DNA结合时,发生RNA合成(转录)的抑制。所产生的翻译和/或转录的抑制导致由有义链编码的蛋白质合成的抑制。反义核酸分子典型地含有足够数量的与靶核酸特异性结合的核苷酸, 通常为与编码目标基因的核酸分子的编码部分互补的至少5个连续的核苷酸,经常为至少 14或16或30个连续的核苷酸或修饰的核苷酸。抗体是免疫球蛋白,不论是天然的还是部分或完全合成生产的,包括其保留了抗体的特异性结合能力的任何衍生物。因此,抗体包括具有与免疫球蛋白结合结构域同源或基本上同源的结合结构域的任何蛋白。抗体包括任何免疫球蛋白组的成员,所述组包括但不限于 IgG、IgM、IgA、IgD、IgY 和 IgE。抗体片段是抗体小于全长的、保留了全长抗体的至少一部分特异性结合能力的任何衍生物。抗体片段的实例包括但不限于Fab、Fab,、F(ab) 2、单链Fvs (scFV)、FV、dsFV双抗体和Fd片段。片段可以包括通过例如二硫桥连接在一起的多个链。抗体片段一般含有至少约50个氨基酸,典型含有至少200个氨基酸。Fv抗体片段由通过非共价相互作用相连的一个可变重链结构域(VH)和一个可变轻链结构域构成。dsFV是带有使VH-VL对稳定的工程化分子间二硫键的Fv。F(ab)2片段是用胃蛋白酶在PH 4. 0-4. 5下消化免疫球蛋白而得到的抗体片段;它可以被重组表达以产生等价片段。Fab片段是用木瓜蛋白酶消化免疫球蛋白而得到的抗体片段;它们可以被重组表达以产生等价片段。scFV是指含有由多肽接头以任何次序共价相连的可变轻链结构域(VL)和可变重链结构域(VH)的抗体片段。接头的长度要使得两个可变结构域被桥接而基本上没有干扰。 所包括的接头是(Gly-Ser)n残基,其中散布一些Glu或Lys残基以增加溶解性。人源化抗体是修饰以包含人类氨基酸序列的抗体,使得给药于人类时不唤起免疫应答。这种抗体的制备方法是已知的。例如,为了产生这样的抗体,将表达单克隆抗体的杂交瘤或其他原核或真核细胞例如大肠杆菌(E. coli)或CHO细胞中的编码核酸通过重组核酸技术进行改变,以表达非可变区的氨基酸组成是基于人类抗体的抗体。已经设计了计算机程序用于鉴定这种非可变区。双抗体是二聚的scFV ;双抗体典型具有比scFv更短的肽接头,并且它们一般二聚化。词组“使用重组DNA方法通过重组手段生产”是指使用公知的分子生物学方法来表达由克隆DNA编码的蛋白。 用于治疗特定疾病的化合物的“有效量”,是足以改善或以某种方式减轻与疾病相关的症状的量。这样的量可以作为单剂给药,或者可以按照使其有效的给药方案给药。该量可治愈疾病,但是给药典型是为了改善疾病症状。为了获得所需的症状改善,可能需要重复给药。调节基因产物活性的化合物降低或增加或以其它方式改变蛋白的活性,或以某种方式上调或下调或以其它方式改变核酸在细胞中的表达。可药用盐、酯或其他缀合衍生物,包括可以由本技术领域的专业人员使用这类衍生的已知方法容易地制备的任何盐、酯或衍生物,并且产生的化合物可以被给药于动物或人类而没有显著毒性效应,并且具有药物活性或是药物前体。通过本文提供的筛选方法鉴定的药物或化合物,是指用作治疗剂或用作设计治疗剂的先导化合物的候选物的任何化合物。这样的化合物可以是小分子包括小有机分子、肽类、肽模拟物、反义分子或dsRNA例如RNAi、抗体、抗体片段、重组抗体和能够用作药物候选物或先导化合物的其他这类化合物。与对象中的恶性细胞相邻的非恶性细胞是具有正常形态的细胞(例如其不被病理学家、细胞分拣器或其他细胞分类方法分类为瘤性或恶性),但是当细胞原样存在于对象中时,该细胞与单个或多个恶性细胞相邻。正如本文中所提供的,与单个或多个恶性细胞相邻的特定类型(例如基质)的细胞,能够表现出与相同类型的不与单个或多个恶性细胞相邻的细胞不同的表达图式。按照本文提供的方法,与恶性细胞相邻的细胞,可以根据差异基因表达与相同类型的与非恶性细胞相邻的细胞区分开。当在本文中用于细胞的位置时,相邻是指第一个细胞与第二个细胞足够接近,使得第一个细胞影响第二个细胞的基因表达。 例如,相邻细胞可以包括彼此直接接触的细胞,相邻细胞可以包括彼此在500微米、300微米、200微米、100微米或50微米以内的细胞。肿瘤是恶性细胞的集合体。恶性在用于细胞时是指细胞以不受控制的方式生长。在某些实施方案中,恶性细胞可以是未分化的。在某些实施方案中,恶性细胞可以是能够转移的。可用于确定错配百分率的杂交严紧性如下1)高严紧性0. Ix SSPE,0. 1% SDS, 650C02)中严紧性0. 2x SSPE,0. 1% SDS,50°C。3)低严紧性:1. Ox SSPE,0· 1% SDS,50°C。载体(或质粒)是指可用于将异源核酸导入细胞以对其进行表达或复制的分立元件。载体典型保持游离体,但是可以被设计成执行基因或其部分在基因组染色体中的整合。 此外,还设想了载体是人工染色体,例如酵母人工染色体和哺乳动物人工染色体。这些载体的选择和使用对于本技术领域的专业人员来说是公知的。表达载体包括能够表达DNA的载体,所述DNA与能够影响这种DNA片段表达的调控序列例如启动子区可操作连接。因此,表达载体是指在导入适合的宿主细胞后引起克隆DNA表达的重组DNA或RNA构建物,例如质粒、噬菌体、重组病毒和其他载体。适合的表达载体对于本技术领域的专业人员来说是公知的,并包括可以在真核细胞和/或原核细胞中复制的载体,以及保持为游离体或整合到宿主细胞基因组中的载体。疾病预后是指预报疾病的可能后果或由疾病产生的可能后果。疾病预后的非限制性实例包括疾病复发的可能性、疾病侵袭的可能性、疾病惰性的可能性、对象存活的可能性、成功治疗疾病的可能性、特定治疗方案可能比另一种治疗方案更加有效的状况,以及它们的组合。肿瘤或恶性细胞的侵袭性,是一个或多个细胞到达身体中远离起源组织或器官的位置、附着于身体的另一部分并增殖的能力。在实验上,侵袭性可以通过一种或多种方式进行描述,包括但不限于对象的诊断后存活、肿瘤的复发和肿瘤的转移。因此,在本文提供的公开内容中,指示了存活、复发、无复发的时间长度、转移或无转移的时间长度的数据,表明了肿瘤或恶性细胞的侵袭性。当考虑存活时,本技术领域的专业人员将会认识到,侵袭性与对象的存活时间长度反相关。当考虑转移的时间长度时,本技术领域的专业人员将会认识到,侵袭性与对象的存活时间长度正相关。当在本文中使用时,惰性是指肿瘤或恶性细胞无侵袭性;因此,肿瘤或细胞的侵袭性越强,惰性越低,反之亦然。作为细胞到达身体中远离起源组织或器官的位置的实例,恶性前列腺细胞能够到达前列腺外的位置,因此具有侵袭性恶性细胞的一个特征。细胞可以附着到例如对象的淋巴结或骨髓、或本技术领域已知的其他部位上。组合物是指任何混合物。它可以是溶液、悬液、液体、粉末、糊剂、水性、非水性或其任何组合。流体是能够流动的组合物。因此流体包含半固体、糊剂、溶液、水性混合物、凝胶、 洗剂、霜剂形式的组合物和其他这类组合物。细胞类型相关的基因表达图式原代组织由许多(两种或更多种)类型的细胞构成。在其他方法中,鉴定组织内存在的特定细胞类型中表达的基因,可能需要对该细胞类型进行物理分离,并对细胞类型进行后续分析。尽管通过诸如激光捕获显微切割、离心、FACS等方法能够按照类型来物理分离细胞,但这是耗时和高成本的,并且在某些实施方案中执行起来不现实。原代组织或含有多种细胞类型的其他样本的已知表达谱分析法(RNA或蛋白质)或是(1)没有将存在多种细胞类型考虑在内,或是( 在进行分析之前对组分细胞类型进行物理分离。其他执行的分析没有考虑多种细胞类型的存在,由此鉴定了表明样品中存在的各种细胞类型的相对比例变化的标志物,但是不能代表特定细胞类型。以前的分析方法不能分辨不同细胞类型之间的相互作用。本文提供的方法、组合物和试剂盒是基于模型的产生,其中可以将被分析的每种基因产物的水平与特定细胞类型相关联。这种用于确定细胞类型特异性基因表达的方法免除了需要从组织或具有异质细胞含量的其他样本物理分离细胞。此外,这种方法允许确定在这样的异质混合物中包含的不同细胞类型之间的相互作用,原本如果不首先将细胞物理分离然后进行分析,这将是困难的或不可能的。使用本文提供的方法,能够鉴定到与各种疾病和病症相关的许多生物标志物。在本文中示例了前列腺癌和良性前列腺增生的生物标志物的鉴定。这些生物标志物可用于诊断、预后和治疗决定中。本文提供的方法、组合物、组合和试剂盒使用基于回归的方法来鉴定含有一种以上细胞类型的样品中细胞类型特异性的基因表达图式。在一个实例中,本文提供的方法、组合物、组合和试剂盒使用基于回归的方法来鉴定癌症中细胞类型特异性的基因表达图式。 本文提供的这些方法、组合物、组合和试剂盒可用于鉴定在恶性与非恶性细胞中相比差异表达的基因,并进一步鉴定与恶性细胞相伴的非恶性细胞的基因表达相对于不与恶性细胞相伴的非恶性细胞的肿瘤依赖性变化。本文提供的方法、组合物、组合和试剂盒还可用于将表型与一种或多种细胞类型中的基因表达相关联。例如,这样的方法可以包括确定两种或更多种相关的异质细胞样品中每种细胞类型的相对含量,其中至少两种样品包含的每种细胞的相对含量不相同,测量每种样品中一种或多种基因表达分析物的总体水平,确定每种细胞类型的相对含量与测量到的总体水平之间的回归关系,以及根据回归关系计算每种细胞类型中所述一种或多种分析物每一种的水平,其中基因表达水平对应于计算的分析物水平。在另一个实例中,这样的方法可以包括确定两种或更多种相关的异质细胞样品中每种细胞类型的相对含量,其中至少两种样品包含的每种细胞的相对含量不相同,测量每种样品中两种或更多种基因表达分析物的总体水平,确定每种细胞类型的相对含量与测量到的总体水平之间的回归关系,以及根据回归关系计算每种细胞类型中所述两种或更多种分析物每一种的水平,其中基因表达水平对应于计算的分析物水平。这样的方法还可以包括鉴定在至少一种细胞类型中相对于至少一种其他细胞类型中差异表达的基因。在这样的方法中,分析物可以是核酸分子和蛋白。本文提供的方法可用于测定任何异质细胞群体中的细胞类型特异性基因表达。本文提供的方法可以应用于已知含有各种各样细胞类型的样品,例如脑组织样品和肌肉组织样品。本文提供的方法还可应用于这样的样品,其中细胞类型的分离可能代表了繁琐耗时的操作,而所述操作在本文提供的方法下不再需要。本方法中使用的样品可以是各种各样的样品中的任一种,包括但不限于血液、来自血液的细胞(包括但不限于非血细胞例如血液中的上皮细胞)、血浆、血清、脊髓液、淋巴液、皮肤、痰液、消化和生殖泌尿样品(包括但不限于尿液、精子、精液、前列腺吸出物、前列腺液和来自精囊的流体)、唾液、乳汁、组织样本(包括但不限于前列腺组织样本)、肿瘤、器官以及体外细胞培养成分的样品。在某些实施方案中,本文提供的方法可用于区分癌症的肿瘤细胞、增生性细胞和基质细胞的真正标志物。正如在本文中示例的,利用各细胞类型比例的最小平方回归,可用于为众多基因的细胞特异性表达产生明确的预测。在本文提供的应用于前列腺癌的实例中,在前列腺基因表达和生物学的现有知识的基础上,接受了许多这些预测,这为方法提供了置信度。这些的例证是据预测被基质细胞优先表达的许多基因是结缔组织特征的,并且在上皮组织中表达低或不存在。 在某些实施方案中,本文提供的方法允许将分子肿瘤和非肿瘤标志物分成更离散和信息更丰富的组。因此,被鉴定为肿瘤相关性的基因可以进一步分类成肿瘤对基质(上皮对间质)和肿瘤对增生(可能反映出恶性细胞与其增生对应物之间的真正差别)。本文提供的方法可用于辨别各种各样癌症中的肿瘤和非肿瘤标志物,所述癌症包括但不限于根据部位分类的癌症,例如例如口腔和咽(唇,舌,唾液腺,口底,牙床和口腔其他部分,鼻咽, 扁桃体,口咽,下咽部,口腔/咽的其他部位)的癌症;消化系统(食道,胃,小肠,结肠和直肠,肛门、肛管和肛门直肠部,肝,肝内胆管,胆囊,胆的其他部位,胰腺,腹膜后腔,腹膜,网膜和肠系膜,消化系统其他部位)的癌症;呼吸系统(鼻腔、中耳和鼻窦,喉,肺和支气管, 胸膜,气管、纵隔和呼吸系统其他部位)的癌症;间皮细胞瘤、骨骼和关节以及软组织包括心脏的癌症;皮肤癌包括黑素瘤和其他非上皮皮肤癌;卡波斯(Kaposi’ s)肉瘤和乳腺癌; 女性生殖系统(子宫颈,子宫体,子宫、nos,卵巢,阴道,外阴和女性生殖系统的其他部位) 的癌症;男性生殖系统(前列腺,睾丸,阴茎和男性生殖系统的其他部位)的癌症;泌尿系统(膀胱,肾脏和肾盂,输尿管和泌尿系统的其他部位)的癌症;眼和眼眶的癌症;脑和神经系统(脑和神经系统其他部位)的癌症;内分泌系统(甲状腺和内分泌系统其他部位, 包括胸腺)的癌症;淋巴瘤(霍奇金氏(hodgkin’ s)病和非霍奇金氏淋巴瘤)、多发性骨髓瘤和白血病(淋巴细胞白血病,髓性白血病,单核细胞白血病以及其他白血病);以及按照组织学类型分类的癌症,例如恶性瘤;癌,NOS ;未分化癌,NOS ;巨细胞和纺锤形细胞癌; 小细胞癌,NOS ;乳头状癌,NOS ;鳞状细胞癌,NOS ;淋巴上皮癌;基底细胞癌,NOS ;毛母质癌;移行细胞癌,NOS ;乳头状移行细胞癌;腺癌,NOS ;恶性胃泌素瘤;胆管腺瘤;肝细胞癌, NOS ;复合肝细胞癌胆管腺瘤;小梁状腺癌;腺样囊性癌;腺瘤性息肉中的腺癌;家族多发性结肠息肉腺癌;实体癌,NOS ;恶性类癌肿瘤;细支气管肺泡腺癌;乳头状腺癌,NOS ;癌;嗜酸细胞癌;嗜酸性细胞腺癌;嗜碱性细胞癌;透明细胞腺癌,NOS ;颗粒细胞癌;滤泡状腺癌, NOS ;乳头状和滤泡状腺癌;无包膜形成的硬化性癌;肾上腺皮质癌;子宫内膜样癌;皮肤附件癌;大汗腺腺癌;皮脂腺腺癌;盯聍腺腺癌;黏液表皮样癌;囊腺癌,NOS ;乳头状囊腺癌, NOS ;乳头状浆液性囊腺癌;黏液囊腺癌,NOS ;黏液腺癌;印戒细胞癌;浸润性导管癌;髓样癌,NOS ;小叶癌;炎性癌;乳房佩吉氏(Paget’ s)病;腺泡细胞癌;腺鳞癌;腺癌伴鳞状上皮化生;恶性胸腺瘤;恶性卵巢基质肿瘤;恶性泡膜细胞瘤;恶性颗粒细胞肿瘤;恶性睾丸足细胞瘤;塞尔托利Sertoli)细胞癌;恶性莱狄氏(Leydig)细胞肿瘤;恶性脂质细胞瘤; 恶性副神经节瘤;恶性额外乳房副神经节瘤;嗜铬细胞瘤;血管球肉瘤;恶性黑素瘤,NOS ; 无色素性黑色素瘤;浅表扩散性黑素瘤;巨大色素痣内恶性黑素瘤;上皮样细胞黑素瘤;恶性蓝痣;肉瘤,NOS ;纤维肉瘤,NOS ;恶性纤维组织细胞瘤;粘液肉瘤;脂肉瘤,NOS ;平滑肌肉瘤,NOS ;横纹肌肉瘤,NOS ;胚胎性横纹肌肉瘤;腺泡状横纹肌肉瘤;基质肉瘤,NOS ;恶性混合肿瘤,NOS ;苗勒管(Mullerian)混合肿瘤;肾母细胞瘤;肝母细胞瘤;癌肉瘤,NOS ;恶性间质瘤;恶性布伦纳氏(Brermer)肿瘤;恶性叶状瘤;滑膜肉瘤,NOS ;恶性间皮瘤;无性细胞瘤;胚胎癌,NOS ;恶性畸胎瘤,NOS ;恶性甲状腺肿样卵巢瘤;绒毛膜癌;恶性中肾瘤; 血管肉瘤;恶性血管内皮瘤;卡波斯肉瘤;恶性血管外皮细胞瘤;淋巴管肉瘤;骨肉瘤,NOS ; 皮质旁骨肉瘤;软骨肉瘤,NOS ;恶性成软骨细胞瘤;间质软骨肉瘤;骨的巨细胞肿瘤;尤文氏(Ewing’ s)肉瘤;恶性牙原性肿瘤;成釉细胞性牙肉瘤;恶性成釉细胞瘤;成釉细胞性纤维肉瘤;恶性松果体瘤;脊索瘤;恶性神经胶质瘤;室管膜瘤,NOS ;星形细胞瘤,NOS ;原浆性星形细胞瘤;纤维型星形细胞瘤;星形母细胞瘤;成胶质细胞瘤,NOS ;少突神经胶质细胞瘤,NOS ;成少突神经胶质细胞瘤;原始神经外胚层肿瘤;小脑肉瘤,NOS ;肾上腺成神经节细胞瘤;神经母细胞瘤,NOS ;成视网膜细胞瘤,NOS ;嗅神经源性肿瘤;恶性脑脊膜瘤;神经纤维肉瘤;恶性神经鞘瘤;恶性颗粒细胞肿瘤;恶性淋巴瘤,NOS ;霍奇金氏病,NOS ;霍奇金氏病;副肉芽肿,NOS ;小淋巴细胞性恶性淋巴瘤;大细胞扩散性恶性淋巴瘤;滤泡性恶性淋巴瘤,NOS ;蕈样肉芽肿;其他特定的非霍奇金氏淋巴瘤;恶性组织细胞增多症;多发性骨髓瘤;肥大细胞肉瘤;免疫增生性小肠疾病;白血病,NOS ;淋巴细胞性白血病,NOS ;浆细胞性白血病;红白血病;淋巴肉瘤细胞性白血病;骨髓性白血病,NOS ;嗜碱细胞性白血病;嗜酸细胞性白血病;单核细胞性白血病,NOS ;肥大细胞性白血病;成巨核细胞性白血病;髓样肉瘤;以及毛细胞白血病。在将使用本文提供的方法获得的前列腺组织分析的结果与以前方法的结果进行比较的实例中,在以前基于微阵列的研究中与正常前列腺组织相关的绝大多数标志物,与基质的细胞相关。由于正常细胞可由相对高比例的基质细胞构成,该结果并不令人吃惊。在前列腺分析的实例中,良性前列腺增生(BPH)细胞与肿瘤细胞之间的最强单一鉴别物是CK15,该结果得到免疫组织化学的证实。CK15以前在这方面受到的关注很少,但是BPH标志物在不明确临床病例的诊断中发挥重要作用。其表达水平与组织比例的叉积具有高协方差的转录本,提示了在一种细胞类型中的表达取决于另一种组织的比例,正如在旁分泌机制中所预计的。对肿瘤百分率具有最高依赖性的基质转录本是TGF-β 2。另一种可实行免疫组织化学的这样的基质细胞基因是结蛋白,其在肿瘤相关基质中显示出染色改变。事实上,许许多多典型的基质细胞基因表现出对肿瘤比例的依赖性,为肿瘤相关基质与非相关基质存在差别这一推测添加了证据。肿瘤-基质旁分泌信号传导可以反映在基因表达改变的肿瘤周晕(peritumor halos)中,其能够提呈比单独的肿瘤细胞大得多的检测靶。本文提供的方法提供了直接的途径,使用简单和多个线性回归来鉴定在组织中的表达与特定细胞类型(例如在带有肿瘤细胞、BPH上皮细胞或基质细胞的前列腺组织中)特异性相关的基因。也认识到了不易归因于单个细胞类型的环境依赖性 (Context-dependent)表达。本文描述的研究方法还可应用于在各种组织和器官中的多种多样的肿瘤标志物的发现研究。本文中提出的示例性前列腺分析结果演示了将众多基因候选物鉴定为参与前列腺癌病理发生的各种细胞的特定产物的能力。通过(1)确定给定类型的组织或样本(例如前列腺、乳腺、结肠、骨髓等)内每种组成细胞类型(例如上皮、基质、肿瘤或其他可辨别的实体)的比例,以及( 分析同一个组织或样本的表达谱(例如RNA或蛋白质)这两方面,建立了用于细胞特异性基因表达的模型。在某些实施方案中,基因的细胞类型特异性表达可以通过将该模型拟合于来自许多组织样品的数据来确定。
20
本文提供的方法可以包括确定异质样品中每种细胞类型的相对含量的步骤。样品中细胞类型的鉴定,可包括鉴定样品中存在量高于约或5%、或者高于 1%、2%、3%、4%或5%的细胞类型。在本文中可以使用任何的各种各样用于细胞类型鉴定的已知方法。例如,细胞类型可以由有能力鉴定细胞类型的专业人员例如病理学家或组织学家来确定。在另一个实例中,细胞类型可以通过本技术领域中已知的细胞分拣和/或流式细胞术方法来确定。本文提供的方法可用于确定在至少一种细胞类型中相对于至少一种其他细胞类型差异表达的核苷酸或蛋白质。这样的基因包括被上调的(即以更高水平表达的)基因以及被下调的(即以更低水平表达的)基因。这样的基因还包括已被改变(即截短的序列, 或带有取代、缺失或插入、包括点突变的序列)并显示出相同的表达谱或改变的表达谱的序列。在某些实施方案中,基因可以来自于人类;然而,正如本技术领域的专业人员将会认识到的,来自于其他生物的基因可能也可用于疾病和药物评估的动物模型中;因此,提供了来自脊椎动物、包括哺乳动物包括啮齿动物(例如大鼠、小鼠、仓鼠和豚鼠)、灵长动物和家畜(例如绵羊、山羊、猪、奶牛和马)的其他基因。在某些情况下,原核基因可能是有用的。 在任何的各种各样生物体中的基因表达可以通过本文提供或本技术领域中已知的其它方法来测定。按照本文提供的方法测量的基因产物可以是核酸分子,包括但不限于mRNA或其扩增物或互补物、多肽或其片段。用于检测核酸分子和蛋白质的方法和组合物在本技术领域中是已知的。例如,寡核苷酸探针和弓I物可用于核酸分子检测,而抗体可用于多肽检测。在本文提供的方法中,可以检测一个或多个基因产物。在某些实施方案中,检测两个或更多个基因产物。在其他实施方案中,可以在本文提供的方法中检测3个或以上、4个或以上、5个或以上、7个或以上、10个或以上、15个或以上、20个或以上、25个或以上、35个或以上、50个或以上、75个或以上、或100个或以上基因产物。样品中标志基因的表达水平可以通过本技术领域已知的任何方法或组合物来确定。可以通过分离并测定从每个标志基因转录的核酸的水平(即量)来确定表达水平。替代或附加地,可以测定从标志基因转录的mRNA所翻译的特定蛋白的水平。确定特定标志基因的表达水平,可以通过测定样品中存在的mRNA、或从其衍生的多核苷酸、或蛋白的量来完成。可以使用用于测定蛋白质或RNA水平的任何方法。例如,将蛋白或RNA从样品中离析,并通过凝胶电泳进行分离。然后将分离的蛋白或RNA转移到固相支持物例如滤膜上。然后通过杂交方法将代表一个或多个标志物的核酸或蛋白质(例如抗体)探针与滤膜杂交,并测定标志物产生的蛋白或RNA的量。这种测定可以是目测或机器辅助的,例如通过使用光密度计。测定蛋白质或RNA水平的另一种方法是使用斑点印迹或狭缝印迹。在这种方法中,对来自样品的蛋白质、RNA或从其衍生的核酸进行标记。然后将蛋白质、RNA或从其衍生的核酸与含有源自于一个或多个标志基因的寡核苷酸或抗体的滤膜杂交,其中寡核苷酸或抗体置于滤膜上离散的、易于鉴别的位置处。通过目测或通过光密度计测定标记的蛋白质或RNA与滤膜的结合或不结合。蛋白质或多核苷酸可以使用放射性标记物或荧光(即可见)标记物标记。本文提供的方法可用于检测mRNA或其扩增物、及其任何片段。在一个实例中,可以检测mRNA的内含子或其扩增物或片段。mRNA的加工可包括剪接,其中从转录本中移除内含子。内含子的检测可用于检测完整mRNA的存在,并且也可用于检测mRNA的加工,例如当单检测内含子区时(例如不与任何外显子相连的内含子)。在另一个实施方案中,本文提供的方法可用于检测多肽及其修饰,其中多肽的修饰可以是翻译后修饰例如脂基化、糖基化、活化蛋白水解以及本技术领域中已知的其他修饰,或者可以包括降解性修饰例如蛋白水解片段或泛素化多肽。这些实例不打算是限制性的;确定蛋白质或RNA丰度的其他方法在本技术领域中是已知的。或者,可以通过二维凝胶电泳系统分离蛋白质。二维凝胶电泳在本技术领域中是公知的,并可以包括沿着第一维度进行等电聚焦,然后沿着第二维度进行SDS-PAGE电泳。 参见例如Hames等(1990)Gel Electrophoresis of Proteins :A Practical Approach(《蛋白质凝胶电泳实用方法》),IRL Press,New York ;Shevchenko 等(1996)Proc. Natl. Acad. Sci.USA 93 :1440-1445 ;Sagliocco 等(1996)Yeast 12 :1519-1533 ;以及 Lander(1996) Science 274 :536_539。得到的电泳图可以通过大量技术进行分析,包括质谱技术、western 印迹以及使用多克隆和单克隆抗体的免疫印迹分析。或者,可以通过构建抗体微阵列来确定标志物衍生的蛋白质的水平,在所述抗体微阵列中,结合位点包含特异性针对细胞基因组编码的多种蛋白物类的固定化抗体、例如单克隆抗体。可以存在针对显著部分的标志物衍生的目标蛋白的抗体。用于制造单克隆抗体的方法是公知的(参见例如Har 1 ow和Lane (1988) Antibodies :A Laboratory Manual (《抗体实验指南》),Cold Spring Harbor, N. Y.,在此为所有目的以其全文引为参考)。在一个实施方案中,针对根据细胞的基因组序列设计的合成的肽片段产生单克隆抗体。使用这样的抗体阵列,将来自细胞的蛋白与阵列相接触,并使用本技术领域已知的分析法分析它们的结合。有诊断或预后意义的蛋白的表达与表达水平,可以通过组织薄片或切片的免疫组织化学染色来检测。在另一个实施方案中,许多组织样品中标志基因的表达可以使用组织阵列来表征 (Kononen等(1998)Nat. Med. 4 :844-847)。在组织阵列中,在同一个微阵列上评估多个组织样品。阵列允许原位检测RNA和蛋白质水平;连续切片允许同时分析多个样品。在某些实施方案中,使用多核苷酸微阵列测量表达,以便同时评估每个上述标志物的表达状况。在一个实施方案中,本文提供的微阵列是寡核苷酸或cDNA阵列,其包含可与本文描述的标志基因相对应的基因杂交的探针。本文提供的微阵列可以包含可与标志物相对应的基因杂交的探针,所述标志物能够辨别细胞、鉴定表型、鉴定疾病或病症、或提供疾病或病症的预后(例如本文描述的分类物)。例如,本文提供的多核苷酸阵列,包含了针对下面实施例中所描述的分类物中存在的至少2、5、10、15、20、30、40、50、75、100或100 个以上遗传标志物的亚组直到全套标志的探针。本文还提供了针对修正t统计量大于或等于2. 5、3、3. 5、4、4. 5或5的标志物的探针。本文还提供了针对修正t统计量小于或等于-2. 5,-3,-3. 5、-4、-4. 5或-5的标志物的探针。在特定实施方案中,本发明提供了组合例如阵列,其中本文描述的标志物占组合或阵列上探针的至少50 %、60 %、70 %、80 %、85 %、 90%、95%或 98%。涉及构建包含上面的标志物组和/或亚组的微阵列的通用技术,如本文中所述, 在本技术领域中是已知的。正。
可以通过选择包含多肽或多核苷酸序列的探针,然后将这些探针固定化到固相支持物或表面上,来制备微阵列。例如,探针可以包含DNA序列、RNA序列或抗体。探针还可以包含氨基酸、DNA和/或RNA类似物、或其组合。探针可以通过本技术领域已知的任何方法来制备。用于本发明方法的探针可以固定化到有孔或无孔的固相支持物上。例如,探针可以附着于硝酸纤维素或尼龙膜或滤膜上。或者,固相支持物或表面可以是玻璃或塑料表面。 在另一个实施方案中,测量与表面上固定化有大量探针的固相支持物构成的探针微阵列的杂交水平。固相可以是无孔的,或任选是有孔材料例如凝胶。在另一个实施方案中,微阵列是可寻址阵列,例如位置可寻址阵列。更具体来说, 阵列的每个探针可以位于固相支持物上已知的、预定的位置,以便每个探针的身份(即序列)可以从它在阵列中(即支持物或表面上的)位置来确定。专业技术人员将会认识到,在阵列上可以包括阳性对照探针,例如已知与靶多核苷酸分子中的序列互补和杂交的探针,以及阴性对照探针,例如已知不与靶多核苷酸分子中的序列互补和杂交的探针。在一个实施方案中,阳性对照可以沿着阵列的周边合成。在另一个实施方案中,阳性对照可以合成在穿过阵列的对角条纹中。其它变体是本领域已知的。探针可以通过本技术领域已知的任何各种方法固定化到固体表面上。在某些实施方案中,该模型可以进一步扩展以包含样品特征例如细胞或生物体表型,允许将细胞类型特异性表达与可观察的征候例如临床指标和预后(例如临床疾病发展,对治疗的相应等)相联系。在一个实施方案中,提供了用于前列腺组织的模型,从而鉴定了癌症、上皮肥大和疾病发展的细胞类型特异性标志物。在另一个实施方案中,公开了用于研究患有复发癌症与患有未复发癌症的对象之间基因的差异表达的方法。还提供了用于研究混合细胞类型样品的框架,以及允许在样品中的基因间进行交流的更灵活的模型。还提供了进一步扩展,以确定具有不同特征的样品例如来自随后复发的对象与未复发对象的样品之间的表达差异。统计处理本文提供的方法包括确定相对细胞含量与测量的表达水平之间的回归关系。例如,可以通过测定测量的表达水平对细胞比例的回归,来确定回归关系。用于确定变量之间的回归关系的统计方法在本技术领域中是已知的。这样的通用统计方法可以按照本文中提供的关于测量的表达水平对细胞比例的回归的教导来使用。本文提供的方法还包括根据相对细胞含量与表达水平之间的回归关系来计算每种细胞类型中分析物的水平。回归关系可以按照本文提供的方法来确定,并且根据回归关系,可以计算特定细胞类型的特定分析物水平。本文提供的方法能够对特定细胞类型的任何各种分析物进行计算。例如,本文提供的方法能够对单一细胞类型的单一分析物进行计算,或能够对单一细胞类型的多个分析物进行计算,或能够多个细胞类型的单一分析物进行计算,或能够对多个细胞类型的多个分析物进行计算。因此,对于特定细胞类型来说能够计算水平的分析物的数量,可以在从单一分析物到所测量的分析物总数(即使用微阵列测量的分析物的总数)的范围内。在另一个实施方案中,能够进行分析物水平计算的细胞类型的数量,可以在从单一细胞类型到样品中存在的水平足够的所有细胞类型的范围内。如本文别处所提供,特定细胞类型的分析物水平可用于估算相应基因的表达水平。
本文提供的方法还可以包括鉴定在第一种细胞类型中相对于第二种细胞类型来说差异表达的基因。可以将特定细胞类型中一个或多个基因的表达水平与一种或多种其他细胞类型进行比较。表达水平的差异可以用本技术领域已知的各种方式来表示,包括本文中提供的数学或统计表示法。例如,如在本文别处描述,表达水平的差异可以表示成修正t 统计量。本文提供的方法还可用作基础,用于指示对象中特定细胞类型的存在的方法。本文提供的方法可用于鉴定特定细胞类型中的表达水平。使用本技术领域已知的任何各种分类方法,例如朴素贝叶斯分类(naive Bayes classifier),可以将来自对象的样品的细胞中的基因表达水平与参比表达水平进行比较,以确定样品中特定细胞类型的存在或不存在以及任选的相对量。例如,可以根据与本文的表中提供的每个标志物相关的修正t统计量, 在前列腺肿瘤分类中选择本文中提供的与前列腺肿瘤、基质或BPH相关的标志物。本文提供了在分类方法中使用修正t统计量的方法,其在本技术领域中也是已知的。在另一个实施方案中,本文提供的方法可用于表型指示方法,例如诊断或预后方法,其中可以将来自对象的样品中的基因表达水平与指示一种或多种特定表型的参比进行比较。出于示例而不是限制的目的,下面提供了在异质细胞样品中确定一种或多种细胞类型中基因表达水平的示例性方法。假设存在四种细胞类型BPH、肿瘤、基质和囊性萎缩。 假设每种细胞类型对于基因j的表达水平y来说,所具有的(可能)不同的分布表示为
权利要求
1.一种用于鉴定对象患有或未患前列腺癌的体外方法,所述方法包含(a)提供来自所述对象的前列腺组织样品;(b)测量所述样品中前列腺癌特征基因的表达水平;(c)将所述前列腺癌特征基因的所述测量的表达水平与参比表达水平进行比较;以及(d)如果所述测量的表达水平显著高于或低于所述参比表达水平,将所述对象鉴定为患有前列腺癌,而如果所述测量的表达水平不显著高于或低于所述参比表达水平,则将所述对象鉴定为未患前列腺癌。
2.权利要求1的方法,其中所述前列腺组织样品不包含肿瘤细胞。
3.权利要求1的方法,其中所述前列腺组织样品包含肿瘤细胞和基质细胞。
4.权利要求1的方法,其中所述前列腺癌特征基因选自本文表3或表4中列出的基因。
5.权利要求1的方法,其包含确定10个以上前列腺癌特征基因的测量的表达水平是否显著高于或低于所述10个以上前列腺癌特征基因的参比表达水平,以及如果所述测量的表达水平显著高于或低于所述参比表达水平,将所述对象分类为患有可能复发的前列腺癌,或者如果所述测量的表达水平不显著高于或低于所述参比表达水平,则将所述对象分类为患有可能不会复发的前列腺癌。
6.权利要求5的方法,其中所述10个以上前列腺癌特征基因选自本文表3或表4中列出的基因。
7.权利要求1的方法,其包含确定20个以上前列腺癌特征基因的测量的表达水平是否显著高于或低于所述20个以上前列腺癌特征基因的参比表达水平,以及如果所述测量的表达水平显著高于或低于所述参比表达水平,将所述对象分类为患有可能复发的前列腺癌,或者如果所述测量的表达水平不显著高于或低于所述参比表达水平,则将所述对象分类为患有可能不会复发的前列腺癌。
8.权利要求7的方法,其中所述20个以上前列腺癌特征基因选自本文表3或表4中列出的基因。
9.一种用于确定被诊断患有前列腺癌的对象的预后的方法,所述方法包含(a)提供来自所述对象的前列腺组织样品;(b)测量所述样品中前列腺癌特征基因的表达水平;(c)将所述前列腺癌特征基因的所述测量的表达水平与参比表达水平进行比较;以及(d)如果所述测量的表达水平不显著高于或低于所述参比表达水平,将所述对象鉴定为与所述测量的表达水平显著高于或低于所述参比表达水平的情况相比具有相对较好的预后,或者如果所述测量的表达水平显著高于或低于所述参比表达水平,则将所述对象鉴定为与所述测量的表达水平不显著高于或低于所述参比表达水平的情况相比具有相对较差的预后。
10.权利要求9的方法,其中所述前列腺组织样品不包含肿瘤细胞。
11.权利要求9的方法,其中所述前列腺组织样品包含肿瘤细胞和基质细胞。
12.权利要求9的方法,其中所述前列腺癌特征基因选自本文表8A或8B中列出的基因。
13.一种用于鉴定对象患有或未患前列腺癌的方法,所述方法包含(a)提供来自所述对象的前列腺组织样品,其中所述样品包含前列腺基质细胞;(b)测量所述基质细胞中一个或多个基因的表达水平,其中所述一个或多个基因是前列腺癌特征基因;(C)将所述一个或多个基因的所述测量的表达水平与参比表达水平进行比较,其中所述参比表达水平在来自非癌性前列腺组织的基质细胞中测定;以及(d)如果所述测量的表达水平显著高于或低于所述参比表达水平,将所述对象鉴定为患有前列腺癌,而如果所述测量的表达水平不显著高于或低于所述参比表达水平,则将所述对象鉴定为未患前列腺癌。
14.权利要求13的方法,其中所述前列腺组织样品不包含肿瘤细胞。
15.权利要求13的方法,其中所述前列腺组织样品包含肿瘤细胞和基质细胞。
16.权利要求13的方法,其中所述前列腺癌特征基因选自本文表3或表4中列出的基因。
17.一种用于确定被诊断患有前列腺癌的对象的预后的方法,所述方法包含(a)提供来自所述对象的前列腺组织样品,其中所述样品包含前列腺基质细胞;(b)测量所述基质细胞中一个或多个基因的表达水平,其中所述一个或多个基因是前列腺癌特征基因;(c)将所述一个或多个基因的所述测量的表达水平与参比表达水平进行比较,其中所述参比表达水平在来自非癌性前列腺组织的基质细胞中测定;以及(d)如果所述测量的表达水平不显著高于或低于所述参比表达水平,将所述对象鉴定为与所述测量的表达水平显著高于或低于所述参比表达水平的情况相比具有相对较好的预后,或者如果所述测量的表达水平显著高于或低于所述参比表达水平,则将所述对象鉴定为与所述测量的表达水平不显著高于或低于所述参比表达水平的情况相比具有相对较差的预后。
18.权利要求17的方法,其中所述前列腺组织样品不包含肿瘤细胞。
19.权利要求17的方法,其中所述前列腺组织样品包含肿瘤细胞和基质细胞。
20.权利要求17的方法,其中所述前列腺癌特征基因选自本文表3或表4中列出的基因。
21.一种用于鉴定对象患有或未患前列腺癌的方法,所述方法包含(a)提供来自所述对象的前列腺组织样品;(b)测量所述样品中一个或多个前列腺细胞类型预测基因的表达水平;(c)根据所述测量的表达水平确定所述样品中的组织类型百分率;(d)测量所述样品中一个或多个前列腺癌特征基因的表达水平;(e)根据所述组织类型百分率和所述测量的表达水平确定分类物;以及(f)如果所述分类物落入前列腺癌分类物的预定范围内,将所述对象鉴定为患有前列腺癌,而如果所述分类物未落入所述预定范围内,则将所述对象鉴定为未患前列腺癌。
22.权利要求18的方法,其中步骤(b)和(d)同时进行。
23.一种用于确定被诊断患有前列腺癌并治疗过前列腺癌的对象的预后的方法,所述方法包含(a)提供来自所述对象的前列腺组织样品;(b)测量所述样品中一个或多个前列腺组织预测基因的表达水平;(C)根据所述测量的表达水平确定所述样品中的组织类型百分率;(d)测量所述样品中一个或多个前列腺癌特征基因的表达水平;(e)根据所述组织类型百分率和所述测量的表达水平确定分类物;以及(f)如果所述分类物落入前列腺癌复发分类物的预定范围内,将所述对象鉴定为可能复发,而如果所述分类物未落入所述预定范围内,则将所述对象鉴定为可能不复发。
24.权利要求23的方法,其中步骤(b)和(d)同时进行。
25.一种用于鉴定组织样品中两种或更多种组织类型的比例的方法,所述方法包含(a)使用来自动物或植物中与所述组织样品的解剖位置相似的、组织比例已知的一组其他样品,其中至少两个所述其他样品所包含的所述两种或更多种细胞类型中每一种的相对含量都不相同;(b)测量每个所述其他样品中一种或多种基因表达或蛋白质分析物的总体水平;(c)确定所述其他样品中每种组织类型的相对比例与每种基因表达或蛋白质分析物的测量的总体水平之间的回归关系;(d)选择与所述其他样品中的组织比例相关的一种或多种分析物;(e)测量所述组织样品中步骤(d)的一种或多种所述分析物的总体水平;(f)将所述组织样品中每种分析物的水平与步骤(d)中所述分析物的水平进行匹配, 以确定所述组织样品中每种组织类型的预测比例;以及(g)使用所有估算值的中位数或平均比例在步骤(f)中获得的所述组织样品的预测组织比例中进行选择。
26.权利要求25的方法,其中所述组织样品包含癌细胞。
27.权利要求沈的方法,其中所述癌症是前列腺癌。
28.一种方法,其用于在各含一个以上被测样品的两组数据中比较通过与生物现象的变化相关的一种或多种方法所预测的两种或更多种分析物的水平,所述方法包含(a)只选择在两组数据中都被分析的分析物;(b)使用比较性方法例如与生物现象的变化相关的最高概率或最低假发现率,对每组数据中的所述分析物进行排序;(c)将步骤(b)中每个排序列表中的一组分析物进行相互比较,选择两个列表中都出现的分析物,并确定在这两个列表中都出现并显示出与生物现象相关的水平以相同方向变化的分析物的数量;以及(d)根据所述比较的数量将随机显示出观察到的同方向变化的数量的概率,计算一致性分值。
29.权利要求观的方法,其中在步骤(a)中改变每个列表的长度,以确定两个排序列表的最大一致性分值。
全文摘要
本发明公开了与前列腺癌诊断和/或预后确定相关的材料和方法。
文档编号G01N33/574GK102308212SQ200980156188
公开日2012年1月4日 申请日期2009年12月4日 优先权日2008年12月4日
发明者丹尼尔·莫克拉, 王轶鹏, 迈克尔·麦克莱兰 申请人:加利福尼亚大学董事会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1