专利名称:使用基因表达特征监控疾病状态和治疗的方法
按照35 U.S.C.§119(e)的规定,本申请要求1998年6月19日提交的美国临时专利申请第60/090,004号的优先权,该文整体结合在此作为参考。
1、发明领域本发明的领域涉及确定或监控受试者(优选人类患者)的疾病状态的发展进程或治疗方案的效力的方法。具体地说,本发明涉及在蛋白质功能或活性发生变化之前不时监控疾病状态或治疗的方法。
2、背景在过去的十年里,已有几项技术使得有可能监控任何一个时刻细胞内大量转录物的表达水平(参见,例如Schena等,1995年,“对具有互补DNA微阵列的基因表达模式的定量监控”,《科学》270:467-470;Lockhart等,1996年,“通过与高密度寡核苷酸阵列杂交来监控表达”,《自然生物技术》14:1675-1680;Blanchard等,1996年,“定序成阵列探测基因组的秘密”,《自然生物技术学》14,1649;1996年,1996年10月29日颁发给Ashby等的、题目为“药物筛选方法”的美国专利5,569,588)。在完全基因组已知的生物体中,有可能分析细胞内所有基因的转录物。对其他生物体(诸如人)的基因组的认识正逐渐增加,对他们有可能同时监控细胞内的大量基因。
转录物阵列技术的早期应用已涉及对在各种疾病状态中被正调节或负调节的基因的鉴别。转录物阵列的其他用途包括分析信号途径的成员,以及鉴别各种药物的目标。但是,以前没有认识到转录物阵列有可能用于监控疾病状态或对其的治疗作用的水平。特别是没有认识到疾病状态和/或治疗可能通过使用转录物阵列来检测蛋白质活性因来自疾病状态和/或治疗的干扰而出现的初期小变化导致的代偿性变化来监控。
不过,对于疾病状态来说,对因疾病状态的作用或因治疗方案(诸如给药方案)而导致的生物途径中的初期变化的鉴别是一个具有重大商业和人类重要性的问题。需要作出的大多数决定是进行有效的临床试验和依据监控身体内细胞中的变化的各项测定对患者的健康作出适当的处置。例如,当医师要确定患者的器官功能,诸如肾、肝或心脏等功能是否发生了变化时,他们要依赖于监控酶功能的变化,酶功能的变化可提示与各种疾病过程有关的细胞变化。
因此,作出正确的治疗决定的能力依赖于具有能对患者是否已受到疾病或治疗的影响而使生理发生变化进行监控的敏感监控器的能力。其中一些需要涉及以下特定的蛋白质活性水平。例如甲胎蛋白(AFP)或碱性磷酸酶(ALP)的水平常用于监控肝损伤(参见,例如Izumi,R等,1992年,《外科肿瘤学杂志》49:151-155)。免疫抑制剂环孢菌素A和mycophalote mofetil的作用也已分别使用对目标酶钙调磷酸酶和肌苷一磷酸的活性测定来监控(参见Yatscoff,R.W.等,1996年,《移植学会会报》28:3013-3015)。其他例子涉及监控凝固途径已缺损的患者的蛋白质功能。
因此,能通过监控蛋白质的功能来监控受试者体内的变化的力量是本领域中众所周知的,并且这类技术无论是在对动物试验中药物作用的检测中还是在对药物和疾病对人的作用的检测中都很普及。但是,一个显著的益处应是能监控与疾病状态或治疗的水平有关的并且先于可检测的实际蛋白质功能或活性变化的细胞中的早期变化。例如,这类技术将允许对疾病状态的水平作出较早的诊断或预测或判定。具体地说,这类技术的存在将允许在可观察到受试者的疾病状态的症状之前对其疾病状态的水平作出判定(例如疾病进展的阶段或水平)。于是就可能作出更早、更有效的治疗。监控由治疗产生的细胞中的这些早期变化的能力同样是非常有益的,因为这样就可能对治疗方案进行监控并容易地进行改进,以获得最大效力。
本文中讨论或引用的参考文献将不被解释为是本发明的现有技术。
3、发明概述本发明提供了监控受试者的疾病或疾病状态的方法。本发明的方法包括将通过测量受试者的细胞内的RNA或蛋白质丰度或活性而得到的“诊断特征”与通过测量疾病水平不同(即所监控的疾病或疾病状态的发展水平不同)的类似受试者的细胞内的RNA或蛋白质丰度或活性而得到的“内插干扰应答特征”进行比较。
本发明还提供了监控对受试者的治疗功效或治疗应答的方法。这些方法包括将通过测量经历了特定治疗的受试者的细胞中的基因或蛋白质丰度而得到的诊断特征与通过测量对已知治疗功效或应答水平有反应的类似受试者的细胞中的RNA或蛋白质丰度或活性而得到的内插干扰应答特征进行比较。
本发明还提供了用于按照上述方法分析疾病状态的水平和或治疗功效的计算机系统。
本发明的方法至少部分基于有关作为疾病状态的结果而出现的、或者作为导致其他基因的转录和活性的性能变化的治疗的结果而出现的对细胞的各种组分的干扰的发现,诸如对蛋白质功能或活性的干扰,上面所说的这些性能变化可用于定义与特定疾病状态或治疗的进展有关的特定变化的“特征”。即使与疾病状态有关的蛋白质的功能或活性水平没有实际破坏,这一点也适用。因此,本发明的方法不同也不依赖于监控蛋白质的功能。另外,本发明的方法可用于同时监控数种疾病和/或治疗。
更详细地说,首先,本发明提供了确定或监控受试者的一种或多种疾病状态的水平(即一种或多种疾病状态的进展)的方法,是通过(ⅰ)通过测量已知可能具有某种疾病状态的受试者的细胞中的细胞组分的丰度而得到诊断特征;(ⅱ)首先通过测量在每种疾病状态的多种水平下在类似受试者的细胞中存在的细胞组分的丰度而得到应答特征,其次插入由此得到的应答特征,从而获得所监控的每种疾病状态的内插干扰应答特征;(ⅲ)根据一些客观测量,确定每种疾病状态的内插干扰应答特征中,诊断特征与确定的内插应答特征的组合之间相似性最大的。于是,利用与由此确定的疾病状态的内插干扰应答特征相关的疾病水平来指示特定疾病状态的水平。
其次,本发明提供了确定或监控对受试者的一种或多种治疗的作用的方法,是通过(ⅰ)通过测量经受一种或多种治疗的受试者的细胞中各细胞组分的丰度而得到诊断特征,(ⅱ)首先通过测量在每种治疗作用的多种水平下在类似受试者的细胞中存在的细胞组分的丰度而得到应答特征,其次插入由此得到的应答特征,从而获得所监控的每种治疗的内插干扰应答特征;(ⅲ)根据一些客观测量,确定每种治疗的内插干扰应答特征中,诊断特征与确定的内插应答特征的组合之间相似性最大的。于是,利用与由此确定的治疗的内插干扰应答特征相关的作用水平来指示特定治疗的作用。在这种实施方案的不同方面,本发明的方法可用于监控治疗的有益作用或不利作用。例如,该方法可用于监控治疗(例如,一种或多种药物或化学治疗)的毒性作用。
本发明还提供了用于分析受试者的一种或多种疾病状态的水平和/或对受试者的一种或多种治疗的作用的计算机系统。该计算机系统包括信息处理器,和与所述处理器连接的编码一个或多个程序的存储器。存储器中编码的这些程序让处理器执行上述方法的各个步骤,其中诊断特征和干扰应答特征随着输入而被计算机系统接收。
在另一个实施方案中,本发明还提供了用于确定疾病状态水平或治疗作用水平的工具包。在另一个实施方案中,本发明提供了包含可以在本发明的上述任何一个实施方案中使用的、关于一种或多种疾病或治疗的应答特征数据(即应答特征)的数据库。
在上述实施方案的各个方面中,诊断特征可以通过测量基因表达、蛋白质丰度、蛋白质活性或这些量度的组合来确定。在上述实施方案的优选方面,确定的每种疾病状态或治疗的内插应答特征是将诊断特征和所评估的所有疾病状态或治疗的确定内插应答特征的组合之间的差值的目标函数最小的内插应答特征。
4、附图的简要描述
图1举例说明了基因表达对酵母菌-酿酒酵母中的SUN2基因的两个(二倍体)拷贝之一的缺失的应答;缺失突变体中的mRNA表达水平与野生型菌株中的表达水平的比值的log10绘制在纵轴上,与转录物的分子丰度大概成比例的杂交强度绘制在横轴上;将在5次重复实验中mRNA表达一致升高或降低的那些基因标记出来,并用误差线作标志,指示五次重复测量的标准偏差。
图2说明了大约6000个测量的酵母基因中,对甲氨蝶呤药物接触具有最大表达比值变化的30个酵母基因的应答曲线;甲氨蝶呤接触浓度是3、6、25、50、100和200μM;100μM滴定导致了50%生长缺陷;在适宜横坐标的-0.5处应答已调整至0。
图3说明了希尔函数与图2中说明的基因YOL031C的应答的拟合。
图4说明了本发明的计算机系统的示范实施方式。
5、发明详述这部分是对本发明及其应用的详细说明。这种说明是通过对本发明通用方法的更多细节和特性的几个范例性描述完成的。这些实施例是非限制性的,对于本领域技术人员来说显而易见的那些相关变化也要包括在所附的权利要求书中。以下这些实施例是对伴随通用方法的数据采集步骤的实施方案的说明。
5.1.介绍本发明包括监控受试者的一种或多种疾病状态的水平和/或对受试者的一种或多种治疗的效力的方法。合适的受试者包括细胞,特别是真核细胞,或者更优选是生物体或动物,特别是哺乳动物。具体地说,我们常常希望监控充当人类类似疾病或治疗的模型的实验室动物(诸如小鼠)的疾病状态和/或治疗情况。另一方面,本发明的方法可以用于兽医目的,即,用于监控动物(诸如狗、猫、马、小鸡、母牛等)的疾病状态和/或治疗情况。在一个特别优选的实施方案中,本发明的受试者是病人。
方法包括将用于说明要确定的疾病状态的水平(例如阶段或进展)或对其的治疗效力的水平的细胞的生物学状态的量度与响应已知的疾病状态水平或已知的治疗效力水平而产生的细胞生物学状态的变化的量度进行比较。
这部分首先介绍了某些概念,包括生物学状态和疾病状态的概念。接着是对本发明方法的简要和非限制性的概述。接下来的部分则更详细地介绍了本发明的方法。
尽管为了简单起见,本说明书经常提到单细胞(例如,“从单基因被干扰的细胞分离的RNA”),但本领域技术人员将理解,本发明的任何一个特定步骤多半是使用大量基因类似细胞,例如来自培养细胞系的细胞进行的。这些类似细胞在本文中叫做“细胞型”。这些细胞既可以来自天然的单细胞生物体,也可以来自多细胞高级生物体(例如人细胞系)。
具体地说,5.1部分描述了本发明的某些初步概念。5.2部分概括描述了本发明的方法。5.3部分描述了本发明方法的优选分析实施方案。5.4部分描述了测量细胞组分的方法。
生物学状态本发明的方法包括测量和观察细胞的生物学状态的方法。本文中所用的“细胞的生物学状态”的意思是指细胞组分集合的状态,他们足以描绘用于预期目的的细胞的特性,诸如描绘药物的作用情况。对这些组分的状态进行的测量和/或观察可以是针对它们的丰度(即,在细胞中的量或浓度),或者它们的活性,或者它们的修饰状态(例如磷酸化),或者与药物作用的特征有关的其他量度。在不同的实施方案中,本发明包括对不同的细胞组分集合进行这类的测量和/或观察。这些不同的细胞组分集合在本文中也叫做细胞的生物学状态情况。
在本发明中测量的一种有用的细胞生物学状态情况是其转录状态。细胞的转录状态包括在给出的一组条件下,细胞中的组分RNA种类、尤其是mRNAs的同一性和丰度。优选地,测量细胞中的所有组分RNA种类的主要部分,但至少要测量足够的部分以便描绘所研究的药物作用的特征。转录状态是目前在本发明中测量的生物学状态的优选情况。它可方便地通过例如借助现有的几种基因表达技术中的任何一种测量cDNA丰度来确定。
在本发明中测量的另一种有用的细胞生物学状态情况是其翻译状态。细胞的翻译状态包括在给出的一组条件下,细胞中的组分蛋白质种类的同一性和丰度。优选地,测量细胞中的所有组分蛋白质种类的主要部分,但至少要测量足够的部分以便描绘所研究的药物作用的特征。正如本领域技术人员已知的那样,转录状态常常是翻译状态的典型。
其他细胞生物学状态情况在本发明中也是有用的。例如,本文中使用的术语“细胞的活性状态”包括在给出的一组条件下,细胞中的组分蛋白质种类(以及可选的催化活性核酸物质)的活性。正如本领域技术人员已知的那样,翻译状态常常是活性状态的典型。
适当时,本发明也适合细胞生物学状态的“混合”情况,其中将不同细胞生物学状态情况的量度结合起来。例如,在一种混合情况中,某些RNA种类和某些蛋白质种类的丰度与某些其他蛋白质种类的活性的量度结合。另外,从下文中将领会到,本发明也适合可测量的其他细胞生物学状态情况。
无论在本发明的特定实施方案中测量和/或观察的细胞生物学状态情况是什么,生物系统中的干扰都将影响许多组分。具体地说,作为细胞中已知将存在的调节、体内稳态和补偿网络和系统的结果,即使细胞中只有一个单独的组分遭到直接破坏,没有直接影响任何其他组分,这种情况也将恶化并经常导致不可预测的间接影响。
在本文中用一种单个的假想蛋白质-蛋白质P的抑制作为例子。尽管只有蛋白质P的活性被直接破坏,但受蛋白质P抑制或刺激的其他细胞组分,或者为了补偿蛋白质P活性的损失而升高或减少的其他细胞组分也将受到影响。再其他的细胞组分将受到次级组分的浓度或活性变化的影响,等等。其他细胞组分的这些变化可用于定义与所给细胞组分的破坏有关的特定细胞组分变化的“特征”。
本发明中优选测量细胞的转录状态,这不仅是因为它相对容易测量,而且是因为虽然所研究的蛋白质可能不直接调制转录,但细胞中蛋白质活性即使有轻微的破坏也几乎总是通过直接或间接的作用导致转录状态发生可测量的变化。蛋白质活性水平的破坏改变细胞转录状态的原因是由于先前提到的反馈系统或网络以补偿方式对感染、基因修饰、环境变化、药物给药等作出反应,这主要是通过改变基因表达或转录的模式而作出的。作为内部补偿的结果,对生物系统的许多干扰尽管只对该系统的外部行为具有减弱了的作用,但仍然能深刻影响细胞中单独要素(例如基因表达)的内部应答。
疾病状态根据本发明,疾病状态指的是任何异常的细胞生物学状态。因此,疾病状态的出现可以通过用于确定细胞的生物学状态的相同生物组分集合来识别。一般说来,疾病状态对生物系统是有害的。
疾病状态尤其可能是环境病原体导致的结果,例如病毒感染(例如AIDS,乙型肝炎,丙型肝炎,流感,麻疹等),细菌感染,寄生虫感染,真菌感染或由其他一些生物体引起的感染。疾病状态也可能是其他一些环境因素(诸如化学毒素或化学致癌物)导致的结果。在本文中,疾病状态还包括遗传疾病,其中一个或多个基因拷贝改变或破裂了,由此影响了其生物功能。范例性的遗传疾病包括但不限于多囊肾病,家族性Ⅰ型多发性内分泌腺瘤形成,多发性神经纤维瘤,家族黑蒙性白痴,杭廷顿氏舞蹈病,镰状细胞性贫血,地中海贫血和唐氏综合征,以及其他遗传疾病(参见,例如《遗传病的代谢和分子基础》第7版,McGraw-Hill有限公司,纽约)。
其他范例性的疾病包括但不限于癌症,高血压,早老性痴呆,神经变性疾病,和神经精神病如双极情感性精神病或妄想性精神分裂症。范例性的癌症类型包括但不限于下表Ⅰ中列出的那些。在一个具体的实施方案中,要确定其水平或进展、或要按照本发明监控对其的治疗的疾病是遗传疾病。因此,在一个具体的实施方案中,疾病是与基因突变,例如易位、缺失或点突变(例如费城染色体)有关的癌症。表Ⅰ恶性肿瘤及相关疾病白血病急性白血病急性淋巴细胞性白血病急性骨髓性粒细胞性白血病原始粒细胞性白血病前髓细胞性白血病粒-单核细胞型白血病单核细胞性白血病红白血病慢性白血病慢性骨髓性(粒细胞性)白血病慢性淋巴细胞性白血病真性红细胞增多淋巴瘤何杰金氏病非何杰金氏病多发性骨髓瘤瓦尔登斯特伦氏巨球蛋白血症重链病固体肿瘤肉瘤和癌纤维肉瘤粘液肉瘤脂肉瘤软骨肉瘤骨原性肉瘤脊索瘤血管肉瘤内皮肉瘤淋巴管肉瘤淋巴管内皮肉瘤滑膜瘤间皮瘤尤因氏瘤平滑肌肉瘤横纹肌肉瘤结肠癌胰腺癌乳腺癌卵巢癌前列腺癌鳞状上皮细胞癌基底细胞癌腺癌汗腺癌皮脂腺癌乳头状癌乳头状腺癌囊腺癌髓样癌支气管癌肾细胞癌肝细胞瘤胆管癌绒膜癌精原细胞瘤胚胎性癌维耳姆斯氏瘤宫颈癌子宫癌睾丸瘤肺癌小细胞肺癌膀胱癌上皮癌神经胶质瘤星形细胞瘤成神经管细胞瘤颅咽管瘤室管膜瘤松果体瘤成血管细胞瘤听神经瘤少突神经胶质瘤脑膜瘤黑素瘤成神经细胞瘤成视网膜细胞瘤事实上,关于本发明,任何与疾病或机能紊乱有关的生物学状态都认为是疾病状态。本发明中所用的“疾病或疾病状态的‘水平’”是反映疾病或疾病状态的进展或状态的任意量度。一般而言,疾病或疾病状态将通过多个水平或阶段向前发展,其中疾病的影响逐渐变得严重。
因此,本文中所用的“治疗或治疗方案”指的是为了减少或消除疾病的症状而采取的治疗方案。治疗方案一般将包括例如一种或多种药物的规定剂量。
理想地,治疗作用对生物系统将是有益的,这种治疗将降低疾病状态的水平。但是,在许多情况下,治疗作用对生物系统将是不利的。例如,许多治疗方法,诸如用药或化学治疗,具有毒副作用。在这类情况下,对副作用进行监控是重要的,以便在副作用变得太严重之前通过例如减少剂量或完全终止治疗来调节治疗方案。
一般说来,疾病或疾病状态将对生物系统的组分有特别的影响,即“干扰”。这些作用可因此与疾病状态的水平关联起来。具体地说,至少在包含低水平干扰的低水平疾病状态下,单个疾病一般将通过可与特定疾病或疾病状态独立关联的、不同的、独立的干扰来介导它们的作用。同样,药物或可在治疗中使用的其他试剂将各自对生物系统的状态产生独特的干扰,这些干扰可以与特定治疗效力的水平关联起来。
在另一个实施方案中,本发明的方法也可用于诊断或甄别疾病状态的出现。
5.2.从表达特征监控疾病状态和治疗这部分首先介绍了本发明方法的概况,其次进一步举例说明了这些方法的主要内容。
本发明方法的概述本发明的方法可确定受试者的一种或多种疾病状态的水平(例如阶段或进展),更具体地说,可检测受试者的与一种或多种疾病状态相关的生物学状态的变化。本发明的方法也可用于监控经历一种或多种治疗的受试者的一种或多种疾病状态。因此,本发明也提供了用于确定或监控对受试者的一种或多种治疗的效力(即,确定治疗作用的水平)的方法。在一个具体的实施方案中,本发明的方法可以用于评定临床试验中的治疗效力,例如,在这类临床试验中作为成功或失败的早期替代标志。
本文中所用的“表达特征”包括指示细胞生物学状态情况的多种细胞组分的量度。这类量度可包括例如RNA或蛋白质丰度或活性水平。
受试者的细胞的生物学状态情况,例如转录状态,翻译状态或活性状态,如5.4部分中所述进行测量。这些量度的汇总,可选地用图表示,在本文中叫做“诊断特征”。测量对已知的相关疾病状态有反应,或者如果是在监控治疗效力,则是对已知的相关治疗作用有反应的一个或多个类似受试者的与在诊断特征中测得的那些类似的细胞生物学状态情况,例如转录状态。这些量度的汇总,可选地用图表示,在本文中叫做“应答特征”或“干扰应答特征”。将应答特征插入在所测量的蛋白质活性范围内的所有蛋白质活性水平的预计应答特征中。在要监控治疗效力的情况下,应答特征可以与有益作用、不利作用如毒性作用、或与有益作用和不利作用二者关联起来。
更普遍而言,本发明的方法允许某人监控个体受试者的多种疾病状态或治疗情况;例如对具有数种基因突变(每种各自与一种特定疾病有关)的受试者,或者对同时经历数种治疗方案的受试者(例如,服用数种药物的病人,每种药物都有不同的作用)。因此,可以分开得到每种疾病或治疗的应答特征。
将诊断特征中的细胞组分与在内插干扰应答特征中发生改变的细胞组分进行比较,目的是找出疾病状态或治疗作用的水平,它们的干扰特征与整个或实质整个诊断特征相一致。如果正在监控多种疾病状态或治疗,则将诊断特征与单个的每种疾病或治疗的干扰应答特征的一些组合进行比较。当发现在应答曲线中发生改变的大多数细胞组分在这两种特征中具有实质相同的值时,基本上所有诊断特征与应答特征相一致。优选地,在应答曲线中发生改变的细胞组分中至少有75%可以匹配上,更优选至少有90%可以如此匹配上。当这两组数据在考虑了实验误差后很可能是相同的,此时细胞组分在这两种特征中具有实质相同的值。
在一个优选的实施方案中,诊断特征与应答曲线的对比利用下列方法进行将测得的诊断特征与针对一些干扰水平(即针对一些疾病或治疗效力的水平)而确定的干扰应答特征之间的差异的客观量度最小。通过在将这种差异最小的干扰值下从干扰曲线中提取出干扰应答特征而将该客观量度最小。
客观量度的最小化可以利用标准数值分析技术进行。参见,例如Press等,1996年,Numerical Recipes in C,第2版,剑桥大学出版社,Ch.10.;Branch等,1996年,Matlab优化工具箱使用者指南,Mathworks(Natick,MA)。
对本发明方法的说明以下段落借助于非限制性的实施例,根据图1和图2总体说明了本发明的几种方法。在真核细胞中,有成百上千个互相连接的信号途径。出于这个原因,细胞内蛋白质功能的紊乱对其他蛋白质和通过一级、二级、有时是三级途径相连的其他基因的转录会产生很多影响。各种蛋白质功能之间的这种多方面的相互联系意味着任何一种蛋白质的改变都很可能导致大量其他蛋白质的补偿性变化。具体地说,即使细胞中只有一个蛋白质出现部分破坏,诸如因接触药物或因调制基因拷贝数的疾病状态(例如基因突变)的影响,都会导致其他很多基因转录中的特征补偿性变化,转录物的这些变化可以用于定义与功能的破坏(即特定疾病状态或治疗)有关的特定转录物变化的“特征”,即使是在蛋白质活性的变化尚不可检测出来的阶段。
图1说明了在其中SUN2基因的两个(即二倍体)拷贝之一失去功能的酵母菌酿酒酵母的缺失突变体中测量的诊断特征的例子。该图说明了这种酵母菌的基因组中大约6000个基因的mRNA表达水平。具体而言,将缺失突变体中的mRNA表达水平与野生型菌株中的表达水平的比值的log10绘制在纵轴上,与分子丰度约略成比例的杂交强度绘制在横轴上。如5.4部分中所述,这些基因表达水平的测量用基因转录阵列进行。将在重复实验被一致正向调节或反向调节的基因标记出来,并用误差线作标志。这些误差线指示了从5个微阵列得到的对每种基因转录物进行的五次重复测量的标准偏差。
尽管不知道SUN2基因产物将是转录因子,但有15种基因响应这种杂合缺失而被正向或反向调节了2倍以上。下面的表Ⅱ中显示了对于表达的变化达到2倍以上的那些基因来说,造成这种mRNA表达变化的因子的log10。这些变化中有许多明显大于标准偏差。对SUN2基因自身的转录水平的测量显示,其mRNA表达水平因基因拷贝数从2降至1而降低到小于原来的二分之一。因此,蛋白质活性水平几乎已确定地降低到小于原来的二分之一。然而,在其他基因的表达特征中有不同的应答。
表Ⅱ
事实上,在有可能通过监控蛋白质功能来检测变化之前很久就可监控这些补偿性变化。因此,通过测量在不同生物学状态水平,具体地说,在不同疾病状态水平或在不同治疗效力水平下的基因表达,就有可能在蛋白质功能出现可检测的变化之前很久构造出能显示特定疾病或治疗的作用的应答曲线。当细胞的生物学状态遭到破坏或部分破坏时所导致的对细胞中基因的正向调节和反向调节表示了细胞为维持体内稳态而发生的补偿性变化。当转录中的这些补偿性变化发生在细胞显示出任何可识别的生理变化之前时,这些表达特征是细胞生物学状态的非常敏感的指征。当该灵敏度用于诊断疾病状态的出现时它具有有效值,在监控对具有疾病状态的受试者的治疗效力中它也具有有效值。
图2说明了在二氢叶酸还原酶的离散蛋白质活性水平下测量的干扰应答特征的例子。具体地说,该图说明了在酵母菌酿酒酵母的基因组中的大约6000个基因中,响应药物甲氨蝶呤(已知其主要是通过破坏二氢叶酸还原酶的活性发挥作用)的六个不同滴定试验而产生最大表达变化的30个基因的mRNA表达水平。如5.4部分中所述,这些基因表达水平的测量用基因转录阵列进行。图2中的干扰应答特征可以按照下面的5.3部分中公开的方法插入,以形成任何活性水平的二氢叶酸还原酶的干扰应答特征,并由此与药物甲氨蝶呤的效力关联起来。
干扰应答特征,如图2中显示的那些,可以例如通过测量患有相同疾病的一个或多个类似受试者的细胞组分来产生和测量。然后,通过按照传统方法监控疾病状态,这些干扰应答特征将与类似受试者的疾病状态的“水平”相连系,例如,与疾病状态的进展相连系。
同样,用于监控治疗效力的干扰应答特征可以通过测量经受相同治疗的一个或多个类似受试者的细胞组分来产生和测量。通过使用传统方法(例如蛋白质功能测定法)监控对类似受试者的治疗效力而使干扰应答特征与治疗效力发生连系。
因此在这类系统中采用用于得到必需的基因表达应答曲线和蛋白质活性数据的被动方法。用于得到基因表达应答曲线和蛋白质活性数据的被动方法包括,例如,从已经受了不同剂量的药物治疗安排的个体采集组织或血液样品,也可使用伴有已知的有关至少一种中级水平的疾病状态的杂合突变的个体。
在某些实施方案中,获得其干扰特征的“类似受试者”可以与正对其疾病状态或治疗作用进行监控的受试者是同一个体(即,同一生物体或病人)。例如,干扰应答特征可以从刚好在某一点具有疾病状态的个体得到,然后用于监控刚好在其他某点时该疾病状态的复发。
在其他一些实施方案中,最好监控多种治疗对受试者的作用,例如包含药物A、B和C的方案。在这类实施方案中,可以首先通过监控单独的药物A对同一受试者的作用并使该作用与对来自该受试者的细胞的细胞组分测量发生连系而得到药物A的干扰应答特征。同样,接下来可以用相同的方法得到单独的药物B和单独的药物C的干扰应答特征。然后这些干扰应答特征可以用于监控这些治疗的组合(在该实例中是药物A、B和C的组合)对这个受试者的累积作用。
在另一些实施方案中,得到一种或多种疾病状态和/或一种或多种药物疗法的干扰应答特征并校准成一种或多种临床作用。可例举的临床作用包括但不限于血压、体温、血糖或尿糖水平、胆固醇水平(包括,例如HDL和LDL水平)、病毒负荷水平、血液的血细胞比容水平、白细胞数、肿瘤大小等。事实上,可以在临床环境中容易地得到的病人的任何生化和/或生理状态量度都是临床作用的量度。
在这类实施方案中,病人的一种或多种疾病状态的水平可以通过监控该病人的诊断特征并将其与被校准成一种或多种疾病状态的干扰应答特征的一种或多种临床作用进行比较来确定和/或监控。同样,对病人的一种或多种药物疗法可以通过监控经受该种药物疗法(或该几种药物疗法)的病人的诊断特征并将其与被校准成一种或多种药物疗法的干扰应答特征的一种或多种临床作用进行比较来监控。然后,通过调节该种药物疗法(或该几种药物疗法),直到病人的诊断特征与针对所需临床作用而得到的特征相一致,就可容易地使病人达到期望的临床作用。
尽管本发明说明书的大部分涉及基因表达数据的测量和建模,但本发明同样适合于其他细胞生物学状态情况的测量,如蛋白质丰度或活性的测量。用于直接测量蛋白质活性的方法是本领域技术人员众所周知的。例如,这类方法包括倚赖于具有对蛋白质的抗体配体的方法,诸如蛋白质印迹法(参见,例如Burnette,1981年,《美国分析生物化学》112:195-203)。这类方法还包括酶活性测定法,它们可用于大多数已进行了充分研究的蛋白质药物目标,包括但不限于HMG CoA还原酶(Thorsness等,1989年,《分子与细胞生物学》9:5702-5712),和钙调磷酸酶(Cyert等,1992年,《分子与细胞生物学》12:3460-3469)。Deshaies等在1988年的《自然》332:800-805中给出了一个通过关闭可控启动子来关闭一项特定基因功能,并经蛋白质印迹法使这与蛋白质耗竭发生连系的例子。
图2中的干扰应答曲线说明了这类曲线的普遍预期形状。这种预期形状包括一个低干扰控制参数的阈值下区域,在这个区域内细胞组分实际上对干扰没有反应。在这个阈值下区域之后,干扰(即疾病或治疗)开始升效,细胞组分的特征值被扰乱。被扰乱的数值的曲线通常最好朝向饱和时的渐近水平单调上升或下降,超过渐近水平后就不再观察到进一步的改变。应答曲线在这个饱和区内终止。
事实上,在有些情形下,可能和预期的是更复杂的非单调应答曲线形状。例如,在干扰具有毒性作用的情况下,如毒性可能使细胞组分的上升丰度开始下降,并且可能使下降丰度开始下降得更快。另外,生物系统中已知将存在的非线性和反馈机理也可导致非单调的多相应答。这种应答可能随着干扰幅度的升高或接触药物而先升高然后下降。例如,干扰可通过具有不同阈值且具有相反作用的两个途径作用于某些细胞组分,从而产生先升高后降低(或先降低后升高)的应答。
本发明的方法根据单调应答曲线(诸如图2中说明的那些)进行了说明和初步描述。本发明的方法主要适用于对生物系统的低水平的干扰,例如在疾病的早期发生的。这些干扰一般将足够低,以避免达到可观察到毒性作用和/或非线性和反馈作用的水平。然而,正如对本领域技术人员来说显而易见的那样,本文中描述的方法也适用于非单调应答曲线。
5.3.分析实施方案本发明方法的分析实施方案包括用于通过一些客观功能来评估在特定水平的疾病状态下、或在特定水平的治疗效力下,诊断特征与应答特征之间的差值的实施方式。本发明的方法包括确定在与特定疾病状态或治疗作用相关的多种水平下的、该特定疾病状态或治疗的典型干扰应答特征数据。然后将诊断特征数据与应答特征数据进行对比,由此确定疾病状态的水平和/或治疗作用的水平。
在本发明的其他一些实施方式中,某些步骤可以省略或按照不同于上面所述的顺序进行。例如,在某些实施方式中,某种疾病和/或治疗、或者数种(最好是相关的)疾病和/或治疗的干扰应答特征数据已经得到了,对每项分析来说,就不必再单独进行获得这些数据的步骤。
5.3.1.表达特征的表示本发明方法优选通过测量干扰应答特征开始。在许多情况下,将已经测得了特定疾病状态和/或治疗的干扰应答特征。在其他情况下,这种应答数据必须在进行本发明的后续步骤之前测得。测量对类似受试者进行,即,对于本领域技术人员来说在要确定的疾病状态或治疗效力的水平方面足够相似的受试者,以期望表达特征将足够相似以提供有用的干扰应答特征。在一个优选的实施方案中,类似受试者是显示疾病状态的同一物种中的一个受试者,并且可以可选地为同一性别和/或近似年龄。
如上所述,干扰特征包括细胞组分的相关特性的相对变化的量度,这些变化与特定疾病状态的多个已知水平(例如进展的阶段)和/或特定治疗作用的已知水平相互连系,例如,是通过疾病症状的变化或疾病进展或严重性的已知标志的变化观察到的。这类疾病进展的标志包括,例如甲胎蛋白,碱性磷酸酶,钙调磷酸酶,肌苷一磷酸,等等。
更具体地说,测量天然基因表达水平(即不存在疾病状态或治疗)与受干扰的基因表达水平(即存在疾病状态和/或治疗)的比值(或这些比值的对数)。
在下文中,变量“p”一般是指干扰水平,它们与特定疾病状态或治疗作用的水平相互连系。变量“R”一般是指干扰应答数据。更详细地说,第一个干扰水平称之为“p1”。对第k个细胞组分的干扰应答是Rk。因此,Rk(p1)是指第k个细胞组分在第一个干扰水平下的应答。
类似地得到诊断特征数据,如果尚未得到的话,必须将其测量出来。如上所述,数据通过测量所研究的细胞(即来自受试者的细胞)中的细胞组分的水平而得到。当获得该数据时,疾病状态或治疗效力的实际水平通常是未知的。在下文中,变量“D”一般是指诊断特征数据。更详细地说,第k个细胞组分的诊断特征是Dk。一般说来,Rk(p)和Dk的值是每个细胞组分的表达比值的log10。表达比值是受干扰的系统中的水平与天然系统中的水平之间的比值。
一般而言,获得诊断特征数据时的实际水平将与实际获得干扰应答特征时的任何一种干扰水平不一致。因此,必需插入干扰应答数据,以得到需要的值。这种插值法优选通过样条拟合或通过模型拟合来完成。插值法及任何所需参数的选择在步骤303中完成。
在样条拟合中,干扰应答数据通过将适宜的样条插值函数S乘以测得的数据值得到的乘积求和而插入,如下列等式所示Rk(u)=∑S(u-p1)Rk(p1)(1)1变量“u”是指要评估干扰应答数据时的疾病或治疗效力的任意水平。一般说来,S可以是在响应函数中预期具有结构的宽度特性的有限载体的任何平滑的、或者至少是分段连续的函数。范例性的宽度可以选择为是被插入的应答函数从其渐近值的10%升高至90%的过程经过的距离。例举的S函数包括线性和高斯插值。
在模型拟合中,干扰应答通过利用单一参数函数逼近每种应答而插入。适宜用于逼近转录状态数据的一个范例性的模型拟合函数是希尔函数,它具有可调节的参数a、u0和n。H(u)=a(u/u0)n1+(u/u0)n---(2)]]>对于干扰应答的每种细胞组分来说,都要独立地选择这些可调节的参数。优选地,对可调节参数进行选择,使得对于每种细胞组分来说,来自Rk(p1)的位距H(p1)的平方和最小。这种优选参数调节法在本领域中被认为是H()对Rk()的最小二乘方拟合。其他可能的模型函数是基于多项式拟合,例如通过各种已知种类的多项式。
具有希尔函数的模型拟合根据图2和3来加以说明。如上所述,图2说明了受到甲氨蝶呤干扰并借助测量来识别的例子。该图说明了在酵母菌酿酒酵母的基因组中的大约6000个基因中,响应6个不同的甲氨蝶呤给药水平而产生最大表达变化的30个基因的RNA表达水平。图3说明了希尔函数对这些基因表达水平之一的干扰应答的拟合。具体地说,酵母基因YOL031C通过具有参数n=2、a=-0.61和log10(u0)=1.26(这些参数是利用先前描述的最小二乘方法选定的)的希尔函数拟合。
既然所有这30种基因都具有单调性良好的最大应答,即,没有一个应答随着给药的增加而从其最大幅度显著下降(或从其最小幅度显著升高),所以希尔函数是适宜的模型拟合函数。对于非单调行为它也许不适合。
得到了干扰应答对任何水平的干扰的表示为p的插值后,可以将诊断表达特征D与干扰应答曲线R(p)进行对比,以找到对所有可Σk(Dk-Rk(p))2}---(3)]]>{p}能的p值的最佳拟合。按照一种优选的方法,对所有可能p值的最佳拟合从相关最小二乘方近似问题的最小化来确定。
在等式3中,内插应答特征和诊断特征的差值的绝对平方对曲线中的所有细胞组分(用下标k表示)求和。诊断特征关于应答曲线的最佳拟合从相对蛋白质活性水平p的该总和的最小化来确定。最小二乘方等式3的最小化使用可用的许多数值法中的任何一种进行。参见,例如Press等,1996年,umerical Reccipes in C,第2版,剑桥大学出版社,Chs.10,14;Branch等,1996年,Matlab优化工具箱使用者指南,Mathworks(Natick,MA)。
一般,从实验到名义上的重复实验在应答的渐近值上会有一些差异。在重复实验中个体细胞组分具有类似的相对应答幅度,但在一个实验中所有应答可能有规则地更大或更小。这可能引起在等式3中确定的p值产生或高或低的偏差。能防止这些系统幅度偏差值偏置导出的p值的另一种拟合方法是将应答特征和诊断特征之间的相关性最大化。该方法与最小二乘方法在数学上密切相关。按照该方法,蛋白质活性水平p从解等式4来确定。max{ΣkRk(p)Dk[(ΣkRk2(p))(ΣkDk2)]1/2}---(4)]]>{p}等式4可以利用在最小二乘方法中描述的方法求解。对本领域技术人员来说不言而喻的是,上述拟合方法相当于将等式4的负值最小化。
在某些情况下,等式4将具有非常浅的、因此是非常不确定的最大位置。具体而言,在许多情况下,应答特征R(p)在不同的p下看上去将非常相似,只是随着p的升高整体按比例地缩放。在这些情况下,对所有可能的p值的最佳拟合优选利用等式3中的最小二乘方法来确定。在不同细胞组分的相对应答幅度随着疾病状态或治疗作用的水平的改变而显著变化的情况下,例如,在产生与图2中描述的那些类似的应答曲线的情况下,对所有可能的p值的最佳拟合优选通过最大化等式4来确定。
在某些实施方案中,本发明的方法可以用于同时监控多种疾病状态的水平,或用于同时监控多种治疗的效力。在这类实施方案中,分开确定有关第ⅰ种疾病状态或治疗的第k个细胞组分在第1个干扰水平下的干扰应答Ri,k(pi,1)。如上所述插入每种疾病的应答特征,以生成有关每种疾病状态或治疗的内插应答特征Ri,k(pi)。然后可以将诊断表达特征D与每种疾病状态或治疗的干扰应答曲线Ri(pi)的组合进行对比,以找出对所有可能的{pi}值的最佳拟合。在一个特别优选的实施方案中,治疗的作用和/或疾病的水平足够低,没有观察到上面所讨论的非线性或反馈作用。在这样的实施方案中,干扰应答特征可以简单地比作每种疾病的干扰应答曲线的总和,即,比作∑Ri(pi)。因此,在通过最小化最小二乘方问题来确定最佳拟合的实施方案中,最佳拟合是对等式5的解答。min{Σk(Dk-ΣiRi,k(pi))2}---(5)]]>{pi}5.3.2.评定统计学显著性提取出了与诊断特征最佳拟合的干扰应答特征之后,最好(尽管是可选的)在某些实施方案中对相应的拟合赋予统计学显著性。
应答特征对诊断特征的拟合的统计学显著性通过将从等式3或5的解答确定的最小残余的值与残余的预期概率分布进行对比来确定。就这种分布而言的最小残余越不可能,相应的拟合就越具显著性。在使用相关最大化方法的情况下,同样的方法可以用于等式4中的最大值。具体地说,可以找到最大值的预期分布(如下文所述),并且从这个分布确定实际得到的最大值的显著性。
残余的预期概率分布可以利用本领域中已知的任何一种方法来估计。一般来说,这个分布是基于某种有关输入概率分布的事先假定而分析估定的。由于在这种情况下进行这样的分析估定是困难的,因此最好通过在Fisher所描述的方法基础上建模来估计残余分布。参见,例如Conover,第2版,1980年,应用非参数统计学,John Wiley。该方法通过获得输入数据的排列或随机子集而提供了一个经验残余分布。详细地说,在这里,输入可以关于在诊断特征中测量的细胞组分而重新排列。
Dk-Dn(k)Ri,k(Pi,l)-Ri,n(k)(Pi,1)(6)
按照优选的方法,通过用随机的输入数据重复求解等式5(或等式4)并累加这些残余而形成经验残余分布,就可构造出残余分布。因此,构造的经验残余分布来自与真实数据具有相同总体统计学特征的随机数据。详细地说,首先,将诊断特征数据或应答特征数据(但不是二者都)相对于细胞组分指数而随机化。这种随机性转化由以下转化表示。
在等式6中,∏表示对每个特征独立地选定的干扰。诊断特征或每个应答特征(但不是二者都)按照等式6随机化。因此,随机化的表达曲线数据通过独立地排列量度点而从测量数据得到。其次,等式5(或等式4)利用选定的数值近似技术求解,并保存所得到的残余的值。重复这些步骤以充分随机化,从而构造充分显著的预期残余概率分布。为了得到99%或更好的置信水平(即P值小于0.01),需要100次以上的随机化。
已构造了经验残余分布后,将实际确定的残余与构造的分布进行对比,并考虑该分布确定其概率。这个概率是指定给提取出的应答特征对诊断特征的拟合的显著性。换句话说,细胞组分的组合对诊断特征的任何拟合的统计学显著性在优选的实施方案中通过小概率值给出,随机数据通过假定水平的疾病状态或治疗作用比实际数据拟合得更好。
在其中拟合至少具有医学中常用的95%标准概率阈值的情况下,相应的疾病或治疗效力水平可认为具有足够的统计学显著性。在其他情况下,不可能达到可接受的显著性阈值。如果是这样,那么在某些实施方案中,有利的是选择新的干扰特征数据,以找出以选定的显著性阈值与诊断特征相拟合的应答特征。
例如,在本发明的其中的方法用于诊断或监控具有特定疾病或疾病状态的个体的实施方案中,干扰应答特征数据常常由来自因特定疾病状态或其水平而具有已知干扰的个体的表达特征数据组成。在这类实施方案中,最好将统计学显著性指定到已知干扰的干扰应答特征对特性未经过描绘的个体的诊断特征的拟合。在其中拟合至少具有医学中常用的95%标准概率阈值的情况下,该个体就可诊断为患有相应的疾病。另一方面,如果拟合不具有至少95%的显著性,可以将统计学显著性指定到一种或多种其他干扰应答特征对诊断特征的拟合,其中使用从具有其他不同的已知疾病状态或其水平的个体得到的干扰应答特征,直到确定出确实具有至少95%显著性的干扰应答特征。
5.3.3.实施系统和方法在前面的各个部分中描述的分析方法可优选利用下列计算机系统并按照以下程序和方法实施。图4说明了适于实施本发明的分析方法的范例性计算机系统。计算机系统401举例说明为包括内部组件并与外部组件连接。该计算机系统的内部组件包括与主存储器403互连的处理器402。例如,计算机系统401可以是200 Mhz或更大时钟频率的英特尔奔腾处理器并具有32MB或更大的主存。
外部组件包括大容量存储器404。该大容量存储器可以是一个或多个硬盘(它们一般与处理器和内存包装在一起)。这些硬盘的存储容量一般为1GB或更大。其他外部组件包括用户界面设备405,可以是监视器和键盘;以及定点设备406,可以是“鼠标”;或其他图形输入装置(没有图示)。一般而言,计算机系统401也可以与网络连接器407连接,该网络连接器407可以是与其他局部计算机系统、远程计算机系统、或广域通讯网络如因特网连接的以太网的一部分。这种网络连接可以使计算机系统401与其他计算机系统共享数据和处理任务。
在该系统的运行过程中加载到内存中的是几个软件,它们在本领域中是标准的,而对本发明又是特别的。这些软件共同使计算机系统按照本发明的方法工作。这些软件一般存储在大容量存储器404中。软件410代表操作系统,它可以管理计算机系统401及其网络互连。例如,该操作系统可以是微软视窗软件Microsoft WindowsTM系列的,诸如Windows 95、Windows 98或Windows NT。软件411代表方便地存在于该系统上的通用语言和函数,以帮助程序执行本发明的特定方法。可用于将本发明的分析方法编写成程序的语言包括C和C++语言,或者不是优选的JAVA语言。最优选的是,本发明的方法用允许等式的符号输入项和处理的高级说明包括要使用的算法的数学软件包编程,由此使用户不必在程序上编排单个等式或算法。这类软件包包括Mathworks公司(Natick,MA)的Matlab,Wolfram Research公司(Champaign,Illinois)的Mathematica,或Math Soft公司(Seattle,Washington)的S-Plus。因此,软件412代表用程序语言或符号软件包编程的本发明的分析方法。在一个优选的实施方案中,计算机系统还包含有关特定疾病或治疗的干扰应答特征的数据库413。更优选的是,数据库413包含数种疾病和/或治疗的干扰应答特征。
在一个范例性的执行过程中,为了实施本发明的方法,用户首先将诊断特征数据加载到计算机系统401中。这些数据可由用户从监视器和键盘405直接输入,或者从通过网络连接器407相连的其他计算机系统输入,或者在可移动的存储媒体如CD-ROM或软盘上(没有图示)。接着,用户启动执行表达特征分析软件412,该软件执行确定诊断特征与从某些水平的疾病状态或治疗作用的干扰应答特征数据确定的应答特征之间的差异的客观函数并将其最小化等步骤。在一个不太优选的实施方案中,用户加载干扰应答特征数据,插入应答特征数据的步骤利用分析软件412进行。
本发明还提供了按照本发明的方法用于疾病状态和/或治疗的干扰应答特征的数据库。本发明的数据库包括有关疾病或治疗的干扰应答特征,优选有关数种不同的疾病和/或治疗,以便同一数据库可以用于监控数种不同的疾病和/或治疗。优选的是,这样的数据库将是可以加载到计算机系统中的电子形式的,诸如图4中示例并在上文中描述的一个。这些电子形式包括加载到用于执行本发明方法的计算机系统的主存403中的、或者在通过网络连接器407相连的其他计算机的主存中的、或者在大容量存储媒体404上的、或者在可移动的存储媒体诸如CD-ROM或软盘上的数据库。
在一个优选的实施方案中,本发明的分析方法可以利用用于确定细胞中特定蛋白质的活性水平的工具包来实施。这类工具包含有阵列或微阵列,诸如在下面的5.4.1部分中描述的那些。包括在这类工具包中的微阵列包含一个固相,例如一个表面,一些探针杂交或束缚在该固相的已知位置上。优选的是,这些探针由已知不同序列的核酸组成,每个核酸都能与RNA种类杂交或与从此衍生的cDNA种类杂交。具体地说,本发明的工具包中包含的探针是能与衍生自RNA种类的的核酸序列特异性杂交的核酸,所述RNA种类已知能响应与将要利用该工具包监控的特定疾病或治疗有关的干扰而增加或减少。本发明的工具包中包含的探针优选基本上排除了与不响应与将要利用该工具包确定的疾病状态或治疗作用的特定水平有关的干扰而增加或减少的RNA种类杂交的那些核酸。
在优选的实施方案中,本发明的工具包还包括干扰应答特征的数据库,诸如在本部分的前面描述的那些数据库。
在另一个优选的实施方案中,本发明的工具包还包括能加载到计算机系统的存储器中的表达特征分析软件,诸如在本部分的前面描述的和在图4中示例的软件。本发明的工具包中包含的表达特征分析软件本质上与上述表达特征分析软件412相同。这类软件能执行本发明的分析步骤。优选地,该软件让计算机系统的处理器执行下列步骤(a)接收受试者的细胞的诊断特征,(b)接收与特定疾病状态或治疗作用的水平相关的干扰应答特征,和(c)确定在所述诊断特征和已确定的内插干扰应答特征之间具有最大相似性的内插应答特征。
用于实施本发明的分析方法的其他系统和方法对本领域技术人员来说将是显而易见的,它们也将包括在所附的权利要求书的范围内。具体而言,所附的权利要求书想要包括用于实施本发明方法的、对本领域技术人员来说显而易见的其他程序结构。
5.4.测量方法通过测量因细胞的生物学状态的干扰、例如因疾病或治疗而改变的细胞组分,就可得到用于本发明的诊断和干扰应答特征。这些细胞特性可以是任何一种细胞生物学状态情况。它们可以是转录状态,其中测量RNA的丰度;翻译状态,其中测量蛋白质的丰度;活性状态,其中测量蛋白质的活性。细胞特性也可以是混合情况,例如,其中测量一种或多种蛋白质的活性以及细胞组分的RNA丰度(基因表达)。这部分描述了用于测量受到被破坏或被扰乱的生物学状态的影响的细胞组分的范例性方法。本发明也适合这类测量的其他方法。
本发明的基于测量细胞的转录状态的实施方案是优选的。转录状态可以利用对在下文中描述的核酸或核酸模拟探针的阵列的杂交技术来测量,或者利用在接下去的部分中描述的其他基因表达技术来测量。无论怎样测量,结果都是应答数据,包括表示RNA丰度比例的数值,它们通常反映了DNA表达比例(在RNA降解速率没有差别的条件下)。5.4.1.部分中描述了这类测量方法。
在本发明的各种可供选择的实施方案中,可以测量除了转录状态以外的其他生物学状态,诸如翻译状态、活性状态或混合情况。5.4.2.部分详细描述了这类测量方法。
5.4.1.转录状态的测量优选地,转录状态的测量通过对转录物阵列的杂交进行,在本部分对此作了说明。在本部分的后面描述了转录状态测量的某些其他方法。
转录物阵列概述在优选的实施方案中,本发明使用“转录物阵列”(本文中也叫做“微阵列”)。转录物阵列可以用于分析细胞中的转录状态,尤其是用于测量接触了所研究的逐级治疗水平(诸如所研究的逐级药物水平)或接触了所研究的逐级疾病状态水平的细胞的转录状态。
在一个实施方案中,转录物阵列是通过将表示细胞中存在的mRNA转录物的可检测标记的多核苷酸(例如荧光标记的从总细胞mRNA合成的cDNA)与一个微阵列杂交而产生的。微阵列是具有细胞或生物体的基因组中的许多基因(优选大多数或几乎所有基因)的产物的结合(例如杂交)部位的有序阵列的表面。微阵列可以用多种方法构造,下面将描述其中的几种。无论是如何产生的,微阵列都具有某些共同特性阵列是可再生的,从而允许有要产生的给定阵列的多个拷贝并可容易地互相对比。微阵列优选较小,通常小于5cm2,并且它们由在结合(例如核酸杂交)条件下稳定的原料制成。微阵列中的给定结合部位或唯一的成套结合部位将特异性地结合细胞中单基因的产物。尽管每个特异性mRNA可能有不止一个物理结合部位(下文中称作“部位”),但为了清楚起见,下面的讨论将假定只有单一部位。
应当理解,当与细胞的RNA互补的cDNA形成并在合适的杂交条件下与微阵列杂交时,在对应于任何特定基因的阵列中对部位的杂交水平将反映从该基因转录的mRNA的细胞中的流行情况。例如,当与总细胞mRNA互补的可检测标记的(例如用荧光团标记的)cDNA与微阵列杂交时,对应于细胞中未转录的、基因产物的阵列上的部位(即,能特异性结合基因产物的部位)将具有很小的信号或者没有信号(例如荧光信号),编码mRNA的基因是流行的,将具有相对强的信号。
在优选的实施方案中,来自两个不同细胞的cDNA与微阵列的结合部位杂交。在监控治疗效力(例如对药物的反应)的情况下,一个细胞接受治疗,相同类型的另一个细胞则不接受治疗。在监控疾病状态的情况下,一个细胞显现出特定水平的疾病状态,而相同类型的另一个细胞不显现疾病状态(或其水平)。来自这两个细胞型中每一个的cDNA进行不同的标记,以便可将它们区别开。在一个实施方案中,例如,来自用药物处理过(或接触了途径干扰)的细胞的cDNA使用荧光素标记的dNTP合成,而来自未接触药物的第二个细胞的cDNA使用罗丹明标记的dNTP合成。当这两种cDNA混合并与微阵列杂交时,针对该阵列上的每个部位确定来自每组cDNA的信号的相对强度,以及所检测的特定mRNA的丰度的任何相对差异。
在上述实例中,当荧光团被激发时,来自接受了治疗(或病态)的细胞的cDNA将发绿色荧光,来自未经处理的细胞的cDNA将发红色荧光。结果,当治疗对细胞中的特定mRNA的相对丰度没有直接或间接的作用时,mRNA在这两种细胞中将同等流行,随着逆转录,红色标记和绿色标记的cDNA将同等流行。当与微阵列杂交时,对该RNA种类的结合部位将发射两种荧光团的波长特征(组合后呈现棕色)。与此相反,当接受治疗的细胞用能直接或间接增加细胞中mRNA的流行的治疗处理时,绿色与红色荧光的比例将增大。当治疗降低mRNA的流行时,该比例也将降低。
使用双色荧光标记和检测方案来定义基因表达的变动已有过记载,例如在Shena等,1995年,“用互补DNA微阵列定量监控基因表达模式”,《科学》270:467-470中,该文在所有场合都整个结合在此作为参考。使用用两种不同荧光团标记的cDNA的优点在于可以对两个细胞状态中对应于每个排列好的基因的mRNA水平进行直接和内部控制的对比,并且因实验条件(例如杂交条件)之间的较小差异而引起的变化将不会影响随后的分析。但是,应当认识到,也有可能使用来自单细胞的cDNA,并比较例如接受了治疗或病态的细胞中和未经治疗或未患病的细胞中的特定mRNA的绝对数量。
微阵列的制备微阵列是本领域中已知的,由可以特异性杂交或束缚在已知位置上的、序列与基因产物对应的探针(例如cDNA、mRNA、cRNA、多肽及其片段)构成的表面组成。在一个实施方案中,微阵列是其中每个位置表示一个离散的由基因编码的产物(例如蛋白质或RNA)的结合部位的阵列(即,基质),并且其中存在针对生物体基因组中的大多数或几乎所有基因的产物的结合部位。在一个优选的实施方案中,“结合部位”(下文中称作“部位”)是核酸或核酸类似物,特定的关连cDNA可以特异性与其杂交。结合部位的核酸或类似物可以是,例如合成低聚物、全长cDNA、小于全长的cDNA、或基因片段。
尽管在一个优选的实施方案中,微阵列含有目标生物体的基因组中的所有或几乎所有基因产物的结合部位,但这种广泛性并不是必需的。通常微阵列将含有对应于基因组中至少约50%的基因的结合部位,经常是至少约75%,更经常是至少约85%,甚至是约90%以上,最经常是至少约99%。优选地,微阵列含有与所研究的药物的作用有关的或者存在于所研究的生物途径中的基因的结合部位。“基因”被识别为最好至少50、75或99个氨基酸的可读框(ORF),在生物体中(例如,如果是单细胞)或者在多细胞生物体的一些细胞中,信使RNA从其转录。基因组中基因的数目可以从被生物体表达的mRNA的数目来估计,或者通过从基因组的特性已知部分进行外推来估计。当所研究的生物体的基因组的序列已确定时,可以确定ORF的数目,并通过分析DNA序列辨别mRNA编码区。例如,酿酒酵母基因组的序列已完全确定,据报道具有大约6275个长于99个氨基酸的可读框(ORF)。对这些ORF的分析表明,有5885个ORF很可能说明蛋白质产物(Goffeau等,1996年,“有6000个基因的生命”,《科学》274:546-567,该文在所有场合都整个结合在此作为参考)。与此相对,估计人类基因组含有大约105个基因。
制备用于微阵列的核酸如上所述,特定关连cDNA与之特异性杂交的“结合部位”通常是附着在该结合部位上的核酸或核酸类似物。在一个实施方案中,微阵列的结合部位是与生物体基因组中的至少一部分基因各自相对应的NDA多核苷酸。这些DNA可以通过例如对来自基因组DNA、cDNA(例如通过RT-PCR)或克隆序列的基因节段的聚合酶链式反应(PCR)扩增得到。PCR引物是在基因或cDNA的已知序列的基础上选定的,它们可导致唯一片段(即,与该微阵列上的任何其他片段不共有10个以上连续相同序列的碱基的片段)的扩增。计算机程序可用于设计具有所需特异性和最佳扩增性能的引物。参见,例如Oligo 5.0版(National Biosciences)。在结合部位与极长基因对应的情况下,有时希望扩增接近基因3’端的节段,以便当寡脱氧胸苷酸引物cDNA探针与微阵列杂交时,小于全长的探针将能有效地结合。微阵列上的每个基因片段的长度一般在约50bp和约2000bp之间,更常在约100bp和约1000bp之间,通常在约300bp和约800bp之间。PCR方法是众所周知的,例如,在Innies等1990年编写的《PCR方案方法和应用指南》(Academic Press公司,San Diego,CA)中作了描述,该书在所有场合都整个结合在此作为参考。显然,计算机控制的机器人系统可以用于分离和扩增核酸。
生成用于微阵列的核酸的另一种方法是通过例如使用N-膦酸盐或亚磷酰胺化学合成合成的多核苷酸或寡核苷酸(Froehler等,1986年,《核酸研究》14:5399-5407;McBride等,1983年,《四面体快报》24:245-248)。合成序列的长度在约15至约500个碱基之间,更常在约20至约50个碱基之间。在有些实施方案中,合成核酸包括非天然碱基,例如肌苷。如上所述,核酸类似物可以用作杂交用的结合部位。适宜的核酸类似物的实例是肽核酸(参见,例如Egholm等,1993年,“PNA遵从Watson-Crick氢结合规则与互补寡核苷酸杂交”,《自然》365:566-568;同时还参见美国专利5,539,083)。
在另一个实施方案中,结合(杂交)部位用基因的质粒或噬菌体克隆、cDNA(例如已表达序列标志)或从此插入的片段制成(Nguyen等,1995年,“利用阵列的cDNA克隆的定量杂交测定的鼠胸腺中的差别基因表达”,《基因组》29:207-209)。在又一个实施方案中,结合部位的多核苷酸是RNA。
将核酸附着到固体表面核酸或类似物附着到固相支持体上,固相支持体可以用玻璃、塑料(例如聚丙烯、尼龙)、聚丙烯酰胺、硝基纤维素或其他材料制成。将核酸附着到表面上的优选方法是通过在玻璃板上印制,如Schena等概括描述的那样(1995年,“用互补DNA微阵列定量监控基因表达模式”,《科学》270:467-470)。该方法尤其可用于制备cDNA的微阵列。同时还参见DeRisi等,1996年,“在人类癌症中使用cDNA微阵列分析基因表达模式”,《天然基因组》14:457-460;Shalon等,1996年,“用于使用双色荧光探针杂交来分析复合DNA样品的DNA微阵列系统”,《基因组研究》6:639-645;以及Schena等,1995年,“平行人类基因组分析;1000个基因的基于微阵列的表达”,《美国国家科学院院报》93:10539-11286。上面所提到的每篇文章在所有场合都整个结合在此作为参考。
制备微阵列的第二种优选方法是通过制备高密度的寡核苷酸阵列。用于使用原位合成用的照相平版印刷技术在表面上的规定位置生产含有与确定序列互补的上千个寡核苷酸的阵列的技术是已知的(参见,Fodor等,1991年,“光指导的空间可寻址平行化学合成”,《科学》251:763-773;Pease等,1994年,“用于DNA序列快速分析的光指导的寡核苷酸阵列”,《美国国家科学院院报》91:5022-5026;Lockhart等,1996年,“通过与高密度寡核苷酸阵列杂交来监控表达”,《自然生物技术》14:1675;美国专利5,578,832;5,556,752;和5,510,270,上述每篇文章在所有场合都整个结合在此作为参考),或者使用用于确定寡核苷酸的快速合成和沉积的其他方法在表面上的规定位置生产上述阵列(Blanchard等,1996年,“高密度寡核苷酸阵列”,《生物传感器与生物电子学》11:687-90)。当使用这些方法时,已知序列的寡核苷酸(例如20聚物)在表面诸如衍生载玻片上直接合成。通常,产生的阵列是冗长的,每个RNA伴有数个寡核苷酸分子。可以选择寡核苷酸探针来检测其他已剪接的mRNA。制备微阵列的另一个优选方法是利用喷墨印刷法直接在固相上合成寡核苷酸,例如在Blanchard于1998年1月16日提出的、题为“使用溶剂微液滴的化学合成”的未决美国专利申请09/008,120中描述的,该文整个结合在此作为参考。
也可以使用其他方法来制备微阵列,例如通过掩蔽(Maskos和Southern,1992年,《核酸研究》20:1679-1684)。尽管原则上可以使用任何类型的阵列,例如,尼龙杂交膜上的斑点印迹(参见Sambrook等,《分子克隆-实验室手册》(第2版),第1-3卷,冷泉港实验室,冷泉港,纽约,1989年,该书在所有场合都整个结合),但正如本领域技术人员将认识到的那样,优选的是非常小的阵列,因为这样杂交体积将更小。
生成标记探针制备全和聚腺苷酸化RNA的方法是众所周知的,在Sambrook等的文章(来源同上)中作了全面描述。在一个实施方案中,使用硫氰酸胍裂解后进行CsCl离心而从本发明中所研究的不同类型的细胞中提取得到RNA(Chirgwin等,1979年,《生物化学》18:5294-5299)。聚腺苷酸化RNA通过用寡脱氧胸苷酸纤维素进行选择而选出(参见Sambrook等,同上)。所研究的细胞包括野生型细胞、接触药物的野生型细胞、修饰细胞和接触药物的修饰细胞。
标记cDNA从mRNA通过寡脱氧胸苷酸引物或任意引物逆转录制备,这两种方法都是本领域中众所周知的(参见,例如Klug和Berger,1987年,《酶学方法学》152:316-325)。逆转录可以在与可检测标记缀合的dNTP的存在下进行,首选荧光标记的dNTP。另一方面,分离的mRNA可以转变为在标记dNTP的存在下通过双链cDNA的体外转录而合成的标记反义RNA(Lockhart等,1996年,“通过与高密度寡核苷酸阵列的杂交监控表达”,《自然生物技术》14:1675,该文在所有场合都整个结合在此作为参考)。在另外的实施方案中,cDNA或RNA探针可以在没有可检测标记的条件下合成,并可以在随后进行标记,例如通过掺入生物素化的dNTP或rNTP,或者使用一些类似的方式(例如,使生物素的补骨脂内酯衍生物与RNA光交联),接着加入标记的链霉抗生物素蛋白(例如与藻红蛋白缀合的链霉抗生物素蛋白)或等价物。
当使用荧光标记探针时,已知有许多适宜的荧光团,包括荧光素、丽丝胺、藻红蛋白、罗丹明(Perkin Elmer Cetus)、Cy2、Cy3、Cy3.5、Cy5、Cy5.5、Cy7、F1uroX(Amersham)以及其他(参见,例如Kricka,1992年,《非同位素DNA探针技术》,Academic PressSan Diego,CA)。应当理解,选择的荧光团对应具有不同的发射光谱,以便可以容易地将它们区分开。
在另一个实施方案中,使用荧光标记以外的标记。例如可以使用放射性标记或具有不同发射光谱的放射性标记对(参见Zhao等,1995年,“高密度cDNA滤膜分析一种新的大规模定量分析基因表达的方法”,《基因》156:207;Pietu等,1996年,“利用高密度cDNA阵列的定量杂交揭示的人类肌肉中优先表达的新的基因转录物”,《基因组研究》6:492)。然而,由于放射性颗粒的散射,以及由此导致的对广泛分隔的结合部位的需求,令反射性同位素的使用成为不太优选的实施方式。
在一个实施方案中,标记cDNA用下述方法合成含有0.5mMdGTP、dATP和dCTP的混合物加上0.1mM dTTP加上荧光脱氧核苷酸(例如0.1mM罗丹明110 UTP(Perken Elmer Cetus)或0.1mM Cy3dUTP(Amersham))在42℃下用逆转录酶(例如SuperScriptTMⅡ,LTI公司)温育60分钟。
与微阵列杂交选择适当的核酸杂交和洗涤条件,使得探针“特异性结合”或“特异性”杂交到特定阵列部位,即,探针杂交、二显性组合或结合到具有互补核酸序列的序列阵列部位,而不杂交到具有非互补核酸序列的部位。如本文中所用,一个核苷酸序列被认为与另一个核苷酸序列互补时,如果较短的多核苷酸小于或等于25个碱基,则使用标准碱基对规则没有出现错配,或者如果较短的多核苷酸长于25个碱基,则至多有5%的错配。优选多核苷酸是完全互补的(没有错配)。通过进行包括阴性对照的杂交测定,我们可以轻易地证明特异性杂交条件导致特异性杂交(参见,例如Shalon等,同上;Chee等,同上)。
最佳杂交条件将取决于标记探针和固定化多核苷酸或寡核苷酸的长度(例如,寡聚物比多核苷酸多200个碱基)和类型(例如RNA、DNA、PNA)。核酸的特异性(即,严格)杂交条件的一般参数描述在以下文章中Sambrook等,同上;和Ausubel等,1987年,《分子生物学中的流行规约》,Greene Publishing和Wiley-Interscience,纽约,该文在所有场合都整个结合在此。当使用Schena等的cDNA微阵列时,典型的杂交条件是在5×SSC加上0.2%SDS中在65℃下杂交4小时,接着在25℃下用低严格洗涤缓冲剂(1×SSC加上0.2%SDS)洗涤,再在25℃下用高严格洗涤缓冲剂(0.1×SSC加上0.2%SDS)洗涤10分钟(Shena等,1996年,《美国国家科学院院报》93:10614)。下列文献中也提供了有用的杂交条件,例如:Tijessen,1993年,与核酸探针杂交,Elsevier SciencePublishers B.V.和Kricka,1992年,非同位素DNA探针技术,Academic Press San Diego,CA。
信号检测和数据分析当使用荧光标记探针时,转录阵列的每个部位的荧光发射都可以优选地利用扫描同焦激光显微镜检查来检测。在一个实施方案中,使用适宜的激发线对所用的两种荧光团分别进行扫描。另一方面,可以使用激光,这可允许在对两种荧光团具有特异性的波长下同时进行样本照明,并可同时分析来自这两种荧光团的发射光(参见Shalon等,1996年,用于使用双色荧光探针杂交来分析复合DNA样品的DNA微阵列系统,基因组研究6:639-645,该文在所有场合都整个结合作为参考)。在一个优选的实施方案中,用带有计算机控制的X-Y镜台和显微物镜的激光荧光扫描仪扫描阵列。这两种荧光团的顺序激发用多线路混合气体激光器完成,发射光利用波长分离并用两个光电倍增管进行检测。Schena等于1996年在《基因组研究》6:639-645中以及在本文中引用的其他参考文献中都描述了荧光激光扫描设备。另一方面,Ferguson等于1996年在《自然生物技术》14:1681-1684中描述的光导纤维束也可用于同时监控大量部位的mRNA丰度水平。
记录信号,并且在优选的实施方案中,利用计算机进行分析,例如使用对数字板的12位模拟。在一个实施方案中,扫描的图象使用图形程序(例如,Hijaak Graphics Suite)去除斑点,然后使用图象网格程序进行分析,形成在每个部位每种波长下平均杂交的电子数据表。如果需要,可以对两种荧光剂的通道之间的“串扰”(或重叠)进行实验校正。对于转录阵列上的任何一个特定杂交部位来说,可以计算出两种荧光团的发射比。该比值与关连基因的绝对表达水平无关,但可用于表达受到给药、基因缺失或任何其他测试因素的明显调制的基因。
按照本发明的方法,两种细胞或细胞系中的mRNA的相对丰度记录为干扰及其确定的数值(即,在所测试的两种来源的mRNA中的丰度是不同的),或者记录为未受干扰(即,相对丰度是相同的)。如本文中所用,当两种来源的RNA之间的差值至少为25%倍(来自一个来源的RNA在一个来源中比在另一个来源中多出25%)、更通常是约50%倍、甚至更经常达到约2倍(多出1倍)、3倍(多出2倍)或5倍(多出4倍)时,记录为干扰。现有的检测方法可以可靠地检测约3倍至约5倍范围的差值,我们期望有更灵敏的方法研制出来。
优选地,除了鉴别干扰是阳性还是阴性之外,最好能确定该干扰的大小。如上所述,这可以通过计算用于不同标记的两种荧光团的发射比来完成,或者利用对本领域技术人员来说显而易见的类似方法完成。
应答特征的测量在本发明的一个实施方案中,反映所研究的细胞的转录状态的转录阵列通过使各自与所研究的不同细胞的mRNA相对应(即互补)的两种不同标记探针的混合物与微阵列杂交而制得。按照本发明,这两种细胞是同一类型的,即,是同一物种和菌株,但可能有少数(例如,1、2、3或5个,优选1个)部位的基因有所不同。另一方面,它们是同基因的,但它们的环境史有所不同(例如,接触药物对未接触药物)。
为了测量应答特征,制备或长成具有所研究的逐级水平的疾病状态或治疗作用(即,“干扰”)的细胞。用具有干扰的细胞和不具有干扰的细胞构造转录物阵列,对它们进行测量,以找出因疾病状态的水平或治疗作用的水平而发生修饰表达的mRNA以及修饰的程度。由此得到应答特征。
逐级干扰对照参数的水平的密度利用单个基因应答中的清晰度和结构来调整-应答的最陡峭部分越陡峭,适当解析该应答所需的水平就越密集。这种范例性的密度可由图2的例子近似显示。在此,在100倍浓度范围内对甲氨蝶呤的6个应答刚好足够解析基因表达应答。但是,要更精细地表示这个途径,最好接触更多种浓度。
此外,为了减少实验误差,最好在双色差别杂交实验中逆转荧光标记,以减少单个基因或阵列斑点位置所特有的偏差。换句话说,最好首先测量来自所测量的两种细胞的mRNA的具有一种标记(例如,用第一种荧光染料标记受干扰细胞,用第二种荧光染料标记未受干扰的细胞)的基因表达,然后测量来自具有逆转标记(例如,用上述第二种荧光染料标记受干扰细胞,用上述第一种荧光染料标记未受干扰的细胞)的两种细胞的基因表达。对接触水平和干扰对照参数水平的多重测量提供了另外的实验误差控制。只要采样充分,当选择用于插入应答数据的样条函数S的宽度时,就可在应答函数中的误差的平均值和结构损失之间进行权衡。
诊断特征的测量对于希望分析一些疾病状态或一些治疗作用的水平的任何一种细胞型来说都可得到其诊断特征。优选地,疾病状态或治疗必须是已得到了其应答特征或者可以生成其应答特征的疾病状态或治疗。希望得到其诊断特征的细胞包括,例如怀疑具有与一种或多种基因突变有关的疾病状态水平的病人的细胞,以及已接触了药物或多种药物或其他治疗的组合并显示治疗作用水平的病人的细胞。
为了测量怀疑具有特定水平的疾病状态或治疗作用的细胞的诊断特征,用怀疑具有这类水平的细胞和相同细胞类型的野生型细胞(即,不具有疾病状态和/或未接触治疗的细胞)来构造转录物阵列,对其进行测量,以找出因疾病状态或治疗作用的水平而具有改变过的表达的mRNA。由此得到诊断特征。
为了测量例如接触了药物(或其他一些治疗)的细胞的诊断特征,使这些细胞或得到这些细胞的生物体/病人接触一些所研究的药物的水平,优选与药物的临床剂量相对应的水平,并对治疗作用进行测量(例如,测量疾病标志物或疾病症状的量的变化)。当细胞在体外生长时,药物通常加入到它们的营养培养基中。在酵母的情况下,最好在早期对数期收获酵母,因为那时表达模式对收获的时间相对不敏感。加入的药物的量是取决于该药物特定性能的逐级量,但在细胞培养物中,通常在约1ng/ml至100mg/ml之间。在有些情况下,药物将溶解在溶剂如DMSO中。
用接触治疗或具有疾病状态的细胞和未接触治疗和/或不具有疾病状态(或疾病状态的特定水平)的细胞构造转录物阵列,对其进行测量,以找出因疾病状态或治疗作用的水平而具有改变的表达的mRNA。由此得到应答特征。
与应答特征的测量类似,对于诊断特征,最好也在双色差别杂交的情况下用逆转标记进行测量。
转录状态的其他测量方法细胞的转录状态可以利用本领域中已知的其他基因表达技术进行测量。有几个这类技术生产用于电泳分析的有限复杂度的限制片段的集合体,诸如双限制酶消化与定相引物结合的方法(参见,例如Zabeau等于1992年9月24日提出的欧洲专利0 534858 A1),或者选择具有与确定mRNA末端最接近的部位的限制片段的方法(参见,例如Prashar等,1996年,《美国国家科学院院报》93:659-663)。其他方法用统计学方法抽取cDNA库样品,诸如通过对多个cDNA中的每一个中的足够的碱基(例如20-50个碱基)测序以识别每个cDNA,或者通过对在与确定mRNA末端有关的已知位置上产生的短标志(例如9-10个碱基)进行测序(参见,例如Velculescu,1995年,《科学》270:484-487)。
5.4.2其他生物学状态情况的测量在本发明的不同实施方案中,为了得到治疗和疾病状态应答情况,可以测量转录状态以外的其他生物学状态,诸如翻译状态,活性状态,或混合情况。该部分中描述了这些实施方案的细节。
基于翻译状态测量的实施方案翻译状态的测量可以按照几种方法来进行。例如,对蛋白质的整个基因组监控(即,“蛋白组”,Goffeau等,同上)可以通过构造微阵列来进行,在该微阵列中,结合部位包含固定化的、优选单克隆的、对由该细胞基因组编码的多种蛋白质具有特异性的抗体。优选地,抗体针对编码蛋白质的主要部分而存在,或者至少针对与所研究的疾病状态或治疗效果的作用有关的那些蛋白质。制备单克隆抗体的方法是众所周知的(参见,例如Harlow和Lane,1988年,《抗体实验室手册》,冷泉港,纽约,该文在所有场合都整个结合在此)。在优选的实施方案中,单克隆抗体针对基于细胞的基因组序列而设计的合成肽片段来培养。形成了这样的抗体阵列后,来自细胞的蛋白质与该阵列接触,并用本领域中已知的测定法测定它们的结合情况。
另一方面,蛋白质可以利用双向凝胶电泳系统分离。双向凝胶电泳是本领域中众所周知的,一般涉及沿着第一方向等电聚焦,然后沿着第二方向进行SDS-PAGE电泳。参见,例如Hames等,1990年,《蛋白质的凝胶电泳实用研究》,IRL Press,纽约;Shevchenko等,1996年,《美国国家科学院院报》93:1440-1445;Sagliocco等,1996年,《酵母》12:1519-1533;Lander,1996年,《科学》274:536-539。所得电泳图谱可以利用许多技术进行分析,包括质谱技术、实用多克隆和单克隆抗体的蛋白质印迹和免疫印迹分析、以及内部和N-端微量测序。使用这些技术,有可能识别在给定生理条件下产生的所有蛋白质的主要部分,包括在接触药物的细胞(例如酵母)中产生的,或者在受到例如特异性基因的缺失或过度表达修饰的细胞中产生的。
6.引用的参考文献本文中引用的所有参考文献在所有场合都整个结合在此作为参考,其结合程度就好象每一个单独的出版物或专利或专利申请都明确而各自指出在所有场合整个结合作为参考那样。
在不背离本发明实质和范围的条件下可以对本发明进行许多修饰和改进,这对本领域技术人员来说是显而易见的。本文中描述的具体实施方案仅经由实施例给出,而本发明将只限于所附的权利要求书的范围,以及该权利要求书给出的等价物的全面范围。
权利要求
1.确定受试者的一种或多种疾病状态的水平的方法,所述方法包括对于所述每种疾病状态,从与所述每种疾病状态的水平有关的内插干扰应答特征中确定在诊断特征与所述一个确定的内插应答特征或其组合之间相似性最大的内插应答特征,所述诊断特征已利用包括测量所述受试者的一个或多个细胞中的第一多数细胞组分的方法得到,并且其中所述内插应答特征是以下方法的结果,该方法包括(ⅰ)对每种所述疾病状态提供一个或多个类似受试者的一个或多个细胞的应答特征,其中所述应答特征通过测量在所述每种疾病状态的多种水平下所述一个或多个类似受试者的所述细胞中的第二多数细胞组分而得到,和(ⅱ)插入所述应答特征,使得可以提取出所述每种疾病状态的各个水平下的应答特征,其中与每个确定的内插应答特征相关的每种疾病状态的水平指示所述疾病状态的所述水平。
2.权利要求1的方法,其中确定单一疾病状态的水平。
3.权利要求1的方法,其中通过将内插应答特征校准为一种或多种临床作用而使内插干扰应答特征与每种所述疾病状态的水平相关连。
4.权利要求1的方法,其中一种或多种所述疾病状态与基因突变有关。
5.权利要求4的方法,其中所述基因突变是在编码区。
6.权利要求4的方法,其中所述基因突变是杂合突变。
7.确定对于具有疾病状态的受试者的一种或多种治疗的作用的水平的方法,所述方法包括对于所述每种治疗,从与所述每种治疗的作用的水平有关的内插干扰应答特征中确定在诊断特征与所述一个确定的内插应答特征或其组合之间相似性最大的内插应答特征,所述诊断特征已利用包括测量所述受试者的一个或多个细胞中的第一多数细胞组分的方法得到,并且其中所述内插应答特征是以下方法的结果,该方法包括(ⅰ)对每种所述治疗提供一个或多个类似受试者的一个或多个细胞的应答特征,其中所述应答特征通过测量在所述每种治疗的作用的多种水平下所述一个或多个类似受试者的所述细胞中的第二多数细胞组分而得到,和(ⅱ)插入所述应答特征,使得可以提取出所述每种治疗的各个水平下的应答特征,其中与每个确定的内插应答特征相关的每种治疗的作用的水平指示所述治疗的作用的所述水平。
8.权利要求7的方法,其中确定单一治疗的作用的水平。
9.权利要求7的方法,其中通过将内插应答特征校准为一种或多种临床作用而使内插干扰应答特征与每种所述治疗的作用的水平相关连。
10.权利要求9的方法,其中调节一种或多种药物治疗,直到诊断特征与在一种或多种临床作用的所需水平下在校准干扰应答特征中得到的特征一致。
11.权利要求7的方法,其中一种或多种所述治疗包括用药物治疗。
12.权利要求11的方法,其中所述药物增加了蛋白质的活性。
13.权利要求11的方法,其中所述药物降低了蛋白质的活性。
14.权利要求7的方法,其中所述一种或多种治疗中至少有一种的所述作用是有益作用。
15.权利要求7的方法,其中所述一种或多种治疗中至少有一种的所述作用是不利作用。
16.权利要求15的方法,其中所述不利作用是毒性作用。
17.权利要求1或7的方法,其中所述插入包括利用样条函数的总和来逼近。
18.权利要求1或7的方法,其中所述插入包括利用希尔函数逼近。
19.权利要求1或7的方法,其中所述确定的内插应答特征的所述组合是所述确定的内插应答特征的总和。
20.权利要求1的方法,其中所述一种或多种疾病状态的所述确定水平是使所述诊断特征和从有关所述一种或多种疾病状态的每种所述确定水平的所述干扰应答曲线中提取出的干扰应答特征之间的差值的目标函数的值最小的水平。
21.权利要求7的方法,其中所述一种或多种治疗的作用的所述确定水平是将所述诊断特征和从有关所述一种或多种治疗的每种所述确定水平的所述干扰应答曲线中提取出的干扰应答特征之间的差值的目标函数的值最小的水平。
22.权利要求20或21的方法,其中所述目标函数包括诊断特征和从所述干扰应答曲线提取出的干扰应答特征的差值的平方和。
23.权利要求1或7的方法,其中所述受试者是哺乳动物。
24.权利要求23的方法,其中所述受试者是人。
25.权利要求1或7的方法,其中所述第一多数细胞组分和所述第二多数细胞组分包含所述细胞型中存在的大量RNA种类的丰度。
26.权利要求25的方法,其中所述第一多数和所述第二多数RNA种类的丰度利用包括使基因转录物阵列与来自所述细胞型的细胞的RNA或与从此衍生的cDNA接触的方法进行测量,其中基因转录物阵列包括带有附着核酸或核酸模拟物的表面,所述核酸或核酸模拟物能与所述多样RNA种类或与从此衍生的cDNA杂交。
27.权利要求26的方法,其中所述第二多数RNA种类的丰度的所述测量利用下列方法进行,该方法包括使一种或多种基因转录物阵列(ⅰ)与来自所述受试者的所述细胞的RNA接触,或与从此衍生的cDNA接触,和(ⅱ)与来自不具有疾病或未经受治疗的第二受试者的第二细胞的RNA接触,或与从此衍生的cDNA接触。
28.权利要求25的方法,其中所述第一多数RNA种类构成了已知在所述细胞中将响应与所述疾病状态或所述治疗有关的干扰而增加或减少的大多数RNA种类。
29.权利要求26的方法,其中所述第一多数RNA种类构成了已知在所述细胞中将响应与所述疾病状态或所述治疗有关的干扰而增加或减少的大多数RNA种类。
30.权利要求1或7的方法,其中所述细胞组分包括所述细胞型中存在的大量蛋白质种类的丰度。
31.权利要求30的方法,其中所述大量蛋白质种类的丰度利用包括使抗体阵列与来自所述细胞型的细胞的蛋白质接触的方法进行测量,其中所述抗体阵列包括带有附着抗体的表面,所述抗体能与所述多样蛋白质种类结合。
32.权利要求27的方法,其中所述大量蛋白质种类的丰度利用包括使来自所述细胞型的细胞的蛋白质进行双向电泳的方法测量。
33.权利要求1或7的方法,其中所述细胞组分包括所述细胞型中存在的大量蛋白质种类的活性。
34.用于确定受试者的一种或多种疾病状态的水平的计算机系统,它包括处理器和与所述处理器连接的存储器,所述存储器编码一个或多个程序,所述一个或多个程序使所述处理器执行一个方法,该方法包括对于所述每种疾病状态,从与所述每种疾病状态的水平有关的内插干扰应答特征中确定在诊断特征与所述一个确定的内插应答特征或其组合之间相似性最大的内插应答特征,所述诊断特征已利用包括测量所述受试者的一个或多个细胞中的第一多数细胞组分的方法得到,并且其中所述内插应答特征是以下方法的结果,该方法包括(ⅰ)对每种所述疾病状态提供一个或多个类似受试者的一个或多个细胞的应答特征,其中所述应答特征通过测量在所述每种疾病状态的多种水平下所述一个或多个类似受试者的所述细胞中的第二多数细胞组分而得到,和(ⅱ)插入所述应答特征,使得可以提取出所述每种疾病状态的各个水平下的应答特征,其中与每个确定的内插应答特征相关的每种疾病状态的水平指示所述疾病状态的所述水平。
35.用于确定对受试者的一种或多种治疗的作用的水平的计算机系统,它包括处理器和与所述处理器连接的存储器,所述存储器编码一个或多个程序,所述一个或多个程序使所述处理器执行一个方法,该方法包括对于所述每种治疗,从与所述每种治疗的作用的水平有关的内插干扰应答特征中确定在诊断特征与所述一个确定的内插应答特征或其组合之间相似性最大的内插应答特征,所述诊断特征已利用包括测量所述受试者的一个或多个细胞中的第一多数细胞组分的方法得到,并且其中所述内插应答特征是以下方法的结果,该方法包括(ⅰ)对每种所述治疗提供一个或多个类似受试者的一个或多个细胞的应答特征,其中所述应答特征通过测量在所述每种治疗的作用的多种水平下所述一个或多个类似受试者的所述细胞中的第二多数细胞组分而得到,和(ⅱ)插入所述应答特征,使得可以提取出所述每种治疗的各个水平下的应答特征,其中与每个确定的内插应答特征相关的每种治疗的作用的水平指示所述治疗的作用的所述水平。
36.权利要求34或35的计算机系统,其中所述确定所述内插应答特征利用以下方法完成,该方法包括(a)确定所述诊断特征和所述确定的内插应答特征之间的差值的目标函数的值;和(b)将所述目标函数的所述确定值最小化。
37.权利要求34或35的计算机系统,其中所述诊断特征和所述应答曲线可从所述内存中获得。
38.权利要求37的计算机系统,其中所述程序使所述处理器执行所述插入应答特征的步骤。
39.权利要求36的计算机系统,其中所述目标函数包括所述诊断特征和所述确定的内插应答特征的差值的平方和。
40.权利要求36的计算机系统,其中所述目标函数包括诊断特征和从所述干扰应答曲线提取出的所述确定的内插应答特征的否定的相互关系。
41.权利要求36的计算机系统,其中所述最小化包括执行Levenberg-Marquandt法。
42.用于确定受试者的一种或多种疾病状态的水平的工具包,它包含一个固相,该固相的表面上含有各自在所述固相上的已知位置的已知不同序列的大量核酸,每个核酸能与一种RNA或从此衍生的cDNA杂交,其中所述RNA种类已知将在所述疾病状态的不同水平下增加或减少,所述大量基本上排除了能与不会如此增加或减少的RNA种类杂交的核酸。
43.用于确定对受试者的一种或多种治疗的作用的水平的工具包,它包含一个固相,该固相的表面上含有各自在所述固相上的已知位置的已知不同序列的大量核酸,每个核酸能与一种RNA或从此衍生的cDNA杂交,其中所述RNA种类已知将在所述治疗的所述作用的不同水平下增加或减少,所述大量基本上排除了能与不会如此增加或减少的RNA种类杂交的核酸。
44.用于确定受试者的一种或多种疾病状态的水平的工具包,它包括(a)一个固相,该固相的表面上含有各自在所述固相上的已知位置的已知不同序列的大量核酸,每个核酸能与一种RNA或从此衍生的cDNA杂交,其中所述RNA种类已知将在所述疾病状态的不同水平下增加或减少,和(b)与每种所述疾病状态的水平相关的电子或书写形式的应答特征,其中所述应答特征通过测量在每种所述疾病状态的多种水平下一个或多个类似受试者的一个或多个细胞中的多数细胞组分而得到。
45.用于确定对受试者的一种或多种治疗的作用的水平的工具包,它包括(a)一个固相,该固相的表面上含有各自在所述固相上的已知位置的已知不同序列的大量核酸,每个核酸能与一种RNA或从此衍生的cDNA杂交,其中所述RNA种类已知将在所述治疗的作用的不同水平下增加或减少,和(b)与每种所述治疗的作用的水平相关的电子或书写形式的应答特征,其中所述应答特征通过测量在每种所述治疗的作用的多种水平下一个或多个类似受试者的一个或多个细胞中的多数细胞组分而得到。
46.权利要求44或45的工具包,其中插入所述应答特征。
47.权利要求44或45的工具包,其中所述干扰应答曲线是电子形式的,且其中所述工具包还包括在计算机可读媒体上的表达特征分析软件,所述软件能在同样具有处理器的计算机的存储器中被编码,所述编码的软件让所述处理器执行下列方法,该方法包括(a)接收所述受试者的细胞的诊断特征,所述诊断特征已利用包括测量来自所述细胞的RNA种类或从此衍生的cDNA的丰度的方法得到;(b)接收所述应答特征;和(c)确定每种所述疾病状态或治疗的在所述诊断特征和所述确定的内插应答特征的组合之间具有最大相似性时的应答特征,其中与每种确定的应答特征相关的水平指示所述疾病状态或所述治疗的所述作用的所述水平。
48.包含一种或多种疾病状态或治疗的应答特征的数据库,其中所述数据库是电子形式的,其中所述应答特征通过测量在每种所述疾病状态或所述治疗的作用的多种水平下一个或多个类似受试者的一个或多个细胞中的多数细胞组分而得到。
49.权利要求48的数据库,其中插入所述应答特征。
50.权利要求1的方法,其中的疾病是癌症、高血压、神经变性疾病或神经精神病。
全文摘要
本发明提供了监控受试者的疾病状态的方法,以及监控对具有一种或多种疾病状态的受试者的治疗作用水平的方法。这些方法涉及:(ⅰ)测量来自受试者的细胞中的细胞组分的丰度,以得到诊断特征;(ⅱ)测量一个或多个类似受试者的细胞中的细胞组分的丰度,以得到与特定疾病或治疗有关的干扰应答特征;(ⅲ)根据一些客观测量确定与诊断特征最一致的内插干扰应答特征。在其他方面,本发明还提供了能执行本发明方法的计算机系统,包含一种或多种疾病和/或治疗的干扰应答特征的数据库,以及用于按照本发明的方法确定疾病状态和/或治疗作用的水平的工具包。
文档编号C07H21/04GK1313891SQ99809809
公开日2001年9月19日 申请日期1999年6月17日 优先权日1998年6月19日
发明者S·H·弗里恩德, R·斯托顿 申请人:罗斯塔英法美蒂克斯公司