专利名称:利用基因表达分布图识别、监控和治疗疾病以及鉴定生物学状态的制作方法
利用基因表达分布图识别、监控和治疗疾病以及鉴定生物
学状态本申请是2002年11月8日提交的题目为“利用基因表达分布图识别、监控和治疗疾病以及鉴定生物学状态”的中国专利申请02826908. X(对应国际申请PCT/US02/36084) 的分案申请。技术领域和
背景技术:
本发明涉及基因表达数据的应用,具体的涉及基因表达数据在识别,监控和治疗受试者的疾病以及鉴定受试者的生物学状态方面的应用。现有技术已经利用基因表达数据来测定特定标记如特定状态的诊断的存在或缺乏,且在一些情况下已经描述了特定疾病标记的过量表达的得分的累积来提高诊断的精确度或灵敏度。特定患者任意状态的信息以及患者对治疗因子或营养因子类型和剂量的应答在今天已经成为临床医学的重要问题,不但在保健工业的医疗实践的效率方面而且提高了患者的结果和受益。发明的概述在第一个实施方案中,提供了一种基于来自受试者的样品评价受试者的生物学状态的方法。所述方法包括从样品获得一个分布数据集,分布数据集包括一组元素,每个元素是在一组组分中的不同RNA或蛋白组分的定量测定的值,其中组分的选择基于使得组分的测定能够评价生物学状态;在获得分布数据集的过程中在大体上可重复的测量条件下对每个组分进行测定。在有关的实施方案中,提供了一种基于来自受试者样品显示受试者状态,如生物学状态的指标。此实施方案包括从样品获得一个分布数据集,分布数据集包括多个元素,每个元素是在一组组分中的不同RNA或蛋白组分的定量测定的值,其中组分的选择基于使得组分的测定能够评价生物学状态;以及在获得分布数据集的过程中,在大体上可重复的测量条件下对每个组分进行这种测定;并将分布数据集的值应用到指标函数中提供了分布数据集的实例到生物学状况的单值测定的映象,来生成对应于受试者的生物学状况的指标。在另一个与上述相关的实施方案中,还包括,在所有组分扩增的特异性和效率大体上是类似的测定条件下从分布图数据系列获得针对每个组分的测定。类似的另一个实施方案可选择地或另外包括,在所有组分扩增的特异性和效率大体上是类似的测定条件下,从分布图数据系列获得获得针对每个组分的测定。在另一个涉及提供指标的实施方案中,也包括提供指标函数的标准值,其通过相应的群体进行测定,使得指标相关于标准值进行解释。可选择地提供标准值包括建立指标函数使得标准值为大约1。同样选择性地,相应的群体具有至少年龄组,性别,种族,地理位置,饮食习惯,药物紊乱,临床指标,药物处理,身体活动,体重和环境接触之一的共同特性。在另一个相关的实施方案中,扩增的效率表示为所有组分的百分比,在大约2%的范围内,且选择性地,大约1 %。另一个相关的实施方案中,测定条件是可重复的使得每一组分的测定针对样品测定的重复获得具有一个离差系数,其小于大约3%。在进一步的实施方案中,该小组包括至少三个组分且可选择地少于大约500个组分。在另一个实施方案中,被评价的生物学状态是关于受试者的局部组织的且样品获自组织或局部组织的不同类型的液体。在相关的实施方案中,生物学状态可以是通过相应基因表达组的相应组分进行测定的任意在表1到12中鉴定的状态。每一情况下的组包括至少两个,且选择性地至少三个, 四个,五个,六个,七个,八个,九个或十个相应的基因表达组的组分。在另一个实施方案中,提供了一种基于来自受试者的样品显示受试者炎症状态的指标的方法,包括从样品获得第一分布数据集,第一分布数据集包括很多的元素,每一元素是一组组分的不同RNA或蛋白组分的量的定量测定,组包括至少两个表1的炎症基因表达组的组分;(尽管在其它实施方案中,至少三个,四个,五个,六个或十个表1的组的组分可被应用在一组中)其中,在获得第一个分布数据集的过程中,在所有组分扩增的特异性和效率大体上类似以及在大体上可重复的条件下针对每一组分进行测定;以及将来自第一分布数据集的值应用到指标函数中,所述指标函数提供了从分布数据集的实例得到生物学状态(在一个实施方案中,可以是一种炎症状态)一个单值测定的映象,使得产生与样品或受试者的生物学状态相对应的指标。生物学状态可以是利用合适的基因表达组可进行评价的任何状态;利用炎症基因表达组进行的炎症程度的测定仅仅是一个实例。在其它的实施方案中,指标函数的映象可进一步地基于相应基线分布数据集的例子,并且来自相同受试者或来自具有类似或不同生物学状态的样品或受试者群体的相应的基线分布数据集的值可被应用。另外,建立的指标函数通常可在与增加炎症有关的组分表达增加的例子中以及在与炎症增加有关的组分表达下降的例子中向上偏离标准值。指标函数的建立可选择性地根据被测定的表达水平与炎症程度的相关程度来估计组中的组分的表达值。指标函数的建立可选择性地通过考虑临床观察的炎症生物学或考虑实验获得的数据或考虑从与临床和人口数据相关的数据库中的分布数据集的计算机分析获得的关系。关于这一点,指标函数的建立可通过统计学的方法来实现,所述统计学方法评价此数据,来建立炎症程度最佳化预测的组分表达值的模型。在另一个实施方案中,组包括至少一个与特定的炎性疾病有关的组分。如上所述的方法可进一步的利用步骤(i)通过同时基于至少一种人口数据和临床数据的实例进行指标函数的映象和(ii)应用来自第一个分布数据集的值,包括应用一组与至少一种人口数据和临床数据有关的值。在上述方法的另一实施方案中,在第一位置获得部分第一个分布数据集且在第二位置应用来自第一分布数据集的值,并且与获自第一分布数据集部分有关的数据通过网络传递到第二位置从而能够在第二位置应用来自第一分布数据集的值。在所述方法的一个实施方案中,指标函数是项的线性总和,每一项是分布数据集的一个元素的贡献函数(contribution function)。此外,贡献函数可以是一个元素或其倒数的幂的加权总和,且幂可以是整数,所以贡献函数是一个元素或其倒数的多项式。可选择
6的,多项式是一个线性多项式。分布数据集可包括选自包括ILIA,IL1B, TNF, IFNG和ILlO 的组的相应组分的至少三个,四个或所有的元素。指标函数可以为1/4{ILIA}+1/4{IL1B} + 1/4{TNF} +1/4{INFG} 1/{IL10}的比例且大括号内的组分表示组分的测定。在另外的一个实施方案中,提供了一种分析与受试者样品有关的复数数据获得炎症相关信息的方法,该方法包括获取样品的基因表达分布图,所述的基因表达分布图基于炎症的特征组;以及利用基因表达分布图来测定样品的基因表达分布炎症指标。在另外一个实施方案中,提供了一种监控受试者生物学状态的方法,包括获得来自每一受试者的一系列样品不同时间的的基因表达分布图,所述的基因表达分布图基于炎症的特征组;以及对于每一系列的样品而言,利用相应的基因表达分布图来测定基因表达分布图的炎症指标。在另外一个实施方案中,提供了一种测定至少(i)给受试者施用的因子的有效剂量以及(ii)给受试者施用因子的方案之一的方法,该方法包括获得受试者样品的基因表达分布图,所述基因表达分布图基于炎症的特征组;利用基因表达分布图来测定样品的基因表达分布炎症指标;以及利用基因表达分布的炎症指标作为建立至少有效剂量和给药方案之一的指示剂。在另外一个实施方案中,提供了一种指导受试者生物学状态的连续或改变治疗的决定的方法,所述方法包括从受试者样品获得基因表达分布图,该基因表达分布图基于炎症的特征组;以及利用基因表达分布图来测定用于样品的基因表达分布炎症指标。提供了一种预测因暴露于一种因子受试者生物学状态变化的方法,所述方法包括从来自缺少因子的受试者的第一样品获得第一基因表达分布图,所述第一基因表达分布图是基于炎症的特征组;从存在因子的受试者的第二样品获得第二基因表达分布图,所述第二基因表达分布图基于相同的特征组;以及利用第一和第二基因表达分布图来测定相应的第一基因表达分布图炎症指标和第二基因表达分布图炎症指标。相应地,因子可以是一种化合物且该化合物可以是治疗性的。在另外一个实施方案中,提供了一种评价因子特性的方法,其中的特性至少为纯度、效力,质量,效力或安全性之一,所述方法包括从暴露于(i)样品,或(ii)从其中获得样品的细胞群,或(iii)从其中获得样品的受试者;的因子的反映的样品的样品获得第一基因表达分布图;利用基因表达分布图来测定基因表达分布炎症指标;并在特性测定中利用基因表达分布炎症指标。在另一个有关的实施方案中,提供了一种基于来自受试者的样品显示受试者生物学状态的指标的方法。这种实施方案的方法包括从样品获得第一分布数据集,第一分布数据集包括很多的元素,每一元素是一组组分中不同RNA或蛋白组分量的定量测定,所述组包括至少两个表1中炎症基因表达组的组分;以及将来自第一分布数据集的值应用到指标函数中,所述指标函数提供了从分布数据集的实例得到生物学状态(在实施方案中,可以是炎症状态)单值测定的映象,使得来产生与样品或受试者的生物学状态相对应的指标。在实施这些方法时,指标函数同样利用来自于组的基线分布数据集的数据。基线数据系列的每一元素是基于受试者相应群体的测定的组中组分之一的数值的标准测定。另外,在获得第一分布数据集和基线数据集的过程中,在所有组分扩增的特异性和效率大体上类似以及在大体上可重复的条件下对每一组分来进行测定。在另一个实施方案中,提供了一种基于来自受试者的样品,用于评价受试者的生物学状态的方法。在这些实施方案中,方法包括从样品获得第一分布数据集,第一分布数据集包括很多元素,每一元素是在一组所选组分中的不同RNA或蛋白组分量的定量测定以便使得组分的测定能够用于生物学状态的测定;以及从组生成一个校准分布数据集,其中每一校准分布数据集的元素是组的第一分布数据的相应元素与基线分布数据集的相应元素的函数。在此实施方案中,基线数据系列的每一元素是基于受试者相应群体的测定的组中组分之一的标准测定量,且所述校准分布数据集提供了一种对受试者生物学状态的测定。在一个类似的实施方案中,提供了一种基于受试者样品评价受试者生物学状态的方法,此实施方案的方法包括将第一样品或其部分应用到指示细胞的限定群体中;从指示细胞获得含有至少RNAs或蛋白质之一的第二样品;从第二样品获得第一分布数据集,第一分布数据集包括许多的元素,每一元素是一组所选组分中的不同RNA或蛋白组分量的定量测定使得能从组分测定中得到生物学状态的测定;以及生成组的校准分布数据集,其中校准分布数据集的每一元素是组的第一分布数据集的相应元素与基线分布数据集相应元素的函数,其中基线数据系列的每一元素是基于受试者的相应群体测定一个组中组分的标准测定量,所述校准分布数据集提供了受试者的生物学状态的测定。此外,另外一个类似的实施方案提供了一种用于评价受因子影响的生物学状态的方法。此实施方案的方法包括从已经施用因子的细胞的目标群体获得含有至少RNAs或蛋白质之一的样品;从样品获得第一分布数据集,第一分布数据集包括许多的元素,每一元素是一组所选组分中的不同RNA或蛋白组分量的定量测定使得从组分测定中能得到生物学指标的测定;以及生成组的校准分布数据集,其中校准分布数据集的每一元素是组的第一分布数据集的相应元素与基线分布数据集相应元素的函数,其中基线数据系列的每一元素是基于受试者的相应群体测定的一个组中组分的标准测定量,所述校准分布数据集提供了受因子影响的生物学状态的测定。在进一步的基于最后这些三个实施方案的实施方案中,相应的群体可以是健康受试者的群体。任选地,或者相应的群体具有至少年龄组,性别,种族,地理位置,饮食习惯, 药物紊乱,临床指标,药物治疗,身体活动,体重和环境接触中之一的共同特性。任选或另外的组包括表1炎症基因表达组的至少两个组分。(其它的实施方案使用至少三个,四个,五个,六个,或十个这样的组分)同样任选或另外的,在获得第一分布数据集和基线数据集的过程中,在所有组分扩增的特异性和效率大体上类似的以及在大体上可重复的条件下针对于每一组分进行这种测定。同样任选地,当在所有组分扩增的特异性和效率大体上是类似的以及在大体上可重复的两种条件下进行这种测定时,选择性地一种不必生成校准分布数据集,但可直接用第一数据系列代替。在另一个实施方案中,提供了一种用于评价第一因子和第二因子对生物学状态影响相关性的方法。这个实施方案的方法包括从已经分别施用第一和第二因子的第一和第二靶细胞群分别获得第一和第二样品;每一样品具有至少一种RNAs和蛋白;从第一样品获得第一分布数据集以及从第二样品获得第二分布数据集,每一分布数据集包括很多的元素,每一元素是所选的组分组中不同RNA或蛋白组分量的定量测定使得能够从组分的测定获得生物学状态的测定;以及生成组的第一校准分布数据集和第二分布数据集,其中(i)第一校准分布数据集的每一元素是组的第一分布数据集的相应元素与基线分布数据集的相应元素的函数,其中基线数据系列的每一元素是基于受试者的相应群体的测定的组中组分的一个标准测定量, 和(ii)第二校准分布数据集的每一元素是第二分布数据集的相应元素与基线分布数据集的相应元素的函数,所述校准分布数据集提供了第一因子与第二因子对生物学状态的影响的相关性的测定。在这个实施方案中,在获得第一分布数据集和基线数据集的过程中,在所有组分扩增的特异性和效率大体上类似以及在大体上可重复的条件下针对于每一组分进行这种测定。在另一个相关的实施方案中,第一因子是第一药物且第二因子是第二药物。在另一个相关的实施方案中,第一因子是第一药物且第二因子是一种复杂混合物。在又一个相关的实施方案中,第一因子是第一药物且第二因子是一种营养药。
本发明上述特征通过参考下列的详细说明,以及参考图,将更容易的被理解,其中图IA显示了在单个男性受试者患视神经炎期间在不连续的8天对其M个来自来源炎症基因组(显示在表1中)的基因进行分析的结果。IB图解了本发明实施方案中的与图IA的数据有关的炎症指标的应用。图2是在9个不同显著的临床转折点计算的相同炎症指标的图解说明。图3显示了通过指标鉴定的用SOOmg的布洛芬对单独的供体进行单剂量治疗的结^ ο图4显示了五个用图解表示的不同状态计算的评价急性炎症的指标。图5显示了监控上呼吸道感染(URI)进展的病毒应答指标。图6和7利用基因表达分布图比较了两个不同群体(相对于表1的炎症基因表达组的48个位点)。图8通过纵向研究比较了正常群体与类风湿性关节炎群体。图9比较两个正常群体,一个纵向和另一个横向。图10显示了一正常群体的不同个体的基因表达值。图11显示了在八个月期间进行每月一次的分析,单个受试者的四个基因各自的表达水平(表1的炎症基因表达组的)。图12和13类似地显示了在每种情况下不同的单个受试者(在每种情况下基于感觉好且不摄取药物进行选择)的48个基因(表1的炎症基因表达组)各自的表达水平,在图12的情况下每周分析一次持续四周,在图13的情况下每月分析一次持续四个月。图14显示了利用表1中炎症基因表达组所分析的随着时间的进展给施用抗炎类固醇对单个受试者的炎症基因表达的影响。图15,以类似于图14的方式,显示了随着时间的进展通过从施用单剂量强的松 (prednisone)的受试者的全血样品,对(表1的炎症基因表达组的)5个基因的表达的影响。图16同样显示了随着时间的进展对患有类风湿性关节炎的受试者施用TNF-抑制化合物对基因表达的影响,但这里的表达与以前测定的正常(即,未确诊的,健康的)群体的同源位点平均数相比较(与图6和7相关)。图17A进一步说明了群体中炎症基因表达的一致性。图17B显示了获自未确诊群体的指标值的正态分布。图17C图解了如图17B中的相同指标的应用,其中正常群体的炎症中值已经设定到零且正常和患病受试者被标在相对于中值的标准偏差单位。图18以类似于图17A的方式绘制了类风湿性关节炎患者的两个不同的(应答者 ν非-应答者)6人-受试者群体与图17A中相同的7个位点的基因表达分布图。图19因此图解了用于评价对用氨甲喋呤传统治疗无良好应答的单个患有类风湿性关节炎的受试者的炎症指标的应用。图20类似地图解了用于评价对用氨甲喋呤传统治疗无良好应答的三个患有类风湿性关节炎的受试者的炎症指标的应用。图21-23各自显示了用于患有类风湿性关节炎,接受三种单独治疗方案的受试者的国际基群的炎症指标。图M图解了用于评价患有肠炎的单个受试者的炎症指标的应用。图25显示了用布洛芬体外处理的全血的M个位点(表1的炎症基因表达组)的基因表达分布图与使用其它非类固醇抗炎药物(NSAIDs)的对比。图沈图解了两个竞争性抗炎化合物的作用如何进行客观、定量、准确和可重复性地比较。图27到41图解了基因表达组在传染性疾病的早期识别和监控中的应用。图27利用一种新的M个基因的细菌基因表达组,来鉴别宿主生物系统中不同的细菌状态。图洲显示了获自三个不同来源3. 7叩61168,8.训13衍1化,和3.£1111^118·的单个位点,IFNG到LTA的差异表达。图四和30分别显示了全血中的炎症48A和48B位点(分别与上述讨论的图6和 7)对施用革兰氏阳性和革兰氏阴性生物两个小时之后的应答。图31和32分别对应于图四和30并与其相似,区别在与在给药6小时之后进行监控。图33比较了用大肠杆菌(E. coli)和用不含生物体的大肠杆菌滤液诱导的基因表
达应答。图34类似于图33,但比较的应答仅仅大肠杆菌滤和已经加入多粘菌素B的大肠杆菌滤液进行刺激。图35图解了在给药2、6和M小时之后用S. aureus诱导的基因表达应答。图36到41比较了用E. coli和S. aureus在不同的浓度和时间诱导的基因表达。具体实施方案的详细描述定义下面的术语除非上下文另有要求应该具有所显示的含义
10
“算法"是一组用于描述生物学状态的规则。规则系列可被定义仅仅为代数的但同样包括要求特定领域知识,专家解释或其它临床指标的可选择的或多重的判定观点。“因子”是一种“组合物”或一种“刺激物”,如那些在这里定义的术语,或一种组合物和一种刺激物的混合。定量RT-PCR分析的上下文中的“扩增”是DNA复制数目的功能其被追踪来提供其浓度的定量测定。“扩增”在这里是指定量测定技术的灵敏度和特异性的程度。相应地,扩增提供了在扩增效率和用于测定所有组分的灵敏度和再现性大体上类似的条件下被评价的组分浓度的测定。“基线分布数据集”是一组由生物样品(或样品的群体)在期望的生物学状态下评价产生的与基因表达组的组分有关也即被用作数学标准目的的值。期望的生物学状态可以是,例如,受试者(受试者的群体)在暴露于因子之前或存在未经治疗的疾病或没有疾病的状态。可选择的,或另外的,期望的生物学状态可以是受试者或受试者群体的健康状态。可选择的,或另外的,期望的生物学状态可以是与基于至少年龄组,性别,种族,地理位置,饮食,药物紊乱,临床指标,给药方法,身体活动,体重,和环境曝露的之一所选择的群体受试者有关的生物学状态。受试者的"生物学状态"是受试者在被观察中的相关范围的状态,且此范围可包括能够被监控状态变化的受试者的任何方面,诸如健康状态,疾病包括癌症;外伤;衰老; 传染;组织变性;发育阶段;身体健全;肥胖症,以及情绪。如可被观察到的,在这里状态可以是慢性的或急性的或简单瞬变的。此外,目的生物学状态可以是显示整个的生物或细胞群体或可以是局限于具体的器官诸如,皮肤,心脏,眼睛或血液),但在任一情况下,状态可被通过细胞的作用群体的样品直接监控或者通过受试者其它地方的样品被间接地监控。术语“生物学状态”包括“生理学状态”。受试者的“体液”包括血液,尿,脊髓液,淋巴液,粘膜分泌液,前列腺液,精液,血淋巴或本领域已知的受试者的其它体液。“校准分布数据集”是组中所给组分的第一分布数据集的元素和基线分布数据集的相应元素的函数。“临床指标”是评价细胞集合或生物集合的生理学状态的单独使用的或连同其它数据一起使用的任意生理数据。此术语包括临床前指标。“组合物”包括任意物理状态或混合物理状态的化合物,营养药,药物,顺势疗法制剂,对抗疗法制剂,自然疗法制剂,化合物的混合物,毒素,食物,食品增补剂,矿物质,和复杂混合物。从样品“获得”分布数据集包括测定一组与基因表达组的组分有关的值(i)通过直接测定生物样品中的此种组分或(ii)通过测定已暴露于原始样品或获自原始样品的物质的第二生物样品中的此种组分。在一组组分中的“不同的RNA或蛋白组分”是基因的不同表达产物,是RNA或蛋白。 基因的“表达”产物包括由信使RNA翻译产生的基因产物RNA或是蛋白。“基因表达组”是用实验方法鉴定的组分系列,每一组分是基因的不同表达产物, RNA或蛋白质,其中系列组分的选择基于使得它们的测定提供了对目的生物学状态的测定。“基因表达分布”是一组由评价生物样品(或样品群体)产生的与基因表达组的组分有关的值。“基因表达分布炎症指标”是提供从基因表达分布图的一个实例推出炎症状态的单值测定的的指标函数映象的值。受试者的“健康状态”包括心理的,情绪的,身体的,精神上的,对抗疗法的,自然疗法的和顺势疗法的状态。“指标”是算术或数学上获得的数值特性,其用于简单化或公开或告知较复杂的定量信息的分析。疾病或群体的指标可通过将具体的算法用于多个具有普通生物学状态的受试者或样品来测定。这里所用的“炎症”通常是用语言描述的医学感觉且可以是急性的或慢性的;简单的或间接的;局部化的或传播的;由很多化学的,物理的或生物的因子或混合的因子激发或维持的细胞和组织的应答。“炎症状态”被用于表明受试者由于炎症产生的相应生物学状态,或说明炎症的程度。基于基因的普通组的“大量”的数据系列是多个数据充分地大能允许来得到基于相同组的数据组的实例的统计上显著的结论。即将给药组合物的受试者的“正常的”状态是指受试者给药之前的状态,即使受试者碰巧遭受一种疾病。基因的“组”是包括至少两个组分的基因的系列。来自受试者的“样品”可包括通过包括静脉穿刺,排泄,射精,按摩,活体解剖,针抽,灌洗样品,刮擦,手术切割或干预等手段或其它本领域已知的手段取自受试者的单个细胞或多细胞或细胞碎片或部分体液。“特征分布图”是用实验方法鉴定的所选基因表达分布图的子集,用于鉴别生物学状态,因子或作用的生理机制。“特征组”是基因表达组的子集,其中的组分被选择来允许生物学状态,因子或作用生理机制的鉴别。“受试者”是在观察中的体内,离体或体外的细胞,组织,或生物体,人或非人。当我们基于来自受试者的样品评价受试者的生物学状态时,我们包括利用来自人受试者的血液或其它样品来评价人受试者的状态;但我们同样包括,例如,利用血样本身来评价,例如,治疗或因子对样品的作用。“刺激”包括(i)监控的与受试者物理的相互作用,例如紫外线A或B,或用于周期性情感失调的光照疗法,或用补骨脂素治疗牛皮癣或用包埋的放射性晶粒治疗黑素瘤, 其它的射线照射,和(ii)任何受试者的物理的,心理的,情绪的,或精神上的活力或不活动性。“治疗”包括所有无论生物学的,化学的,物理的,超自然的,或上述的混合,意欲维持或改变受试者的被监控的生物学状态的干预。PCT专利申请公开号WO 01/25473,2001年4月12日公开,名称为“利用校准基因表达分布图鉴定生物学状态或因子的系统和方法”,由本发明人申请的,在这里通过引用作为参考,公开了通过利用基因表达组来评价(i)生物学状态(包括健康和疾病)和(ii) 一种或多种因子对生物学状态的作用(包括健康,毒性,治疗方法和药物相互作用)。
尤其是,基因表达组可用于测定可分别或混合配制的天然或合成的组合物或刺激物或混合物的治疗效果;个体或群体中的毒理作用的预测和组合物或混合物的剂量效果; 测定如何两种或多种不同因子在单个治疗中给药的可能的互相影响使得能够检测任何协同的,加成的,负面的,中和的或毒性的活性;依据信息分布数据集来提供用于选择受试者前的新的标准进行预临床和临床试验以揭示疾病状况;以及在实施阶段1或2试验之前对于这些患者进行初步的剂量研究。这些基因表达组可被用于获自受试者的样品来评价它们的生物学状态。基因表达组的选择基于组中的RNA或蛋白组分的定量测定能够得到受试者生物学状态的测定的方式来进行。在一种方案中,使用校准的分布数据集。校准分布数据集的每一元素是(i)基因表达组的不同的组分的测定和(ii)基线量的函数。我们已经发现当组分的定量测定是在可重复的条件下(测定的可重复度超过 20%,且优选地5%或更好,更优选的为3%或更好)进行时可获得有价值的和出乎意料的结果。对于本说明书和下面的权利要求书而言,我们将超过20%的测定的可重复度认为是提供“大体上可重复的”的测定条件。尤其是,所希望的,每次对应于特定样品中的组分的表达水平的测定被获得,大体上相同的测定应产生大体上相同的表达水平。在此方式中,基因表达组中组分的表达水平可被从样品到样品进行有意义的比较。即使特定组分表达水平的测定是错误的(例如,所述,30%太低),重复性的原则意味着此组分的所有测定,如果偏离,将仍然是系统性地偏离,因此组分的表达水平的测定可被有意义的比较。通过这种方式,涉及变化环境下的组分表达的有价值的信息可被获得和比较。除重复性的原则之外,最好是第二原则同样也是满足的,即组分的定量测定是在所有组分的扩增效率是大体上类似的条件下进行的(1到2%且典型地为或更小)。当满足这两个原则时,则所给样品中一个组分的表达水平的测定可与另一个组分的表达水平的测定进行有意义且从样品到样品的比较。本实施方案涉及由组分的定量测定产生的,且此外可选择的,从专家分析或计算生物学获得的指标或算法的应用(a)复杂数据系列的分析;(b)调控或校正样品或受试者之间基因表达值无信息的或其它小的变化的影响;(c)简化与其它复杂数据系列,获自复杂数据系列的数据库或指标或算法进行比较的复杂数据系列的鉴定;(d)监控受试者的生物学状态;(e)测定可分别或组合或混合配制用于大范围目的生理条件的天然的或合成的组合物或刺激物的治疗效果;(f)预测组合物或组合物的混合物对个体或群体的毒理作用和剂量效果;(g)测定两种或多种不同的因子在单一治疗中给药可能产生的互相影响来检测任何的协同,加成,负面,毒性活性中和的相互影响(h)依据信息分布数据集通过提供选择前受试者的新标准进行预临床和临床试验来揭示疾病状况并且在实施阶段1或2试验之前对这些患者进行初步剂量研究。基因表达分布图以及鉴定特定条件或因子或两者的指标的应用可被用来降低阶段3临床试验的成本且可在阶段3试验之后使用;标记允许使用的药物;在一组给药方法中选择对于调控其独特生理的特定患者合适的给药方法;在症状发作之前诊断或测定医学状况或传染的预测或诊断与给药一种治疗因子有关的不良副作用;管理患者的卫生保健; 以及质量控制不同批次的因子或因子混合物。受试者
1
在这里公开的方法可被本领域的普通技术人员应用于人,哺乳动物或其它生物体的细胞而不需要过度的实验因为所有的细胞均转录RNA并且从所有类型的细胞中提取RNA 是本领域已知的。基因表汰组的组分的诜择选择基因表达组的组分的常规方法已被描述于PCT申请公开号W001/2M73。我们已经设计并用实验方法鉴定了各种各样的基因表达组,每一组提供一种获自血液或其它组织的样品的生物学状况的定量测定。对于每一组,实验已经证明利用该组组分的基因表达分布图能提供生物学状况的信息的。(我们在其它地方显示的现有生物学状况的信息, 基因表达分布图可以被使用,尤其是,用于测定治疗效果,以及用于提供治疗干预的目标。) 基因表达组的实施例,与每一组组分的简要的说明一起,被提供在如下所附的表中
表1.炎症基因表达组表2.糖尿病基因表达组表3.前列腺基因表达组表4.皮肤应答基因表达组表5.肝脏新陈代谢以及疾病基因表达组表6.内皮的基因表达组
表7.细胞健康状态以及细胞程序死亡基因表达组表8.细胞因子基因表达组表9. TNF/IL1抑制基因表达组表10.趋化因子基因表达组表11.乳腺癌基因表达组表12.传染性疾病基因表达组
本领域的普通技术人员可依据本申请表述的原理建立其它的组并用实验方法证
试验设计
我们通常将一组中的样品分成一式四份;也即,一份样品被分成等分样品且对于每一等分样品而言我们测定每一组分在基因表达组中的浓度。超过总计900个组分的试验,每一试验进行一式四份,我们发现每一试验产生偏差的平均系数,(标准偏差/平均数)*100,小于2%的,典型地小于1%。此图是所谓的“试验内可变性”的测定。我们已经利用相同的样品材料在不同的时机进行试验。用72个试验,产生具有M 个元素的组中的组分的浓度测定,且这样的浓度测定随着时间在3个不同的时机测定,我们发现偏差的平均系数小于5%,典型地小于2%。我们将此数字视作所谓的“试验内可变性”的测定。我们发现其在利用一式四份试验结果来鉴定和去除统计“异常值”的数据点中是有价值的;这样的数据点是那些相差的百分比大于,例如,所有四个值的平均数的3%而且不产生任何大于,例如,1 %的系统偏离。此外,如果一组四个中的超过一个数据点被通过此方法排除,则相应组分的所有数据被丢弃。测定组中组分的基因表达为了测定样品中特定RNA的数值,我们利用本领域普通技术人员公知的方法从基
14因表达组的组分的样品中提取和定量测定转录的RNA。(参见以下具体的方案,同样也参见 PCT申请WO 98/24935的用于RNA分析的方案,在这里通过引用作为参考)。简要地,RNA被提取自样品诸如组织,体液,或受试者的群体可以生长的培养基。例如,细胞可被溶解且用在其中进行DNAse反应的合适的溶液洗脱RNA。第一条链可利用逆转录酶来合成。然后可进行基因扩增,更具体地,进行定量PCR试验,且目的大小的基因被用标记诸如18S rRNA校准(Hirayama等,Blood 92,1998:46-52)。样品被重复测定多次,例如,4个重复。mRNA的相对的量被通过内部对照和目的基因之间在阈值循环中的差异来测定。在本发明的一个实施方案中,定量PCR被利用扩增,报道因子和诸如商业供应的仪器应用生物系统(Applied Biosystems) (Foster City, CA)来进行。假定目标转录本扩增的限定的效率,扩增目标模板的信号是可检测的点(例如,循环数)可直接与测定的样品的特定信息转录本的量相关。类似地,其它可以计量的信号诸如荧光,酶活性,每分钟衰变数,吸光率,等等,当与目标模板的已知浓度相关联(例如,参考标准曲线)或用限定的可变性校正到一种标准时可被用于测定目标模板在未知样品中的数目。尽管不限于扩增的方法,但定量的基因表达技术可利用目标转录本的扩增。可选择的或与目标转录本的扩增相结合,也可使用报道分子信号的扩增。目标模板的扩增可通过等温基因扩增策略,或通过热循环诸如PCR的基因扩增来完成。获得扩增目标或报道分子与起始模板的浓度之间的可明确的和可重复的相互关系是人们所期望的。我们已经发现此目的可通过缜密关注,例如,一致的引物-模板比率和对实验扩增效率有限可允许的水平的严格依附(例如99.0到100%的相对效率,典型地为 99. 8到100%的相对效率)来实现。例如,在测定单个基因表达分布图的基因表达水平方面,将组中的所有组分维持类似的和有限范围的引物模板比率(例如,在10倍范围之内) 和扩增效率(以内,例如,小于)来允许各组分的精确的和精确的相对测定。我们将用本说明书和下面的权利要求中的扩增效率看作是“大体上类似的”,如果它们相差只是大约 10%。优选地它们应该相差小于大约2%且更优选地小于大约1%。这些限制应被用于被测定与相关生物学状态向关联的浓度水平的全部范围。因此在这里需要不同的实施方案来满足在测量条件大体上可重复的以及其中所有组分扩增的特异性和效率是大体上类似的条件下进行测定的原则,然而,通过调整不直接满足这些原则的试验结果来实现这样的测定条件在本发明所要求的范围之内,用这样的方式来补偿误差,使得该原则在适当的调整试验结果之后是满足的。实践中,我们进行实验来确保这些状态是满足的。例如,我们典型地设计和制备多个引物-探针系列,并用实验方法测定产生最好的性能。尽管引物-探针的设计和制备可利用本领域已知的计算机技术,和尽管普通的实践来增强,我们仍然发现实验的验证是有用的。此外,在实验验证的过程中,我们联合了所选引物-探针组合的一系列特征反向引物应互补于编码DNA链。在一个实施方案中,引物应跨越内含子-外显子接合点,用反向引物的3-起始末端的至多3个碱基互补于最接近的外显子。(如果超过3 个碱基是互补的,则它将造成竞争性地扩增基因组DNA)。在本发明的一个实施方案中,引物探针应扩增小于110个碱基长的cDNA且将不会扩增来自相关的但生物学上不相关的位点的基因组DNA或转录本或cDNA。所选择的引物探针的适当的靶是第一链cDNA,其可在一个实施方案中,如下所述来制备(a)使用全血离体评价受因子影响的生物学状态。通过静脉穿刺获得人血液并制备用于试验,通过将样品分为原始的,无刺激的,以及用充分的体积刺激至少3个时间点。典型的刺激物包括脂多糖(LPS),植物血凝素(PHA) 以及热杀死的葡萄球菌(HKS)或角叉菜且可被分别使用(典型地)或组合地使用。肝素化全血的等分样品被混合没有刺激物并37°C在5% CO2的空气中保持30分钟。加入刺激物以改变浓度,将其混合并在大致37°C保持30分钟。其它的实验混合物此时可加入,并控制取决于实验混合物的预计药物动力学的变化的时间。在限定的时间,通过离心收集细胞,去除血浆并通过各种标准方法提取RNA。核酸,RNA和或DNA被纯化自实验群体或指示细胞系的细胞,组织或液体。RNA优先地利用各种标准方法获自核酸混合物(或RNA分离策略,pp. 55-104,RNA Methodologies, 分离和鉴定的实验室指南,第二版,1998, Robert Ε. Farrel 1, Jr.,Ed.,学院出版社)在目前使用来自Ambion的基于滤光镜的RNA分离系统(RNAqueous ,Phenol-free Total RNA Isolation Kit, Catalog&num ;1912, version 9908 ;Austin, Texas)。根据一种方法,用于基因表达分布图测定的全血试验如下进行人全血被移到带有肝素钠的IOmL Vacutainer管中。血液样品被通过轻轻地反转管4_5次来混合。血液在抽取的10-15分钟内使用。在实验中,血液被稀释2倍,S卩,每种样品每时间点,0.6ml全血 +0. 6mL刺激物。制备试验培养基且酌情加入刺激物。然后将一定量(0.6mL)的全血加入到各个12x75mm聚丙烯管中。0. 6mL的2X LPS(来自 E. coli 血清型 0127 :B8,Sigma ;#L3880 或血清型 055,Sigma ;#L4005,10ng/ml, 在不同的类型中有所改变)被加入到LPS管中。然后,将0.6mL的试验培养基加到带有每种状态的复制本的“对照”管中。盖子被紧紧地关闭。反转管2-3次来混合样品。盖子被松开来第一次停止并且管在037°C ,5%C02下温育6小时。在第6小时,样品被轻轻地混合来重新悬浮血细胞,且从每管除去1毫升(使用带有barrier tip的微移液管),并转入到 2mL 的"dolphin,,microfuge 管(Costar#3213)中。然后在500xg,环境温度(IEC离心或类似的,在翻转吊桶的microfuge管适配器中)下离心样品5分钟,且来自各管的大量血清被尽可能的除去和丢弃。细胞球被置于冰上;并利用Ambion RNAqueous试剂盒尽可能快地提取RNA。(b)扩增策略。利用信息特异性引物或随机引物扩增特异性RNAs。由获自公众数据库的数据合成特异性引物(例如,Unigene,国家生物技术信息中心,国家医学图书馆,Bethesda, MD),包括来自人及其它动物的基因组和cDNA文库的信息。 弓丨物被选择来优先地扩增获自实验或指示样品的特异性RNAs,参见,例如,RT PCR, RNA方法学,第15章,分离和鉴定的实验室指南,第二版,1998Robert E Farr ell, Jr.,Ed.,学院出版社或第22章pp. 143-151, RNA分离和鉴定方法,分子生物学方法,卷86,1998,R. Rapley和 D. L. Manning Eds.,Human Press,或14个引物设计参数的统计学改进,第5章,pp. 55-72, PCR 应用用于功能基因组的方法,M. A. Innis, D. H. Gelfand andj. J. Sninsky,Eds.,1999,学院出版社)。扩增在等温条件下利用热循环仪来进行(例如,获自Applied Biosystems 的ABI 9600或9700或7700,Foster City,CA ;参见核酸检测方法,pp. 1-24,病毒检测的分子方法,D. L. Wiedbrauk and D. H.,Farkas, Eds.,1995,学院出版社)。扩增的核酸被利用荧光-标记的检测引物来检测(参见,例如,Taqman PCR Reagent 试剂盒,方法,局部号 4(^823 修订本 A,1996,Applied Biosystems, Foster City CA)所述引物由描述扩增引物的公众已知的数据库鉴定和合成。在此情况下,扩增的DNA被利用获自 Applied Biosystems (Foster City, CA)的 ABI Prism 7700 序列检测系统检测和定量测定。包含在实验样品中或获自指示细胞系的特异性RNAs的量可与观测到的荧光相对量相关(参见例如,定量PCR技术的发展5'核酸酶试验,Y. S.Lie*C.J.Petr0p0lus, Current Opinion in Biotechnology,1998,9 :43_48,或 Rapid 热循环和 PCR 动力学, pp. 211-229,PCR应用的第14章用于功能基因组的方法,M. A. Innis, D. H. Gelfand禾口 J. J. Sninsky,Eds.,1999,学院出版社)。作为在这里描述的方法的特定实施,我们详细描述了用于PCR的第一链cDNA的合成方法。这些方法可被用于全血RNA和提取自培养细胞的RNA(即THP-I细胞)。MMl.Applied Biosystems TAQMAN 反转录试剂盒(P/N 808-0234)。试剂盒组分 10X TaqMan RT缓冲液,25mM氯化镁,deoxyNTPs混合物,随机六聚体,RNase抑制剂, MultiScribe 逆转录酶(50U/mL) (2) RNase/ 无水 DNase (来自 Ambion 的(P/N 9915G),或等价物)DEPC处理的水Mi1.立即将RNase抑制剂和MultiScribe逆转录酶置于冰上。所有其它的反应物可在室温下解冻然后置于冰上。2.从-80°C冰箱中取RNA样品并在室温下解冻然后立即放置在冰上。3.制备下列用于每100ml RT反应液的逆转录酶反应物的混合物(对于多重样品
而言,制备额外的混合物来允许移液管误差)
1种反应液(mL)11X,例如10个样品10X RT缓冲液10.0110.025 mM MgCl222.0242.0dNTPs20.0220.0随机六聚物5.055.0RNAse抑制剂2.022.0逆转录酶2.527.5水18.5203.5总计80.0880.0(80 mL 每样 4.取各RNA样品至20mL的总体积在1. 5mL微量离心管中(例如,对于THP-1RNA, 取IOmL RNA并用RNase/无水DNase稀释到20mL,对于全血RNA使用20mL的总RNA)以及从步骤5,2,3加人80111しRT反应混合物。通过移液管上下进行混合。5.在室温下温育样品10分钟。6. 37°C温育样品1小时。7. 90。C温育样品10分钟。8.在微量离心机中快速旋转样品。9.如果立即进行PCR将样品放置在冰上,否则在-20°C储存备用。10.利用18S和b-肌动蛋白对所有RT样品进行PCR QC(参见SOP 200-020) 0如下所述利用带有上述第一链cDNA的引物探针测定基因表达组的组分建立炎症的24-基因人基因表达组。材料1.用于各目的基因的20X引物/探针混合物。2.用于18S内源対照的20X引物/探针混合物。3. 2X Taqman 通用 PCR Master 混合物。4.从提取自細胞的DNA转录的cDNA。5. Applied Biosystems 96—孑し光学反应平皿。6. Applied Biosystems光学盖,或光学-清洁的薄膜 7. Applied Biosystem Prism 7700 序列测定仪。施1.如下所述制备包含用于目的基因的引物/探针,用于18S内源対照的引物/探 针的各引物/探针混合物,以及2X PCR Master混合物的原料。制备是充分过量的以允许 移液管的误差例如大约过量10%。下面的实施例用具有测定两种状态(2个平皿)的一式 四份的样品说明了基因的典型的结构。
1X(1孔) 9X(2平皿的量)
2X Master 混合物12.50112.50
20X 18S引物/探针混合物1.2511.25
20X目的基因的引物/探针1.2511.25
混合物
总计15.00135.002.通过将95 Pl的cDNA稀释成2000 P 1的水溶液来制备成cDNA目标母液。调整 cDNA的量产生在10和18之间的Ct值,典型地在12和13之间。3.吸取15^1的引物/探针混合物到Applied Biosystems 96-孔光学反应平皿 的合适的孔中。4.吸取10^1的cDNA母液到Applied Biosystems 96-孔光学反应平皿的各个孔中。5.用Applied Biosystems光学盖,或光学-透明的薄膜密封平皿。6.通过AB Prism 7700序列测定仪分析平皿。此处的方法也可使用蛋白质来应用,其中灵敏的定量技术,诸如酶联免疫吸附试验(ELISA)或质谱分析,对于测定蛋白组分的量是有用的且是本领域公知的。(参见 W098M935,在这里引入作为参考)。基线分布数据集来自单个个体和大批个体的样品的分析提供了一个相关于特定组或系列组的分布数据集的文库。这些分布数据集可被储存记录在文库里用作基线分布数据集。术语“基本的”是指,存储的基线分布数据集充当用于提供关于生物学状态或因子的信息的校准分布数据集的比较器。基线分布数据集可被存储在文库中并通过很多交叉引用的方式被分类。分类的形式可依赖于从其中可获得数据系列的组的特征。另一种分类的形式可以是通过特定的生物学状态。生物学状态的概念包括可在细胞或细胞群体种任意一次发现的任何状态。这些状态可反应样品的分布,受试者的性别或任何其它的鉴别器。一些鉴别器可重叠。也可访问文库其与单个受试者或特定临床试验有关的记录。基线分布数据集的分类可进一步的用关于特定受试者的医学信息,医学状态,特定的因子等来注释。用于产生校准分布数据集的基线分布数据集的选择与被评价,监控,或预测的生物学状态,以及校准组的目的应用有关,例如,监控药物发展,质量控制或其它用途。从获取第一分布数据集的相同的受试者,或从以不同次数暴露于刺激物,药物或复杂的混合物的不同的受试者读取基线分布数据集是所期望的;或可获自相似的或不同的群体。分布数据集可来自从其获得第一数据系列的相同受试者,其中样品被单独的或在以类似时间,不同的或类似的位点或在不同的或类似的生理条件下获得。例如,图5提供了一种方案其中的样品在刺激之前或刺激之后获得。获自未刺激的样品的分布数据集可充当刺激之后获得的样品的基线分布数据集。基本的数据系列也可获自包含具有一些限定的特征或生物学状态的受试者群体的分布数据集的文库。基线分布数据集也对应于与体外细胞培养相关联的一些体内或体外的特性。生成的校准分布数据集可与基本的分布数据和可选择的第一分布数据集一起或单独的被储存为数据库或文库中的记录(图6)尽管第一分布数据集将通常根据适当的分类标准合并到基线分布数据集中。与所述生物学状态相关联的基因表达分布图的显著一致性使得其对于存储分布数据是重要的,其可被使用,尤其是用于标准的参考目的。标准参考可用来表明受试者与所给定的生物学状态(健康或患病)相符的程度且,可选择的或此外的,来提供用于临床干预的目标。所选的基线分布数据集也可被用作标准通过其来判断效果,毒性等方面的生产抽样。其中治疗因子的作用被测定,基线数据集合可相当于给药因子之前获得的基因表达分布图。当正在测定新制品的质量控制时,基线数据集合相当于那些产物的黄金标准。然而, 可使用任何适当的标准技术。例如,平均的基线分布数据集被获自自然生长的草本营养药的可信材料并比较过量和过量的不同划分来证明准备释放的多个化合物的一致性,或缺少一致性。校准数据如果在基因表达的测定中获得了,如上所述与“基因表达组”和“基因扩增”有关的可重复性,我们则断定其中差异发生在根据此状态进行的测定中,所述差异可归因于生物学状态的差异。因此我们发现校准分布数据集在相同的状态下取自相同个体的样品时是高度可重复的。我们类似地发现校准分布数据集在重复测定的样品中是可重复的。我们也发现重复的实例,其中当来自受试者的样品在体内暴露于化合物时获取的校准分布数据与获自已经暴露于体内样品的样品的校准分布数据是可比较的。我们也已经发现,重要地,用因子处理的指示细胞系可在多数情况下提供可与那些获自体内或来自体内的细胞群体相比较的校准分布数据集。此外,我们已经发现给药一种来自受试者的样品于指示细胞可提供与受试者的生物学状态包括受试者的健康状况,疾病情况,治疗干预,衰老或暴露于环境刺激物或毒素相关的有益的校准分布数据。m^mmmmfmnifm. β ^校准分布数据集可表示在电子表格中或图表中例如,以条形图或表格形式表示但也可三维模型来表示。基线和分布数据的相关函数可以是表示为对数的一个比率。组分可被逐条列举在X-轴上且对数刻度可以在Y-轴。校准系列的元素用表示基因表达相对于基线的相对增强的正值来表示或将基因表达的相对减少表示为负值。校准分布数据集的每个元素在相对于根据相似条件取自受试者的类似样品的范围内应当是可重复的。例如,校准分布数据集在相对于根据相似条件取自受试者的类似样品的一个数量级内是可重复的。尤其地,元素可在50 %以内是可重复的,更尤其地在20 % 以内,且典型地在10%以内。根据本发明的实施方案,来自每个在基因表达组测定的基因位点的相对的基因表达的增加,减少的和无变化的模式可用于制备能够提供关于因子处理条件的生物学状态、生物学效果或用于群体比较的信息的校准分布图系列。这些特性的模式可被用来鉴定药物试验的可能候选者,单独或与其他临床指标一起协同使用来诊断或预测生物学状态或可被用来指导药物或营养药生产,测定和销售的改进。获自定量基因表达的数值数据和来自相对于基线分布数据集的校准基因表达的数值数据可被存储在数据库或数字存储介质中且可以读出用于包括管理患者卫生保健或进行临床试验或用于鉴定药物的目的。数据可被通过万维网,电子邮件,或因特网访问网站传输在物理的或无线网络中例如或通过硬拷贝来远距离的位点收集和合并(图8)。在本发明的一个实施方案中,一个描述的记录被存储在单数据库或多重数据库中其中存储数据包括通过利用基线分布数据集转换之前的未加工的基因表达数据(第一分布数据集),以及用于产生校准分布数据集的基线分布数据集的记录包括例如,是否基线分布数据集是获自特定的特征组的注解以及任何其它的用于帮助解释和数据用途的注解。因为数据是为一种通用的形式,数据处理可很容易的用计算机来进行。数据被组织以提供选择性地对应于校准数据系列的图示法的计算结果。例如,获自受试者的不同样品其至少RNA或蛋白之一可被表示为P”获自样品P1 的第一分布数据集被表示为Mj,其中Mj是P1的不同的RNA或蛋白组分的定量测定。记录Ri 是M和P的比且可被用受试者的,例如,年龄,饮食,种族,地理位置,药物紊乱,精神错乱,给药方法,身体活动,体重和环境曝露的补充资料来注释。此外,数据处理可进一步的包括从可包含校准分布数据集而不具有其它医学数据的第二状态数据库中存取数据。在这里,数据存取可通过计算机网络。上述计算机上的数据存储器可被以用户访问的形式提供信息。相应地,用户可加载信息在包括下载信息的第二访问网址上。然而,访问可只限于具有口令或其它安全装置的用户从而来保护其中的医学记录。本发明实施方案的一个特征是用户加入新的或注释的记录到数据系列中使得记录成为生物信息一部分的能力。
校准分布数据集与产物诸如药物有关的图示法提供了一种通过校准分布图尤其是特征分布图使产物标准化的可能。分布图可被用作一种特征,来证明与用于类似或不同用途的其它药物相比具有的相对的效果,作用机理的差异,等等。本发明的不同实施方案也可被作为计算机程序产品应用于计算机系统。产品可包括用于获得第一分布数据集和用于生成校准分布图的程序代码。这样的实施可包括一系列固定在有形的介质,诸如计算机可读的介质(例如,磁盘,⑶-ROM,ROM,或固定磁盘)上的,或通过调制解调器或者其它接口装置诸如与网络连接的通信转接器传递到计算机系统的计算机指令。网络连接可例如,通过光学或有线通信线路或通过无线技术(例如,微波,红外线或其它)或这些的组合。系列的计算机指令优选地包括所有或部分以前描述的相对于系统的功能性。本领域的技术人员应能理解这样的计算机指令可通过多个编程语言编写来用于许多计算机体系结构或操作系统。此外,这样的指令可被存储在任意的存储设备,诸如半导体,磁性体,光学的或其它的储存装置中,且可被利用任意通信技术,诸如光学,红外线,微波,或其它的传送技术传输。人们期望这样的计算机程序产品可被通过带有印刷的或电子的文件的可移动的介质 (例如,压缩包装的软件),预加载在计算机系统中(例如,在系统ROM或固定磁盘上),或经过网络(例如,因特网或万维网)由服务器或电子公告板来散发。此外,计算机系统进一步的提供包含用于获得第一数据系列且校准分布数据集的导数模块。用表格或图表示的校准分布数据集,相关的数据库,评估指标或导出算法,以及提取自组的信息,数据库,数据系列或指标或算法是可用于各种目的一起或分别地出售的商品,描述在WO 01/25473中。指标构建在组合中,(i)关于群体生物学状态的基因表达分布图的显著的一致性和(ii)在组中所有组分的扩增的特异性和效率是大体上相似的测定条件下,通过利用提供基因表达组中组分的大体上可重复的测定的方法产生基因表达分布图,使得利用鉴定基因表达分布图的指标称为可能,且其因此提供了一种测定生物学状态的方法。指标可利用将基因表达分布图中的值映象成与生物学状态相对应的单个值的指标函数来建立。基因表达分布图中的值是对应于基因表达分布图的基因表达组的各个组分的值。 这些组分的量形成了分布数据集,且指标函数从分布数据集的元素产生一个单值-指标_。指标函数可方便地被建立为条件的线性总和,每个条件是分布数据集的元素的所谓的“贡献函数”。例如,贡献函数可以是一个常数乘以分布数据基的幂。所以指标函数具有表达式I = Σ MCi MiP(i)其中I是指标,Mi是分布数据集的元素i的值,Ci是一个常数,P(i)是Mi增加的幂,总和是i直到数据系列中元素的数目的所有积分的值。我们因此具有一个线性多项表达式。值Ci和P(i)可以通过很多种方式被测定,使得指标I能够提供相关生物学状态的信息。一种方式是将统计学方法,诸如latent class modeling,应用于分布数据集,相关的临床数据或用实验方法获得的数据,或其它的与生物学状态有关的数据。关于这一点,例如,可以使用来自 Statistical Innovations, Belmont, Massachusetts 被称作 LatentGold 的软件。参 Rl网Iff www, statisticalinnovations. com/1 g/,在此通丄寸弓I 用作为参考。可选择的,其它的简单模型试验技术以本领域已知的方式被应用。用于炎症的指标函数可被建立,例如,以炎症的更大程度的方式(如通过炎症基因表达分布图的分布数据集测定)与指标函数的大的值相关联。在一个简单的实施方案中,因此,每个P(i)可以为+1或-1,取决于是否组分增加或减轻正在增加的炎症。如下面进一步具体描述的,我们已经建立了有意义的炎症指标其与数学式成正比1/4{ILIA}+1/4{IL1B}+1/4{TNF}+1/4{INFG}-1/{IL10},其中大括号内的组分表示组分的测定数据且组分是表1炎症基因表达组的子集。如上述所讨论的,基线分布数据集可被用于提供一种合适的标准参照,且甚至可以用来产生校准分布数据集,正如上述所讨论的,基于标准参照,鉴定基因表达分布图的指标也可与用于产生所述指标的指标函数的标准值一起提供。这些标准值可根据相应的群体来测定,使得指标可用相关的标准值来解释。相应的群体具有至少年龄组,性别,种族,地理位置,饮食,药物紊乱,临床指标,药物处理,身体活动,体重,和环境暴露中之一的共同特性。举例来说,指标可被建立相关于健康受试者的群体的标准基因表达分布图,在此方式中大约1的读数鉴定健康受试者的标准基因表达分布图。让我们进一步的假定生物学状态即受试者的指标是炎症;此实施例中的1的读数因此对应于与健康受试者的标准相匹配的基因表达分布图。大体上较高的读数则可鉴定受试者正在遭受的炎症状态。利用1作为鉴定标准值的应用,然而,仅仅是一种可能的选择; 另一种逻辑选择是利用0作为鉴定标准值。利用此选择,来自零的指标中的偏差可被显示在标准偏差单位中(所以位于-1和+1之间的值包括正态分布参照群体的90%)。因为我们已经发现基因表达分布图值(以及相应地基于他们建立的指标)趋向于正态分布,用此方式建立的0-中心指标可高度地提供信息。其因此促进了指标在疾病诊断以及确定治疗受试者中的应用。选择0用于标准值,以及标准偏差单位的应用,例如,被举例在下面讨论的图17B。
实施例实施例1 用于分析大容量,复杂数据系列的急性炎症指标。在本发明的一个实施方案中,指标值或算法可用于将复杂数据系列简化为能够提供关于受试者炎症状态信息的单个的指标值。这些被列举在图IA和IB中。图IA被称为产生大容量的,复杂数据系列的受试者的来源精确性炎症分布示踪 (Source Precision Inflammation Profile Tracking)。图显示了在单个男性受试者患视神经炎期间的八个单独的天对其对个来自炎症基因表达组(显示在表1中)的基因进行分析的结果。图IB显示了急性炎症指标的应用。上述图IA中显示的数据在利用与下列数学式成正比的指标函数计算之后被显示于这些图中(1/4 {ILIA} +1/4 {IL1B} +1/4 {TNF} +1/4 {IN
22FG}-1/{IL10}).棚列2口口齢i式靴糊犬_急、十牛碰撒示纖■_。等试者的炎症状态揭示了关于生物学状态的过去进展,未来进展,对治疗的应答等方面的信息。急性炎症指标可被用来揭示受试者生物学状态的这样的信息。这些被列举在图2中。每天的炎症基因表达试验的结果(显示为图IA每行M个基因的)在计算之后被显示为独立的柱形图。指标揭示了可能与治疗干预相关的炎症状态的明显的倾向(图2)。图2是在来自进行视神经炎治疗的单个患者的血液的9个不同的,显著的临床转折点评估急性炎症指标的图解说明。改变与治疗干预的预计效果强烈相关的急性炎症指标的指标值。这些图顶端的急性炎症指标的四个临床转折点已经被鉴定,包括(1)用激素治疗之前,(2)以每天1克IV琥钠甲强龙治疗的,(3)以每天60mg逐渐减少到每天IOmg的强的松口服治疗后以及⑷治疗后。数据集合与图1的相同。指标成正比于1/4{ILIA}+1/4{IL1B}+1/4{TNF}+1/4{INFG}-1/{IL10} ·正如所预料的,用类固醇治疗的急性炎症指标迅速地下降,在用口服强的松治疗较小有效的期间上升且激素已被停止和完全代谢之后又恢复到治疗前的水平。实施例3 急性炎症指标在确定改进中的化合物或将被用于人和非人受试者中的测试的化合物的剂量,包括浓度和时间中的应用,如图3所示。急性炎症指标可被用作治疗化合物或无共同作用机理的干预的通用参考值。诱导对通过指标显示的化合物的基因应答,但不能改善已知的生物学状态的化合物可被与具有不同治疗生物学状态效果的不同化合物对比。图3显示了用SOOmg布洛芬在通过急性炎症指标鉴定的单一供体中进行单剂量治疗的作用。800mg的过量的布洛芬在Time = 0和时间=48hr时被单个受试者摄取。显示五个炎症-相关基因位点的基因表达值在如下所述的时间进行测定2,4,6,48,50,56和96 小时。正如所预料的,急性炎症指标在摄取非类固醇的抗炎的布洛芬之后立即下降且48小时之后恢复到原始的水平。第二剂量以T = 48遵循与第一剂量相同的动力学且在实验的最后T = 96时恢复到原始的水平。实施例4 急性炎症指标在鉴定可被改进和/或具有复杂特性的药剂的效果、安全和生理作用方式中的应用。这些被列举在图4中。图4显示了评价用图表表示的五个不同状态的急性炎症指标包括㈧未经处理的全血;(B)体外用DMSO处理的全血,其中的DMSO是一种稳定的载体化合物;(C)体外用地塞米松(0. 08ug/ml)处理的未刺激的全血;(D)体外用脂多糖(LPS,lng/ml),一种已知的促-炎化合物,刺激的全血,以及(E) 体外用LPS (lng/ml)和地塞米松(0. 08ug/ml)处理的全血。地塞米松被用作一种处方化合物也即通常在医学上应用作为一种抗炎的类固醇化合物。通过由实验方法测定的炎症-相关基因在获自单个患者的全血中表达的基因表达水平来计算急性炎症指标。mRNA表达的结果在此实施例中被表示为Ct' s,然而可被表示为用于基因ILIA,IL1B, TNF, IFNG和ILlO的,例如,相对荧光单位,拷贝数或任意其它可以计量的,精确的和校准的方式。从基因表达值通过下列相应的表达式用代数方法来测定急性炎症值1/4 {ILIA} +1/4 {IL1B} +1/4 {TNF} +1/4 {INFG}-1/{IL10}。实施例5 基因表达分布的群体标准值的改进和应用。图6和7显示了获自两个不同患者群体的全血的基因表达分布的算术平均值(利用表1的炎症基因表达组的48个位点)。这些群体是正常或未确诊的。第一个群体,其被鉴定为Bonfils (其标定点被表示为菱形),由在科罗拉多州的丹佛的Bonfils血液中心的作为献血者的17个受试者组成。 第二群体是9个其基因表达分布图是经过四-周进行四次试验获得的受试者。第二群体的受试者(其标绘点被表示为正方形)征募自Source Precision Medicine, Inc.受托人的雇员。各群体的基因表达平均值被基于基因表达炎症组的48个基因位点的每一个来计算。 位点I-M的结果(在下面有时指炎症48A位点)被显示于图6且位点25-48(在下面有时指炎症48B位点)被显示在图7中。两个不同群体的基因表达水平之间的一致性是显著的。两者群体显示了 48个位点的每一个的基因表达彼此没有显著地不同。这些观察结果表明人炎症基因有一个“正常” 表达模式,基因表达分布图,利用表1的炎症基因表达组(或其子集)来鉴定表达模式,且群体-正常表达模式可被应用,例如,来指导用于产生正常表达模式变化的任意生物学状态的医学干预。以类似的方式,图8显示了同样获自两个不同患者群体的全血的基因表达分布图的算术平均值(同样利用表1的炎症基因表达组的48个位点)。一个群体,其表达值被表示为三角形的数据点,是对个正常的、未确诊的受试者(其没有已知的炎性疾病)。另一个群体,其表达值被表示为菱形数据点,是4个患有类风湿性关节炎且治疗失败的患者(其因此具有不稳定的类风湿性关节炎)。如同图6和7显示的两个不同正常群体的数据一致性是显著的,图8的来自正常和患病的群体数据的系统偏差也是显著的。显示48个炎症基因位点中的45个,具有不稳定类风湿性关节炎的受试者比没有疾病的受试者显示出平均增加的炎症基因表达(较低的周期临界值;Ct)。因此数据进一步的证明了如果下面试验的精确度和校准被依照此处的技术小心地设计和控制则利用基因表达来鉴定具有特异性生物学状态的组是有可能的。图 9,在某种意义上类似于图8,显示了同样获自两个不同患者群体的全血的基因表达分布图的算术平均值(同样利用表1的炎症基因表达组的M个位点)。一个群体,其表达值被表示为菱形的数据点,是17个作为献血者的正常的、未确诊的受试者(其没有已知的炎性疾病)。另一个群体,其表达值被表示为正方形数据点,是16个同样是正常和未确诊的受试者,其已经被监控超过6个月,且这些表达值的平均值被表示为正方形的数据点。因此第一健康群体的代表性基因表达-值平均值与第二健康群体的基因表达值平均值紧密地匹配, 测定的基因对基因的表达值中具有大约7%或更少的偏差。图10显示了获自44个正常的未确诊的献血者的全血的基因表达值(利用表1炎症基因表达组的14个位点)(其中10个受试者的数据被显示)。同样,群体的每一元素的基因表达值严格地匹配于通过每一基因位点的一致峰高来表示的群体的基因表达值。除在这里描述之外的群体的其它受试者及其它的基因位点显示出与这里所显示的相一致的结^ ο基于本发明不同的实施方案中的这些原理,基因表达分布图的群体标准值可被用于比较评价个体受试者的生物学状态,包括健康和/或疾病的目的。在一个实施方案中,基因表达分布图的标准值可被用作计算受试者的“校准分布数据集”(如本节的开始所限定的)一个基线来显示此受试者基因表达与群体标准值的偏差。用于基因表达分布图的群体标准值还可以被用作建立本发明实施方案的指标函数的基线值。结果,例如,可建立指标函数通常不仅显示个体炎症表达的程度而且显示与标准值的关系。棚列6:胃_汰会目Φ·_·,___射勿對犬_龍樹示白句一致件。图11显示了单个警试者的4个基因(表1的炎症基因表达组的)的各自的表达水平,在8个月期间每月测定一次。可见表达水平随时间显著地一致。图12和13类似地显示了各种情况下,不同的单个受试者的48个基因(表1的炎症基因表达组的)的表达水平,图12测定是在4周的时间内每周一次来进行的,图13是在 6个月时间内每月一次的来进行的。在所有情况下,表达水平同样地随时间显著地一致,且个体之间同样是类似的。图14同样显示了给药抗炎类固醇对单个受试者炎症基因表达的作用,如利用表1 的炎症基因表达组所测定的。在这种情况下,48个位点中的M个被显示。受试者的原始血样被抽取在一个PAX RNA分离管中然后服用单个60mg剂量的强的松,一种抗炎的处方类固醇。其它的血样在单一口服剂量之后的2hr和Mhr时抽取。所有3个时间点的基因表达的结果被显示,其中原始样品的值X轴上被显示为统一的。正如所预料的,用强的松进行的口服治疗导致大多数炎症-相关基因位点表达的减少,如通过给药后2小时的柱状图所显示的。然而,给药后M小时的柱状图显示了大多数基因位点在2hr时减少了基因表达,在Mhr时基因表达水平增加。尽管图14中的基线是基于与单一试验个体有关的药物干预之前的基因表达值, 我们从上述的实施例了解,那些健康个体趋于利用表1的炎症基因表达组(或其子集)的基因表达分布图中的群体标准值。我们从图14断定在将炎症基因表达水平恢复到图6和 7(正常或系列水平)中证明的炎症基因表达水平的努力中,对正常表达的干扰诱导了对于药物-诱导应答的超-抵偿性的补偿性基因表达应答,也许因为强的松已被显著地代谢为无活性的形式或已从受试者中去除。图15,在某种意义上类似于图14,显示了通过获自受试验的人的全血样品给药单剂量的强的松,随着时间,对5个基因(表1的炎症基因表达组的)的表达的作用。样品在给药强的松的时候(t = 0)被获得,然后在给药2和M小时获得。每一全血样品被通过添加0. Ing/毫升的脂多糖(一种革兰氏阴性内毒素)进行攻击且在攻击后测定样品的基因表达分布。可以看出2-小时时的样品显示了与给药时(t = 0)的表达水平相比炎症基因表达组的5个位点的基因表达有显著地减少。在给药后M小时,强的松的抑制作用不再明显,且5个位点中有3个的基因表达事实上高于t = 0时,定量说明了在著名的回跳效应的分子水平。图16同样显示了给药一种TNF-抑制化合物随着时间对遭受类风湿性关节炎的单个受试者的炎症基因表达的作用,但这里表达显示了与以前测定正常群体(即,未确诊的, 健康的)的相关位点平均值(与图6和7有关的)的比较。作为涉及类风湿性关节炎患者的多量国际研究的部分,受试者被跟踪十二周的时间。受试者被登记在研究中,因为不能应答类风湿性关节炎保守的药物疗法以及改变治疗计划且开始用TNF-抑制化合物直接治疗。在开始新的治疗之前从受试者抽取血液 (visit 1)。新的治疗开始之后,紧接着新治疗的开始在改变治疗后4周(visit 2),8周 (visit 3)以及12周(visit4)抽取血液。血液被收集在PAX RNA分离管中,保持在室温下2个小时然后-30°C冷冻。冷冻样品被运到Source Precision Medicine,Boulder,Colorado 的中心实验室, 用于测定表1的炎症基因表达组中的48个基因的表达水平。血样被解冻且依照说明书建议的方法提取RNA。RNA被转变为cDNA且测定48个炎症基因的表达水平。48个位点中11 个的表达结果被显示在图16中。当11个位点的表达结果与来自美国的正常献血者visit 的总平均值比较时,受试者显示出相当大的差异。类似地,随后医生就诊的每一位点的基因表达水平被与相同的正常平均值相比较。来自就诊者2,3和4的数据证明了治疗改变的作用。在治疗改变后的每一就诊者中,11个位点中10个炎症基因表达的水平接近于以前测定的正常(即未确诊的,健康的)群体的相关位点的平均值。图17A,根据44个正常的、未确诊的献血者群体中的7个位点(表1的炎症基因表达组的),进一步说明了炎症基因表达的一致性。每一单独的位点显示了位于平均表达值的士 2标准偏差之内的数值范围,其对应于95 %的正态分布群体。尽管置信区间(95% )的大的宽度,测定的基因表达值(Δ ACT)-显著地-仍然位于平均数的10%以内,与涉及的表达水平无关。如在下面进一步具体描述的,所给的生物学状态的指标可被建立来提供所述状态的测定方法。这些可能是两个情况结合的结果(i) 与基因表达分布图相对于整个群体的生物学状况有显著的一致性以及(ii)可被使用于提供产生基因表达分布图的基因表达组组分的大体上可重复的测定数据的方法,在其中该组所有组分扩增的特异性和效率是大体上类似的以及其因此提供了生物学状态的测定。相应地,图17A的典型组分表达值的函数被用于产生炎症指标值,其被校正使得1的读数对应于健康受试者的组分表达值,如图17A的右侧所示的。在图17B中,42个正常未确诊的献血者群体的每一元素的炎症指标值被测定,且指标值的结果分布,显示在图中,可被观察到严格地接近正态分布,尽管群体规模相对的较小。指标的值显示出相对于基于-ο的中值,具有相对于标准偏差单位中校准的中值的偏差。因此90%的群体位于0值的+1和-1的范围之内。我们已经建立了不同的指标,其具有类似的特性。图17C说明了与图17B相同的指标的应用,其中正常群体的炎症中值已经被设置到零且正常和患病的受试者被标在相对于那些中值的标准偏差单位中。70个单独的正常、 未确诊的群体炎症指标值被测定(黑色条)。指标值的结果分布状态,显示在图17C中,可被观察到接近于正态分布。类似地,来自两个患病的群体组的指标值被单独的计算,(1)用氨甲喋呤(MTX)治疗的类风湿性关节炎患者其即将改变使用更有效的药物来进行治疗(例如,TNF抑制剂)(阴影条形图),以及除了 MTX之外用改变风湿病病情药物(DMARDS)治疗的类风湿性关节炎患者,其将改变使用更有效的药物(例如,MTX)进行治疗。两个群体显示的指标值与正态分布相比有向上的偏离(证明增加了炎症)。这些图因此说明了应用由基因表达分布数据获得的指标来评价疾病状况以及来提供一个目标且可以计量的治疗目标。 当这两个群体被适当地治疗时,来自两个群体的指标值恢复到正态分布(数据没有显示)。图18,以类似于图17A的方式,绘制了两个不同的类风湿性关节炎患者的6_受试者群体的如图17A中的相同的7个位点的基因表达分布图。一个群体(在图中称为“稳定的”)是已经对治疗具有良好应答的患者且另一个群体(在图中称为"不稳定的")是对治疗无应答并且其疗法被计划改变的患者群体。可见稳定群体的表达值,位于95%置信区间的范围以内,而所述不稳定种群的7个位点中的5个的表达值在上述范围的外面。图的右侧部分显示了与正常未确诊的群体相比,不稳定种群具有9. 3的平均炎症指标以及稳定群体具有1. 8的平均炎症指标。因此指标提供了对基础的炎症状况程度的测定,在这种情况下,为类风湿性关节炎。因此指标,除提供了对生物学状况的测定之外,可用于测定治疗的效果以及来提供治疗干预的目标。图19因此说明了用于评价遭受类风湿性关节炎的单个受试者的炎症指标的应用,其中受试者对用氨甲喋呤进行的常规治疗没有良好的应答。用于这些受试者的炎症指标展示在新治疗的开始较远的右侧(TNF抑制剂),然后,在其后2周,6周,以及12周,向左侧移动。指标可被观察到移向正常的,与医生对新的治疗应答的患者的观察结果相一致。图20类似地说明了用于评价3个遭受类风湿性关节炎的受试者在新治疗的开始时(同样用TNF抑制剂),以及其后2周和6周的炎症指标的应用,其中的受试者对常规的氨甲喋呤治疗无良好的应答。每一情况下的指标可被观察到通常移向正常的,与医生对新的治疗应答的患者的观察结果相一致。图21-23各自显示了类风湿性关节炎受试者的国际基群的炎症指标,它们中的每一个均已经被受试者的治疗医生鉴定为稳定的(也即,不期望在治疗方面受到改变的)。图 21显示了该组中用氨甲喋呤治疗的10患者中每一个患者的指标,其中的患者已知均不同程度减轻了症状。图22显示了该组中用Enbrel (—种TNF抑制剂)治疗的10个患者的各自的指标,且图23显示了用Remicade (另一种TNF抑制剂)治疗的10个患者的各自的指标。可见图21中各个患者的炎症指标与正常的相比是增加的,而在图22中,用Enbrel 治疗的患者具有与正常的非常接近的炎症指标(80%在正常范围内)。在图23中,可以观察到,除了一个用Remicade治疗之外的几乎所有的患者具有位于或低于正常的炎症指标, 两个患者具有异常低的炎症指标,此表明了对此药物的免疫抑制应答。(实际上,研究表明 Remicade与一些受试者的严重感染有关,且这里免疫抑制作用被定量测定)。同样在图23 中,一个受试者具有显著地超出正常范围的炎症指标。这些受试者事实上同样逐渐减少摄取抗炎症类固醇(强的松);炎症指标被抽样之后的大约一周以内,受试者遭受显著的临床症状。显著地,这些实施例表明了,从受试者血液测定获得的测定数据对应于受试者的关节炎的状况。假定测定数据对应于炎症的程度,人们可以预期其它基于炎症的状况,包括,例如心血管疾病,可通过类似的方式被监控。图M说明了用于评价遭受炎症肠病的单个受试者的炎症指标的应用,其中用 Remicade治疗的受试者通过3剂量被激发。该图表显示了仅仅在预治疗之前的炎症指标, 然后在第一治疗之后的M小时;指标已经恢复到正常范围。指标仅仅在第二剂量之前升高,但在第三剂量之前位于正常范围内。同样,指标,除提供生物学状况的测定之外,在这里被用于测定治疗(Remicade)的效果,以及依据两者剂量和时间表来提供用于治疗干预的目标。图25显示了相对于M个位点(表1的炎症基因表达组的)体外rtuprofen全血治疗与其它的非类固醇抗炎药物(NSAIDs)相比的基因表达分布图。rtuprofen的分布图在前面。可见所有的NSAIDs,包括布洛芬共有大体上类似的分布图,其中所有位点的基因表达模式是类似的。尽管这些是类似的,每一单独的药物具有其自己的独特的特征。
图沈说明了两个竞争性的抗炎化合物的作用如何可被客观地,定量的,准确地, 和.可再重复地比较。在此实施例中,每一组的两个基因(表1的炎症基因表达组的)的表达被测定用于改变每一药物在体外全血中的剂量(0. 08-25011g/ml)。市场主导药物显示了剂量和炎症基因应答之间的复杂关系。矛盾地,在为市场主导药物的情况下,如剂量被增加,两者位点的基因表达开始时下降且然后增加。对于其它的化合物,更一致的应答结果, 使得如剂量被增加,两者位点的基因表达更一致地减少。图27到41说明了基因表达组在传染性疾病的早期识别和监控中的应用。这些图绘制了在全血中基因的表达产物中,对给药不同的传染因子或与传染因子有关的产物产生的应答。在每一图中,基因表达水平被“校准”,如此处所定义的术语,相关于在给药有关的传染因子之前测定的关于全血的基线表达水平。在这方面图本质上类似于我们在下面参考的专利申请W001/2M73的不同图(例如,其中的图15)。浓度变化被按比例来显示,且对于特定基因位点的基线水平1对应于于与在添加传染因子或其它刺激物之后的相应时间监控的,加入刺激物之前的表达水平相同的此位点的表达水平。浓度的定量改变被绘制在对数座标上。单位元素线下的条形图表示浓度的降低且单位元素线上面的条形图表示浓度的增加,每一条棒的大小表示改变的比例的大小。我们已经在W001/2M73及其它实验中显示了,在合适的条件下,体外获得的通过将全血暴露于一种刺激物的基因表达分布图可表示体内暴露于相应的刺激物获得的基因表达分布图。图27利用一种新的M个基因的细菌基因表达组,改进来鉴别宿主生物系统中的不同的细菌状态。两种不同的刺激物被使用抗脂肪肝酸(LTA),一种革兰氏阳性细胞壁成分,以及脂多糖(LPQ,一种革兰氏阴性细胞壁成分。给药刺激物之后紧接着的最后浓度为 lOOng/mL,且表达的定量改变,与给药之前的水平是相关的,其分别在给药之后的2和6小时之后被监控。可见差异表达可在给药之后较早的两个小时被观察到,例如,在IFNA2位点,以及其它的,允许了革兰氏阳性和革兰氏阴性细菌之间的应答的鉴别。图28显示了获自3个不同的来源S. pyogenes, B. subtilis以及S. aureus的单个位点,IFNG,到LTA的差异表达。给药每一刺激物达到lOOng/mL的浓度,且应答在给药之后的1,2,4,6,以及M小时被监控。结果表明基因表达分布图可用于鉴别不同的传染因子, 在这里为革兰氏阳性细菌的不同的种。图四和30分别显示了全血中炎症48A和48B位点(上述讨论到分别与图6和7 有关的)对给药S. aureus的刺激物和E. coli的刺激物的应答(分别以在刚刚给药之后显示为IO7和106CFU/mL的浓度),在给药2小时之后监控其与给药前的基线的比较。图显示了许多位点在感染两个小时之后对细菌传染存在的应答。图31和32分别对应于图四和30且与它们类似,具有的例外即监控是给药6小时之后进行的。更多的位点对感染的存在有应答。不同的位点,诸如IL2,显示了两个传染因子之间的不同表达水平。图33显示了炎症48A位点对给药大肠杆菌的刺激物(同样以刚给药后为IO6CFU/ mL的浓度)以及给药通过产物但没有大肠杆菌细菌来包含大肠杆菌细菌的大肠杆菌滤液的刺激物的应答。在给药之后的2,6,以及M小时监控应答。可以观察到,例如,位点IL1B, IL18和CSF3随着时间对大肠杆菌以及大肠杆菌的应答是不同的。图34类似于图33,但被比较的应答是单独用大肠杆菌滤液进行刺激和用已经加入多粘菌素B的大肠杆菌滤液进行刺激,其中的多粘菌素B是一种已知与脂多糖(LPS)结合的抗生素。对ILlB应答的检验,例如,显示了多粘菌素B的存在不影响位点对大肠杆菌滤液的应答,因此表明LPS好象不是ILlB对大肠杆菌滤液应答的一个因素。图35说明了全血的炎症48A位点随着时间对S. aureus的刺激物(刚刚给药后的浓度为107CFU/mL)的应答,在给药后的2,6,和M小时监控。可以看出应答随着时间可包括表达在方向和大小两方面的改变。(参见例如,IL5和IL18)。图36和37分别显示了炎症48A和48B位点,在第6小时监控的对来自E. coli的刺激物(刚刚给药后的浓度为IO6和102CFU/mL)和来自S. aureus的刺激物(刚刚给药后的浓度为IO7和102CFU/mL)的应答。可以看出,其中,在不同的位点,诸如B7 (图36),TACI, PLA2G7,和ClQA (图37),E. coli比S. aureus产生更加显著的应答。所述数据强烈表明了基因表达分布图可用于高灵敏性地鉴定革兰氏阴性细菌的存在以及来区分革兰氏阳性细菌。
图38和39分别显示了炎症48B和48A位点,在给药2,6,和M后监控的,分别对 S. aureus和E. coli的高浓度刺激物(刚刚给药后的浓度分别为IO7和106CFU/mL)的应答。 随着时间应答在许多位点涉及大小和方向方面的改变。图40类似于图39,但显示了炎症 48B位点的应答。图41类似地显示了炎症48A位点,在给药M后监控的对S. aureus和E. coli的高浓度刺激物(刚刚给药后的浓度分别为IO7和106CFU/mL)的应答。如同图20和21,应答在一些位点,诸如GROl和GR02,鉴别传染类型之间的区别。如在这里所描述的,这些数据支持了我们的结论即具有足够精确度和校准的基因表达分布图(1)可确定具有已知的生物学状态的个体的亚种群;( 可用来监控病人对治疗的应答;(3)可用来评价治疗的效果和安全性;以及(4)可用于通过调整治疗指导病人的医学管理来产生一种或多种相应接近于值的目标集的基因表达分布图,其中的值可以是标准值或其它期望的或可实现的值。我们已经表明基因表达分布图可提供有意义的信息甚至当来源于血液或其它组织的离体处理时。我们同样也已经表明了来源于周围全血的基因表达分布图能提供大范围既不直接一般也不与血液有关的状态的信息。此外,在本发明的实施方案中,基因表达分布图还可以被用于传染性疾病,诸如 sepsis的鉴定和早期的识别(包括有症状前的状态)。这些鉴定包括感染和未感染个体之间,细菌和病毒感染,病原体的特异性亚型,传染病史的阶段(例如,早期或晚期),以及预测的区分。应用上述讨论的算法以及统计方法来实现这种鉴定以及用这种方式识别是在本发明的不同实施方案的范围内。
权利要求
1.一种处理数据集的方法,所述方法包括从受试者的样品获得一分布数据集,其中所述分布数据集包括3个或更多个元素,每一元素是一组组分中不同转录的RNA组分量的定量测定从而使得组分的测定能够进行生物学状态的监控;以对目标转录本定义的扩增效率,对RNA进行定量PCR,并确定内部对照和目的目标转录本之间在阈值循环中的差异,从而确定mRNA的相对量;以及产生该组的校准分布数据集,所述校准分布数据集的每一元素是第一分布数据集的相应元素和该组基线分布数据集的相应元素的函数;其中校准分布数据集表示在根据相似条件取自所述受试者的样品中是高度可重复的值的集。
2.—种处理数据集以提供指标方法,所述方法包括从受试者的样品获得一分布数据集,所述分布数据集包括多个元素,每一元素是一组组分中不同RNA或蛋白组分量的定量测定从而使得组分的测定能够进行生物学状态的监控;以及在获得分布数据集的过程中,在基本上可重复的测定条件下和在所有组分和内部对照的扩增效率为2%之内的条件下,实现对每一组分的这种测定;以及利用指标函数I = Σ MCi Μ,ρω将分布数据集的值映象到单值指标,从而提供受试者生物学状态的单值测定,其中I是指标,Mi是分布数据集的元素i的值,Ci是一个常数,P(i) 是虬增加的幂,总和是i直到数据系列中元素的数目的所有积分值。
3.根据权利要求2的方法,进一步包括给指标提供指标函数的标准值,所述标准值根据相关群体进行测定,使得指标可以解释成与标准值相关。
4.根据权利要求3的方法,其中提供标准值包括建立指标函数使标准值为大约1。
5.根据权利要求3的方法,其中提供标准值包括建立指标函数使标准值为大约0且指标函数中从0开始的偏差用标准偏差单位表示。
6.根据权利要求3的方法,其中相关群体具有一种共同特性年龄组、性别、种族、地理位置、饮食习惯、药物紊乱、临床指标、药物疗法、身体活动、体重、和环境接触。
7.根据权利要求3的方法,其中相关群体具有一种共同特性至少为同一年龄组、性别、种族、地理位置、饮食习惯、药物紊乱、临床指标、给药方法、身体活动、体重、和环境接触中的至少一种。
8.根据权利要求1到7任一项的方法,其中表示为百分比的所有组分的扩增效率在大约2%的范围内。
9.根据权利要求1到7任一项的方法,其中表示为百分比的所有组分的扩增效率在大约的范围内。
10.根据权利要求1到7任一项的方法,其中测定条件是可重复的,使得在从样品反复获得这种测定的过程中每一组分的这种测定具有一种小于大约3%的变异系数。
11.根据权利要求8的方法,其中测定条件是可重复的,使得在从样品反复获得这种测定的过程中每一组分的这种测定具有一种小于大约3%的变异系数。
12.根据权利要求9的方法,其中测定条件是可重复的,使得在从样品反复获得这种测定的过程中每一组分的这种测定具有一种小于大约3%的变异系数。
13.根据权利要求1到7任一项的方法,其中所述组包括至少3种组分。
14.根据权利要求1到7任一项的方法,其中所述组具有少于约500种组分。
15.根据权利要求1到7任一项的方法,其中所述组分的组包括至少2种,任选地至少 3种、4种、5种、6种、7种、8种、9种或10种表1中所列炎症基因表达组的组分。
16.根据权利要求1到7任一项的方法,其中所述组分的组包括至少2种,任选地至少 3种、4种、5种、6种、7种、8种、9种或10种表2所列糖尿病基因表达组的组分。
17.根据权利要求1到7任一项的方法,其中所述组分的组包括至少2种,任选地至少 3种、4种、5种、6种、7种、8种、9种或10种表3中所列前列腺基因表达组的组分。
18.根据权利要求1到7任一项的方法,其中所述组分的组包括至少2种,任选地至少 3种、4种、5种、6种、7种、8种、9种或10种表4中所列皮肤应答基因表达组的组分。
19.根据权利要求1到7任一项的方法,其中所述组分的组包括至少2种,任选地至少 3种、4种、5种、6种、7种,8种,9种或10种表5中所列肝脏代谢以及患病基因表达组的组分。
20.根据权利要求1到7任一项的方法,其中所述组分的组包括至少2种,任选地至少 3种、4种、5种、6种、7种,8种,9种或10种表6中所列内皮基因表达组的组分。
21.根据权利要求1到7任一项的方法,其中所述组分的组包括至少2种,任选地至少 3种、4种、5种、6种、7种,8种,9种或10种表7中所列细胞健康状态以及细胞程序性死亡的基因表达组的组分。
22.根据权利要求1到7任一项的方法,其中所述组分的组包括至少2种,任选地至少 3种、4种、5种、6种、7种,8种,9种或10种表8中所列细胞因子基因表达组的组分。
23.根据权利要求1到7任一项的方法,其中所述组分的组包括至少2种,任选地至少 3种、4种、5种、6种、7种,8种,9种或10种表9中所列TNF/IL1抑制基因表达组的组分。
24.根据权利要求1到7任一项的方法,其中所述组分的组包括至少2种,任选地至少 3种、4种、5种、6种、7种,8种,9种或10种表10中所列趋化因子基因表达组的组分。
25.根据权利要求1到7任一项的方法,其中所述组分的组包括至少2种,任选地至少 3种、4种、5种、6种、7种,8种,9种或10种表11中所列乳腺癌基因表达组的组分。
26.根根据权利要求1到7任一项的方法,其中所述组分的组包括至少2种,任选地至少3种、4种、5种、6种、7种,8种,9种或10种表12中所列传染性疾病表达组的组分。
27.根据权利要求2的方法,其中建立的指标函数在以下两种情况下通常从标准值向上偏离在其增加与炎症的增加相关的组分表达增加的情况下以及在其减少与炎症的增加相关的组分表达减少的情况下。
28.根据权利要求2的方法,其中建立的指标函数通常根据其测定的表达水平与炎症程度的相关性来估量组中组分的表达值。
29.根据权利要求2的方法,其中指标函数的建立考虑到将临床观察转变成炎症生物学。
30.根据权利要求2的方法,其中指标函数的建立考虑到实验方法获得的数据。
31.根据权利要求2的方法,其中指标函数的建立考虑到从计算机分析数据库中的分布数据集所获得的关系,所述数据库将分布数据集与临床和人口数据联系起来。
32.根据权利要求2的方法,其中组包括至少一种与特异性炎症疾病有关的组分。
33.根据权利要求2的方法,其中(i)指标函数的映象同样基于至少一种人口数据和临床数据的场合和(ii)应用来自第一分布数据集的值同样包括应用一组与至少人口数据和临床数据之一有关的值。
34.根据权利要求2的方法,其中分布数据集包括至少3种对应于选自ILIA,IL1B, TNF, IFNG和ILlO的组分的元素。
35.根据权利要求2的方法,其中分布数据集包括至少4种对应于选自ILIA,IL1B, TNF, IFNG和ILlO的组分的元素。
36.根据权利要求35的方法,其中指标函数大约与1/4{ILIA}+1/4 {IL1B}+1/4 {TNF}+1 /4{INFG}-1{IL10}成正比,且大括号中的组分表示此种组分的测定值。
全文摘要
本发明涉及利用基因表达分布图识别、监控和治疗疾病以及鉴定生物学状态。本发明涉及一种提供基于来自受试者的样品显示受试者状态,如生物学状态的指标的方法。所述方法的实施方案包括从样品获得一种分布数据集,该分布数据集包括很多的元素,每一元素是所选择的组分组中不同RNA或蛋白组分量的定量测定,从而使组分的测定能够用于评价生物学状态;以及在获得分布数据集的过程中,且在测定条件大体上可重复的条件下获得每一组分的测定;并将获自分布数据集的值应用到指标函数中,所述指标函数提供了从分布数据集的实例到生物学状态单值测定的映象,从而产生与受试者的生物学状态相对应的指标。
文档编号G01N33/574GK102402650SQ20111022659
公开日2012年4月4日 申请日期2002年11月8日 优先权日2001年11月9日
发明者约翰·C·谢罗尼斯, 维克托·特赖恩, 达努特·M·班凯提斯-戴维斯, 迈克尔·贝维拉夸 申请人:生命技术公司