专利名称::利用血液白细胞中的基因表达标记物的急性感染的鉴别诊断的制作方法
技术领域:
:本发明通常涉及传染病的诊断学领域,更尤其是,本发明涉及用于对急性和慢性传染病进行诊断、预后和跟踪的系统、方法和设备。长表格本专利申请包括11个补充表格。
背景技术:
:本发明描述的
背景技术:
与用于传染病的检测、评价、跟踪和预后的诊断方法相关,而不是为了限制本发明的范围。在世界范围内[l],尤其是在儿童中,急性传染病是导致死亡的主要原因。与此同时,鉴定传染因子的能力仍然不够充分,尤其是,鉴定在血液中(或者其它可利用的组织中)是否存在生物的能力不够充分。即使由于感染导致了白细胞的增多,但是这不能区分是革兰氏阳性细菌和革兰氏阴性细菌和/或病毒导致的感染。这些诊断上的障碍可能延迟开始适当的治疗,这将导致不必要病态,甚至死亡[2]。此外,最近,由于新出现的病原体导致的疾病发作[l、3]和生物威胁导致的增加风险促进了传染病的改进的诊断的需要。不同类别的病原体引发在白细胞上出现差异表达的特定的模式-识别受体(PRRs)[4、5]。白细胞是天然免疫系统(颗粒细胞、天然杀伤细胞)、适应性免疫系统(T和B淋巴细胞)、或者它们二者(单核细胞和树枝状细胞)的成分。血液既是这些细胞的储存库也是这些细胞的迁移室,因此,这些细胞可能暴露于传染因子、过敏原、肿瘤、移植反应或者自身免疫反应中。因此,血液中的白细胞构成了临床相关信息的可利用的来源,并且这些细胞的全面的分子表型可以通过基因表达微阵列获得。基因表达技术给癌症的诊断和预后带来了新的前景[6-8],并且血白细胞中的基因表达信号的分析有助于更好地理解疾病发作以及对治疗的应答的机制[9-11]。发明概述本发明包括使用许多可变的基因表达分析方法用于预后以及诊断传染病的分析样本的系统和方法。这些保留的基因表达差异可以被赋予对不匹配的变化具有高度置信值的属性。因此,被鉴定的基因表达差异可以用于,例如,诊断宿主对传染病的应答、鉴定生理状态、鉴定、跟踪和监控免疫细胞的活化、设计药物、和监控治疗。在一个实施方案中,本发明包括通过测定生物标记物的表达水平鉴定易于受传染因子(如,病毒、细菌、蠕虫、寄生虫、真菌等)的影响的人受试者的免疫应答。生物标记物的其它的实例包括与传染因子相关的基因或者与由传染因子导致的疾病相关的基因和它们的组合。可以通过定量生物标记物的mRNA、蛋白质或者mRNA和蛋白质的水平以篩选生物标记物。当所述生物标记物为mRNA水平时,可以通过选自聚合酶链式反应、实时聚合酶链式反应、逆转录酶聚合酶链式反应、杂交、探针杂交、和基因表达阵列的方法进行定量。所述篩选的方法还可以包括检测生物标记物中的多态性。可供选择地,篩选步骤可以通过使用至少一种选自聚合酶链式反应、异源双链分析、单链构象多态性分析、连接酶链式反应、比较基因组杂交技术、DNA印迹法、RNA印迹法、蛋白质印迹法、酶联免疫吸附测定、荧光共振能量转移和测序的技术实现。为了使用本发明,样本可以是许多免疫细胞中的任何细胞,例如,白细胞或者它们的亚成分。另一个实施方案包括通过组织样本诊断宿主对传染病的应答的方法,该方法包括从免疫组织样本中获得基因表达谱,其中,测量两种或者多于两种以上的以下基因的表达,例如,补充表l-ll以及它们的组合中所列的基因。与本申请一起提交的长表格的全部内容引入本文作为参考。在本发明的一个实施例中,基因表达谱或者转录组值矢量可以包括表1、4、5和补充表1-11以及所它们的组合所列的任何基因,这些形成本发明公开内容的一部分,例如,某些基因可以形成用于区分比与细菌感染相关性高于与流感病毒感染相关性的基因的转录组矢量的一部分,例如,那些参与对病毒应答的基因(例如,cig5、DNAPTP6、IFI27、IFI35、IFI44、0AS1)、参与免疫应答的基因(例如,BST2、G1P2、LY6E、MX1)、参与抗凋亡的基因(例如,SON)、参与细胞生长和/或维持的基因(例如,TRIM14)、参与多种功能的基因(例如,APOBEC3C、Clorf29、FLJ20035、FLJ38348、HSXIAPAF1、KIAA0152、PHACTR2和USP18)。为了区分比与流感病毒感染相关性更高的与细菌感染相关性的基因,可以考虑参与翻译延长的基因(例如,EEF1G)、参与调节翻译起始的基因(例如,EIF3S5、EIF3S7、EIF4B)、参与蛋白质合成的基因(例如,QARS、RPL31、RPL4)、参与转录调节的基因(例如,PFDN5)、参与细胞粘附的基因(例如,CD44)、参与代谢的基因(例如,HADHA、PCBP2)以及参与多种功能的基因,例如,dJ507115.1。用于生物标记物例如RNA的来源的组织可以为血液。在一个特定的实施方案中,从不同的患者而不是从患者和对照中获得基因图谱,并对它们进行比较。另一个实施方案包括通过组织样本诊断宿主对特定的传染病的应答的方法,该方法包括从免疫组织样本中获得基因表达图谱或者转录组,其中,可以使用两个或者多于两个的以下基因以区分金黄色葡萄球菌感染和大肠杆菌感染;所述以下基因为,例如参与信号传导的基因(例如,CXCL1、JAG1、G蛋白信号调节蛋白(RGS2))、参与代谢的基因(例如,GAPD)、PPIB、PSMA7、MMP9、p44S10、参与蛋白质輩巴向的基因(例如,TRAM2)、参与细胞内蛋白质运输的基因(例如,SEC24C)和参与各种功能的基因(例如,ACTG1、CGI-96、MGC2963和STAU)。相反地,可能存在更通常与大肠杆菌感染相关的而不是与金黄色葡萄球菌感染相关的基因,例如,参与细胞内信号传导的基因(例如,RASA1、SNX4)、参与调节翻译起始的基因(例如,AF1Q)、参与转录调节的基因(例如,SMAD2)、参与细胞粘附的基因(例如,JUP)、参与代谢的基因(例如,PP、MAN1C1)以及参与多种功能的基因(例如,FLJ10287、FLJ20152、LRRN3、SGPP1、UBAP2L)。用于生物标记物例如RNA的来源的组织可以为血液。所述基因图谱是从不同组的患者之间的比较而不是从患者和对照之间的比较来获得的。在本发明的方法中,测定表达水平的步骤是通过测量一组基因的mRNA的表达量和/或测量一组基因的蛋白质的表达量进行的。测定表达水平的步骤可以通过使用寡核香酸阵列进行,例如,从样本中分离一种或多种核酸的生物标记物并将它们与位于固体支持物上的已知核酸杂交。测定表达水平的步骤还可以通过使用cDNA来进行,cDNA是使用从人细胞中收集的mRNA作为模板制备的。在一些实施方案中,可以使用可检测的标记以标记生物标记物和/或用于确定表达水平能够结合生物标记物的靶(例如,抗体)。筛选的步骤可以通过对生物标记物的mRNA水平、蛋白质的水平,或者mRNA和蛋白质的水平进行定量实现的。通常,可以4全测所述生物标记物的mRNA水平,并且可以通过选自聚合酶链式反应、实时聚合酶链式反应、逆转录酶聚合酶链式反应、杂交、探针杂交、和基因表达阵列的方法进行定量。也可以通过4全测生物标记物中的多态性进行筛选。用于测定表达水平的其它方式也可以通过使用至少一种选自以下的方法实现聚合酶^t连式反应、异源双链分析、单链构象多态性分析、连接酶链式反应、比较基因组杂交技术、DNA印迹法、RNA印迹法、蛋白质印迹法、酶联免疫吸附测定、荧光共振能量转移和测序的技术。所述样本通常为血液,然而,也可以使用任何细胞,例如,白细胞、活组织;险查的细胞、流体中的或者分泌物中的细胞等。在一些实施方案中,所述生物标记物可以为从血液中提取的蛋白质。而本发明的另一种实施方案包括鉴定疑似患有传染病的人受试者的方法,该方法包括测定包括一种或多种以下基因作为所列的耙的生物标记物的表达水平,所述以下基因是细菌感染导致的相对于病毒感染导致的表达的过表达的基因参与翻译延长的基因、EEF1G;参与调节翻译起始的基因、EIF3S5、EIF3S7、EIF4B;参与蛋白质合成的基因、QARS、RPL31、RPL4;参与转录调节的基因、PFDN5;参与细胞粘附的基因、CD44;参与代谢的基因、HADHA、PCBP2;参与多种功能的基因、dJ507I15丄所述测定表达水平的步骤是通过检测一组基因的mRNA的表达量甚或是通过检测一组基因的蛋白质的表达量来进行的。而在本发明的另一种鉴定疑似患有传染病的人受试者的方法中,其中,以下基因的过表达表示被金黄色葡萄球菌感染参与信号传导的基因、CXCL1、JAG1、RGS2;参与代谢的基因、GAPD、PPIB、PSMA7、MMP9、p44S10;参与蛋白质靶向的基因、TRAM2;参与细胞内蛋白质运输的基因基因、SEC24C;以及参与各种功能的基因基因、ACTG1、CGI-96、MGC2963、STAU。而在本发明的另一种鉴定疑似患有传染病的人受试者的方法中,其中,以下基因的过表达表示被大肠杆菌感染参与细胞内信号传导的基因、RASA1、SNX4;参与调节翻译起始的基因、AF1Q;参与转录调节的基因SMAD2;参与细胞粘附的基因、JUP;参与代谢的基因、PP、MAN1C1;参与多种功能的基因、FLJ10287、FLJ20152、LRRN3、LRRN3、SGPP1、UBAP2L。而本发明的另一种方法包括用于测定样本的表型的计算机执行的方法,所述方法通过获得许多样本的探针强度;根据所述样本探针强度诊断传染病;计算所述样本探针强度与参比探针强度之间的线性相关系数;和当所述线性相关系数大于阈值时,认为假定的表型为所述样本的表型。在某些实施方案中,所述阈值可以为约0.7-1或者更高;而某些阈值包括至少为0.8、至少为0.9和/或至少为0.95。所述探针的强度可以选自从组织样本中获得的基因表达谱,其中,检测两种或者多于两种的以下基因的表达作为所列的靶:金黄色葡萄球菌参与信号传导的基因、CXCL1、JAG1、RGS2;参与代谢的基因、GAPD、PPIB、PSMA7、MMP9、p44S10;参与蛋白质耙向的基因、TRAM2;参与细胞内蛋白质运输的基因基因、SEC24C;和参与各种功能的基因基因、ACTG1、CGI-96、MGC2963、和STAU;和它们的组合。大肠杆菌参与细胞内信号传导的基因、RASA1、SNX4;参与调节翻译起始的基因、AF1Q;参与转录调节的基因、SMAD2;参与细胞粘附的基因、JUP;参与代谢的基因PP、MAN1C1;以及参与多种功能的基因、FLJ10287、FLJ20152、LRRN3、LRRN3、SGPP1、UBAP2L;和它们的纟且合。以及流感病毒参与对病毒应答的基因、cig5、DNAPTP6、IFI27、IFI35、IFI44、0AS1;参与免疫应答的基因、BST2、G1P2、LY6E、MX1;参与抗凋亡的基因、SON;参与细胞生长和/或维持的基因、TRIM14;参与多种功能的基因、APOBEC3C、Clorf29、FLJ20035、FLJ38348、HSXIAPAF1、KIAA0152、PHACTR2、USP18、ZBP1;和它们的组合。本发明的另一种实施方案提供了一种计算机可读介质,该介质包括用于执行测定样本的基因型的方法的计算机可执行的指令,所述方法包括获得许多样本的探针强度;根据对选自表l、4、5和/或补充表1-11以及它们的组合中所列六种或多于六种的的基因的样本探针强度诊断传染病;和计算所述样本探针强度与参比探针强度之间的线性相关系数;和当所述线性相关系数大于阈值时,认为假定的表型为所述样本的表型。本发明的另一种实施方案提供了鉴定宿主对传染病的免疫应答的系统,该系统包括用于检测基因表达的微阵列,其中,所述微阵列包括选自表4、表5和补充表1-11以及它们的组合中所列的四种或多于四种的生物标记物;其中,从所述微阵列中获得的基因表达的数据通过阈值与对传染病的免疫应答相互关联。本发明的另一种实施方案提供了一种用于诊断传染病的系统,该系统通过从微阵列中获得基因表达的数据,并测定由选自表l、4和/或5中所列的四种或多于四种的基因所表达的四种或多于四种的生物标记物;其中,从所述微阵列中获得的基因表达的数据通过阈值至少为0.8而与宿主对传染病的免疫应答相互关联。为了使用本发明的系统,所述生物标记物可以选自5、6、7、8、9、10、11、12或13种基因或者基因模块,和选自一种或多种补充表中的基因,以及它们的组合,它们引入本文作为参考。另一个实施方案提供了预示性基因阵列,该预示性基因阵列为用户化的基因阵列,其包括代表一个或者多个转录模块的基因的组合,其中,能够与所述用户化的基因阵列发生联系的患者的转录组预示患者患有SLE(系统性红斑《良痴)。所述阵列可以用于监控患者对SLE治疗的应答。所述阵列还可以用于区分免疫疾病、病毒感染、细菌感染、癌症和移植排异反应。为了实现某些直接检测的目的,甚至可以将所述阵列组织成两个或者多于两个的转录模块,这些转录模块可以通过视觉扫描,并且表达的程度可以通过视觉分析,例如,通过肉眼和/或图像加工设备分析,例如,可以将所述阵列组织成具有一个或者多种亚模块的三种转录模块,所述亚模块选自5、6、7、8、9、10、11、12或13种基因或者基因模块,和选自补充表中的基因,以及它们的组合;其中,能够专一性结合到一种或多种基因的探针选自所述三种或者多于三种的模块中,并且这些探针指示患有本文中公开的传染病或者其它病症。本发明的另一个实施方案包括用于筛选临床试验的患者的方法,该方法包括获得预期患者的转录组;将该转录组与一个或者多个指示疾病或者病症的转录模块进行比较,所述疾病或者病症为将在临床试验中被治疗的;根据一种或者多种在患者转录组中表达的基因的存在、不存在或者表达水平确定患者为合适的候选者的可能性,所述患者转录组处于一个或者多个与临床试验具有很好的相关性的转录模块中。为了使用所述方法,每一个模块可以包括与样本中的转录子的总的比例相关的矢量;一种或多种疾病或者病症与一种或多种矢量相关的矢量;能够与一种或多种位于每一个模块中的基因的表达相关的矢量和/或者能够用于检测、特征化、诊断、预后和/或监控正常个体或者患有传染病、先天性疾病、退行性疾病、获得性疾病或者其它疾病的患者的矢量。附图的简要说明为了更全面地理解本发明的特征和优点,参比本发明详细描述的说明书以及附图,其中图1表示可以区分被流感病毒A感染的患者与被细菌感染的患者。图la表示通过对两组患者进行曼恩-惠特尼(Mann-Whitney)等级检验比较(p<0.01)获得的854基因的等级聚类,所述两组患者分别为被流感病毒A(流感病毒A,11个样本,绿色的矩型)感染的患者和被大肠杆菌(大肠杆菌,6个样本)或被肺炎链球菌(肺炎链球菌,6个样本)感染的患者(被细菌感染的患者)(红色的矩型)。用颜色标准指示改变的表达水平,红色表示与每个基因在所有的供体中的平均表达值相比其表达水平相对较高,蓝黑条表;;扰;(IFN)可诱导;基因,'而蓝条表示参与;白质合成的基因。基因列在补充表2中。图lb表示使用由监督学习运算法则得到的结果鉴定35个代表能最大可能区分两类疾病的基因(表1和补充表3)。通过对具有35个基因的训练组进4亍弃一交差^S正(Leave-one-outcross-validation)只十才羊本进行分类,其准确率为91%。预测的类用明亮的彩色实心矩形表示(绿色表示受流感病毒A感染,红色表示受细菌的感染)。有两位被细菌感染的患者被错误分类。图lc表示在一组独立的患者中对这样鉴定的一共35个分类基因进行的测试(空心的矩形),所述一组独立的患者包括7例被流感A病毒感染的新患者(绿色),23例被大肠杆菌(红色)感染的患者,7例被肺炎链球菌感染的患者。在本组试验中,对37个样本进行了分类,其准确率为95%(预测的类用明亮的彩色矩形表示)。在分类预测中,一例被错误分类,一例的分类不确定(灰色框)。图ld表示在7b中鉴定出的35个分类基因,在一组独立的患者中对这35个分类基因进行了测试(空心的矩形),所述一组独立的患者包括7例被流感病毒A(InfA)感染的新患者,31例被金黄色葡萄球菌感染的患者。对这38个样本进行分类,其准确率为87%。图2表示能够区分被流感病毒A感染的患者与^^皮细菌感染的患者的35个分类基因的表达水平。以点对在图7b中描绘的35个分类基因的成比例的表达水平进行了描绘(平均区别强度),这35个分类基因能够区分被流感病毒A感染的患者(11例,绿色的正方形)与被细菌感染的患者(6例被大肠杆菌感染,6例被肺炎链球菌感染,红色的菱形)。每一个点表示一个样本,线表示平均表达值。图3a-3e表示可能区分被金黄色葡萄球菌感染的患者和被大肠杆菌感染的患者。图9a表示通过对两组患者进行曼恩-惠特(Mann-Whitney)等级检验比较(pO.01)获得的211个基因的等级聚类,所述两组患者为被金黄色葡萄球菌感染的患者(金黄色葡萄球菌,10例,红色的矩形)和被大肠杆菌感染的患者(大肠杆菌,IO例,蓝色矩形)。用颜色标准指示改变的表达水平,高,蓝色::与"^个基因在所有;供体中的平均表达值相比其表达水平相对较低。基因列在补充表4中。图3b表示使用由监督学习运算法则得到的结果鉴定30个代表能最大可能区分两类疾病的基因(还参见补充表6)。通过对具有30个基因的训练组进行弃一交差-验证对样本进行分类,其准确率为95%。图3c表示在一组独立的患者中对这样鉴定的一共30个分类基因进行的测试(空心的矩形),所述一组独立的患者包括21例纟皮金黄色葡萄^求菌感染的新患者,19例被大肠杆菌感染的患者。在本组试验中,对40例患者进行分类,其准确率为85%(预测的类用明亮的彩色矩形表示)。在40例患者中,只有2例被错误分类,有4例不能确定其类别(空心的矩形)。图3d和3e表示通过实时RT-PCR验证差异表达的基因。图3d表示通过实时RT-PCR对从被金黄色葡萄球菌(Sa)或被大肠杆菌(Ec)感染的患者中获得的样本测量了9个基因的表达水平(相对于健康对照组的基因表达水平,基因表达的倍数发生改变,除了RGS2、FCAR和ALOX外,其它基因的测量结果均进行了对数转换)。每一个点表示一个样本,线表示平均表达值。图9e表示通过实时RT-PCR分析(横坐标)和微阵列分析(纵坐标-相对于从相同健康的对照中获得的样本的表达水平进行了标准化,实时RT-PCR的数据也相对于从相同健康的对照中获得的样本的表达水平进行了标准化;对数标准)获得的表达值之间的联系。详细内容请参见补充表5。图4a-4e表示能够区分被大肠杆菌感染的患者和被金黄色葡萄球菌感染的患者的30个分类基因的表达水平。以点对在图3b中描绘的30个分类基因的成比例的表达水平进行了描绘(平均区别强度),这30个分类基因能够区分被大肠杆菌感染的患者(10例,蓝色的正方形)与被金黄色葡萄^求菌感染的患者(10例,红色的菱形)。每一个点表示一个样本,线表示平均表达值。图4b-4e表示本发明可以用于区分被不同细菌感染的患者。图4b表示通过对两组患者进行曼恩-惠特(Mann-Whitney)等级检验比较(pO.Ol)获得的242个基因的等级聚类,所述两组患者为被大肠杆菌感染的患者(11例)和被肺炎链球菌感染的患者(11例)。用颜色标准指示改变的表达水平,较低。基因列在补充表7中。图4c表示使用由监督学习运算法则得到的结果鉴定代表能最大可能区分两类疾病的基因。通过对具有45个预示基因的训练组进行弃一交差验证对样本进行分类,其准确率为85%(20/22)。分类基因列在补充表8中。图4d表示来自通过对两组患者进行曼恩-惠特(Mann-Whitney)等级检验比较(pO.01)获得的127个基因的无监督的等级聚类的结果,所述两组患者为被金黄色葡萄球菌的患者(12例)和被肺炎链球菌感染的患者(ll例)。用颜色标准指示改变的表达水平,红色表示与每个基因在所有的供体中的平均表达值相比其表达水平相对较高,蓝色表示在补充表9中。图4e表示使用由监督学习运算法则鉴定代表能最大可能区分两类疾病的基因。通过对具有30个基因的训练组进行弃一交差验证对样本进行分类,其准确率为83%(19/23)。分类基因列在补充表IO中。图5表示从患有急性呼吸性感染的患者中获得的循环中的白细胞的基因表达的独特模式。图5a表示使用被发现的能够区分被金黄色葡萄球菌感染的患者和^^大肠杆菌感染的患者(维恩图解(Venndiagram),右能够区分被金黄色葡萄球菌感染的患者和被大肠杆菌感染的患者的基因;图2和补充表6)的30种分类基因,以鉴定能够区分被金黄色葡萄球菌感染的患者和被肺炎链球菌感染的患者的30种基因(维恩图解,左能够区分被金黄色葡萄球菌感染的患者和被肺炎链球菌感染的患者的基因;图5a和补充表10),以及以够鉴定能够区分被大肠杆菌感染的患者和被肺炎链球菌感染的患者(维恩图解,下能够区分被大肠杆菌感染的患者和被肺炎链球菌感染的患者的基因;补充图5b和补充表8)的45种基因。在这些组的任意两组之间一共只有3种基因是共享的。在图5b中,将在图5a中所示能够区分被不同细菌感染的患者的3组基因合并(102种独特的基因,维恩图解,左),并且将它们与能够用于区分被流感病毒A感染的患者与细菌感染的患者的分类基因(35种基因,维恩图解,右;图5b和补充表3)进行比较。这两组没有共同的基因。图5c表示将能够区分被流感病毒A感染的患者与细菌感染的患者的137种分类基因与三组能够区分被不同细菌感染的患者的分类基因合并,并用于在27例患有呼吸性感染的患者和7名健康的志愿者中创建具有辨别力的表达模式。这些值是相对于每一个基因在所有的供体中的平均表达值进行了标准化的。病症的聚类分析将样本分成主要的四类。属于被流感病毒A感染的组的四个样本和^皮金黄色葡萄球菌感染的组的一个样本形成以混合的符号(*)表示的不同的亚组。图6表示对用于传染病监控的显著性模式的分析。将对每一组患者测量的基因表达水平与从由健康的志愿者组成的对照组中获得的结果进行比较(曼恩惠特尼(MannWhitney)U检验)。将选择的标准应用于由被流感A感染的患者(FLU)或者患有系统性红斑狼瘉(SLE)的患者产生的p值。左列过表达基因;右列低表达基因;上部的箭头在FLU和SLE中均发生显著的变化(pO.01);中部的箭头在SLE中发生显著的变化(p<0.01),但在FLU中没有发生显著的变化(p>0.5);底部的箭头在FLU中发生显著的变化(pO.Ol),但在SLE中没有发生显著的变化(pX).5)。将基因按照p值进行等级聚类排列。颜色标准绿色表示低的p值;黄色和白色表示高的p值;系统树图的蓝色分枝表示疾病特异性的符号(Cl-C4;详细内容请参见补充表ll)。图7表示可以用于在模块水平对转录变化进行作图的基因矢量鉴定疾病特异性模式。图8表示采用微阵列对患有急性感染的患者的疾病严重程度进行评估所获得的分值。图9a-9c概括了通过微阵列平台进行的独立的确认与验证。发明详述尽管将在下文详细讨论制备和使用本发明的各种实施方案,但是,应当理解的是本发明提供了多种可适用的创造性概念,这些创造性概念可以广泛包含在具体的上下文中。本文中讨论的具体实施方案仅仅以示例性的具体方式来制备和使用本发明,决不是为了限制本发明的范围。为了有助于理解本发明,在下文中对许多术语进行了定义。本文中定义的术语具有与本发明相关的领域的普通技术人员所理解的普通含义。术语,例如"一个"、"一种"和"所述的"不仅指单个的实体,还包括概括的一类,在该类中,采用一个具体的实例作为说明。本文中的术语用于描述本发明的具体的实施方案,除了在权利要求书中外,它们的使用并不限定本发明。除非使用的许多术语的一4殳定义Singleton,etal.,DictionaryOfMicrobiologyAndMolecularBiology(2ded.1994);TheCambridgeDictionaryOfScienceAndTechnology(Walkered.,1988);TheGlossaryOfGenetics,5thEd.,R.Riegeretal.(eds.),SpringerVerlag(1991);和Hale&Marham,TheHarperCollinsDictionaryOfBiology(1991)。在本领域中,许多生物化学和分子生物学的方法是公知的。例如,分离和纯化核酸的方法详细描述在WO97/10365、WO97/27317和生物化学和分子生物学的实验室技术的第3章用核酸探针杂交的第I部分(Chapter3ofLaboratoryTechniquesinBiochemistryandMolecularBiology:HybridizationWithNucleicAcidProbes,PartI)、原理和核酸制备(TheoryandNucleicAcidPreparation,(P.Tijssen,ed.)Elsevier,N.Y.(1993))、生物化学和分子生物学的实验室技术的第3章用核酸探针杂交的第I部分(Chapter3ofLaboratoryTechniquesinBiochemistryandMolecularBiology:HybridizationWithNucleicAcidProbes,PartI)、原J里禾口冲亥酸制备(TheoryandNucleicAcidPreparation,(P.Tijssen,ed.)Elsevier,N.Y.(1993))、Sambrook等,分子克隆实验室手册(MolecularCloning:ALaboratoryManual,ColdSpringHarborPress,N.Y.,(1989))、和分子生物学中当前使用的方法(CurrentProtocolsinMolecularBiology,(Ausubel,F.M.etal.,eds.)JohnWiley&Sons,Inc.,NewYork(1987-1999)),包括增刊,例如增刊46(April1999)。生物信息学定义本文中所使用的"目标"是指感兴趣的任何项目或者信息(一般是按原文的(generallytextual),包4舌名词、动词、形容词、副词、短i吾、句子、才寻号、数字特征等)。因此,目标可以是能够形成关系的任何事物以及可以被获得的、鉴定的、和/或从一个源搜索的任何事物。"目标"包括但不限于感兴趣的实体,例如,基因、蛋白质、疾病、表型、机制、药物等。在一些方面,目标可以是如下文将进一步描述的数据。本文中所使用的"关系"是指在相同的单元(例如,短语、句子、两行或者多于两行的文本、段落、网页的部分、页、杂志、报纸、书藉等)中同时出现的目标。关系可以是文本(text)、符号、数字及其组合。本文中所使用的"元数据内容"("metadatacontent")是指在数据源中组织文本的信息。元数据(metadata)可以包括标准的元数据,例如都柏林核元数据(DublinCoremetadata);或者元数据可以是特定收集的。元数据的格式的实例包括但不限于用于图书馆目录的机读目录(MachineReadableCatalog(MARC))格式、资源描述格式(ResourceDescriptionFormat(RDF))和可扩展标记语言(ExtensibleMarkupLanguage(XML))。元目标可以通过人工产生,或者通过自动信息提取运算法则产生。本文中所使用的"发动程序"("engine")是指为其它的程序执行核心的或者实质的功能的程序。例如,发动程序可以为操作系统中的中心程序,或者为协调其它程序全面操作的应用程序。术语"发动程序"还可以指含有可以改变的运算法则的程序。例如,可以设计知识发现发动程序,使该程序中包括的鉴定关系的方法可以改变,以反映鉴定和排列关系的新规则。本文中所使用的"统计分析"是指一种基于计数每个术语(词、词根、词干、n元文法(n-gram)、短语等)出现次数的技术。在受试者方面的收集中,在不同上下文中所使用的短语可以表示不同的概念。对短语共同出现进行统计分析可以帮助解决词义不明确的问题。"统计分析"可以通过部分的语言分析进一步降低不明确性。本文中所使用的,一个或多个这种分析更通常被称为"词法分析"。"人工智能(AI)"是指一种方法,通过该方法,非人类的设备(例如,计算机)能够执行人类认为是值得注意的或者"智能的"任务。实例包括鉴定图片、理解口语单词或者书面的文本,并解决问题。本文中所使用的术语"数据库"是指未加工的数据或者编辑的数据的储存库,甚至在数据领域中的各方面的信息都可以在其中被找到。通常,对数据库进行组织,以便使其内容能够被获取、管理和更新(例如,数据库是动态的)。在本发明中,术语"数据库"和"资源,,还可以相互交换使用,因为数据和信息的第一手来源为数据库。然而,"源数据库"或者"源数据"通常是指被输入系统中以鉴定目标和确定关系的数据,例如,未组织的文本和/或组织的数据。源数据库可以是或者可以不是关系数据库。然而,系统数据库通常包括关系数据库或者一些等价类型的数据库,在这些关系数据库或者一些等价类型的数据库中存储了与目标之间的关系有关的值。本文中所使用的"系统数据库"和"关系数据库"可以交换使用,并且它们是指一次或者多次收集的数据被组织成一组表,在该表中,数据被分配到预定的类别中。例如,数据库表可以包括一个或者多个通过列(例如,属性)限定的类别,而数据库的行可以含有通过列限定的类别的独特的目标。因此,目标(例如,基因的鉴定)可以以所述基因的存在、不存在和/或表达水平作为列。一行相关的数据库还可以被称为"集",并通常由其列的值限定。相关数据库的上下文中的"域"是一个区域(例如,列)可能包括的有效值的范围。本文中所使用的"知识域"是指研究领域,在该领域中,系统对于,例如,所有的生物医药数据都是可操作的。应当指出的是,对来自几个域中的数据进行合并是有益的,例如,对生物医药数据和工程数据进行合并,因为不同的数据有时能够将对于一个仅仅熟悉一个领域或者研究/学习领域(一个域)的普通人来说不能结合到一起的事物结合到一起。"分布式数据库"是指可以被分散在或者复制在网络中的不同的点中的数据库。术语"数据,,和"信息,,通常可以交换使用,"信息"和"知识"也可以交换使用。本文中所使用的"数据"是最基本的单元,它是一个实验测量结果或者一组实验测量结果。对数据进行编辑以构成信息,但信息的基础不依赖于数据。相反,信息来源于感兴趣的事物,例如,可以根据种族、性别、身高和饮食对数据(单元)进行聚集,以找到与患心血管疾病风险相关的各种变量。然而,相同的数据还可以用于形成配方或者创建关于饮食偏好的"信息",即在超市中的某些产品可能更容易被出售的可能性。本文中所使用的"信息"是指可以包括数字、字母、数字集、字母集、或者由一组教:据得到的或者产生的结果的^据集。因而,"凝:据"是测量结果或者是统计的和基楚的信息单元。"信息"还可以包括其它类型的数据,例如,字、符号、文本(例如,未组织的自由文本)、编码等。"知识"不严谨地定义为有助于充分理解模拟因果的系统的一组信息。为了扩展以前的实例,关于人口、性别和现有购买的物品的信息可以用于形成对商品销售的区域性市场战略;而关于民族的信息可以被顾客用作进口产品指南。必须指出,凝:据、信息和知识之间并没有严格的界线,这三个术语有时可以认为是等同的。通常,数据来源于检测;信息来源于相互关联;而知识来源于建模。本文中所使用的"程序"或者"计算机程序"通常是指语法单元,该语法单元遵循特定的程序设计语言的规则,并且由陈述和声明或者指令组成,可以分成用于解决或者执行某种功能、任务、或者问题的"编码段"。程序设计语言通常是用于表达程序的人工语言。本文中所使用的"系统"或者"计算机系统"通常是指一个或多个计算机、外围设备、和进行数据处理的软件。"用户"或者"系统操作员"通常是指能够通过"用户设备,,(例如,计算机、无线电设备等)进入计算机网络以进行数据处理和信息交换的人。"计算机,,通常是指不需要人为的干涉、能够进行大量计算的功能单元,所述计算包括大量的算术操作和逻辑操作。本文中所使用的"应用软件"或者"应用程序"通常是指专门用于解决应用问题的软件或程序。"应用问题,,通常是指由终端用户提交的,并需要信息处理以获得解决方案的问题。本文中所使用的"自然语言"是指其规则基于目前的使用而不受特定的规定的语言,例如,英语、西班牙语或者汉语。本文中所使用的"人工语言,,是指其规则在使用前已经明确制定的语言,例如,计算机程序设计语言。例如,C++、Java、BASIC、FORTRAN、或COBOL。本文中所使用的"统计相关性"是指使用一种或多种排列方案(0/E比值、强度等),如果一种相互关系出现的频率显著高于预测的随机出现的频率,则确定的相互关系为统计相关的。本文中所使用的术语"协同调节的基因"或者"转录模块",它们可以相互交换使用,并且是指特定基因的、成组的、基因表达图谱(例如,与特定基因序列相关信号值)。可以给一个或多个"协同调节的基因,,的组合进行赋值,以提供可以表示为单个值的"转录组值矢量,,或者"转录组矢量"。例如,所述值可以以数字、位于辐射图中的点、具有不同强度的点、颜色、数值或者轮廓线(例如,上升图)的形式提供。每一个转录模块可以与一份或多份的数据相关,例如,文献搜索部分与从基因微阵列中获得的实际实验基因表达值数据。被选入转录模块的一组基因是基于基因表达数据的分析进行的(上述的模块抽提算法)。Chaussabel,D.&SherA.教导了其它步骤(Chaussabel,D.&Sher,A.Miningmicroarrayexpressiondatabyliteratureprofiling.GenomeBiol3,RESEARCH0055(2002),(http:〃genomebiologv.com/2002/3/10/research/0055)),其相关部分引入本文作为参考,并且表达数据从感兴趣的疾病或者病症中获得,例如从系统红斑狼疮、关节炎、淋巴瘤、癌症、恶性黑素瘤、急性感染、自身免疫疾病、自身炎症疾病等中获得)。下表中列出了用于形成文献搜索部分或者用于组成转录模块的关键词的实例。本领域的技术人员能够认识到可以容易地选择其它术语用于其它的病症,例如,用于特定的癌症、特定的传染病、移植等。例如,在下文中将描述基因以及用于那些与T细胞激活的基因的信号作为模块ID"M2.8",在该模块中,某些关^^定词(例如,淋巴瘤、T细胞、CD4、CD8、TCR、胸腺、淋巴样的、IL2)被用于鉴定重要的与T细胞相关的基因,例如,T细胞表面标记(CD5、CD6、CD7、CD26、CD28、CD96);由淋巴细胞表达的分子(淋巴毒素P、IL2-可诱导的T细胞激酶、TCF7;和T细胞分化蛋白mal、GATA3、STAT5B)。其次,由来自患者群体的用于这些基因的相关联数据(不管平台、存在/不存在和/或上调或下调)形成完整的模块以产生转录模块。在某些情况下,基因谱与用于这些疾病条件的基因的任何特定的聚类以及数据不匹配(在这时候),然而,在某些生理途径(例如,cAMP信号传导、锌指蛋白、细胞表面标记等)中发现存在这种"证据不足地说明的"模块。事实上,基因表达数据组可以在进行匹配的关键词搜索前用于提取能够协同表达的基因,即,在参照第二数据组之前,每一数据组都可以是相互关联的。表l.处于不同模块中的基因的实例<table>tableseeoriginaldocumentpage20</column></row><table><table>tableseeoriginaldocumentpage21</column></row><table><table>tableseeoriginaldocumentpage22</column></row><table><table>tableseeoriginaldocumentpage23</column></row><table>生物学定义本文中所使用的术语"阵列"是指具有一种或多种连接到支持物上的肽或者核酸探针的固体支持物或者底物。阵列通常具有结合到底物表面不同的已知的位置上的一种或多种不同的核酸探针或者肽探针。这些阵列也描述为"微阵列"、"基因芯片"或DNA芯片,它们可以具有基于已知基因组(例如,人基因组)的10,000、20,000、30,000、或40,000不同的可鉴定的基因。这些泛阵列被用于检测在样本中表达或者发现的基因的完整的"转录组"或者转录库,例如,表达为RNA、mRNA的核酸以及将被进行RT和/或RT-PCR以制备DNA复制子的互补组的核酸。可以使用机械合成的方法、光导合成方法、以及组合了非平板印刷方法和/或照相平板印刷方法以及固相合成的方法的方法产生阵列。可以使用包括连接到3微米的珠的50-mer的寡核苷酸探针的珠阵列,该珠阵列为,例如被固定到微孔中的载玻片的表面,或者为液相悬浮阵列(例如,Luminex或Illumina)的一部分,所述液相悬浮阵列为位于液相中的数字珠阵列,并使用"条形码"以进行检测和鉴定。已经描述了用于合成这些核酸阵列的各种技术,例如,被制备在事实上任何形状的表面上或者甚至在多种表面上。阵列可以是位于珠、凝胶、聚合物表面、纤维(例如,光导纤维)、玻璃或者任何其它合适的表面上的肽或者核酸。阵列可以被包装成用于诊断或者用于包含一切的设备(allinclusivedevice)的其它操作,实例请参见美国专利No.6,955,788,其相关内容引入本文作为参考。本文中所使用的术语"疾病"是指其细胞处于任何异常的生物状态的生物的生理状态。疾病包括但不限于细胞的、组织的、肌体的功能、系统的或者器管的功能被中断、停止或者失调,这些中断、停止或者失调可以是固有的、遗传的、由感染导致的、异常细胞功能导致的、细胞异常分裂等导致的。能够导致"疾病状态"的疾病通常对于生物系统(即,疾病的宿主)有害。根据本发明,与疾病或者失调相关的任何生物状态(例如,感染的(例如,病毒感染、细菌感染、真菌感染、蠕虫感染等)、炎症的、自身炎症的、自身免疫的、过敏性反应的、过敏症的、癌前期的、癌症的、外科的、移植的、生理的等生物状态)均被认为是疾病状态。病理状态通常等价于疾病状态。疾病状态还可以分为不同级别的疾病状态。本文中所-使用的疾病或疾病状态的级别是能够反映疾病或者疾病状态的进程以及反映在治疗时、治疗中以及治疗后的生理应答的任何度量标准。通常,疾病或者疾病状态向高级的级别或者阶段发展,其中,疾病的侵害变得越来越严重。疾病状态的级别可能受样本中的细胞的生理状态的影响。本文中所使用的术语"治疗,,或者"治疗方案"是指采取的用于减轻或者改变疾病状态的医学步骤,例如,使用药理学的、外科的、善食的和/或其它技术以减轻或者緩解疾病的侵害或症状。治疗方案可以包括开出一定剂量的一种或多种药物,或者进行外科手术。通常,治疗是有益的,能够减轻疾病的状态,但在许多情况下,治疗的作用包括不需要的作用或者副作用。治疗的作用还受宿主的生理状态影响,例如,宿主的年龄、性别、遗传、重量、其它疾病状况等。本文中所使用的术语"药理学状态"或者"药理学状况"是指用一种或多种药物、外科手术等处理样本,以影响样本中的一种或多种核酸的药理学状态,例如,由于药理学的干预,一种或多种核酸进行了新的转录、被稳定和/或去稳定。样本的药理学状态涉及在药物处理之前、之中和/或之后生物状态的变化,并且可以作为本文所述的诊断或者预示的功能。在药物治疗或者外科手术后出现的一些变化可能与疾病的状态有关和/或可能与治疗的副作用不相关。药理学的状态的变化可能是由于治疗持续的时间、所开的药物的类型和剂量、患者在给定治疗时期^^人的程度、和/或摄取的未规定的药物所导致的。本文中所使用的术语"生物学状态"是指分离和纯化的用于分析表达的变化的细胞样本的转录组(转录组为全部收集的RNA转录子)的状态。通过测量细胞中组成的丰度和/或活性,根据形态学上的表型或者用于检测转录子的方法的组合进行表征,生物学状态能够反应样本中细胞的生理学状态。本文中所使用的术语"表达谱"是指RNA、DNA或者蛋白质的相对丰度或者活性水平。所述表达谱可以是通过任意种方法和使用以下任何方法对例如转录状态或者翻译状态所获得的测量结果,所述以下方法为基因芯片、基因阵列、珠、多元PCR、多重PCR、定量PCR、连缀分析、RNA印迹分析、蛋白质印迹分析、蛋白质表达、荧光激活细胞分类(FACS)、酶联免疫吸附分析(ELISA)、化学发光研究、酶分析、增殖研究或者其它任何方法、用于检测和/或分析基因表达的设备和系统,它们易于通过商购获得。本文中所使用的术语样本的"转录状态"包括不同RNA,尤其是mRNAs在所述样本中的同一性和相对丰度。样本的完整转录状态,即RNA的同一性和丰度的组合,在本文中也称为转录组。通常,测量样本中整套不同种RNA的所有的相关组成中的实质部分。本文中所使用的术语"转录矢量"、"表达矢量"和"基因组矢量"(可以交换使用)是指能够反应"差异表达的基因的比例"的转录表达数塘,例如,对于每一模块,所述"差异表达的基因的比例"为至少两组样本(例如,健康受试者与患者)之间的差异表达的转录子的比例。这种矢量来自两组样本的比较。分析的第一步是用于选择处于每一模块中的特定疾病组的转录子。其次存在"表达水平"。对于给定疾病的组之间的比较可以提供对于每一模块的差异表达转录子的列表。发现不同的疾病形成不同亚组的模块转录子。然后,根据表达水平可以通过被鉴定为差异表达的基因的疾病特异性亚组的表达平均值计算单个样本对每一模块的矢量。这种方法可以产生对于单个样本的模块表达矢量的图谱,例如,在本文所公开的模块图语中所描述的那些。这种矢量模块图镨代表对于可以来自每一个样本的每一个模块的平均表达水平(而不是差异表达基因的比例)。这种复合的"表达矢量"可以通过连续几轮以下的筛选形成1)对全部研究组中的显著变化的模块的筛选和2)对处于全部研究组中的显著变化的模块的基因的筛选。随后通过对获得的用于形成每一矢量的转录子亚组的值进行平均获得表达水平。然后,可以通过在一个图中(例如,雷达测绘图)描绘获得的对于每一个矢量的表达水平来表示患者的特征。因此,从两轮选择得到一组矢量,首先在模块水平,然后在基因水平。通过按照它们源自形成矢量的转录子的平均表达值的方式进行构建,复合成矢量表达值。通过使用本发明,不仅可以在模块水平,并且可以在基因水平进行鉴定和区分疾病;即两种疾病可以具有相同的矢量(差异表达转录子的相同比例,相同的"极性"),但是表达矢量的基因组成可以仍然是疾病特异性的。这种疾病特异性的用户化可以使使用者通过增加其特异性优化给定组标记的性能。使用模块作为基础建立含有最小量噪音的相关功能和转录单元的表达矢量。此外,本发明利用了复合的转录标记。本文中所使用的术语"复合的转录标记"是指多基因(模块的亚组)的平均表达值,而不是指使用单基因作为标记(这些标记的组成可以是疾病特异性的)。这种复合转录的标记的方法是独特的,因为,使用者能够利用多变量微阵列得分以评价例如,被病毒、细菌感染的患者或者患有其它传染病的患者的严重程度,或者得到本文公开的表达矢量。表达矢量是复合的(即,通过组合转录子形成)事实还能助于这些标记的稳定性。更为重要地,发现使用本发明的这种复合的模块转录标记,本文在微阵列平台上所获得的结果是可再现的,从而,对调节许可(regulatoryapproval)提供更强的可靠性。事实上,矢量表达值被证明具有显著的强大功能,这正如通过从微阵列平台获得的优异的再现性所示,并且在独立的一组儿科狼疮患者中也获得了验证的结果。由于微阵列数据的可靠性的提高是该技术广泛应用于临床实践的先决条件,因此,这些结果是重要的(参见,例如,FDAMAQC程序,该程序旨在通过阵列平台创建再现性)。用于本发明的基因表达监控系统可以包括具有有限的和/或基本数量的基因的用户化的基因阵列,所述基因对一种或多种靶疾病是特异性的或者用户化的。与习惯使用中的普通的、泛基因组阵列不同,本发明不仅能够在不分析;更为重要的是,本发明还能够发展用户化的阵列,该用户化的阵列能够提供优化的一组基因用于分析而不需要成千上万的其它不相关的基因。与现有技术相比,本发明的优化的阵列和模块的一个突出的优点是降低了财务成本(例如,每一次分析的成本、材料、设备、时间、职员、培训等),更重要的是降低了制备泛阵列的环境成本,其中,在泛阵列中,绝大多数的数据是不相关的。本发明的模块能够第一次设计简单的、用户化的阵列,该阵列能够通过最少量的探针提供具有最大信噪比的最佳的数据。由于不需要对所有基因进行分析,可以,例如,在制备能够提供大量的不相关数据的泛基因芯片过程中,不需要制备成千上万的用于照相平板技术的昂贵的铂掩光膜。如果本发明的有限量的探针组与以下技术一起使用,使用本发明可能完全不需要微阵列,所述以下技术为,例如,数字光学化学阵列、球珠阵列(ballbeadarrays)、珠(例如,Luminex)、多重PCR、定量PCR、连缀分析、RNA印迹分析、或甚至用于蛋白质印迹的分析、2-维和3-维凝胶蛋白质表达、MALDI、MALDI-TOF、荧光激活细胞分类(FACS)(细胞表面或者细胞内部)、荧光激活细胞分类(FACS)、酶联免疫吸附分析(ELISA)、化学发光研究、酶分析、增殖研究或者其它任何方法、用于检测和/或分析基因表达的设备和系统,它们易于通过商购获得。本发明的"分子指紋系统"可以有利于对以下样本中的表达进行比较分析不同的细胞或组织、相同细胞或组织的不同亚群、处于不同生理状态的相同细胞或组织、处于不同的发展阶段的相同细胞或组织、与患有其它疾病的患者和/或正常细胞对照具有的相同组织的不同细胞群体。在一些情况下,所述正常的或者野生的表达数据可以来自在同时或者几乎同时分析的样本中,或者为从现有的基因阵列表达数据库中获得的或者精选的表达数据,例如,从公共数据库,例如NCBI基因表达综合数据库(NCBIGeneExpressionOmnibusdatabase)中获得或者精选的表达数据。本文使用的术语"差异表达的"是指对存在于两种或者多于两种样本(例如,疾病样本和正常样本)中的发生变化的细胞组成(例如,核酸、蛋白质、酶活性等)的测量结果。所述细胞的成分可以存在或不存在,相对于参比上调或者下调。为了使用基因芯片或者基因阵列,可以使用核酸(例如,mRNA或其它RNAs(miRNA、siRNA、hnRNA、rRNA、tRNA等))的差异基因表达区别不同的细胞类型或者核酸。更通常地,细胞的转录状态的测量可以通过定量逆转录酶(RT)和/或定量逆转录酶-聚合酶链式反应(RT-PCR)、基因组表达分析、翻译后分析、基因组DNA的修饰、易位、原位杂交等实现。对于一些疾病阶段,尤其在疾病处于早期时,可以鉴定细胞或者形态的差异。本发明通过考虑细胞本身的基因模块,或者更重要的是免疫效应细胞中基因的细胞的RNA表达的模块而不需要鉴定那些特定的突变或一种或多种基因,所述免疫效应细胞在生理调节情况下起作用,即在免疫激活中、免疫耐受性或甚至免疫无能中起作用。当基因突变可能导致一组基因的表达水平发生显著的变化时,生物系统通常通过改变其它基因的表达以补偿所述的变化。这种内部的补偿应答所导致的后果是,许多扰动可能对系统的可以观察到的表型具有很小的影响,但是对细胞组成的组合具有深刻的影响。同样地,基因转录子的实际考贝数可能没有增减,但是,所述转录子的半衰期或者寿命可能受到影响,从而导致蛋白质的产量显著增加。在一个实施方案中,本发明通过考虑效应细胞(例如,白细胞、淋巴细胞和/或它们的亚群)而不是单个信息和/或突变来消除检测真实信息的需要。本领域的技术人员易于理解的是所述样本可以来自各种来源,包括,例如单个的细胞、细胞群体、组织、细胞培养物等。在某些情况下,甚至可以从例如,尿、血液、唾液、组织或者活组织检查样本等得到的细胞中分离足够的RNA。在某些情况下,可以^v以下样本中获得足够的细胞和/或RNA:黏膜分泌物、粪、眼泪、血浆、腹膜的流体、空隙的流体、硬脑膜内的流体、脑脊髓液、汗液或其它体液。来自例如组织或细胞源的核酸源可以包括活组织检查样本、一个或多个分类的细胞群体、细胞培养、细胞克隆、转化的细胞、活检(biopies)或单个的细胞。所述组织来源可以包括,例如,脑、肝脏、心脏、肾脏、肺、脾脏、视网膜、骨、神经系统的、淋巴结、内分泌腺体、生殖器管、血液、神经、血管组织、和嗅觉上皮。本发明包括以下基本的组成,这些组成可以单独使用或者组合使用,即一种或多种数据挖掘运算法则;一种或多种模块-级的分析方法;血白细胞转录模块的特征;在多变量分析中使用聚集的模块数据以对人类疾病进行分子的诊断/预示;和/或检验模块-级的数据和结果。使用本发明,还可以开发和分析复合的转录标记,这些转录标记可以进一步聚集成单一的多变量得分。本发明的发明者认识到目前基于微阵列的研究正面临重大的挑战,它们是分析众人皆知的"噪音",所述"噪音"即为难以解释的、且在不同的实验室和平台之间不能很好地进行比较数据。广泛公认的用于分析微阵列的数据的方法首先鉴定研究组之间差异表达的基因的亚组。其次,使用者随后设法使用模式发现运算法则和现有的科学知识了解得到的基因列表的意义。本发明的发明者不是解决对平台的极大的可变性,而是开发了强调在分析的早期选择生物相关的基因的策略。简单地说,所述方法包括对表征给定生物系统的转录成分进行鉴定,对于该给定的生物系统,开发改进的数据挖掘预算法则以从大量收集的数据中分析和提取协同表达的基因组、或者转录模块。globalscale)获得的微阵列数据。从约44,000转录子开始,定义了由约5000个转录子组成的含有28个模块的组。然后形成疾病特异性的复合表达矢量的组。矢量表达值(表达矢量)能够提供显著的强大的功能,这正如通过/人微阵列平台获得的优异的再现性所示。这一发现是值得注意的,因为微阵列数据可靠性的提高是该技术广泛应用于临床实践的先决条件。最后,表达矢量可以依次结合,以获得独特的多变量得分,因此,产生的结果适合主流临床实践。令人感兴趣的是,多变量得分概括的是变化的总模式,而不是单个标记的变化。这种发展的"总的生物标记物"可以用于诊断和药物基因组学领域。在一个实例中,从239个血白细胞转录谱中获得重组了4742个探针组的28个转录模块。通过文献概括证实了功能集中在形成这些模块的基因中。第二步包括研究转录系统对模块基础的干扰。为了说明这一观点,从健康的志愿者和患者中获得白血胞,并对它们进行比较和分析。通过对公布的^t阵列数据集的分析,进一步验证了这种基因指紋策略。值得注意的是,使用现有的数据的本发明的模块转录仪器、系统和方法在两种商购的微阵列平台上表现出很高的再现性。本发明包括实施设计的用于转录系统模块分析的广泛可应用的、两步微:阵列数据挖掘策略。这种新的方法被用于表征血白细胞的转录信号,这种转录信号构成了临床相关信息的主要可利用来源。如本文中所说明的那样,可以根据两种失量对两种疾病进行确定、区分和/或区别,既使所述失量对于两种疾病来说是相同的(+/+)(例如,对于SLE和FLU,M1.3-53。/。下降),这是因为每一种失量的组成仍然可以用于区分两种疾病。例如,虽然所述两种疾病对于M1.3来说差异表达的转录子的比例和极性都相同,但是基因的组合仍然可以是疾病特异性的。将对基因-水平和模块-水平的分析组合可以显著地增强辨別力。此外,可以使用2、3、4、5、10、15、20、25、28或更多的模块来区分疾病。术语"基因"是指包括对于产生多肽(例如,)、前体、或者RNA(例如,mRNA)所必需的编码序列的核酸(例如,DNA)序列。所述多肽可以由全长的编码序列所编码或者由部分的编码序列所编码,只要所述全长序列或者片段保留了所需要的活性或者功能特性(例如,酶活性、配体结合、信号转导、免疫原性等)。所述术语还包括结构基因的编码区和长度为约2kb的序列,该序列接近于所述编码区并分別位于5,和3'两个末端,或者更通常地位于任意一个末端,这样使所述基因对应于全长mRNA的长度以及影响基因的转录特性的5,调节序列。位于编码区的5'端并存在mRNA中的序列称为5,-非翻译序列。所述5,-非翻译序列通常含有所述调节序列。位于所述编码区的3'端或者下游并存在mRNA中的序列称为3'-非翻译序列。术语"基因"包括cDNA和基因组形式的基因。基因的基因组形式或者克隆包括被非编码序列中断的编码区,所述非编码序列的术语为"内含子"或者"千涉区"或者"干涉序列"。内含子是能够转录到核RNA(hnRNA)中的基因的片段;内含子可以含有调节元件,例如增强子。内含子被除出或者"剪切出"核或者初始的转录子。因此,内含子不存在于信使RNA(mRNA)转录子中。mRNA的功能是在翻译过程中使初始生成的多肽的氨基酸具有特定的序列或者顺序。本文中所使用的术语"核酸"是指包括分子(包括但不限于DNA、cDNA和RNA)的任何核酸。尤其是将在下文中发现的术语"在表X中的基因"是指在特定表中所列的基因的至少一部分或者全长序列。所述基因甚至可以被发现或被检测为基因组形式的,即,所述基因包括一个或多个内含子。基因组形式的基因可以含有位于编码序列的5,和3'两个末端的序列,该序列存在于RNA转录子中。这些序列被称为"侧翼"序列或者区。5'侧翼区可以含有调节序列,例如,控制或者影响基因的转录的。3,侧翼区可以含有影响转录终止、转录后切割、mRNA稳定性和多腺苦化的序列。本文中所使用的术语"野生型"是指从天然存在来源中分离得到的基因或者基因产物。野生型基因是通常在群体中观察到的,并且是任意设计的"正常的"或者"野生"型的基因。与此相反,术语"修饰的"或者"突变的"是指与野生型的基因或者基因产物相比,其序列和/或功能发生改变(即,改变的特征)的基因或者基因产物。必需指出的是,可以分离到天然存在的突变体;这些突变体可以通过它们具有与野生型基因或者基因产物相比改变的特征(包括改变的核酸序列)而确定。本文中所使用的术语"多态性"是在单个杂交群体.中两个或者多于两个的等位基因有规律地并且同时出现,其中,稀少等位基因出现的频率大于通过经常性的单独的突变所能解释的频率(通常大于1%)。、本文中所使用的术语"编码的核酸分子"、"编码的DNA序列"和"编码的DNA"是指沿着脱氧核糖核苷酸的一条链的脱氧核糖核苷酸的顺序或者序列。这些脱氧核糖核苷酸的顺序确定了沿着多肽蛋白质链的氨基酸序列。因此,所述DNA序列编码氨基酸的序列。本文中所使用的术语"互补的"或者"互补"是指通过碱基配对规律联系的多聚核苷酸(即,核苷酸序列)。例如,序列"A-G-T,,与序列"T-C-A"互补。互补可以是"部分的",在这种情况下,只有一些核酸的碱基按照碱基配对规矩匹配。或者互补可以是核酸之间"完全的"或者"全部的"互补。核酸链之间互补的程度对于核酸链之间的杂交的效率和强度具有显著的影响。在扩增反应以及依赖于核酸之间的结合的检测方法中这是尤为重要的。本文中所使用的术语"杂交"是指互补核酸的配对。杂交和杂交的强度(即,核酸之间结合的强度)受以下因素的影响核酸之间互补的程度、涉及的条件的严格性、形成的杂交体的Tm和核酸中G:C比例。在其结构中含有配对的互补的核酸的单个分子被称为是"自体杂交"。本文中所使用的术语"严格的"是指温度、离子强度、和存在的其它化合物(例如,有机溶剂)的条件使得核酸的杂交能够被引导地进行。在"低的严格条件下",感兴趣的核酸序列能够杂交到它精确的互补物、具有单个碱基错配的序列、密切相关的序列(例如,序列具有90%或者更高的同源性),以及只具有部分的同源性的序歹'j(例如,序列具有50-90%同源性)上。在"中等严格的条件下",感兴趣的核酸序列能够杂交到它精确的互补物、具有单个碱基错配的序列和密切相关的序列(例如,序列具有90%或者更高的同源性)上。在"高的严格的条件下",感兴趣的核酸序列只能够杂交到它精确的互补物、和(取决于温度条件)具有单个石威基错配的序列上。换句话说,在高的严格条件下,可以提高温度以排除与具有单个碱基错配的序列的杂交。本文中所使用的术语"探针"是指天然存在的纯化的限制性消化物或者合成制备的、重组或者通过PCR扩增的寡核苷酸(即,核苷酸序列),它能够杂交到另一种感兴趣的寡核苷酸上。探针可以是单链的或者双链的。在检测、鉴定和分离特定基因序列中,探针是有用的。用于本发明任何探针可以用任何的"报告分子"标记,以便使之在任何检测系统中是可检测的,所述检测系统包括但不限于酶(例如,ELISA,以及基于酶的组织分析)的、荧光的、放射性的、发光的系统等。本文的意图不是要将本发明限制使用任何特定的4全测系统或者标记。本文中所使用的术语"耙"是指被引物结合的核酸区域。因此,"靶"是被寻找的待从其它核酸序列中挑出来的。"片段"被定义为处于靶序列中的核酸区域。本文中所使用的术语"DNA印迹法"是指在琼脂凝胶或者丙烯酰胺凝胶上将DNA按照大小分离后,再将DNA从所述凝胶上转移到固体支持物(例如,硝酸纤维或者尼龙膜)上的DNA分析。然后用标记的探针探查固定的DNA以检测与使用的探针互补的DNA种类。在电泳前,可以使用限制性酶切割DNA。在电泳后,将DNA转移到所述固体支持物之前或之中,可以对DNA进行部分地脱噤呤和变性。DNA印迹法是分子生物学家标准的工具(Sambrooketal.,MolecularCloning:ALaboratoryManual,ColdSpringHarborPress,NY,卯9.31-9.58,1989)。本文中所使用的术语"RNA杂交"是指在琼脂凝胶上将RNA按照大小分离后,再将RNA从所述凝胶上转移到固体支持物(例如,硝酸纤维或者尼龙膜)上的RNA分析。然后用标记的探针探查固定的RNA以检测与使用的探针互补的RNA种类。RNA印迹法是分子生物学家标准的工具(Sambrook,etal.,supra,pp7.39-7.52,1989)。本文中所使用的术语"蛋白质印迹法"是指固定到支持物(例如,硝酸纤维或者尼龙膜)上的蛋白质分析。蛋白质在丙烯酰胺凝胶上电泳以分离蛋白质,随后将蛋白质从所述凝胶上转移到固体支持物(例如,硝酸纤维或者尼龙膜)上。然后,将固定的蛋白质暴露于对感兴趣的抗原具有反应活性的抗体中。可以通过包括使用放射性标记的抗体在内的各种方法检测所述抗体的结合。本文中所使用的术语"聚合酶链式反应"("PCR,,)是指K.B.Mullis所提出的方法(美国专利Nos.4,683,195、4,683,202、和4,965,188,引入本文作为参考),这些文献描述了在不进行克隆或者纯化的条件下增加靶序列的片段在基因组DNA的混合中的浓度的方法。用于扩增靶序列的方法包括向含有所需要的耙序列的DNA混合物中引入大量过剩的两种寡核苷酸引物,随后在DNA聚合酶存在的情况下进行精确顺序的热循环。所述两种引物与双链靶序列的两条链分别互补。为了实现扩增,使混合物变性,并随后使所述引物退火到所述耙分子中的互补序列。在退火后,所述引物在聚合酶作用下延长,以形成新的一对互补链。可以重复多次变性、引物退火和聚合酶延长的步骤(即,变性、退火和延长构成一个"循环";可以有许多次"循环")以获得高浓度的所需耙序列的扩增片段。通过引物之间相对的位置确定所需耙序列的扩增片段的长度,因此,该长度是一个可控制的参数。由于该方法具有重复的特征,因此该方法被称为"聚合酶链式反应"(下文以"PCR,,表示)。由于靶序列的所需要的扩增的片段在混合物中为优势序列(根据浓度),它们被称为"PCR扩增"。本文中所使用的术语"PCR产物"、"PCR片段"和"扩增产物"是指在完成两轮或者多于两轮的变性、退火和延长的PCR步骤后得到的化合物的混合物。这些术语包括一种或多种草巴序列的一种或多种片段扩增的情况。本文中所使用的术语"实时PCR"是指各种PCR扩增,其中,在反应过程中而不是在反应结束后检测扩增。适合用于本发明的实时PCR实施方案中的试剂包括但不限于TaqMan探针、分子信号(molecularbeacons)、蝎引物或者双链DNA结合染料。本文中所使用的术语"转录上调"、"过表达"和"过表达的"是指使用DNA模板通过RNA聚合酶合成的RNA量出现增加。例如,当在本发明的方法中使用时,术语"转录上调"是指相对于在来源于易患SLE的个体中的样本中检测到的感兴趣基因的mRNA的量比相对于在来源于不易患SLE的个体中的样本中检测到的感兴趣基因的mRNA的量增加约1倍、2倍、2-3倍、3-10倍、甚至大于10倍。然而,所述系统和评价是足够特异性的,以在待检测的表达方面要求低于2倍的变化。此外,可以在细胞水平(在单个的细胞或者细胞群体中的表达的变化)或者甚至可以在组织水平评价所述表达的变化,其中,在所述组织中,表达所述基因的细胞数目发生变化。在分析组织的情况下,基因表达的变化可能是由于基因活性发生的调节或者细胞组成发生相对变化导致的。尤其有用的区别是那些在统计上具有显著性的区别。与此相反,术语"转录下调"、"低表达,,和"低表达的,,可以交换使用,它们是指使用DNA模板通过RNA聚合酶合成的RNA量出现降低。例如,当在本发明的方法中使用时,术语"转录下调"是指相对于在来源于易患SLE的个体中的样本中检测到的感兴趣基因的mRNA的量比相对于在来源于不易患SLE的个体中的样本中检测到的感兴趣基因的mRNA的量,或者比相对于在来源于野生型和/或正常对照(例如,纤维肌痛(fibromyalgia))中的样本中检测到的感兴趣基因的mRNA的量,降低至少1倍、2倍、2-3倍、3-10倍、甚至大于10倍。再次,所述系统和评价是足够特异性的,以在待检测的表达方面要求低于2倍的变化。此外,可以在细胞水平(在单个的细变化,其中,在所述组织中,表达所述基因的细胞数目发生变化。在分析组织的情况下,基因表达的变化可能是由于基因活性发生的调节或者在细胞组成中相对变化导致的。尤其有用的区别是那些在统计上具有显著性的区别。还可以通过检测相对于感兴趣的基因的转录产物或者蛋白质水平而间接地监控转录的"上调/过表达"和转录的"下调/低表达"。本发明不限于与转录的上调或者下调相关的任何给定的机制。本文中所使用的术语"真核细胞"是指具有膜被的、结构上分离的的核以及其它发展完好的亚细胞器的细胞或者生物。真核细胞包括除病毒、细菌核蓝绿藻之外的所有生物。本文中所使用的术语"体外转录"是指包括含有启动子的纯化的DNA模板、核糖核苷三磷酸、含有还原剂和阳离子(例如二硫苏糖醇(DTT)和镁离子)的緩冲系统、适当的RNA聚合酶的转录反应,该转录反应在活细胞或者生物的体外进行的。本文中所使用的术语"扩增试剂"是指除引物、核酸模板和扩增酶之外的扩增中必需的那些试剂(脱氧核糖核苷三磷酸、环冲剂等)。通常,扩增试剂与其它反应成分一起置于和包含在反应容器中(试管、微孔板(microwell)等)。本文中所使用的术语"诊断,,是指确定病例中疾病的性质。在本发明的一些实施方案中,提供了用于产生诊断的方法,该方法能够确定传染因子或者为传染病来源的因子。在某些实施方案中,本发明的分析方法可以与共同-未决的专利60,748,884、11,446,825和_(这些共同-未决的专利的相关部分引入本文作为参考)的一种或多种模块组合使用,以确定疾病病症的性质,例如,自身免疫疾病、自身炎症疾病、癌症、移植排斥、病毒感染、细菌感染、蠕虫或寄生虫感染等。本发明可以单独使用或者与疾病治疗的方法结合使用,以监控疾病的进程和/或患者管理。例如,可以对患者进行一次或多次检测,以确定最佳的疗程,以确定治疗是否具有预计的医料效果,以确定患者是否是用于特定治疗的候选者,或者它们的组合。本领域的技术人员能够认识到,如果疾病是急性或者慢性的,一种或多种表达失量可以指示一种或多种疾病,并且可能受其它条件的影响。本文中所使用的术语"药物遗传学测试"是指意在研究涉及例如,药物吸收和倾向(药物代谢代动力学)或者药物作用(药物动力学)的DNA序列中的个体之间的变化,药物遗传学测试可以包括在编码具有以下功能的蛋白质的一种或多种基因中的多态性的变化,所述具有以下功能的蛋白质为,例如转运蛋白、代谢酶、受体和其它蛋白质。本文中所使用的术语"药物基因组测试"是指用于在整个基因组或者候选基因(例如,单核芬酸多态性(SNP)图谱或者单倍型标记)中研究个体之间的变化,以及可能与药理学功能和治疗应答相关的基因表达的改变或失活的分一斤方法。本文中所使用的"表达谱,,是指细胞的多种组成的相对丰度的测量结果这些测量结果可以包括,例如RNA或蛋白质的丰度或者活性水平。所述表达镨可以是,例如转录状态或者翻译状态的测量结果。参见美国专利Nos.6,040,138、5,800,992、6,020135、6,033,860,其相关部分引入本文作为参考。所述基因监控系统包括核酸探针阵列、膜印迹(例如,在杂交分析如DNA印迹、RNA印迹、斑点印迹等)、或者微孔板、样本管、凝胶、珠或者纤维(或者包括结合的核酸的任何固体支持物)。参见,例如,美国专利Nos.5,770,722、5,874,219、5,744,305、5,677,195和5,445,934,这些专利的相关部分引入本文作为参考。所述基因表达监控系统还可以包括溶液中的核酸探针。可以使用本发明的基因表达监控系统以促进下述样本中表达的比较分析不同的细胞或组织、相同细胞或组织的不同亚群、处于不同生理状态的相同细胞或组织、处于不同的发展阶段的相同细胞或组织、相同组织的不同细胞群体。本文中所使用的术语"差异表达"是指在两种或者多于两种的样本中细胞组成的测量结果发生了变化。所述细胞的组成可以是测试样本中的表达相对于参考发生上调,或者是测试样本中的表达相对于一个或者多个参考发生35下调。差异的基因表达还可以用于区分细胞类型或者核酸。参见美国专利No.5,800,992,该专利的相关部分引入本文作为参考。治疗或者治疗方案为了緩解或者改变疾病的状态,通常采取治疗或者治疗方案。本文中所使用的治疗或者治疗方案是指为了减轻或者緩解疾病的侵袭或者症状而进行的疗程。治疗方案通常包括但不限于开出的一种或多种药物的剂量或者外科手术。理想情况下,治疗有益于并能减轻疾病的状态,但在许多情况下,治疗的效果还包括不需要的效果。所述治疗的效果还受样本的生理状态的影响。本文中所使用的术语"药理学状态"或者"药理学状况"是指用一种或多种药物、外科手术等处理的那些样本,所述处理可能影响样本中的一种或多种核酸的药理学状态,例如由于药理学的干预,一种或多种核酸进行了新的转录、被稳定和/或去稳定。样本的药理学状态涉及在药物处理之前、之中和/或之后生物状态的变化,并且可以作为本文所述的诊断或者预示的功能。在药物治疗或者外科手术后出现的一些变化可能与疾病的状态有关和/或可能与治疗的副作用不相关。药理学的状态的变化可能是由于治疗持续的时间、所开的药物的类型和剂量、患者在给定治疗时期仏(人的程度、和/或摄取的未规定的药物所导致的。由于每一种病原体代表与特定的模式识别受体(PRRs)相互作用的病原体分子模式(PAMPs)的独特组合,本发明的发明者认为如果从患有急性感染的患者的外周血中分离的白细胞具有独特的转录信号,则这种转录信号本身又能够区别病原体。为了验证这一假想,检测了来自患者的血中的白细胞的基因表达模式,所述患者患有被四种常见的人类病原体导致的急性感染(i)流感病毒A,—种RNA病毒;(ii)金黄色葡萄球菌;和(iii)肺链球菌,两种革兰氏阳性菌;和(iv)大肠杆菌,革兰氏阴性菌。表2.141位患有急性传染病的患者和7位健康的对照的特征。大肠杆菌细菌对病患者年龄种族性别临床疾病对金黄色抗菌剂治疗毒葡萄球菌第1组;tM杆菌(n=29)平均年龄2月(2周-16年)125个月黑人男性菌血症训练训练头孢曲松钠135个月白人女性UTI训练训练头孢曲松钠313个月3416岁482个月573个月744个月822个月863个月1181.5个月1201.5个月1332个月1391个月1488岁1511.5个月1522.5个月西班牙裔美国女性人白人女性白人男性黑人女性西班牙裔美国女性人西班牙裔美国男性人西班牙裔美国男性人白人男性西班牙裔美国男性人西班牙裔美国男性人西班牙裔美国男性人西班牙裔美国女性人西班牙裔美国男性人黑人男性UTI、菌血症肾盂肾炎UTIUTI、菌血症UTI、菌血症UTIUTIUTIUTIUTIUTIUTIUTI菌血症、脑膜训练训练测试1训练测试1测试3测试1训练训练训练测试1训练训练训练测试l测试3测试1测试3测试1测试3测试l测试3测试l训练测试l测试3训练训练庆大霉素庆大霉素氨节青霉素、头孢曲松钠庆大霉素头孢曲松钠氨千青霉素,头孢曲松钠头孢曲松钠测试1&2氨千青霉素、头孢曲松钠头孢曲松钠氨千青霉素、头孢曲松钠头孢曲松钠氨千青霉素、庆大霉素头孢曲松钠、庆大霉素炎1542个月1611.7个月1683个月1713个月1750.5个月1801个月1831.5个月1841881972190.5个月1.5个月1.25个月5个月2223个月2294个月西班牙裔美国人西班牙裔美国人白人西班牙裔美国人西班牙裔美国人西班牙裔美国人西班牙裔美国人白人白人白人白人西班牙裔美国人西班牙裔美国人第l组:男性UTI测试l测试3男性男性头孢曲松钠UTI测试l测试3氨爷青霉素、头孢曲松钠女性UTI女性UTI测试1测试3测试l测试3头孑包曲+>钠头孢曲松钠女性UTI、菌血症测试l测试3头孢曲松钠UTI测试l测试3氨千青霉素、庆大霉素男性UTI测试l测试3女性UTI、菌血症测试l测试3男性UTI测试l测试3男性UTI测试l测试3女性UTI、菌血症测试1测试3氨苄青霉素、庆大霉素,头孢曲松钠氨千青霉素、庆大霉素氨苄青霉素、庆大霉素,头孢曲松钠氨千青霉素、庆大霉素头孢曲松钠女性UTI、菌血症测试l测试3头孢曲松钠、庆大霉素女性UTI、菌血症测试l测试3M色葡菊球菌(11=32)平均年龄7岁(3月-18岁)头孢曲松钠510岁243岁3015岁4362666770848889902082167岁2岁3个月7岁699个月15个月18岁11个月4个月8个月1509岁西班牙裔男性美国人黑人黑人4012岁白人白人黑人西班牙裔美国人黑人西班牙裔美国人黑人黑人2057岁2061岁10岁10岁西班牙裔美国人西班牙裔美国人白人西班牙裔男性男性男性黑人男性男性女性白人女性白人女性女性男性女性男性黑人女性17912岁白人男性女性女性女性骨髓炎骨髓炎菌血症骨髓炎、菌血症臀部脓胂、菌血症骨髓炎肺炎骨髓炎、菌血症男性肺部脓肺脓肿脓肿骨髓炎、菌血症脓肺脓毒性关节炎骨髓炎、菌血症内心膜炎、菌血症.脓肺骨髓炎、菌血症、肺炎骨髓炎、菌血测试2测试2测试2测试2测试2测试2测试2测试2测试2测试2测试2测试2测试2测试2测试2测试2男性肺炎、菌血症测试2测试2测试2测试2训练头3包唑啉测试3万古霉素、利福平测试3万古霉素测试3头孢唑淋测试3万古霉素、利福平训练克林霉素训练万古霉素、庆大霉素训练万古霉素、利福平训练万古霉素、头孢唑啉训练万古霉素测试3头孢唑啉训练万古霉素训练克林霉素训练Oxacillin(苯唑青霉素)测试3测试3测试3测试3测试3训练万古霉素、利福平苯唑青霉素、庆大霉素,利福平万古霉素克林霉素万古霉素、克林霉素、利福平万古霉素、利福平39<table>tableseeoriginaldocumentpage40</column></row><table><table>tableseeoriginaldocumentpage41</column></row><table>美国人(Aciclovir)、奥塞米韦1071.5个月亚洲人男性发烧、嗜眠症训练不适用氨千青霉素、头孢曲松钠1085个月1121个月18个西班牙裔美国人西班牙裔美国人男性发烧男性发烧、URI训练不适用测试1&2不适用114115月20个月黑人女性呼吸性痛苦、发烧训练不适用白人男性突然发作训练不适用1162岁白人男性发烧、URI11724岁11个白人女性发烧测试1&2测试1&2不适用不适用128月西班牙裔美国人女性发烧、组织缺氧训练不适用1326个月白人男性呼吸性痛苦、发烧训练不适用2593个月26636岁患者年龄3110.1岁3200.04岁5170.5岁西班牙裔美国人白人种族女性肺炎女性性别发烧、咳嗽临床疾病不适用不适用平台头孢曲松钠氨苄青霉素、庆大霉素头孢呋辛、奥塞米韦阿莫西林头孢呋辛、克^^霉素没有头孢呋辛笨峻青霉素、妥布霉素没有测试1&2测试1&2分析笫2组流感病^(n-18)平均年Hl月(2周-13岁)图6cIllumina氨千青霉素+头孢曲没有抗菌剂治疗西班牙裔流感病毒B男性美国人发烧、URI西班牙裔流感病毒B女性美国人发烧、URI西班牙裔流感病毒A女性美国人肺炎图6c图6a图6bSentrixHu6IlluminaSentrixHu6AffymetrixU133plus2松钠氨千青霉素+庆大霉素没有<image>imageseeoriginaldocumentpage43</image>56010岁5672岁3054.5岁黑人女性作流感病毒B脑炎流感病毒B发烧、URI图6cIlluminaSentrixHu6AffymettixU133plus2西班牙裔流感病毒B图6a女性美国人发烧、URI图6b禁2组?*#色葡菊球賻(一沐i丰均丰#=7:#岁(D.08-i4岁)西班牙裔女性MSSA图6aAffymetrix美国人菌血症、化脓U133plus230812岁36914岁黑人女性黑人男性MSSA菌血症、化脓性关节炎、骨髓炎MSSA散布性肺炎MRSA散布的图6a图6b图6aAffymetrixU133plus2AffymetrixU133plus2阿昔洛韦没有头孢唑啉苯唑青霉素+克林霉素万古霉素、利福平37214岁高加索人男性3741.75黑人男性3807.5岁黑人男性45812岁黑人男性45910岁高加索人女性46513岁高加索人男性MRSA菌血症,骨髓炎MRSA菌血症,化脓性关节炎MRSA骨髓炎,化脓性关节炎MRSA散布的MSSA骨髓炎、化脓性关节炎MRSA骨髓炎、化脓性关节炎、菌图6aAffymetrix万古霉素、利福平U133plus2图6aAffymetrixU133plus2图6aAffymetrixU133plus2图6c图6cIlluminaSentrixHu6IlluminaSentrixHu6万古霉素克林霉素万古霉素+利福平+利奈唑胺苯唑青霉素+利福平图6cIllumina万古霉素SentrixHu64660.5岁黑人男性高加索人4720.08岁男性4751.33岁黑人男性4776岁黑人男性高力o索人48012岁男性高加索人4891.08岁男性5229.5岁黑人女性5291.75黑人男性5350.58岁其它女性5379岁黑人女性克林霉素头孢唑啉西班牙裔961.33岁男性美国人血症MRSA图6cIlluminaSST脓肺SentrixHu6MSSA图6cIlluminaSST脓胂SentrixHu6MSSA图6cIllumina化脓性关节炎SentrixHu6MRSA图6cIllumina菌血症、化脓SentrixHu6性关节炎MSSA图6cIUumina菌血症SentrixHu6MRSA图6cIlluminaSST脓胂SentrixHu6MRSA图6cIllumina菌血症、骨髓SentrixHu6炎MRSA菌血症、肺炎MSSA图6cIllumina化脓性关节炎SentrixHu6MSSA图6cIllumina菌血症、骨髓SentrixHu6炎、化脓性关节炎(n=9)平均年龄=2.5岁(1J-16岁)图6aAffymetrix肺炎、积脓症图6bU133plus2头孢曲松钠+阿奇霉素萘夫西林(Nafcillin)克林霉素+利福平克林霉素+强力霉素克林霉素万古霉素+利福平图6cIlluminaSentrixHu6万古霉素+利福平头孢唑啉苯唑青霉素2652.2岁高加索人女性肺炎,图6aAffymetrix头孢曲松钠+万古霉积脓症图6bU133plus2素2683岁27716岁西班牙裔美国人男性肺炎、积脓症男性肺炎,积脓症高加索人2873.2岁高加索人女性肺炎,、菌血症2892.5岁4712岁4732.5岁5233岁西班牙裔美国人男性肺炎、积脓症高加索人女性西班牙裔美国人西班牙裔美国人男性菌血症、脑膜炎菌血症、肺炎男性化脓性关节炎图6aAffymetrix图6bU133plus2图6aAffymetrix图6bU133plus2图6aAffymetrix图6bU133plus2图6aAffymetrix图6bU133plus2图6cIlluminaSentrixHu6图6cIlluminaSentrixHu6图6cIlluminaSentrixHu6表3.SLESLE患者(n-11)患者统计13岁(9-17岁)SLE8711岁白人女性不适用SLE8516岁黑人女性不适用SLE7910岁西班牙裔美国人女性不适用SLE7615岁黑人女性不适用SLE6617岁西班牙裔美国人女性不适用SLE5712岁黑人男性不适用SLE4814岁白人女性不适用SEE459岁黑人女性不适用SLE10714岁黑人女性不适用SLE2713岁黑人女性不适用SLE199岁黑人男性不适用头孢曲木〉钠头孢曲松钠+克林霉素头孢曲+>钠头孢曲+>钠万古霉素+头孢曲松钠头孢曲;^钠头孢唑啉46<table>tableseeoriginaldocumentpage47</column></row><table>表4.35个能够区分流感病毒A感染和细菌感染的分类基因的列表。如下所示,根据存在和重要性程度对基因进行功能性分组。全部的详细资料可以从补充表3获得。流感病毒>细菌细菌>流感病毒对病毒的应答翻译延长cig51.46E-05EEF1G4.52E-06DNAPTP64.52E-06EEF1G2.35E-06IFI274.52E-06对翻"^fe始的调节IFI350扁33EIF3S59.34E-08IFI440.00023EIF3S72.35E-07IFI440,00015EIF4B1.16E-06OAS16.52E-05蛋白质合成免疫应答QARS5.41E-07BST24.08E-05RPL314.52E-06G1P20.000101RPL42.35E-07LY6E8.28E-06对转录的调节MX16.52E-05PFDN55.41E-07抗凋亡细胞黏附SON0.00067CD442.35E-07细胞生长和/或维持代谢TRIM144.08E-05HADHA4.08E-05多种功能PCBP29.34E-08APOBEC3C2.35E-07多种功能Clorf290.00015dJ507115.16.52E-05FLJ200354.08E-05FLJ383480厕28HSXIAPAF14.52E-06KIAA01522.48E-05PHACTR29.34E-08USP181.46E-05ZBP15.41E-07表5.30个能够区别金黄色葡萄球菌和大肠杆菌感染的分类基因的列表。如下所示,根据存在和重要性程度对基因进行功能性分组。全部的详细资料可以从补充表6获得。^"色葡萄球菌>大肠杆菌大肠軒菌>金费色葡萄球菌信号传导细胞内信号传导CXCX10.00106RASA11.20E-05了AG10.00158SNX44.92E-05RGS20細27对翻"^始的调节代谢AF1Q0.00106GAPD0細44对转录的调节PPIB0.00044SMAD20扁44PSMA70.00106细胞粘附MMP90細37JUP0.00158p44S100.00158代谢蛋白质靶向PP4.92E-05TRAM20.00384MAN1C10細16细胞内蛋白质运输多种功能SEC24C4.92E-05FLJ102874.92E-05多种功能FLJ201520.00622ACTG10.00622LRRN31.20E-05CGI-960.00454LRRN30扁27MGC29630.00158SGPP10.00158STAU4.92E-05UBAP2L2.12E-06STAU4.92E-0549患者特征。PBMCs来自29例被大肠杆菌感染的患者、51例被金黄色葡萄球菌感染的患者、25例被肺炎链球菌感染的患者和36例被流感病毒A感染的患者。由于年轻的患者的伴发病和治疗比年纪较大的成年人的伴发病和治疗少,因此,选择年轻的患者。排除患有潜在的免疫抑制的、接受免疫调节的治疗的(包括皮质类固醇治疗)、或具有明显的慢性医学问题的患者。在取血时,住院的平均时间(范围)为3天(0-9天),症状持续的平均时间(范围)为6天(2-22天)。临床诊断包括急性呼吸性感染、菌血症、局部脓肿、骨和关节感染、尿道感染和脑膜炎(表l)。按照标准的医院方案治疗患者,并且,在急诊室立刻开始抗菌素的治疗。逐步数据分析策略。为了确定从患有急性感染的患者中分离得到的血液中的白细胞是否具有能够区分病原体类型的基因表达信号,进行了以下的逐步数据分析(l)对组进行统计的比较采用非参数曼恩-惠特尼验证(Mann-Whitneytest)、以成对比较的方式鉴定差异表达的基因。按照它们的表达水平排列的等级聚类的基因揭示了两组之间表达的倒数式的模式。(2)样本分类通过比较患者组鉴定能够区分两组患者的基因,即分类基因,所述患者的年龄范围是可以比较的,并且釆用相同的抗菌剂进行治疗(训练组)。然后,在同一组患者中采用弃一交差验证方案对这些基因进行评价。(3)对分类基因进行独立的验证检测相同基因对独立组的患者(测试组)分类的能力。仔细篩选包括在所述训练组中使用的以鉴定分类基因的患者,以避免潜在的混淆因素。在仔细筛选后,在新的一组不同种类的患者中评估所述分类基因(也描述为转录标记),因而更能代表真实的临床情况(测试组)。(4)通过微阵列平台进行独立的验证然后使用不同的微阵列平台(IlluminaBeadChips)在另一组独立的患者中对结果进行进一步^S正。转录信号能够区分被流感病毒A感染的患者和被细菌感染的患者。为了确定来自被流感病毒感染的患者或者被细菌感染的患者的样本之间的差异表达的基因,以相似的年龄和相似的抗菌素治疗为基准,选择11例被流感病毒A感染的患者和12被大肠杆菌感染或者被肺炎链球菌感染的患者作为训练组。#1流感病毒A感染的训练组和被细菌感染的训练组在平均年龄(年龄范围)上没有明显的区别(分别为11个月[1-20个月]和4个月[2个月-23个月];P=0.22;),或者在收集样本前住院的天数(范围)没有明显区另'J(分别为2天[l-2天]和2.5天[2-5天],P=0.06)。所有被流感病毒A感染的11例患者接受内酰胺抗生素的治疗,12例被细菌感染的患者组中IO例也是接受内酰胺抗生素的治疗(P:0.16)。在两组的PBMCs中,嗜中性粒细胞、淋巴细胞和单核细胞的相对比例没有统计上的显著差异(补充表1)。通过对被流感病毒A感染的患者组和被细菌感染的患者组进行统计比较,获得854个差异表达的基因(PO.01)(补充表2),其中,394个基因在被流感病毒A感染的患者中相对地过表达,而460个基因在被细菌感染的患者中过表达。被流感病毒A感染的患者表现出明显的I型干扰素(IFN)的信号(图1a),包括编码以下物质的基因抗病毒(例如,抗黏病毒)的分子的基因(MX1、MX2)、2'-5'-寡腺苷酸合成酶(OASl、OAS2)、GBP1(鸟香酸结合蛋白1)、和CIG5(蝰蛇毒素(viperin)、病毒抑制蛋白、内质网相关的干扰素诱导的)。调节转录和翻译的基因表示了高达25%的460个探针组,这些基因在细菌感染组中以更高水平表达的。k-NN运算法则鉴定35个能够区分被流感病毒急性感染的患者和被细菌急性感染的患者的基因(图2、表2、和补充表3)。对训练组进行的弃一交差验证正确地将23个样本的21个样本(91%准确性)分为流感病毒A感染的患者组或者:^皮细菌感染的患者的组(图lb)。然后,在独立的样本组(测试组)中—验证被鉴定的能够区分流感病毒A感染和细菌感染的区分能力。第一测试组的患者包括7例新的^皮流感病毒A感染的患者,和30例被细菌感染的患者(7例被肺炎链球菌感染和23例大肠杆菌感染)。在测试组中选择患者时,不考虑患者的年龄或者采用抗生素治疗所用的抗生素的类型(年龄[范围];流感病毒A,4岁[3周-36岁];大肠杆菌,2个月[2月-16岁])。预示性的基因将37个样本中的35个样本正确地进行了分类(95%的准确性)(图lc)。一个样本(INF48)被错误地分类和一个样本的分类不明确(INF120)。然后在第2测试组中评价了35个分类基因,第2测试组包括7例被流感病毒A感染的患者和31例被金黄色葡萄球菌感染的患者,区分的准确率为87%(图ld)。不考虑患者的年龄或者采用抗生素治疗时所使用的抗生素的类型,重新选择测试组(年龄[范围];流感病毒A,4月[3周-36岁];金黄色葡萄球菌,7岁[3个月-15岁])。5例金黄色葡萄球菌样本被错误分类(INF62、INF70、INF89、INF221和INF242)。约三分之一被细菌感染的患者表现出干扰素相关的基因的表达水平升高。然而,这一信号对于分类的结果影响有限,因为从被细菌感染的患者中获得的样本的表达信号特征与流感病毒感染(与细菌感染相比,在流感病毒感染中为低表达的基因)的表达信号特征不互为倒数,并且还部分由于在细菌感染的情况下干扰素可诱导的基因的表达水平较低(图lc)。干扰素可诱导的基因的表达水平的升高可能归因于对备有证明文件的细菌的感染的本身的应答[12],或者归因于对未确诊的或者前述的病毒的感染的应答。因此,宿主对流感病毒的感染和细菌的感染应答的转录信号能够被鉴定。这些信号能够区分这些致病因子。转录信号能够区分被大肠杆菌感染的患者和被金黄色葡萄球菌感染的患者。为了鉴定在被大肠杆菌感染的患者中和在被金黄色葡萄球菌感染的患者中差异表达的基因,选择每组10个患者为训练组。在被大肠杆菌感染的组和被金黄色葡萄球菌感染的组中,平均年龄[范围](分别为2个月[3.5个月-16个月]和12个月[4个月-10岁];P二0.06)没有显著的区别。每一组包括6例用p-内酰胺抗生素治疗的患者和4例用其它抗生素治疗的患者。外周白细胞计数和外周中血细胞类型的相对比例在两组中没有显著的差异(补充表1)。在收集样本前,对于被大肠杆菌感染的组,患者住院的平均天数为2天;而对于被金黄色葡萄球菌感染的组,患者住院的平均天数为4天(P二0.01),出现显著差异的原因可能是由于为了获得确定的微生物诊断结果所需要的时间不同。通过对组之间进行统计比较,产生211个表达水平差异显著的(pO.Ol)基因(补充表4和图3a)。通过实时PCR独立确定所选择的基因的表达水平(图3d和3e)。与被大肠杆菌感染的患者相比,在被金黄色葡萄球菌感染的患者中存在的大量的过表达基因与嗜中性白细胞的活性有关,这些过表达的基因包括编码化学引诱物分子(例如,CXCL1(CXC趋化因子配位体1、GRO-l))和PPIB(亲环素B)的基因[13、14]。此外,基质金属蛋白9(MMP9)在嗜中性外渗和迁移中起了很重要的作用[15];PRG1(分泌的颗粒蛋白聚糖1)参与了颗粒蛋白在人体中的嗜中性白细胞中的包装[16];和ALOX5AP激活了花生四烯酸酯5-脂氧化酶(arachidonate5-lipoxygenase)和延长嗜中性白细胞合成白三烯的能力[17]。最后,最近,嗜中性白细胞被鉴定为在金黄色葡萄球菌感染模型中的S100A8和S100A9(钙粒蛋白A和B,别名为MRP8和14)的主要来源[18]。这些结果可以部分地解释从被大肠杆菌感染的患者和被金黄色葡萄球菌感染的患者中获得的样本中基因表达水平的差异。以前的对患有系统红斑狼疮(SLE)的患者的研究表明,类似的信号可以追溯到存在低密度的未成熟的嗜中性白细胞,在密度梯度离心中,这些未成熟的嗜中性白细胞与单核细胞共同纯化[9]。令人感兴趣的是,从患有SLE(观察结果没有出版)的患者的全血中得到的表达谱中也可以观察到这种相应于更快速的嗜中性白细胞更新速度的"粒细胞生成信号"。鉴定了30种能够区分被大肠杆菌感染的患者和被金黄色葡萄球菌感染的患者的训练组的分类基因(图4和表3以及补充表6)。通过弃一交差-验证,20个样本中有19个样本被正确地分类(95%的准确率)(还可以参见图3b)。一例被金黄色葡萄球菌感染的患者(INF89)被错误分类。用独立组的被金黄色葡萄球菌感染的患者(n-21)和被大肠杆菌感染的患者(『19)对所述分类基因进行验证,独立组的患者是重新选择的,并且在选择时不考虑患者的年龄9岁[l。个月-18岁];被大肠杆菌感染的患者2个^^;周:5^个月])。这30个基因对40个样本中的34个样本进行了正确地分类(85%的准确率;图3c)。2个样本(INF175和INF206)被错误地分类,并且4个样本的分类不明确(INF168、INF220、INF281和INF315)。尽管没有特定模式的错误分类是显然的,但是被金黄色葡萄球菌感染的患者所表现出的临床疾病和严重程度的更大差异性可能对该组患者较低预测准确性产生影响。因此,这些结果表明血液中的白细胞的转录信号能够区分被金黄色葡萄球菌急性感染的患者或者被大肠杆菌急性感染的患者的发病病因。此外,在具有辨别能力的信号中鉴定出了显著的功能集中的信号在被流感病毒A感染的患者的过表达的基因中发现了干扰素可诱导的基因;而与被大肠杆菌感染的患者组相比,在被金黄色葡萄球菌感染的患者组中,与嗜中性白细胞相关的基因以较高的水平表达。能够区分来自被流感病毒A、大肠杆菌、金黄色葡萄球菌或者肺炎链球菌急性感染的患者的样本的基因重叠程度最低。本发明的发明者已经定义了能够区分被流感病毒A感染和被细菌感染的患者的分类基因的组,和能够区分被大肠杆菌感染和被金黄色葡萄球菌感染的患者的分类基因的组。为了完善分类基因组,对能够区分被肺炎链球菌感染的患者的基因的组进行了额外的成对比较和鉴定。通过对被大肠杆菌(11=11)感染的组和被肺炎链球菌(11=11)感染的组进行比较,产生264个差异表达水平显著(PO.01)的基因,和45个分类基因(图4b和4c,以及补充表7和8);通过对训练组进行弃一交差-睑证,对22个样本中的20个样本进行了准确地分类(91%的准确率)。通过对被金黄色葡萄球菌(n=l2)感染的组和被肺炎链球菌(n=11)感染的组进行比较,产生127个差异表达的基因(PO.01)和34个分类基因(图4d和4e,以及补充表9&10)。通过对训练组进行弃一交差验证,对23个样本中的19个样本进行了准确地分类(83%的准确率)。对获得的用于每一个成对分析的分类基因的组进行系统的比较,发现这些分类基因绝大多数都是相互排斥的(图5a)。此外,102个能够区分不同细菌感染的基因中,没有一个基因是区分被流感病毒A感染和被细菌感染所必需的(图5b)。因此,使用独立组的转录信号可以区分多重感染致病病因。由不同的病原体导致的患有急性呼吸性感染的患者具有截然不同的表达模式。在一群具有相同临床表现的患者中检测了基因表达模式。将在整个研究(图5a和5b)中鉴定的分类基因的组混合,然后用于产生患有较下的呼吸道感染的患者亚组的表达模式(表1中所列的27个样本)。从健康的志愿者中收集的7个样本用作对照(表1)。基因和样本的等级聚类鉴定了四种原型表达信号根据PBMC表达谱,健康的对照能够明显区别于所有传染病组。这一发现本身就是值得注意的,因为,用于产生分类基因的训练组中没有一个包括来自健康的志愿者的样本。第二信号与来自被流感病毒A感染的患者的样本相关(包括干扰素可诱导的基因),并且与第三信号显著不同,第三信号的特征在于被金黄色葡萄球菌和肺炎链球菌感染(包括与嗜中性白细胞相关的基因)。由能够区分三大类样本的明显优势的信号可以将这两种革兰氏阳性细菌的区别降低到最小。令人感兴趣的是,有四种样本属于被流感病毒A感染的组和一种属于被金黄色葡萄球菌感染的组可以通过第四信号表征,第四信号组合了前述信号的成分(干扰素可诱导的基因和与嗜中性白细胞相关的基因图5c,由星号表示)。这一发现暗示了至少两种可能情况中的一种l)混合的信号是由于共同感染导致的,这种共同感染不能通过常规的诊断方法检测出来;或者2)对PBMC转录信号的分析可以揭示存在的不同的患者亚组。需要一大群患者以研究这些可能的情况并鉴定潜在的临床含义。进一步研究了5位具有混合信号的患者的病历卡,鉴定了3位被流感病毒(#101、#128和#132)感染的患,这三位患者的放射性检查的结果为肺炎,并且白细胞记数不同,分别属于11%、16%和28%的组。这些证据表明,这3例患者可能存在共同感染。这些证据清楚地表明了在表现相似的症状的患者中可以获得有差别的血液中的白细胞转录模式。在新的独立组的样本中和微阵列平台中可以再现结果。研究设计包括用于鉴定分类基因的训练组(图lb:流感病毒对细菌;『23样本)和用于独立地验证这些发现的测试组(图lc:流感病毒对细菌;11=37样本;和图Id:另外31位被金黄色葡萄球菌感染的患者)。获得自总计91位患者的这些数据是使用AffymetrixU133A和U133BGeneChips产生的。进一步对数据的有效性进行了验证以进一步确定这些发现,并且在另一组患者中采用不同的微阵列平台进行了类似的分析。征集了由22位被流感病毒/细菌急性感染的患者组成的新的一群,并用最新的AffymetrixGeneChips版本(U133plus2.0)分析了PBMC样本。图9a-9c概括了用微阵列平台进行的独立的确证和验证。图9a表示使用AffymetrixU133和2.0GeneChips对来自新的一组被流感病毒(n二10)或被细菌(金黄色葡萄球菌n=6;肺炎链球菌n=6)急性感染的患者分析的结果。使用能够区分被流感病毒A感染和细菌感染的分类基因(35基因,维恩图(Venndiagram),右;图1和补充表3)对所述新的一组样本进行聚类。在图9b中,使用来自图5中的137转录子的列表从包含在图9a中的患有急性呼吸性感染的患者中聚类出14个样本的亚组。图9c表示使用IlluminaSentrixHu6wholegenomeBeadChips对另一独立组的样本(这些样本中没有一个被用于上述任意一个分析中)进行分析所获得的结果,所述样本从新的一组被流感病毒(!1=8)或者被细菌(金黄色葡萄球菌n=13;肺炎链球菌n=3)急性感染的患者中获得的。使用能够区分被流感病毒A感染和被细菌感染的分类基因(35基因,维恩图(Venndiagram),右;图1补充表3)对所述新的一组样本进行聚类。用颜色标准指示改变的表达水平,红色表示与每个基因在所有的供体中的平均表达值相比其表达水平相对较高,蓝色表示与每个本发明几乎能够完美地区分由金黄色葡萄球菌或者肺炎链球菌导致的感染与由流感病毒导致的感染(图9a:—个流感病毒样本被归类到细菌感染组中),并且能够在患有急性呼吸性感染的患者中获得具有区别性能的信号(图9b)。众所周知,微阵列数据很难对完全不同的平台进行比较[19、24-26],然而,本发明4吏用Illumina,swholegenomeSentrixHu6BeadChips只于l斤的一组24个样本进行分析时,能够再一次再现初始结果(图9c:一个来自细菌感染组的样本被聚类到流感样本中)。在这一群体中,只有两位属于被金黄色葡萄球菌或肺炎链球菌感染的组的患者表现急性呼吸性感染。同样地,进行了148个微阵列分析,包括141个微阵列分析是针对于从患有急性感染的患者中收集的样本。除了通过实时PCR进行确证夕卜(图3d),还通过微阵列平台对独立数据的有效性进行验证,结果证实了这些发现的可靠性(robustness)。不同的转录信号能够区分被急性感染的患者和患有自身免疫疾病的患者。在被流感病毒急性感染的患者中发现干扰素可诱导基因为过表达的。以前在系统红斑狼痴的患者的血液中的白细胞中也鉴定出了干扰素信号[9]。其次,检测了在血液中的白细胞的表达模式是否还能区分被流感病毒感染和SLE。将来自SLE患者的样本与他们各自健康的对照组进行比较。类似地,将来自各种传染病组的患者与适当的健康志愿者组进行比较(每组有11位患者流感病毒A、大肠杆菌、金黄色葡萄球菌、肺炎链球菌;对照组为9位健康的志愿者)。对通过每一次比较获得的P值(总共5组患者和它们各自的对照组)进行编辑,并进行共同地分析。这一方法概括了从许多研究和大量的样本中观察到的变化,该方法尤其能够;f艮好地适合于所有的潜在的混淆因素不能解释的情况(例如,在女性中,SLE发病率明显较高)。对显著性模式进行了分析,以评价从被流感病毒感染的组和SLE组中获得的基因表达信号组的各自的对照组相比过^'i或者低表达的转录子(图6,:部)。发现在过表达的转录子中,包括干扰素可诱导的基因的一类(图6:上部-IFN;补充表ll)在被流感病毒感染组和SLE组中均发生显著的变化,但在被细菌感染的患者中没有发生显著的变化。相反,还可能鉴定出在一组中相对于健康的对照发生显著变化(FLU或SLE,p〈0.01)而在另一组中没有发生显著变化(p>0.5;图6,中部和下部)的基因。该方法揭示了疾病特异性的信号(数据未示出)。在图6和补充表1-11中可以发现几类能够独特地表征被流感病毒A感染的患者的信号。这些结果进一步表明血液中的白细胞转录谱的混乱是疾病特异性的。对宿主-病原体微阵列数据集(包括32次研究)进行的概略性比较分析鉴定了普通宿主对感染的转录应答和病原体特异的信号[27]。存在广泛的相似性,例如,在真菌感染、细菌感染或者病毒感染中观察到参与免疫细胞激活和征募中细胞因子和趋化因子的动态的级联30-34。然而,有两个因素有助于对感染产生专一性转录应答1)参与病原体识别的分子机制的多样性;和2)宿主应答被病原体改变。一旦激活,Toll样被体(TLR)家族成员引发信号传导途径,在该途径中,共用相同的成分,但是保留了导致专一性转录应答的独特的特征。因此,观察到在对革兰氏阳性和革兰氏阴性的细菌的应答的定性和定量的区别分别通过TLR2和TLR4识别。此外,还发现对暴露于流感病毒(通过TLR3)、大肠杆菌(通过TLR4)和念珠菌属(通过TLR2/TLR4)的树枝状细胞检测的应答显著不同。由病原体导致的宿主应答程序的改变还明显有助于对感染进行多样性转录应答。如微阵列检测所示,分枝杆菌的产物为,例如,在巨噬细胞中能够抑制干扰素Y诱导的基因调节[28]。类似地,微阵列研究还表明疱瘆病毒、假狂犬病毒、丙型肝炎病毒、水痘-带状疱渗病毒或者鼻病毒能够限制宿主通过各种机制进行有效的抗病毒应答的能力。过去几年积累的大量的实验数据暗示宿主能够对感染发起病原体专一性的转录应答。大量的研究表明当在体外将免疫细胞暴露于各种病原体时,可能引发不同的转录程序[19-22]。在此处,表明在血液中的白细胞的基因表达模式可以用于区分由以下四种不同病原体导致的急性感染流感病毒A、革兰氏阴性细菌、大肠杆菌和革兰氏阳性细菌、金黄色葡萄球菌和肺炎链球菌,这些感染属于导致儿童住院的最普遍的感染。两个参数可以解释观察到的在血液的白细胞的基因表达水平的差异1)转录活性的变化(例如,干扰素可诱导基因的上调)和/或2)血样的细胞组成的变化(例如,嗜中性白细胞信号)。由于这些参数中的一个或者两个所导致的如,细胞因子)的作用直接进行调节。观察到从不同患者组中获得的血样本所细胞组成存在显著的差异。事实上,在临床实践中被大家所接受的常规的白细胞记数以及不同的记数不能区分病毒感染和细胞感染,更不能区分由革兰氏阳性细菌和革兰氏阴性细菌导致的感染。然而,本发明的发明者发现微小的差异可能能够解释观察到的转录信号,如由系统红斑狼疮中的嗜中性白细胞的转录信号所例证,系统红斑狼疮是由于PBMC制剂中存在的低密度的嗜中性白细胞的增加的流出物所导致的。疾病所涉及的位点可能也影响在血液中的白细胞中所观察到的表达谱,并且反应某些种类的病原体对不同感染位点的偏好。例如,大肠杆菌更可能导致尿道感染,而金黄色葡萄球菌最普遍的临床表现是皮肤/软组织感染和骨髓炎。然而,本发明的研究的结果暗示在单一疾病表现的情况下,可以发现独特的表达信号。事实上,当分析来自患有较低呼吸性感染的患者的样本时,观察到由不同的病原体导致的感染中存在明显的区别,这证实了存在与病原体相关的转录信号。在许多临床情况下,鉴定出导致急性传染病的致病因子的能力仍然是相当低的,而血白细胞转录谱分析可能能够改变对传染病的诊断。与微生物培养相反地是,通过血清学分析或者甚至基于PCR的测试,可以迅速且可靠地得到白细胞基因表达语的结果而不需考虑疾病所涉及的位点。这些信息能够迅速地起动适当的抗感染治疗方案并制定适当的控制感染的措施。而且,血白细胞转录分析能够提供关于患者的信息,这些信息可以用于疾病的诊断,并作为用于疾病进展和预后潜在的标记。与通常用作疾病发展的指示剂的炎症标记(例如,白细胞记数、红细胞沉降速度和C-反应蛋白)相比,基因表达阵列提供了全面的分子图,该分子图不仅能够反映组织的相对细胞组成,还能够反映由正在进行的免疫反应和/或病原体暴露导致的基因调节。这些结果证明了血液白细胞中转录信号分析作为一种诊断传染病的辅助方法的价值,该方法不仅能用于单个的现场分析,而且也能用于对急性传染病、慢性传染病或者两者的结果进行检测、确定、评价、预后、诊断和预测。.必需进行大量的多通道研究,以收集并独立地评价大量的样本,最终产生接近常规的临床诊断应用的血液中的白细胞基因表达谱。患者信息。从29位被大肠杆菌感染的患者(平均年龄2个月;年龄范围2周-16岁),31位被金黄色葡萄球菌感染的患者(平均年龄7岁;年龄范围3个月-18岁),13位被肺炎链球菌感染的患者(平均年龄2岁;年龄范围2个月-16岁),1位被流感病毒A感染的患者(平均年龄1.5岁;年龄范围3周-36岁),和7位健康的对照(平均年龄ll个月;年龄范围3个月-22个月)获得血样。按照年龄和抗生素治疗将患者分为训练组和测试组(表1)。所有患有急性感染的受试者以及它们的对照是从达拉斯的儿童医药中心(Children'sMedicalCenterDallas(CMC))征募的。而SLE患者以及他们各自的对照从德克萨斯州苏格兰教会医院(TexasScottishRiteHospital)中征募的。该研究获得了伦理委员会(InstitutionalReviewBoards)的批准,并获得所有患者的知情同意。通过相关组织标本或者血液的标准细菌培养方法,以及直接的荧光抗原测试和病毒培养确定微生物诊断。调研者根据来自微生物实验室数据和住院患者供认的记录的日常基楚鉴定潜在的符合条件的患者。根据病史、临床发现、细菌和病毒培养,以及免疫荧光试验进行第二步,以确定患者是否符合条件。排除怀疑患有(通过临床发现)或确定患有(通过微生物试验)多微生物感染的患者,怀疑具有(通过临床发现)或确定具有(通过微生物试验)免疫缺陷病史的患者,患有慢性疾病或接受类固醇或者其它免疫调节试剂的治疗的患者。患者一旦#1征募,就制定确定的微生物诊断方案。在研究开始后进行系统的检测,以确定是否存在伴随的病毒感染,并且对被细菌感染的73位患者中的60位(82%)进行呼吸性病毒培养。对照样本从预定要进行任选的外科手术的健康的个体和健康的门诊病人中获得。对血样的处理。在儿童医药中心(Children'sMedicalCenterDallas(CMC))或者德克萨斯州苏格兰教会医院(TexasScottishRiteHospital,Dallas,TX),所有的血液收集在酸性柠檬酸盐葡萄糖试管(BDVacutainer)中,随后在室温下立刻送到贝勒免疫研究院(BaylorInstituteforImmunologyResearch,Dallas,TX),以进行处理。通过聚蔗糖梯度离心(Ficollgradient)从3-4ml血液中分离外周血单核细胞(PBMCs),并随后将分离的单核细胞裂解在含有p巯基乙醇(BME)的RLT试剂(Qiagen,Valencia,CA)中,然后由同一组人员将样本保存在在同一实验室的一80。C(在取血后4-6内)下,以使质量符合标准,和进行RNA样本的处理。微阵列分析。按照厂商用法说明,使用RNeasykit(Qiagen,Valencia,CA)分离总RNA,并使用Agilent2100Bioanalyzer(Agilent,PaloAlto,CA)评价RNA的完整性。从2-5微克的总RNA中产生双链cDNA,随后使用AffymetrixRNAtranscriptlabelingkits(AffymetrixInc,SantaClara,CA)在体外用生物素标记的核苷进行单轮转录。按照厂商的标准方法,使用SampleCleanupModule(Affymetrix)对生物素化的cRNA把进行纯化,并随后纟皮杂交到AffymetrixHGU133AGeneChips(该基因芯片含有22,283探针组)上。使用Affymetrix共聚焦激光扫描仪对阵列进行扫描。通过实时PCR确定一组基因的表达结果。实时RT-PCR分析。使用TURBODNA-freekit(AmbionInc.,Austin,TX)对总的RNAs进行第二DNA酶处理。使用Two-CyclecDNASynthesiskit(Affymetrix)合成cDNA,随后在体外进行转录(MEGAscriptT7kit,Ambion,Inc.,Austin,TX)。按照厂商的用法说明,使用AppliedBiosystemsTaqManAssays根据所需要的探针和引物组进行两步RT-PCR。使用HighCapacitycDNAArchiveKit(AppliedBiosystems)进行逆转录6(Reverse6transcription)。4吏用ABIPrism7700SequenceDetectionSystem进4亍实时PCR。从一组含有10个人内源性对照中选择人p-葡萄糖醛酸糖苷酶(GUSB)作为样本中的组成型表达最典型的对照,从而用于标准化的参比基因。按照厂商的用法说明,使用可比较的循环时间(CT)方法计算mRNA相对表达值。在CT方法中,通过以健康的供体的表达值为基准,将给定的患有传染病的患者的表达结果计算为标准化的差别,所述健康的供体的表达值接近所有健康供体的平均值(AACT)。IlluminaBeadChips:这些微阵列由连接到3pm珠上的50mer寡核苦酸探针组成,所述珠被固定在微孔中的载玻片的表面。对样本进行处理,并随后通过IlluminaInc(SanDiego,CA)获取凄t^居。<吏用IlluminaRNAamplificationkit(Ambion,Austin,TX)制备把。将cRNA耙杂交到SentrixHu6BeadChips(>46,000才果针)上,SentrixHu6BeadChips可以用IlluminaBeadStation500进行扫描。使用Illumina,sBeadstudio软件评价荧光杂交信号。将从所有148个分析的样本中获得的原始数据保存到GEO(www.ncbi.nlm.nih.gov/geo/)(登"i己号_)。微阵列数据分析。使用MicroarraySuite,5.0版本(MAS5.0;Affymetrix)软件评价荧光杂交信号,标准化信号,和评价信号检测。通过在MAS5.0中进行的运算法则分析对于每一个探针组的原始信号强度的值。为了最大程度地降低技术上的可变性,在每一天的运行中,最多对八个样本进行随机的杂交和染色。使用MAS5.0全面的方法对每个基因芯片的500的耙强度按比例缩放对每一个芯片的信号值进行标准化。仅对在至少一个被评价的患者类中的在至少75%的基因芯片中获得P(存在)信号的探针组(质量控制探针)进行分析。使用一种基因表达分析软件程序(GeneSpring,Version7.1(Agilent))进行统计的分析、样本的等级聚类和分类。才艮据基因区分预先确定组的患者的能力,使用非参数单变量检验(曼恩-惠特尼(Mann-Whitney)U或费希尔精确检验(Fishersexacttest))对基因进行分级。采用K近邻(K-NearestNeighbors)(kNN)方法确定对预先确定类的病原体具有最高区别能力的基因(即,分类基因)[23]。K近邻(kNN)方法(1)该运算法则通过基因预测能力的强度对基因进行分级,所述强度为通过非参数检验所确定的p值的负自然对数值;和(2)使用弃一交差验证通过从已知样本中系统性除去一个供体以用作测试样本来评价预测错误率(或准确率)。反复进行该过程直到所有的供体都被"检测"。将通过曼恩-惠特尼(Mann-Whitney)U或费希尔精确检验(Fishersexacttest)获得的具有区别能力的基因列表合并,并用于区别不同的样本类别。(3)为了对样本进行分类,根据标准化的表达强度的欧几里得距离,所述运算法则通过测试与未知类样本最接近的已知类的编号得出类别,并计算p值。将具有最低p值的类归入到未知样本中。在所有的区别分析中,p值的截止率(ratiocut-off)为0.5。如果预测类的p值至少低于其它类的p值的2倍,则一个样本属于该类别(例如,流感病毒A类的p值/细菌类的p值)。显著性模式分析。对每一组患者和他们各自的健康对照组之间进行统计比较(曼恩-惠特尼(Mann-Whitney)级别检验)。将发生显著变化的基因(pO.01)分为两组与两个提及的组(FLU和SLE)的对照相比,过表达组和低表达组。通过使用对这些组所选择的标准(例如,对于FLU组,PO.01;对于SLE组,PX).5)鉴定基因组。获得在其它疾病情况下的这些基因的P值(比较组金黄色葡萄球菌、肺炎链球菌、大肠杆菌)。当基因表达的变化与所提及组的基因表达妳变化相反时,将比较组的P值设定为1。使用GeneSpring(7.2版本)(Agilent)对p值数据进行处理,GeneSpring(7.2版本)是根据显著性模式用于对基因进行等级聚类和分组。转录信号能够区分被流感病毒A感染的患者和被细菌感染的患者。使用标准的基因-水平分析,发现可以使用微阵列分析区分病毒感染(流感病毒A感染)和细菌感染(大肠杆菌感染和肺炎链球菌感染),如图IC的图解所示。图1C表示能够区分被流感病毒A感染和被细菌感染的基因表达信号。然后,对在训练组中能够准确区分(准确率为91%(21/23))被流感病毒A感染的患者和被细菌感染(大肠杆菌或金黄色葡萄球菌)的患者的35个分类基因在测试组(11=37)中进行独立地的验证,准确率为95%(35/37)。模块-水平微阵列数据分析。该策略是基于从大的微阵列基因表达数据組(8种疾病,接近250样本x44,000转录子)中最初4是取的28组协同表达的基因(重编接近5000转录子),或者转录模块。随后,将这些模块用作分析用的结构单元,这些结构单元是基于模块-模块实现的首先通过文献分析进行功能的解释,然后对从健康的受试者和患有急性感染的患者中获得的样本进行组间的比较。图7表示可以用于在模块-水平描绘转录变化的基因失量鉴定疾病特异性的模式。根据模块-模块(module-by-module)对患者和未感染的个体之间进行组间的比较。斑点表示在模块中显著过表达(红色)或低表达(蓝色)的百分比。该信息表示在栅格上,其坐标对应于28模块标志中的一个(例如,模块M3.1是第三行与第一列的交叉点)。基因失量和作图方法可以减少噪音水平,并有助于数据的判读。在达拉斯的组也表明通过微阵列平台可以再现模块转录数据。对在患者血液中的诊断性标记的鉴定。在模块-水平对总的转录的变化进行作图有助于解释患者PBMC转录谱。这还能揭示模块变化的疾病专一性组合。如在图7的图解所示,在模块M3.1(干扰素,绿色的圓-分别用红色和蓝色的斑点表示差异过表达或者低表达的转录子的百分比)中比较了由革兰氏阳性细菌和革兰氏阴性细菌导致的变化。在两种革兰氏阳性菌中也发现了区别(图7,橙色的圓)。最令人感兴趣的是,尽管被流感病毒和被RSV(呼吸道合胞病毒)感染的临床症状类似,但是发现在这些病毒感染的患者的模块图谦中存在显著的差异。在被RSV感染的患者中,完全不存在干扰素可诱导的转录子,这与被流感病毒感染的情况显著不同,在被流感病毒感染的患者中,存在强大的干扰素应答(M3.1)。还观察到其它的差别,最为显著的为才莫块M1.4和M1.7(在图7中以紫色突出表示)。疾病严重性的标记的鉴定目前可用于传染病的诊断的工具依赖于对病原体的直接检测(例如,通过培养、染色或PCR)。与这些方法形成对照的是,监测患者免疫细胞的基因表达的变化可以预测疾病的严重性。事实上,模块表达水平(转录子的平均值)与疾病严重性的临床指示相关。在根据U-统计进行多变量分析后后,将与严重性相关(正或负)的模块合并成单一得分(产生"U-得分"-金黄色葡萄球菌和流感病毒的结果如图8所示)。图8表示对患有急性感染的患者进行的疾病严重性评价的微阵列得分。根据U-统计通过多变量分析将模块-水平微阵列表达数据合并为单一得分。这样获得的微阵列得分与通过疾病炎症性相关指示(例如,发烧、低血压、酸中毒)构成的临床得分相关。在训练组中鉴定标记,并在独立患者组(测试组)中技能型验证。这样基于血液的微阵列分析产生的临床信息可以用于(l)确定致病因子;和(2)评价患有急性感染的患者的疾病的严重性。图9a-9c概括了通过微阵列平台进行的独立的确定和马全证。可以理解的是本文描述的特定的实施方案用于例证说明的目的,而不是为了限制本发明。本发明的主要特征可以被用在不同的实施方案中而不超出本发明的范围。本领域的技术人员仅仅使用例行试验将会认识到,或者能够确定许多等价于本文所述的特定方法。这些等价的技术方案被认为属于本发明的范围,并且包含在本发明的权利要求中。在本说明书中所提到的所有的出版物和专利申请可表示本发明所述的
技术领域:
的技术人员的水平。所有的出版物和专利申请引入本文作为参考,引入的程度犹如每一篇出版物或者专利申请具体地且单个地被指出引入本文作为参考。所有在本文中公开的和要求保护的组合物和/或方法可以根据本发明公开内容在没有进行不适当的实验的情况下被制备和被实施行。尽管根据优选的实施方案描述了本发明的组合物和方法,但是各种改变可以用于本文所述的组合物和/或方法中,用于本文所述方法的步骤或步骤的序列中,而不背离本发明的观念、精神实质和范围,这对于本领域的技术人员来说是显而易见是很显然的。所有这种类似的取代和改变被认为属于由附加的权利要求所限定的精神实质、范围和观念中,这对于本领域的技术人员来说是显而易见的。参考文献1.Fauci,A.S.2005.Theglobalchallengeofinfectiousdiseases:theevolvingroleoftheNationalInstitutesofHealthinbasicandclinicalresearch.NatImmunol6:743-747.2.Relman,D.A.2002.Newtechnologies,human-microbeinteractions,andthesearchforpreviouslyunrecognizedpathogens.JInfectDis186Suppl2:S254-258.3.Fauci,A.S.2004.Emerginginfectiousdiseases:aclearandpresentdangertohumanity.Jama292:1887-1888.4.Medzhitov,R.,andC.A.Janeway,Jr.1997.Innateimmunity:thevirtuesofanonclonalsystemofrecognition.Cell91:295-298.5.Medzhitov,R.,andC.Janeway,Jr.2000.Innateimmunerecognition:mechanismsandpathways[InProcessCitation].ImmunolRev173:89-97.6.Alizadeh,A.A.,M.B.Eisen,R,E.Davis,C.Ma,I.S.Lossos,A.Rosenwald,J.C.Boldrick,H.Sabet,T.Tran,X.Yu,J丄Powell,L.Yang,G.E.Marti,T.Moore,J.Hudson,Jr.,L.Lu,D.B.Lewis,R.Tibshirani,G.Sherlock,W.C.Chan,T.C.Greiner,D.D.Weisenburger,J.O.Armitage,R.Warnke,R.Levy,W.Wilson,M.R.Grever,J.C.Byrd,D.Botstein,P.O.Brown,andL.M.Staudt.2000.DistincttypesofdiffuselargeB-celllymphomaidentifiedbygeneexpressionprofiling.Nature403:503-511.7.Golub,T.R.,D.K.Slonim,P.Tamayo,C.Huard,M.Gaasenbeek,J.P.Mesirov,H.Coller,M丄.Loh,J.R.Downing,M.A.Caligiuri,C.D.Bloomfield,andE.S.Lander.1999.Molecularclassificationofcancer:classdiscoveryandclasspredictionbygeneexpressionmonitoring.Science286:531-537.8.vandeVijver,M丄,Y.D.He,L丄van'tVeer,H.Dai,A.A.Hart,D.W.Voskuil,G.J.Schreiber,J.L.Peterse,C.Roberts,M丄Marton,M.Parrish,D.Atsma,A.Witteveen,A.Glas,L.Delahaye,T.vanderVelde,H.Bartelink,S.Rodenhuis,E.T.Rutgers,S.H.Friend,andR.Bernards.2002.Agene-expressionsignatureasapredictorofsurvivalinbreastcancer.NEnglJMed347:1999-2009.9.Bennett,L.,A.K.Palucka,E.Arce,V.Cantrell,J.Borvak,J.Banchereau,andV.Pascual.2003.Interferonandgranulopoiesissignaturesinsystemiclupuserythematosusblood.JExpMed197:711-723.10.Rubins,K.H.,L.E.Hensley,P.B.Jahrling,A.R.Whitney,T.W.Geisbert,J.W.Huggins,A.Owen,J.W.Leduc,P.O.Brown,andD.A.Relman.2004.Thehostresponsetosmallpox:analysisofthegeneexpressionprograminperipheralbloodcellsinanonhumanprimatemodel.ProcNatlAcadSciUSA101:15190-15195.11.Baechler,E.C.,F.M.Batliwalla,G.Karypis,P.M.Gaffney,W.A.Ortmann,K丄Espe,K.B.Shark,W丄Grande,K.M.Hughes,V.Kapur,P.K.Gregersen,andT.W.Behrens.2003.Interferon-induciblegeneexpressionsignatureinperipheralbloodcellsofpatientswithseverelupus.ProcNatlAcadSciUSA100:2610-2615.12.Hoebe,K.,andB.Beutler.2004.LPS,dsRNAandtheinterferonbridgetoadaptiveimmuneresponses:Trif,Tram,andotherTIRadaptorproteins.JEndotoxinRes10:130-136.13.Yurchenko,V.,M.O'Connor,W.W.Dai,H.Guo,B.Toole,B.Sherry,andM.Bukrinsky.2001.CD147isasignalingreceptorforcyclopMinB.BiochemBiophysResCommun288:786-788.14.Geiser,T.,B.Dewald,M.U.Ehrengruber,I.Clark-Lewis,andM.Baggiolini.1993.Theinterleukin-8-relatedchemotacticcytokinesGROalpha,GRObeta,andGROgammaactivatehumanneutrophilandbasophilleukocytes.JBiolChem268:15419-15424.15.Nagaoka,I,,andS.Hirota.2000.Increasedexpressionofmatrixmetalloproteinase-9inneutrophilsinglycogen-inducedperitonealinflammationofguineapigs.InflammRes49:55-62.16.Niemann,C.U.,J.B.Cowland,P.Klausen,J.Askaa,J.Calafat,andN.Borregaard.2004.Localizationofserglycininhumanneutrophilgranulocytesandtheirprecursors.JLeukocBiol76:406-415.17.Pouliot,M.,P.P.McDonald,P.Borgeat,andS.R.McColl.1994.Granulocyte/macrophagecolony-stimulatingfactorstimulatestheexpressionofthe5-lipoxygenase-activatingprotein(FLAP)inhumanneutrophils.JExpMed179:1225-1232.18.Herndon,B丄.,S.Abbasi,D.Bennett,andD.Bamberger.2003.Calcium-bindingproteinsMRP8and14inaStaphylococcusaureusinfectionmodel:roleoftherapy,inflammation,andinfectionpersistence.JLabClinMed141:110-120.19.Chaussabel,D.,R.T.Sem腿i,M.A.McDowell,D.Sacks,A.Sher,andT.B.Nutman.2003.Uniquegeneexpressionprofilesofhumanmacrophagesanddendriticcellstophylogeneticallydistinctparasites.Blood102:672-681.20.Nau,G丄,J.F.Richmond,A.Schlesinger,E.G.Jennings,E.S.Lander,andR.A.Young.2002.Humanmacrophageactivationprogramsinducedbybacterialpathogens.ProcNatlAcadSciUSA99:1503-1508.21.Boldrick,J.C.,A,A.Alizadeh,M.Diehn,S.Dudoit,C丄.Liu,C.E.Belcher,D.Botstein,L.M.Staudt,P.O.Brown,andD.A.Rdman.2002.Stereotypedandspecificgeneexpressionprogramsinhumaninnateimmuneresponsestobacteria.ProcNatlAcadSciUSA99:972-977.22.Huang,Q.,D.Liu,P.Majewski,L.C.Schulte,J.M.Korn,R.A.Young,E.S.Lander,andN.Hacohen.2001.Theplasticityofdendriticcellresponsestopathogensandtheircomponents.Science294:870-875.23.SiliconGeneticsInc.2002.Classprediction.24.BammlerT,BeyerRP,BhattacharyaS,etal.Standardizingglobalgeneexpressionanalysisbetweenlaboratoriesandacrossplatforms.NatMethods.2005;2:351-356.25.IrizarryRA,WarrenD,SpencerF,etal.Multiple-laboratorycomparisonofmicroarrayplatforms.NatMethods.2005;2:345-350.26.LarkinJE,FrankBC,GavrasH,SultanaR,QuackenbushJ.Independenceandreproducibilityacrossmicroarrayplatforms.NatMethods.2005;2:337-344.27.JennerRG,YoungRA.Insightsintohostresponsesagainstpathogensfromtranscriptionalprofiling.NatRevMicrobiol.2005;3:281-294.28.PaiRK,PenniniME,TobianAA,CanadayDH,BoomWH,HardingCV.Prolongedtoll-likereceptorsignalingbyMycobacteriumtuberculosisandits19-kilodaltonlipoproteininhibitsgammainterferon-inducedregulationofselectedgenesinmacrophages.InfectImmun.2004;72:6603-6614.权利要求1.一种鉴定疑似患有传染病的人受试者的方法,该方法包括测定生物标记物的表达水平,所述的生物标记物包括以下的一种或多种基因cig5、DNAPTP6、IFI27、IFI35、IFI44、OAS1、BST2、G1P2、LY6E、MX1、SON、TRIM14、APOBEC3C、C1orf29、FLJ20035、FLJ38348、HSXIAPAF1、KIAA0152、PHACTR2和USP18。2.权利要求1所述的方法,其中,测定表达水平的步骤是通过测量mRNA、蛋白质以及它们的组合的量来进行的。3.权利要求l所述的方法,其中,测定表达水平的步骤是使用在固体支持物上的核酸杂交、寡核苷酸阵列、测序以及它们的组合来进行的。4.权利要求l所述的方法,其中,测定表达水平的步骤是使用cDNA来进行的,所述cDNA是使用从人细胞中收集的mRNA作为模板来制备的。5.权利要求1所述的方法,其中,所述生物标记物包括mRNA水平,并且所述生物标记物是通过选自以下的方法来进行定量的聚合酶链式反应、实时聚合酶链式反应、逆转录酶聚合酶链式反应、杂交、探针杂交、和基因表达阵列。6.权利要求l所述的方法,其中,测定表达水平的步骤是通过使用至少一种选自以下的技术来实现的聚合酶链式反应、异源双链分析、单链构象多态性分析、连接酶链式反应、比较基因组杂交技术、DNA印迹法、RNA印迹法、蛋白质印迹法、酶联免疫吸附测定、荧光共振能量转移和测序。7.权利要求1所述的方法,其中,所述样本包括外周血单核细胞。8.—种鉴定疑似患有传染病的人受试者的方法,该方法包括测定生物标记物的表达水平,所述的生物标记物包括以下的一种或多种基因EEF1G、EIF3S5、EIF3S7、EIF4B、QARS、RPL31、RPL4、PFDN5、CD44、HADHA、PCBP2和dJ507I15丄9.权利要求1所述的方法,其中,测定表达水平的步骤是通过测量mRNA、蛋白质以及它们的组合的量来进行的。10.权利要求1所述的方法,其中,测定表达水平的步骤是使用在固体支持物上的核酸杂交、寡核苷酸阵列、测序以及它们的组合来进行的。11.权利要求1所述的方法,其中,测定表达水平的步骤是使用cDNA来进行的,所述cDNA使用从人细胞中收集的mRNA作为模板来制备的。12.权利要求1所述的方法,其中,所述生物标记物包括mRNA水平,并且所述的生物标记物通过选自以下的方法来定量的聚合酶链式反应、实时聚合酶链式反应、逆转录酶聚合酶链式反应、杂交、探针杂交和基因表达阵列。13.权利要求1所述的方法,其中,测定表达水平的步骤是通过使用至少一种选自以下的技术来实现的聚合酶链式反应、异源双链分析、单链构象多态性分析、连接酶链式反应、比较基因组杂交技术、DNA印迹法、RNA印迹法、蛋白质印迹法、酶联免疫吸附测定、荧光共振能量转移和测序。14.权利要求1所述的方法,其中,所述样本包括外周血单核细胞。15.—种鉴定疑似患有传染病的人受试者的方法,该方法包括通过测定包括一种或多种以下基因的生物标记物的表达水平以区分金黄色葡萄球菌感染和大肠杆菌感染CXCL1、JAG1、RGS2、GAPD、PPIB、PSMA7、MMP9、p44S10、TRAM2、SEC24C、ACTG1、CGI-96、MGC2963和STAU。16.权利要求15所述的方法,其中,测定表达水平的步骤-故用于^r测与金黄色葡萄球菌感染相比较的大肠杆菌感染,所述检测是通过测定包括一种或多种以下基因的生物标记物的表达水平RASA1、SNX4、AF1Q、SMAD2、JUP、PP、MAN1C1、FLJ10287、FLJ20152、LRRN3、SGPP1和UBAP2L。17.权利要求1所述的方法,其中,测定表达水平的步骤是通过测量mRNA、蛋白质以及它们的组合的量进行的。18.权利要求1所述的方法,其中,测定表达水平的步骤是通过在固体支持物上进行核酸的杂交、寡核香酸阵列、测序以及它们的组合进行的。19.权利要求1所述的方法,其中,测定表达水平的步骤是使用cDNA来进行的,所述cDNA是使用从人细胞中收集的mRNA作为模板来制备的。20.权利要求1所述的方法,其中,所述生物标记物包括mRNA水平,并且所述的生物标记物是通过选自如下的方法来定量的聚合酶链式反应、实时聚合酶链式反应、逆转录酶聚合酶链式反应、杂交、探针杂交和基因表达阵列。21.权利要求1所述的方法,其中,所述测定表达水平的步骤是通过使用至少一种选自如下的技术来实现的聚合酶链式反应、异源双链分析、单链构象多态性分析、连接酶链式反应、比较基因组杂交技术、DNA印迹法、RNA印迹法、蛋白质印迹法、酶联免疫吸附测定、焚光共振能量转移和测序。22.权利要求1所述的方法,其中,所述样本包括外周血单核细胞。23.—种鉴定疑似患有传染病的人受试者的方法,该方法包括测定生物标记物的表达水平以区分细菌感染和病毒感染,所述的生物标记物具有一种或多种以下的基因EEF1G、EIF3S5、EIF3S7、EIF4B、QARS、RPL31、RPL4、PFDN5、CD44、HADHA、PCBP2和dJ507115.1。24.—种用于测定样本表型的计算机实现的方法,该方法包括从样本中获得一种或多种探针强度;根据所述探针强度诊断传染病;计算所述探针强度与参比探针强度之间的线性相关系数;和当所述线性相关系数大于阈值时,认为假定的表型为所述样本的表型。25.—种计算机可读介质,该介质包括用于进行样本转录组的测定方法的计算机可执行指令,所述方法包括获得多个样本的探针强度;根据针对六种或更多种的基因的样本探针强度来诊断传染病,所述的六种或更多种基因选自表2、表3、补充表l-ll以及它们的组合中所列出的基因;和计算所述样本探针强度与参比探针强度之间的线性相关系数;并且当所述线性相关系数大于阈值时,认为假定的表型为所述样本的表型。26.权利要求25所述的系统,其中,所述生物标记物选自5、6、7、8、9、10、11、12种或更多种基因。27.权利要求25所述的系统,其中,所述生物标记物选自补充表1-11以及它们的组合中所列的一种或多种基因。28.—种基于计算机的用于创建数据集的方法,所述数据集与在个体中传染病的存在相关联,该方法包括以下的计算机执行步骤从所述个体获得多个基因的探针强度;测定六种或更多种选自表2、表3、补充表1-11以及它们的组合中所列的基因的l笨针强度;和针对所述六种或更多种基因中的每一种基因,计算所述样本探针强度与参比探针强度之间的线性相关系数,其中,所术相关性是通过对六种或更多种基因探针强度进行平均,从而计算与所述传染病的存在或缺失相关联的转录组表达矢量。全文摘要本发明包括使用基因表达数据对宿主免疫应答的程度、类型和性质以及传染病的性质进行早期检测和一致测定的组合物、系统和方法。文档编号C12Q1/68GK101541976SQ200780038103公开日2009年9月23日申请日期2007年8月10日优先权日2006年8月11日发明者A·K·帕吕卡,D·乔萨贝尔,J·F·班彻罗,O·拉米罗申请人:贝勒研究院;德克萨斯州立大学董事会