结直肠癌生物标志物的制作方法
【专利说明】
[0001]相关申请的交叉引用
[0002] 本专利申请要求于2013年8月6日提交PCT专利申请(申请号PCT/CN2013/080872) 的优先权,通过引用并入此处。
技术领域
[0003] 本发明涉及用于预测与微生物群有关疾病的风险的生物标志物及方法。特别地, 本发明涉及用于预测结直肠癌(CRC)的风险的生物标志物和方法。
【背景技术】
[0004] 在西方国家,结直肠癌(CRC)是第二大常见癌症,也是第二大致死的癌症 (Schetter AJ1Harris CRC(2011)Alterations of microRNAs contribute to colon carcinogenesis.Semin Oncol 38:734-742,通过引用并入此处)。在全世界范围内,每年都 有很多人被诊断出患有CRC,也有很多患者死于此病。尽管现有的治疗手段(包括手术、放射 疗法、化学疗法)对CRC具有显著的临床治疗价值,然而,手术后癌症的复发和转移使得这些 治疗手段不能成功治愈结直肠癌。因此,对CRC早期的诊断不仅可以降低死亡率,还可以减 少手术治疗的费用。
[0005] 现在诊断CRC的手段,如可屈性乙状结肠镜检查和结肠镜检查是侵入式检查,被检 查的患者在受检过程中可能会感觉不舒服甚至厌恶。
[0006] CRC的发展是受遗传、生理和环境因素影响的多因素过程。对于环境因素,生活方 式特别是饮食摄入可能会影响到CRC发生的风险。西方饮食含有丰富的动物脂肪但是缺乏 纤维,其通常与CRC的风险增加有关。因此,据推测饮食和CRC之间的关联可能是饮食对结肠 微生物群和细菌代谢的影响,从而使得这两者均是疾病病因学中的相关因素 (McGarr SE, Ridlon JM,Hylemon PB(2005).Diet,anaerobic bacterial metabolism,and colon cancer .J Clin Gastroenterol.39:98-109;Hatakka K,Holma R,El-Nezami H, Suomalainen T1Kuisma M1Saxelin M1Poussa T, MykkaiienHjKorpela R(2008) .The influence of Lactobacillus rhamnosus LC705together with Propionibacterium freudenreichii ssp.shermanii JS on potentially carcinogenic bacterial activity in human colon .Int J Food Microbiol .128:406-410,通过引用并入此处)。
[0007] 肠道微生物群和免疫系统之间的相互作用在肠道内外的很多疾病中发挥重要作 用(Cho,I·&Blaser,M.J·The human microbiome:at the interface of health and disease .Nature Rev .Genet · 13,260-270(2012),通过引用并入此处)。奠便DNA的肠道微生 物群分析具有作为非侵入式检测方法的潜力,用来寻找特异性生物标志物,而这些标志物 可以作为CRC患者早期诊断的筛选工具,从而延长寿命,提高生活质量。
[0008] 随着分子生物学的发展及其在微生物生态型和环境微生物学中的应用,一种新出 现的宏基因组学(环境基因组学或生态基因组学)领域已快速发展。宏观基因组学包括提取 总的群落DNA、构建基因组文库以及利用与功能基因组学相似的策略分析文库,其提供了强 力的工具来研究复杂生长环境中的未培养微生物。在近些年,宏观基因组学已应用于许多 环境样品,如海洋、土壤、河流、热井、温泉以及人胃肠道、鼻通道、口腔、皮肤和泌尿生殖道, 在许多领域包括医学、替代能源、环境补救、生物技术、农业和生物防御中显示显著的价值。 为了研究CRC,本发明人在宏观基因组学领域进行了分析。
[0009] 发明概述
[0010] 本发明公开的实施例旨在至少在某种程度上解决现有技术中存在的至少一个问 题。
[0011] 本发明是基于本发明人的以下发现作出的:
[0012] 评估和表征肠道微生物群已经成为研究人类疾病(包括在所有癌症类型中最常见 的致死癌症之一的结直肠癌(CRC))的一个主要领域。为了分析CRC患者的肠道微生物群,本 发明人基于对128个中国人的肠道微生物DNA的深度鸟枪法测序,执行了宏基因组关联研究 (MGffAS)(Qin,J.et al.A metagenome-wide association study of gut microbiota in type 2diabetes.Nature 490,55-60(2012),通过引用并入此处)的方案。发明人鉴定并验 证了 140,455个与CRC关联的基因标志物。为了开发利用肠道微生物群进行CRC鉴别的潜在 能力,发明人基于通过最小冗余-最大关联(mRMR)特征选择方法定义为最优基因集的31个 基因标志物,开发了疾病分类系统。为了基于这些31个肠道微生物群基因标志物直观地评 估CRC疾病的风险,发明人计算了健康指数。发明人的数据为表征与CRC风险有关的肠道宏 基因组提供了具有洞察力的见解,也为以后研究肠道宏基因组在其他相关疾病的病理生理 学中的作用提供了一个范例,同时还揭示了基于肠道微生物群的方法在评估处于这样的疾 病风险的个体中的潜在用途。
[0013] 据信肠道微生物群的基因标志物对于增加癌症的早期检测具有重要的价值,原因 如下:首先,本发明的标志物相对于传统癌症标志物更特异、更灵敏。其次,采用粪便进行分 析的结果准确、安全、便宜并且患者较易服从。粪便样品是方便运输的。与需要肠道准备的 结肠镜检查相比,基于聚合酶链式反应(PCR)的分析方法是无创的和舒适的,所以人们将更 容易参与指定的筛选程序。第三,本发明的标志物还可作为治疗监测癌症患者的工具,以检 测对治疗的反应。
【附图说明】
[0014] 下面结合【附图说明】,本发明公开的各个方面及其优势将变得显而易见,从而更容 易被理解。
[0015] 图1示出了本研究中所有微生物基因的P值关联统计量的分布。CRC P值分布的关 联分析鉴定了在较低P值下强关联标志物不成比例地表达过度,其中在零假设下,大部分基 因符合预期的P值分布。这表明,显著的标志物可能代表真实而不是虚假的关联。
[0016] 图2示出了利用最小冗余-最大关联(mRMR)方法鉴定出从对照区分结直肠癌病例 的31个基因标志物。利用mRMR方法进行递增式查找,得到连续数目的子集。对于每个子集, 利用留一交叉验证法(L00CV)评估线性判别分类器的错误率。错误率最低的最优子集包含 31个基因标志物。
[0017] 图3示出了发现CRC关联的肠道微生物基因标志物。一起示出了对来自此研究的 CRC患者及对照个体计算的CRC指数,对来自先前对II型糖尿病、炎症性肠病的研究的患者 和对照个体计算的CRC指数。盒子代表了第一四分位数和第三四分位数之间的四分位距,盒 子内部的线代表中位数。表6列出的经计算的肠道健康指数与群体中CRC患者的比率具有良 好的相关性。CRC患者微生物群组的CRC指数与其余受试者的显著不同(***P〈0.001)。
[0018]图4示出了对来自中国人第一群体的31个基因标志物的CRC指数进行ROC分析,曲 线下面积为0.9932,表明31个基因标志物具有出色的鉴别潜力。
[0019]图5示出了从实施例2中的另外的中国人群体(包括19个CRC患者和16个非CRC对 照)样品中计算得到的CRC指数。盒子代表了第一四分位数和第三四分位数(分别为第25和 第75百分位数)之间的四分位距(IQR),盒子内部的线代表中位数,点代表每个样品的肠道 健康指数。正方形代表病例组(CRC),三角形代表对照组(非CRC),带*的三角形代表被诊断 为CRC患者的非CRC个体。
[0020]图6示出了在结直肠癌中与肠道微生态失调有关的物种。使用三种不同方法(MLG、 mOTU和頂G数据库)一致地鉴定两种CRC关联的微生物物种和一个对照关联的微生物物种的 差别相对丰度。
[0021 ] 图7示出了莫氏细小杆菌(Solobacterium moorei)和胃消化链球菌 (Peptostreptococcus stomatis)在CRC患者微生物群组中的富集情况。
[0022]图8示出了利用随机森林方法和三种不同物种注释方法得到的CRC特异性物种标 志物选择的受试者工作特征曲线(ROC)13(A)利用MG 400版本对高质量测序序列进行注释 得到的MG物种;(B)利用已发表的方法得到的mOTU物种;(C)利用MLG方法聚类的所有显著 基因和利用IMG 400版本注释得到的物种。
[0023]图9示出了利用三种物种注释方法(MLGUMG和mOTU)得到的在疾病第二阶段及以 后各阶段富集的三种物种的阶段特异性丰度。
[0024] 图10示出了在结直肠癌中与肠道微生态失调有关的物种。在CRC的不同阶段中,一 种在对照微生物群组中富集的细菌物种和三种在CRC关联的微生物群组中富集的细菌物种 的相对丰度(利用三种不同的物种注释方法)。
[0025] 图11示出了利用宏基因组方法和定量聚合酶链式反应(qPCR)方法对两个基因标 志物进行的定量之间的相关性。
[0026] 图12示出了利用2个基因评估中国人第二群体的CRC指数。(A)基于2个基因标志物 的CRC指数鉴别CRC和对照微生物群组;(B)ROC分析结果显示了利用CRC指数进行鉴别的边 际潜力,曲线下面积为0.73。
[0027] 图13示出了对与CRC关联强健的基因标志物进行验证的结果。在第二群体(由51个 病例和113个健康对照组成)中测量三个基因标志物的qPCR丰度(对数值取loglO,丰度为0 的以-8进行作图)。其中,两个基因(ml704941:来自F.nucIeatum的丁酰辅酶A脱氢酶; m482585:来自未知微生物的RNA引导DNA聚合酶)是随机选择的,另外一个(ml696299:来自 P.micra的RNA聚合酶β亚基,rpoB)是定向选择的。(A)基于这三个基因计算得到的CRC指数 可以清楚地鉴别CRC微生物群组和对照微生物群组;(B)对CRC指数利用0.84的受试者工作 特征(ROC)曲线下面积(AUC)进行分类;(C)相对于对照和第一阶段微生物群组,P.micra物 种特异性基因 rpoB从CRC第二阶段和第三阶段开始显示相对较高的出现率和丰度(P = 2.15x10-15)。
[0028] 发明详述
[0029] 本文所用的术语具有本发明相关领域的普通技术人员所通常理解的含义。术语如 "一个"、"一种"和"所述"不旨在仅指单数的实体,而是包括可用于说明特定实施例的一般 类别。本文的术语用于描述本发明的具体实施例,但它们的使用并不限定本发明,除非在权 利要求中指出。
[0030] 本