结直肠癌生物标志物的制作方法_2

文档序号:9713198阅读:来源:国知局
发明的一方面提供了一种获取用于预测微生物群相关异常状态的风险的基因 标志物集的方法,包括:
[0031] a)利用宏基因组关联研究(MGWAS)策略经由以下步骤鉴定异常相关的基因标志 物:
[0032] i)从具有异常状态(异常)和不具有异常状态(对照)的受试者群体中的每个受试 者收集样品;
[0033] i i)提取各个样品的DNA,并对于各个样品构建DNA文库,随后利用高通量测序来获 取测序序列;
[0034] iii)将测序序列定位到基因集上,并基于定位结果获得基因谱;
[0035] iv)对基因谱进行Wilcoxon轶和检验,以鉴定异常和对照之间宏基因组基因含量 的差别;
[0036] b)利用最小冗余-最大关联(mRMR)方法对在步骤a)中鉴定的所有异常相关的基因 标志物进行排序,并从其获得有序的标志物集;
[0037] c)对于每个有序的标志物集,利用留一交叉验证方法(LOOCV)评估线性鉴别分类 器的错误率,选取错误率最低的最优基因标志物集用作预测异常状态风险的基因标志物 集。
[0038] 本发明的又一方面提供了一种诊断受试者是否具有微生物群相关异常状态或者 是否具有形成微生物群相关异常状态的风险的方法,包括:
[0039 ] 1)收集受试者的样品j并提取样品的DNA;
[0040] 2)构建DNA文库,并测序以获取测序序列;
[0041] 3)将测序序列定位到基因集上,并基于定位结果获得基因谱;
[0042] 4)测定基因标志物集中每个基因标志物的基因相对丰度,其中基因标志物集利用 如上所述的方法获得;
[0043] 5)利用下列公式计算样品j的指数:
[0045] Ai j是样品j中标志物i的相对丰度,其中i表示所述基因标志物集的每一个基因标 志物;
[0046] N是所选择的与疾病有关的生物标志物中所有在异常中富集的标志物的子集;
[0047] M是所选择的与疾病有关的生物标志物中所有在对照中富集的标志物的子集;
[0048] INI和|m I分别是这两个子集中生物标志物的数目(大小);
[0049] 其中当指数大于临界值时,表明受试者具有异常状态或者具有形成异常状态的风 险。
[0050] 在一个实施方案中,在本发明的提供的方法中,所述宏基因组关联研究(MGWAS)策 略进一步包括评估错误发现率(FDR)。在一个实施方案中,所述基因集是针对相关微生物群 构建的非冗余基因集。在一个实施方案中,所述与微生物群有关的异常状态是与环境微生 物群,如土壤微生物群,海洋微生物群,或河流微生物群有关的异常状态。在另一个实施方 案中,所述与微生物群有关的异常状态是与动物体或人体如胃肠道、鼻通道、口腔、皮肤或 泌尿生殖道中的微生物群有关的疾病,其中所述样品是粪便样品、鼻腔刮取物、口腔刮取 物,皮肤刮取物或阴道刮取物。在优选的实施方案中,所述与微生物群有关的异常状态是选 自结直肠癌、溃疡性结肠炎、克罗恩氏病、肠易激综合征(IBS)、肠憩室病、痔疮、肛裂和大便 失禁的结肠直肠病。在最优选的实施方案中,所述与微生物群有关的异常状态是结直肠癌 (CRC) 0
[0051] 在一个实施方案中,所述测序步骤是通过第二代测序法或第三代测序法进行的, 优选通过选自Hi seq2000、SOLID、454和单分子测序中的至少一种装置进行。
[0052] 在另一个实施方案中,所述临界值是通过受试者工作特征(ROC)的方法获得的,其 中所述临界值是当AUC(曲线下面积)达到最大值时对应的值。
[0053] 本发明的又一方面提供了一种诊断受试者是否患有结直肠癌或者是否具有形成 结直肠癌的风险的方法,包括:
[0054] 1)收集受试者的奠便样品j并提取样品的DNA;
[0055] 2)构建DNA文库,并测序以获取测序序列;
[0056] 3)将测序序列定位到人肠道基因集上,并基于定位结果获得基因谱;
[0057] 4)测定SEQ ID NOs: 1-31所示的每个标志物的基因相对丰度;和
[0058] 5)利用下列公式计算样品j的指数:
[0060] Aij是样品j中标志物i的相对丰度,其中i表示SEQ ID NOs: 1-31所示的每一个基因 标志物;
[0061] N是所有在患者中富集的标志物的子集并且M是所有在对照中富集的标志物的子 集;
[0062] 其中,在CRC中富集的标志物的子集和在对照中富集的标志物的子集示于表1中;
[0063] I NI和|M I分别是这两个子集中生物标志物的数目(大小);
[0064] 其中当指数大于临界值时,表明受试者具有结直肠癌或者具有形成结直肠癌的风 险。
[0065] 在一个实施方案中,所述临界值是通过受试者工作特征(ROC)方法获得的,其中所 述临界值是当曲线下面积(AUC)达到最大值时对应的值。在一个优选的实施方案中,所述临 界值为-0.0575。
[0066] 本发明的又一方面提供了用于预测受试者中结直肠癌(CRC)风险的基因标志物 集,所述基因标志物集由SEQ ID NOs:1-31所示的基因组成。
[0067] 本发明的又一方面提供了一种用于测定由SEQ ID NOs: 1-31所示的基因组成的基 因标志物集的试剂盒,其包含根据SEQ ID NOs : 1 -31所示的基因设计的用于PCR扩增的引 物。
[0068] 本发明的又一方面提供了一种用于测定由SEQ ID NOs: 1-31所示的基因组成的基 因标志物集的试剂盒,其包含根据SEQ ID NOs: 1-31所示的基因设计的一种或多种探针。 [0069]本发明的又一方面提供了由SEQ ID N0s:l-31所示的基因组成的基因标志物集用 于预测受试者中结直肠癌(CRC)风险的用途。
[0070] 本发明的又一方面提供了由SEQ ID N0s:l-31所示的基因组成的基因标志物集用 于制备预测受试者中结直肠癌(CRC)风险的试剂盒的用途。
[0071] 下面将结合非限制性实施例对本发明进行进一步说明。除非另有说明,份数和百 分比以重量计,温度以摄氏度表示。本领域技术人员将理解,下列实施例虽然指出了本发明 的优选实施方案,但仅以举例说明的方式给出,所用试剂均可以通过商业途径得到。
[0072] 一般方法
[0073] I.检测生物标志物的方法(利用宏基因组关联研究策略检测生物标志物)
[0074]为了定义CRC相关的宏基因组标志物,发明人采用了宏基因组关联研究(MGWAS)策 略(Qin,J.et al.A metagenome-wide association study of gut microbiota in type 2diabetes.Nature 490,55-60(2012),通过引用并入此处)进行分析。发明人采用基于测序 的分析方法对样品中的肠道微生物群进行了定量分析。平均而言,在相似性应2 90%的要 求下,发明人能够将双末端测序序列唯一地定位到更新的基因集上。为了标准化测序覆盖 度,发明人采用相对丰度代替原始测序序列计数来对肠道微生物基因进行定量。然而,与 GWAS亚群校正不同的是,发明人利用该方法分析微生物丰度,而不是基因型。利用Wilcoxon 秩和检验对基因谱进行调整,从而鉴定出在CRC患者和对照中不同的宏基因组基因含量。结 果显示,与零假设的期望分布相比,一组微生物基因的实质富集具有非常小的P值,表明这 些基因是真正的与CRC关联的肠道微生物基因。
[0075]本发明人接下来对分析中的错误发现率(FDR)进行控制,并从与H)R相一致的基因 中定义CRC关联基因标志物。
[0076] II.从生物标志物中筛选31个最优基因标志物的方法(最小冗余-最大关联(mRMR) 特征选择法流程)
[0077] 为了确定一个最优的基因标记物集,发明人利用最小冗余-最大关联(mRMR)(详细 请参考Peng,H. ,Long,F.&Ding,C.Feature selection based on mutual information: criteria of max-dependency,max-relevance,and min-redundancy. IEEE Trans Pattern Anal Mach Intell27,1226-1238,doi:10.1109/TPAMI.2005.159(2005),通过引 用并入此处)特征选择方法从与CRC关联的所有基因标志物中进行筛选。发明人用R软件中 的"sideChannelAttack"工具包进行递增式查找,共得到128个有序的标志物集。对于每个 有序的标志物集,利用留一交叉验证方法(L00CV)评估线性鉴别分类器的错误率。选取错误 率最低的作为最优标志物集。在本发明中,发明人从140455个与CRC关联的基因标志物中进 行特征筛选。由于没有对所有基因进行mRMR分析的计算能力,发明人构建了统计上非冗余 的基因集。首先,发明人将140455个与CRC关联的基因标志物中彼此高度相关(Kendall相关 性>0.9)的基因进行预分组。然后,发明人选取组中最长的基因作为代表基因,由于基因越 长越容易进行功能注释,因此,在进行定位程序时将抓取更多的测序序列。这构建了 15836 个显著基因的非冗余基因集。随后,发明人对15836个显著基因进行mRMR特征筛选,从而确 定出与结直肠癌强关联的31个基因标志物的最优集,用于结直肠癌鉴别,其列于表1中。
[0078] 表1:31个最优基因标志物的富集信息

[00811 III肠道健康指数(CRC指数)
[0082] 为了开发利用肠道微生物群进行疾病鉴别的潜力,发明人基于确定的基因标志物 开发了疾病分类系统。为了利用这些肠道微生物基因标志物对患病风险进行直观地评估, 发明人计算了肠道健康指数(CRC指数)。
[0083] 为了评估肠道宏基因组对CRC的作用,发明人基于上述31个肠道宏基因组标志物 定义和计算了每个个体的肠道健康指数。对于每个个体样品,利用下面公式计算样品j的肠 道健康指数Ij:
[0085 ] Ai j是样品j中基因标志物i的相对丰度。
[0086] N是所选择的与异常状态有关的生物标志物中所有在患者中富集的标志物的子集 (即所选的31个肠道宏基因组标志物中所有在CRC中富集的标志物的子集)。
[0087] M是所选择的与异常状态有关的生物标志物中所有在对照中富集的标志物的子集 (即所选的31个肠道宏基因组标志物中所有在对照中富集的标志物的子集)。
[0088] |N|和|M|分别是这两个集中生物标志物的数目(大小)。
[0089] IV受试者工作特征(ROC)分析
[0090] 基于宏基因组标志物,发明人利用受试者工作特征(ROC)分析评价结直肠癌分类 的的性能。基于上述31个肠道宏基因组标志物,发明人计算每个样品的CRC指数,然后利用R 软件的"Daim"工具包绘制ROC曲
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1