继续申请数据
本申请要求2018年5月25日提交的美国临时申请序列号62/676,436和2019年5月15日提交的美国临时申请序列号62/848,219的权益,将每份申请所有内容通过引用并入本文。
本发明总体上涉及用于妊娠并发症先兆子痫的检测和早期风险评估的方法和材料。
背景技术:
先兆子痫是仅在妊娠期间发生的病症,影响5%至8%所有妊娠者。它是造成10%-15%孕产妇死亡和40%胎儿死亡的直接病因。先兆子痫的三个主要症状可能包括妊娠第20周后出现高血压、手脚肿胀以及尿液中蛋白过多(蛋白尿)。先兆子痫的其他体征和症状可能包括严重头痛、视力变化(包括暂时性视力丧失、视力模糊或光线敏感)、恶心或呕吐、尿量减少、血小板水平降低(血小板减少症)、肝功能受损和由肺中液体引起的呼吸短促。
先兆子痫越严重,妊娠期越早发生,母婴的风险就越大。先兆子痫可能需要人工引产和分娩或通过剖宫产分娩。如果不及时治疗,先兆子痫会导致母婴严重甚至致命的并发症。先兆子痫的并发症包括胎儿生长受限、低出生体重、早产、胎盘早剥、hellp综合征(溶血、肝酶升高和低血小板计数综合征)、子痫(先兆子痫的一种严重形式,导致癫痫发作)、器官损伤(包括肾、肝、肺、心脏或眼睛损伤)、中风或其他脑损伤。参见,例如,“preeclampsia-symptomsandcauses-mayoclinic[先兆子痫-症状和病因-梅奥诊所]”,2018年4月3日,可在万维网mayoclinic.org/diseases-conditions/preeclampsia/symptoms-causes/syc-20355745上找到。
在早期检测和治疗情况下,如果早期检测到先兆子痫并用常规的产前护理进行治疗,则大多数妇女可以分娩出健康的婴儿。尽管各种蛋白质生物标志物在症状前阶段在母体血清中显示出变化的水平,但这些生物标志物对个别患者缺乏判别和预测能力(karumanchi和granger,2016,hypertension[高血压];67(2):238-242)。因此,鉴定用于先兆子痫的早期检测的生物标志物对于先兆子痫的早期诊断和治疗是至关重要的。
技术实现要素:
本发明包括一种在孕妇中检测先兆子痫和/或确定先兆子痫风险增加的方法,所述方法包括:
在从所述孕妇获得的生物样品中鉴定多个循环rna(c-rna)分子;
其中多个c-rna分子选自:
(a)编码蛋白质中的至少一部分的多个c-rna分子,所述c-rna分子选自arrdc2、jun、skil、atp13a3、pde8b、gsta3、pappa2、tiparp、lep、rgp1、usp54、clec4c、mrps35、arhgef25、cux2、heatr9、fstl3、ddi2、zmym6、st6galnac3、gbp2、nes、etv3、adam17、atoh8、slc4a3、traf3ip1、ttc21a、heg1、aste1、tmem108、enc1、scamp1、arrdc3、slc26a2、slit3、clic5、tnfrsf21、ppp1r17、tpst1、gatsl2、spdye5、hipk2、mtrnr2l6、clcn1、gins4、crh、c10orf2、trub1、prg2、acy3、far2、cd63、ckap4、tpcn1、rnf6、thtpa、fos、parn、orai3、elmo3、smpd3、serpinf1、tmem11、psmd11、ebi3、clec4m、ccdc151、cpamd8、cnfn、lilra4、ada、c22orf39、pi4kap1和arfgap3中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、多达所有七十五种;或
(b)编码蛋白质中的至少一部分的多个c-rna分子,所述c-rna分子选自timp4、flg、htra4、amph、lcn6、crh、tead4、arms2、pappa2、sema3g、adamts1、alox15b、slc9a3r2、timp3、igfbp5、hspa12b、clec4c、krt5、prg2、prx、arhgef25、adamts2、daam2、fam107a、lep、nes和vsig4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、任二十六种或更多种或所有二十七种;或
(c)编码蛋白质中的至少一部分的多个c-rna分子,所述c-rna分子选自cyp26b1、irf6、myh14、podxl、ppp1r3c、sh3rf2、tmc7、znf366、adcy1、c6、fam219a、hao2、igip、il1r2、ntrk2、sh3pxd2a、ssuh2、sult2a1、fmo3、fstl3、gata5、htra1、c8b、h19、mn1、nfe2l1、prdm16、ap3b2、emp1、flnc、stag3、cpb2、tenc1、rp1l1、a1cf、npr1、tek、errfi1、arhgef15、cd34、rspo3、alpk3、samd4a、zcchc24、leap2、myl2、nrg3、zbtb16、serpina3、aqp7、srpx、uaca、ano1、fkbp5、scn5a、ptpn21、cacna1c、erg、sox17、wwtr1、aif1l、ca3、hrg、tat、aqp7p1、adra2c、synpo、fn1、gpr116、krt17、azgp1、bcl6b、kif1c、clic5、gpr4、gja5、olah、c14orf37、zeb1、jag2、kif26a、apold1、pnmt、myom3、pitpnm3、timp4、htra4、amph、lcn6、crh、tead4、arms2、pappa2、sema3g、adamts1、alox15b、slc9a3r2、timp3、igfbp5、hspa12b、prg2、prx、arhgef25、adamts2、daam2、fam107a、lep、nes、vsig4、hbg2、cadm2、lamp5、ptgdr2、nomo1、nxf3、pld4、bpifb3、pacsin1、cux2、flg、clec4c和krt5中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、多达所有一百二十二种;或
(d)编码蛋白质中的至少一部分的多个c-rna分子,所述c-rna分子选自vsig4、adamts2、nes、fam107a、lep、daam2、arhgef25、timp3、prx、alox15b、hspa12b、igfbp5、clec4c、slc9a3r2、adamts1、sema3g、krt5、amph、prg2、pappa2、tead4、crh、pitpnm3、timp4、pnmt、zeb1、apold1、pld4、cux2和htra4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、任二十六种或更多种、任二十七种或更多种、任二十八种或更多种、任二十九种或更多种、或所有三十种;或
(e)编码蛋白质中的至少一部分的多个c-rna分子,所述c-rna分子选自adamts1、adamts2、alox15b、amph、arhgef25、celf4、daam2、fam107a、hspa12b、htra4、igfbp5、kcna5、krt5、lcn6、lep、lrrc26、nes、olah、pacsin1、pappa2、prx、ptgdr2、sema3g、slc9a3r2、timp3和vsig4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、或所有二十六种;或
(f)编码蛋白质中的至少一部分的多个c-rna分子,所述c-rna分子选自adamts1、adamts2、alox15b、arhgef25、celf4、daam2、fam107a、htra4、igfbp5、kcna5、krt5、lcn6、lep、lrrc26、nes、olah、prx、ptgdr2、sema3g、slc9a3r2、timp3和vsig4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、或所有二十二种;或
(g)编码蛋白质中的至少一部分的多个c-rna分子,所述c-rna分子选自clec4c、arhgef25、adamts2、lep、arrdc2、skil、pappa2、vsig4、arrdc4、crh和nes中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、或所有十一种(包括在一些实施例中,adamts2、arhgef25、arrdc2、clec4c、lep、pappa2和vsig4中的七种;adamts2、arhgef25、arrdc2、clec4c、lep、pappa2、skil和vsig4中的八种;adamts2、arhgef25、arrdc4、clec4c、lep、nes、skil和vsig4中的八种;adamts2、arhgef25、arrdc2、arrdc4、clec4c、crh、lep、pappa2、skil和vsig4中的十种;adamts2、arhgef25、arrdc2、clec4c、lep和skil中的六种;或adamts2、arhgef25、arrdc2、arrdc4、clec4c、lep、pappa2和skil中的八种);或
(h)编码蛋白质中的至少一部分的多个c-rna分子,所述c-rna分子选自lep、pappa2、kcna5、adamts2、myom3、atp13a3、arhgef25、ada、htra4、nes、crh、acy3、pld4、sct、nox4、pacsin1、serpinf1、skil、sema3g、tiparp、lrrc26、phex、lilra4和per1中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、或所有二十四种
其指示所述孕妇先兆子痫和/或先兆子痫的风险增加。
本发明包括一种在孕妇中检测先兆子痫和/或确定先兆子痫风险增加的方法,所述方法包括:
从所述孕妇获得生物样品;
从所述生物样品中纯化循环rna(c-rna)分子群体;
鉴定由所述纯化的c-rna分子群体中的所述c-rna分子编码的蛋白质编码序列;
其中编码蛋白质中的至少一部分的由c-rna分子编码的蛋白质编码序列选自:
(a)arrdc2、jun、skil、atp13a3、pde8b、gsta3、pappa2、tiparp、lep、rgp1、usp54、clec4c、mrps35、arhgef25、cux2、heatr9、fstl3、ddi2、zmym6、st6galnac3、gbp2、nes、etv3、adam17、atoh8、slc4a3、traf3ip1、ttc21a、heg1、aste1、tmem108、enc1、scamp1、arrdc3、slc26a2、slit3、clic5、tnfrsf21、ppp1r17、tpst1、gatsl2、spdye5、hipk2、mtrnr2l6、clcn1、gins4、crh、c10orf2、trub1、prg2、acy3、far2、cd63、ckap4、tpcn1、rnf6、thtpa、fos、parn、orai3、elmo3、smpd3、serpinf1、tmem11、psmd11、ebi3、clec4m、ccdc151、cpamd8、cnfn、lilra4、ada、c22orf39、pi4kap1和arfgap3中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、任五十种或更多种、任七十种或更多种、或所有七十五种;或
(b)timp4、flg、htra4、amph、lcn6、crh、tead4、arms2、pappa2、sema3g、adamts1、alox15b、slc9a3r2、timp3、igfbp5、hspa12b、clec4c、krt5、prg2、prx、arhgef25、adamts2、daam2、fam107a、lep、nes和vsig4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、任二十六种或更多种或所有二十七种;或
(c)cyp26b1、irf6、myh14、podxl、ppp1r3c、sh3rf2、tmc7、znf366、adcy1、c6、fam219a、hao2、igip、il1r2、ntrk2、sh3pxd2a、ssuh2、sult2a1、fmo3、fstl3、gata5、htra1、c8b、h19、mn1、nfe2l1、prdm16、ap3b2、emp1、flnc、stag3、cpb2、tenc1、rp1l1、a1cf、npr1、tek、errfi1、arhgef15、cd34、rspo3、alpk3、samd4a、zcchc24、leap2、myl2、nrg3、zbtb16、serpina3、aqp7、srpx、uaca、ano1、fkbp5、scn5a、ptpn21、cacna1c、erg、sox17、wwtr1、aif1l、ca3、hrg、tat、aqp7p1、adra2c、synpo、fn1、gpr116、krt17、azgp1、bcl6b、kif1c、clic5、gpr4、gja5、olah、c14orf37、zeb1、jag2、kif26a、apold1、pnmt、myom3、pitpnm3、timp4、htra4、amph、lcn6、crh、tead4、arms2、pappa2、sema3g、adamts1、alox15b、slc9a3r2、timp3、igfbp5、hspa12b、prg2、prx、arhgef25、adamts2、daam2、fam107a、lep、nes、vsig4、hbg2、cadm2、lamp5、ptgdr2、nomo1、nxf3、pld4、bpifb3、pacsin1、cux2、flg、clec4c和krt5中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、任五十种或更多种、任七十五种或更多种、任一百种或更多种、或所有一百二十二种;或
(d)vsig4、adamts2、nes、fam107a、lep、daam2、arhgef25、timp3、prx、alox15b、hspa12b、igfbp5、clec4c、slc9a3r2、adamts1、sema3g、krt5、amph、prg2、pappa2、tead4、crh、pitpnm3、timp4、pnmt、zeb1、apold1、pld4、cux2和htra4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、任二十六种或更多种、任二十七种或更多种、任二十八种或更多种、任二十九种或更多种、或所有三十种;或
(e)adamts1、adamts2、alox15b、amph、arhgef25、celf4、daam2、fam107a、hspa12b、htra4、igfbp5、kcna5、krt5、lcn6、lep、lrrc26、nes、olah、pacsin1、pappa2、prx、ptgdr2、sema3g、slc9a3r2、timp3和vsig4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、或所有二十六种;或
(f)adamts1、adamts2、alox15b、arhgef25、celf4、daam2、fam107a、htra4、igfbp5、kcna5、krt5、lcn6、lep、lrrc26、nes、olah、prx、ptgdr2、sema3g、slc9a3r2、timp3和vsig4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、或所有二十二种;或
(g)clec4c、arhgef25、adamts2、lep、arrdc2、skil、pappa2、vsig4、arrdc4、crh和nes中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、或所有十一种(包括在一些实施例中,adamts2、arhgef25、arrdc2、clec4c、lep、pappa2和vsig4中的七种;adamts2、arhgef25、arrdc2、clec4c、lep、pappa2、skil和vsig4中的八种;adamts2、arhgef25、arrdc4、clec4c、lep、nes、skil和vsig4中的八种;adamts2、arhgef25、arrdc2、arrdc4、clec4c、crh、lep、pappa2、skil和vsig4中的十种;adamts2、arhgef25、arrdc2、clec4c、lep和skil中的六种;或adamts2、arhgef25、arrdc2、arrdc4、clec4c、lep、pappa2和skil中的八种);或
(h)lep、pappa2、kcna5、adamts2、myom3、atp13a3、arhgef25、ada、htra4、nes、crh、acy3、pld4、sct、nox4、pacsin1、serpinf1、skil、sema3g、tiparp、lrrc26、phex、lilra4和per1中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、或所有二十四种
其指示所述孕妇先兆子痫和/或先兆子痫的风险增加。
在一些方面,鉴定由所述生物样品内的c-rna分子编码的蛋白质编码序列包括杂交、逆转录酶pcr、微阵列芯片分析或测序。
在一些方面,鉴定由所述生物样品内的c-rna分子编码的蛋白质编码序列包括测序,包括例如大规模平行测序克隆扩增的分子和/或rna测序。
在一些方面,该方法进一步包括从生物样品中去除完整细胞;用脱氧核酸酶(dna酶)处理所述生物样品以去除无细胞dna(cfdna);由所述生物样品中的c-rna分子合成互补dna(cdna);和/或通过外显子富集来富集编码蛋白质的dna序列的所述cdna序列,然后鉴定由所述循环rna(c-rna)分子编码的蛋白质编码序列。
本发明包括一种在孕妇中检测先兆子痫和/或确定先兆子痫风险增加的方法,所述方法包括:
从所述孕妇获得生物样品;
从所述生物样品中去除完整细胞;
用脱氧核酸酶(dna酶)处理所述生物样品以去除无细胞dna(cfdna);
由所述生物样品中的rna分子合成互补dna(cdna);
富集编码蛋白质的dna序列的所述cdna序列(外显子富集);
对所述所得的富集cdna序列进行测序;以及
鉴定由富集的c-rna分子编码的蛋白质编码序列;
其中编码蛋白质中的至少一部分的由所述c-rna分子编码的蛋白质编码序列选自:
(a)arrdc2、jun、skil、atp13a3、pde8b、gsta3、pappa2、tiparp、lep、rgp1、usp54、clec4c、mrps35、arhgef25、cux2、heatr9、fstl3、ddi2、zmym6、st6galnac3、gbp2、nes、etv3、adam17、atoh8、slc4a3、traf3ip1、ttc21a、heg1、aste1、tmem108、enc1、scamp1、arrdc3、slc26a2、slit3、clic5、tnfrsf21、ppp1r17、tpst1、gatsl2、spdye5、hipk2、mtrnr2l6、clcn1、gins4、crh、c10orf2、trub1、prg2、acy3、far2、cd63、ckap4、tpcn1、rnf6、thtpa、fos、parn、orai3、elmo3、smpd3、serpinf1、tmem11、psmd11、ebi3、clec4m、ccdc151、cpamd8、cnfn、lilra4、ada、c22orf39、pi4kap1和arfgap3中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、多达所有七十五种;或
(b)timp4、flg、htra4、amph、lcn6、crh、tead4、arms2、pappa2、sema3g、adamts1、alox15b、slc9a3r2、timp3、igfbp5、hspa12b、clec4c、krt5、prg2、prx、arhgef25、adamts2、daam2、fam107a、lep、nes和vsig4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、任二十六种或更多种或所有二十七种;或
(c)cyp26b1、irf6、myh14、podxl、ppp1r3c、sh3rf2、tmc7、znf366、adcy1、c6、fam219a、hao2、igip、il1r2、ntrk2、sh3pxd2a、ssuh2、sult2a1、fmo3、fstl3、gata5、htra1、c8b、h19、mn1、nfe2l1、prdm16、ap3b2、emp1、flnc、stag3、cpb2、tenc1、rp1l1、a1cf、npr1、tek、errfi1、arhgef15、cd34、rspo3、alpk3、samd4a、zcchc24、leap2、myl2、nrg3、zbtb16、serpina3、aqp7、srpx、uaca、ano1、fkbp5、scn5a、ptpn21、cacna1c、erg、sox17、wwtr1、aif1l、ca3、hrg、tat、aqp7p1、adra2c、synpo、fn1、gpr116、krt17、azgp1、bcl6b、kif1c、clic5、gpr4、gja5、olah、c14orf37、zeb1、jag2、kif26a、apold1、pnmt、myom3、pitpnm3、timp4、htra4、amph、lcn6、crh、tead4、arms2、pappa2、sema3g、adamts1、alox15b、slc9a3r2、timp3、igfbp5、hspa12b、prg2、prx、arhgef25、adamts2、daam2、fam107a、lep、nes、vsig4、hbg2、cadm2、lamp5、ptgdr2、nomo1、nxf3、pld4、bpifb3、pacsin1、cux2、flg、clec4c和krt5中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、多达所有一百二十二种;或
(d)vsig4、adamts2、nes、fam107a、lep、daam2、arhgef25、timp3、prx、alox15b、hspa12b、igfbp5、clec4c、slc9a3r2、adamts1、sema3g、krt5、amph、prg2、pappa2、tead4、crh、pitpnm3、timp4、pnmt、zeb1、apold1、pld4、cux2和htra4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、任二十六种或更多种、任二十七种或更多种、任二十八种或更多种、任二十九种或更多种、或所有三十种;或
(e)adamts1、adamts2、alox15b、amph、arhgef25、celf4、daam2、fam107a、hspa12b、htra4、igfbp5、kcna5、krt5、lcn6、lep、lrrc26、nes、olah、pacsin1、pappa2、prx、ptgdr2、sema3g、slc9a3r2、timp3和vsig4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、或所有二十六种;或
(f)adamts1、adamts2、alox15b、arhgef25、celf4、daam2、fam107a、htra4、igfbp5、kcna5、krt5、lcn6、lep、lrrc26、nes、olah、prx、ptgdr2、sema3g、slc9a3r2、timp3和vsig4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、或所有二十二种;或
(g)clec4c、arhgef25、adamts2、lep、arrdc2、skil、pappa2、vsig4、arrdc4、crh和nes中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、或所有十一种(包括在一些实施例中,adamts2、arhgef25、arrdc2、clec4c、lep、pappa2和vsig4中的七种;adamts2、arhgef25、arrdc2、clec4c、lep、pappa2、skil和vsig4中的八种;adamts2、arhgef25、arrdc4、clec4c、lep、nes、skil和vsig4中的八种;adamts2、arhgef25、arrdc2、arrdc4、clec4c、crh、lep、pappa2、skil和vsig4中的十种;adamts2、arhgef25、arrdc2、clec4c、lep和skil中的六种;或adamts2、arhgef25、arrdc2、arrdc4、clec4c、lep、pappa2和skil中的八种);或
(h)lep、pappa2、kcna5、adamts2、myom3、atp13a3、arhgef25、ada、htra4、nes、crh、acy3、pld4、sct、nox4、pacsin1、serpinf1、skil、sema3g、tiparp、lrrc26、phex、lilra4和per1中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、或所有二十四种
其指示所述孕妇先兆子痫和/或先兆子痫的风险增加。
本发明包括一种鉴定与先兆子痫风险增加相关的循环rna标识的方法,所述方法包括从孕妇获得生物样品;从所述生物样品中去除完整细胞;用脱氧核酸酶(dna酶)处理所述生物样品以去除无细胞dna(cfdna);由所述生物样品中的rna分子合成互补dna(cdna);富集编码蛋白质的dna序列的所述cdna序列(外显子富集);对所述所得的富集cdna序列进行测序;以及鉴定由富集的c-rna分子编码的蛋白质编码序列。
本发明包括一种方法,该方法包括:
从所述孕妇获得生物样品;
从所述生物样品中去除完整细胞;
用脱氧核酸酶(dna酶)处理所述生物样品以去除无细胞dna(cfdna);
由所述生物样品中的rna分子合成互补dna(cdna);
富集编码蛋白质的dna序列的所述cdna序列(外显子富集);
对所述所得的富集cdna序列进行测序;以及
鉴定由所述富集的c-rna分子编码的蛋白质编码序列;
其中蛋白质编码序列包括选自以下的蛋白质的至少一部分:
(a)arrdc2、jun、skil、atp13a3、pde8b、gsta3、pappa2、tiparp、lep、rgp1、usp54、clec4c、mrps35、arhgef25、cux2、heatr9、fstl3、ddi2、zmym6、st6galnac3、gbp2、nes、etv3、adam17、atoh8、slc4a3、traf3ip1、ttc21a、heg1、aste1、tmem108、enc1、scamp1、arrdc3、slc26a2、slit3、clic5、tnfrsf21、ppp1r17、tpst1、gatsl2、spdye5、hipk2、mtrnr2l6、clcn1、gins4、crh、c10orf2、trub1、prg2、acy3、far2、cd63、ckap4、tpcn1、rnf6、thtpa、fos、parn、orai3、elmo3、smpd3、serpinf1、tmem11、psmd11、ebi3、clec4m、ccdc151、cpamd8、cnfn、lilra4、ada、c22orf39、pi4kap1和arfgap3中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种、多达所有七十五种;或
(b)timp4、flg、htra4、amph、lcn6、crh、tead4、arms2、pappa2、sema3g、adamts1、alox15b、slc9a3r2、timp3、igfbp5、hspa12b、clec4c、krt5、prg2、prx、arhgef25、adamts2、daam2、fam107a、lep、nes和vsig4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、任二十六种或更多种或所有二十七种;或
(c)cyp26b1、irf6、myh14、podxl、ppp1r3c、sh3rf2、tmc7、znf366、adcy1、c6、fam219a、hao2、igip、il1r2、ntrk2、sh3pxd2a、ssuh2、sult2a1、fmo3、fstl3、gata5、htra1、c8b、h19、mn1、nfe2l1、prdm16、ap3b2、emp1、flnc、stag3、cpb2、tenc1、rp1l1、a1cf、npr1、tek、errfi1、arhgef15、cd34、rspo3、alpk3、samd4a、zcchc24、leap2、myl2、nrg3、zbtb16、serpina3、aqp7、srpx、uaca、ano1、fkbp5、scn5a、ptpn21、cacna1c、erg、sox17、wwtr1、aif1l、ca3、hrg、tat、aqp7p1、adra2c、synpo、fn1、gpr116、krt17、azgp1、bcl6b、kif1c、clic5、gpr4、gja5、olah、c14orf37、zeb1、jag2、kif26a、apold1、pnmt、myom3、pitpnm3、timp4、htra4、amph、lcn6、crh、tead4、arms2、pappa2、sema3g、adamts1、alox15b、slc9a3r2、timp3、igfbp5、hspa12b、prg2、prx、arhgef25、adamts2、daam2、fam107a、lep、nes、vsig4、hbg2、cadm2、lamp5、ptgdr2、nomo1、nxf3、pld4、bpifb3、pacsin1、cux2、flg、clec4c和krt5中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、多达所有一百二十二种;或
(d)vsig4、adamts2、nes、fam107a、lep、daam2、arhgef25、timp3、prx、alox15b、hspa12b、igfbp5、clec4c、slc9a3r2、adamts1、sema3g、krt5、amph、prg2、pappa2、tead4、crh、pitpnm3、timp4、pnmt、zeb1、apold1、pld4、cux2和htra4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、任二十六种或更多种、任二十七种或更多种、任二十八种或更多种、任二十九种或更多种、或所有三十种;或
(e)adamts1、adamts2、alox15b、amph、arhgef25、celf4、daam2、fam107a、hspa12b、htra4、igfbp5、kcna5、krt5、lcn6、lep、lrrc26、nes、olah、pacsin1、pappa2、prx、ptgdr2、sema3g、slc9a3r2、timp3和vsig4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、或所有二十六种;或
(f)adamts1、adamts2、alox15b、arhgef25、celf4、daam2、fam107a、htra4、igfbp5、kcna5、krt5、lcn6、lep、lrrc26、nes、olah、prx、ptgdr2、sema3g、slc9a3r2、timp3和vsig4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、或所有二十二种;或
(g)clec4c、arhgef25、adamts2、lep、arrdc2、skil、pappa2、vsig4、arrdc4、crh和nes中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、或所有十一种(包括在一些实施例中,adamts2、arhgef25、arrdc2、clec4c、lep、pappa2和vsig4中的七种;adamts2、arhgef25、arrdc2、clec4c、lep、pappa2、skil和vsig4中的八种;adamts2、arhgef25、arrdc4、clec4c、lep、nes、skil和vsig4中的八种;adamts2、arhgef25、arrdc2、arrdc4、clec4c、crh、lep、pappa2、skil和vsig4中的十种;adamts2、arhgef25、arrdc2、clec4c、lep和skil中的六种;或adamts2、arhgef25、arrdc2、arrdc4、clec4c、lep、pappa2和skil中的八种);或
(h)lep、pappa2、kcna5、adamts2、myom3、atp13a3、arhgef25、ada、htra4、nes、crh、acy3、pld4、sct、nox4、pacsin1、serpinf1、skil、sema3g、tiparp、lrrc26、phex、lilra4和per1中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、或所有二十四种。
在一些方面,生物样品包括血浆。
在一些方面,所述生物样品是从妊娠小于16周或妊娠小于20周的孕妇获得的。
在一些方面,所述生物样品是从妊娠大于20周的孕妇获得的。
本发明包括一种先兆子痫风险增加的循环rna(c-rna)标识,所述c-rna标识编码arrdc2、jun、skil、atp13a3、pde8b、gsta3、pappa2、tiparp、lep、rgp1、usp54、clec4c、mrps35、arhgef25、cux2、heatr9、fstl3、ddi2、zmym6、st6galnac3、gbp2、nes、etv3、adam17、atoh8、slc4a3、traf3ip1、ttc21a、heg1、aste1、tmem108、enc1、scamp1、arrdc3、slc26a2、slit3、clic5、tnfrsf21、ppp1r17、tpst1、gatsl2、spdye5、hipk2、mtrnr2l6、clcn1、gins4、crh、c10orf2、trub1、prg2、acy3、far2、cd63、ckap4、tpcn1、rnf6、thtpa、fos、parn、orai3、elmo3、smpd3、serpinf1、tmem11、psmd11、ebi3、clec4m、ccdc151、cpamd8、cnfn、lilra4、ada、c22orf39、pi4kap1和arfgap3中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、更五十种或更多种、任七十种或更多种、多达所有七十五种的至少一部分。
本发明包括一种先兆子痫风险增加的循环rna(c-rna)标识,所述c-rna标识编码timp4、flg、htra4、amph、lcn6、crh、tead4、arms2、pappa2、sema3g、adamts1、alox15b、slc9a3r2、timp3、igfbp5、hspa12b、clec4c、krt5、prg2、prx、arhgef25、adamts2、daam2、fam107a、lep、nes和vsig4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、任二十六种或更多种或所有二十七种的至少一部分。
本发明包括一种先兆子痫风险增加的循环rna(c-rna)标识,所述c-rna标识编码cyp26b1、irf6、myh14、podxl、ppp1r3c、sh3rf2、tmc7、znf366、adcy1、c6、fam219a、hao2、igip、il1r2、ntrk2、sh3pxd2a、ssuh2、sult2a1、fmo3、fstl3、gata5、htra1、c8b、h19、mn1、nfe2l1、prdm16、ap3b2、emp1、flnc、stag3、cpb2、tenc1、rp1l1、a1cf、npr1、tek、errfi1、arhgef15、cd34、rspo3、alpk3、samd4a、zcchc24、leap2、myl2、nrg3、zbtb16、serpina3、aqp7、srpx、uaca、ano1、fkbp5、scn5a、ptpn21、cacna1c、erg、sox17、wwtr1、aif1l、ca3、hrg、tat、aqp7p1、adra2c、synpo、fn1、gpr116、krt17、azgp1、bcl6b、kif1c、clic5、gpr4、gja5、olah、c14orf37、zeb1、jag2、kif26a、apold1、pnmt、myom3、pitpnm3、timp4、htra4、amph、lcn6、crh、tead4、arms2、pappa2、sema3g、adamts1、alox15b、slc9a3r2、timp3、igfbp5、hspa12b、prg2、prx、arhgef25、adamts2、daam2、fam107a、lep、nes、vsig4、hbg2、cadm2、lamp5、ptgdr2、nomo1、nxf3、pld4、bpifb3、pacsin1、cux2、flg、clec4c和krt5的至少一部分。
本发明包括一种先兆子痫风险增加的循环rna(c-rna)标识,所述c-rna标识编码vsig4、adamts2、nes、fam107a、lep、daam2、arhgef25、timp3、prx、alox15b、hspa12b、igfbp5、clec4c、slc9a3r2、adamts1、sema3g、krt5、amph、prg2、pappa2、tead4、crh、pitpnm3、timp4、pnmt、zeb1、apold1、pld4、cux2和htra4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、任二十六种或更多种、任二十七种或更多种、任二十八种或更多种、任二十九种或更多种、或所有三十种的至少一部分。
本发明包括一种先兆子痫风险增加的循环rna(c-rna)标识,所述c-rna标识编码adamts1、adamts2、alox15b、amph、arhgef25、celf4、daam2、fam107a、hspa12b、htra4、igfbp5、kcna5、krt5、lcn6、lep、lrrc26、nes、olah、pacsin1、pappa2、prx、ptgdr2、sema3g、slc9a3r2、timp3和vsig4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、任二十四种或更多种、任二十五种或更多种、或所有二十六种的至少一部分。
本发明包括一种先兆子痫风险增加的循环rna(c-rna)标识,所述c-rna标识编码adamts1、adamts2、alox15b、arhgef25、celf4、daam2、fam107a、htra4、igfbp5、kcna5、krt5、lcn6、lep、lrrc26、nes、olah、prx、ptgdr2、sema3g、slc9a3r2、timp3和vsig4中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、或所有二十二种的至少一部分。
本发明包括一种先兆子痫风险增加的循环rna(c-rna)标识,所述c-rna标识编码clec4c、arhgef25、adamts2、lep、arrdc2、skil、pappa2、vsig4、arrdc4、crh和nes中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、或所有十一种的至少一部分,包括在一些实施例中,adamts2、arhgef25、arrdc2、clec4c、lep、pappa2和vsig4中的七种;adamts2、arhgef25、arrdc2、clec4c、lep、pappa2、skil和vsig4中的八种;adamts2、arhgef25、arrdc4、clec4c、lep、nes、skil和vsig4中的八种;adamts2、arhgef25、arrdc2、arrdc4、clec4c、crh、lep、pappa2、skil和vsig4中的十种;adamts2、arhgef25、arrdc2、clec4c、lep和skil中的六种;或adamts2、arhgef25、arrdc2、arrdc4、clec4c、lep、pappa2和skil中的八种。
本发明包括一种先兆子痫风险增加的循环rna(c-rna)标识,所述c-rna标识编码lep、pappa2、kcna5、adamts2、myom3、atp13a3、arhgef25、ada、htra4、nes、crh、acy3、pld4、sct、nox4、pacsin1、serpinf1、skil、sema3g、tiparp、lrrc26、phex、lilra4和per1中任一种或多种、任两种或更多种、任三种或更多种、任四种或更多种、任五种或更多种、任六种或更多种、任七种或更多种、任八种或更多种、任九种或更多种、任十种或更多种、任十一种或更多种、任十二种或更多种、任十三种或更多种、任十四种或更多种、任十五种或更多种、任十六种或更多种、任十七种或更多种、任十八种或更多种、任十九种或更多种、任二十种或更多种、任二十一种或更多种、任二十二种或更多种、任二十三种或更多种、或所有二十四种的至少一部分。
本发明包括一种固体支持物阵列,其包含能够结合和/或鉴定如本文所述的c-rna标识的多种试剂。
本发明包括一种试剂盒,其包含能够结合和/或鉴定如本文所述的c-rna标识的多个探针。
本发明包括一种试剂盒,其包含用于选择性扩增如本文所述的c-rna标识的多个引物。
如本文所用,术语“核酸”旨在与其在本领域中的用途一致,并且包括天然存在的核酸或其功能类似物。特别有用的功能类似物能够以序列特异性的方式与核酸杂交,或者能够用作复制特定核苷酸序列的模板。天然存在的核酸通常具有含有磷酸二酯键的主链。类似物结构可具有替代的主链连接,其包括本领域已知的各种主链连接中的任一种。天然存在的核酸通常具有脱氧核糖(例如,在脱氧核糖核酸(dna)中发现的)或核糖(例如,在核糖核酸(rna)中发现的)。核酸可含有本领域已知的这些糖部分的多种类似物中的任一种。核酸可以包括天然或非天然碱基。在这方面,天然脱氧核糖核酸可以具有选自由腺嘌呤、胸腺嘧啶、胞嘧啶或鸟嘌呤组成的组的一种或多种碱基,并且核糖核酸可以具有选自由尿嘧啶、腺嘌呤、胞嘧啶或鸟嘌呤组成的组的一种或多种碱基。可以包括在核酸中的有用的非天然碱基是本领域已知的。当参考核酸使用时,术语“模板”和“靶标”在本文阐述的方法或组合物的情况下旨在作为核酸的语义标识符,并且不一定限制核酸的结构或功能,除非另有明确说明。
如本文所用,“扩增(amplify、amplifying)”或“扩增反应(amplificationreactio)”及其衍生物通常是指其中至少一部分核酸分子被复制或拷贝到至少另一个核酸分子中的任何作用或过程。另外的核酸分子任选地包括与靶核酸分子的至少一些部分基本相同或基本互补的序列。靶核酸分子可以是单链或双链的,并且另外的核酸分子可以独立地是单链或双链的。扩增任选地包括核酸分子的线性或指数复制。在一些实施例中,可以使用等温条件进行此类扩增;在其他实施例中,这种扩增可以包括热循环。在一些实施例中,扩增是多重扩增,其包括在单个扩增反应中同时扩增多个靶序列。在一些实施例中,“扩增”包括单独地或组合地扩增基于dna和rna的核酸的至少一些部分。扩增反应可以包括本领域普通技术人员已知的任何扩增方法。在一些实施例中,扩增反应包括聚合酶链反应(pcr)。
如本文所用,“扩增条件”及其衍生物通常是指适合于扩增一个或多个核酸序列的条件。这种扩增可以是线性的或指数的。在一些实施例中,扩增条件可包括等温条件或可替代地可包括热循环条件,或等温和热循环条件的组合。在一些实施例中,适合于扩增一个或多个核酸序列的条件包括聚合酶链反应(pcr)条件。通常,扩增条件是指足以扩增核酸例如一个或多个靶序列,或扩增与一个或多个衔接子连接的扩增的靶序列(例如,衔接子连接的扩增的靶序列)的反应混合物。通常,扩增条件包括用于扩增或用于核酸合成的催化剂,例如聚合酶;具有与待扩增核酸某种程度的互补性的引物;以及核苷酸,例如三磷酸脱氧核糖核苷酸(dntp),一旦与核酸杂交时,就可以促进引物的延伸。扩增条件可能需要引物与核酸杂交或退火,引物延伸以及变性步骤,其中将延伸的引物与进行扩增的核酸序列分开。通常,但并非必须,扩增条件可包括热循环;在一些实施例中,扩增条件包括多个循环,其中重复退火,延伸和分离步骤。通常,扩增条件包括阳离子,例如mg++或mn++,并且还可以包括各种离子强度的改性剂。
如本文所用,术语“聚合酶链反应”(pcr)是指k.b.mullis的美国专利号4,683,195和4,683,202的方法,其描述了一种无需克隆或纯化即可增加基因组dna混合物中目的多核苷酸区段浓度。该用于扩增目的多核苷酸的方法由以下组成:将过量的两种寡核苷酸引物引入含有所需目的多核苷酸的dna混合物中,然后在dna聚合酶存在下进行一系列热循环。这两种引物与它们目的双链多核苷酸的各自链互补。首先将混合物在较高温度下变性,并且然后将引物与目的多核苷酸分子内的互补序列退火。退火后,用聚合酶延伸引物以形成一对新的互补链。变性、引物退火和聚合酶延伸的步骤可以重复多次(称为热循环),以获得高浓度的所需目的多核苷酸的扩增区段。所需目的多核苷酸的扩增区段(扩增子)的长度由引物相对于彼此的相对位置确定,并且因此,该长度是可控制的参数。凭借重复该过程,该方法被称为“聚合酶链反应”(以下称为“pcr”)。由于目的多核苷酸的所需扩增区段成为混合物中的主要核酸序列(就浓度而言),因此被称为“pcr扩增”。在对上述方法的改进中,靶核酸分子可以使用多个不同的引物对,在一些情况下,每个目的靶核酸分子的一个或多个引物对,进行pcr扩增,从而形成多重pcr反应。
如本文所用,术语“引物”及其衍生物通常是指可以与目的靶序列杂交的任何多核苷酸。通常,引物充当底物,核苷酸可通过聚合酶聚合在该底物上;然而,在一些实施例中,引物可掺入合成的核酸链中,并提供另一个引物可与之杂交的位点,以引发与合成的核酸分子互补的新链的合成。引物可以包括核苷酸或其类似物的任何组合。在一些实施例中,引物是单链寡核苷酸或多核苷酸。术语“多核苷酸”和“寡核苷酸”在本文可互换使用,是指任何长度的核苷酸的聚合形式,并且可以包含核糖核苷酸、脱氧核糖核苷酸、其类似物或其混合物。这些术语应理解为包括作为等同物的由核苷酸类似物制成的dna或rna的类似物,并且适用于单链(例如有义或反义)和双链多核苷酸。本文所用的术语还涵盖cdna,其是例如通过逆转录酶的作用从rna模板产生的互补的或拷贝的dna。该术语仅是指分子的一级结构。因此,该术语包括三链、双链和单链脱氧核糖核酸(“dna”),以及三链、双链和单链核糖核酸(“rna”)。
如本文所用,术语“文库”和“测序文库”是指在其5'端共享共有序列并且在其3'端共享共有序列的模板分子集合或多个模板分子。在其3'和5'末端含有已知共有序列的模板分子的集合也可以被称为3'和5'修饰的文库。
如本文所用,术语“流通池”是指包含固体表面的腔室,一种或多种流体试剂可以流过该固体表面。可以容易地在本披露的方法中使用的流通池以及相关的流体系统和检测平台的实例描述于例如bentley等人,nature[自然]456:53-59(2008)、wo04/018497;us7,057,026;wo91/06678;wo07/123744;us7,329,492;us7,211,414;us7,315,019;us7,405,281和us2008/0108082。
如本文所用,术语“扩增子”在用于核酸时意指拷贝核酸的产物,其中该产物具有与该核酸的核苷酸序列的至少一部分相同或互补的核苷酸序列。扩增子可以通过使用该核酸或其扩增子作为模板的多种扩增方法中的任一种来产生,包括例如pcr、滚环扩增(rca)、连接延伸或连接链反应。扩增子可以是具有单拷贝的特定核苷酸序列(例如,pcr产物)或多拷贝的核苷酸序列(例如,rca的多联体产物)的核酸分子。靶核酸的第一扩增子通常是互补拷贝。后续的扩增子是在产生第一扩增子后从靶核酸或第一扩增子产生的拷贝。后续的扩增子可具有与靶核酸基本互补或与靶核酸基本相同的序列。
如本文所用,术语“阵列”是指可以根据相对位置彼此区分开的位点群体。可以根据阵列中位点的位置将位于阵列不同位点的不同分子彼此区分开。阵列的单个位点可包括一个或多个特定类型的分子。例如,位点可以包括具有特定序列的单个靶核酸分子,或者位点可以包括具有相同序列(和/或其互补序列)的若干个核酸分子。阵列的位点可以是位于同一底物上的不同特征。示例性特征包括但不限于,底物中的孔、底物中或底物上的珠子(或其他颗粒)、底物的突起、底物上的脊或底物中的通道。阵列的位点可以是各自带有不同分子的单独底物。可以根据底物在与底物缔合的表面上的位置,或者根据底物在液体或凝胶中的位置,来鉴定附接在单独底物上的不同分子。其中单独底物位于表面上的示例性阵列包括但不限于在孔中具有珠子的那些。
术语“下一代测序(ngs)”在本文中是指允许克隆扩增的分子和单个核酸分子的大规模平行测序的测序方法。ngs的非限制性实例包括使用可逆染料终止子的合成测序和连接测序。
如本文所用,术语“灵敏度”等于真阳性的数量除以真阳性和假阴性的总和。
如本文所用,术语“特异性”等于真阴性的数量除以真阴性和假阳性的总和。
本文中的术语“富集”是指扩增样品的一部分中包含的核酸的过程。富集包括靶向特定序列(例如,多态序列)的特异性富集,以及扩增样品的dna片段的整个基因组的非特异性富集。
如本文所用,术语“每个”当用于项目集合时,旨在鉴定该集合中的单个项目,但不一定是指该集合中的每个项目,除非上下文另外明确指出。
如本文所用,在组合物、制品、核酸或核的上下文中“提供”意指制造该组合物、制品、核酸或核、购买该组合物、制品、核酸或核,或以其他方式获得化合物、组合物、制品或核。
术语“和/或”意指所列举的要素的一个或所有或所列举的要素的任两个或更多个的组合。
词语“优选的”和“优选地”是指本披露的在某些情况下可以提供某些益处的实施例。然而,在相同或其他情况下,其他实施例也可以是优选的。另外,对一个或多个优选实施例的描述不暗示其他实施例是无用的,并且不意图从本披露的范围中排除其他实施例。
术语“包含(comprises)”及其变体在说明书和权利要求书中出现这些术语时不具有限制意义。
应当理解,当文中用语言“包括(include、includes或including)”等来描述实施例时,还提供了在“由……组成”和/或“基本上由……组成”方面所描述的其他类似实施例。
除非另外说明,否则“一个/一种(a、an)”、“所述(the)”、和“至少一个(atleastone)”可互换地使用并且意指一个或不只一个。
同样在本文中,通过端点详述的数值范围包括该范围内所包含的所有数值(例如1至5包括1、1.5、2、2.75、3、3.80、4、5等)。
在整个说明书中,对“一个实施例(oneembodiment)”,“一个实施例(anembodiment)”,“某些实施例(certainembodiments)”或“一些实施例(someembodiments)”等的提及意指结合该实施例描述的特定特征、配置、组合物或特性包括在本披露的至少一个实施例中。因此,在整个说明书中这些短语在各个地方的出现不一定是指本披露的相同实施例。此外,特定的特征、配置、组合物或特性可以在一个或多个实施例中以任何合适的方式组合。
对于本文中披露的包括不连续的步骤的任何方法,这些步骤可以按任何可行顺序实施。并且,如果适宜,两个或更多个步骤的任何组合可以同时实施。
本披露的以上概述并非旨在描述本披露的每个所披露的实施例或每个实施方式。以下说明书更加具体地示例了示意性实施例。在整个申请中的若干个地方,通过实例列表提供了指导,这些实例可以以各种组合使用。在每种情况下,所述列表仅用作代表组,而不应解释为排他性列表。
附图说明
图1.胎盘健康、母体反应和胎儿反应之间关系的示意图。
图2.循环rna(c-rna)的起源。
图3.c-rna的文库制备工作流程。
图4.比较晚期妊娠和非妊娠样品的c-rna方法的验证。
图5.使用纵向妊娠样品的c-rna方法的验证。
图6.临床研究的描述。
图7.测序数据特征。
图8.依靠整个数据集对pe进行分类而没有选择任何基因。
图9.自举方法的描述。
图10.用自举方法的先兆子痫样品的分类。
图11.过丰度先兆子痫基因的检查。
图12.标准adaboost模型。
图13.独立的队列允许进一步验证先兆子痫标识。
图14.标准adaboost模型在先兆子痫分类中的性能。
图15.用标准dextreat分析的先兆子痫的分类。
图16.用刀切法的基因选择和先兆子痫的分类。
图17.在独立的pearl生物库队列中的treat、自举和刀切法的验证。
图18.构建adaboost改进版模型的生物信息学方法图。
图19.通过adaboost改进版模型所利用基因的相对丰度及其在独立数据集中的预测能力。
图20.使用标准treat分析和刀切法在nexteraflex生成的文库中鉴定对先兆子痫具有特异性的c-rna标识。
图21.adaboost改进版模型所利用基因在nexteraflex生成的文库上的相对丰度及其在rgh14数据集中的预测能力。
图22a-22d.临床友好型全外显子c-rna分析方法的验证。图22a是测序文库制备方法的示意图;采血后的所有步骤都可以在集中处理实验室中执行。转录物的时间变化在整个妊娠过程中都发生了变化(图22b)。在c-rna妊娠进展研究中鉴定出的基因重叠(图22c)。表达针对妊娠时间过程研究独特的91个基因的组织(图22d)。
图23a-23c.pe临床研究的样品收集。图说明了ipc研究(图23a)和pearl研究(图23b)中每个个体的血液收集时间(三角形)和出生时的孕龄(正方形)。红线表示足月产的阈值。在早发性pe队列中早产率显著升高(图23c)。***p<0.001,通过费舍尔精确测试。
图24a-24g.c-rna的差异分析鉴定先兆子痫生物标志物。pe中改变的转录物的倍数变化和丰度(图24a)。在对通过标准分析方法检测的每个基因刀切后,计算出单侧置信度p值区间(图24b)。通过全外显子测序和qpcr对(21)个基因确定的转录物丰度倍数变化(图24c)。*p<0.05,通过学生t检验。受影响基因的组织分布(图24d)。ipc样品的层次聚类(平均链接,平方欧氏距离)(图24e)。来自pearl研究的早发性pe(图24f)和晚发性pe(图24g)样品的聚类。
图25a-25e.adaboost对所有队列的先兆子痫样品进行分类。热图说明了每个队列中机器学习所使用的转录物的相对丰度(图25a)。每个区块的高度反映了每个基因的重要性。每个数据集的roc曲线(图25b)。adaboost分数的分布(kde)。橙色线表示区分pe和对照样品的最佳边界(图25c)。通过差异分析鉴定的基因与adaboost中使用的那些基因的一致性(图25d)。adaboost基因的组织分布(图25e)。
图26a-26c.当血液存储在不同的收集管中时,c-rna数据的完整性。比较先前在不同类型试管中过夜存储的血液中检测到的c-rna妊娠标志物与收集在edta管中后立即处理的丰度(图26a)。散点图比较在不同的血液储存时间后从同一个个体制备的c-rna的转录物fpkm值(图26b)。使用edta管时,皮尔逊相关系数r更具可变性(参见无细胞)(图26c)。
图27a和27b.血浆体积对c-rna数据质量的影响。用来自九项独立研究的数据进行了荟萃分析,以确定该方案的适当血浆输入。噪声(生物学变异系数,edger)由每项研究中的生物学重复计算得出(图27a)。计算每个样品的文库复杂度(结合群体,preseq)(图27b)。**p<0.01,***p<0.001,通过anova,进行tukeyhsd校正,其中研究作为区组变量。
图28a-28c.妊娠标志物组织特异性。饼状图显示了通过三项独立研究,使用整套改变的基因(图28a),针对每项研究独特的转录物(图28b)或相交的基因集(图28c)在妊娠中检测到的基因的组织特异性。
图29a-29e.刀切法排除了先兆子痫中未普遍改变的基因。用于确定pe样品之间转录物变化的一致性的刀切法的示意图(图29a)。每个差异丰富基因的平均丰度和噪音(图29b)。每个受影响的转录物的曲线值下的roc面积提供了对照和pe样品的分离的c-rna转录物丰度分布的量度(图29c)。*p<0.05,通过mann-whitneyu测试。使用刀切后排除的基因对ipc样品进行层次聚类(图29d)。排除的转录物的组织分布(图29e)。胎儿和胎盘的贡献减少可能表明pe的母体组分在个体之间变化最大。
图30a-30d.adaboost模型开发策略。将rgh014数据集分为6个部分(图30a)。“保留子集”含有10%的样品(随机选择)以及3个样品,这3个样品在使用差异丰富基因时无法正确聚类(如图24c所示),并且被完全排除在模型构建之外。将其余样品随机分为5个大小均匀的“测试子集”。对于每个测试子集,训练数据均由所有非保留和非测试样品组成。将训练和测试数据的基因计数在edger中进行tmm归一化,并且然后标准化为对于每个基因的均值为0和标准偏差为1。对于每个训练/测试样品集,从训练数据中构建10次adaboost模型(估计量为90,学习率为1.6)(图30b)。进行特征修剪,删除递增重要性阈值以下的基因,并在预测测试数据时通过matthew相关系数评估性能。保留了具有最佳性能(如果是平局,则基因最少)的模型。将来自所有50个独立模型的估计量合并为单个adaboost模型(图30c)。对所得的集合进行特征修剪,这一次采用使用基因的模型百分比设置阈值,以及通过测试子集的平均对数损失值测量的性能。将最终的adaboost模型应用于保留数据后的roc曲线(图30d)。除了三个样品中的两个样品也通过hca被错误聚类以外,所有样品均被正确分离。
图31a-31e.超参数选择和特征修剪对机器学习性能的影响。网格搜索的热图,以鉴定adaboost的最佳超参数(图31a)。matthew相关系数被用作性能量度。每个超参数性能的展平图(图31b)。箭头指示为模型构建所选择的值。图31c显示了修剪单个adaboost模型对性能的影响(如图30b中所示)。实线是所有10个模型的平均值,并且阴影区域显示了标准偏差。使用在预修剪的集合中观察到的每个基因的adaboost模型的数量(图31d)。修剪组合的adaboost集合时的模型性能(图31e)。图31d和图31e中的橙色线显示了用于生成最终adaboost模型的阈值。
示意图不一定是按比例绘制的。附图中使用的相同标号可是指相同的部件。然而,应理解的是,在一个给定附图中使用一个标号来指代一个部件并非意图限制该部件在另一个附图中被相同标号标记。此外,使用不同标号来指代部件并非意图表示不同标号的部件不能与其他标号的部件相同或类似。
具体实施方式
本文提供了在母体循环中发现的对先兆子痫具有特异性的循环rna标识,以及这种标识在非侵入性方法中用于先兆子痫的诊断和对处于发展先兆子痫风险的孕妇的鉴定的用途。
尽管体内大多数dna和rna位于细胞内,但细胞外核酸也可以在血液中自由循环。循环rna(在本文中也称为“c-rna”)是指在血流中发现的rna的细胞外区段。c-rna分子主要来自两个来源:一是从处于细胞凋亡的垂死细胞释放到循环中,以及二是包含在被活细胞脱落到循环中的外来体中。外来体是从许多细胞类型释放到细胞外空间的直径约30-150nm的小膜状囊泡,并存在于多种体液中,包括血清、尿液和母乳并携带蛋白质、mrna和microrna。外来体的脂质双层结构保护内含的rna不被rna酶降解,从而在血液中提供稳定性。参见,例如,huang等人,2013,bmcgenomics[bmc基因组学];14:319;以及li等人,2017,molcancer[分子癌症];16:145)。越来越多的证据表明,外来体具有特殊的功能,并在凝血、细胞间信号传导和废物管理的过程中发挥作用(vanderpol等人,2012,pharmacolrev[药理学评论];64(3):676-705)。还参见samos等人,2006,annnyacadsci[美国纽约科学院年刊];1075:165-173;zernecke等人,2009,scisignal[科学信号];2:ra81;ma等人,2012,jexpclincancerres[实验与临床癌症研究杂志];31:38;以及sato-kuwabara等人,2015,intjoncol[国际肿瘤杂志];46:17-27。
用本文所述的方法,在母亲循环中发现的c-rna分子充当胎儿、胎盘和母体健康的生物标志物,并提供了进入妊娠进程的窗口。本文描述了指示妊娠的母体循环内的c-rna标识,与妊娠的妊娠阶段在时间上相关的母体循环内的c-rna标识,以及指示妊娠并发症先兆子痫的母体循环内的c-rna标识。
指示先兆子痫的母体循环内的c-rna标识包括编码多种蛋白质的至少一部分的多个c-rna分子,所述c-rna分子选自arrdc2、jun、skil、atp13a3、pde8b、gsta3、pappa2、tiparp、lep、rgp1、usp54、clec4c、mrps35、arhgef25、cux2、heatr9、fstl3、ddi2、zmym6、st6galnac3、gbp2、nes、etv3、adam17、atoh8、slc4a3、traf3ip1、ttc21a、heg1、aste1、tmem108、enc1、scamp1、arrdc3、slc26a2、slit3、clic5、tnfrsf21、ppp1r17、tpst1、gatsl2、spdye5、hipk2、mtrnr2l6、clcn1、gins4、crh、c10orf2、trub1、prg2、acy3、far2、cd63、ckap4、tpcn1、rnf6、thtpa、fos、parn、orai3、elmo3、smpd3、serpinf1、tmem11、psmd11、ebi3、clec4m、ccdc151、cpamd8、cnfn、lilra4、ada、c22orf39、pi4kap1和arfgap3。该c-rna标识是用下表1(在本文中也称为“列表(a)”或“(a)”)所示的truseq文库制备方法获得的adaboost通用标识。
指示先兆子痫的母体循环内的c-rna标识包括编码多种蛋白质的至少一部分的多个c-rna分子,所述c-rna分子选自timp4、flg、htra4、amph、lcn6、crh、tead4、arms2、pappa2、sema3g、adamts1、alox15b、slc9a3r2、timp3、igfbp5、hspa12b、clec4c、krt5、prg2、prx、arhgef25、adamts2、daam2、fam107a、lep、nes和vsig4。该c-rna标识是用下表1(在本文中也称为“列表(b)”或“(b)”)所示的truseq文库制备方法获得的自举(bootstrapping)标识。
指示先兆子痫的母体循环内的c-rna标识包括编码蛋白质的至少一部分的多个c-rna分子,所述c-rna分子选自cyp26b1、irf6、myh14、podxl、ppp1r3c、sh3rf2、tmc7、znf366、adcy1、c6、fam219a、hao2、igip、il1r2、ntrk2、sh3pxd2a、ssuh2、sult2a1、fmo3、fstl3、gata5、htra1、c8b、h19、mn1、nfe2l1、prdm16、ap3b2、emp1、flnc、stag3、cpb2、tenc1、rp1l1、a1cf、npr1、tek、errfi1、arhgef15、cd34、rspo3、alpk3、samd4a、zcchc24、leap2、myl2、nrg3、zbtb16、serpina3、aqp7、srpx、uaca、ano1、fkbp5、scn5a、ptpn21、cacna1c、erg、sox17、wwtr1、aif1l、ca3、hrg、tat、aqp7p1、adra2c、synpo、fn1、gpr116、krt17、azgp1、bcl6b、kif1c、clic5、gpr4、gja5、olah、c14orf37、zeb1、jag2、kif26a、apold1、pnmt、myom3、pitpnm3、timp4、htra4、amph、lcn6、crh、tead4、arms2、pappa2、sema3g、adamts1、alox15b、slc9a3r2、timp3、igfbp5、hspa12b、prg2、prx、arhgef25、adamts2、daam2、fam107a、lep、nes、vsig4、hbg2、cadm2、lamp5、ptgdr2、nomo1、nxf3、pld4、bpifb3、pacsin1、cux2、flg、clec4c和krt5。该c-rna标识是用下表1(在本文中也称为“列表(c)”或“(c)”)所示的truseq文库制备方法获得的标准dextreat标识。
指示先兆子痫的母体循环内的c-rna标识包括编码蛋白质的至少一部分的多个c-rna分子,所述c-rna分子选自vsig4、adamts2、nes、fam107a、lep、daam2、arhgef25、timp3、prx、alox15b、hspa12b、igfbp5、clec4c、slc9a3r2、adamts1、sema3g、krt5、amph、prg2、pappa2、tead4、crh、pitpnm3、timp4、pnmt、zeb1、apold1、pld4、cux2和htra4。该c-rna标识是用下表1(在本文中也称为“列表(d)”或“(d)”)所示的truseq文库制备方法获得的刀切(jacknifing)标识。
指示先兆子痫的母体循环内的c-rna标识包括编码蛋白质的至少一部分的多个c-rna分子,所述c-rna分子选自adamts1、adamts2、alox15b、amph、arhgef25、celf4、daam2、fam107a、hspa12b、htra4、igfbp5、kcna5、krt5、lcn6、lep、lrrc26、nes、olah、pacsin1、pappa2、prx、ptgdr2、sema3g、slc9a3r2、timp3和vsig4。该c-rna标识是用下表1(在本文中也称为“列表(e)”或“(e)”)所示的nexteraflexforenrichment文库制备方法获得的标准dextreat标识。
指示先兆子痫的母体循环内的c-rna标识包括编码蛋白质的至少一部分的多个c-rna分子,所述c-rna分子选自adamts1、adamts2、alox15b、arhgef25、celf4、daam2、fam107a、htra4、igfbp5、kcna5、krt5、lcn6、lep、lrrc26、nes、olah、prx、ptgdr2、sema3g、slc9a3r2、timp3和vsig4。该c-rna标识是用下表1(在本文中也称为“列表(f)”或“(f)”)所示的nexteraflexforenrichment文库制备方法获得的刀切标识。
指示先兆子痫的母体循环内的c-rna标识包括编码蛋白质的至少一部分的多个c-rna分子,所述c-rna分子选自clec4c、arhgef25、adamts2、lep、arrdc2、skil、pappa2、vsig4、arrdc4、crh和nes。该c-rna标识是用下表1(在本文中也称为“adaboost改进版1”“列表(g)”或“(g)”)所示的truseq文库制备方法获得的adaboost改进版truseq标识。
在一些实施例中,指示先兆子痫的母体循环内的c-rna标识包括编码蛋白质的至少一部分的c-rna分子,所述c-rna分子选自adamts2、arhgef25、arrdc2、clec4c、lep、pappa2和vsig4(在本文中也称为“adaboost改进版2”)、adamts2、arhgef25、arrdc2、clec4c、lep、pappa2、skil和vsig4(在本文中也称为“adaboost改进版3”)、adamts2、arhgef25、arrdc4、clec4c、lep、nes、skil和vsig4(在本文中也称为“adaboost改进版4”)、adamts2、arhgef25、arrdc2、arrdc4、clec4c、crh、lep、pappa2、skil和vsig4(在本文中也称为“adaboost改进版5”)、adamts2、arhgef25、arrdc2、clec4c、lep和skil(在本文中也称为“adaboost改进版6”)、或adamts2、arhgef25、arrdc2、arrdc4、clec4c、lep、pappa2和skil(在本文中也称为“adaboost改进版7”)。
指示先兆子痫的母体循环内的c-rna标识包括编码蛋白质的至少一部分的多个c-rna分子,所述c-rna分子选自lep、pappa2、kcna5、adamts2、myom3、atp13a3、arhgef25、ada、htra4、nes、crh、acy3、pld4、sct、nox4、pacsin1、serpinf1、skil、sema3g、tiparp、lrrc26、phex、lilra4和per1。该c-rna标识是用下表1(在本文中也称为“列表(h)”或“(h)”)所示的nexteraflexforenrichment文库制备方法获得的adaboost改进版nexteraflex标识。
在一些实施例中,指示先兆子痫的母体循环内的c-rna标识包括编码蛋白质的至少一部分的多个c-rna分子,所述c-rna分子选自与(a)、(b)、(c)、(d)、(e)、(f)、(g)和/或(h)中任一个或多个的组合的(a)、(b)、(c)、(d)、(e)、(f)、(g)和/或(h)中任一个或多个。
此处提供的实例描述了以上概述的八种基因列表,其区分开先兆子痫和对照妊娠。每种都通过使用不同的分析方法和/或不同的数据集进行鉴定。然而,这些基因集中的许多之间存在高度的一致性。用多种方法鉴定如在先兆子痫c-rna中改变的转录物,表明该转录物对该疾病的分类具有较高的预测价值。因此,将通过所有差异表达分析和通过所有adaboost模型鉴定的转录物的重要性进行了合并和排名。排名较低的基因并非无关紧要或信息不足,但它们对于在整个队列和样品制备中的先兆子痫分类可能不那么可靠。
首先,当对两种文库制备方法(truseq和nexteraflexforenrichment)使用所有差异表达分析(标准dextreat、自举和刀切法)时鉴定的转录物进行合并。下表2显示了通过不同分析方法鉴定的所有125个转录物的相对重要性。在每种分析方法和两种文库制备中鉴定的转录物是最强的分类模型,并指定其重要性排名为1。通过三种或更多种分析方法鉴定并用两种文库制备检测到的转录物被给予重要性排名为2。用最严格的分析方法(刀切法)但仅一种文库制备鉴定的转录物的重要性排名被指定为3。在五种分析方法中的两种中鉴定的转录物被给予重要性排名为4。仅在标准dextreat方法(最广泛及最包容的分析)中鉴定的转录物被给予重要性排名最低为5。
然后,将在所有adaboost模型(adaboost普通版和adaboost改进版)和两种文库制备(下表3)中鉴定的91个转录物合并。当为每种文库制备生成改进版adaboost模型时,每次由相同数据构建模型时,都在获得的基因集中观察到所观察到的细微的变化。这是通过adaboost搜索大型全外显子c-rna数据的所使用随机性的自然结果。为了获得代表性的基因列表,用于改进版adaboost的模型构建进行了最少9次独立运行,并报告了一个或多个模型使用的所有基因。表3(adaboost使用的频率)报告了包括每个转录物的模型百分比。adaboost为每个转录物分配其自己的“重要性”值,该值反映了该转录物的丰度对确定样品是否来自先兆子痫患者有多大影响。这些adaboost重要性值在使用给定转录物的每个改进版adaboost模型中取平均值(表3,平均adaboost模型重要性)。
在所有adaboost分析和文库制备中鉴定的转录物被指定为最高重要性排名为1。在adaboost使用频率超过90%的情况下,在用于单一文库制备方法的改进版adaboost模型中鉴定的转录物的重要性排名被指定为2。通常,这些转录物也具有更高的adaboost模型重要性,与增加的预测能力相一致。在用于单一文库制备方法的改进版adaboost模型中鉴定但不到90%的adaboost模型使用的转录物的重要性排名被指定为3。仅在用于单一文库制备的普通adaboost模型中鉴定的转录物被给予最低重要性排名并为4。
表2列出了在所有分析方法和文库制备中通过dex分析鉴定的每个基因。排名1=在每种分析方法和文库制备方法中鉴定的转录物。排名2=两种文库制备和3/5分析方法鉴定的转录物。排名3=在一种文库制备方法和刀切法(最严格的分析)中鉴定的。排名4=在2/5分析中鉴定的。并且,排名5=仅在标准dextreat方法(我们最轻松的分析方法)中鉴定的。
表3列出了在两种文库制备中通过adaboost分析鉴定的每个基因。排名1=在两种文库制备方法和改进版adaboost模型中鉴定的。排名2=在一种文库制备方法鉴定的,以高模型重要性和频率存在于改进版adaboost模型中。排名3=在一种文库制备方法鉴定的,以中等模型重要性和频率存在于改进版adaboost模型中。并且,排名4=在一种文库制备中鉴定的,不存在于改进版adaboost模型中。
下表4是本文所述的所有各种基因的词汇表。该信息是从欧洲生物信息研究所的hugo基因命名委员会获得的。
表1:复合基因列表
表2:dex分析
表3:adaboost分析
表4:基因词汇表
术语“多个”是指不只一个要素。例如,该术语在本文中是指用作指示先兆子痫的标识的许多c-rna分子。
多个可以包括文中所述列表中所述分子的任两个、任三个、任四个、任五个、任六个、任七个、任八个、任九个、任十个、任十一个、任十二个、任十三个、任十四个、任十五个、任十六个、任十七个、任十八个、任十九个、任二十个、任二十一个、任二十二个、任二十三个、任二十四个、任二十五个、任二十六个、任二十七个、任二十八个、任二十九个、任三十个、任三十一个、任三十二个、任三十三个、任三十四个、任三十五个、任三十六个、任三十七个、任三十八个、任三十九个、任四十个、任四十一个、任四十二个、任四十三个、任四十四个、任四十五个、任四十六个、任四十七个、任四十八个、任四十九个、任五十个、任五十一个、任五十二个、任五十三个、任五十四个、任五十五个、任五十六个、任五十七个、任五十八个、任五十九个、任六十个、任六十一个、任六十二个、任六十三个、任六十四个、任六十五个、任六十六个、任六十七个、任六十八个、任六十九个、任七十个、任七十一个、任七十二个、任七十三个、任七十四个、任七十五个、任七十六个、任七十七个、任七十八个、任七十九个、任八十个、任八十一个、任八十二个、任八十三个、任八十四个、任八十五个、任八十六个、任八十七个、任八十八个、任八十九个、任九十个、任九十一个、任九十二个、任九十三个、任九十四个、任九十五个、任九十六个、任九十七个、任九十八个、任九十九个、任一百个、任一百零一个、任一百零二个、任一百零三个、任一百零四个、任一百零五个、任一百零六个、任一百零七个、任一百零八个、任一百零九个、任一百一十个、任一百一十一个、任一百一十二个、任一百一十三个、任一百一十四个、任一百一十五个、任一百一十六个、任一百一十七个、任一百一十八个、任一百一十九个、任一百二十个、任一百二十一个或任一百二十二个。多个可以包括以上所述数值中的至少任一个。多个可以包括多于以上所述数值中的任一个。多个可以包括以上所述那些中任一个的范围。在一些实施例中,指示先兆子痫的c-rna标识仅包括以上所述生物标志物中的一种。
从受试者获得的样品中这些c-rna标识中一种的鉴定和/或定量可用于确定受试者患有先兆子痫或处于发展先兆子痫的风险中。
样品可以是生物样品(biologicalsample或biosample),包括但不限于血液、血清、血浆、汗液、眼泪、尿液、痰、淋巴液、唾液、羊水、组织活检、拭子或涂片,包括例如但不限于胎盘组织样品。在一些优选的实施例中,生物样品是无细胞血浆样品。生物样品可以是获自孕妇受试者的母体样品。
如本文所用,术语“受试者”是指人类受试者以及非人类哺乳动物受试者。尽管本文的实例涉及人类,并且该语言主要针对人类问题,但是本披露的概念适用于任何哺乳动物,并且可用于兽医、动物科学、研究实验室等领域。
受试者可以是孕妇,包括处于妊娠的任何妊娠阶段的孕妇。妊娠的妊娠阶段可以是例如早期、中期,包括中晚期、或晚期,包括初晚期。妊娠的妊娠阶段可以是例如妊娠16周前、妊娠20周前或妊娠20周后。妊娠的妊娠阶段可以是例如妊娠8-18周、妊娠10-14周、妊娠11-14周、妊娠11-13周或12-13周。
母体血浆中无细胞胎儿核酸的发现为非侵入性产前诊断开辟了新的可能性。在过去的几年中,已经证明了许多方法可以将这种循环胎儿核酸用于产前检测染色体非整倍性。例如,在poon等人,2000,clinchem[临床化学];1832-4;poon等人,2001,annnyacadsci[美国纽约科学院年刊];945:207-10;ng等人,2003,clinchem[临床化学];49(5):727-31;ng等人,2003,procnatlacadsciusa.[美国国家科学院院刊];100(8):4748-53;tsui等人,2004,jmedgenet[医学遗传学杂志];41(6):461-7;go等人,2004,clinchem[临床化学];50(8):1413-4;smets等人,2006,clinchimacta[临床化学学报];364(1-2):22-32;tsui等人,2006,methodsmolbiol[分子生物学方法];336:123-34;purwosunu等人,2007,clinchem[临床化学];53(3):399-404;chim等人,2008,clinchem[临床化学];54(3):482-90;tsui和lo,2008,methodsmolbiol[分子生物学方法];444:275-89;lo,2008,annnyacadsci[美国纽约科学院年刊];1137:140-143;miura等人,2010,prenatdiagn[产前诊断];30(9):849-61;li等人,2012,clinchimacta[临床化学学报];413(5-6):568-76;williams等人,2013,procnatlacadsciusa[美国国家科学院院刊];110(11):4255-60;tsui等人,2014,clinchem[临床化学];60(7):954-62;tsang等人,2017,procnatlacadsciusa[美国国家科学院院刊];114(37):e7786-e7795以及美国专利公开us2014/0243212中描述的任一方法可用于本文所述的方法。
指示先兆子痫或有发展先兆子痫风险的母体循环内的c-rna标识的生物标志物的检测和鉴定可能涉及多种技术中的任一种。例如,可以通过放射免疫测定法在血清中检测生物标志物,或者可以使用聚合酶链反应(pcr)技术。
在各种实施例中,指示先兆子痫或有发展先兆子痫风险的母体循环内的c-rna标识的生物标志物的鉴定可能涉及对c-rna分子进行测序。可以使用多种测序技术中的任一种,包括但不限于多种高通量测序技术中的任一种。
在一些实施例中,母体生物样品内的c-rna群体可在测序之前进行rna序列的富集,所述rna序列包括蛋白质编码序列。可以使用可用于全外显子富集和测序的多种平台中的任一种,包括但不限于agilentsureselecthumanallexon平台(chen等人,2015a,coldspringharbprotoc[冷泉港实验室实验方案];2015(7):626-33.doi:10.1101/pdb.prot083659);rochenimblegenseqcapezexomelibrarysr平台(chen等人,2015b,coldspringharbprotoc[冷泉港实验室实验方案];2015(7):634-41.doi:10.1101/pdb.prot084855);或illuminatruseqexomeenrichment平台(chen等人,2015c,coldspringharbprotoc[冷泉港实验室实验方案];2015(7):642-8.doi:10.1101/pdb.prot084863)。还参见“truseqtmexomeenrichmentguide[truseqtmw外显子富集指南],”目录号fc-930-1012部分号15013230rev.b2010年11月和依诺米那公司(illumina)的“truseqtmrna样品制备指南,”目录号rs-122-9001doc部分号15026495rev.f2014年3月。
在特定实施例中,可使用微阵列技术检测和鉴定指示先兆子痫或有发展先兆子痫风险的母体循环内的c-rna标识的生物标志物。在这种方法中,将目的多核苷酸序列铺板或排列在微芯片底物上。然后将排列的序列与母体生物样品或其纯化和/或富集部分杂交。微阵列可包括多种固体支持物,包括但不限于珠子、玻璃显微镜载片、玻璃晶片、金、硅、微芯片以及其他塑料、金属、陶瓷或生物表面。可以按照制造商的方案,例如通过使用依诺米那公司(illumina)的技术,通过可商购的设备进行微阵列分析。
对于获取、运输、储存和/或处理血液样品以制备循环rna,可以采取多个步骤来稳定样品和/或防止细胞膜的破坏,从而导致细胞rna释放到样品中。例如,在一些实施例中,在处理成血浆之前,可以在具有细胞和dna稳定特性的试管,例如streckcell-freedna
在一些实施例中,在抽血的约24至约72小时内,并且在一些实施例中,在抽血的约24小时内,将血液样品处理成血浆。
在一些实施例中,在处理成血浆之前,在室温下保持、储存和/或运输血液样品。
在一些实施例中,在处理成血浆之前,在没有暴露于冷却(例如,在冰上)或冷冻下,保持、储存和/或运输血液样品。
本披露包括用于诊断先兆子痫和鉴定有发展先兆子痫风险的孕妇的试剂盒。试剂盒是任何包括至少一种试剂(例如,探针)的制品(例如,包装或容器),该试剂用于特异性检测指示先兆子痫或有发展先兆子痫风险的如本文所述的母体循环内的c-rna标识。试剂盒可以作为用于执行本披露的方法的单元被促销、分发或出售。
对先兆子痫具有特异性的母体循环中发现的循环rna标识在非侵入性方法中来诊断先兆子痫和鉴定有发展先兆子痫风险的孕妇中的用途可以与适当的监测和医疗管理相结合。例如,可以需要进一步的测试。此类测试可包括例如血液测试以测量肝功能、肾脏功能和/或血小板和各种凝血蛋白,尿液分析以测量蛋白质或肌酐水平,胎儿超声以监测胎儿生长、体重和羊水,无应激测试以通过胎儿运动来测量胎儿心率,和/或使用超声进行生物物理分析来测量胎儿呼吸、肌肉张力和运动以及可以需要羊水的体积。治疗干预措施可包括,例如,增加产前检查的频率、降压药物以降低血压、皮质类固醇药物、抗惊厥药物、卧床休息、住院和/或提前分娩。参见,例如,townsend等人,2016“currentbestpracticeinthemanagementofhypertensivedisordersinpregnancy[管理妊娠高血压障碍的当前最佳实践],”integrbloodpresscontrol[综合血压控制];9:79-94。
治疗干预措施可能包括对鉴定有发展先兆子痫风险的孕妇施用低剂量阿司匹林。最近的一项多中心、双盲、安慰剂对照试验证明,与安慰剂相比,用低剂量阿司匹林治疗早产型先兆子痫高风险女性导致该诊断的发生率较低(rolnik等人,2017,"aspirinversusplaceboinpregnanciesathighriskforpretermpreeclampsia[早产型先兆子痫高风险的妊娠期中阿司匹林相对于安慰剂],"nengljmed[新英格兰医学杂志];377(7):613-622)。低剂量阿司匹林的剂量包括但不限于每天约50至约150mg、每天约60至约80mg、每天约100或更多mg或每天约150mg。施用可以例如在妊娠16周或之前或妊娠11至14周开始。施用可以持续到妊娠36周。
本发明通过以下实例来阐明。应该理解地是,具体实例、材料、量和程序应根据如本文所阐述的本发明的范围和精神来宽泛地解释。
实例
实例1
针对妊娠独特的c-rna标识
母体血浆中循环核酸的存在为了解胎儿和胎盘的进展和健康提供了一个窗口(图1)。循环rna(c-rna)在母体循环中被检测到,并且来源于两个主要来源。c-rna的很大一部分来源于凋亡细胞,该凋亡细胞将含有c-rna的囊泡释放到血流中。c-rna还通过活性信号传导囊泡(例如,外来体和微囊泡)从各种细胞类型的脱落而进入母体循环。如图2所示,c-rna因此由细胞死亡的副产物以及活性信号传导产物组成。c-rna的特征包括通过常见过程生成,从细胞释放到全身,并且稳定的并包含在囊泡中。它代表循环转录组,其反映了基因表达、信号传导和细胞死亡的组织特异性变化。
出于至少以下原因,c-rna可能成为优秀的生物标志物:
1)所有c-rna都包含在膜结合的囊泡中,其可以保护c-rna免受降解,使其在血液中非常稳定。
2)c-rna来源于所有细胞类型。例如,已显示c-rna含有来自胎盘和发育中的胎儿的转录物。多种来源的c-rna使其可能成为获取关于胎儿和整体母体健康的信息的丰富信息库。
使用标准依诺米那公司(illumina)的文库制备和全外显子富集技术,从血浆样品中制备c-rna文库。这示于图3中。具体地说,使用了依诺米那公司(illumina)truseqtm文库制备和rna访问富集。使用这种方法,生成的文库具有与人编码区对齐的90%读数(图3和图7)。将样品缩减采样至50m读数,并将≥40m映射读数用于下游分析。使用图3所示的c-rna工作流程处理样品。双指数文库。在hiseq2000上进行50x50测序。
如图4所示,将晚期孕妇的血浆样品与非妊娠妇女的血浆样品的结果进行比较,得到针对妊娠独特的清晰标识。此标识的前20个差异丰度基因为cshl1、csh2、kiss1、cga、plac4、psg1、gh2、psg3、psg4、psg7、psg11、csh1、psg2、hsd3b1、grhl2、lgals14、fcgr1c、psg5、lgals13和gcm1。妊娠标识中鉴定的大多数基因都是胎盘表达的,并且也与已发表的数据相关。这些结果还证实胎盘rna可以在母体循环中进入。
实例2
跨孕龄的c-rna标识
该实例表征了整个妊娠期间跨不同孕龄的c-rna标识。可以预料,贯穿整个妊娠期间的不同时间点的c-rna标识的变化将比实例1中指出的妊娠和未妊娠样品的c-rna标识之间的差异更加微妙。如图5所示,随着妊娠的进行,观察到标识基因的c-rna谱图随时间明显变化,其中有一组清晰的基因在早期上调,并且一组清晰的基因在晚期增加。
这些基因包括cgb8、cgb5、zscan23、hspa1a、pmaip1、c8orf4、itm2b、ifit2、cd74、hspa6、tfap2a、trpv6、exph5、capn6、aldh3b2、rab3b、muc15、gsta3、grhl2和cshl1,如图5所列举的。
这些基因还可包括cshl1、csh2、kiss1、cga、plac4、psg1、gh2、psg3、psg4、psg7、psg11、csh1、psg2、hsd3b1、grhl2、lgals14、fcgr1c、psg5、lgals13和gcm1。
整个妊娠过程中的这些变化与来自stevequake和dennislo的发表数据相关。参见,例如,maron等人,2007,“geneexpressionanalysisinpregnantwomenandtheirinfantsidentifiesuniquefetalbiomarkersthatcirculateinmaternalblood[孕妇及其婴儿的基因表达分析鉴定了在母体血液中循环的独特胎儿生物标志物],”jclininvest[临床研究杂志];117(10):3007-3019;koh等人,2014,“noninvasiveinvivomonitoringoftissue-specificglobalgeneexpressioninhumans[对人体组织特异性全基因表达的非侵入性体内监测],”procnatlacadsciusa[美国国家科学院院刊];111(20):7361-6;和ngo等人,2018,“noninvasivebloodtestsforfetaldevelopmentpredictgestationalageandpretermdelivery[用于胎儿发育的非侵入性血液测试预测孕龄和早产分娩],”science[科学];360(6393):1133-1136。发现与胎盘基因表达模式相关的c-rna标识。因此,这种方法能够检测出妊娠期间的细微变化,并提供了非侵入性手段来监测胎盘健康。
实例3
先兆子痫的c-rna标识
在此实例的情况下,鉴定了针对先兆子痫独特的c-rna特征。将在两项研究(rgh14研究(在clinicaltrials.gov中注册为nct0208494)和pearl研究(在本文中也称为pearl生物库;在clinicaltrials.gov中注册为nct02379832))中被诊断患有先兆子痫的孕妇的收集样品中确定c-rna标识,并进行分析(图6)。在诊断先兆子痫时收集两管血液。收集了80个与孕龄匹配的对照样品,以使与先兆子痫疾病状态无关的转录可变性最小化,并控制c-rna标识的孕龄差异。rgh14研究的样品用于鉴定一组生物学相关基因,并且这些生物标志物的预测价值在来自pearl生物库的独立样品队列中得到了验证。
在rgh14数据分析中,针对先兆子痫(pe)独特的c-rna标识是使用treat方法、自举法、刀切法和adaboost方法的四种不同方法鉴定。实例3专注于前3种分析方法,并且实例4专注于adaboost方法。
利用edgr程序的相对于阈值(treat)统计方法的t测试使研究人员可以正式测试(用相关的p值)微阵列实验中的差异表达是否大于给定的(生物学上有意义的)阈值。关于treat统计方法的更详细描述,参见mccarthy和smyth,2009“testingsignificancerelativetoafold-changethresholdisatreat[相对于倍数变化阈值的测试显著性是treat],”bioinformatics[生物信息学];25(6):765-71,以及关于edgr程序的更详细描述,参见robinson等人,2010,“edger:abioconductorpackagefordifferentialexpressionanalysisofdigitalgeneexpressiondata[edger:用于数字基因表达数据差异表达分析的bioconductor软件包],”bioinformatics[生物信息学];26:139-140。关于adaboost方法的更详细描述,参见freund和schapire,1997,“adecision-theoreticgeneralizationofon-linelearningandanapplicationtoboosting[在线学习的决策理论概括及对boosting的应用],”journalofcomputerandsystemssciences[计算机与系统科学杂志];55(1):119-139和pedregosa等人,2011,“scikit-learn:machinelearninginpython[机器学习:python中的机器学习]”,jmlr[机器学习研究杂志];12:2825-2830。adaboost方法将在实例4中进行讨论。
在第一种方法中,使用标准统计测试(treat方法)来鉴定与匹配对照的子集(40名患者)相比,在40名患者的rgh14先兆子痫队列中具有统计学上差异的基因。与匹配对照的子集(40名患者)相比,122个基因在先兆子痫队列(40名患者)中被鉴定为具有统计学上差异(图8,右图)。这些基因包括cyp26b1、irf6、myh14、podxl、ppp1r3c、sh3rf2、tmc7、znf366、adcy1、c6、fam219a、hao2、igip、il1r2、ntrk2、sh3pxd2a、ssuh2、sult2a1、fmo3、fstl3、gata5、htra1、c8b、h19、mn1、nfe2l1、prdm16、ap3b2、emp1、flnc、stag3、cpb2、tenc1、rp1l1、a1cf、npr1、tek、errfi1、arhgef15、cd34、rspo3、alpk3、samd4a、zcchc24、leap2、myl2、nrg3、zbtb16、serpina3、aqp7、srpx、uaca、ano1、fkbp5、scn5a、ptpn21、cacna1c、erg、sox17、wwtr1、aif1l、ca3、hrg、tat、aqp7p1、adra2c、synpo、fn1、gpr116、krt17、azgp1、bcl6b、kif1c、clic5、gpr4、gja5、olah、c14orf37、zeb1、jag2、kif26a、apold1、pnmt、myom3、pitpnm3、timp4、htra4、amph、lcn6、crh、tead4、arms2、pappa2、sema3g、adamts1、alox15b、slc9a3r2、timp3、igfbp5、hspa12b、prg2、prx、arhgef25、adamts2、daam2、fam107a、lep、nes、vsig4、hbg2、cadm2、lamp5、ptgdr2、nomo1、nxf3、pld4、bpifb3、pacsin1、cux2、flg、clec4c和krt5。
treat方法未鉴定出一组能将先兆子痫患者100%准确分类为单独组的基因(图15)。然而,与使用所有测得基因的整个数据集相比,专注于这些鉴定出的基因确实改善了分类(图8,左图)。这突出了专注于基因子集用于预测的价值。然而,在treat方法的情况下,根据选择的对照,在鉴定出的基因中观察到了很大的可变性。为了解决这种生物学可变性并进一步提高我们基因列表的预测价值,开发了第二种自举方法。
在rgh14研究中,可利用比先兆子痫患者样品(40)更多的对照样品(80)。因此,将40个先兆子痫患者样品的rgh14队列与40个对照样品(仍与孕龄匹配)的随机选择进行了比较,并鉴定了先兆子痫队列中统计学上差异的基因列表。如图9所示,然后重复进行1000次,以鉴定一组基因被鉴定的频率。在1,000次迭代中,基因的显著子集仅出现次数不到10次(不到1,000次迭代的1%)。这些低频基因很可能是由于生物噪声引起的,并且可能无法反映出对先兆子痫普遍具有特异性的基因。因此,仅当在进行的1,000次迭代中有50%被鉴定时,才认为该基因在先兆子痫队列中具有统计学上差异,从而进一步缩减选择了基因列表(图9,右图)。如图10所示,差异转录物丰度和额外的自举选择将先兆子痫样品与健康对照区分开。使用这额外要求有助于解决生物学可变性,并进一步提高了对先兆子痫样品正确分类的能力。
使用该自举方法,鉴定出27个与先兆子痫在统计学上相关的基因。这些基因包括timp4、flg、htra4、amph、lcn6、crh、tead4、arms2、pappa2、sema3g、adamts1、alox15b、slc9a3r2、timp3、igfbp5、hspa12b、clec4c、krt5、prg2、prx、arhgef25、adamts2、daam2、fam107a、lep、nes和vsig4。用这种自举方法鉴定的基因与发表数据具有极好的一致性。这些基因中约75%由胎盘表达。如图11所示,存在与先兆子痫的已知标志物重叠,包括pappa和crh。并且,这些基因中的大量涉及胚胎发育、细胞外基质重塑、免疫调节和心血管功能,所有这些途径已知在先兆子痫中均失调。
还开发了第三种刀切法,以捕获具有最高预测价值的基因子集。此方法类似于自举方法。对先兆子痫和对照组的患者随机二次采样,并1,000次鉴定出差异丰度基因。不同于使用基因被鉴定为具有统计学上差异的频率,刀切法计算每个转录物的p值的置信区间(95%,单侧)。将置信区间超过0.05的基因排除。(图16,左图)。
使用刀切法,鉴定出30种基因可预测先兆子痫:vsig4、adamts2、nes、fam107a、lep、daam2、arhgef25、timp3、prx、alox15b、hspa12b、igfbp5、clec4c、slc9a3r2、adamts1、sema3g、krt5、amph、prg2、pappa2、tead4、crh、pitpnm3、timp4、pnmt、zeb1、apold1、pld4、cux2、htra4。
如图16右图所示,该方法在rgh14数据集中对先兆子痫患者进行了很好的分类(比较图15(treat),图10(自举)和图16(刀切))。每个鉴定的基因列表也用于在独立的pearl生物库数据集中对先兆子痫样品进行分类。如图17所示,每个基因列表都能够对先兆子痫样品进行分类。
通过自举和刀切法鉴定的所有基因均以122个treat方法基因表示(表2,dex分析,truseq文库制备方法)。自举和刀切法的基因列表高度一致,其中共有基因超过70%。通过任何方法鉴定出的转录物的近90%在先兆子痫患者中表现出增加的转录物丰度,这与该疾病中信号传导和/或细胞死亡的升高一致。
实例4
用adaboost鉴定c-rna标识
在此实例中,使用替代方法(称为adaboost的可公开获得的机器学习算法)来鉴定与先兆子痫相关的特异性c-rna标识。如图12所示,这种方法鉴定出一组具有最大预测能力以将样品分类为先兆子痫(pe)或正常的基因。使用该基因列表,观察到先兆子痫队列与健康对照的最清晰分离。然而,这种方法也很容易过度训练用于构建模型的样品。因此,使用来自pearl研究的完全独立的数据集验证了预测模型(图13)。使用该adaboost基因列表,可以以85%特异性准确分类85%的先兆子痫样品(图14)。总体而言,adaboost机器学习方法为先兆子痫构建了最准确的预测模型。
使用adaboost方法,鉴定出75个与先兆子痫在统计学上相关的基因(表3,adaboost分析,truseq文库制备方法)。这些基因包括arrdc2、jun、skil、atp13a3、pde8b、gsta3、pappa2、tiparp、lep、rgp1、usp54、clec4c、mrps35、arhgef25、cux2、heatr9、fstl3、ddi2、zmym6、st6galnac3、gbp2、nes、etv3、adam17、atoh8、slc4a3、traf3ip1、ttc21a、heg1、aste1、tmem108、enc1、scamp1、arrdc3、slc26a2、slit3、clic5、tnfrsf21、ppp1r17、tpst1、gatsl2、spdye5、hipk2、mtrnr2l6、clcn1、gins4、crh、c10orf2、trub1、prg2、acy3、far2、cd63、ckap4、tpcn1、rnf6、thtpa、fos、parn、orai3、elmo3、smpd3、serpinf1、tmem11、psmd11、ebi3、clec4m、ccdc151、cpamd8、cnfn、lilra4、ada、c22orf39、pi4kap1和arfgap3。
还开发了改进版adaboost模型来对pe样品进行可靠的分类。为了创建可以准确预测新样品的通用机器学习模型,我们使用了严格的方法来避免过度拟合单个数据集,并用未用于模型构建的样品验证最终分类模型。如图18所示,将rgh14数据集通过随机选择分为6个部分:一个保留子集,其中具有12%的样品被排除在模型构建之外,和5个大小均匀的测试子集。对于每次迭代,将子集指定为训练数据或测试样品。此过程从构建adaboost模型开始,对此数据子集最少重复10次。在为5个测试训练子集构建了50个高性能模型后,将所有模型的估计量合并到单个adaboost模型中。
使用改进版adaboost模型,鉴定了11个与先兆子痫态统计学上相关的基因。这些基因包括clec4c、arhgef25、adamts2、lep、arrdc2、skil、pappa2、vsig4、arrdc4、crh和nes。使用来自rgh14的保留数据集以及在完全独立的pearl生物库队列中验证了此预测模型的性能(图19)。
adaboost模型创建描述。通过以下方法对adaboost分类方法进行了改进,以获得更具特异性的基因集(adaboost改进版1-7),也如图18所示。将rgh14数据集通过随机选择分为6个部分:一个保留子集,其中具有12%的样品被排除在模型构建之外,和5个大小均匀的测试子集。
对于每个测试子集,将训练数据指定为保留样品或测试样品中的所有样品。将测试和训练样品的基因计数在edger中进行tmm归一化,然后进行标准化,以使训练数据对于每个基因的均值为0以及标准偏差为1。然后将具有90估计量和1.6学习率的adaboost模型拟合到训练数据。然后通过确定模型中每个基因的特征重要性并使用重要性低于阈值的基因测试消除估计量的影响来执行特征修剪。选择以最少的基因获得最佳性能(如通过测试数据分类的matthew相关系数所测量)的阈值,并保留该模型。此过程从构建adaboost模型开始,对此数据子集最少重复10次。
在为5个测试训练子集构建了所有50个以上的模型后,将所有模型的估计量合并到单个adaboost模型中。再次进行特征修剪,这次使用将基因纳入阈值的模型的百分比,并使用平均负对数损失值评估性能,以对每个测试子集进行分类。选择以最少基因获得最大负对数损失值的模型作为最终adaboost模型。
adaboost基因列表。重复此过程后,由于adaboost算法实现中固有的随机性,因此在最终模型所选择的基因中观察到了微小变化,然而,在预测测试数据,保留数据和独立(pearl)数据集方面保持高性能。
在生成的14个adaboost改进版模型的至少一个中观察到总共11个基因:adamts2、arhgef25、arrdc2、arrdc4、clec4c、crh、lep、nes、pappa2、skil、vsig4(adaboost改进版1),尽管未生成同时包含所有的模型。
观察到的两个基因集对分类独立数据提供了最高性能。这些是adaboost改进版2:adamts2、arhgef25、arrdc2、clec4c、lep、pappa2、vsig4和adaboost改进版3:adamts2、arhgef25、arrdc2、clec4c、lep、pappa2、skil、vsig4。
另外四个基因集的表现与adaboost改进版2-3几乎一样高。这些是adaboost改进版4:adamts2、arhgef25、arrdc4、clec4c、lep、nes、skil、vsig4;adaboost改进版5:adamts2、arhgef25、arrdc2、arrdc4、clec4c、crh、lep、pappa2、skil、vsig4;adaboost改进版6:adamts2、arhgef25、arrdc2、clec4c、lep、skil;和adaboost改进版7:adamts2、arhgef25、arrdc2、arrdc4、clec4c、lep、pappa2、skil。
实例5
用基于转座体的文库制备鉴定c-rna标识
rgh14样品也通过依诺米那公司(illumina)nexteraflexforenrichment方案进行处理,富集全外显子,并测序至>4000万个读数。对于低输入量,此方法更敏感且更可靠,因此可能会鉴定出预测先兆子痫的其他基因。该数据集通过三种分析方法运行:标准差异表达分析(treat)、刀切法和改进版adaboost模型。有关这些分析方法的详细说明,请参见实例3和实例4。
改变用于产生文库的方法改变了在所有三种分析方法中检测到的基因。对于treat方法,鉴定出26个在先兆子痫中差异丰度的基因,而大多数又在先兆子痫中表现出升高的丰度(参见表2,dex分析,nexteraflexforenrichment文库制备方法)。这些基因包括adamts1、adamts2、alox15b、amph、arhgef25、celf4、daam2、fam107a、hspa12b、htra4、igfbp5、kcna5、krt5、lcn6、lep、lrrc26、nes、olah、pacsin1、pappa2、prx、ptgdr2、sema3g、slc9a3r2、timp3、vsig4。图20显示了具有该基因列表的rgh14样品的分类。
应用刀切分析法将treat列表缩减选择为22个被鉴定为在先兆子痫中差异丰度的基因。这些基因包括adamts1、adamts2、alox15b、arhgef25、celf4、daam2、fam107a、htra4、igfbp5、kcna5、krt5、lcn6、lep、lrrc26、nes、olah、prx、ptgdr2、sema3g、slc9a3r2、timp3、vsig4。该列表的改进性能如图20所示。
如实例4中所述,将改进版adaboost模型方法应用于此数据。使用该方法,鉴定出24个与先兆子痫统计学上相关的基因(表3,adaboost分析,nexteraflexforenrichment文库制备方法)。这些基因包括lep、pappa2、kcna5、adamts2、myom3、atp13a3、arhgef25、ada、htra4、nes、crh、acy3、pld4、sct、nox4、pacsin1、serpinf1、skil、semag3、tiparp、lrrc26、phex、lilra4和per1。该预测模型的性能如图21所示。
实例6
来自母体血液的循环转录组测量检测早发性先兆子痫标识
非侵入性监测从妊娠到出生的妊娠健康状况的分子工具可以准确检测有不良结果风险的妊娠。循环rna(c-rna)被所有组织释放到血液中,可对胎盘、胎儿和母体健康状况进行方便,全面的测量(koh等人,2014,proceedingsofthenationalacademyofsciences[美国科学院学报];111:7361-7366;和tsui等人,2014,clinicalchemistry[临床化学];60:954-962)。先兆子痫(pe),普遍且可能致命的妊娠并发症,起源于胎盘,但随着疾病的发展而获得大量的母体组分(staff等人,2013,hypertension[高血压];61:932-942;和chaiworapongsa等人,2014,naturereviewsnephrology[自然综述:肾脏病学];10,466-480)。然而声称的生物标志物已显示出有限的临床效用(poon和nicolaides,2014,obstetricsandgynecologyinternational[国际妇产科];2014:1-11;zeisler等人,2016,nengljmed[新英格兰医学杂志];374:13-22;和duhig等人,2018,f1000research[f1000研究];7:242)。假设循环转录组的表征可以鉴定更好的生物标志物,对113名孕妇分析c-rna,其中40名处于早发性pe诊断。使用新颖的工作流程,鉴定了30个转录物的丰度差异,其与pe的生物学一致并代表胎盘、胎儿和母体贡献。此外,开发了机器学习模型,证明仅需要七种c-rna转录物就将pe分为两个独立队列(准确度为92%-98%)。在该实例中披露的c-rna的总体测量结果突出了在监测母体和胎儿健康状况的实用性,并为高危妊娠的诊断和预测提供了广阔的前景。
若干项研究已开始调查和鉴定在c-rna中针对一系列妊娠并发症的潜在生物标志物(pan等人,2017,clinicalchemistry[临床化学];63:1695-1704;whitehead等人,2016,prenataldiagnosis[产前诊断];36:997-1008;tsang等人,2017,procnatlacadsciusa[美国国家科学院院刊];114:e7786-e7795;和ngo等人,2018,science[科学];360:1133-1136)。然而,这些研究涉及的患者很少,并且仅限于监测少量基因-几乎仅是胎盘和胎儿衍生的转录物。整个循环转录组的测量很难进行,因为它们需要进行特异性的前期样品收集和处理,以最大程度地减少细胞裂解产生的可变性和污染(chiu等人,2001,clinicalchemistry[临床化学];47:1607-1613;和page等人,2013,plosone[公共科学图书馆综合];8:e77963)。这种复杂的工作流程使得大量临床样品收集难以实现,因为对于许多诊所而言,立即处理血液样品所需的人力是不可行的(marton和weiner,2013,biomedresearchinternational[国际生物医学研究];2013:891391)。因此,在此实例情况下,建立了方法,该方法允许将血液过夜运送到处理实验室,在该实验室中,样品制备的每个步骤都在受控环境中进行,从而为临床试验水平评估提供了可扩展的平台(图22a)。
这种方法的关键是能够将血液过夜运送到处理实验室。在若干种试管中,在室温下过夜运输后评估了c-rna妊娠信号(图26a-26c)。储存在edta试管中的血液,先前c-rna研究使用的黄金标准,显示出与妊娠相关的转录物的丰度的降低和转录组概况的总体不稳定(qin等人,2013,bmcresearchnotes[bmc研究笔记];6:380)。相比之下,用于非侵入性产前测试(nipt)的主要试管类型,无细胞dnabct(streck)保留了来自胎盘转录物的信号,并提高了技术再现性(图26b)(medinadiaz等人,2016,plosone[公共科学图书馆综合];11:e0166354)。
运送血液使我们能够轻松地从单管血液中平均获得每位患者5ml血浆。当使用不同的血浆体积时,评估了c-rna数据质量的差异,并确定使用<2ml血浆显著增加了噪音并降低了文库复杂性(图27a和27b)。因此,将4ml血浆用于本实例的研究,以最大化数据质量的置信度。
通过概述从早期到晚期监测每个健康妊娠>10,000个转录物的c-rna动态的先前工作,验证了这种新颖的工作流程。使用从45例健康妊娠中连续收集的152个样品(先兆子痫和生长受限纵向研究对照队列-pearl;nct02379832;表5),鉴定出156个显著改变的转录物,其中大多数的丰度随着妊娠进行而增加(图22b)。在先前的c-rna研究中鉴定出42%的改变基因(图22c)(koh等人,2014,proceedingsofthenationalacademyofsciences[美国科学院学报];111:7361-7366;和tsui等人,2014,clinicalchemistry[临床化学];60:954-962)。仅在本研究中鉴定出的91个转录物中,64%由胎盘和/或胎儿组织表达(图22d和28a-28c)。据推测,其余的基因反映了母体对妊娠的反应。
研究设计
对于下一阶段的调查,将工作流程应用于临床样品,以测量pe中c-rna的变化(ipc,依诺米那公司(illumina)先兆子痫队列)。pe是异质性障碍,并且基于其在妊娠34周之前(早发性)或之后(晚发性)而与不同的严重性和患者结果相关(staff等人,2013,hypertension[高血压];61:932-942;chaiworapongsa等人,2014,naturereviewsnephrology[自然综述:肾脏病学];10,466-4803;和dadelszen等人,2003,hypertensioninpregnancy[妊娠期高血压];22:143-148)。这项研究专注于更严重的早发性pe,并定义了具有明确的纳入和排除要求的严格诊断标准-最关键的是排除了任何具有慢性高血压病史的人-为了获得一个干净的队列(表6)(nakanishi等人,2017,pregnancyhypertension[妊娠高血压];7:39-43;和hiltunen等人,2017,plosone[公共科学图书馆综合];12:e0187729)。在整个研究中记录了母体特征,妊娠结果和所用药物(表7)。在8个位点收集了113个样品(表8),40个样品处于pe诊断,并且73个对照在1周内孕龄匹配(图23a)。与9.5%的对照相比,除一名患有pe的妇女外,所有妇女均早产,证实了这些诊断标准以鉴定受该疾病严重影响的个体(图23c)。
将所有样品随机分布在多个处理批次中,然后测序至≥40m读数。使用整个队列的标准差异表达分析鉴定了42个变化的转录物,其中37个在pe中升高(图24a,蓝色和橙色)。然而,值得关注的是,当选择不同的对照子集进行分析时,在检测到变化的基因中观察到高可变性。
为了解决这种差异,采用了刀切法,该方法可以鉴定出最一致改变的基因(图24a和24b,橙色)。用随机选择的样品子集进行了1,000次差异分析迭代,这允许构建与每个推定变化的转录物相关的p值的置信区间(图29a)。排除了置信区间超过0.05的12个基因(图24b)。仅通过设置基线丰度或生物差异的阈值就不会排除这些基因(图29b),然而,观察到这些转录物的预测价值较低(图29c)。层次聚类表明这些基因在pe队列中并未普遍改变,并且因此缺乏对该条件的准确分类的敏感性(73%)(图29d)。
然后,分析专注于精炼的30个基因集,其中60%以前与pe相关(namli等人,2018,hypertensioninpregnancy[妊娠期高血压];37:9-17;than等人,2018,frontiersinimmunology[免疫学前沿];9:1661;kramer等人,2016,placenta[胎盘];37:19-25;winn等人,2008,endocrinology[内分泌学];150:452-462;和liu等人,2018,molecularmedicinereports[分子医学报告];18:2937-2944)。qpcr分析证实了20个基因中的19个在pe中发生了显著改变(图24c,表9)。令人惊讶的是,40%的这些基因编码细胞外或分泌的蛋白质产物。此外,几乎所有基因都参与了pe相关过程,包括细胞外基质(ecm)重塑、妊娠持续时间、胎盘/胎儿发育、血管生成和缺氧反应(表10)。67%的这些转录物由胎盘和/或胎儿表达(图24d)。在其余母体表达的转录物中,心血管和免疫功能得到了很好的体现(表10)。这些基因的层次聚类有效分离了pe和对照样品,灵敏度为98%,特异性为97%(图24e)。有趣的是,这两种错误鉴定的对照的临床数据表明健康问题可能令人困惑,如他们使用高血压药物所表明的那样(表7)。
使用在ipc中鉴定的基因,评估了对从独立生物库获得的一组样品进行聚类的能力-先兆子痫和生长限制纵向研究(pearl;nct02379832;图23b和23c,表11)。该队列由早发性(在<34周被诊断出);和晚发性pe以及孕龄匹配的对照组成。早发性pe样品与匹配的对照分别聚类,敏感性为83%,并且特异性为92%,进一步证实了这些转录物的相关性(图24f)。相反,对于晚发性pe和匹配的对照样品没有观察到聚类(图24g)。
然后,将ipc数据用于构建adaboost模型,以对pe样品进行可靠的分类。为了创建可以准确预测新样品的通用机器学习模型,使用了一种严格的方法,该方法避免过拟合到单个数据集,并用未用于模型构建的样品验证了最终分类模型(图30a-30d和图31a-31e)。出乎意料的是,最终模型仅利用了7个基因,其中3个基因以前没有被报道过(图25a)。对于整个ipc队列,此模型以极高的准确性对样品进行分类(auc=0.99,灵敏度=98%,特异性=99%;图25b和25c,蓝色)。还对早发性pepearl样品进行了准确分类(auc=0.88,灵敏度=100%,特异性=83%;图25b和25c,粉红色)。出乎意料的是,也以合理的准确性对晚发性pepearl样品进行了分类(auc=0.74,灵敏度=75%,特异性=67%;图25b和25c,绿色)。
该基因集与通过差异丰度分析鉴定的转录物高度一致(图25d;表10)。分类模型依赖于胎盘和母体表达的转录物(图25e)。模型使用的所有基因形成细胞外或膜结合的蛋白质产物。尽管adaboost选择的基因数量很少,但观察到多种与pe相关的功能,特别是心血管功能和血管生成、免疫调节、胎儿发育和ecm重塑。
方法
前瞻性临床样品收集。孕妇患者被招募到符合优良临床试验规范的国际协调会议的依诺米那公司(illumina)赞助的临床研究方案中。知情同意后,从40名妊娠34周前以其严重特征符合acog指南定义而诊断为先兆子痫的孕妇中收集20ml全血样品(表6)。还收集了来自76例健康妊娠的样品,并根据其孕龄与先兆子痫组进行匹配。三个对照样品在采血后出现足月先兆子痫,并从数据分析中排除。有关详细的入选和排除标准,参见表6。还记录了患者的临床病史,治疗和出生结果信息(表7)。
在8个不同的临床地点招募患者,包括德克萨斯大学医学分校(德克萨斯州加尔维斯顿(galveston,texas))、塔夫茨医学中心(麻萨诸塞州波士顿(boston,ma))、哥伦比亚大学欧文医学中心(纽约州纽约)、温思罗普大学医院(纽约州米诺拉(mineola,ny))、圣彼得大学医院(新泽西州新不伦瑞克(newbrunswick,nj))、克里斯蒂安娜护理(新泽西州纽瓦克(newark,de))、罗格斯大学罗伯特伍德约翰逊医学院(新泽西州新不伦瑞克(newbrunswick,nj))和纽约长老会/皇后区(纽约州纽约)。该临床方案和知情同意书已获得每个临床站点的机构审查委员会的批准。有关患者在临床地点的分布,参见表8。
pearl验证队列研究设计。依诺米那公司(illumina)从先兆子痫和生长受限纵向研究(pearl;nct02379832)获得的血浆样品将用作独立的验证队列。研究完成后获得血浆样品。pearl样品是在魁北克大学中心医院(chudequébec)与主要调查人员医学硕士emmanualbujold一起收集的。在这项研究中招募了一组45例对照妊娠和45例妊娠,并获得了所有患者的书面知情同意书。只有18岁以上的参与者才有资格,并且所有妊娠者均为单胎。
先兆子痫组。先兆子痫的标准是根据加拿大妇产科医生学会(sogc)2014年6月版先兆子痫标准定义的,孕龄要求在20与41周之间。诊断时取一次血液样品。
对照组。在11与13周孕龄之间招募了45名预期正常妊娠的孕妇。在整个妊娠至出生期间的4个时间点,对每位招募患者进行纵向抽血。将对照妇女分为三个子组,并且随后的随访抽血被错开以覆盖整个妊娠期间的整个孕龄范围(表5)。
将pearl对照样品用于两个目的。来自45名单个女性的153个纵向样品用于监测整个妊娠期间的胎盘动力学。此外,选择对照样品以与先兆子痫队列进行比较,将其根据孕龄相匹配并用于验证模型。
研究样品处理。不了解疾病状况的调查人员对来自依诺米那公司(illumina)前瞻性收集的所有样品和pearl样品进行了相同的处理。按照制造商的说明,每位患者在无细胞dnabct管(streck)中收集两管血液。在室温下储存和过夜运输血液样品,并在72小时内处理。在室温下将血液以1,600xg离心20分钟,将血浆转移至新试管中,并以16,000xg再离心10分钟以去除残留的细胞。将血浆在-80℃下储存直至使用。使用循环核酸试剂盒(凯杰公司(qiagen))从4.5ml血浆中提取循环rna,然后根据制造商的说明进行dna酶i消化(赛默飞世尔科技公司(thermofisher))。
cdna合成和文库制备。使用依诺米那公司(illumina)trusighttumor170文库制备试剂盒(诺米那公司(illumina))在94℃下将循环rna片段化8分钟,然后进行随机六聚体引发的cdna合成。根据用于rna的tst170肿瘤文库制备试剂盒进行依诺米那公司(illumina)测序文库制备,并进行了以下修改以适应低rna输入。将所有反应减少至原始体积的25%,并以1比10的稀释度使用连接衔接子。使用高灵敏度dna分析试剂盒通过agilentbioanalzyer2100(安捷伦公司(agilent))评估了文库质量。
全外显子富集。使用quant-itpicogreendsdna试剂盒(赛默飞世尔科技公司(thermofisherscientific))对测序文库进行定量,归一化至200ng输入量,并且每个富集反应合并到4个样品中。根据truseqrna访问文库制备指南(依诺米那公司(illumina))进行全外显子富集。富集反应中还包括缺少针对血红蛋白基因hba1、hba2和hbb设计的5'生物素的其他阻断寡核苷酸,以减少测序文库中这些基因的富集。使用quant-itpicogreendsdna试剂盒(赛默飞世尔科技公司(thermofisherscientific))对最终富集文库进行定量,归一化并合并以在依诺米那公司(illumina)hiseq2000平台上进行配对末端50×50测序,每个样品的最小深度为4000万个读数。
数据分析。除非另有说明,否则所有统计测试都是双侧的。当数据不是正态分布时,使用非参数测试。将测序读数用高帽(v2.0.13)映射到人类参考基因组(hg19),并用featurecounts(subread-1.4.6)相对于refgene坐标(10/27/2014获得)量化转录物丰度。组织表达数据获自bodyatlas(correlationengine,basespace,依诺米那公司(illumina,inc))(kupershmidt,等人,2010,plosone[公共科学图书馆综合]5;10.1371/journal.pone.0013066)。将在胎盘或任何胎儿组织(脑、肝、肺和甲状腺)中的所有组织中表达≥中值表达2倍的v基因指定为该组。亚细胞定位获自uniprot。
在排除<25%样品中cpm≤0.5的基因后,使用edger(v3.20.9)在r(v3.4.2)中进行差异表达分析。通过tmm方法对数据集进行归一化,并通过对对数倍数变化≥1进行glmtreat测试鉴定出差异丰度基因,然后进行bonferroni-holmp值校正。对每次刀切迭代使用相同的过程,使用每组90%的样本(通过随机取样选择而无需替换)。经过1,000次刀切迭代后,用统计模型(v0.8.0)计算基因水平p值的单侧95%置信区间。用平方欧氏距离和平均链接进行层次聚类分析。
adaboost用机器学习(v0.19.1,sklearn.ensemble.adaboostclassifier)在python中执行。通过网格搜索确定最佳超参数值(估计量为90,学习率为1.6),使用matthew相关系数来量化性能。总体adaboost模型开发策略在图31a-31e中进行了说明。在拟合分类器之前,先对数据集(<25%样品中cpm≤0.5的基因的tmm归一化对数cpm值)进行标准化(sklearn.preprocessing.standardscaler)。将拟合于训练数据的相同缩放器应用于相应的测试数据集;将用于5个训练数据集的所有5个缩放器平均后用于最终模型。将决策函数分数用于构建roc曲线并确定样品分类。
rt-qpcr验证测定和分析。从随机选择的19个先兆子痫(pe)和19个匹配的对照样品中的2ml血浆分离c-rna并转化为cdna。使用taqmanpreampmastermix(目录4488593)将cdna预扩增16个循环,并稀释10倍至500μl的最终体积。对于qpcr,使用制造商的说明,反应混合物含有5μl稀释的预扩增cdna,10μltaqman基因表达主混合物(目录号4369542),1μltaqman探针和4μl水。对于每个taqman探针(表9),每个稀释的cdna样品均进行三个qpcr反应,并使用bio-radcfx管理器软件确定cq值。为了确定每个靶基因的基因丰度,使用五个参考基因探针之间的平均cq值(参考cqavg)计算δδcq=2^-(靶cq-参考cqavg)。为了确定每个探针的倍数变化(pe/ctrl),将每个样品的δδcq值除以匹配对照组的平均δδcq值。
试管类型研究。为了评估试管类型和过夜运输对循环rna品质的影响,将血液从孕妇和非孕妇中抽取在以下试管类型中:k2edta(bd公司(becktondickinson))、acd(bd公司(becktondickinson))、无细胞rnabct试管(streck)和1无细胞dnabct试管(streck)。将8ml血液抽取在每个试管中,并在冰袋(edta和acd)上运输过夜,或在室温下(无细胞rna和dnabct试管)运输。抽血后24小时内将所有运输的血液试管处理成血浆。作为参考,还将8ml血液抽取在k2edta试管中,并在4小时内就地处理成血浆,并作为血浆在干冰上运输。如方法部分中所述进行所有血浆处理和循环rna提取。每个条件使用3ml血浆以生成测序文库,以如所述使用依诺米那公司(illumina)方案进行富集。
再现性研究。从10位个体获得血浆并将其分为4ml、1ml和0.5ml体积,每个体积重复3次。如前所述,对所有样品进行循环rna提取(凯杰公司(qiagen)循环核酸试剂盒)和随机引发的cdna合成。对于使用4.5ml血浆输入的文库,如上所述使用tst170肿瘤文库制备试剂盒生成测序文库。对于1ml和0.5ml输入,使用accel-ngs1splusdna文库试剂盒(斯威夫特生物科学(swiftbiosciences))生成文库。如上所述,对所有样品进行了全外显子富集和测序。
讨论
这项研究专注于鉴定早发性pe普遍的差异,支持临床可行的生物标志物发现的最终目标。这需要调整分析方法以解决数据中观察到的可变性。这种变化源于c-rna测量中的大量生物学噪声以及pe的表型多样性。c-rna本质上比单个组织转录组学更具可变性,因为它代表了细胞死亡、信号传导和所有器官中的基因表达的组合。此外,pe表现出广泛的母婴结果,这可能与不同的潜在分子病因有关。尽管被淘汰的基因可能与pe具有生物学相关性,但它们在队列中并不普遍。有趣的是,排除的转录物在特定女性中升高,这些女性可能代表pe的分子子集。较大的队列将有助于阐明c-rna是否能描述pe亚型,这对于了解该病状的多种病理生理学是至关重要的。
通过adaboost鉴定出最普遍的转录物集。通过对独立的早发性pe队列进行高度准确的分类(pearl),强调了该方法的成功。这些样品是从具有明显宽松的纳入和排除标准的不同群体中收集的,例如,包括对照组中妇女患有慢性高血压、妊娠糖尿病或alport综合征-没有一个被误认为患有pe。与分层聚类相反,通过本实例的机器学习模型对晚发性pe队列的24位个体中的17位进行了正确分类,在给出早发性pe和晚发性pe是不同病症的情况下,这是令人惊讶的。这个实例的发现表明,在所有pe中可能存在一些普遍改变的途径。
在每次评估中,c-rna揭示了胎盘、胎儿和母体表达的转录物的变化。在pe样品中观察到的最显著趋势中的一种是大量ecm重塑和细胞迁移/侵袭蛋白(fam107a、slc9a3r2、timp4、adamts1、prg2、timp3、lep、adamts2、zeb1、hspa12b)的丰度增加,并伴有功能失调性绒毛外滋养层浸润和这种疾病特征性的母体血管的重塑。早发性pe的母体侧表现为心血管功能障碍、炎症和早产(pnmt、zeb1、crh),在本实例的数据中,所有这些均显示出异常行为的分子信号。
表5:45例健康妊娠的pearl对照队列妊娠年龄分布
表6:具有严重特征的先兆子痫的诊断标准和纳入/排除标准
表7:依诺米那公司(illumina)先兆子痫队列的研究特征
*定义为出生体重<男性或女性胎儿群体的10%
表8:医疗中心收集地点患者分布
表9:通过taqmanqpcr验证的基因
表11:依诺米那公司(illumina)先兆子痫队列的研究特征
*定义为出生体重<男性或女性胎儿群体的10%
在此援引的所有专利、专利申请、和出版物、和以电子方式可获得的材料(包括,例如,核苷酸序列提交,例如genbank和refse,和氨基酸序列提交,例如swissprot、pir、prf、pdb,以及来自genbank和refseq中经注释的编码区的翻译)的完整披露内容通过引用以其全文并入。出版物中引用的补充性材料(如补充性表、补充性图、补充性材料和方法、和/或补充性实验数据)同样地通过引用以其全文并入。在本申请的披露内容和通过引用方式并入文中的任何文献的披露内容之间存在任何不一致性的情况下,本申请的披露内容应当占据主导。仅出于清楚理解起见给出以上详细说明和实例。不应将其理解成不必要的限制。本披露不局限于所显示和描述的这些精确细节,对于本领域普通技术人员而言明显的变化将包含在由权利要求所限定的本披露之内。
除非另有说明,否则在说明书和权利要求书中使用的表示组分、分子量等的所有数字均应理解为在所有情况下被术语“约”修饰。因此,除非另有相反指示,否则说明书和权利要求书中列出的数值参数是近似值,其可以根据本发明所寻求获得的期望性质而变化。最低限度并且不试图限制等效物原则应用到本权利要求书的范围,每一个数值参数至少应该按照报告的有效数字的数量以及通过应用普通的舍入方法来解释。
虽然阐述本发明的广泛范围的数值范围和参数是近似值,但是在具体实例中阐述的数值被尽可能地精确地报道。然而,所有数值固有地都包含一个范围,该范围必然是由它们各自的测试结果中存在的标准偏差产生。
所有标题旨在方便读者并且不应当用来限制该标题后续文本的意思,除非如此说明。