一种血小板102基因用于卵巢癌的诊断模型、构建方法及应用

文档序号:31707606发布日期:2022-10-01 12:30阅读:161来源:国知局
一种血小板102基因用于卵巢癌的诊断模型、构建方法及应用

1.本发明属于生物标志物技术领域,尤其涉及一种血小板102基因用于卵巢癌的诊断模型、构建方法及应用。


背景技术:

2.目前,ca125是目前临床上应用最广泛的血小板102基因用于卵巢癌的诊断标志物,但其在临床上的应用存在诸多局限性:
3.(1)总体特异性不高
4.女性生理期、妊娠状态,或者子宫内膜异位症、盆腔炎等良性疾病也可能导致ca125升高。
5.(2)针对特殊类型卵巢癌的敏感性较差
6.尽管80%的上皮性卵巢癌患者往往伴随ca125升高,但交界性、早期及非上皮性卵巢恶性肿瘤患者的ca125往往是阴性的。
7.由于存在上述局限性,迄今为止规模最大(超20万人)的卵巢癌筛查试验ukctocs的最新分析结果再次证明,单独使用血清肿瘤标志物ca125筛查或者联合经阴道超声均无法有效降低卵巢癌患者的死亡率。因此,不推荐一般人群做基于ca125的筛查。
8.通过上述分析,现有技术存在的问题及缺陷为:
9.(1)现有基于ca125的血小板102基因用于卵巢癌的诊断标志物总体特异性不高,针对特殊类型卵巢癌的敏感性较差。
10.(2)单独使用血清肿瘤标志物ca125筛查或者联合经阴道超声均无法有效降低卵巢癌患者的死亡率。
11.解决以上问题及缺陷的难度为:目前尚无临床可行的兼顾敏感度和特异性的血小板102基因用于卵巢癌的诊断标志物。
12.解决以上问题及缺陷的意义为:
13.(1)早期卵巢癌患者的5年生存率可达90%,而晚期卵巢癌的五年生存率不及40%。因此,提高早期卵巢癌的检出率将从根本上改善卵巢癌患者的预后。
14.(2)提高当前血小板102基因用于卵巢癌的诊断的特异性将保护育龄期女性的生育力及全年龄层女性患者的卵巢功能;减轻患者精神、经济负担。


技术实现要素:

15.针对现有技术存在的问题,本发明提供了一种血小板102基因用于卵巢癌的诊断模型的构建方法,尤其涉及一种基于血小板102基因的血小板102基因用于卵巢癌的诊断模型、构建方法及应用。
16.本发明是这样实现的,一种血小板102基因用于卵巢癌的诊断模型的构建方法,所述血小板102基因用于卵巢癌的诊断模型的构建方法包括以下步骤:
17.步骤一,进行血小板样本采集、分离和提取;纯化血小板;
18.步骤二,进行血小板rna提取与质控;纯化血小板rna;
19.步骤三,进行血小板样本rna-seq建库及测序;获取构建模型所需的血小板转录组原始数据;
20.步骤四,进行血小板rna-seq原始数据处理;清洗构建模型所需的血小板转录组原始数据;
21.步骤五,进行特征选择及模型构建;挑选建模所用特征并优化模型参数。
22.进一步,步骤一中,所述血小板样本采集、分离和提取,包括:
23.采集未经治疗的卵巢癌患者外周血6ml于edta抗凝管中常温直立静置;将采血管置于常温离心机中以120g离心20min得到富含血小板的血浆prp及下层血细胞沉淀;吸取上步所得上层血浆与红细胞沉淀交界处的白细胞层速冻于液氮中,将prp分装于1.5ml离心管,继续常温以360g离心20min后得到上层血浆及血小板沉淀;吸取上步离心所得血浆的十分之九分装于1.5ml离心管,向剩余血小板沉淀中加入300μl rna-later后置于4℃冰箱后过夜;将离心所得的血小板于液氮罐内过夜后转入-80℃冰箱内长期冻存。
24.进一步,步骤二中,所述血小板rna提取与质控,包括:
25.冷冻保存的血小板在之前于冰上解冻复溶,总rna通过qiagen 74004rneasy micro kit进行提取;使用agilent 2100进行rna质控检测,仅当检测指标rin>7及总量≥10pg的样本才被定义为质控合格标本,并进行后续测序。
26.进一步,步骤三中,所述血小板样本rna-seq建库,包括:
27.根据样本提取血小板rna提取情况及建库起始量要求,按提取rna量的多少分为微量建库及常规建库两种方式:
28.(1)微量建库,血小板rna提取总量<50ng
29.使用基于smart-seq的单细胞扩增技术,通过带有polyt尾引物抓取mrna并反转录获得一链cdna,而后经过引物消化、二链合成,继而pcr扩增cdna;扩增产物质控:扩增后,取扩增产物用agilent 2100bioanalyzer进行检测,看条带分布区间,以及阴性和阳性对照是否有条带。
30.(2)常规建库,血小板rna提取总量≥50ng
31.建库流程:转录组文库构建。对合格的样品进行dnase i消化,用oligo磁珠分离出mrna,用超声将mrna打断到一定的片段,合成cdna,随后进行dna片段末端修复,在片段的3’端加上“a”,连接文库接头,进行pcr,构建出杂交文库;针对rna样本,采用电泳和agilent bioanalyzer方法进行样品检测;样本必须符合转录组建库要求。
32.进一步,步骤(2)中,所述文库质控,包括:
33.构建完成的文库,采用agilent 2100检测浓度和片段长度,用qpcr检测文库分子浓度,文库片段大小和浓度须符合illumina hiseq上机标准。
34.进一步,步骤三中,所述血小板样本rna-seq建库测序方式,包括:
35.(1)微量建库测序方式
36.测序平台为hiseqxten,测序策略为pe150;扩增的cdna打断后经过末端修复、加“a”,加接头,pcr扩增后,电泳切胶纯化,后胶回收,即可得到所需测序文库;将构建好的文库用agilent 2100bioanalyzer和abi steponeplus real-time pcr system进行质量和产量检测,质控合格后即可使用illumina hiseq测序。
37.(2)常规建库测序方式
38.测序策略:hiseqxten,pe151测序;建库流程:转录组文库构建,对合格的样品进行dnase i消化,用oligo磁珠分离出mrna后,用超声将mrna打断到一定的片段,合成cdna,随后进行dna片段末端修复,在片段的3’端加上“a”,连接文库接头,进行pcr,构建出杂交文库。
39.进一步,步骤四中,所述血小板rna-seq原始数据处理,包括:
40.fastq文件中血小板转录组的原始数据经过本发明内部的rna测序流程处理。简而言之,使用fastqc(v0.11.8)修剪原始读数,并通过star(v2.7.0)将干净读数映射到人类参考基因组(hg19)。为了量化基因表达,对齐的读数经过htseq 2和ensembl基因注释版本87.4,5此后,以《5
×
106的总读取计数过滤样本。使用r-package ineq(v0.2.13)排除了基于变异系数(截止值》3)的队列样本中具有《10个读数的基因和高变基因。进一步,所述变异系数截止值》3。
41.进一步,步骤五中,所述数据标准化及批次效应校正,包括:
42.在归一化过程中,使用r包deseq2对训练队列的原始读取计数进行“方差稳定转换”,参数“blind=false”用于归一化,“dispersion function”用于分散估计;对于验证队列,将来自训练队列的估计离散值分配为离散值,并进行归一化;使用r-package传播的“bigcor”函数进行pearson相关,产生相关性《0.4的样本,并从训练队列中排除,排除样本间相关性低的样本。
43.使用默认参数在r包sva中通过svaseq识别的替代变量分析所述潜在的混杂因素,减少年龄、文库大小和用于进一步分类的已知批次的影响。每个估计的替代变量与癌症或非癌症组中的潜在混杂因素相关。连续变量通过pearson相关性与替代变量相关,分类变量使用双边学生t检验进行比较;相关p值《0.05的替代变量不会被调整,所述确定的混杂因素用于通过“remove batch effect”从limma中调整标准化数据。
44.使用r包edaseq中的plotrle函数比较消除混杂因素前后的性能并绘制相对对数强度rle。
45.进一步,步骤六中,所述特征选择及模型构建,包括:
46.设计用于高维rna测序数据特征选择的最小冗余基因过滤mrgf算法,根据训练集血小板rna测序数据进行mrgf基因选择。
47.①
首先排除低丰度和高度不平等的基因;
48.②
通过r包插入符号中的findcorrelation函数排除具有高内相关性的基因;
49.③
采用最小绝对收缩和选择算子lasso方法来避免过度拟合或选择偏差,确定正则化路径通过使用r包glmnet和具有10倍交叉验证的插入符号对lambda参数进行正则化的值网格中的lasso惩罚,选择对具有最佳调整lambda值的最终模型有贡献的基因;
50.④
使用最小冗余最大相关性mrmr进行进一步选择;r包mrmr中的mrmr.ensemble函数用于对具有相关分数的特征进行排序,在具有默认超参数调整的10倍交叉验证支持向量机svm,最终的rna谱产生足够的诊断性能和预期的基因数量;
51.⑤
通过5000次随机搜索和10倍交叉验证优化svm超参数成本和sigma;使用rna配置文件训练svm模型并优化了成本和sigma参数,最终构建基于血小板102基因的血小板102基因用于卵巢癌的诊断模型并通过三个外部验证集对诊断效能进行检验。
52.结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的血小板102基因用于卵巢癌的诊断模型的构建方法构建的基于血小板102基因的诊断模型tepoc(tumour-educated platelet-derived gene panel ofoc)的诊断性能在内部验证集(dc)和三个外部验证集(vc1,vc2,vc3)中相较于ca125均有不同程度的提升,且tepoc联合ca125将进一步提升卵巢癌的诊断性能。此外,在区分子宫内膜异位症与卵巢癌,以及识别交界性、早期及非上皮性卵巢癌患者的表现上tepoc也优于ca125。
53.提高早期诊断率是从根本上改善卵巢癌长期不良预后的关键途径。ca125是临床上卵巢癌最常用的标志物。但由于其缺乏敏感性和特异性限制了其在卵巢癌早期诊断中的应用。以“外泌体,ctc和ctdna”为代表的液态活检,具有非侵入性和突破传统组织取材限制等诸多优点被越来越多的应用于肿瘤的早期诊断。血小板相较于传统液态活检具备分离、提取方式便捷高效,检测成本低廉、外周血中数量众多等优势。本发明通过多中心、回顾性、大样本的临床研究构建了基于血小板102基因的血小板102基因用于卵巢癌的诊断模型,克服了当前ca125作为卵巢癌标志物的诸多局限,开辟了卵巢癌早期诊断探索的新模式,为从根本上改善卵巢癌早诊困境及卵巢癌患者预后提供了可能性。
附图说明
54.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
55.图1是本发明实施例提供的血小板102基因用于卵巢癌的诊断模型的构建方法流程图。
56.图2是本发明实施例提供的数据标准化及混杂变量的校正示意图。
57.图2(a)是本发明实施例提供的卵巢癌与非癌组的年龄差示意图。
58.图2(b)是本发明实施例提供的卵巢癌与非癌样本的文库大小差异示意图。
59.图2(c)是本发明实施例提供的混杂因素和替代变量之间的p值,使用候选混杂因素(包括批次效应、文库、文库大小和年龄)校正替代变量的示意图。
60.图2(d)是本发明实施例提供的批次效应去除前后的相对表达量(rle)的示意图。
61.图3是本发明实施例提供的mrgf及模型构建流程图。
62.图4(a)~图4(d)是本发明实施例提供的tepoc及ca125在4个验证集中检测卵巢癌的表现示意图。
63.图5(a)~图5(d)是本发明实施例提供的tepoc及ca125在区分子宫内膜异位症与卵巢癌以及识别交界性、早期及非上皮性卵巢癌的表现示意图。
具体实施方式
64.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
65.针对现有技术存在的问题,本发明提供了一种血小板102基因用于卵巢癌的诊断
模型、构建方法及应用,下面结合附图对本发明作详细的描述。
66.如图1所示,本发明实施例提供的血小板102基因用于卵巢癌的诊断模型的构建方法包括以下步骤:
67.s101,进行血小板样本采集、分离和提取;
68.s102,进行血小板rna提取与质控;
69.s103,进行血小板样本rna-seq建库及测序;
70.s104,进行血小板rna-seq原始数据处理;
71.s105,进行特征选择及模型构建。
72.本发明最终建立的模型是基于血小板102基因的用于血小板102基因用于卵巢癌的诊断的模型(tepoc),基因列表如下ensg00000003436 ensg00000005249 ensg00000008018 ensg00000037042 ensg00000065534 ensg00000067167 ensg00000071127 ensg00000080371 ensg00000087053 ensg00000087470 ensg00000089009 ensg00000091592 ensg00000100266 ensg00000100614 ensg00000100644 ensg00000100722 ensg00000102158 ensg00000105499 ensg00000108100 ensg00000110090 ensg00000110324 ensg00000110799 ensg00000110848 ensg00000111328 ensg00000112651 ensg00000114127 ensg00000114867 ensg00000116717 ensg00000117054 ensg00000118276 ensg00000118418 ensg00000119801 ensg00000122008 ensg00000122643 ensg00000123500 ensg00000125354 ensg00000125503 ensg00000125534 ensg00000127540 ensg00000128311 ensg00000130475 ensg00000131389 ensg00000131966 ensg00000132300 ensg00000132475 ensg00000132718 ensg00000136205 ensg00000138758 ensg00000140450 ensg00000140455 ensg00000142168 ensg00000143033 ensg00000145335 ensg00000146731 ensg00000148481 ensg00000149308 ensg00000151789 ensg00000151838 ensg00000152926 ensg00000163220 ensg00000163320 ensg00000163812 ensg00000165698 ensg00000166165 ensg00000166887 ensg00000167005 ensg00000167740 ensg00000167912 ensg00000167985 ensg00000168385 ensg00000169567 ensg00000169762 ensg00000171314 ensg00000175063 ensg00000175387 ensg00000177169 ensg00000177565 ensg00000177697 ensg00000177868 ensg00000178562 ensg00000181690 ensg00000184226 ensg00000184602 ensg00000184640 ensg00000184838 ensg00000185305 ensg00000197601 ensg00000198626 ensg00000212907 ensg00000226950 ensg00000233822 ensg00000233954 ensg00000234231 ensg00000236304 ensg00000240497 ensg00000249936 ensg00000251562 ensg00000253819 ensg00000253982 ensg00000254893 ensg00000255364 ensg00000257365
73.下面结合具体实施例对本发明的技术方案作进一步描述。
74.1.血小板样本采集、分离、提取
75.采集未经治疗的卵巢癌患者外周血6ml于edta(bd)抗凝管中常温直立静置。将采血管置于常温离心机中以120g离心20分钟得到富含血小板的血浆platelet richplasma
(prp)及下层血细胞沉淀;吸取上步所得上层血浆与红细胞沉淀交界处的白细胞层速冻于液氮中,将prp分装于1.5ml离心管,继续常温以360g离心20分钟后得到上层血浆及血小板沉淀;吸取上步离心所得血浆的十分之九分装于1.5ml离心管,向剩余血小板沉淀中加入300微升rna-later后置于4℃冰箱后过夜;上述离心所得的血小板于液氮罐内过夜后转入-80℃冰箱内长期冻存。
76.2.血小板rna提取与质控
77.冷冻保存的血小板在之前于冰上解冻复溶,总rna通过qiagen 74004rneasy micro kit进行提取;使用agilent 2100进行rna质控检测,只有当检测指标rin>7及总量≥10pg的样本才被定义为质控合格标本,才能进行后续测序。
78.3.血小板样本rna-seq建库及测序
79.根据样本提取血小板rna提取情况及建库起始量要求,按提取rna量的多少分为微量建库及常规建库两种方式:
80.a.微量建库(血小板rna提取总量<50ng)
81.使用基于smart-seq的单细胞扩增技术,通过带有polyt尾引物抓取mrna并反转录获得一链cdna,而后经过引物消化、二链合成,继而pcr扩增cdna;扩增产物质控:扩增后,取扩增产物用agilent 2100bioanalyzer进行检测,看条带分布区间,以及阴性和阳性对照是否有条带。通过上述质控点来保证合格的扩增产物进行测序环节。
82.b.常规建库(血小板rna提取总量≥50ng)
83.建库流程:转录组文库构建。首先对合格的样品进行dnase i消化,然后用oligo(dt)磁珠分离出mrna,用超声将mrna打断到一定的片段,合成cdna,随后进行dna片段末端修复,在片段的3’端加上“a”,然后连接文库接头,进行pcr,构建出杂交文库;针对rna样本,采用电泳、agilent bioanalyzer等方法进行样品检测。样本必须符合转录组建库要求。文库质控:构建完成的文库,采用agilent 2100检测浓度和片段长度,并用qpcr检测文库分子浓度。文库片段大小,浓度必须符合illumina hiseq上机标准。
84.c.微量建库测序方式
85.测序平台为hiseqxten,测序策略为pe150;扩增的cdna打断后经过末端修复、加“a”,加接头,pcr扩增后,电泳切胶纯化,后胶回收,即可得到所需测序文库。构建好的文库用agilent 2100bioanalyzer和abi steponeplus real-time pcr system进行质量和产量检测,质控合格后即可使用illumina hiseq测序。
86.d.常规建库测序方式
87.测序策略:hiseqxten,pe151测序;建库流程:转录组文库构建,首先对合格的样品进行dnase i消化,然后用oligo(dt)磁珠分离出mrna,用超声将mrna打断到一定的片段,合成cdna,随后进行dna片段末端修复,在片段的3’端加上“a”,然后连接文库接头,进行pcr,构建出杂交文库。
88.4.血小板rna-seq原始数据处理
89.fastq文件中血小板转录组的原始数据经过本发明内部的rna测序流程处理。简而言之,使用fastqc(v0.11.8)修剪原始读数,并通过star(v2.7.0)将干净读数映射到人类参考基因组(hg19)。为了量化基因表达,对齐的读数经过htseq 2和ensembl基因注释版本87.4,5此后,以《5
×
106的总读取计数过滤样本。使用r-package ineq(v0.2.13)排除了基
于变异系数(截止值》3)的队列样本中具有《10个读数的基因和高变基因。
90.5.数据标准化及批次效应校正
91.在归一化过程中,使用r包deseq2对训练队列的原始读取计数进行“方差稳定转换”,参数“blind=false”用于归一化,“dispersion function”用于分散估计。对于验证队列,本发明将来自训练队列的估计离散值分配为它们的离散值,并使用相同的方法对它们进行归一化。为了排除样本间相关性低的样本,本发明使用r-package传播的“bigcor”函数进行pearson相关,产生一个相关性《0.4的样本,将其从训练队列中排除。
92.为了尽量减少年龄(见图2的(a))、文库大小(见图2的(b))和用于进一步分类的已知批次的影响,本发明使用默认参数在r包sva中通过svaseq识别的替代变量研究了这些潜在的混杂因素。每个估计的替代变量与癌症或非癌症组中的潜在混杂因素相关。连续变量通过pearson相关性与替代变量相关,分类变量使用双边学生t检验进行比较。为了防止消除可能与癌症或非癌症组相关的替代变量,相关p值《0.05的替代变量将不会被调整。这些确定的混杂因素用于通过“remove batch effect”从limma中调整标准化数据。
93.混杂因素和替代变量之间的p值如图2的(c)所示。本发明使用r包edaseq中的plotrle函数比较了消除混杂因素前后的性能并绘制了相对对数强度(rle)(见图2的(d))。
94.6.特征选择及模型构建
95.本发明设计了一种用于高维rna测序数据特征选择的最小冗余基因过滤(mrgf)算法。在本研究中,本发明根据训练集血小板rna测序数据进行了mrgf基因选择。简而言之,本发明首先排除了低丰度和高度不平等的基因。其次,本发明通过r包插入符号中的findcorrelation函数排除了具有高内相关性的基因。第三,本发明采用了最小绝对收缩和选择算子(lasso)方法来避免过度拟合或选择偏差。确定了正则化路径通过使用r包glmnet和具有10倍交叉验证的插入符号对lambda参数进行正则化的值网格中的lasso惩罚。本发明选择了对具有最佳调整lambda值的最终模型有贡献的基因。第四,为了识别鲁棒性和最佳特征,本发明使用最小冗余最大相关性(mrmr)进行进一步选择。r包mrmr中的mrmr.ensemble函数用于对具有相关分数的特征进行排序,然后在具有默认超参数调整的10倍交叉验证支持向量机(svm)。最终的rna谱产生了足够的诊断性能和预期的基因数量。第五,本发明通过5000次随机搜索和10倍交叉验证优化了svm超参数成本和sigma。最后,本发明使用rna配置文件训练了svm模型并优化了成本和sigma参数(见图3)。最终本发明构建了基于血小板102基因的血小板102基因用于卵巢癌的诊断模型并通过三个外部验证集对其诊断效能进行了检验。
96.本发明构建的基于血小板102基因的诊断模型tepoc(tumour-educated platelet-derived gene panel ofoc)的诊断性能在内部验证集(dc)和三个外部验证集(vc1,vc2,vc3)中相较于ca125均有不同程度的提升,且tepoc联合ca125将进一步提升卵巢癌的诊断性能(见图4)。
97.此外,在区分子宫内膜异位症与卵巢癌,以及识别交界性、早期及非上皮性卵巢癌患者的表现上tepoc也优于ca125(见图5)。
98.提高早期诊断率是从根本上改善卵巢癌长期不良预后的关键途径。ca125是临床上卵巢癌最常用的标志物。但由于其缺乏敏感性和特异性限制了其在卵巢癌早期诊断中的应用。以“外泌体,ctc和ctdna”为代表的液态活检,具有非侵入性和突破传统组织取材限制
等诸多优点被越来越多的应用于肿瘤的早期诊断。血小板相较于传统液态活检具备分离、提取方式便捷高效,检测成本低廉、外周血中数量众多等优势。本发明通过多中心、回顾性、大样本的临床研究构建了基于血小板102基因的血小板102基因用于卵巢癌的诊断模型,克服了当前ca125作为卵巢癌标志物的诸多局限,开辟了卵巢癌早期诊断探索的新模式,为从根本上改善卵巢癌早诊困境及卵巢癌患者预后提供了可能性。
99.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1