一种用于预测子痫前期风险的基因组合、子痫前期风险预测模型及其构建方法

文档序号:26180765发布日期:2021-08-06 18:27阅读:来源:国知局

技术特征:

1.一种用于预测子痫前期风险的基因组合,其特征在于,包括499个snp位点,分别为:rs1111875、rs3764650、rs890293、rs4934、rs2230806、rs405509、rs12983082、rs2516049、rs10830963、rs2000813、rs7202116、rs3764261、rs7079、rs1805094、rs8178847、rs1421811、rs715987、rs8096897、rs574957、rs10744835、rs1991391、rs7977406、rs11066188、rs2036914、rs8099917、rs12979860、rs10048158、rs1801689、rs9264942、rs9277535、rs2523393、rs2230204、rs7107152、rs12086634、rs1242229、rs2236242、rs3779512、rs1864163、rs1549758、rs5491、rs7578597、rs7209395、rs6042935、rs121912702、rs155524、rs7640747、rs7926335、rs743395、rs1800206、rs11977526、rs3804099、rs1799750、rs1049337、rs28362491、rs10120688、rs1051740、rs2167270、rs7804372、rs11568821、rs12203592、rs1799724、rs1805192、rs2066847、rs1800451、rs5030737、rs4766578、rs4149056、rs4675378、rs281874770、rs4321325、rs11018628、rs1800794、rs1805010、rs780093、rs3853839、rs7805969、rs7574865、rs8178822、rs333、rs2384550、rs925489、rs57659670、rs853326、rs180223、rs1472565、rs2596623、rs231779、rs4850755、rs6885099、rs1800693、rs2046045、rs4704397、rs1137617、rs10733113、rs653178、rs10774625、rs2517532、rs9910950、rs8178848、rs16950081、rs4925295、rs963167、rs2647528、rs2319125、rs4581、rs2288493、rs79154414、rs2277698、rs2279744、rs2217332、rs8178819、rs6906021、rs2736340、rs4915077、rs1523127、rs1554973、rs17145713、rs1041981、rs11538264、rs204999、rs2476601、rs6457452、rs9277534、rs3099844、rs4149584、rs492899、rs17630235、rs9322331、rs556442、rs3890182、rs10938397、rs4773724、rs1275988、rs1558902、rs1800437、rs17577、rs13385、rs2074311、rs642858、rs11651270、rs2237895、rs231840、rs1799999、rs2292239、rs7163757、rs2670660、rs11066280、rs7178572、rs4721、rs391300、rs4828038、rs7713645、rs3087243、rs17817449、rs455060、rs2075290、rs13702、rs3021094、rs1260326、rs2237892、rs1550805、rs6259、rs2083637、rs2779248、rs1137933、rs3847987、rs77060950、rs7709243、rs7770619、rs1801278、rs7903146、rs4506565、rs17681684、rs17696736、rs1050828、rs231357、rs199972616、rs4416547、rs10509305、rs12762303、rs2280275、rs2014408、rs1532624、rs3746429、rs1926723、rs11105354、rs7439293、rs445925、rs3850641、rs7194256、rs867186、rs3184504、rs5743293、rs825476、rs7580658、rs1801693、rs854560、rs1056917、rs61996318、rs9898、rs13146272、rs4311994、rs1654433、rs11105357、rs4148189、rs4576240、rs11751198、rs11968400、rs11970154、rs12210887、rs13118、rs2075015、rs2285321、rs2394392、rs2508015、rs2523995、rs2524272、rs25527、rs28986465、rs29243、rs3130663、rs3130685、rs3132584、rs64036、rs6457254、rs6924270、rs6933400、rs6937357、rs73055442、rs7749235、rs9261800、rs9267547、rs9468805、rs9500864、rs1441756、rs15285、rs9941065、rs2596574、rs11085421、rs3785617、rs78010183、rs2292354、rs289717、rs247616、rs879922、rs1799945、rs2097055、rs662、rs1532085、rs3757354、rs3813082、rs326、rs662799、rs12597002、rs4131229、rs964184、rs13105517、rs1260333、rs2075291、rs5104、rs670、rs17482753、rs2043085、rs4969168、rs7350481、rs12678919、rs6671879、rs4743771、rs328、rs285、rs6720173、rs10096633、rs301、rs1003723、rs2303790、rs2266788、rs429358、rs10503669、rs1051931、rs7756935、rs10790162、rs5174、rs562556、rs4253728、rs2269702、rs66698963、rs9326246、rs7016880、rs1801394、rs1805087、rs9852991、rs12230074、rs9815354、rs6768438、rs957525、rs9816772、rs11024074、rs10506974、rs3754777、rs1173771、rs13394970、rs17249754、rs176185、rs2070759、rs6410、rs11105378、rs2586886、rs2004776、rs11191548、rs35444、rs6433027、rs3749585、rs16998073、rs1378942、rs2681492、rs6495122、rs12413409、rs7726475、rs5049、rs1401982、rs1105378、rs16948048、rs11014166、rs11568020、rs381815、rs11065987、rs1131882、rs11572325、rs880315、rs4612666、rs651007、rs671、rs10507391、rs3135506、rs10743565、rs1426409、rs193921036、rs200898934、rs201223301、rs374976508、rs7080、rs2237076、rs3765407、rs3820059、rs9831647、rs1862176、rs9939609、rs9638978、rs9393931、rs9381475、rs9380142、rs9340799、rs927332、rs909253、rs846910、rs843010、rs842991、rs836135、rs836132、rs821466、rs7963771、rs7943316、rs763780、rs7579169、rs7571613、rs7564968、rs7412、rs732609、rs699947、rs699、rs698090、rs6802220、rs661348、rs6594013、rs6550005、rs6489992、rs6478974、rs6269、rs6025、rs56124946、rs5442、rs5051、rs4842666、rs4818、rs479200、rs4784744、rs4769613、rs4762、rs4633、rs4289236、rs4150196、rs3918227、rs3905000、rs3819526、rs3812475、rs3803012、rs3801266、rs3783550、rs3773663、rs3773640、rs3761548、rs3735481、rs366510、rs35821928、rs3025039、rs2954033、rs2854371、rs284277、rs2681472、rs266729、rs2638953、rs261334、rs2596622、rs25648、rs2549782、rs233115、rs2322659、rs231775、rs2297518、rs2287848、rs2287845、rs2275913、rs2271037、rs2241766、rs2236852、rs2236711、rs2234693、rs2232365、rs2230820、rs222133、rs2200733、rs2161983、rs2074611、rs2070744、rs2059806、rs2010963、rs1991515、rs193741、rs1884082、rs1805388、rs1805017、rs1801133、rs1801131、rs1800896、rs1800872、rs1800629、rs1800469、rs1800450、rs1799983、rs1799963、rs1799889、rs17783344、rs17686866、rs1710、rs16972197、rs16972194、rs1695、rs16846876、rs1610696、rs1570360、rs1501299、rs1424954、rs1358340、rs13429458、rs1341667、rs13405728、rs13401889、rs1319501、rs12831006、rs12711941、rs12707079、rs12579302、rs12150550、rs12150220、rs1205、rs12035521、rs11895934、rs11792480、rs11646213、rs1155708、rs115015150、rs1143627、rs1130409、rs11209026、rs11190179、rs11129420、rs11105368、rs11105364、rs11105328、rs111033530、rs10898392、rs10889677、rs10811661、rs10739778、rs1063320、rs1014064、rs10121110、rs1010、rs1004467。

2.采用权利要求1所述的一种用于预测子痫前期风险的基因组合构建的子痫前期风险预测模型。

3.根据权利要求2所述的子痫前期风险预测模型,其特征在于,包括:

数据预处理模块,将所获得的499个易感基因与46个临床检测数据转换成数字特征向量,用数字特征向量表示每一例样本,对每一例样本数据标注其患病情况;

模型构建模块,根据随机森林算法的模型构建规则,对样本所对应的数字特征向量进行模型构建,生成一个包含1000棵决策树的随机森林模型;

模型误差率计算模块,随机森林在生成每颗决策树时随机且有放回地抽取样本,每棵决策树有1/3的样本未抽取到,这1/3未抽取到的样本是每棵决策树的袋外错误率样本,将这1/3未抽取到的样本作为测试集来计算随机森林模型的误差率。

4.根据权利要求3所述的子痫前期风险预测模型,其特征在于,所述46个临床检测数据,分别为:

年龄、身高、高血压病史、人工授精、双胎、孕前体重、孕前bmi、孕期体重、孕期bmi、孕期体重增长、孕期与孕前bmi差、iugr、血红蛋白、白细胞、中性粒细胞、血小板分布宽度、平均血小板体积、促甲状腺素、游离甲状腺素t3、游离甲状腺素t4、胆固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白、tg/hdl、国际标准化比值、凝血酶原活动度、凝血酶原时间、凝血酶时间、凝血酶原时间比值、纤维蛋白原、活化部分凝血活酶时间、血型、血清钾、血清钙、血清钠、血清氯、生化血糖、抗心磷脂抗体igm抗体阳性、抗心磷脂抗体igg抗体阳性、抗β2糖蛋白阳性、抗核抗体阳性、抗心磷脂抗体iga抗体阳性、尿酮体、尿糖、尿胆红素阳性。

5.构建权利要求2所述的子痫前期风险预测模型的方法,其特征在于,包括以下步骤:

步骤一、数据预处理

将所获得的499个易感基因与46个临床检测数据转换成数字特征向量,用数字特征向量来表示每一例样本,同时对每一例样本数据标注其患病情况;

步骤二、模型构建

根据随机森林算法的模型构建规则,对样本所对应的数字特征向量进行模型构建,生成一个包含1000棵决策树的随机森林模型;

步骤三、模型误差率计算

随机森林在生成每颗决策树时随机且有放回地抽取样本,每棵决策树有1/3的样本未抽取到,这1/3未抽取到的样本是每棵决策树的袋外错误率样本,将这1/3未抽取到的样本作为测试集来计算随机森林模型的误差率。

6.根据权利要求5所述的子痫前期风险预测模型的构建方法,其特征在于,步骤一中,所述46个临床检测数据,分别为:

年龄、身高、高血压病史、人工授精、双胎、孕前体重、孕前bmi、孕期体重、孕期bmi、孕期体重增长、孕期与孕前bmi差、iugr、血红蛋白、白细胞、中性粒细胞、血小板分布宽度、平均血小板体积、促甲状腺素、游离甲状腺素t3、游离甲状腺素t4、胆固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白、tg/hdl、国际标准化比值、凝血酶原活动度、凝血酶原时间、凝血酶时间、凝血酶原时间比值、纤维蛋白原、活化部分凝血活酶时间、血型、血清钾、血清钙、血清钠、血清氯、生化血糖、抗心磷脂抗体igm抗体阳性、抗心磷脂抗体igg抗体阳性、抗β2糖蛋白阳性、抗核抗体阳性、抗心磷脂抗体iga抗体阳性、尿酮体、尿糖、尿胆红素阳性。

7.根据权利要求5所述的子痫前期风险预测模型的构建方法,其特征在于,步骤二的具体过程如下:

样本总数为401例,97例早发型子痫前期患者作为患病组一,107例晚发型子痫前期患者作为患病组二,197例正常妊娠女性作为对照组;

(1)训练

训练过程采用有放回地随机抽样方法来构建训练集,对401例样本进行有放回地抽样401次,将抽到的样本所对应的数字特征向量用于一棵决策树的构建;

(2)选择决策树上的每一个节点的特征

设m为输入样本的特征数,对于每个节点分裂时,先从这m个特征中选择m个特征,在m个特征中选择最佳的分裂点进行分裂;

(3)完成单棵决策树的生长;

(4)多棵决策树生成随机森林模型

将生成的多棵决策树合并融合起来,生成一个包含1000棵决策树的随机森林模型;

(5)结果预测

统计随机森林中每一棵决策树的预测结果,通过投票法从这些预测结果中选出最佳的预测结果作为最终的预测结果。

8.根据权利要求5所述的子痫前期风险预测模型的构建方法,其特征在于,步骤三的具体过程如下:

将这1/3未抽取到的样本经过随机森林算法预测得到类别,然后与真实值进行比较,求出模型误差率。


技术总结
一种用于预测子痫前期风险的基因组合、子痫前期风险预测模型及其构建方法,属于生物医学领域,本发明利用基因多态性检测,筛选出易感基因499个,结合46个临床检测数据,利用计算机深度学习方法,制备子痫前期风险预测模型,可以实现子痫前期风险的预测。本发明的模型设计主要依赖于计算机机器学习中的随机森林算法,将基因多态性检测结果与临床检测数据转化为构建模型所需的数字特征向量,随机森林中决策树的数量设置为1000棵,训练过程采用有放回地随机抽样方法来构建训练集,将袋外错误率样本(未抽取到的样本)作为测试集来计算模型的误差率。

技术研发人员:陈颖;左红斌;魏本杰;马玲玉;丛华剑;杜昭励;王合;于沛勇;苏鹤;杨海燕
受保护的技术使用者:吉林大学;吉林省银丰生物工程技术有限公司
技术研发日:2021.05.11
技术公布日:2021.08.06
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1