本发明涉及一种疾病风险预测方法及系统,具体涉及一种基于生物遗传信息的疾病风险预测方法及系统,属于生物遗传数据分析与计算机相结合的应用领域。
背景技术:
1、近几年来,疾病风险或(健康风险)受到越来越多的关注。与及时治疗相比,及时预防成为大众普遍更关注的问题。基于遗传信息的疾病风险的预测在这方面具有普通医学所不具备的优势。由于遗传信息从出生开始便可获得,因此基于遗传信息的疾病风险预测,可以在最早时间内警示将来可能的由基因影响的重大疾病风险。
2、目前,在基于遗传信息的疾病风险预测方法中,使用较多的为基于单个或多个位点的遗传效应值,结合个体基因型信息进行相应的遗传风险估计,具体方法包括:基于多基因风险评分(prs)的方法,以及基于or值的方法。其中,基于prs的方法需要基于大规模全基因组关联分析(gwas)数据,且位点越多,估计越准确,更适合应用于复杂疾病。相比之下,基于or值的方法可应用于复杂疾病,也可应用于单基因疾病。
3、在基于or值的方法中,or值是比值比,也称优势比,是衡量风险因子对疾病发病风险影响程度的指标。具体来说,风险因子是所要研究的风险因素,例如在遗传统计问题中,风险因子可以是携带致病等位基因。通常称携带风险因子的群体为暴露组,未携带的群体为非暴露组。or值指病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非暴露人数的比值。如果or值大于1,则认为该风险因子会提高发病率;如果or值小于1,则认为该风险因子会降低发病率。
4、但是,基于or值计算患病风险概率,通常将or值近似为相对风险(rr),但这种方法只对于发病率较低的疾病适用,对于发病率偏高的疾病会有较大误差;或者将不同位点的or值直接相乘得到多个位点的总or值,但这种方法需要注意所选取的参照群体,如果将原始or值直接进行相乘计算,则无法得到绝对风险概率。
5、并且,or值来源于公开可获得的研究数据。对于每个疾病相关位点来说,假设其基因型有aa,ac,cc三种,则收集的or值分别对应三种基因型,分别表示为。一般情况下,or值的计算是以其中一种基因型作为参照(即非暴露组)的。例如,将aa作为参照,aa的or值等于1,则其他两个or值是相对于aa来说,携带一个c基因和携带两个c基因对患病风险的影响。可见,对于每个疾病相关位点,or值只是相对于该位点的参照基因型的or值,并不适用于个体。
6、因此,亟待研发一种使用遗传数据对疾病风险进行预测的方法,将传统or值结合基因频率等信息进行联合求解,得到基于普通人群的相对or值,并基于新or值计算个体疾病的绝对风险。
技术实现思路
1、针对上述现存的技术问题,本发明提供一种基于生物遗传信息的疾病风险预测方法及系统,通过对基因位点对应的or值进行转换计算,得到相对于普通人群的新or值来计算个体患病的绝对风险,以实现提高疾病风险预测精度的技术目的。
2、为实现上述目的,首先,本发明提供一种基于生物遗传信息的疾病风险预测方法,包括如下步骤:
3、s1、根据待预测疾病列表,收集每种疾病的疾病相关数据,包括疾病在普通人群中的患病率、疾病相关位点和疾病相关位点的or值;并收集人体遗传信息数据,包括位点基因型数据和位点频率;然后构建疾病相关以及遗传信息数据库;
4、s2、调用疾病相关以及遗传信息数据库,针对每种疾病计算每个疾病相关位点的odds(d|ref),以及每个疾病相关位点的每种基因型的值,并保存在疾病相关以及遗传信息数据库中;
5、s3、收集待预测个体的基因组数据,并调用疾病相关以及遗传信息数据库,针对每种疾病计算个体多个疾病相关位点的值,以及个体患病的绝对风险;
6、s4、根据每种疾病的个体患病的绝对风险,以及报告模板,生成个体预测报告。
7、本发明方法进一步的,步骤s1中,所述收集每种疾病的疾病相关数据,包括如下步骤:
8、通过对公开发表的文献进行检索,收集文献中的疾病在普通人群中的患病率,疾病相关位点,以及疾病相关位点的or值,或者,根据文献中的公开数据计算疾病相关位点的or值。
9、本发明方法进一步的,步骤s1中,所述收集人体遗传信息数据,包括如下步骤:
10、从中国汉族人群中招募基因检测对象;采集招募对象的生物样本,使用基因芯片技术进行基因检测,获得芯片分型数据;对于芯片分型数据进行基因填充,得到位点基因型数据,并根据位点基因型数据计算得到位点频率。
11、本发明方法具体的,步骤s2中,所述每个疾病相关位点的odds(d|ref)的计算公式如下:
12、
13、
14、
15、
16、其中,代表疾病在普通人群中的患病率;代表疾病相关位点的三种基因型的or值;代表疾病相关位点的三种基因型的基因型频率;代表疾病相关位点的三种基因型的odds;代表疾病相关位点的一般性参照基因型的odds,即每个疾病相关位点的odds(d|ref)。
17、本发明方法具体的,步骤s2中,所述每个疾病相关位点的每种基因型的值的计算公式如下:
18、
19、
20、
21、其中,代表每个疾病相关位点的odds(d|ref);代表疾病在普通人群中的患病率;代表疾病相关位点的每种基因型以普通人群作为参照组的 or 值;、代表疾病相关位点的三种基因型以普通人群作为参照组的 or 值。
22、本发明方法具体的,步骤s3中,所述个体多个疾病相关位点的值的计算公式如下:
23、
24、其中,代表每个疾病相关位点的每种基因型的值;m代表第m个疾病相关位点。
25、本发明方法具体的,步骤s3中,所述个体患病的绝对风险的计算公式如下:
26、
27、其中,代表个体多个疾病相关位点的值;代表疾病在普通人群中的患病率,代表个体与基因相关的患病率,即个体患病的绝对风险。
28、本发明方法进一步的,还包括更新疾病相关以及遗传信息数据库,包括如下步骤:
29、根据公开发表的最新研究成果,对疾病相关位点进行增加或删减,对疾病相关位点的or值进行修改,以及对位点基因型数据和位点频率进行更正。
30、其次,为实现上述目的,本发明提供一种基于生物遗传信息的疾病风险预测系统,包括数据录入模块,群体数据计算模块,个体数据计算模块,以及用户交互及报告生成模块;
31、所述数据录入模块,用于根据待预测疾病列表,收集每种疾病的疾病相关数据,包括疾病在普通人群中的患病率、疾病相关位点和疾病相关位点的or值;并收集人体遗传信息数据,包括位点基因型数据和位点频率;然后构建疾病相关以及遗传信息数据库;
32、所述群体数据计算模块,用于调用疾病相关以及遗传信息数据库,针对每种疾病计算每个疾病相关位点的odds(d|ref),以及每个疾病相关位点的每种基因型的值,并保存在疾病相关以及遗传信息数据库中;
33、所述个体数据计算模块,用于调用疾病相关以及遗传信息数据库,针对每种疾病计算个体多个疾病相关位点的值,以及个体患病的绝对风险;
34、所述用户交互及报告生成模块,用于收集待预测个体的基因组数据;根据每种疾病的个体患病的绝对风险,以及报告模板,生成个体预测报告。
35、本发明系统进一步的,还包括数据更新模块,用于更新疾病相关以及遗传信息数据库。
36、综上,本发明为了得到可直接应用于个体的or值,将原始数据中的or值进行变换,得到不再相对于参照基因型,而是相对于普通人群的新or值,并表示为;然将多个位点的相乘,得到个体的总值;再通过进一步变换得到个体患病的绝对风险,从而实现对待预测疾病列表进行风险预测。
37、相比现有技术,本发明具有如下有益效果和技术优势:
38、1、本发明方法选用or值进行个体疾病风险预测,适用于受单个位点影响的疾病,同时也适用于受多个位点影响的疾病。
39、2、本发明方法将传统的or值结合基因频率等信息进行联合求解,得到基于普通人群的相对or值,并基于新的or值计算个体患病的绝对风险,从而提高了疾病风险分析推测的精度。
40、3、本发明方法构建的预测系统简单易用,能够为疾病风险预测提供参考和借鉴,具有较高的参考价值,填补了现有技术的空缺。