致病基因数据库的建立方法、数据库及风险预测系统与流程

文档序号:37211054发布日期:2024-03-05 14:53阅读:24来源:国知局
致病基因数据库的建立方法、数据库及风险预测系统与流程

本发明属于疾病基因数据处理,具体涉及一种致病基因数据库的建立方法、数据库及风险预测系统。


背景技术:

1、人类健康受到遗传和环境两方面的共同影响。gwas(genome-wide associationstudy,即全基因组关联分析)研究通过大规模人群对比筛查研究,推断出某一特定人群中遗传突变和疾病之间的相关性。gwas的理论基础是连锁不平衡定律(linkagedisequilibrium,ld),既假设观察到的snp(单核苷酸多态性)与真正的致病突变(causalvariant)之间存在很强的ld。通过基因突变检测,我们可以了解自己是否容易患上某些常见疾病(易感风险),如心脑血管疾病、自身免疫性疾病或肿瘤等。从而尽量避免接触与特定疾病相关的有害物质,并定期进行特定方向的诊断学监测,以便在疾病初起时早诊断、早治疗,最大程度的降低疾病造成的损害。

2、但gwas catalog(https://www.ebi.ac.uk/gwas/)是由美国基因组研究中心(nhgri)和欧洲生物信息中心(embl-ebi)共同开发和制作的搜集所有已公布的gwas和相关结果的公开数据库,该数据库收集自2008年以来已发表的全基因组关联研究的数据。截至2018年10月21日,在411种不同的期刊、3,153篇文章中共摘取61,613个独特的snp位点与3,007种疾病的相关性条目90,428条。相关研究需符合一个严格的标准才能纳入该数据库。gwas catalog数据库为我们做基因突变检测提供一个可靠的依据。

3、2019年3月21日,《细胞》杂志发表了一系列关于人类基因组测序研究的综述和评论文章。文章一致认为目前全球人类生物样本库中基因组数据所包含的种族多样性远比人们所期望的要少得多,68%来自欧洲血统个体;而疾病易感位点,特别是多基因疾病易感位点,与种族、地域等密切相关。在某个地区的高致病位点,在另一个地区可能就不是。因此,必须开展本地区和人种的遗传筛查研究,考察西方人的突变位点在中国人群的突变情况,开发适用于中国人自身的基因数据库及疾病风险预测系统。


技术实现思路

1、基于此,本发明提供一种致病基因数据库的建立方法,建立起一套适宜于中国人的致病基因数据库,以便于建立一套能够准确可靠地评估中国人的健康风险的风险预测系统。

2、本发明一方面提供一种致病基因数据库的建立方法,包括如下步骤:

3、(1)获取中国人血液样本,提取血液基因组dna,进行全基因组测序;

4、(2)检测样本的突变位点;

5、(3)以gwas catalog数据库为参考,依据步骤(2)得到检测样本的突变位点对gwascatalog数据库进行过滤,得到所述的致病基因位点数据库;所述过滤包括一次过滤和二次过滤,所述一次过滤是指筛选gwas catalog数据库中的突变位点在上述检测样本中的突变频率,保留突变频率<30%且>0的位点;所述二次过滤是指过滤掉if<3的期刊杂志上所发表的致病位点。

6、本发明通过收集中国人的血液,提取dna,进行全基因组测序,考察西方人的突变位点在中国人群的突变情况,进一步结合突变频率和文献数据进行位点过滤,其中,突变频率<30%的位点才有可能是致病位点,高频率位点往往意味着是公众所能耐受的突变;另外,突变频率=0的位点意味着是中国人群罕见突变位点,对发病风险贡献很小,同时增加背景噪声。因此一次过滤保留突变频率<30%且>0的位点;进而根据突变位点所发表论文的权威性,过滤掉if<3的期刊杂志进行二次筛选,从而开发出一套适用于中国人致病风险评估的致病基因位点数据库,提高患病风险精准预测的能力。

7、在其中一个实施例中,所述全基因组测序中,基因组dna制备成pe150 dna文库进行测序,每个样品准备超过1μg完整度良好的基因组dna,所述基因组完整度良好的判断标准为:1%琼脂糖凝胶电泳图中dna主带完整且>23kb。另外,也可以采用轻微降解的基因组dna也可进行风险建库。

8、在其中一个实施例中,对于构建成功的dna文库要求:pcr产物片段主带在450bp±50bp,无dimer、无污染,消化并纯化后的产物定量浓度大于0.78ng/μl。

9、在其中一个实施例中,所述全基因组测序的深度为10x-30x。

10、在其中一个实施例中,所述步骤(2)中依据dbsnp146数据库检测突变位点。

11、本发明的另一方面,还提供了上述的致病基因数据库的建立方法得到的致病基因数据库。

12、本发明的再一方面,还提供了一种风险预测系统,包括:

13、数据获取模块,用于获取待测样本的基因检测数据;

14、数据分析模块,用于将上述的基因检测数据经生物信息学分析后,代入上述的致病基因数据库中进行比对分析得出风险值r;

15、判定输出模块,用于将位点突变信息按照风险等级进行输出。

16、在其中一个实施例中,所述风险值r采用公式r=log2(or1×or2×or3×..×orn)×e进行计算,其中e为风险因子,e=n/n,n为某人检出某种疾病的位点数,n为该疾病的在建立的数据库中的总位点数;or为不同位点对应的比值比。

17、or值,全称是odds ratio,又称比值比、风险暴露比,可从gwas catalog数据库获取。

18、采用公式r=log2(or1×or2×or3×...×orn)×e计算疾病风险,即,疾病相关的n个风险位点的or值连乘,乘积取log2对数后,乘以风险因子e。取log2的目的是对总风险因子进行降维,使之具有可比性。通过风险因子消除某种疾病由于相关的位点数量多而增加随机发生的可能。

19、在其中一个实施例中,筛选每个待测样品风险值在上述数据库中处于top 20%的项目,按照风险等级进行输出。

20、在其中一个实施例中,所述风险等级分为高、中、低三级,其中高风险r>1,中风险r位于0.5-1之间,低风险r<0.5。

21、与现有技术相比,本发明具有以下有益效果:

22、本发明的一种致病基因数据库的建立方法,通过考察西方人的突变位点在中国人群的突变情况,进一步结合突变频率和文献数据进行位点过滤,从而开发出一套适用于中国人致病风险评估的致病基因数据库。

23、本发明的致病基因数据库,收录了大量中国人群的致病风险很高的位点记录,通过对基因检测位点与这些位点记录进行匹配分析,可以快速定位高风险致病位点,减少遗漏的可能性,大大提高了临床解读工作的准确性和效率。

24、本发明的致病基因数据库可用于风险预测系统中,利用自动化分析过程,将可能存在致病风险的突变位点均分析得到,降低了对于分析人员经验的要求,降低了检测分析难度,并提高了中国人群患病风险预测准确率。



技术特征:

1.一种致病基因数据库的建立方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的致病基因数据库的建立方法,其特征在于,所述全基因组测序中,基因组dna制备成pe150 dna文库进行测序,每个样品准备超过1μg完整度良好的基因组dna,所述基因组完整度良好的判断标准为:1%琼脂糖凝胶电泳图中dna主带完整且>23kb。

3.根据权利要求2所述的致病基因数据库的建立方法,其特征在于,对于构建成功的dna文库要求:pcr产物片段主带在450bp±50bp,无dimer、无污染,消化并纯化后的产物定量浓度大于0.78ng/μl。

4.根据权利要求3所述的致病基因数据库的建立方法,其特征在于,所述全基因组测序的深度为10x-30x。

5.根据权利要求1所述的致病基因数据库的建立方法,其特征在于,所述步骤(2)中依据dbsnp146数据库检测突变位点。

6.权利要求1-5任一项所述的致病基因数据库的建立方法得到的致病基因数据库。

7.一种风险预测系统,其特征在于,包括:

8.根据权利要求7所述的风险预测系统,其特征在于,所述风险值r采用公式

9.根据权利要求8所述的风险预测系统,其特征在于,筛选每个待测样品风险值在权利要求6所述的致病基因数据库中处于top 20%的项目,按照风险等级进行输出。

10.根据权利要求9所述的风险预测系统,其特征在于,所述风险等级分为高、中、低三级,其中高风险r>1,中风险r位于0.5-1之间,低风险r<0.5。


技术总结
本发明涉及一种致病基因数据库的建立方法、数据库及风险预测系统,所述数据库建立方法通过考察西方人的突变位点在中国人群的突变情况,进一步结合突变频率和文献数据进行位点过滤,开发出一套适用于中国人致病风险评估的致病基因数据库。该数据库,收录了大量中国人群的致病风险很高的位点记录,通过对基因检测位点与这些位点记录进行匹配分析,可以快速定位高风险致病位点,减少遗漏的可能性,大大提高了临床解读工作的准确性和效率,将其应用于风险预测系统中,能够准确可靠地评估中国人的健康风险。

技术研发人员:黄仲曦,杨玉志,汪佳宏,李高生,周子颖,冯显柱
受保护的技术使用者:广州中鑫基因医学科技有限公司
技术研发日:
技术公布日:2024/3/4
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1