1.本发明涉及生物信息技术领域,尤其涉及基于snp的祖源数据整理技术。
背景技术:
2.从人类基因组水平来看,大部分人类遗传变异是snp。人类基因组中约1000bp就有一个snp位点,其广泛存在于非编码区和编码区。不同人种的个体身上携带的snp是有差异的,从古到今人类多次发生长途迁徙,后代混血是普遍的现象,造成个体上的基因组里可能存在多个不同人种的遗传信息。因此,仅从肤色等外表性状来区分个体为哪个人种来源是不科学的。
3.除了人们的身高、肤色、体型等性状的差异跟snp有关,还有罹患某些遗传疾病的概率、免疫系统对某些疾病的抵御能力水平等也跟snp有关。针对个体或特定群体的遗传学信息分析需要掌握目标个体或群体的基因来源于哪个人种,了解祖源信息才能精准分析个体或群体罹患某些遗传疾病的概率、免疫系统对某些疾病的抵御能力水平等。这就需要祖源数据库里的遗传信息全面、分类正确,虽然现有的祖源数据库收录了不少生物医学发展以来获得的人种相关的祖源信息,但是同一遗传信息可能是多个人种祖源共有,有可能其分类不一定准确,仅将该遗传信息标记为其中某些人种祖源存在而忽略了另外的人种祖源中也有存在,导致被忽略的人种祖源遗传信息分析不到位,制约遗传信息与生物医学发展进程。若能将snp分析应用于完善祖源分类,将提高查找目的基因/个人遗传信息的祖源准确性,对分析snp与遗传疾病关联、分子诊断、精准医学、制药以及个体化用药有指导作用。
技术实现要素:
4.本发明的目的在于提供一种各人种单倍型祖源数据库的构建方法,以解决现有技术中数据库信息不够全面,导致待测样本单倍型中的遗传信息不能得到最正确的归类,不能准确追溯到祖源的问题。
5.为了达到上述目的本发明采用如下技术方案:
6.各人种单倍型祖源数据库的构建方法,步骤包括:
7.(1)收集各人种的全基因组数据,以单个单倍型序列为样本单位;
8.(2)设置提取框,所述提取框从单倍型序列的一端向另一端移动并提取位于所述提取框内片段的snp信息,并将每个所述片段标记对应的人种信息,同一人种内的片段按每个片段最接近5’端或3’端的snp位点先后将每个片段按序暂存,直到每个人种的每个单倍型序列的snp信息均被提取完毕;
9.(3)比对同一人种内snp位点相同的片段,将snp位点相同且snp位点上碱基信息相同的片段进行合并;
10.(4)比对各人种间snp位点相同的片段,找出snp位点相同且snp位点上碱基信息相同的片段,标记其对应的所有人种信息。
11.进一步地,所述提取框从单倍型序列的一端向另一端移动是逐个snp移动的;
12.所述提取框从单倍型序列的5’端向3’端移动或从单倍型序列的3’端向5’端移动。
13.进一步地,所述提取框的大小是能够提取10-200个连续snp。
14.进一步地,所述步骤(2)中,有2个以上不同大小的提取框移动提取同一个单倍型序列的snp信息,直到每个人种的每个单倍型序列的snp信息均被每个提取框移动提取完毕。
15.进一步地,所述2个以上不同大小的提取框同时移动提取或分批次移动提取同一个单倍型序列的snp信息。
16.进一步地,所述2个不同大小的提取框选自:能够提取20个连续snp的提取框、能够提取21个连续snp的提取框、能够提取22个连续snp的提取框......和能够提取200个连续snp的提取框。
17.进一步地,所述2个不同大小的提取框选自:能够提取20个连续snp的提取框、能够提取50个连续snp的提取框、能够提取80个连续snp的提取框、能够提取120个连续snp的提取框、能够提取160个连续snp的提取框、能够提取200个连续snp的提取框。
18.进一步地,步骤还包括:
19.(5)同一人种内,最接近5’端或3’端的snp位点相同的片段归为相同的小组。
20.进一步地,步骤还包括:
21.(6)同一人种内,snp位点相同的片段归为相同的小组。
22.进一步地,所述步骤(1)中,各人种的全基因组数据收集自hapmap项目、国际千人基因组计划、奇云诺德。
23.本发明的优点包括:构建的数据库中同一单倍型的遗传信息在不同snp位点数量的片段中储存,利于待测单倍型比对;snp位点相同且snp位点碱基信息相同的片段均标记其对应的所有人种信息,避免在查找疾病关联基因时受到祖源信息不全的干扰而影响准确性,减少对发展分子诊断、精准医学、制药以及个体化用药造成限制。
具体实施方式
24.下面将结合具体实施例来详细说明本发明,在此以本发明的示意性实施例及说明用来解释本发明,但并不作为对本发明的限定。
25.实施例一
26.各人种单倍型祖源数据库的构建方法,步骤包括:
27.(1)从hapmap项目、国际千人基因组计划、奇云诺德等含有人种基因组数据的数据库中收集各人种的全基因组数据,以单个单倍型序列为样本单位;
28.(2)设置能够提取20个连续snp的提取框、能够提取21个连续snp的提取框、能够提取22个连续snp的提取框......和能够提取200个连续snp的提取框,每个所述提取框从所述单倍型序列的5’端向3’端逐个snp移动并提取位于所述提取框内片段的snp信息,并将每个所述片段标记对应的人种信息,上述提取框可以是同时移动提取信息,也可以分批次移动提取信息,同一人种内的片段按每个片段最接近5’端的snp位点先后将每个片段按序暂存,直到每个人种的每个单倍型序列的snp信息均被每个提取框移动提取完毕;
29.(3)比对同一人种内snp位点相同的片段,将snp位点相同且snp位点上碱基信息相同的片段进行合并,避免重复储存造成冗余;
30.(4)比对各人种间snp位点相同的片段,找出snp位点相同且snp位点上碱基信息相同的片段,标记其对应的所有人种信息。
31.(5)同一人种内,最接近5’端的snp位点相同的片段归为相同的小组。
32.(6)同一人种内,snp位点相同的片段归为相同的小组。
33.实施例二
34.与实施例一不同的是:步骤(2)中提取框移动的方向是从所述单倍型序列的3’端向5’端移动,同一人种内的片段按每个片段最接近3’端的snp位点先后将每个片段按序暂存;步骤(5)中同一人种内,最接近3’端的snp位点相同的片段归为相同的小组。
35.实施例三
36.与实施例一不同的是步骤(2)中提取框设置为:能够提取20个连续snp的提取框、能够提取50个连续snp的提取框、能够提取80个连续snp的提取框、能够提取120个连续snp的提取框、能够提取160个连续snp的提取框、能够提取200个连续snp的提取框。
37.实施例四
38.与实施例二不同的是步骤(2)中提取框设置为:能够提取20个连续snp的提取框、能够提取50个连续snp的提取框、能够提取80个连续snp的提取框、能够提取120个连续snp的提取框、能够提取160个连续snp的提取框、能够提取200个连续snp的提取框。
39.本发明构建的数据库数据全面,能够为混血个体准确找出祖源提供基础,同一单倍型被不同snp位点数量的片段储存遗传信息,能够便于分析性状、疾病、有效保护个体免于某疾病进展严重等与基因的关联,避免因未正确找到祖源而误导某基因分析方向的现象发生,积极推动发展分子诊断、精准医学、制药以及个体化用药技术。
40.以上对本发明实施例所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明实施例的原理以及实施方式进行了阐述,以上实施例的说明只适用于帮助理解本发明实施例的原理;同时,对于本领域的一般技术人员,依据本发明实施例,在具体实施方式以及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。