专利名称:中国人群连锁分析snp标记集合及其使用方法与应用的制作方法
技术领域:
本发明涉及含有3000和6001中、高密度两套连锁分析用的SNP标记集合,属于遗 传学和基因组学中的连锁分析领域。此两套标记位点集合完全基于中国人的遗传背景,具 有高多态性,全基因组均勻覆盖,高基因分型检测性等多个特点。适用于中国人群特别是汉 族人群的全基因组连锁分析,可以达到高效定位所检测家系遗传病的致病基因的目的。
背景技术:
在复杂疾病的基因定位研究中,常常需要对研究样品进行全基因组扫描以确定目 标基因在染色体上的位置。目前主要有两个手段,基于病例对照样本的关联分析和基于家 系样品的连锁分析[1]。连锁分析使用含有患者和健康成员的家系样本,利用具有多态性 的遗传标记进行所有样本的分型(Genotyping),以鉴定经多代传递仍完整遗传标记的单 体(倍)型为基础,通过数学手段计算遗传标记在家系中是否与疾病产生共分离(连锁分 析),从而确定致病基因或所在区域与参考位点(遗传标记)的关系,达到定位疾病相关基 因或区域的目的。关联研究和连锁分析的原理与假说基本类似,均以相邻近的DNA变异共 分离为基础。连锁分析检测在一个家系中等位基因与疾病的传递是否相关。而关联分析研 究在一个群体中疾病和等位基因的相关性的存在与否。以往的连锁或关联分析都是以微卫星即短片段重复序列作为遗传多态标记。基因 组学研究使SNP(Single Nucleotide Polymorphism)即单核苷酸多态位点成为广泛应用的 分子遗传标记。SNP指在单条染色体或DNA序列的同一位置上所具有的不同核苷酸形式, 是形成个体差异的主要原因,也是基因组上最常见的遗传变异形式。特别是针对常见SNP 基因分型的人类基因组国际HapMap计划(International Haplotype Map Project)的完 成,使采用SNP标记全基因组高通量扫描已经成为新的趋势。HapMap使用的样本来自亚欧 非三大人群的270个人类个体,其中亚洲,欧洲和非洲各90人。HapMap项目针对全基因组 300多万个常见SNPs进行了基因分型,获得了这270个个体的全基因组SNP多态信息,为研 究人类的进化和基因组变异提供了丰富的遗传资源,所产出的全部数据免费公布于HapMap 官方网站http://WWW. hapmap. org。在HapMap计划的促进下,关联研究定位疾病基因的方 法在近年得到迅速发展,并因为多基因疾病研究的复杂性而具有规模越来越大的趋势。同 时在发达国家中,相对人口少,人员流动大而亲情联系少,使得家系资料难以收集,所以和 关联分析相比,基于家系样本的连锁研究只能占很小比例。虽然具有以上优势,但关联分析 通常需要根据严格指标采集大规模研究样品和分型大量的全基因组标记位点,费用较高。 因为存在群体样本的遗传背景分层[2]等因素,容易造成假阳性的结果,而且关联分析对 低频率,低外显率,低相对风险的等位基因以及异质性较高的致病基因的定位准确度不够。和关联分析相比,连锁分析的定位结果具有较高的准确度。由于家系样本的重组 较少,使用少量遗传标记全基因组扫描分析即可定位致病基因所在区域,在成本上具有很 大优势。同时,在研究的可行性和样本资源上,相对不发达国家(如我国,亚洲各国以及中 东一些国家)和发达国家相比面临不同的情况。一是大规模关联研究耗费过高,经济上的
3负担较重,因此大样本量的研究无法广泛开展;二是不发达国家具有大家庭传统和相对隔 离区域,拥有多代家系的丰富遗传资源,使得连锁分析在这些国家和地区仍保持重要地位。 另外,伴随着新分型技术的出现和HapMap项目的成果,近年来连锁分析方法自身也有了很 大的改变和进步。用于连锁分析的遗传标记主要有两种,传统的微卫星即STR (short tandem repeat)和SNP标记。STR连锁分析曾定位了大量疾病相关区域,但由于解析度不够高,通 常所定区域长达十数个厘摩。特别是家系代数太少或连锁分析标记密度过低时还可能造 成定位区域的漏查或定位分辨率过低。另外STR的实验操作也比较繁琐,很难实现高成功 率的全基因组高通量分型。随着HapMap计划的完成,海量SNP分型数据得以利用,同时基 因分型技术也有了极大的发展。HapMap计划之后,SNP具有成为新一代连锁分析遗传标记 的优势,它具有高密度、易于自动化和高通量操作、遗传特性更为稳定等特点。但目前用于 连锁分析的SNP探针种类少费用高,而且都是基于欧裔白种人的基因组背景,在以汉族人 群为主的中国的应用性不高。如Illumina设计的SNP芯片Linkage PanelIV比STR的分 型密度高出约10倍,但一套产品的起始价格超过3万美元,使很多中国的研究项目从经济 上考虑STR几乎是唯一的选择。另一方面,这套SNP产品在设计上也是以欧裔优先。分析 表明在亚洲群体内超过30%的位点处在低多态区(MAF 0-0. 2,Minor Allele Frequency), 高多态位点(MAF 0.3-0.5)的比例也仅是欧裔样本的一半,所以不能很好地适用和满足亚 裔样本的连锁分析。总之,在疾病基因定位的研究中,发达国家以高密度SNP芯片为主打,以进行病例 对照的大样品关联分析为主要趋势,已有多种全基因组芯片更新问世。然而连锁分析更加 适合我国家系资源丰富而科研经费较少的特点。另外,由于在发达国家市场需求较小,连锁 分析产品的发展远不如关联分析产品,仅有的一种在我国的应用上也存在两大主要问题或 难点。一是人群设计上商用标记是基于欧裔遗传背景,不能满足亚裔人群的遗传分析;二是 出于价格的原因,产品的应用在中国较难。为了解决这些问题,我们以HapMap中国人群的 基因型数据为基础,通过连锁不平衡(linkage disequilibrium, LD),高多态性,高分型性 能和均勻覆盖全基因组等指标,建立了适合中国人遗传背景的3000和6001中、高密度两套 连锁分析用SNP标记集合。最后,在本发明的实施例中,选用了视网膜色素变性(Retinitis Pigmentosa,RP) 疾病家系对中、高密度两套SNP标记集合的效率进行了验证。RP是众多遗传眼病中的一种, RP有很高的致盲性,目前中国有上百万人患病,严重影响了他们的正常工作和生活。它是以 视网膜感光细胞受损为特点的一组疾病。患者从“夜盲”,发展至周边视野缺损,最终导致中 心视力丧失。RP的发病有多种表现型,是一类视网膜色素病变导致的夜盲症状的总称,发病 率约为1/4000 [3],可表现为家族性常染色体显性或隐性遗传,性连锁遗传,散发病例等多 种形式[4,5]。不断发现的与此疾病相关的多种基因表明其发病机制非常复杂,不同病例间 具有很强的遗传异质性。
发明内容
本发明为适用于中国人遗传背景的含有3000和6001中、高密度两套连锁分析用 SNP标记集合。本发明的两套SNP标记集合的构建是基于HapMap项目产生的亚洲人群的基因型数据。连锁分析定位遗传病致病基因的基本方法是使用基因组上的具有多态性的标记 位点(SNP,STR等)作为探针,寻找标记位点与疾病的连锁情况,研究对象是具有家系结构 的样本。基本原理是当标记位点和致病基因在染色体上的分布距离很近时,它们被重组事 件打断的概率将会非常小,标记位点和致病基因因为紧密连锁的关系而在不同代数的家系 患病成员之间共同传递。在疾病完全外显的情况下,带有致病基因的个体表现出疾病的症 状,即致病基因和疾病症状的连锁关系。通过分析特定类型的标记位点和疾病表型(即致 病基因的外显)的连锁关系,借助标记位点的位置间接地获得致病基因在染色体上的位置 从而定位致病基因。以往连锁分析使用低密度的STR探针。STR是存在于人类基因组上的短串连重复 片段,通常为两个碱基的简单重复。由于STR在同源染色体上的重复次数有一定差异,同时 在传代时具有一定的稳定性,所以可以用作基因组标记来分离致病基因。近年大量发现的 SNP比STR具有更多的优势。SNP在世代传递时更加稳定,不产生像传统低密度STR探针中 常见的插入/缺失等突变[8,9,10]。SNP在全基因上的覆盖密度远高于STR,可以更高的 分辨率定位致病基因。另外SNP多是二态性的,更适用于大规模高通量的操作。另外SNP 的易分型性还使那些来自非血样DNA (SNP基因分型可适用于微量的样本DNA或部分降解的 DNA等,如从口腔样品中提取的基因组DNA)而不适合进行STR分析的“困难”样品的分析成 为可能,扩大了连锁分析样本的应用范围。本发明的成员参与了国际人类单体型计划,完成了 HapMap计划的中国卷部分,熟 悉掌握SNP的多种特性和算法工具,特别是对于亚洲和汉族人群的SNP数据进行了多种群 体遗传学和基因组学分析研究,并且在使用SNP基因分型的方法在疾病易感基因定位的研 究中取得了较好的成果[11]。在以上基础上,使用HapMap海量SNP数据,结合多个参量,构 建出适用于连锁分析定位致病基因的中、高密度两套SNP标记集合。这两套标记位点的挑 选是基于HapMap项目中的亚洲人(中国人和日本人)特别是中国汉族人的300多万SNP数 据,经过反复比较和计算后获得,更符合亚洲特别是中国汉族人的遗传背景。如图1所示, Illumina公司的商用连锁标记位点的在欧裔中有很好的多态性,但在亚裔和非裔中则多态 性很差。与之相反,本发明中的标记位点的多态性在亚洲和中国人中则非常突出。挑选SNP标记集合时,采用多种算法和指标对HapMap计划产生的3百多万SNP在 三大群体特别是亚洲人群的分型数据进行多参量的统计比较。包括LD,高多态性(MAF),基 因组均勻分布,非基因功能区等指标。连锁不平衡,是对相邻SNP位点在单体型上共同出现 和传代的概率衡量,可用参数r2来计算,r2可估算两个SNP位点之间的连锁关系[12]。LD 可以检验SNP位点的可靠性和对附近序列的代表性,连锁不平衡过低的SNP位点不能作为 标记位点(和周围50kb范围内所有SNP的r2全低于0. 8的SNP位点被剔出)。MAF(Minor Allele Frequency)即小等位基因频率,是一个SNP位点上出现的频率较低的等位基因型 的频率。MAF值可以衡量SNP位点的多态情况。本发明的SNP标记位点在HapMap中国人的 数据中,MAF值在0.2以上的高多态性位点占95%以上。基因组均勻分布是指所挑选相邻 标记位点之间的距离尽可能均勻一致,同时完全覆盖人类基因组。非基因功能区是指挑选 的标记位点位于基因组上的非基因区,即分布于基因及其上下游5kb的区域之外,目的是 避免基因区受到自然选择而引起标记位点偏离中性原则。
根据以上指标,本发明以HapMap 二期三百多万SNP基因型数据集作为基础,开发 和编写相应算法程序,去除功能区SNP,以LDdinkage disequilibrium)特性,高多态性, 高确信度,均勻覆盖全基因组等条件反复筛选和验证,首先挑选出约10万候选位点。所挑 选的候选位点经过两侧序列及其分型反应性和成功率(call rate)打分等过程进一步评 估。在分型系统评估的基础上,衡量所挑选SNP的实验可分型性。在分型性能的基础上,再 次结合多态程度高,分布均勻,LD特性等指标,最终确定含有3000和6001位点的中、高密度 两套“中国型”连锁分析用SNP标记集合,其中中密度的SNP相邻标记位点之间的平均距离 是1Mb,高密度SNP位点集合平均距离为500kb。中密度的3000SNP包含于高密度的6001SNP 集合之中。在HapMap中国汉族人群基因型数据中,这两套集合内多于95 %的位点的MAF值 在0.2以上,具有很高的多态性。所有标记位点都可以被成功分型。在家系实施例中85% 以上的标记位点具有多态。本发明的所有6001SNP标记集合呈列于附表中,其中索引号为偶数的为3000SNP 标记集合。标记位点的参数如附图所示,附图1显示标记位点在汉族人群中的高度多态性 (95%以上的点MAF大于0. 2)。图2显示所有6001标记位点的均勻分布情况。,图3为标记 位点在全基因组上的覆盖情况。图4-7分别为实施例中两个家系的结构及其所发明的标记 位点在这些样品中的分布。本发明的有益效果是,构建了符合中国人遗传背景的SNP标记集合,这些SNP的高 多态性保证了其作为连锁分析标记的有效性。同时标记的高可分型性为高通量分型实验 的成功率提供了保障。最后,中性且均勻覆盖全基因组的SNP标记确保了分析结果的可靠 性和全面性。另外,在家系分析中,该SNP集合以家系重组信息为基础,能够获得和家系结 构相匹配的定位精度,从而最大限度地满足基因定位的需求。可以在此基础上定制或开发 出中、高两套连锁分析用试剂盒或芯片。本发明可以适用于任何能够检测出基因型的实验 平台,尤其是 Illumina,Sequenom, Affymetrix, Agilent, Nimblegen 等公司的基因分型系 统。这些是提供SNP分型技术、产品、探针和设备体系的主要公司。产品中包含用于SNP标 记位点基因分型的核苷酸探针,有试剂盒或者芯片等多种形式。分型设备体系指和分型产 品对应的用来进行核苷酸片段扩增和探针杂交以及杂交结果扫描的仪器或平台。这些公司 的主要分型原理类似但技术手段不同。主要通过原位合成二态的SNP位点及其上下游几十 个核苷酸的序列片段作为探针,或将液体中合成好的探针固定在玻片或者磁珠上,用来和 样品核苷酸片段杂交,根据杂交后发出的荧光信号或质谱性质来判断某一 SNP位点的基因 型。在定制基因分型产品后,使用相应分型系统对研究样本的标记位点进行基因分型。得到 SNP标记的分型结果后,通过不同的分析手段或工具可实现致病基因的定位。该发明的两套 SNP标记可以充分地挖掘家系的重组信息,对一般的三代家系来说,可以达到把致病基因定 位到以Mb为单位的染色体区域上去的目的。这一构建的最重要意义在于标记位点的高效和覆盖人类全基因组,以及高度适用 于亚洲特别是中国人的遗传背景。这些分布于人类基因组中的SNP是经过统计分析挑选 而后在实施例中验证过的标记位点,在亚洲特别是中国汉族人遗传背景的应用上具有重要 优势,具有更高的多态。在全基因组几百万SNP数据中,仅挑选这些少量且高效的3000和 6001SNP标记集合就可以满足连锁分析的需求。。另外,在常见复杂性疾病易感基因研究的 战略上,如背景技术中所述,大样本量的全基因组规模关联分析虽然是目前国际流行的趋势,在我国因成本等各方面因素而不易广泛开展。而这类疾病的一个多代遗传家系,如同复 杂性疾病的分子遗传机制的一种分解,代表了其中一个易感基因的突出表现型,可以用相 对较少的费用将其定至某一位置。家系越多,则越可能找到更多致病或易感基因。本发明 的SNP标记集合可以为我国乃至亚洲人群疾病相关基因定位的连锁分析提供经济可行、高 解析度和高效力的重要工具。总之,本发明构建的中国型连锁分析用SNP不但使大量家系研究成为可能,而且 可以提高实验的高通量性,简并性以及定位的分辨率和降低研究成本,比传统方法具有更 高的操作和分析效力,可望在数年内促成大量致病相关基因的精细定位,使我国在常见的 复杂性疾病的研究领域有重要突破。
以下是对附图的说明。图1是6001SNP位点中两两相邻位点之间的距离频数图,大部分相邻位点之间的 距离为500kb。图2是6001SNP位点在HapMap亚洲人群数据中的MAF值频率图,显示标记位点集 合具有很高的多态性(95%以上的点MAF大于0. 2)。图3是6001SNP位点在全基因组上的覆盖情况,黑色为标记位点,灰色为所有 HapMap 二期分型SNP位点。图4是实施例RP家系1,其中**标记为该家系的同一个个体,X为死亡个体,黑 色标记为患病个体。图5是实施例中的RP家系2,其中**标记为该家系的同一个个体,X为死亡个 体,黑色标记为患病个体。图6是RP家系1中的600ISNP位点的MAF值分布频率图。图7是RP家系2中的600ISNP位点的MAF值分布频率图。
具体实施例方式1.探针制备选择3000或6001SNP标记集合,在基因分型公司如Illumina、Sequenom或 Affymetrix或其他可以进行寡聚核苷酸合成的公司定制含有检测SNP标记的寡核苷酸探 针的试剂盒。2.疾病家系样本收集和DNA提取收集遗传病家系,一个家系中必须含有两代以上(含两代)以及多于三个的患病 者。收集所有或主要家系成员的血样,即至少收集到患病个体及其兄妹,以及和患病个体有 血缘关系的上下各一代成员的样本。以真空抗凝管低温保存。根据所定制基因分型试剂盒 的需求,提取并获得特定浓度的样本基因组DNA,低温保存。3. SNP标记位点的基因分型根据定制的分型试剂盒的要求,在相应的分型系统进行家系基因组DNA和SNP标 记的寡核苷酸探针的杂交反应,并最终得到SNP标记位点的基因型。4.连锁分析和单体型分析
将SNP标记位点的基因型和家系信息相结合,选择连锁分析和单体型分析软件进 行数据分析,得到致病基因的所在基因组定位。连锁分析是基于家系样本定位致病基因的一种方法。在考虑染色体减数分裂存在 重组的情况下,观察遗传标记在家系中是否与疾病产生共分离和共传代,利用连锁的原理 确定致病基因与参考位点(遗传标记)的位置关系。根据孟德尔分离规律,当同一染色体 上的位点不连锁时,遗传标记标将独立于致病基因而分离传代,这个时候其与致病基因位 于同一染色体和不同染色体的机会各占一半,反之则表明连锁的存在并获得致病基因的位 置。连锁分析得到致病基因所在的候选区域之后,对候选区域做单体型分析。根据父母以 及子代的传代关系,把位于两条同源染色体上的核苷酸类型推导区分开来,由位于同一条 染色体上不同SNP位点的核苷酸类型组成一条单体型,这个单体型可以代表相应染色体区 段所携带的信息。基于这些单体型的传递分析称为单体型分析。单体型分析的优势在于可 以弥补二态性的SNP做连锁分析时杂合度不高的不足之处。5.致病基因的精密定位和测序验证必要时,还可进一步进行致病基因所在区域的精密定位。可以选择高密度SNP分 型、候选基因测序、对于定位区域设计探针进行富集后再通过第二代测序直接定位易感基 因等方法。实施例1. SNP标记位点的使用方法探针制备定制合成所有6001SNP位点的寡核苷酸探针(IIlumina分型体系)。寡 核苷酸探针为含有SNP位点及其上下游几十bp的核苷酸序列,在SNP位点上含有和SNP 二 态碱基对应互补的两种碱基。因此对应于一个SNP位点,存在两种单核苷酸探针。不同的 核苷酸探针制备公司对探针的处理有细微不同,通常是把合成的带有SNP多态位点的寡核 苷酸探针固定在微小的磁珠上,并附着于特殊硅质玻片的微孔中,或者直接固定于玻片上, 极小的空间可以放置大量探针,以此达到微芯片的高通量基因分型效率。家系样本的采集和保藏严格记录每个家系成员的表型症状,每个家系成员取外 周血5ml,用含有EDTA等抗血凝物质的一次性真空抗凝采血管保存。为防止细胞破裂导致 DNA的降解等损失,用低温保温箱收集。取回的血液样本如不及时提取DNA,应暂时冻存保 藏于-80°C冰箱。基因组DNA提取使用血液样本DNA提取商品试剂盒,提取所有样本全基因组DNA 并测量DNA的终浓度。根据下一步基因分型实验的需要,提取的DNA浓度优选在50ng/ μ 1 以上,总体积在20 μ 1以上。提取的DNA样本保存于-20°C冰箱供下一步基因分型等实验用。基因分型采用核苷酸探针配套的基因分型相关试剂对样本DNA进行全基因组片 段扩增,扩增时间较长,可放置于稳定环境过夜,获得大量的全基因组DNA片段。扩增得到 的DNA片段加至寡核苷酸探针所在的芯片载体上,使含有互补序列的核苷酸片段和探针充 分杂交结合,杂交过程过夜。杂交结束后,用洗脱试剂清除未结合到探针上的DNA片段。洗 脱之后进行杂交结果的固定理。最后把芯片置于扫描仪器中读取SNP位点的基因型。扫描 原理是在和寡核苷酸探针结合的DNA片段上加入了一种发光染料,当激光探头扫描时,染 料发出的光被扫描仪记录下来,光信号经过软件的处理得到相应SNP位点的碱基基因型。 实施例中采用Illumina公司的基因分型系统,在Illumina BeadArray芯片平台上进行核苷酸扩增,探针杂交和芯片扫描,最后获得样本DNA的基因分型信号。分型实验步骤如下UDNA样品扩增前的准备将200ng的DNA样品先进行预变性使之变成单链,然后 中和变性剂,最后加入酶扩增反应混合液。2、DNA样品37度孵育扩增将加入扩增反应液的DNA样品放入孵育箱中,37度反 应20-24小时进行全基因组扩增。3、扩增产物进行酶切在全基因组扩增的产物中加入酶切反应物,使之变成几百 碱基大小的片段。由于所用的酶具有非常好的特异性,因此该酶切过程不需要电泳来控制 酶切的反应速度。4、酶切产物沉淀将酶切后的产物用异丙醇在高速离心作用下进行沉淀,弃废液, 并室温干燥。5、溶解沉淀物加入杂交液,48度孵育1小时,然后稍微震荡使沉淀DNA充分溶 解、混勻。6、DNA样品与芯片杂交将充分溶解后的DNA样品在95度变性,然后加到芯片上, 使其均勻覆盖在芯片表面,这样能使样品与芯片上的探针充分结合。最后将加好样品的芯 片放入密闭的金属盒,在杂交炉中48度杂交16-24小时。7、芯片洗脱杂交后的芯片放入洗盒中清洗,洗脱掉没有杂交上或者杂交特异性 不好的样品。8、单碱基延伸和染色以与芯片上探针杂交的基因组DNA为模板,进行单碱基延 伸,延伸的碱基即为要检测的碱基。由于延伸的碱基已经提前进行过修饰,因此只要加入染 料对其进行标记即可。9、芯片扫描结果分析标记后的芯片经过洗脱、固定、干燥即可进行激光共聚焦扫 描,扫描后软件分析得到分型结果。得到的6001SNP标记位点的基因分型数据用来进行连锁分析定位致病基因。实施例2.使用标记位点基因型进行连锁分析两个视网膜色素变性家系致病因素的定位研究。实验对象两个家系分别如图4和图5所示。第一个家系来自河北永清县,包括 77个人,其中14人患病,共取到43个人的血样,其中36人进入实验和连锁分析;第二个家 系在山东菏泽,包括59个人,其中12人患病,取到23人血样,其中16人参与实验和分析过 程。两个家系都没有近亲结婚的情况。根据家系特点,两个RP家系判定为常染色体显性遗传,有部分家系成员为疾病因 素的携带者,RP在两个家系都表现为不完全外显(incomplete penetrance) 0样本DNA的制备如使用方式中所述,使用全血提取基因组DNA的试剂盒,提取所 有样本的基因组DNA。电泳检测DNA质量,检查DNA破碎和降解的程度。测量DNA的浓度, 对没有达到50ng/y 1的样本重新提取或者使用DNA浓缩试剂盒,DNA浓缩试剂盒可以提高 样本DNA的浓度。提取好的样本用双蒸水稀释到50ng/y 1,按照实施例1中所述的基因分 型方法可得到6001SNP标记位点的基因型。得到6001SNP标记位点的基因型数据之后,进行数据处理和连锁分析。数据质量控制每个样本的分型成功率(Call Rate)均在97%以上,绝大部分SNP
9位点被成功分型。去除在所有样本中分型成功率低于95%的SNP位点,成功率低的位点,由 于数据的损失无法参与进一步的数据分析过程。两个RP家系的疾病表现为常染色体遗传, 去掉X和Y性染色体上的标记位点,最后分别得到5619和5481个标记SNP的分型数据。在统计和筛选基因分型数据之后,对家系基因型数据进行初步分析,两个家系标 记位点的多态性分别如图6和图7所示,标记SNP的MAF值大于0. 2的比率分别达到77. 0 % 和73. 2%。因为家系样本在遗传上的同质性要显著高于群体样本,所以上述数据证明所挑 选的标记位点集合在汉族人群中具有非常高的多态性,为后续数据分析提供了极为有效的 信息。所获标记位点基因型用于下一步连锁分析。根据连锁分析原理,使用SNP标记集合的基因型和家系结构信息,选择连锁分析 软件分析分型数据,获得和疾病紧密连锁的致病基因所在染色体片段。目前有很多软件可 以完成这一计算过程,这里选择Merlin软件包做连锁分析。根据软件的输入格式,使用字 符编程工具或文本编辑器把基因型数据和家系信息编辑为软件可读的形式。打开Merlin 连锁分析软件包对3000和6001标记SNP分别进行全基因组连锁分析[13]。根据Merlin 命令格式结合家系结构特征,参数设置为多点连锁分析,用1Mb大小的网格分割基因组,遗 传模式为显性遗传。提取Merlin连锁分析结果中LOD值为正的染色体区域并列于表1。LOD值 (Likelyhood ofOdds ratio)是公认和广泛采用的连锁分析结果报告形式。如表1所示,两 套SNP标记位点集合都成功定位了染色体上有限的几个疾病基因候选区域。候选区域的大 小范围在几至几十Mb。在家系结构不同的情况下,3000和6001SNP标记集合的分析结果差 异大小有所不同,家系1的差异大于家系2。主要表现为6001比3000SNP位点排除掉更多 的和疾病连锁的区域,得到更少的候选致病基因区域。另外在定位区域的大小上,6001位点 定位的候选区域包含在3000位点得到的候选区域之内,具有比3000SNP集合更好的定位效 率。表 权利要求
1.一种用于连锁分析的SNP集合,包括至少100个SNP位点,其特征在于所述的至少 100个SNP位点选自人类基因组。
2.根据权利要求1所述的用于连锁分析的SNP集合,其特征在于所述的至少100个 SNP位点位于人类基因组中的非基因区。
3.根据权利要求2所述的用于连锁分析的SNP集合,其特征在于所述的人类基因组 为中国人基因组。
4.根据权利要求3所述的用于连锁分析的SNP集合,其特征在于所述的中国人基因 组为汉族人基因组。
5.根据权利要求4所述的用于连锁分析的SNP集合,其特征在于所述的至少100个 SNP位点集合为选自说明书附表所示的SNP位点组成的组。
6.根据权利要求4所述的用于连锁分析的SNP集合,其特征在于所述的至少100个 SNP位点的个数为6001,为说明书附表中的所有SNP位点。
7.根据权利要求4所述的用于连锁分析的SNP集合,其特征在于所述的至少100个 SNP位点的个数为3000。
8.根据权利要求7所述的用于连锁分析的SNP集合,其特征在于所述的用于连锁分 析的SNP集合在人类基因组上的平均覆盖密度为ISNP/IMb。
9.根据权利要求7所述的用于连锁分析的SNP集合,其特征在于所述的3000个SNP 位点集合是指说明书附表中索引是偶数的所有位点。
10.一种用于检测权利要求1-9所述的SNP集合的芯片,其特征在于所述的芯片可以 用于相应SNP位点的基因分型。
11.一种用于检测权利要求1-9所述的SNP集合的试剂盒,其特征在于所述的试剂盒 可以用于所述的SNP位点的基因分型。
12.根据权利要求1-9所述的SNP集合的应用。
13.根据权利要求12所述的应用,其特征在于所述的应用包含针对所述的SNP集合 进行基因分型实验的步骤。
14.根据权利要求13所述的应用,其特征在于所述的基因分型实验的步骤包括a) 制作基因分型用核苷酸探针和试剂;b)在基因分型系统上把探针和样本杂交并扫描,获得 所分析样本在所述SNP位点处的基因型。
15.根据权利要求12-14所述的应用,其特征在于被检测的样品为中国汉族人样本。
16.根据权利要求1-9所述的SNP集合在人类疾病基因定位中的用途。
17.根据权利要求16所述的用途,其特征在于所述的用途是用于人类遗传疾病研究 中的致病基因定位的连锁分析过程。
全文摘要
中国人群连锁分析SNP标记集合及其使用方法与应用在国际人类基因组单体型计划产生的海量数据中有上亿份涉及中国汉族人群的数据成果基础上,根据连锁不平衡性质、多态性程度、分型成功率、基因组分布位置与密度、功能特性等多参量的统计比较和多层次挑选与实验验证,构建并优化了分别含有3000和6001位点的中、高密度两套连锁分析用SNP标记集合。其中3000位点包含于6001位点中。该SNP集合在设计上强调针对汉族的遗传背景,使其在中国人中具有高多态性,从而达到具有我国家系样本基因组标记的高效性这一目标。多态位点的选择基于中性进化原则,全部位点位于非基因功能区以避免进化对于基因功能的影响。同时,标记位点的高可分型检测性、均匀覆盖全基因组等特点为完整筛查整个基因组进而定位和发现新的致病基因提供了可靠保障。用这两套SNP标记订制探针或芯片针对家系样本进行全基因组基因分型,并用分型数据做连锁分析,辅以连锁候选区域的单体型分析和精细定位,能够以较低的费用和较快的速度得到比传统方法更为精细的定位结果。附图为6001 SNP标记集合在人类染色体上的分布和覆盖情况。
文档编号C12Q1/68GK102121046SQ20091008746
公开日2011年7月13日 申请日期2009年6月25日 优先权日2009年6月25日
发明者不公告发明人 申请人:中国科学院北京基因组研究所, 首都医科大学