本发明涉及分子育种、生物信息学、分子生物学和功能基因组学领域,具体包括一种与生长性状相关的snp位点筛选,与东星斑的基因组snp芯片制备方法与芯片设计结果,同时还涉及这种东星斑snp芯片的用途。
背景技术:
1、分子标记(molecular markers),是以个体间遗传物质内核苷酸序列变异为基础的遗传标记,是dna水平遗传多态性的直接反映,是遗传学研究中的重要工具。遗传标记的发展经历了形态学水平,细胞学和染色体水平,蛋白质和同工酶标记水平,dna分子水平4个发展阶段。其中,dna分子标记不受发育阶段和外界环境因素的限制,在生物体的各组织均可进行检测,检测手段快速简便,因此具有显著优势。dna分子标记在全基因组中呈均匀分布,数目多,多态性高,其获取不需对生物进行人为改造,不影响物种的自然状态。dna分子标记的共显性有利于其应用于隐性性状的选择。随着分子生物学和测序技术的发展,现已有数十种dna分子标记技术,广泛应用于物种亲缘关系鉴别、遗传育种、基因定位、基因组作图、基因库构建、基因克隆等方面。
2、单核苷酸多态性(snp)标记是分子标记技术中重要的一种,snp标记分布广、密度高、数量多、遗传稳定性高,因此在动植物遗传学研究和育种中具有显著优势。如位于编码区内的snp突变,可将其分为同义突变和非同义突变,非同义突变的snp改变了基因转录翻译产物的蛋白质序列,可能造成蛋白质结构或基因表达水平的改变,因此,编码区snp的研究具有重大意义。snp标记的筛查过程可实现快速、规模化,后续数据分析过程基本可实现自动化,能够显著缩短研究周期。snp已是当前广泛用于遗传育种和群体进化研究的主要变异,随着高通量测序技术发展,基于测序手段的snp筛查逐渐成为研究人员关注的热点。
3、现代分子生物学的方方面面都与dna测序息息相关。全基因组重测序能获取最为全面的基因组变异信息,可以捕捉到全基因组水平snp标记和svs(结构变异)等信息,通过研究dna差异信息和观测表型间的关联,可探究基因组在物种进化演变过程中发挥的作用。snp芯片作为一种便携、可靠的基因分型手段,是snp位点检测的重要工具。snp芯片是动植物复杂性状遗传解析的强有力工具。水生生物由于其遗传图谱构建滞后,snp芯片设计开发存在一定困难,加之定制费用较高,现有的固相芯片难以满足灵活选择位点的应用需求,缺乏成熟的商业化芯片。目前,针对东星斑等非模式生物,仍迫切需要开发以高效、低成本和灵活的方式对全基因库位点靶向分型的技术。
4、近年来,基于测序平台的液相杂交捕获技术逐渐兴起,有望克服固态芯片平台的局限性。hd-marker技术是一种基于液相分子杂交的方法,可以在单管内对12 472个位点同时进行靶向基因分型,在通量级和标记类型的选择上具有很高的灵活性。该方法的原理是基于位点特异性探针(lsp)与目标位点的侧翼序列进行杂交,通过延伸、连接和扩增步骤,完成高通量文库的构建。hd-marker基于引物池的方式进行芯片的合成,可根据实际研究需求增减位点,有效结合了goldengate技术的高特异性、灵活性和测序平台的成本优势,且具有较高的捕获率和分型准确率,在靶向精准性、灵活性和成本上的明显优势,突破了当前固相定制芯片灵活性差、平台费用高昂、难于大规模应用等技术瓶颈,对于非模式生物的大规模靶向基因分型是一种有前景和有吸引力的工具。
5、测序技术的快速发展和基因组数据的爆炸式增长,给生物信息学带来了革命性的变化。与此同时,人工智能(ai)的发展推动人工神经网络的进步,基于人工神经网络的数据挖掘技术已经成为现代生物学中的重要工具。深度学习(dl)是机器学习(ml)的一个重要分支,起源于人工神经网络的研究,深度学习利用人工神经网络在分层水平上执行机器学习过程,能够以高度非线性的方式处理数据,已被广泛应用于图像识别、基因型填充、基因组选择育种等领域,为水产生物养殖和育种带来了极大突破。
6、豹纹鳃棘鲈(plectropomus leopardus),俗称东星斑,属鲈形目(perciformes)、鮨科(serranidae)、石斑鱼亚科(epinephelinae)、鳃棘鲈属(plectropomus),主要产于西南太平洋、澳大利亚北部、日本南部、中国海域。东星斑具有高蛋白、低脂肪、低胆固醇等特点,营养丰富,肉质鲜美,体色鲜艳,具有极高的经济价值和市场前景。二十一世纪以来,东星斑的人工养殖在我国沿海地区快速发展,并且已在海南形成一套较为完善的养殖产业链。到2020年,海南省东星斑人工繁育年产量已达3000吨以上,占全国养殖总产量的95%。遗憾的是,由于无法对全基因组变异进行更全面的种群分析,我们对东星斑种群种质资源的了解极其匮乏。
7、针对上述问题,我们迫切需要利用分子生物学手段改良水产动物种质资源。目前东星斑的分子育种研究中仍然缺乏稳定、高效、低成本的snp芯片。
技术实现思路
1、鉴于现有技术的不足,本发明基于hd-marker探针设计技术,在此基础上结合深度学习模型和多目标优化选择算法进行优化,开发了一款东星斑50k的液相芯片,能够为东星斑经济性状研究、品种鉴定以及基因组选择育种提供重要的技术手段,可以满足东星斑大规模商业化育种的需求。
2、本发明包括以下内容:
3、一种东星斑育种全基因组snp芯片,包括以下制备步骤:
4、s1、采集不同种群的东星斑个体,提取东星斑基因组dna;
5、s2、构建dna文库,进行测序,利用深度学习卷积神经网络模型识别变异位点;
6、s3、挑选出二态性snp位点;过滤掉snp过于密集的区域;进一步过滤得到高质量的snp数据集;
7、s4、选择snp位点上下游碱基序列作为该位点的特异探针;将筛选出的snp位点及上下游侧翼序列组合成的完整序列输入长短期记忆神经网络模型,得到每条序列的预测测序深度;根据探针深度的高斯分布,选择测序深度均匀的探针;
8、s5、采用ld的r2>0.5作为删除snp尺度,在符合探针设计要求的snp中减少或删除处于高连锁不平衡的snp;保留检出率高于0.9的个体,同时过滤掉位点缺失率大于0.1,最小等位基因频率小于0.05或不符合哈温平衡的位点,得到位点数据集;
9、s6、基于snp多位点频率结合位点在每个染色体上分布的均匀性,寻找获得具有最优信息的snp数据集;
10、s7、在基因组层面上,利用全基因组关联分析gwas,根据 p-value值得到与东星斑生长性状相关显著的snp位点;利用卷积神经网络联合自编码器,在编码器和解码器分别加入卷积层和反卷积层,增强特征提取效果,以步骤s6筛选的 snp数据集为输入数据填充缺失基因型数据;对最终得到的高质量snp位点进行注释;
11、将最终得到的snp位点数据集位点信息进行整合,形成一个包含位点信息、探针序列以及注释信息的hd-marker液相芯片池。
12、优选的,所述过滤掉snp过于密集的区域指的是110bp窗口内超过3个snp的位点。
13、优选的,步骤s3中,所述进一步过滤为:
14、根据以下位点质量过滤参数进行过滤:qd<2.0,fs<60.0,mq<40.0,sor>3.0,qual>5000,mqranksum<-12.5,readposranksum<-8.0;只要满足其中一条,就会被过滤掉;然后过滤掉最小等位基因频率小于0.05或缺失率大于0.05的位点。
15、优选的,步骤s6为:设计一个共享位点的基础面板,加入不同东星斑群体的特有位点和骨干snp位点;控制snp位点次等位基因频率阈值maf>0.10;以基础面板和骨干snp为条件,使用多目标优化选择算法挑选东星斑snp位点;汇集选定的snp子集后,针对大空白的snp区域进行填补。
16、优选的,所述骨干snp位点为位于或接近基因区的2k位点。
17、采用以上所述方法得到的液相芯片在位点的靶向性、捕获率、准确性及均一性等方面达到优异的效果。测试结果显示,在所有样品中位点的捕获效率均能达到96%以上,分型位点比例均在95%以上,位点测序深度上具有较高的一致性,重复样品深度一致性的皮尔逊系数均能达到在0.95以上。与标准wgs文库数据相比,位点分型准确性也在90%-95%之间。表明本发明的东星斑的50k液相芯片具有较好的分型效果。
18、本发明还提供了所述的东星斑全基因组育种芯片在不同群体东星斑的遗传背景分析中的应用,以及在东星斑生长性状关联分析中的应用。
19、与现有技术相比,本发明的有益成果在于:
20、(1)本发明将深度学习cnn模型应用于基因分型,大大增加了分型准确率。
21、(2)本发明优化了hd-marker探针设计方案,加入深度学习lstm模型预测测序深度模块,提高了hd-marker探针杂交测序的均匀性。并在探针设计的基础上结合molo算法进一步筛选位点,并有效利用卷积神经网络(cnn)联合自编码器(autoencoder)填充缺失基因型。在减少芯片snp位点数量的同时保证每个位点包含的信息量,即根据该snp芯片获得基因型数据的低成本和高有效性。
22、(3)本发明的液相芯片靶向性好,位点测序深度上具有较高的一致性,重复样品深度一致性的皮尔逊系数均能达到0.95以上,位点分型准确性高,具有较好的分型效果。
23、(4)本发明可通过群体分型率大于90%,最小等位基因频率大于0.05筛选得到52232个高质量位点的基因型信息,并利用分型数据对东星斑的个体聚类分析,其结果清楚的显示了东星斑芯片覆盖的snp位点在东星斑群体中具有较好的多态性,可以应用于东星斑材料的遗传背景分析,是一种群体通用的snp芯片。
24、(6)本发明可利用东星斑50k snp芯片,对东星斑生长性状相关位点进行全基因组分析,其p<1e-05的显著位点有8个,定位于4号,9号,13号和19号连锁群,证明了50k snp芯片覆盖了东星斑生长性状相关的突变位点和标记。
25、(7)本发明可为开展东星斑生长经济性状选择等相关遗传育种工作提供可靠的技术平台,促进我国水产养殖业的发展,同时也为其他水产生物的芯片的设计和开发提供初步的理论参考和方法指导。