一种基于全基因组选择高效预测菊花花期的方法

文档序号:35092940发布日期:2023-08-10 03:28阅读:227来源:国知局
一种基于全基因组选择高效预测菊花花期的方法

本发明涉及一种基于全基因组选择高效预测菊花花期的方法,属于植物分子育种领域。


背景技术:

1、开花是植物由营养生长转向生殖生长的标志,适时开花有利于植物避开不良外界环境并顺利繁殖后代。对于花卉作物而言,开花时间直接影响了其观赏品质和经济效益。菊花是我国十大传统名花和世界四大切花之一,栽培与应用广泛,在花卉产业中占据重要地位。依照自然花期不同,菊花可以分为夏菊(6-9月开花)、秋菊(10月中旬-11月下旬开花)、寒菊(12月-翌年1月开花)等类型。目前市场上常见的菊花品种大部分属于秋菊,花期较为集中,严重影响了菊花的周年供应,而反季节栽培的能耗成本高。因此,花期改良是菊花育种工作者的重要目标。

2、植物花期性状是受多个基因控制的复杂数量性状。目前,通过传统qtl定位和关联分析,已在菊花中检测到部分控制花期性状的qtl和位点。然而,这些位点绝大多数都属于环境特异的微效位点,很难直接应用到实际育种工作中。分子标记辅助选择(molecularassisted selection,mas)是利用与目标性状基因紧密连锁的标记进行间接有效选择的分子育种技术,但其效率易受群体大小、标记类型和数量、标记与基因间的距离、目标性状遗传力等因素的影响,且高度依赖于qtl定位的准确性。因此,利用mas对菊花花期性状进行遗传改良具有很大的局限性。全基因组选择(genomicselection,gs)是继mas后由meuwissen等人于2001年率先提出的一种育种策略。该方法使用全部的分子标记对候选个体的基因组估计育种值(gebv,genomic estimatedbreeding value)进行预测和选择,可提高对微效多基因控制复杂性状以及低遗传力性状的选择效率。

3、gs预测准确度的影响因素有很多,主要包括训练群体大小、分子标记密度、统计模型、训练群体与验证群体间的亲缘关系等。如何构建高效gs预测模型已成为当下国际植物数量遗传学研究的热点方向之一。目前,gs已成功应用在水稻、玉米、大豆等作物上,但在菊花中尚未报道。菊花基因组图谱的公布以及简化基因组gbs测序技术的快速发展为菊花全基因组选择提供了丰富的遗传变异信息。综上,亟需建立一种基于全基因组选择高效预测菊花花期的方法,实现菊花优异花期性状的早期选择,从而缩短育种周期。


技术实现思路

1、发明目的:本发明所要解决的技术问题是提供了一种全基因组选择预测菊花花期模型的筛选方法。

2、本发明还要解决的技术问题是提供所述方法筛选的全基因组选择预测菊花花期模型在预测菊花花期中的应用。

3、本发明还要解决的技术问题是提供所述方法筛选的全基因组选择预测菊花花期模型在筛选菊花品种中的应用。

4、本发明还要解决的技术问题是提供所述方法筛选的全基因组选择预测菊花花期模型在菊花花期育种中的应用。

5、本发明还要解决的技术问题是提供基于全基因组选择高效预测菊花花期的方法。

6、技术方案:为解决上述技术问题,本发明提供一种全基因组选择预测菊花花期模型的筛选方法,包括以下步骤:

7、(1)选取来源不同且无直接亲缘关系的代表性菊花品种,以无性繁殖方式进行多年多点种植;详细记录每个菊花品种的现蕾期、显色期、初开期、盛花期和衰败期,计算每个品种各花期性状在多个环境下的均值和最佳线性无偏预测blup值,并估算性状广义遗传力;

8、(2)计算各花期性状两两之间的相关系数矩阵;采用pca分析提取第一主成分的特征向量pc1作为代表菊花开花早晚的综合性状;

9、(3)采用gbs简化基因组测序技术和illuminahiseq测序平台对上述菊花品种进行双末端pe150测序,变异检测和过滤质控,即测序深度>6x、完整度>0.85、次要等位基因频率maf>0.05,获得高质量snp用于后续遗传分析;

10、(4)基于步骤(3)所述高质量snp,分别利用gcta软件和emmax软件进行主成分分析和亲缘关系分析,得到所有个体的特征向量pcs矩阵和两两个体之间亲缘关系系数kinship矩阵;结合步骤(1)中所述各花期性状的单环境表型值、多环境均值和blup值,利用iiivmrmlm软件分别进行单环境和多环境联合全基因组关联分析,获得每个snp与性状的关联p值;根据bonferroni矫正设置的显著性阈值,检测现蕾期、显色期、初开期、盛花期和衰败期的显著关联qtn,即significant qtn,并将lod阈值>3.0的位点作为suggested qtn;significant qtn和suggested qtn均为极显著关联位点;

11、(5)以步骤(1)中不同环境下每个花期性状的均值和步骤(2)中的pc1作为全基因组选择分析的表型数据,表型缺失值采用平均值填补;

12、(6)选取步骤(3)中所述高质量snp为第一类snp数据集;选取步骤(4)中所述各花期性状p<0.005、p<0.001的显著关联位点,以及达到bonferroni矫正的significant qtn和lod>3.0的suggested qtn即极显著关联位点为第二类snp数据集;利用plink v1.9软件的“--thin-countnum”命令在步骤(3)中所述高质量snp数据集中选取与第二类snp数据集相同数量的标记为第三类snp数据集;对于步骤(2)中所述pc1,分别以其他5个花期性状不同阈值下的显著位点的并集作为snp标记集;

13、(7)采用rrblup包中的a.mat()函数填补基因型,分别将步骤(6)所述7个snp数据集的纯合非突变基因型编码为0,杂合基因型编码为1,纯合突变基因型编码为2;

14、(8)基于上述步骤(5)中各品种的现蕾期、显色期、初开期、盛花期、衰败期以及pc1表型值和步骤(7)中的基因型数据,采用5-倍交叉验证方法在不同全基因组选择统计模型下进行全基因组选择分析;以20%测试群体的估算基因组估计育种值gebv和实际观测值的决定系数重复500次的均值作为评价全基因组选择预测准确性的指标,据此确定最佳统计模型和最佳分子标记数据集,获得最佳全基因组选择预测体系。

15、其中,花期性状包括步骤(1)中所述的现蕾期、显色期、初开期、盛花期、衰败期,以及步骤(2)中代表花期早晚的综合性状pc1。

16、其中,所述现蕾期、显色期、初开期、盛花期、衰败期分别为定植日到50%菊花开始现蕾、破蕾显色、初开、盛开、衰老褪色的天数;pc1为采用pca分析提取的第一主成分特征向量。

17、其中,步骤(4)所述snp数据集包括all,sig5,ran5,sig1,ran1,sig和ran,所述数据集从大到小为:all>sig5=ran5>sig1=ran1>sig=ran。

18、其中,步骤(8)所述全基因组选择统计模型为岭回归最佳线性无偏预测rrblup、支持向量机svm和随机森林rf,分别在‘rrblup’、‘e1071’、‘randomforest’三个r软件包中实现。

19、其中,步骤(8)中确定的最佳全基因组选择预测体系为支持向量机svm模型和sig分子标记数据集,其中现蕾期、显色期、初开期、盛花期、衰败期和pc1的sig标记集分别包含92,86,97,94,98和372个极显著关联snp位点,svm模型预测准确度可达0.897~0.950。

20、本发明还提供了所述方法筛选的全基因组选择预测菊花花期模型在预测菊花花期中的应用。

21、本发明还提供了所述方法筛选的全基因组选择预测菊花花期模型在筛选菊花品种中的应用。

22、本发明还提供了所述方法筛选的全基因组选择预测菊花花期模型在菊花花期育种中的应用。

23、本发明还提供了基于全基因组选择预测模型预测菊花花期的方法,包括以下步骤:

24、(1)根据所述方法筛选的全基因组选择预测模型,利用predict(svm_fit,markers_test)函数分别估计200个不同菊花品种的每个花期性状的育种值gebv,其中svm_fit为构建的支持向量机svm模型,markers_test为测试集的sig分子标记数据集;

25、(2)当所述菊花品种每个花期性状的育种值均排名前十时,则所述菊花品种为早开花材料;当所述菊花品种每个花期性状的育种值均排名后十时,则所述菊花品种为晚开花材料。

26、有益效果:与现有技术相比,本发明具有如下显著优点:

27、1、本发明建立了一种基于全基因组选择高效预测菊花动态花期的分子育种方法;2、通过比较不同统计模型和snp数据集对全基因组预测结果的影响,发现svm模型以及gwas鉴定获得的显著关联位点可以快速、高效、精准预测菊花动态花期,准确度可达0.90~0.95;3、本发明可实现菊花现蕾期、显色期、初开期、盛花期、衰败期以及开花早晚的早期预测,无需进行繁琐的田间全生育期观测,既避免了环境因子以及人为主观因素对花期表型鉴定的影响,又大大缩短了育种周期,对于菊花花期改良和周年生产具有重要的理论和实践意义。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1