一种全基因组预测方法及装置与流程

文档序号:17596698发布日期:2019-05-07 19:34阅读:366来源:国知局
一种全基因组预测方法及装置与流程

本发明实施例涉及育种技术领域,尤其涉及一种全基因组预测方法及装置。



背景技术:

作物育种的主要目标是培育出比市场上现有品种具有更好表现的新品种。利用杂种优势的杂交育种可以培育出表现比亲本更加优良的杂交品种。如杂交水稻、杂交玉米等的推广应用增加粮食产量,为全球粮食安全的保障做出了贡献。

在杂交育种的过程中,需要通过杂交获得大量的杂交种,并在田间进行多轮多级筛选,然后进行多年多点的测试,最终获得尽可能符合人类预期的新品种。随机亲本的杂交后代的农艺性状表现具有一定程度的未知性和不确定性,因此杂交育种是一个结果充满未知,需要不断尝试的过程,运气也是一定程度上影响成功与否的一个因素。育种家们在以往的工作中已经收集、开发或积累了许多可用于杂交育种的自交系亲本。同时,双单倍体(dh)等新的生物技术为育种家开发新的育种亲本提供了便利。相较于以往收集并保存种质资源的做法,利用dh技术可在短时间内获得大量可用于二次杂交育种的纯合亲本。可以产生的组合数是一个关于亲本材料数的非线性增长函数,可用以下公式表示:

h=f(p)=p(p-1)/2

其中,h表示可能的杂交组合数,p表示亲本材料数。可以看出随着亲本数p的增加,可以进行杂交产生杂种的组合数h将会大幅增加,意味着可以产生更多的杂交种,进行田间筛选。然而,在育种实践过程中,无论在技术上还是在资源上,都不能允许对所有可能的杂交组合进行配组产生杂交种,并进行表型鉴定和筛选。育种家们可以根据其经验进行预判,选择一些可能具有高产潜力的组合进行育种实践。然而育种家的预判依赖于长期实践的经历积累,不同的育种家有不同的经历和不同的侧重点,其预判时所触及到的遗传因素可能不全面,可能会漏掉一些具有潜力的组合。因此,如何触及更全面的遗传因素,快速有效地对更多杂交组合后代可能的表型进行考量,成为亟需解决的问题。

玉米是世界上最重要的农作物之一,约有三分之一人口以玉米为主要食粮,其中亚洲人食物组成中玉米占50%以上,非洲占25%,拉丁美洲占40%。除开用作食粮以外,玉米主要被当作饲料加以使用。全球的玉米大约有65%~70%都用作饲料,发达国家高达80%,是畜牧业赖以发展的重要基础。另外,玉米籽粒是重要的工业加工原料,可加工生产两、三百种产品。提高产量可以更好地满足将玉米当作饲料、工业原料进行使用的需求。因此,对产量的追求是玉米育种的重要目标。

全基因组选择,或基因组选择,是近来根据全基因组的分子标记推荐最具潜力的候选配组的一种分子标记辅助选择的方法。基因组选择首先对一些杂交种(训练集)的基因型数据和表型数据进行考察,建立模型评估每个标记对表型数据的效应。然后根据亲本基因型推算杂交种基因型,综合杂交种各分子标记上基因型的效应,对表型值进行预测,推荐具有稳定高产潜力的杂交组合。

在实际应用中,存在多种可用于构建全基因组预测的模型的方法,例如rrblup、随机森林、自动机器学习等。在本发明的实施例中,利用对巴西四个不同区域的玉米杂交种的产量数据和推测的基因数据,进行分别建模,并对各个模型的比较,发现四个模型在四个指标上的表现并没有明显的差异,图1a和图1b分别为产量和水分的比较结果示意图,通过图1a和图1b所示的各指标的均值可粗略判断:

各模型对产量进行预测的表现评价为:

随机森林≈rrblup.dominant>rrblup>自动机器学习;

各模型对水分进行预测的表现评价为:

rrblup>随机森林>rrblup.dominant>自动机器学习;

其中:

rrblup:仅考虑加性线性回归模型的rrblup模型;

rrblup.dominant:考虑显性效应的rrblup模型;

因此,难以选择出一个理想的适应所有区域或各类表型预测的最佳模型。另外,图1a和图1b中离群点的存在表明单一模型在产量预测时结果不够稳定,在实际应用中存在一定的风险。



技术实现要素:

针对现有技术中存在的技术问题,本发明实施例提供一种全基因组预测方法及装置。

第一方面,本发明实施例提供一种全基因组预测方法,包括:

获取待预测的杂交种的基因型数据;

根据预先建立的联合预测模型中的多个预测模型和待预测杂交种的基因型数据,对所述杂交种的表型数据分别进行预测,得到各个预测模型的表型数据预测结果;

结合育种资源和规模,根据所述各个预测模型的表型数据预测结果,确定多个预测模型表型数据预测结果均最优的杂交组合。

第二方面,本发明实施例提供一种全基因组预测装置,包括:

获取模块,用于获取待预测的杂交种的基因型数据;

预测模块,用于根据预先建立的联合预测模型中的多个预测模型和待预测杂交种的基因型数据,对所述杂交种的表型数据分别进行预测,得到各个预测模型的表型数据预测结果;

确定模块,用于结合育种资源和规模,根据所述各个预测模型的表型数据预测结果,确定多个预测模型表型数据预测结果均最优的杂交组合。

本发明实施例提供的全基因组预测方法及装置,通过建立多个预测模型对杂交种的表型数据进行预测,然后根据田间试验规模,根据各个模型的表型数据预测结果,确定多个模型表型数据均最优的杂交组合,为育种实践推荐具有稳定高产潜力的候选杂交组合。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1a为现有技术中利用单一模型的产量预测对比图;

图1b为现有技术中利用单一模型的水分预测对比图;

图2为本发明实施例提供的全基因组预测方法的流程示意图;

图3为本发明实施例提供的多模型联合预测的示意图;

图4为本发明实施例提供的通过对杂交种表型数据预测值和观测值进行比较,以对各模型在玉米表型数据预测中的表现进行评估的示意图;

图5为本发明实施例提供的联合预测模型和单一模型的效果对比示意图;

图6为本发明实施例提供的联合预测模型和单一模型的数据对比图;

图7为本发明实施例提供的全基因组预测装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图2为本发明实施例提供的全基因组预测方法的流程示意图,如图2所示,所述方法包括:

s101、获取待预测的杂交种的基因型数据;

s102、根据预先建立的联合预测模型中的多个预测模型和待预测杂交种的基因型数据,对所述杂交种的表型数据分别进行预测,得到各个预测模型的表型数据预测结果;

s103、结合育种资源和规模,根据所述各个预测模型的表型数据预测结果,确定多个预测模型表型数据预测结果均最优的杂交组合。

在过去的育种工作中,开发了许多预测杂交种表现的方法。一种常用的方法是根据配组亲本间得多态性的分子标记估计亲缘关系的远近,从而推荐杂交组合。

全基因组选择,或基因组选择,是近来综合考虑全基因组的分子标记推荐最具潜力的候选配组的一种分子标记辅助选择的方法。基因组选择首先对一些杂交种(训练集)的基因型和表型进行考察,建立模型评估每个标记对表型的效应,然后根据亲本基因型推算杂交种基因型,综合杂交种各分子标记上基因型的效应,对表型值进行预测。常用的全基因组预测方法包括:rrblup、随机森林、自动机器学习等,这些方法在实践中各有利弊,难以找到一种适应各区域的最优方法,而且单一方法在预测时结果不够稳定,可能出现预测准确度异常偏低的情况,对育种实践产生较大的影响。

本发明实施例提供一种联合多种预测模型对玉米表型数据进行全基因组选择的方法,通过多种全基因组预测方法分别建立模型,并对待预测杂交种的表型数据进行预测,再挑选出多种方法均预测表型数据较高的杂交组合,为育种实践推荐具有稳定高产潜力的候选杂交组合。

本发明实施例提供的全基因组预测方法,通过建立多个预测模型对杂交种的表型数据进行预测,然后根据田间试验规模,根据各个模型的表型数据预测结果,确定多个模型表型数据均最优的杂交组合,为育种实践推荐具有稳定高产潜力的候选杂交组合。

可选地,所述杂交种的基因型数据根据自交系亲本或dh系亲本的纯合基因型推测得到。

可选地,所述联合预测模型中的多个预测模型至少包括rrblup模型、随机森林模型和自动机器学习建立的模型。

其中,联合预测模型包括上述提到的模型,但不限于rrblup模型、随机森林模型和自动机器学习模型。

图3为本发明实施例提供的联合预测模型的结构示意图,如图3所示,为了定位出高产概率最高的杂交组合,对多个模型分别进行预测,并挑选出各自的高产组合,然后将多个模型的高产组合取交集,得到一个综合组合,这个结果为联合预测模型得到的预测结果。

本发明实施例提供了4个模型的联合预测模型(mix.4models),至少包括rrblup模型、rrblupdominant模型、随机森林模型和自动机器学习模型。

可选地,所述随机森林模型具体为:

其中:x表示第x个杂交组合,ψb表示第b次抽取标记位点子集进行预测,t(x,ψb)表示用ψb对第x个杂交组合表型进行预测的结果,表示对第x个杂交组合表型进行预测的输出结果。

可选地,所述自动机器学习模型采用利用自动机器学习automl框架下的工具h2o,执行自动机器学习流程中的贝叶斯超参数优化和深度神经网络搜索算法,从而构建对表型数据进行预测的全基因组选择模型。

具体地,所示自动机器学习模型为automloneclick.ai。

可选地,所述rrblup模型具体为:

y=xb+wm+e;

其中:

y是训练群体中各杂种的表型向量;

x是长度等于训练群体中各杂种数目,元素值均为1的向量;

b是计算出的固定效应,即训练群体中各杂种的表型平均值;

w是对基因型进行编码得到的关联矩阵;

m是根据模型估算出的分子标记效应向量;e是残余误差。

其中,所述rrblup模型中b和m关系为:

其中:

x长度等于训练群体中各杂种数目,元素值均为1的向量;

x′是将x转置后的得到的向量;

w是对基因型进行编码得到的关联矩阵;

w′是将w转置后的得到的向量;

i为单位矩阵;

ha2是目标性状的狭义遗传力,即加性遗传效应所能解释的表型方差的比例;在本发明所述实施例中,是通过方差分析计算得到的广义遗传力,位点被当作是完全随机区组实验中的小区(或重复),用pms表示总表型方差,用tms表示测试点方差,广义遗传力可用以下公式进行计算:

h2=[(pms-tms)/r]/pms

n为模型中考虑的遗传位点数;

pi为第i个遗传位点上一种基因型的频率;

qj为第j个遗传位点上另一种基因型的频率。

分子标记个基因型组合所代表的基因组对表型的遗传贡献值可用以下公式进行计算:

其中,wij表示第j个个体中第i个分子标记根据基因型编码后在相关举证中的值,表示第i个分子标记的效应值。

可选地,所述结合育种资源和规模,根据所述各个预测模型的表型数据预测结果,确定多个预测模型表型数据预测结果均最优的杂交组合,具体步骤为:

利用所述预先建立的联合预测模型中的多个预测模型和待预测杂交种的基因型数据,对所述待预测的杂交种的表型数据进行预测,得到多个预测模型的表型数据预测结果;

根据田间试验规模,选择各个预测模型的表型数据预测结果中较优的杂交组合;

将各个模型的较优的杂交组合取交集,得到经过联合预测模型预测的最优杂交组合。

可选地,所述方法还包括:对所述联合预测模型及联合预测模型中的多个预测模型进行评估,具体为对所述模型预测结果和真实结果的相关系数的平方、召回率、准确率和提升率进行评估。

在上述实施例的基础上,在执行预测方法之前,还需要对联合预测模型中的各个单一模型以及联合预测模型的表现进行评估。进而利用模型,根据训练群体和测试群体中杂交种的基因型数据,对杂交种的表型进行预测,然后将观察到的结果与真实观测值进行比较。训练群体中杂交种预测值和观测值的比较结果,可以评价模型的预测能力。在比较结果中,通过以下一个或多个指标对模型的表现进行了评估:

1)相关系数的平方(r2);

2)召回率(recallrate);

3)准确率(precession);

4)提升率(improvement)。

通过图4中的示例来解释这些对模型评估的指标。一个点代表一个杂交种,横坐标为预测值,纵坐标为观测值。垂直线代表基因组选择的阈值,垂直线右侧的数据点为50%,是根据模型的预测结果推荐给育种家的杂交组合占所有做过预测的杂交组合的比例。水平线代表田间表型筛选的阈值,水平线以上的数据点为10%,是育种家在田间筛选出来杂交种占田间种植的杂交种的比例。两条直线将图中区域分成四个部分:

右上角的第一象限区域中的杂交种表示在基因组选择和表型选择中均被保留的杂交种;

左上角的第二象限区域中的杂交种表示在基因组选择没有被保留,但在表型选择中被保留的杂交种;

左下角的第三象限区域中的杂交种表示在基因组选择和表型选择中均没有被保留的杂交种;

右下角的第四象限区域中的杂交种表示在基因组选择中被保留,但在表型选择中没有被保留的杂交种。

具体地,3.1)r2:预测值与观测值相关系数的平方,计算方式如下

其中,y为观测值,为预测值。

3.2)召回率:位于第一象限的杂交种占第一二象限杂交种的百分比,计算方式如下:

其中,q1为位于第一象限的杂交种的数目,q2为第二象限的杂交种的数目。

3.3)准确率:位于第一象限的杂交种占第一四象限杂交种的百分比,计算方式如下:

其中,q1为位于第一象限的杂交种的数目,q4为第四象限的杂交种的数目。

3.4)提升度:这是与没有用到预测模型时的一个相对指标。在没有模型的情况下,育种家会随机(或根据自己的经验)选择一些组合,对亲本进行杂交。获得杂交种在田间种植,根据表型进行筛选。假设育种家的资源可以鉴定50k杂交组合,最终保留10%的话,可以得到5k杂交组合。在有模型的情况下,当基因组选择的阈值为50%(垂直线右边的比例)时,在同样可用于田间考察资源时,为了获的50k个推荐的杂交组合,可对100k个杂交组合的表型进行预测。相当于在计算机里面对100k个杂交组合进行了初级筛选,对应于没有模型进行表型筛选保留10%的比例,相当于10k杂交组合。假设召回率(第一象限杂交种占第一、二象限杂交种的百分比)为70%,相当于在基因组选择和表型选择中均被保留的杂交种为7k。相比于没有模型同样种植50k杂交种,选择保留10%(5k)杂交种的情况下,可以多获得2k的杂交种,由此得到的提升度(遗传增益的增量)为的计算方式如下:

其中,m为运用预测模型最终筛选出来的杂交组合,b为没有运用预测模型的情况下最终选择出来的组合。在上述所列举的示例种,提升度为:(7k-5k)/5k=40%。

本发明实施例提供的全基因组预测方法,首先对一些杂交种的基因型和表型进行考察,建立联合预测模型评估每个标记对表型的效应。然后根据亲本基因型推算杂交种基因型,综合杂交种各分子标记上基因型的效应,对表型值进行预测,推荐具有稳定高产潜力的杂交组合,提高了预测的准确度。

图5和图6为本发明实施例提供的一具体实施例的具体说明:对巴西四个区域玉米初级试验数据进行分析:

1)四个模型预测值临界点取最高的50%,观察值最高的10%;联合预测模型取四个模型的交集:

在15个验证集上,分别对mix.4models模型的预测效果与单一模型进行对比,考察precision指标。

表型数据分析:在15个验证集中,有11个验证集的precision指标得到了明显提升。单一模型平均precsion为12.5%,mix.4models上升到17.9%,上升效果明显。

水分分析:在15个验证集中,有11个验证集的precision指标得到了明显提升。单一模型平均precsion为16.1%,mix.4models上升到22.7%,上升效果明显。

利用本发明实施例提供的技术方案,利用联合预测模型联合模型对基因型数据进行预测,比单一模型预测,可提高预测的准确度。

图7为本发明实施例提供的全基因组预测装置的结构示意图,如图7所示,所述装置包括:获取模块10、预测模块20和确定模块30,其中:

获取模块10用于获取待预测的杂交种的基因型数据;

预测模块20用于根据预先建立的联合预测模型中的多个预测模型和待预测杂交种的基因型数据,对所述杂交种的表型数据分别进行预测,得到各个预测模型的表型数据预测结果;

确定模块30用于结合育种资源和规模,根据所述各个预测模型的表型数据预测结果,确定多个预测模型表型数据预测结果均最优的杂交组合。

可选地,所述联合预测模型中的多个预测模型至少包括rrblup模型、随机森林模型和自动机器学习建立的模型。

本发明实施例提供的全基因组预测装置,首先对一些杂交种的基因型和表型进行考察,建立多个预测模型评估每个标记对表型的效应,然后根据亲本基因型推算杂交种基因型,分别利用各个模型、综合杂交种各分子标记上基因型的效应,对表型值进行预测,推荐具有稳定高产潜力的杂交组合,再挑选出多种方法均预测表型数据较高的杂交组合,提高了预测的准确度,能更有效地为育种实践推荐具有稳定高产潜力的候选杂交组合。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要确定其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1