本发明属于生物育种领域,具体涉及一种机器学习辅助育种方法和育种芯片。
背景技术:
1、近年来,为解决生物育种周期长、效率低且育种成本高的问题,机器学习技术被引入到育种领域。通过大量的基因组数据、环境数据以及表型数据的输入,机器学习可以构建复杂的模型进行预测,以辅助育种人员更准确地选择具有目标性状的个体,提高育种效率。现有机器学习辅助育种技术多依赖于基因组数据或表型数据对将来的生物育种性状进行预测。但很多生物基因组复杂,高度杂合、高度重复、基因组大且倍性高,甚至有的物种基因组不完善,导致基因组变异信息挖掘困难,限制了现有机器学习技术在这些物种中应用,亟需一种新的方法来解决复杂基因组物种机器学习辅助育种应用难的问题。
技术实现思路
1、发明目的:本发明的目的在于针对复杂基因组物种机器学习辅助育种应用难的问题,提出一种通过基因表达数据进行机器学习的辅助育种方法;本发明还旨在提供一种育种芯片。
2、技术方案:本发明所述的机器学习辅助育种方法,所述方法基于基因表达数据进行机器学习分析,预测生物特定发育时期表型。
3、进一步地,所述基因表达数据为通过采集该物种特定生长条件下特定发育时期的特定组织获得基因表达数据。
4、进一步地,基于基因表达数据通过机器学习算法提取特征数据用于分析。
5、进一步地,通过采集正常生长作物幼苗叶片组织获得基因表达数据。
6、进一步地,所述基因表达数据的获取包括但不限于如下手段:转录组测序、表达序列标签测序、基因表达芯片、荧光实时定量聚合酶链式反应等。
7、进一步地,所述方法通过该物种特定发育时期特定组织部位基因表达数据提取特征数据进行作物特定发育时期表型预测。
8、进一步地,所述特定生长条件下特定发育时期的特定组织包括但不限于动物、植物或其他生物不同生长条件、不同发育时期、不同组织部位的组织样品。
9、进一步地,所述特征数据通过机器学习算法进行特征选择后获得,包括但不限于lasso回归、随机森林、逻辑回归等算法。
10、进一步地,所述特定发育时期表型包括但不限于采后保鲜期和成熟期生长表型。
11、进一步地,将特定群体划分为训练集和测试集,对训练集进行特征选择并进行机器学习模型训练,在测试集进行模型评估,最终通过新的群体进行模型验证,以确定模型的可靠性,进而获得最优基因集和最适计算模型。
12、一种育种芯片,该芯片包含上述特征数据的基因序列,用于特征数据基因表达检测,进而可通过最适计算模型进行表型预测。
13、有益效果:与现有技术相比,本发明具有如下显著优点:所用基因表达数据易获得,且数据分析简单;对于高度杂合、高度重复、基因组大且倍性高的复杂基因组,或者基因组数据不完善的物种,该方法具有明显优势,可简单容易的通过基因表达数据进行机器学习分析和预测,而与之相比,在这些物种中,传统的基于基因组数据进行机器学习分析和预测的难度大或无法完成;该方法亦适用于基因组数据完善且基因组简单的物种;该方法提出通过特定时期(如幼年期)该物种基因表达数据对特定时期(如成年期)生物表型进行预测,可达到“七岁看老”的效果,具有很强的创新性;通过本发明,可以获得特定基因集用于最适计算模型进行表型预测,该基因集可用于定制育种芯片,进而实现基因表达芯片辅助育种。
1.一种机器学习辅助育种方法,其特征在于,所述方法基于基因表达数据进行机器学习分析,预测生物特定发育时期表型。
2.如权利要求1所述的机器学习辅助育种方法,其特征在于,所述基因表达数据为通过采集该物种特定生长条件下特定发育时期的特定组织获得基因表达数据。
3.如权利要求1所述的机器学习辅助育种方法,其特征在于,基于基因表达数据通过机器学习算法提取特征数据用于分析。
4.如权利要求1所述的机器学习辅助育种方法,其特征在于,基因表达数据的获取包括如下手段:转录组测序、表达序列标签测序、基因表达芯片和荧光实时定量聚合酶链式反应。
5.如权利要求1所述的机器学习辅助育种方法,其特征在于,通过该物种特定发育时期特定组织部位基因表达数据提取特征数据进行作物特定发育时期表型预测。
6.如权利要求2所述的机器学习辅助育种方法,其特征在于,所述特定生长条件下特定发育时期的特定组织包括动物、植物或其他生物不同生长条件、不同发育时期、不同组织部位的组织样品。
7.如权利要求3所述的机器学习辅助育种方法,其特征在于,所述特征数据通过机器学习算法进行特征选择后获得,包括但不限于lasso回归、随机森林、逻辑回归等算法。
8.如权利要求1所述的机器学习辅助育种方法,其特征在于,所述特定发育时期表型包括采后保鲜期和成熟期生长表型。
9.如权利要求1所述的机器学习辅助育种方法,其特征在于,将特定群体划分为训练集和测试集,对训练集进行特征选择并进行机器学习模型训练,在测试集进行模型评估,最终通过新的群体进行模型验证,以确定模型的可靠性,进而获得最优基因集和最适计算模型。
10.一种育种芯片,其特征在于,该芯片包含权利要求3所述特征数据的基因序列,用于特征数据基因表达检测,进而可通过最适计算模型进行表型预测。