本申请涉及数据处理,尤其涉及一种模型训练及基因组优化方法、装置、设备及介质。
背景技术:
1、益生菌作为人体重要的共生微生物,对人体健康有着非常重要的作用。开展益生菌的特征预测研究,有助于更好地利用益生菌的功能,维护人体健康。从微生物组水平/基因组对益生菌进行特征预测,可以更全面地了解不同益生菌的代谢功能、与宿主的互作模式以及对疾病的影响机制。目前普遍使用的实验方法还难以高通量获得这些信息且存在安全风险问题。
2、申请内容
3、本申请实施例的主要目的在于提出一种模型训练及基因组优化方法、装置、设备及介质,能够辅助进行准确的基因组优化。
4、为实现上述目的,本申请实施例的一方面提出了一种模型训练方法,方法包括:
5、获取原始基因数据,根据原始基因数据整理得到数据集;其中,数据集包括训练集和测试集,训练集标记有功能特性标签;
6、对数据集进行基因子序列的特征提取,得到特征数据;其中,特征数据包括不同种类的基因子序列的频率向量,特征数据包括基于训练集得到的训练数据和基于测试集得到的测试数据;
7、将训练数据划分,得到训练特征集和交叉测试特征集;
8、对训练特征集和测试数据进行向量提取,得到嵌入向量;
9、基于预设的特征选取标准,结合嵌入向量对训练特征集中的特征进行筛选,得到选择特征;
10、根据选择特征转换得到特征矩阵;对特征矩阵进行核心特征缩放,得到目标特征;
11、基于目标特征,通过监督学习构建得到基因功能特性鉴定模型。
12、在一些实施例中,原始基因数据包括基因序列;对数据集进行基因子序列的特征提取,得到特征数据,包括:
13、基于不同的子序列长度分别对数据集中的基因序列进行基因子序列提取;
14、基于基因子序列的种类对提取得到的所有基因子序列进行出现频率的统计,得到不同种类的基因子序列的频率向量;
15、根据子序列长度和基因子序列的种类,对频率向量进行分类保存,得到特征数据。
16、在一些实施例中,对训练特征集和测试数据进行向量提取,得到嵌入向量,包括:
17、通过自监督学习模型将训练特征集和测试数据中的基因子序列进行映射转换,得到嵌入向量;
18、其中,自监督学习模型包括word2vec和自编码器。
19、在一些实施例中,根据选择特征转换得到特征矩阵这一步骤前,方法还包括:
20、通过特征选择器对选择特征进行二次选择;
21、其中,特征选择器采用的选择方法包括递归特征消除和顺序特征选择。
22、在一些实施例中,对特征矩阵进行核心特征缩放,包括:
23、基于机器学习的standardscaler方法对特征矩阵进行核心特征缩放。
24、为实现上述目的,本申请实施例的另一方面提出了一种基因组优化方法,方法包括:
25、获取待鉴定的基因序列;
26、对基因序列进行基因子序列的特征提取,得到基因特征;其中,基因特征包括不同种类的基因子序列的频率向量;
27、将基因特征输入基因功能特性鉴定模型进行功能特性鉴定,得到特性鉴定结果;其中,基因功能特性鉴定模型通过前面的模型训练方法训练得到;
28、基于特性鉴定结果辅助调整基因组编辑。
29、为实现上述目的,本申请实施例的另一方面提出了一种模型训练装置,装置包括:
30、第一模块,用于获取原始基因数据,根据原始基因数据整理得到数据集;其中,数据集包括训练集和测试集,训练集标记有功能特性标签;
31、第二模块,用于对数据集进行基因子序列的特征提取,得到特征数据;其中,特征数据包括不同种类的基因子序列的频率向量,特征数据包括基于训练集得到的训练数据和基于测试集得到的测试数据;
32、第三模块,用于将训练数据划分,得到训练特征集和交叉测试特征集;
33、第四模块,用于对训练特征集和测试数据进行向量提取,得到嵌入向量;
34、第五模块,用于基于预设的特征选取标准,结合嵌入向量对训练特征集中的特征进行筛选,得到选择特征;
35、第六模块,用于根据选择特征转换得到特征矩阵;对特征矩阵进行核心特征缩放,得到目标特征;
36、第七模块,用于基于目标特征,通过监督学习构建得到基因功能特性鉴定模型。
37、在一些实施例中,装置还包括:
38、第十二模块,用于通过特征选择器对选择特征进行二次选择;
39、其中,特征选择器采用的选择方法包括递归特征消除和顺序特征选择。
40、为实现上述目的,本申请实施例的另一方面提出了一种基因组优化装置,装置包括:
41、第八模块,用于获取待鉴定的基因序列;
42、第九模块,用于对基因序列进行基因子序列的特征提取,得到基因特征;其中,基因特征包括不同种类的基因子序列的频率向量;
43、第十模块,用于将基因特征输入基因功能特性鉴定模型进行功能特性鉴定,得到特性鉴定结果;其中,基因功能特性鉴定模型通过前面的模型训练装置训练得到;
44、第十一模块,用于基于特性鉴定结果辅助调整基因组编辑。
45、为实现上述目的,本申请实施例的另一方面提出了一种电子设备,电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述的模型训练方法或者基因组优化方法。
46、为实现上述目的,本申请实施例的另一方面提出了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的模型训练方法或者基因组优化方法。
47、本申请实施例至少包括以下有益效果:本申请提供一种模型训练及基因组优化方法、装置、设备及介质,该方案通过获取原始基因数据,根据原始基因数据整理得到数据集;其中,数据集包括训练集和测试集,训练集标记有功能特性标签;对数据集进行基因子序列的特征提取,得到特征数据;其中,特征数据包括不同种类的基因子序列的频率向量,特征数据包括基于训练集得到的训练数据和基于测试集得到的测试数据;将训练数据划分,得到训练特征集和交叉测试特征集;对训练特征集和测试数据进行向量提取,得到嵌入向量;基于预设的特征选取标准,结合嵌入向量对训练特征集中的特征进行筛选,得到选择特征;根据选择特征转换得到特征矩阵;对特征矩阵进行核心特征缩放,得到目标特征;基于目标特征,通过监督学习构建得到基因功能特性鉴定模型。本申请实施例通过分析基因数据,可以通过对特定功能特征的选择实现功能特性鉴定模型的训练构建,基于训练得到的模型能够准确鉴定待处理的基因的功能特性,从而有效指导后续的基因组编辑工作,生产出满足特定营养和健康指标要求的定制化益生菌产品。相比传统的益生菌筛选方法,本申请实施例可以大大缩短产品研发周期,降低研发成本。
技术实现思路
1.一种模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述原始基因数据包括基因序列;所述对所述数据集进行基因子序列的特征提取,得到特征数据,包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述训练特征集和所述测试数据进行向量提取,得到嵌入向量,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述选择特征转换得到特征矩阵这一步骤前,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述对所述特征矩阵进行核心特征缩放,包括:
6.一种基因组优化方法,其特征在于,包括:
7.一种模型训练装置,其特征在于,所述装置包括:
8.一种基因组优化装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至5或权利要求6中任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5或权利要求6中任一项所述的方法。