一种基于机器学习的微生物群落最优微生境识别方法

文档序号:40296598发布日期:2024-12-13 11:10阅读:12来源:国知局
一种基于机器学习的微生物群落最优微生境识别方法

本发明涉及一种微生物群落最优微生境识别方法,尤其涉及一种基于机器学习的微生物群落最优微生境识别方法,属于生物信息学与生物。


背景技术:

1、微生物群落是由不同微生物组成的复杂生态系统,在物质循环、能量流动等过程中扮演关键角色,在可持续农业、生态修复和人类健康等领域中发挥重要作用。微生境是指微生物生活的特定环境,包括物理、化学和生物因素,如温度、ph值、湿度和养分等。微生境的这些因素不仅影响微生物群落的微生物多样性与群落结构,还决定了微生物群落的生态功能和适应能力。因此,识别微生境条件对于稳定或调控微生物群落具有重要意义。

2、传统的微生境识别方法主要为统计学方法,例如回归分析、方差分析(anova)、主成分分析(pca)、结构方程分析等。但随着对微生物群落的研究进入大数据时代,这些方法已无法满足准确识别微生境的要求:回归分析无法捕捉非线性及复杂关系;方差分析无法深入探讨环境因子之间的交互作用;主成分分析在处理非线性或复杂交互作用时结果不可靠;同样,相关性分析无法捕捉非线性和复杂关系,且无法根据相关性结果推断出因果关系。目前尚无能够解析微生物群落与微生境特征间的复杂非线性关系,并识别最优微生境条件的方法。


技术实现思路

1、发明目的:本发明的目的是提供一种基于机器学习的微生境识别方法,利用机器学习捕捉微生物群落中的非线性及复杂关系,并且通过个体条件期望分析识别出直观可用的关键微生境的最优范围。

2、技术方案:本发明提供一种基于机器学习的微生物群落最优微生境识别方法,包括以下步骤:

3、第一步,获取微生物群落信息及微生境信息,基于微生物群落信息计算微生物群落评估指标;

4、第二步,将微生物群落评估指标作为预测值,微生境信息作为特征值,训练机器学习模型;

5、第三步,评估所述机器学习模型性能,并对微生境特征进行重要性排名,筛选关键微生境特征;

6、第四步,基于所述机器学习模型,采用个体条件期望获取所述关键微生境特征的最优范围。

7、本发明利用机器学习建立了一种微生境识别方法,能够捕获微生物群落与微生境特征间的非线性复杂关系,并基于个体条件期望分析得出关键微生境特征及最优范围。第一步中,所述微生物群落信息包括物种类型及丰度,所述微生境信息包括影响微生物群落结构的理化因子及地理信息。第二步中,所述微生物群落评估指标包括α多样性等本领域常用指标;所述机器学习模型包括梯度提升回归树算法等常用模型。第三步对训练后的模型进行性能评估,有助于模型优化,以提高预测精度。第四步使用构建好的机器学习模型识别最优微生境特征,通过能够反映每个个体的预测值与单一变量之间关系的个体条件期望(ice)分析,识别出直观可用的关键微生境特征的最优范围。

8、优选的,在第一步中,所述微生物群落信息通过开放数据源或测序技术获取。例如16s rrna扩增子测序。

9、优选的,在第一步中,所述微生境信息包括对微生物群落结构显著影响的理化因子及地理信息。例如总氮、氨态氮、硝态氮、亚硝态氮、水溶性有机氮、水温、ph、总磷、有机碳、经纬度等。

10、优选的,在第一步中,所述微生物群落评估指标包括α多样性、β多样性或基于微生物共现网络拓扑结构的菌群评估指标。

11、优选的,在第二步中,所述机器学习模型为梯度提升回归树算法(gbrt)。gbrt算法适用于大型数据集,可处理多种类型的数据,具有较高的预测精度和泛化能力。

12、优选的,在第二步中,所述机器学习模型以75%~85%的所述预测值和特征值为训练集,其余为验证集。优选75%数据为训练集。

13、优选的,在第二步中,所述机器学习模型采用贝叶斯优化进行超参数优化。

14、优选的,在第二步中,对所述机器学习模型进行若干次交叉验证。优选10次。

15、优选的,在第三步中,所述评估包括采用r2评估模型拟合度,或采用平均绝对误差(mae)及均方根误差(rmse)进行评估。

16、优选的,在第三步中,所述重要性排名基于置换特征重要性(pfi)获取。优选重要性排名前5的特征作为关键微生境特征。

17、有益效果:与现有技术相比,本发明具有如下显著优点:本发明利用机器学习模型捕捉微生物群落中的非线性及复杂关系,并且通过个体条件期望识别出直观可用的关键微生境特征的最优范围。



技术特征:

1.一种基于机器学习的微生物群落最优微生境识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的最优微生境识别方法,其特征在于,在第一步中,所述微生物群落信息通过开放数据源或测序技术获取。

3.根据权利要求1所述的最优微生境识别方法,其特征在于,在第一步中,所述微生境信息包括对微生物群落结构显著影响的理化因子及地理信息。

4.根据权利要求1所述的最优微生境识别方法,其特征在于,在第一步中,所述微生物群落评估指标包括α多样性、β多样性或基于微生物共现网络拓扑结构的菌群评估指标。

5.根据权利要求1所述的最优微生境识别方法,其特征在于,在第二步中,所述机器学习模型为梯度提升回归树算法。

6.根据权利要求1所述的最优微生境识别方法,其特征在于,在第二步中,所述机器学习模型以75%~85%的所述预测值和特征值为训练集,其余为验证集。

7.根据权利要求1所述的最优微生境识别方法,其特征在于,在第二步中,所述机器学习模型采用贝叶斯优化进行超参数优化。

8.根据权利要求1所述的最优微生境识别方法,其特征在于,在第二步中,对所述机器学习模型进行若干次交叉验证。

9.根据权利要求1所述的最优微生境识别方法,其特征在于,在第三步中,所述评估包括r2、平均绝对误差或均方根误差。

10.根据权利要求1所述的最优微生境识别方法,其特征在于,在第三步中,所述重要性排名基于置换特征重要性获取。


技术总结
本发明公开了一种基于机器学习的微生物群落最优微生境识别方法,首先获取微生物群落信息及微生境信息,并计算微生物群落评估指标;其次将微生物群落评估指标作为预测值,微生境信息作为特征值,训练机器学习模型;接着评估所述机器学习模型性能,并对微生境特征进行重要性排名,筛选关键微生境特征;最后基于所述机器学习模型,采用个体条件期望获取所述关键微生境特征的最优范围。本发明利用机器学习捕捉到微生物群落中的非线性及复杂关系,并且通过个体条件期望得到直观可用的关键微生境特征的最优范围。

技术研发人员:王瑾丰,张书博,弓赛,任洪强
受保护的技术使用者:南京大学
技术研发日:
技术公布日:2024/12/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1