技术特征:
1.一种肠道菌群关联疾病风险预测系统,其特征在于,包括原始数据采集模块、单数据集验证模块、多数据集验证模块、验证结果整合模块、以及疾病风险预测模块;所述原始数据采集模块,用于按照疾病关联的项目收集肠道菌群丰度信息,分别提交给所述单数据集验证模块和多数据集验证模块;所述单数据集验证模块,用于根据单个项目收集的特定疾病的患者和健康人群肠道菌群丰度数据,检测该疾病关联的差异菌种,对于该疾病关联的差异菌种,获取该菌种关于该疾病的影响因子并评价所采用的所述单个项目收集的特定疾病的患者和健康人群肠道菌群丰度数据的数据质量参数,将所述差异菌种的质量参数和影响因子提交给验证结果整合模块;所述多数据集验证模块,用于根据该特定疾病的所有项目收集的患者和健康人群肠道菌群丰度数据,检测该疾病关联的差异菌种,对于该疾病关联的差异菌种,获取该菌种关于该疾病的影响因子并评价所采用的所述多个项目收集的特定疾病的患者和健康人群肠道菌群丰度数据的数据质量参数,将所述差异菌种的质量参数和影响因子提交给验证结果整合模块;所述验证结果整合模块,用于根据菌群丰度数据的数据质量参数,按照菌群丰度数据的数据质量参数表征的数据质量越好其影响因子越可信的原则,合并所述单数据集验证模块和所述多数据集验证模块获得的该疾病关联的差异菌种及该菌种的影响因子;所述疾病风险预测模块,用于按照待预测样本的菌群丰度与健康菌群丰度的加权偏移量越大该样本关于该疾病的风险值越大的原则,获取所述待预测样本关于该疾病的风险值,所述菌群丰度与健康菌群丰度的加权偏移量为该样本中该疾病关联的菌群丰度在健康人菌群丰度的偏移量加权值,权重为该疾病各相关菌种的影响因子。2.如权利要求1所述的肠道菌群关联疾病风险预测系统,其特征在于,所述单数据集验证模块和所述多数据集验证模块,按照以下方法获得疾病关联的差异菌群:对于特定菌种在特定疾病的患者和健康人肠道菌群的丰度数据,通过统计检验计算零假设p值,零假设为:所述菌种不是该疾病关联的差异菌;当零假设p值≤0.05时,拒绝零假设,将所述菌种作为该疾病的差异菌种。3.如权利要求2所述的肠道菌群关联疾病风险预测系统,其特征在于,所述单数据集验证模块和所述多数据集验证模块,通过统计检验计算零假设p值具体为采用秩和检验计算零假设p值。4.如权利要求3所述的肠道菌群关联疾病风险预测系统,其特征在于,所述通过统计检验计算零假设p值具体为采用秩和检验计算零假设p值,包括以下步骤:(1)对于特定疾病的患者和健康人群肠道菌群丰度数据中关于特定菌种的丰度值,按照丰度值由小到大排列获得各样本的秩次;具有相同所述菌种丰度的样本,其秩更新为原样本秩的平均值;(2)对于患者样本集合和健康人样本集合,取其中样本含量较小的样本集合计算其包含的样本的秩次之和即秩和t值;(3)根据所述样本含量较小的样本集合的样本含量n1、患者样本集合和健康人样本集合的样本含量差值n
2-n1及t值查检验界值表获得零假设p值;(4)当零假设下的零假设p值小于预设阈值时,拒绝零假设,认为所述菌种是该疾病关
联的差异菌。5.如权利要求4所述的肠道菌群关联疾病风险预测系统,其特征在于,步骤(3)当样本数量超过10时,采用正态近似得到零假设下的零假设p值。6.如权利要求1所述的肠道菌群关联疾病风险预测系统,其特征在于,所述单数据集验证模块和所述多数据集验证模块,按照以下方法获得所述疾病关联的差异菌种影响因子;所述疾病关联的差异菌种影响因子为其通过统计检验计算获得的零假设p值的一半所对应的下分位点z与样本数量n1+n2的平方根之商,记作:其中,r为所述疾病关联的差异菌种影响因子,是样本间差异或相关程度的量化指标。7.如权利要求1所述的肠道菌群关联疾病风险预测系统,其特征在于,菌群丰度数据的数据质量参数采用线性判别分析获得的lda值。8.如权利要求7所述的肠道菌群关联疾病风险预测系统,其特征在于,所述lda值计算方法具体如下:s1、对于特定疾病的患者和健康人的特定菌种丰度数据s1、对于特定疾病的患者和健康人的特定菌种丰度数据其中i=1,2,...,n1+n2,n1为患者或健康人的样本含量,n2为健康人或患者的样板含量,x
i
为样本i的菌种丰度值,y
i
为样本i的类别标识符,y
i
∈{c1,c2},c1用于标记患者或健康人类别,c2用于标记健康人或患者类别,分别获取两类样本的均值μ
j
和协方差矩阵x
j
,如下:,如下:s2、将特定疾病的患者和健康人的特定菌种丰度数据分别对直线进行投影,获取当类间差异尽可能大且类别内差异尽可能小时的数据投影,即特定疾病的患者和健康人的特定菌种丰度数据投影菌种丰度数据投影所述当类间差异尽可能大且类别内差异尽可能小,为优化目标,记作:其中w为直线向量,对任意一个样本本其所述菌种的丰度值x
i
,它在直线w的投影为w
t
x
i
,为类间差异,w
t
x
j
w为类别内差异,j=c1,c2;定义类别内散度矩阵s
w
,如下:
定义类间散度矩阵s
b
,如下:则所述优化目标,重写为:对于两类类别,有s
b
w的方向横平行于故令故令则有:可得:λ为特征值,w为特征向量,即投影的直线。获取当类间差异尽可能大且类别内差异尽可能小时的数据投影,具体为:获取当达到优化目标时的特征值λ
*
和特征向量w
*
,获得投影矩阵λ
*
w
*
,对于样本的特定菌种丰度值x,其数据投影x
′
为x
′
=(λ
*
w
*
)
t
x。s3、根据步骤s2获得的特定菌种丰度数据投影s3、根据步骤s2获得的特定菌种丰度数据投影计算两类别数据投影均值差异δ
′
;根据特定疾病的患者和健康人的特定菌种丰度数据;根据特定疾病的患者和健康人的特定菌种丰度数据计算丰度均值差异δ;具体如下:计算丰度均值差异δ;具体如下:s4、取步骤s3获取的投影均值差异和丰度均值差异的算数平均数作为lda值,即lda=(δ+δ
′
)/2。9.如权利要求1所述的肠道菌群关联疾病风险预测系统,其特征在于,所述验证结果整合模块,当所述单数据集验证模块和所述多数据集验证模块将相同的菌种作为特定疾病的差异菌种时,取菌群丰度数据的数据质量参数lda值较高的模块提供的该菌种的影响因子作为整合后该差异菌种的影响因子。10.如权利要求1所述的肠道菌群关联疾病风险预测系统,其特征在于,所述菌群偏移量,为与健康人群相比该菌群丰度与健康人群对应菌群分布的差异情况;优选地,所述菌群丰度与健康菌群丰度的加权偏移量v,按照如下方法计算:其中,v为所述待预测样本的菌群丰度与健康菌群丰度的加权偏移量,k为该疾病关联
的差异菌群的种类数量,t=1,...,k;o
t
为所述待预测样本的第t类差异菌群的菌群偏移量;r
t
为该疾病关联的第t类差异菌群影响因子。