1.本发明涉及生物医学工程技术与运动健康领域,具体涉及一种冠心病运动反应性预测模型及建模方法、电子设备。
背景技术:2.心脏康复是治疗稳定期心血管疾病以及预防再发心血管事件的重要手段。运动是预防和治疗冠心病最具成本效益的生活方式干预。运动训练和以运动为基础的心脏康复对无症状运动能力、心血管和骨骼肌功能、一般健康生活方式以及减轻抑郁症状和社会心理压力的有益作用现在已得到公认。科学运动能够降低冠心病发病率。然而,哪种运动训练频率、强度、时间、类型的特征是最能降低冠心病复发率的,这在很大程度上仍不清楚。
3.欧洲心血管疾病预防和康复协会就冠心病患者运动期间的频率、强度、时间、运动类型以及安全性方面制定了建议,建议指出:对于冠状动脉疾病或慢性心脏衰竭患者,每天30-60分钟(每周3-5天)耐力运动训练可能减低复发风险。
4.而目前医生开具的运动康复方案因遗传及环境因素不同,运动干预存在个体反应差异。根据同一运动处方制定的不同运动方案,有的表现为运动有反应,有的表现为无反应甚至运动抵抗,运动康复方案的效果无法估计。
5.因此,亟需开发一种冠心病运动反应性预测模型及建模方法、设备。
技术实现要素:6.为了使医生对开具的冠心病运动康复方案来预测该运动康复方案对冠心病复发的改善效果,本发明的提供一种冠心病运动反应性预测模型及建模方法、设备。
7.根据本发明的第一方面,本发明公开一种冠心病运动反应性预测模型的建模方法,包括如下步骤:s101:采集冠心病患者的医疗数据和运动信息数据,所述医疗数据包括冠心病患者的各项医疗指标和预定时间段内的冠心病的复发情况,通过分析冠心病患者的各项医疗指标和复发情况筛选出影响冠心病复发的显著特征参数,所述冠心病的复发情况为复发或不复发;s102:对显著特征参数进行预处理得到特征数据;s103:建立第一预测模型:以特征数据作为第一预测模型的输入,以冠心病的复发情况作为第一预测模型的输出,对第一预测模型进行训练;s104:基于第一预测模型,在给定运动周期开始到给定运动周期结束期间内,结合运动信息数据观察冠心病复发风险变化情况,基于该变化情况评价运动康复方案效果反应,所述运动康复方案效果反应为有反应或无反应;s105:建立第二预测模型:以显著特征参数、运动信息数据和第一预测模型的输出作为第二预测模型的输入,以运动康复方案效果反应作为第二预测模型的输出,对第二预测模型进行训练。
8.作为本发明一示例实施方式,步骤s101中,所述运动信息数据包括运动量、运动强度、运动时间、运动类型、运动类型个数、运动次数和运动时机选择。
9.作为本发明一示例实施方式,步骤s101中,所述通过分析冠心病患者的各项医疗指标和复发情况筛选出影响冠心病复发的显著特征参数的方法包括:基于单变量分析筛选法分析冠心病患者的各项医疗指标,对于服从正态分布的数据采用独立t检验,对于不服从正态分布的数据采用wilconxon秩和检验。
10.作为本发明一示例实施方式,步骤s102中,所述对显著特征参数进行预处理得到特征数据的方法包括:将显著特征参数输入卷积神经网络,得到特征数据。
11.作为本发明一示例实施方式,步骤s103中,所述对第一预测模型进行训练的方法包括基于递归神经网络算法对第一预测模型进行训练。
12.作为本发明一示例实施方式,所述递归神经网络采用分类交叉损失函数和带有热重启的adam优化器进行学习。
13.作为本发明一示例实施方式,所述分类交叉损失函数采用公式1:公式1;其中,n表示训练样本的数量,m表示分类结果的个数,表示分类结果的真实值,表示预测为该分类结果的概率。li指的分类信息熵,反映的是分类结果和预测为该分类结果概率的乘积之和,i为自然数,表示是当前是第几个样本,i的取值范围从1~n。
14.作为本发明一示例实施方式,所述带有热重启的adam优化器进行学习的方法包括:在每个训练周期后使用验证集验证模型,直到连续训练周期的分类交叉损失函数的数值不再减少。
15.作为本发明一示例实施方式,步骤s104中,所述基于该变化情况评价运动方案效果的方法包括:给定运动周期结束时的复发风险低于给定运动周期开始时的复发风险,则认为运动康复方案有反应,否则认为无反应。
16.作为本发明一示例实施方式,步骤s105中,所述对第二预测模型进行训练的方法包括:采用xgboost算法生成一个集合,集合内包括多棵回归树,每棵回归树利用十折交叉验证法进行训练,将对应每棵回归树的叶子节点得分相加,对第i个样本,计算出预测估计值,采用如下公式2:公式2;其中,fk表示每一棵回归树的预测结果,k为回归树的数量,xi表示第i个样本的特征,yi表示第i个样本的第二预测估计值,公式1表示给定一个输入值xi,输出值为k棵回归树的第二预测估计值yi;k为1到k的自然数,i为1到n的自然数,n表示训练用的冠心病患者的样本数量;φ表示求和符号,是对每棵树生成的预测结果的求和,在本实施例中,树的个数为k个。
17.建立第二迭代函数,第t次第二迭代函数采用如下公式3:
公式3;其中,l是一个可以微分的损失函数,yi,y
i~(t-1)
表示第t-1次迭代中的第i个样本的实际值y
i~(t-1)
与第二预测估计值yi之间的差异,f
t
(xi)是经过第t次迭代后第i个样本的预测结果,ω(f
t
)是复杂度的惩罚函数,t为大于1的自然数。m表示训练样本的个数。m为大于或等于1000的自然数。
18.作为本发明一示例实施方式,所述建模方法还包括s106:设置第二预测模型的输出,将第二预测模型输出经四舍五入后输出0或1,0代表运动康复方案无反应,1代表运动康复方案有反应。
19.根据本发明的第二个方面,提供一种冠心病运动反应性预测模型,采用所述的冠心病运动反应性预测模型的建模方法进行构建。
20.根据本发明一示例实施方式,所述反应性预测模型包括:医疗数据获取模块、显著特征参数获取模块、预处理模块、第一预测模型、运动信息数据获取模块、第二预测模型和反应效果获取模块;所述医疗数据获取模块用于获取冠心病患者的医疗数据,所述医疗数据包括冠心病患者的各项医疗指标和预定时间段内的冠心病的复发情况,所述冠心病的复发情况为复发或不复发;所述显著特征参数获取模块用于通过分析冠心病患者的各项医疗指标和复发情况筛选出影响冠心病复发的显著特征参数;所述预处理模块用于对显著特征参数进行预处理得到特征数据;所述第一预测模型用于以特征数据作为输入,输出冠心病的复发情况;所述运动信息数据获取模块用于获取冠心病患者的运动信息数据;所述反应效果获取模块用于通过第一预测模型和运动信息数据获取模块的数据评价康复方案反应效果。
21.所述第二预测模型用于以显著特征参数、运动信息数据和冠心病的复发情况作为输入,输出运动康复方案效果反应,所述运动康复方案效果反应为有反应或无反应。
22.根据本发明的第三个方面,提供一种电子设备,包括:处理器、存储器和总线,所述处理器和所述存储器通过所述总线完成相互间的通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,能够执行所述的冠心病运动反应性预测模型的建模方法。
23.本发明提供了一种冠心病运动反应性预测模型及建模方法,第一预测模型采用神经网络算法构建,可以获得冠心病复发风险的信息,第二模型采用xgboost算法构建,可以获得运动方案反应的信息。通过本方案的模型及建模方法,能够预测患者经过一个给定运动周期的干预后,细化的运动方案带来的效果是否能够使患者冠心病复发风险降低,从而辅助医生形成更有效的运动方案,提高运动干预效果。
附图说明
24.通过参照附图详细描述其示例实施例,本发明的上述和其它目标、特征及优点将
变得更加显而易见。
25.图1是冠心病运动反应性预测模型的建模方法流程图。
26.图2是冠心病运动反应性预测模型的结构图。
27.图3是电子设备的结构图。
28.图4是卷积神经网络和递归神经网络的连接关系图。
具体实施方式
29.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明的描述将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本发明的示意性图解,并非一定是按比例绘制。
30.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、步骤等。在其它情况下,不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本发明的各方面变得模糊。
31.本发明的第一种实施方式公开了一种冠心病运动反应性预测模型的建模方法,如图1所示,包括以下步骤:步骤101:采集冠心病患者的医疗数据和运动信息数据,医疗数据包括冠心病患者的医疗指标和预定时间段内的冠心病的复发情况,通过分析冠心病患者的各项医疗指标和预定时间段内的复发情况筛选出影响冠心病复发的显著特征参数。
32.因为是在建模阶段,采集的数据均为训练用的数据。训练用的冠心病患者的样本量为n例,n≥1000。
33.医疗指标包括:一般指标、综合评价指标、运动风险和代谢指标。一般指标包括:年龄、性别、受教育程度和疾病史,一般指标在给定运动周期开始前采集。综合评估指标包括运动心肺能力、静息心电图指标和超声心动指标,综合评估指标在给定运动周期开始前和给定运动周期结束后采集。运动风险包括低危、中危和高危,运动风险通过问卷在给定运动周期开始前进行评估。采集冠心病患者的指标数据时,对所有数据进行归一化处理,保证所有数值的范围在0-1之间。冠心病的复发情况为复发或不复发,预定时间段为一年。
34.运动信息数据包括:运动量、运动强度、运动时间、运动类型、运动类型个数、运动次数和运动时机选择。
35.通过分析冠心病患者的各项医疗指标和预定时间段内的复发情况筛选出影响冠心病复发的显著特征参数,具体方法为:基于单变量分析筛选法分析冠心病患者的各项医疗指标,对于服从正态分布的数据采用独立t检验,对于不服从正态分布的数据采用wilconxon秩和检验。显著特征参数为冠心病患者的各项医疗指标中的一项或多项。
36.步骤s102:对显著特征参数进行预处理得到特征数据。
37.对显著特征参数进行预处理得到特征数据的方法包括:将显著特征参数输入卷积神经网络,得到特征数据。
38.如图4所示,卷积神经网络包括四个一维卷积层、一个最大池化层和一个全局平均
池化层。四个一维卷积层用于提取局部特征集,多层的卷积层提取到的特征集就越全局化,其中第四层一维卷积层提取的特征为全局化特征。第一层的一维卷积核大小设置为21,步幅设置为5;第二层的一维卷积核大小设置为21,步幅设置为1;其余两个一维卷积核大小设置为5,步幅设置为1。第一层和第二层的卷积滤波器数为64个,第三层和第四层的卷积滤波器数为128个。池化层用于对局部特征集进行抽样或聚合,可以降低数据的计算复杂度。最大池化层用于对局部特征中的最大值作为最终特征值。最大池化层的参数设置为池大小等于2,步幅等于2。全局平均池化层用于将局部特征中的平均值作为最终特征值。全局平均池化层的参数设置为池大小等于1,步幅等于2。
39.步骤s103:建立第一预测模型:以特征数据作为第一预测模型的输入,以冠心病的复发情况作为第一预测模型的输出,对第一模型进行训练。
40.对第一预测模型进行训练的方法包括基于递归神经网络算法采用十折交叉验证法对第一预测模型进行训练。如图4所示,递归神经网络包括一个dropout层、一个双向门控循环单元(gru)层和一个softmax层。dropout层通过高斯函数,即以概率为0.3随机去掉部分神经元,防止过拟合。
41.dropout层采用下述公式4:公式4;其中,其中c为标准方差,反映高斯函数的宽度,b为高斯函数尖峰中心的坐标,0.3表示高斯函数的最高值。c和d都为常数。
42.该公式4为高斯函数。丢失率为0.3。
43.双向门控循环单元(gru)层是为了解决梯度衰竭的问题。双向门控循环单元层的前向步骤中的丢失率为0.3,循环步骤中的丢失率为0.5。
44.softmax层用于形成最终的冠心病复发概率,其采用分类交叉损失函数和带有热重启的adam优化器进行学习。学习率的初始范围为0.001-0.0001,通过使用优化器估计学习率的最佳范围。
45.分类交叉损失函数采用公式1:公式1;其中,n表示训练样本的数量,m表示分类结果的个数,表示分类结果的真实值,表示预测为该分类结果的概率。li指的分类信息熵,反映的是分类结果和预测为该分类结果概率的乘积之和,i为自然数,表示是当前是第几个样本,i的取值范围从1~n。
46.带有热重启的adam优化器进行学习的方法包括:在每个训练周期后使用验证集验证模型,直到连续训练周期的分类交叉损失函数的数值不再减少。
47.每计算一次分类交叉损失函数即为一个训练周期。
48.可以设置分类交叉损失函数的计算频率,如每次在纳入10个或50个样本后再计算分类交叉损失函数。
49.通过对第一预测模型进行训练,可以知晓显著特征参数与冠心病复发风险的关系,经过训练后的第一预测模型,当输入显著特征参数时,输出的数值为0-1的数值,该数值反应冠心病复发风险,即为复发风险概率。
50.步骤s104:基于第一预测模型,在给定运动周期开始到给定运动周期结束期间内,结合运动信息数据观察冠心病复发风险变化情况,基于该变化情况评价运动康复方案效果反应,运动康复方案效果反应为有反应或无反应。
51.所述观察冠心病复发风险变化情况的方法包括:分别在给定运动周期开始时和给定运动周期结束时用第一预测模型评价冠心病的复发风险,第一预测模型的输出结果即为复发风险的概率,如40%、50%。
52.基于该变化情况评价运动方案效果的方法包括:给定运动周期结束时的复发风险低于给定运动周期开始时的复发风险,则认为运动康复方案有反应,否则认为无反应。
53.如果给定运动周期结束时的复发风险低于给定运动周期开始时的复发风险,表示在这个运动干预周期内导致冠心病在预定时间段内复发风险变低,即为运动有反应。
54.给定运动周期指的是在预定时间段内用户执行运动的干预周期,例如一个月、两个月。类似吃药,吃一个疗程的药可以管一年。
55.s105:建立第二预测模型:以显著特征参数、运动信息数据和第一预测模型的输出作为第二预测模型的输入,以运动康复方案效果反应作为第二预测模型的输出,对第二预测模型进行训练。
56.第二预测模型的输入为m例训练用的与冠心病复发风险有关的显著特征参数、运动信息数据和第一预测模型的输出,样本量为m,m为大于或等于1000的自然数。采集上述显著特征参数时,对所有数据进行归一化处理,保证所有数值的范围在0-1之间。为了提高计算效率,m例数据不需要重新采集,可以在第一次采集n例数据中获取。
57.基于xgboost算法采用十折交叉验证法对第二预测模型进行训练,具体为:采用xgboost算法生成一个集合,集合内包括多棵回归树。
58.每棵回归树利用十折交叉验证法进行训练,将对应每棵回归树的叶子节点得分相加,对第i个样本,计算出第二预测估计值,采用如下公式2:公式2 ;其中,fk表示每一棵回归树的预测结果,k为回归树的数量,xi表示第i个样本的特征,yi表示第i个样本的第二预测估计值,公式1表示给定一个输入值xi,输出值为k棵回归树的第二预测估计值yi;k为1到k的自然数;i为1到n的自然数,n表示训练用的冠心病患者的样本数量。φ表示求和符号,是对每棵树生成的预测结果的求和,在本实施例中,树的个数为k个。
59.建立第二迭代函数,第t次第二迭代函数采用如下公式3:公式3 ;其中,l是一个可以微分的损失函数,yi,y
i~(t-1)
表示第t-1次迭代中的第i个样本的实际值y
i~(t-1)
与第二预测估计值yi之间的差异,f
t
(xi)是经过第t次迭代后第i个样本的预测结果,i为1到m的自然数,ω(f
t
)是复杂度的惩罚函数,t为大于1的自然数。m表示训练样本的个数。m为大于或等于1000的自然数。
60.以上公式2和公式3采用的训练参数为:将回归树的最大深度的缺省值设置为6,取
值范围为1到正无穷大。回归树的深度即为回归树的层数,通常回归树的层数越深,模型越复杂。将学习率设置为0.3,学习率表示每次调整参数需要走的距离,即为模型参数的最优解,适当的学习率可以准确找到损失函数的最小值。将学习目标进行定义,学习目标即为模型的输出,运动康复方案是否有反应为二分类问题,有反应为1,无反应为0。将迭代次数默认设置为50棵,迭代次数表示模型会用到多少棵树。
61.将训练参数(最大深度、学习率、学习目标)输入到函数2中进行设置:函数2 ;其中,max_depth表示树的深度,eta表示学习率,slient表示静默模式,objective表示学习目标参数,binary:logistic表示模型中输出二分类的逻辑回归的概率。
62.接着调用xgboost中的train函数进行第二次迭代训练,输入以下代码:;其中,bst表示最后train训练后的结果,50表示迭代次数。
63.步骤s106:设置第二预测模型的输出,输出的数据是预测运动康复方案反应效果的百分数,如果输出的数值≥0.5则认为运动康复方案有效,如果输出的数值<0.5则认为运动康复方案无效。
64.本运动康复方案反应性预测模型将输出的数值进行四舍五入,转换成0或1,使得医疗工作人员更明显地看出运动康复方案的效果。
65.本发明的第二种实施方式公开了一种冠心病运动反应性预测模型,采用第一种实施方式的冠心病运动反应性预测模型的建模方法进行构建。
66.如图2所示,该反应性预测模型包括:医疗数据获取模块1、显著特征参数获取模块2、预处理模块3、第一预测模型4、运动信息数据获取模块5、第二预测模型6和反应效果获取模块7。
67.医疗数据获取模块1用于获取冠心病患者的医疗数据,医疗数据包括冠心病患者的各项医疗指标和预定时间段内的冠心病的复发情况,冠心病的复发情况为复发或不复发。医疗指标包括:一般指标、综合评价指标、运动风险和代谢指标。一般指标包括:年龄、性别、受教育程度和疾病史,一般指标在给定运动周期开始前采集。综合评估指标包括运动心肺能力、静息心电图指标和超声心动指标,综合评估指标在给定运动周期开始前和给定运动周期结束后采集。运动风险包括低危、中危和高危,运动风险通过问卷在给定运动周期开始前进行评估。采集冠心病患者的指标数据时,对所有数据进行归一化处理,保证所有数值的范围在0-1之间。冠心病的复发情况为复发或不复发,预定时间段为一年。
68.显著特征参数获取模块2用于通过分析冠心病患者的各项医疗指标和复发情况筛选出影响冠心病复发的显著特征参数。所述通过分析冠心病患者的各项医疗指标和复发情况筛选出影响冠心病复发的显著特征参数包括:基于单变量分析筛选法分析冠心病患者的各项医疗指标,对于服从正态分布的数据采用独立t检验,对于不服从正态分布的数据采用wilconxon秩和检验。
69.预处理模块3用于对显著特征参数进行预处理得到特征数据。对显著特征参数进行预处理得到特征数据包括:将显著特征参数输入卷积神经网络,得到特征数据。如图4所示,卷积神经网络包括四个一维卷积层、一个最大池化层和一个全局平均池化层。四个一维
卷积层用于提取局部特征集,多层的卷积层提取到的特征集就越全局化,其中第四层一维卷积层提取的特征为全局化特征。第一层的一维卷积核大小设置为21,步幅设置为5;第二层的一维卷积核大小设置为21,步幅设置为1;其余两个一维卷积核大小设置为5,步幅设置为1。第一层和第二层的卷积滤波器数为64个,第三层和第四层的卷积滤波器数为128个。池化层用于对局部特征集进行抽样或聚合,可以降低数据的计算复杂度。最大池化层用于对局部特征中的最大值作为最终特征值。最大池化层的参数设置为池大小等于2,步幅等于2。全局平均池化层用于将局部特征中的平均值作为最终特征值。全局平均池化层的参数设置为池大小等于1,步幅等于2。
70.第一预测模型4用于建立特征数据与冠心病复发风险的关系,以特征数据作为输入,输出冠心病的复发情况。建立第一预测模型4:以特征数据作为第一预测模型的输入,以冠心病的复发情况作为第一预测模型4的输出,对第一模型4进行训练。对第一预测模型4进行训练包括基于递归神经网络算法采用十折交叉验证法对第一预测模型4进行训练。如图4所示,递归神经网络包括一个dropout层、一个双向门控循环单元(gru)层和一个softmax层。dropout层通过高斯函数,即以概率为0.3随机去掉部分神经元,防止过拟合。
71.dropout层采用下述公式4:公式4;其中,其中c为标准方差,反映高斯函数的宽度,b为高斯函数尖峰中心的坐标,0.3表示高斯函数的最高值。c和b都为常数。
72.该公式4为高斯函数。丢失率为0.3。
73.双向门控循环单元(gru)层是为了解决梯度衰竭的问题。双向门控循环单元层的前向步骤中的丢失率为0.3,循环步骤中的丢失率为0.5。
74.softmax层用于形成最终的冠心病复发概率,其采用分类交叉损失函数和带有热重启的adam优化器进行学习。学习率的初始范围为0.001-0.0001,通过使用优化器估计学习率的最佳范围。
75.分类交叉损失函数采用公式1:公式1;其中,n表示训练样本的数量,m表示分类结果的个数,表示分类结果的真实值,表示预测为该分类结果的概率。li指的分类信息熵,反映的是分类结果和预测为该分类结果概率的乘积之和,i为自然数,表示是当前是第几个样本,i的取值范围从1~n。
76.带有热重启的adam优化器进行学习的方法包括:在每个训练周期后使用验证集验证模型,直到连续训练周期的分类交叉损失函数的数值不再减少。
77.每计算一次分类交叉损失函数即为一个训练周期。
78.可以设置分类交叉损失函数的计算频率,如每次在纳入10个或50个样本后再计算分类交叉损失函数。
79.通过对第一预测模型进行训练,可以知晓显著特征参数与冠心病复发风险的关系,经过训练后的第一预测模型,当输入显著特征参数时,输出的数值为0-1的数值,该数值反应冠心病复发风险,即为复发风险概率。
80.运动信息数据5获取模块用于获取冠心病患者的运动信息数据。所述运动信息数据包括运动量、运动强度、运动时间、运动类型、运动类型个数、运动次数和运动时机选择。
81.反应效果获取模块7用于通过第一预测模型4和运动信息数据获取模块5的数据评价康复方案反应效果。基于第一预测模型4,在给定运动周期开始到给定运动周期结束期间内,结合运动信息数据观察冠心病复发风险变化情况,基于该变化情况评价运动康复方案效果反应,运动康复方案效果反应为有反应或无反应。
82.所述观察冠心病复发风险变化情况包括:分别在给定运动周期开始时和给定运动周期结束时用第一预测模型评价冠心病的复发风险,第一预测模型的输出结果即为复发风险的概率,如40%、50%。
83.基于该变化情况评价运动方案效果包括:给定运动周期结束时的复发风险低于给定运动周期开始时的复发风险,则认为运动康复方案有反应,否则认为无反应。
84.如果给定运动周期结束时的复发风险低于给定运动周期开始时的复发风险,表示在这个运动干预周期内导致冠心病在预定时间段内复发风险变低,即为运动有反应。
85.给定运动周期指的是在预定时间段内用户执行运动的干预周期,例如一个月、两个月。类似吃药,吃一个疗程的药可以管一年。
86.第二预测模型6用于建立显著特征参数、运动信息数据、冠心病复发风险与运动康复方案的关系,以显著特征参数、运动信息数据和冠心病的复发情况作为输入,输出运动康复方案效果反应,运动康复方案效果反应为有反应或无反应。
87.建立第二预测模型6:以显著特征参数、运动信息数据和第一预测模型的输出作为第二预测模型6的输入,以运动康复方案效果反应作为第二预测模型的输出,对第二预测模型6进行训练。
88.第二预测模型6的输入为m例训练用的与冠心病复发风险有关的显著特征参数、运动信息数据和第一预测模型4的输出,样本量为m,m为大于或等于1000的自然数。采集上述显著特征参数时,对所有数据进行归一化处理,保证所有数值的范围在0-1之间。为了提高计算效率,m例数据不需要重新采集,可以在第一次采集n例数据中获取。
89.基于xgboost算法采用十折交叉验证法对第二预测模型6进行训练,具体为:采用xgboost算法生成一个集合,集合内包括多棵回归树。
90.每棵回归树利用十折交叉验证法进行训练,将对应每棵回归树的叶子节点得分相加,对第i个样本,计算出第二预测估计值,采用如下公式2:公式2 ;其中,fk表示每一棵回归树的预测结果,k为回归树的数量,xi表示第i个样本的特征,yi表示第i个样本的第二预测估计值,公式1表示给定一个输入值xi,输出值为k棵回归树的第二预测估计值yi;k为1到k的自然数,i为1到n的自然数,n表示训练用的冠心病患者的样本数量。φ表示求和符号,是对每棵树生成的预测结果的求和,在本实施例中,树的个数为k个。
91.建立第二迭代函数,第t次第二迭代函数采用如下公式3:
公式3 ;其中,l是一个可以微分的损失函数,yi,y
i~(t-1)
表示第t-1次迭代中的第i个样本的实际值y
i~(t-1)
与第二预测估计值yi之间的差异,f
t
(xi)是经过第t次迭代后第i个样本的预测结果,i为1到m的自然数,ω(f
t
)是复杂度的惩罚函数,t为大于1的自然数。m表示训练样本的个数。m为大于或等于1000的自然数。
92.以上公式2和公式3采用的训练参数为:将回归树的最大深度的缺省值设置为6,取值范围为1到正无穷大。回归树的深度即为回归树的层数,通常回归树的层数越深,模型越复杂。将学习率设置为0.3,学习率表示每次调整参数需要走的距离,即为模型参数的最优解,适当的学习率可以准确找到损失函数的最小值。将学习目标进行定义,学习目标即为模型的输出,运动康复方案是否有反应为二分类问题,有反应为1,无反应为0。将迭代次数默认设置为50棵,迭代次数表示模型会用到多少棵树。
93.将训练参数(最大深度、学习率、学习目标)输入到函数2中进行设置:函数2 ;其中,max_depth表示树的深度,eta表示学习率,slient表示静默模式,objective表示学习目标参数,binary:logistic表示模型中输出二分类的逻辑回归的概率。
94.接着调用xgboost中的train函数进行第二次迭代训练,输入以下代码:;其中,bst表示最后train训练后的结果,50表示迭代次数。
95.设置第二预测模型6的输出,输出的数据是预测运动康复方案反应效果的百分数,如果输出的数值≥0.5则认为运动康复方案有效,如果输出的数值<0.5则认为运动康复方案无效。
96.本运动康复方案反应性预测模型将输出的数值进行四舍五入,转换成0或1,使得医疗工作人员更明显地看出运动康复方案的效果。
97.通过医疗数据获取模块1获取医疗指标和冠心病复发情况,通过显著特征参数获取模块2筛选出显著特征参数2,通过预处理模块3得到特征数据,将特征数据和冠心病复发情况训练第一预测模型4,反应效果获取模块7通过第一预测模型4和运动信息数据获取模块5评价康复反应效果,通过显著特征参数、运动信息数据、复发情况和反应效果对第二预测模型6进行训练,最终得到反应性预测模型。
98.采用该反应性预测模型对冠心病患者的运动康复方案进行预测:获取测试的冠心病患者的样本,测试样本≥100例。将测试样本输入冠心病运动反应性预测模型中,调用xgboost的predict函数,输入以下代码:;;;;
如果测试结果为0,则表示该运动康复方案无效,如果测试结果为1,则表示该运动康复方案有效。
99.本发明的第三种实施方式公开了一种电子设备,如图3所示,包括:处理器7、存储器8和总线9;处理器7和存储器8通过总线9完成相互间的通信,存储器8存储有可被处理器7执行的程序指令,处理器7调用程序指令,能够执行第一种实施方式的冠心病运动反应性预测模型的建模方法。
100.以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。