基于boruta算法的多层次老年人体能状态量化等级计算方法与流程

文档序号:11134436阅读:853来源:国知局
基于boruta算法的多层次老年人体能状态量化等级计算方法与制造工艺

本发明涉及一种老年人体能状态量化等级计算方法,属于生物医学技术领域。



背景技术:

2014年底,我国65岁以上人口数量达到1.37亿,比2013年增加594万,老年人口比重首次超过10%,我国进入人口老龄化社会已逾14年,老年人健康成为家庭和社会共同面对的问题。体能在老年人健康的影响因素中占据重要地位,它与老年人的生活自理能力与身体活动能力紧密联系。在第六次全国人口普查中,60岁以上生活不能自理的老年人口达到10.5万。为此,对老年人体能进行深入研究,利用科学技术衡量老年人体能状态,有助于及时采取措施预防体能下降及健康状态恶化,不仅改善老年人健康状况,对国家和社会也有重要的医疗经济学意义。

体能下降与年龄增长密切相关,个体在衰老的过程中,首先经历体能的自然下降,其次是体能下降导致的健康状态恶化,同时致使体能进一步下降。研究表明,通过体能训练,老年人健康状态恶化速率会在一定程度上降低,甚至会发生健康状态改善的情况。为了提升老年人生活质量,节约有限的医疗资源,采取科学规范的方法对体能进行量化等级计算是很有必要的。

总结现有的研究成果可以发现,对体能状态进行量化计算可通过分别计算生活自理能力和身体活动能力来完成。

1.生活自理能力的量化计算

(1)Barthel指数:该标准包含的评定项目依次为进食、洗澡、梳妆、穿脱衣服、排便控制、排尿控制、如厕、移位、步行、上下楼,每个项目对应若干状态描述选项,每个选项赋予一个分值,计算各项目总得分后,可将生活自理能力分为完全依赖、严重依赖、中度依赖、轻度依赖、完全独立5个等级。

(2)Katz指数:评定项目依次为洗澡、穿衣、如厕、床椅间移动、大小便控制、进食,每个项目对应三个状态描述选项。Katz指数将生活自理能力划分为A-G七个等级,A等级表示六个功能均可完全自理,G等级表示六个功能均需他人协助。

2.身体活动能力的量化计算

身体活动能力的量化计算主要用到SPPB方法:该方法通过累计椅子坐立测试、平衡测试(双脚合并站立、半前后站立、双脚前后站立)、步态速度测试的得分完成身体活动能力的量化计算。

综上所述,现有方法仅针对生活自理能力或身体活动能力进行量化计算。然而,生活自理能力在人群中较难丧失,大多数人的生活自理能力健全;身体活动能力的量化计算需要测量握力、步速等,测量过程需要相应仪器和环境。此外,在对生活自理能力或身体活动能力进行量化计算时大多选取运动项目作为依据,均未综合考虑其他影响体能状态的重要属性,如年龄、认知功能、生活方式等。因此,上述方法不够理想,有待进一步改进。



技术实现要素:

本发明的目的:解决目前老年人体能状态量化计算方法中测试项目繁琐、参考依据不全面等问题,提出一种基于boruta算法的多层次老年人体能状态量化等级计算方法,达到有针对性地对老年人体能状态进行分类的目的。

本发明的设计原理:首先,分析影响体能状态的重要属性,由于步速是直接影响体能状态的属性,可基于步速对人群进行分层,利用boruta算法提取出与老年人步速相关的重要属性;然后以与步速相关的重要属性为自变量,构建用于计算体能状态量化等级的逻辑回归模型,完成老年人体能状态量化等级计算。本发明可以针对个体状态给出一个量化等级,给体能筛查工作提供方法依据。

本发明的技术方案是通过如下步骤实现的:

步骤1,以步速作为参考依据将人群分为四类,分别为:较高步速人群(A人群)、普通步速人群(B人群)、较低步速人群(C人群)和未分层的全部人群,具体实现方法为:

步骤1.1,对全部人群的步速从高到低进行排序,将步速最高的25%归为较高步速人群(A人群),将步速最低的25%归为较低步速人群(C人群),同时精确步速的取值到0.1m/s,将步速中间状态的50%归为普通步速人群(B人群)。

步骤1.2,确定较高步速人群与普通步速人群、普通步速人群与较低步速人群的切点,进而得到四种人群的相应步速范围,以及各部分人群占全部人群的实际比例。

步骤1.3,根据人群划分结果对各个子人群进行标定,其中较高步速人群标为0,普通步速人群标为1,较低步速人群标为2,获得标定后的数据S。

步骤2,对于数据集S采用boruta算法对四种人群的步速进行拟合,通过对提取出的属性进行重要性排序,以出现次数为依据筛选重要属性,具体实现方法为:

步骤2.1,设定参数,对步骤1获得的数据集S创建混合副本属性,并进行重排,得到重组数据集S',为给定的数据集增加随机性。

步骤2.2,在数据集S'的基础上,采用bootstrap方式抽取样本集D,未被抽取到的作为袋外数据D',构建包含m棵树的随机森林。

步骤2.3,训练分类回归树,并计算每棵树对应袋外数据的均方残差MSEt,其中t(0<t≤m),则m棵树的原始袋外数据均方残差向量可以表示为[MSE1,MSE2,...,MSEm]。

步骤2.4,基于步骤2.3得到的原始袋外数据均方残差向量[MSE1,MSE2,...,MSEm],计算对应属性的Z值,筛选Z值最大的副本属性,以及比该属性数值更大的属性,融合得到重要属性,将比该属性数值小的属性归为非重要属性,删除非重要属性及副本属性。

步骤2.5,重复执行步骤2.1至步骤2.4,到达到预设终止条件为止。

步骤2.6,根据boruta算法的计算结果,将针对各人群提取出的前30名重要属性中出现两次及以上的属性作为该人群的重要属性,依照一定规则并结合专家意见确定老年人步速的重要属性。

步骤3,对三种步速等级的人群进行体能状态分级,基于老年人步速重要属性,构建逻辑回归判别模型,计算不同人群中体能状态较好的概率,构建老年人体能状态量化等级计算模型,具体实现方法为:

步骤3.1,利用后验概率P(y=1|X)对m条n维的训练样本进行二元分类,构建逻辑回归模型,采用最大似然估计方法计算各属性系数。回归方程如下:

f(x)=b0+b1x1+b2x2+...+bnxn

步骤3.2,以A人群与B人群、B人群与C人群为训练集得到两种回归方程,即A-B逻辑回归方程与B-C逻辑回归方程,其中A-B逻辑回归方程的输出为某样本划分为A类的概率,B-C逻辑回归方程的输出为某样本划分为B类的概率。

步骤3.3,以最大化敏感性与特异性之和为原则,参考理论最佳切点,结合各重要属性的系数、标准误差、自由度、P值、OR值,确定各模型的理论最佳切点值。

步骤3.4,在两个理论最佳切点周围每隔0.01进行一次各人群比例的统计,依照切点选择规则确定最终切点值,在符合实际情况的基础下提高该模型的拟合程度。

步骤4,基于A-B逻辑回归模型和B-C逻辑回归模型,通过共同决策方法,完成老年人体能状态等级划分,得到老年人体能状态量化等级,具体实现方法为:

步骤4.1,通过A-B逻辑回归模型完成A人群的量化等级计算,将较高步速人群(A人群)分为较高步速人群中体能状态较好人群(A1)和较高步速人群中体能状态较差人群(A2)。

步骤4.2,通过B-C逻辑回归模型完成C人群的量化等级计算,将较低步速人群(C人群)分为较低步速人群中体能状态较好人群(C1)和较低步速人群中体能状态较差人群(C2)。

步骤4.3,计算B人群的量化等级需要完成A-B逻辑回归模型和B-C逻辑回归模型共同决策,最终得到普通步速人群中体能状态较好人群(B1)、普通步速人群中体能状态一般人群(B2)和普通步速人群中体能状态较差人群(B2)。

有益效果

与SPPB等身体活动能力的评分方法相比,本专利提出的方法利用反映身体活动能力最直接的因素——步速,采用boruta算法提取老年人步速的关键影响因素,提升了老年人体能量化计算工作的有效性、合理性,在生物医学领域有很好的发展前景。

与Barthel指数和Katz指数等生活自理能力量化计算方法相比,本发明提出的基于boruta算法的多层次体能状态量化等级计算方法,通过逻辑回归算法完成老年人体能状态等级划分,为老年人体能状态的量化等级计算提供了方法依据。

附图说明

图1为本发明提出的多层次老年人体能状态量化等级计算方法原理图;

图2为本发明提出的老年人步速重要属性提取原理图;

图3为本发明提出的普通步速人群体能状态等级划分原理图;

图4为具体实施方式中,最终各等级人群步速均值折线图。

具体实施方式

为了更好的说明本发明的目的和优点,下面结合附图和实施例对本发明方法的实施方式做进一步详细说明。

以下所有测试均在同一台计算机上完成,具体配置为:Intel双核CPU(主频3.0G),4G内存,Windows 7操作系统。

测试采用的原始数据来源于于2011~2012年间北京医院联合全国7省市13家医院调查数据,调查问卷由中国卫生部行业基金老年健康综合评估课题组和中国老年人保健及疾病防治联盟联合设计,包括个人基本信息、躯体健康评估、躯体功能评估、生活行为与社会功能评估、认知功能、医疗情况、心理健康、失能等级评估、辅助检查,采集数据共482维,包含9503条数据。

基于Boruta算法的多层次老年人体能状态量化等级计算方法原理图如图1所示。

1.基于步速的子人群划分

针对9503条,482维原始数据进行预处理,筛选出可用于实验的3060条,59维数据。

基于步速划分子人群时所遵循的规则如下:

1)将步速最高的25%归为较高步速人群(A人群),将步速最低的25%归为较低步速人群(C人群),将步速中间状态的50%归为普通步速人群(B人群);

2)精确步速的取值到0.1m/s,同时调整各子人群比例。

根据步速划分人群的结果见表1:

表1依据步速进行人群划分

由表1可以看出,较低步速人群与普通步速人群的切点为0.65m/s,较高步速人群与普通步速人群的切点为1m/s,较低步速人群与较高步速人群在总人群中的占比均不足25%,约为23%。步速是直接影响体能状态的属性,从整体上看,较高步速人群的体能状态优于普通步速人群,普通步速人群的体能状态优于较低步速人群。

2.老年人步速重要属性筛选

在进行属性选择时,将较低步速人群、普通步速人群、较高步速人群与所有人群分别通过boruta算法,依据重要性排序结果选择最终确定老年人步速的重要属性,原理图如图2所示。具体实施步骤如下:

步骤1,复制变量的数据,构建并重排副本属性,获得扩展数据集。

步骤2,基于扩展数据集,采用bootstrap方式抽取样本集,未被抽取到的作为袋外数据,构建随机森林分类器。

步骤3,训练分类回归树,并计算每棵树对应袋外数据的均方残差MSE1,MSE2,...,MSEt,其中t(0<t≤m),则m棵树的原始袋外数据均方残差向量可以表示为[MSE1,MSE2,...,MSEm]。

步骤4,基于步骤3得到的原始袋外数据均方残差向量[MSE1,MSE2,...,MSEm],计算对应属性的Z值,筛选Z值最大的副本属性,以及比该属性数值更大的属性,融合得到重要属性,将比该属性数值小的属性归为非重要属性,删除非重要属性及副本属性。

步骤5,重复执行步骤1至步骤4,到达到预设终止条件为止。

步骤6,根据boruta算法的计算结果,依照一定的筛选规则,结合专家意见确定老年人步速的重要属性。

筛选规则如下:

1)某属性是两个及两个以上人群的重要属性,其中,选择前30的属性中出现两次的属性作为各类人群的重要属性;

2)将采集代价较大的血检指标删去,如总胆固醇、血糖;

3)将可代替指标删去,如:BMI可以通过身高、体重计算,将BMI删去;

4)将重复指标删去,如:保留收缩压,删去舒张压。

四个人群中,排名前30且出现两次及两次以上的属性共18个,见表2:

表2四种人群中重要属性出现次数

通过筛选,保留11维重要属性:健康状况自评、年龄、是否有关节病、认知功能、食肉情况、是否体检、体重、身高、臀围、腰围以及收缩压。

3.老年人体能状态量化等级计算模型构建

采用逻辑回归方法构建A-B逻辑回归模型和B-C逻辑回归模型。A-B逻辑回归模型表示由较高步速人群(A人群)与普通步速人群(B人群)训练得到的“较高-普通”步速逻辑回归模型,输出是划分为较高步速人群的概率。B-C逻辑回归模型表示由普通步速人群(B人群)与较低步速人群(C人群)训练得到的“普通-较低”步速逻辑回归模型,输出是划分为普通步速人群的概率。

在选择切点时遵循以下三条规则:

1)特异性与敏感性的和最大化;

2)逻辑回归模型的划分结果需满足较低步速人群的占比略大于原占比;

3)逻辑回归模型的划分结果需满足较高步速人群的占比略小于原占比。

采用t检验分别对A-B逻辑回归模型与B-C逻辑回归模型系数进行显著性检验,两种逻辑回归模型结果见表3和表4:

表3.A-B逻辑回归模型结果

表4.B-C逻辑回归模型结果

通过计算两个回归模型ROC可以得到A-B逻辑回归模型与B-C逻辑回归模型的理论最佳切点分别为0.30和0.66,根据最佳切点选择规则最终选择0.37为A-B逻辑回归模型的切点,选择0.64为B-C逻辑回归模型的切点。

4.老年人体能状态等级划分

较高步速人群(A人群)可由A-B逻辑回归模型进行决策,较低步速人群(C人群)可由B-C逻辑回归模型进行决策,而普通步速人群(B人群)需要结合A-B逻辑回归模型与B-C逻辑回归模型完成决策,如图3。

A人群通过A-B逻辑回归模型可被分为A人群或者B人群,因此可将A等级分为A1级(较高步速中体能状态较好人群)与A2级(较高步速中体能状态较差人群);C人群通过B-C逻辑回归模型可被分为B人群或者C人群,因此可将C人群分为C1级(较低步速中体能状态较好人群)和C2级(较低步速中体能状态较差人群),见表5:

表5.较高和较低步速人群模型输出结果与体能状态等级对照表

对普通步速人群的体能状态等级划分按照如下过程进行:当A-B逻辑回归模型与B-C逻辑回归模型的输出均为1时定义该体能状态等级为B1;当A-B逻辑回归模型与B-C逻辑回归模型的输出至少一个为1时定义该体能状态等级为B2;当A-B逻辑回归模型与B-C逻辑回归模型的输出均为0时定义该体能状态等级为B3。沿用此方法可将老年人体能状态划分为A1、A2、B1、B2、B3、C1、C2共七个等级。

普通步速人群(B人群)经A-B逻辑回归模型与B-C逻辑回归模型的输出结果见表6:

表6.普通步速人群模型输出与体能状态等级对照表

在利用A-B逻辑回归模型和B-C逻辑回归模型对人群进行体能状态等级划分时,通过计算判别概率并与切点比较,可将全部人群分为较高步速人群、普通步速人群和较低步速人群,各等级人群步速均值折线图可见图4所示。

较高、普通和较低步速人群逻辑回归划分结果对照表见表7:

表7.较高、普通和较低步速人群逻辑回归等级划分结果对照表

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1