本发明涉及一种智慧医疗领域,具体地,涉及一种心脑血管疾病风险预测方法及系统。
背景技术:
心脑血管疾病泛指由于高脂血症、血液黏稠、动脉粥样硬化、高血压等所导致的心脏、大脑及全身组织发生的缺血性或出血性疾病,是心脏血管和脑血管疾病的统称。心脑血管疾病是一种严重威胁人类,特别是50岁以上中老年人健康的常见病,具有高患病率、高致残率和高死亡率的特点,即使应用目前最先进、完善的治疗手段,仍有50%以上的心脑血管疾病幸存者生活不能完全自理,全世界每年死于心脑血管疾病的人数高达1500万人,居各种死因首位。
预后预测是指预测疾病的可能病程和结局。它既包括判断疾病的特定后果,也包括提供时间线索,如预测某段时间内发生某种结局的可能性。早发现、早诊断、早治疗是改善预后的前提。心脑血管疾病患者的良好预后是患者生活质量的保障,也是医患双方进行康复治疗的首要目标。精准医疗的一个目标是能对心脑血管疾病患者的预后有准确的预测,从而能针对性地对康复项目进行调整,达到康复速度快,康复效果好的目标。
随着医疗信息化的发展,医院积累了大量的健康医疗数据。如何更好的利用这些数据以及医学知识,通过认知计算技术,提供精准医疗的决策是医院现阶段所需要的。认知计算有助于弥合数据量和数据洞察力之间的差距,帮助临床医生发掘数据中隐藏的洞察力。基于这些发掘的洞察力,认知模型可提供基于证据的选项,进而帮助决策并减少人为偏差,有助于医疗专业人员做出更加明智、及时的决策。
到目前为止,认知计算技术在中国人群心脑血管疾病预后风险预测方面尚属空白。而国外认知计算技术虽然已有成功应用案例,但主要解决的是肿瘤等疾病诊断领域,在心脑血管疾病的预后风险预测方面还尚未见有报道。鉴于国内外没有可用于预测心脑血管疾病预后风险的智能模型,很有必要建立一种预测准确度高、适用于临床医生应用的心脑血管疾病预后风险预测模型。
技术实现要素:
针对现有技术中的缺陷,本发明的目的是提供一种心脑血管疾病风险预测方法及系统,其建立适合中国人群的心脑血管疾病预后风险预测模型,临床医生输入模型需要的患者健康医疗数据,通过模型得到患者未来某个时间段的预测康复结局,能够很好的进行预后风险预测,提前针对不同风险等级的患者人群进行康复训练方面的干预,从而实现个性化的精准康复治疗。
根据本发明的一个方面,提供一种心脑血管疾病风险预测方法,其特征在于,其包括以下步骤:
步骤一,问题定义,心脑血管疾病患者预后风险预测问题包括分析的目标人群、关心的预后结局、人群数据采集的观察窗口及预测时间窗口;
步骤二,数据采集,针对目标人群,从相关信息系统收集观察期窗口内的心脑血管疾病患者的医疗健康数据及预后结局数据;
步骤三,数据预处理,数据质量的好坏直接影响模型的预测效果,数据预处理针对数据集进行一系列的集成、清洗和缺失数据的处理,从而提高数据质量,采集的数据类型多种多样,其中包括选择项、日期时间、数值型、字符型以及是否型数据,不同数据类型使得数据预处理更加有挑战性,针对不同数据类型需要采取不同处理方法进行针对性数据预处理;
步骤四,特征工程,基于经过清洗的病人住院记录、健康状况特征所形成一系列观测向量,主要工作包括基于各种数据类型生成原始输入特征,数据类型的转换,并基于领域知识及历史数据生成新的输入特征;
步骤五,模型构建与评估,在众多的机器学习算法中,随机森林是一种利用多个分类树对数据进行判别与分类的方法,随机森林算法处理高维特征,同时还给出各个变量的重要性评分,评估各个变量在分类中所起的作用且易于实现并行化,利用选定的人群和输入特征及已知的康复结局,构建了随机森林预测模型。最后,使用ROC曲线和AUC值对模型的预测效果进行评估。
优选地,所述步骤二中数据采集所需要采集的数据包括:康复科门诊数据、康复科治疗室数据、神内/神外门诊数据、神内/神外住院数据、康复科住院数据、脑卒中筛查门诊数据,这些数据涉及的内容涵盖有患者基本信息、病历或电子病历、检测检验、影像、诊断、处方、治疗、评估表数据。
优选地,所述步骤三具体包括以下步骤:
步骤三十一,数据集成,把不同来源、格式、特点性质的数据整合到一起,从而为之后的分析和模型训练提供全面的数据,只需把不同来源的数据按照一定联系规则整合到一起,根据病人ID号把不同数据源但有同样ID号的信息连接在一起,这样所有来自不同数据源的数据就被整合到了一起;
步骤三十二,数据清洗,数据清洗的任务是通过各种措施从准确性、一致性、无冗余性角度清洗原始数据以提高数据质量,方便下一步缺失数据处理的操作;
步骤三十三,缺失值处理,是对数据集中所缺失的数据进行填充。
优选地,所述步骤五中具体包括以下步骤:
步骤五十一,原始训练数据集中的样本数为N(N是>1的正整数),应用bootstrap采样法有放回地随机抽取K个新的自助样本集,并由此构建K棵分类树,每次未被抽到的样本组成了K个袋外数据;其中K(K是>1的正整数)为模型参数,根据模型性能进行选择。
步骤五十二,设有mall(mall是>1的正整数)个变量,则在每一棵树的每个节点处随机抽取mtry(mtry是>1的正整数)个变量,然后在mtry中选择一个最具有分类能力的变量,变量分类的阈值通过检查每一个分类点确定;
步骤五十三,每棵树最大限度地生长,不做任何修剪;
步骤五十四,将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定;
另外,模型的性能需要有标准的准则进行评估,进而指导我们调整参数,提高模型的性能,通过交叉验证技术验证模型的预测性能,并使用AUC(ROC曲线下面积)值作为性能评估指标,在ROC曲线中,以假阳性率(False Positive Rate)为x轴,以真阳性率(True Positive Rate)为y轴,假阳性率指实际负样本中被错误预测为正样本的概率,真阳性率指实际正样本中被预测正确的概率,计算公式如下式:
本发明还提供一种心脑血管疾病风险预测系统,其特征在于,其包括:
问题定义模块,对心脑血管疾病患者预后风险预测问题进行定义;
数据采集模块,从相关信息系统收集观察期窗口内的心脑血管疾病患者的医疗健康数据及预后结局数据;
数据预处理模块,针对数据集进行一系列的集成、清洗和缺失数据的处理;
特征工程生成模块,基于经过清洗的病人住院记录、健康状况特征所形成一系列观测向量;
模型构建与评估模块,通过随机森林算法处理高维特征,同时还给出各个变量的重要性评分,评估各个变量在分类中所起的作用且易于实现并行化,利用选定的人群和输入特征及已知的康复结局,构建了随机森林预测模型;并对模型的预测效果进行评估;
数据库,存储不同来源、格式、特点性质的数据。
优选地,所述问题定义模块、数据采集模块、数据预处理模块、特征工程生成模块、模型构建与评估模块依次连接,数据采集模块与数据库连接。
与现有技术相比,本发明具有如下的有益效果:本发明建立适合中国人群的心脑血管疾病预后风险预测模型,临床医生输入模型需要的患者健康医疗数据,通过模型得到患者未来某个时间段的预测康复结局,能够很好的进行预后风险预测,提前针对不同风险等级的患者人群进行康复训练方面的干预,从而实现个性化的精准康复治疗,具有巨大的医疗和临床使用价值。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为心脑血管疾病风险预测方法流程图。
图2为预后风险预测模型图。
图3为特征选择的一般过程流程图。
图4为受试者工作特征(ROC)曲线对比图。
图5为本发明心脑血管疾病风险预测系统的原理框图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,本发明心脑血管疾病风险预测方法包括以下步骤:
步骤一,问题定义,心脑血管疾病患者预后风险预测问题包括分析的目标人群、关心的预后结局、人群数据采集的观察窗口及预测时间窗口;
步骤二,数据采集,针对目标人群,从相关信息系统收集观察期窗口内的心脑血管疾病患者的医疗健康数据及预后结局数据,所采集的数据包括:康复科门诊数据、康复科治疗室数据、神内/神外门诊数据、神内/神外住院数据、康复科住院数据、脑卒中筛查门诊数据等,这些数据涉及的内容涵盖有患者基本信息、病历或EMR(电子病历)、检测检验、影像、诊断、处方、治疗、评估表数据;
步骤三,数据预处理,数据质量的好坏直接影响模型的预测效果,数据预处理针对数据集进行一系列的集成、清洗和缺失数据的处理,从而提高数据质量,采集的数据类型多种多样,其中包括选择项(如性别为男/女)、日期时间、数值型(如检测值)、字符型(如诊断)以及是否型数据,不同数据类型使得数据预处理更加有挑战性,针对不同数据类型需要采取不同处理方法进行针对性数据预处理,具体处理过程如下:
步骤三十一,数据集成,把不同来源、格式、特点性质的数据整合到一起,从而为之后的分析和模型训练提供全面的数据,只需把不同来源的数据按照一定联系规则整合到一起,根据病人ID号把不同数据源但有同样ID号的信息连接在一起,这样所有来自不同数据源的数据就被整合到了一起;
步骤三十二,数据清洗,数据清洗的任务是通过各种措施从准确性、一致性、无冗余性角度清洗原始数据以提高数据质量,方便下一步缺失数据处理的操作;
步骤三十三,缺失值处理,是对数据集中所缺失的数据进行填充,医疗领域的特征数据普遍在时间序列上比较稀疏,因此如何处理缺失数据对整体数据集质量有很大的影响,会直接影响之后模型预测的结果,基于正则化最大期望算法进行缺失数据填补。
步骤四,特征工程,基于经过清洗的病人住院记录、健康状况等特征所形成一系列观测向量,主要工作包括基于各种数据类型生成原始输入特征,数据类型的转换,并基于领域知识及历史数据生成新的输入特征,例如计数特征、共生模式特征、集合统计特征等,通过特征构造(转换原始特征并衍生组合特征)和特征选择(从原始特征和组合特征中自动选择潜在的风险因素)技术识别潜在的风险因子;
经过以上步骤的处理,生成了用于模型训练的样本数据集,每个患者将被表示为由多个输入特征和单个目标预后结局组成的向量,并根据预后结局的好坏标记为正负例样本(建立的模型是一个分类器);
步骤五,模型构建与评估,在众多的机器学习算法中,随机森林是一种利用多个分类树对数据进行判别与分类的方法,随机森林算法能够处理高维特征,同时还能给出各个变量的重要性评分,评估各个变量在分类中所起的作用且易于实现并行化,利用选定的人群和输入特征及已知的康复结局,构建了随机森林预测模型,具体实现过程如下:
步骤五十一,原始训练数据集中样本数为N,应用bootstrap采样法有放回地随机抽取K个新的自助样本集,并由此构建K棵分类树,每次未被抽到的样本组成了K个袋外数据;
步骤五十二,设有mall个变量,则在每一棵树的每个节点处随机抽取mtry个变量,然后在mtry中选择一个最具有分类能力的变量,变量分类的阈值通过检查每一个分类点确定;
步骤五十三,每棵树最大限度地生长,不做任何修剪;
步骤五十四,将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定;
另外,模型的性能需要有标准的准则进行评估,进而指导我们调整参数,提高模型的性能,通过交叉验证技术验证模型的预测性能,并使用AUC(ROC曲线下面积)值作为性能评估指标,在ROC曲线中,以假阳性率(False Positive Rate)为x轴,以真阳性率(True Positive Rate)为y轴,假阳性率指实际负样本中被错误预测为正样本的概率,真阳性率指实际正样本中被预测正确的概率,计算如下式(1)和(2):
其中,TP(True Positive)表示正确预测到的正例的数量;FN(False Negative)把正例预测成负例的数量;FP(False Positive)把负例预测成正例的数量;TN(True Negative)正确预测到的负例的数量。
本实施例以从XXX医院康复所采集的700位有明确康复结局评定量表的脑卒中患者数据为样本,样本数据具体包括:患者的基本信息(性别、年龄、身高、体重、教育程度、婚姻状态等),体征数据(血压、心率),病史数据(门诊及住院诊断、用药史及治疗历史、检查检验历史及相关影像数据),进入康复科后的功能评估项目及结果。
步骤一,问题定义
如图2所示,基于所采集的数据,将建立以认知功能障碍为目标结局的预测模型,其中预测建模的目标人群为因脑卒中住院并接受康复治疗的患者;预测建模的目标结局为康复认知功能;用于建立模型的数据观察窗口为进入康复科后一周前的历史数据;模型适用的预测窗口为基础评估后预测未来一个月内的认知功能。
步骤二,数据集成
使用病人ID号将不同数据源但是有同样ID号的患者数据连接在一起,这样所有来自不同数据源的数据就整合到了同一个数据文件中。
步骤二十一,数据清洗
数据清洗的任务是通过各种措施从准确性、一致性、无冗余性角度清洗原始数据以提高数据质量,方便下一步缺失数据处理的操作;
步骤二十二,缺失值处理
在统计计算中,最大期望(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量。在处理缺失数据时,缺失特征变量可被看作是无法观测的隐藏变量,可用最大期望算法来补充缺失的数据。此方法一般可以分为三步:1、计算最大期望;2、正则化最大期望,避免过度拟合;3、对上一步生成的方程进行评估;最大期望的详细计算方法如下:
1)EM(最大期望)算法步骤,最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在计算期望(E)步上求得的最大似然值来计算参数的值,最大化(M)步找到的参数估计值被用于下一个计算期望(E)步计算中,这个过程不断交替进行。
2)EM(最大期望)算法应用,用于估计无法观测的数据,y表示能够观察到的不完整变量值,用x表示无法观察到的变量值,在给定的观察到的数据条件下未知数据的条件如下式(3):
其中,p表示概率密度函数;x表示输入特征变量;y表示输出目标变量;θ表示模型的未知参数。
3)处理效果评估,采用标准误差(RMSE)对缺失数据的填充效果进行评估,RMSE(标准误差)能够很好地反映出所填充数据和真实数据的偏离程度,RMSE(标准误差)值越小,表示填充数据和真实数据的偏离程度越小,其精度越高,反之,RMSE(标准误差)越大,表示填充数据和真实数据的偏离程度越大,RMSE(标准误差)的数学表达式如下式(4):
其中,n为样本数;Xobs,i代表第i个观测值;Xmodel,i代表Xobs,i的模型预测值。
步骤三,特征工程,潜在风险因子识别
根据得到的数据集,基于集合运算(count,mean,min,max,std.)和领域知识(组合已有特征)的方法构造新特征,例如某个病人一天中可能有几个血压值,我们可以采用平均值,最大值或最小值最为血压这个特征变量的最后值。
如图3所示,采用的特征选择过程,具体包括产生过程、评价函数、停止准则、验证过程四个部分。
在产生过程中,采用基于启发式搜索的序列前向选择方法,假设特征子集X从空集开始,每次选择一个特征加入特征子集,使得特征函数最优,本实施例采用的评价函数是基于筛选器的方法,并且使用线性相关系数来衡量向量之间线性相关度,如下式(5):
其中,Xi表示第i个特征向量;Y表示目标输出向量;cov(Xi,Y)表示Xi和Y的协方差;var(Xi)和var(Y)分别表示Xi和Y的方差。
当评价函数值达到停止准则设定的阈值时停止搜索过程,最后在验证数据集上验证选出来的特征子集的有效性。
步骤四,预后风险模型训练和评估
将生成的特征变量作为输入向量矩阵,将未来一个月内的康复结局作为目标输出变量,为了降低模型参数对模型性能的影响,采用五折交叉验证法将数据集划分为训练集和测试集,将数据集随机划分为均匀的五份,每次都取其中一份作为测试集,另外四份作为训练集,每次都计算出真阳性率和假阳性率,将其平均值作为模型最后的真阳性率和假阳性率。
如图4所示,预测模型(Algorithm 1)和基于逻辑回归算法的预测模型(Algorithm 2)在测试数据集上的ROC曲线对比,受试者工作特征(ROC)曲线下面积,即AUC值分别为0.798和0.706,相比于后者有了显著的提升。
如图5所示,本发明心脑血管疾病风险预测系统包括:
问题定义模块,对心脑血管疾病患者预后风险预测问题进行定义;
数据采集模块,从相关信息系统收集观察期窗口内的心脑血管疾病患者的医疗健康数据及预后结局数据;
数据预处理模块,针对数据集进行一系列的集成、清洗和缺失数据的处理;
特征工程生成模块,基于经过清洗的病人住院记录、健康状况特征所形成一系列观测向量;
模型构建与评估模块,通过随机森林算法处理高维特征,同时还给出各个变量的重要性评分,评估各个变量在分类中所起的作用且易于实现并行化,利用选定的人群和输入特征及已知的康复结局,构建了随机森林预测模型;并对模型预测效果进行性能方面的评估。
数据库,存储不同来源、格式、特点性质的数据。
问题定义模块、数据采集模块、数据预处理模块、特征工程生成模块、模型构建与评估模块依次连接,数据采集模块与数据库连接,这样方便连接。
综上所述,本发明建立适合中国人群的心脑血管疾病预后风险预测模型,临床医生输入模型需要的患者健康医疗数据,通过模型得到患者未来某个时间段的预测康复结局,能够很好的进行预后风险预测,提前针对不同风险等级的患者人群进行康复训练方面的干预,从而实现个性化的精准康复治疗,具有巨大的医疗和临床使用价值。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。