本发明涉及疾病预后预测技术领域,尤其涉及一种基于logitboost的心脏疾病预后预测方法及装置。
背景技术:
随着人民生活现代化程度的提高,对于身体健康特别是心脏健康的重视程度也日益增加,因此,针对心脏疾病患者的长期预后的预测显得额外重要。现有的预测方法中,操作人员如医师,无法对大量的ccta(coronarycomputedtomographyangiography,冠状动脉计算机断层扫描血管造影)数据中的变量进行有效的筛选,因此取得的预测效果不佳。可见,现有技术存在缺陷,亟需解决。
技术实现要素:
本发明所要解决的技术问题在于,提供一种基于logitboost的心脏疾病预后预测方法及装置,可以有效考虑到基于不同分箱原理对变量的分箱所造成的影响,并进一步基于分箱后变量的变量信息增益来筛选出高质量的目标变量,且结合logitboost学习算法,实现了更精准的心脏疾病预后预测效果,有助于提高预测的效率和精度,为后续的临床诊断和治疗提供帮助。
为了解决上述技术问题,本发明第一方面公开了一种基于logitboost的心脏疾病预后预测方法,所述方法包括:
获取目标ccta临床数据,从所述目标ccta临床数据中确定出多个相关变量;所述目标ccta临床数据中包括有多个心脏疾病患者的ccta临床数据;
基于多种分箱原理对所述多个相关变量进行分箱操作,得到每一所述相关变量对应的多个分箱后变量;
计算每一所述相关变量对应的多个分箱后变量的变量信息增益,根据所有所述相关变量对应的变量信息增益,从所述多个相关变量中筛选出若干个目标相关变量;
根据所述目标相关变量,以及所述目标ccta临床数据,建立基于logitboost学习算法的logitboost预测模型;所述logitboost预测模型用于对目标心脏疾病患者进行心脏疾病预后预测。
作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
采用预测结果准确性分析方法,对所述logitboost预测模型的预测结果进行分析,得到所述logitboost预测模型的预测效果。
作为一种可选的实施方式,在本发明第一方面中,所述相关变量的类型包括计算机断层血管造影指标和/或临床变量。
作为一种可选的实施方式,在本发明第一方面中,所述相关变量包括:全因死亡率、身体质量指数、血压、体表面积、冠状动脉钙质评分、对角线、糖尿病、糖尿病周围神经病变、射血分数、家族史、弗明汉原始风险评分、弗明汉风险评分、甘油三酯、糖化血红蛋白、高密度脂蛋白、缺血性脑卒中、左主干、左旋支、低密度脂蛋白、左主干、左室舒张末期、左室收缩末期、左室质量、主要心脏不良事件、改良杜克指数、数量、中间、钝缘支、外周动脉、外侧支、近端、右冠状动脉、节段、节段受累评分、呼吸急促、节段狭窄评分、短暂性缺血性卒中中的一种或多种。
作为一种可选的实施方式,在本发明第一方面中,所述基于多种分箱原理对所述多个相关变量进行分箱操作,得到每一所述相关变量对应的多个分箱后变量,包括:
对于所述多个相关变量中的每一相关变量,分别基于等频分箱、等距分箱、决策树分箱和卡方分箱四种分箱原理对该相关变量进行变量分箱处理,得到该相关变量对应的等频分箱后变量、等距分箱后变量、决策树分箱后变量和卡方分箱后变量。
作为一种可选的实施方式,在本发明第一方面中,所述计算每一所述相关变量对应的多个分箱后变量的变量信息增益,根据所有所述相关变量对应的变量信息增益,从所述多个相关变量中筛选出若干个目标相关变量,包括:
计算每一所述相关变量对应的等频分箱后变量、等距分箱后变量、决策树分箱后变量和卡方分箱后变量分别对应的等频分箱后变量信息增益、等距分箱后变量信息增益、决策树分箱后变量信息增益和卡方分箱后变量信息增益;
计算每一所述相关变量对应的等频分箱后变量信息增益、等距分箱后变量信息增益、决策树分箱后变量信息增益和卡方分箱后变量信息增益的平均信息增益值;
对所有所述相关变量根据对应的平均信息增益值从高到低进行排序得到变量序列;
将所述变量序列中的前预设数量个所述相关变量确定为目标相关变量。
作为一种可选的实施方式,在本发明第一方面中,所述预测结果准确性分析方法包括多折交叉验证法和/或显著性分析法。
本发明第二方面公开了一种基于logitboost的心脏疾病预后预测装置,所述装置包括:
获取模块,用于获取目标ccta临床数据,从所述目标ccta临床数据中确定出多个相关变量;所述目标ccta临床数据中包括有多个心脏疾病患者的ccta临床数据;
分箱模块,用于基于多种分箱原理对所述多个相关变量进行分箱操作,得到每一所述相关变量对应的多个分箱后变量;
计算模块,用于计算每一所述相关变量对应的多个分箱后变量的变量信息增益,根据所有所述相关变量对应的变量信息增益,从所述多个相关变量中筛选出若干个目标相关变量;
建立模块,用于根据所述目标相关变量,以及所述目标ccta临床数据,建立基于logitboost学习算法的logitboost预测模型;所述logitboost预测模型用于对目标心脏疾病患者进行心脏疾病预后预测。
作为一种可选的实施方式,在本发明第二方面中,所述装置还包括:
分析模块,用于采用预测结果准确性分析方法,对所述logitboost预测模型的预测结果进行分析,得到所述logitboost预测模型的预测效果。
作为一种可选的实施方式,在本发明第二方面中,所述相关变量的类型包括计算机断层血管造影指标和/或临床变量。
作为一种可选的实施方式,在本发明第二方面中,所述相关变量包括:全因死亡率、身体质量指数、血压、体表面积、冠状动脉钙质评分、对角线、糖尿病、糖尿病周围神经病变、射血分数、家族史、弗明汉原始风险评分、弗明汉风险评分、甘油三酯、糖化血红蛋白、高密度脂蛋白、缺血性脑卒中、左主干、左旋支、低密度脂蛋白、左主干、左室舒张末期、左室收缩末期、左室质量、主要心脏不良事件、改良杜克指数、数量、中间、钝缘支、外周动脉、外侧支、近端、右冠状动脉、节段、节段受累评分、呼吸急促、节段狭窄评分、短暂性缺血性卒中中的一种或多种。
作为一种可选的实施方式,在本发明第二方面中,所述分箱模块基于多种分箱原理对所述多个相关变量进行分箱操作,得到每一所述相关变量对应的多个分箱后变量的具体方式,包括:
对于所述多个相关变量中的每一相关变量,分别基于等频分箱、等距分箱、决策树分箱和卡方分箱四种分箱原理对该相关变量进行变量分箱处理,得到该相关变量对应的等频分箱后变量、等距分箱后变量、决策树分箱后变量和卡方分箱后变量。
作为一种可选的实施方式,在本发明第二方面中,所述计算模块计算每一所述相关变量对应的多个分箱后变量的变量信息增益,根据所有所述相关变量对应的变量信息增益,从所述多个相关变量中筛选出若干个目标相关变量的具体方式,包括:
计算每一所述相关变量对应的等频分箱后变量、等距分箱后变量、决策树分箱后变量和卡方分箱后变量分别对应的等频分箱后变量信息增益、等距分箱后变量信息增益、决策树分箱后变量信息增益和卡方分箱后变量信息增益;
计算每一所述相关变量对应的等频分箱后变量信息增益、等距分箱后变量信息增益、决策树分箱后变量信息增益和卡方分箱后变量信息增益的平均信息增益值;
对所有所述相关变量根据对应的平均信息增益值从高到低进行排序得到变量序列;
将所述变量序列中的前预设数量个所述相关变量确定为目标相关变量。
作为一种可选的实施方式,在本发明第二方面中,所述预测结果准确性分析方法包括多折交叉验证法和/或显著性分析法。
本发明第三方面公开了另一种基于logitboost的心脏疾病预后预测装置,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明实施例第一方面公开的基于logitboost的心脏疾病预后预测方法中的部分或全部步骤。
本发明实施例第四方面公开了一种蓝牙设备,其包括基于logitboost的心脏疾病预后预测装置,所述基于logitboost的心脏疾病预后预测装置用于执行本发明实施例第一方面公开的基于logitboost的心脏疾病预后预测方法中的部分或全部步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,获取目标ccta临床数据,从所述目标ccta临床数据中确定出多个相关变量;基于多种分箱原理对所述多个相关变量进行分箱操作,得到每一所述相关变量对应的多个分箱后变量;计算每一所述相关变量对应的多个分箱后变量的变量信息增益,根据所有所述相关变量对应的变量信息增益,从所述多个相关变量中筛选出若干个目标相关变量;根据所述目标相关变量,以及所述目标ccta临床数据,建立基于logitboost学习算法的logitboost预测模型。可见,本发明可以有效考虑到基于不同分箱原理对变量的分箱所造成的影响,并进一步基于分箱后变量的变量信息增益来筛选出高质量的目标变量,且结合logitboost学习算法,实现了更精准的心脏疾病预后预测效果,有助于提高预测的效率和精度,为后续的临床诊断和治疗提供帮助。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种基于logitboost的心脏疾病预后预测方法的流程示意图;
图2是本发明实施例公开的一种基于logitboost的心脏疾病预后预测装置的结构示意图;
图3是本发明实施例公开的另一种基于logitboost的心脏疾病预后预测装置的结构示意图;
图4是本发明实施例公开的acm预测模型和mace预测模型的多个变量的信息增益平均值的排序结果示意图;
图5是本发明实施例公开的acm模型和mace模型的预测结果示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种基于logitboost的心脏疾病预后预测方法及装置,可以有效考虑到基于不同分箱原理对变量的分箱所造成的影响,并进一步基于分箱后变量的变量信息增益来筛选出高质量的目标变量,且结合logitboost学习算法,实现了更精准的心脏疾病预后预测效果,有助于提高预测的效率和精度,为后续的临床诊断和治疗提供帮助。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种基于logitboost的心脏疾病预后预测方法的流程示意图。其中,图1所描述的方法可以应用于相应的疾病预后预测设备、疾病预后预测终端、疾病预后预测服务器中,且该服务器可以是本地服务器,也可以是云服务器,本发明实施例不做限定如图1所示,该基于logitboost的心脏疾病预后预测方法可以包括以下操作:
101、获取目标ccta临床数据,从目标ccta临床数据中确定出多个相关变量。
本发明实施例中,目标ccta临床数据中包括有多个心脏疾病患者的ccta临床数据。可选的,可以通过收集大量的心外血管疾病患者的ccta临床数据,并筛选出部分质量较高的数据,以得到目标ccta临床数据。
本发明实施例中,相关变量的类型包括计算机断层血管造影指标和/或临床变量。可选的,相关变量包括acm(all-causemortality,全因死亡率)、bmi(bodymassindex,身体质量指数)、bp(bloodpressure,血压)、bsa(bodysurfacearea,体表面积)、ccs(coronarycalciumscore,冠状动脉钙质评分)、ccta(coronarycomputedtomographyangiography,冠状动脉计算机断层血管造影)、d(diagonal,对角线)、dm(diabetesmellitus,糖尿病)、dpn(diabeticperipheralneuropathy,糖尿病周围神经病变)、ef(ejectionfraction,射血分数)、fhx(familyhistory,家族史)、frrs(framinghamriskrawscore,弗明汉原始风险评分)、frs(framinghamriskscore,弗明汉风险评分)、gtn(glyceryltrinitrate,甘油三酯)、hba1c(hemoglobulina1c,糖化血红蛋白)、hdl(high-densitylipoprotein,高密度脂蛋白)、is(ischemicstroke,缺血性脑卒中)、lad(leftanteriordescendingartery,左主干)、lcx(leftcircumflexartery,左旋支)、ldl(low-densitylipoprotein,低密度脂蛋白)、lm(leftmainartery,左主干)、lved(leftventricularenddiastolic,左室舒张末期)、lves(leftventricularendsystolic,左室收缩末期)、lvm(leftventricularmass,左室质量)、mace(majoradversecardiacevents,主要心脏不良事件)、mdi(modifieddukeindex,改良杜克指数)、nr.(number,数量)、mid(middle,中间)、om(obtusemarginal,钝缘支)、pad(peripheralarterydisease,外周动脉)、pl(posterolateralbranch,外侧支)、prox(proximal,近端)、rca(rightcoronaryartery,右冠状动脉)、segs(segments,节段)、sis(segmentinvolvementscore,节段受累评分)、sob(shortnessofbreath,呼吸急促)、sss(segmentstenosisscore,节段狭窄评分)、tia(transientischemicstroke,短暂性缺血性卒中)中的一种或多种。
102、基于多种分箱原理对多个相关变量进行分箱操作,得到每一相关变量对应的多个分箱后变量。
103、计算每一相关变量对应的多个分箱后变量的变量信息增益,根据所有相关变量对应的变量信息增益,从多个相关变量中筛选出若干个目标相关变量。
104、根据目标相关变量,以及目标ccta临床数据,建立基于logitboost学习算法的logitboost预测模型。
本发明实施例中,logitboost预测模型用于对目标心脏疾病患者进行心脏疾病预后预测。
可见,实施本发明实施例所描述的方法可以有效考虑到基于不同分箱原理对变量的分箱所造成的影响,并进一步基于分箱后变量的变量信息增益来筛选出高质量的目标变量,且结合logitboost学习算法,实现了更精准的心脏疾病预后预测效果,有助于提高预测的效率和精度,为后续的临床诊断和治疗提供帮助。
在一个可选的实施方式中,该方法还包括:
采用预测结果准确性分析方法,对logitboost预测模型的预测结果进行分析,得到logitboost预测模型的预测效果。
本发明实施例中,可选的,预测结果准确性分析方法包括多折交叉验证法和/或显著性分析法。例如,可以采用三折交叉验证法对logitboost预测模型的预测结果进行分析,并取计算100次后的平均值作为最终得分,来验证模型的预测效果。
在另一个可选的实施方式中,步骤103中的,基于多种分箱原理对多个相关变量进行分箱操作,得到每一相关变量对应的多个分箱后变量,包括:
对于多个相关变量中的每一相关变量,分别基于等频分箱、等距分箱、决策树分箱和卡方分箱四种分箱原理对该相关变量进行变量分箱处理,得到该相关变量对应的等频分箱后变量、等距分箱后变量、决策树分箱后变量和卡方分箱后变量。
在又一个可选的实施方式中,步骤103中的,计算每一相关变量对应的多个分箱后变量的变量信息增益,根据所有相关变量对应的变量信息增益,从多个相关变量中筛选出若干个目标相关变量,包括:
计算每一相关变量对应的等频分箱后变量、等距分箱后变量、决策树分箱后变量和卡方分箱后变量分别对应的等频分箱后变量信息增益、等距分箱后变量信息增益、决策树分箱后变量信息增益和卡方分箱后变量信息增益;
计算每一相关变量对应的等频分箱后变量信息增益、等距分箱后变量信息增益、决策树分箱后变量信息增益和卡方分箱后变量信息增益的平均信息增益值;
对所有相关变量根据对应的平均信息增益值从高到低进行排序得到变量序列;
将变量序列中的前预设数量个相关变量确定为目标相关变量。
本发明实施例还公开了一种具体技术实施方案,首先,在收集的心外血管疾病患者ccta临床数据中挑选出质量较高的部分数据,然后进入特征选择流程。在特征选择过程中,通过等频分箱、等距分箱、决策树分箱和卡方分箱四种分箱方法,计算患者特征的信息增益平均值,并按信息增益平均值降序排序。在四种分箱方法下,acm(allcausedmortality,全因死亡率)预测模型和mace(majoradversecardiacevents,主要不良心脏事件)预测模型的多个变量的信息增益平均值的排序结果如图4所示。图4中有35个计算机断层血管造影指标(深灰色)和34个临床变量(浅灰色),而信息增益排序是为了评估一个属性与训练数据预测的相关性。其中,部分变量缩写的意思为:acm(all-causemortality,全因死亡率)、bmi(bodymassindex,身体质量指数)、bp(bloodpressure,血压)、bsa(bodysurfacearea,体表面积)、ccs(coronarycalciumscore,冠状动脉钙质评分)、ccta(coronarycomputedtomographyangiography,冠状动脉计算机断层血管造影)、d(diagonal,对角线)、dm(diabetesmellitus,糖尿病)、dpn(diabeticperipheralneuropathy,糖尿病周围神经病变)、ef(ejectionfraction,射血分数)、fhx(familyhistory,家族史)、frrs(framinghamriskrawscore,弗明汉原始风险评分)、frs(framinghamriskscore,弗明汉风险评分)、gtn(glyceryltrinitrate,甘油三酯)、hba1c(hemoglobulina1c,糖化血红蛋白)、hdl(high-densitylipoprotein,高密度脂蛋白)、is(ischemicstroke,缺血性脑卒中)、lad(leftanteriordescendingartery,左主干)、lcx(leftcircumflexartery,左旋支)、ldl(low-densitylipoprotein,低密度脂蛋白)、lm(leftmainartery,左主干)、lved(leftventricularenddiastolic,左室舒张末期)、lves(leftventricularendsystolic,左室收缩末期)、lvm(leftventricularmass,左室质量)、mace(majoradversecardiacevents,主要心脏不良事件)、mdi(modifieddukeindex,改良杜克指数)、nr.(number,数量)、mid(middle,中间)、om(obtusemarginal,钝缘支)、pad(peripheralarterydisease,外周动脉)、pl(posterolateralbranch,外侧支)、prox(proximal,近端)、rca(rightcoronaryartery,右冠状动脉)、segs(segments,节段)、sis(segmentinvolvementscore,节段受累评分)、sob(shortnessofbreath,呼吸急促)、sss(segmentstenosisscore,节段狭窄评分)、tia(transientischemicstroke,短暂性缺血性卒中),其余未被解释的变量的缩写在本领域中有明确的含义,在此不再赘述。
然后从所有变量中选择出具有较高信息增益的变量,比如选取排名前十名的变量特征,进入下一流程即模型评估。
在模型评估阶段,首先,通过第一步筛选出的患者特征,通过集成学习建立logitboost模型。然后,利用模型,对心外血管疾病患者进行长期心脏预后预测。再通过3折交叉验证并取100次实验结果平均值。最后,再通过显著性(p值)分析,得到可靠的预测模型和预测结果。其中,对acm模型和mace模型的预测结果如图5所示。图5的结果表明,本技术实施方案中的预测方法比现有的传统方法具有更高的预测准确率,因为考虑到病人的所有影响较大的相关变量。通过使用3折交叉验证、平均100次预测结果、显著性分析,本技术实施方案中的预测方法和模型在心外血管疾病患者的长期心脏预后预测中具有较高的可靠性、说服力和鲁棒性。
实施例二
请参阅图2,图2是本发明实施例公开的一种基于logitboost的心脏疾病预后预测装置的结构示意图。其中,图2所描述的装置可以应用于相应的疾病预后预测设备、疾病预后预测终端、疾病预后预测服务器中,且该服务器可以是本地服务器,也可以是云服务器,本发明实施例不做限定。如图2所示,该装置可以包括:
获取模块201,用于获取目标ccta临床数据,从目标ccta临床数据中确定出多个相关变量。
本发明实施例中,目标ccta临床数据中包括有多个心脏疾病患者的ccta临床数据。可选的,可以通过收集大量的心外血管疾病患者的ccta临床数据,并筛选出部分质量较高的数据,以得到目标ccta临床数据。
本发明实施例中,相关变量的类型包括计算机断层血管造影指标和/或临床变量。可选的,相关变量包括acm(all-causemortality,全因死亡率)、bmi(bodymassindex,身体质量指数)、bp(bloodpressure,血压)、bsa(bodysurfacearea,体表面积)、ccs(coronarycalciumscore,冠状动脉钙质评分)、ccta(coronarycomputedtomographyangiography,冠状动脉计算机断层血管造影)、d(diagonal,对角线)、dm(diabetesmellitus,糖尿病)、dpn(diabeticperipheralneuropathy,糖尿病周围神经病变)、ef(ejectionfraction,射血分数)、fhx(familyhistory,家族史)、frrs(framinghamriskrawscore,弗明汉原始风险评分)、frs(framinghamriskscore,弗明汉风险评分)、gtn(glyceryltrinitrate,甘油三酯)、hba1c(hemoglobulina1c,糖化血红蛋白)、hdl(high-densitylipoprotein,高密度脂蛋白)、is(ischemicstroke,缺血性脑卒中)、lad(leftanteriordescendingartery,左主干)、lcx(leftcircumflexartery,左旋支)、ldl(low-densitylipoprotein,低密度脂蛋白)、lm(leftmainartery,左主干)、lved(leftventricularenddiastolic,左室舒张末期)、lves(leftventricularendsystolic,左室收缩末期)、lvm(leftventricularmass,左室质量)、mace(majoradversecardiacevents,主要心脏不良事件)、mdi(modifieddukeindex,改良杜克指数)、nr.(number,数量)、mid(middle,中间)、om(obtusemarginal,钝缘支)、pad(peripheralarterydisease,外周动脉)、pl(posterolateralbranch,外侧支)、prox(proximal,近端)、rca(rightcoronaryartery,右冠状动脉)、segs(segments,节段)、sis(segmentinvolvementscore,节段受累评分)、sob(shortnessofbreath,呼吸急促)、sss(segmentstenosisscore,节段狭窄评分)、tia(transientischemicstroke,短暂性缺血性卒中)。
分箱模块202,用于基于多种分箱原理对多个相关变量进行分箱操作,得到每一相关变量对应的多个分箱后变量;
计算模块203,用于计算每一相关变量对应的多个分箱后变量的变量信息增益,根据所有相关变量对应的变量信息增益,从多个相关变量中筛选出若干个目标相关变量;
建立模块204,用于根据目标相关变量,以及目标ccta临床数据,建立基于logitboost学习算法的logitboost预测模型;logitboost预测模型用于对目标心脏疾病患者进行心脏疾病预后预测。
可见,实施本发明实施例所描述的装置可以有效考虑到基于不同分箱原理对变量的分箱所造成的影响,并进一步基于分箱后变量的变量信息增益来筛选出高质量的目标变量,且结合logitboost学习算法,实现了更精准的心脏疾病预后预测效果,有助于提高预测的效率和精度,为后续的临床诊断和治疗提供帮助。
作为一种可选的实施方式,该装置还包括:
分析模块205,用于采用预测结果准确性分析方法,对logitboost预测模型的预测结果进行分析,得到logitboost预测模型的预测效果。
本发明实施例中,可选的,预测结果准确性分析方法包括多折交叉验证法和/或显著性分析法。例如,可以采用三折交叉验证法对logitboost预测模型的预测结果进行分析,并取计算100次后的平均值作为最终得分,来验证模型的预测效果。
作为一种可选的实施方式,分箱模块202基于多种分箱原理对多个相关变量进行分箱操作,得到每一相关变量对应的多个分箱后变量的具体方式,包括:
对于多个相关变量中的每一相关变量,分别基于等频分箱、等距分箱、决策树分箱和卡方分箱四种分箱原理对该相关变量进行变量分箱处理,得到该相关变量对应的等频分箱后变量、等距分箱后变量、决策树分箱后变量和卡方分箱后变量。
作为一种可选的实施方式,计算模块203计算每一相关变量对应的多个分箱后变量的变量信息增益,根据所有相关变量对应的变量信息增益,从多个相关变量中筛选出若干个目标相关变量的具体方式,包括:
计算每一相关变量对应的等频分箱后变量、等距分箱后变量、决策树分箱后变量和卡方分箱后变量分别对应的等频分箱后变量信息增益、等距分箱后变量信息增益、决策树分箱后变量信息增益和卡方分箱后变量信息增益;
计算每一相关变量对应的等频分箱后变量信息增益、等距分箱后变量信息增益、决策树分箱后变量信息增益和卡方分箱后变量信息增益的平均信息增益值;
对所有相关变量根据对应的平均信息增益值从高到低进行排序得到变量序列;
将变量序列中的前预设数量个相关变量确定为目标相关变量。
具体的,本发明实施例中所述的预测装置为实施例一中所述的预测方法的功能模块实现方案,其具体的技术细节或实施方案可以参照实施例一中的表述,在此不再赘述。
实施例三
请参阅图3,图3是本发明实施例公开的另一种基于logitboost的心脏疾病预后预测装置的结构示意图。如图3所示,该装置可以包括:
存储有可执行程序代码的存储器301;
与存储器301耦合的处理器302;
处理器302调用存储器301中存储的可执行程序代码,执行本发明实施例一公开的基于logitboost的心脏疾病预后预测方法中的部分或全部步骤。
实施例四
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一公开的基于logitboost的心脏疾病预后预测方法中的部分或全部步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(read-onlymemory,rom)、随机存储器(randomaccessmemory,ram)、可编程只读存储器(programmableread-onlymemory,prom)、可擦除可编程只读存储器(erasableprogrammablereadonlymemory,eprom)、一次可编程只读存储器(one-timeprogrammableread-onlymemory,otprom)、电子抹除式可复写只读存储器(electrically-erasableprogrammableread-onlymemory,eeprom)、只读光盘(compactdiscread-onlymemory,cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种基于logitboost的心脏疾病预后预测方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。