一种基于糖尿病系统大数据的糖尿病概率计算方法
【技术领域】
[0001] 本发明涉及一种概率计算方法,尤其是涉及一种基于糖尿病系统大数据的糖尿病 概率计算方法。
【背景技术】
[0002] 随着社会经济的发展,人口老龄化、生活方式等危险因素迅速增加,糖尿病患病率 在世界范围内呈上升趋势。据世界卫生组织统计:1985年全世界有糖尿病患者3000万 人,1995年为1. 35亿人,2000年为1. 77亿人,估计到2025年将达到3亿人;每年约有 400万人死于和糖尿病相关的疾病,占世界死亡人数的9%。许多糖尿病患者不能被早期 识别,并且糖尿病人群正趋于低龄化,对于糖尿病的防治成为了当下重要的技术问题。
[0003] 现有的糖尿病防治技术主要分为两类:第一类是从大数据中分析出影响糖尿病发 生的主要因素,从而来预防糖尿病;第二类是对糖尿病发生风险的预测。
[0004] 第一类主要利用大数据作为样本,提取影响糖尿病发生的因素,主要是与生活习 惯、饮食习惯方面相关的因素,让人们可以注意这些方面,从而来预防糖尿病的发生。该类 方法仅仅是提供一个预防功能,且预防的因素也不够全面,同时缺少了重要的预测功能,为 糖尿病的防治带来了困难。
[0005] 第二类主要采用分类方法来预测糖尿病发生的风险,主要分为:高危、中危、低危, 这样的分类方法区间广,较为模糊。并且,仅仅通过这些分类方法不能很好的筛选出糖尿病 特征属性,导致预测结果误差变大。
[0006] 从上述两类现有的技术可以看出,当下的糖尿病防治技术还不够成熟,影响糖尿 病的因素较为复杂,单纯的大数据分析方法以及单纯的预测方法都是存在较大缺陷的,一 方面是预防不够全面,另一方面是预测不够精确。因此,设计一种预防和预测相结合即更加 全面精确的技术方法对糖尿病的防治具有深远的意义。
【发明内容】
[0007] 本发明目的是:提供一种预防和预测相结合且更加全面精确的基于糖尿病系统大 数据的糖尿病概率计算方法,该方法设计了一种决策树与朴素贝叶斯模型相结合的两层模 型方法,通过提取大数据中糖尿病的特征属性,从而预测糖尿病发生与否,并进一步计算其 发生的概率。
[0008] 本发明的技术方案是:一种基于糖尿病系统大数据的糖尿病概率计算方法,包括 以下步骤:
[0009] 1)构建糖尿病决策树模型,提取70%的糖尿病系统大数据作为所述决策树模型 的训练样本S,根据该训练样本S获取糖尿病特征属性并将其作为所述决策树模型的输入 变量X i,每个输入变量Xi都有其对应的分类Xij,其中i = 1,2,…,n,j的值由其对应的Xi 分类值确定;
[0010] 2)根据所述训练样本S的信息增益率Gains (Xi)选择所述决策树模型的最佳分枝 变量;
[0011] 3)提取剩余30%的糖尿病系统大数据并从下向上进行决策树后剪枝,得到糖尿 病诊断结果输出变量C k,其中k = 1,2,3,(^、(:2、(:3分别对应为可能、否、是糖尿病诊断结果 的决策树输出变量;
[0012] 4)构建糖尿病朴素贝叶斯模型,从糖尿病系统大数据中提取包含上述决策树模 型筛选后的特征属性数据并重新构成训练样本D,提取上述决策树模型中所有输出变量为 C1的节点,自上向下获取每个节点所经过的特征属性分类X y并定义第!个节点所拥有的 特征属性集合乙为:Y1= {y P y2,…,ym},其中m是对应节点所拥有的特征属性个数,再 利用贝叶斯公式得,第r个节点上输出变量为C1的糖尿病可能性概率P (C i Iy1 *y2 -y3..... ym)。
[0013] 作为优选的技术方案,步骤2)中信息增益率Gains (Xi)的计算公式如下:
【主权项】
1. 一种基于糖尿病系统大数据的糖尿病概率计算方法,其特征在于,包括以下步骤: 1) 构建糖尿病决策树模型,提取70 %的糖尿病系统大数据作为所述决策树模型的训 练样本S,根据该训练样本S获取糖尿病特征属性并将其作为所述决策树模型的输入变量 Xi,每个输入变量Xi都有其对应的分类Xij,其中i = 1,2,···,!!,j的值由其对应的Xi分类 值确定; 2) 根据所述训练样本S的信息增益率Gains (Xi)选择所述决策树模型的最佳分枝变 量; 3) 提取剩余30%的糖尿病系统大数据并从下向上进行决策树后剪枝,得到糖尿病诊 断结果输出变量Ck,其中k = 1,2,3,(^、(:2、(:3分别对应为可能、否、是糖尿病诊断结果的决 策树输出变量; 4) 构建糖尿病朴素贝叶斯模型,从糖尿病系统大数据中提取包含上述决策树模型筛选 后的特征属性数据并重新构成训练样本D,提取上述决策树模型中所有输出变量为C1的节 点,自上向下获取每个节点所经过的特征属性分类Xm并定义第r个节点所拥有的特征属 性集合Y1?为:Y 1= {ypyy 其中m是对应节点所拥有的特征属性个数,再利用贝叶 斯公式得,第r个节点上输出变量为C1的糖尿病可能性概率P(C i Iy1 · y2 · y3.....ym)。
2. 根据权利要求1所述的基于糖尿病系统大数据的糖尿病概率计算方法,其特征在 于,步骤2)中信息增益率Gains (Xi)的计算公式如下:
Gain(Xi) = Info(S)-Info(Xi), (i = 1,2,…,η) Gains(Xi) =Gain(Xi)Zlnfo(Xi), (i = 1,2,…,η) 其中,|s|为训练样本s的样本总数; freq(ck,s)为训练样本s中属于Ck类糖尿病诊断结果的样本数量; freq(Ck,Xij)为训练样本S中包含输入变量\分类值为X ij的属于Ck类糖尿病诊断结 果的样本数量; Ixi I为训练样本S中包含输入变量Xi的样本数量; Xij I为训练样本s中包含输入变量\分类值为X U的样本数量; Info(S)为训练样本S的信息熵;Info (Xi)为糖尿病特征属性Xi在训练样本S中的条 件熵;Info(Xip为糖尿病特征属性分类Xu在训练样本S中的条件熵;Gain (Xi)为糖尿病特 征属性Xi的信息增益。
3. 根据权利要求1所述的基于糖尿病系统大数据的糖尿病概率计算方法,其特征在 于,步骤3)中决策树后剪枝的具体方法如下: 采用置信区间法,给定置信水平I-α,假设第r个节点上的\个诊断预测中有B ^个是 错误的,则错误率为By\,且通过正态分布表得到第r个节点上的糖尿病诊断结果的误差 μ 1?满足:
令Er=Br/Ar,的置信区间为:
假设父节点上的诊断结果的误差为μ,母个于节点占该分支样本量的比例为Θ,,对父 节点拥有的所有子节点的诊断结果的误差进行加权计算:
当所有的μ,都取最小值时,如果V >叫则将该父节点的所有子节点都修剪去除。
4. 根据权利要求1所述的基于糖尿病系统大数据的糖尿病概率计算方法,其特征在 于,步骤4)中第r个节点上输出变量为C1的糖尿病可能性概率P(C i Iy1 · y2 · y3.....又^勺 计 |?Λν 才 f/mc .
P(Ck) = freq(Ck,D)/|D|,(k = 1,2,3)
其中|D I为训练训练样本D的样本总数; freq(Ck,D)为训练样本D中属于Ck类糖尿病诊断结果的样本数量; freq(Ck,ym)为训练样本D中包含输入变量7111的属于C k类糖尿病诊断结果的样本数 量; P(Ck)为训练样本D中糖尿病诊断结果为Ck的概率;P (ym I Ck)为训练样本D中糖尿病 诊断结果为(^且包含特征属性y 概率。
5. 根据权利要求1至4任一项所述的基于糖尿病系统大数据的糖尿病概率计算方法, 其特征在于,所述决策树模型选自C5. O决策树模型。
【专利摘要】本发明公开了一种基于糖尿病系统大数据的糖尿病概率计算方法,包括以下步骤:1)构建糖尿病决策树模型;2)根据训练样本S的信息增益率Gains(Xi)选择所述决策树模型的最佳分枝变量;3)从下向上进行决策树后剪枝;4)构建糖尿病朴素贝叶斯模型,并利用贝叶斯公式得,第r个节点上输出变量为C1的糖尿病可能性概率P(C1|y1·y2·y3·…·ym);该方法设计了一种决策树与朴素贝叶斯模型相结合的两层模型方法,通过提取大数据中糖尿病的特征属性,从来而预测糖尿病发生与否,并进一步计算其发生的概率,预防和预测相结合,且更加全面精确。
【IPC分类】G06F19-00
【公开号】CN104636631
【申请号】CN201510103017
【发明人】董建成, 顾春燕
【申请人】江苏中康软件有限责任公司
【公开日】2015年5月20日
【申请日】2015年3月9日