一种基于糖尿病系统大数据的糖尿病概率计算方法

文档序号：8319443阅读：711来源：国知局

一种基于糖尿病系统大数据的糖尿病概率计算方法
【技术领域】
[0001] 本发明涉及一种概率计算方法，尤其是涉及一种基于糖尿病系统大数据的糖尿病概率计算方法。
【背景技术】
[0002] 随着社会经济的发展，人口老龄化、生活方式等危险因素迅速增加，糖尿病患病率在世界范围内呈上升趋势。据世界卫生组织统计：1985年全世界有糖尿病患者3000万人，1995年为1. 35亿人，2000年为1. 77亿人，估计到2025年将达到3亿人；每年约有 400万人死于和糖尿病相关的疾病，占世界死亡人数的9%。许多糖尿病患者不能被早期识别，并且糖尿病人群正趋于低龄化，对于糖尿病的防治成为了当下重要的技术问题。
[0003] 现有的糖尿病防治技术主要分为两类：第一类是从大数据中分析出影响糖尿病发生的主要因素，从而来预防糖尿病；第二类是对糖尿病发生风险的预测。
[0004] 第一类主要利用大数据作为样本，提取影响糖尿病发生的因素，主要是与生活习惯、饮食习惯方面相关的因素，让人们可以注意这些方面，从而来预防糖尿病的发生。该类方法仅仅是提供一个预防功能，且预防的因素也不够全面，同时缺少了重要的预测功能，为糖尿病的防治带来了困难。
[0005] 第二类主要采用分类方法来预测糖尿病发生的风险，主要分为：高危、中危、低危，这样的分类方法区间广，较为模糊。并且，仅仅通过这些分类方法不能很好的筛选出糖尿病特征属性，导致预测结果误差变大。
[0006] 从上述两类现有的技术可以看出，当下的糖尿病防治技术还不够成熟，影响糖尿病的因素较为复杂，单纯的大数据分析方法以及单纯的预测方法都是存在较大缺陷的，一方面是预防不够全面，另一方面是预测不够精确。因此，设计一种预防和预测相结合即更加全面精确的技术方法对糖尿病的防治具有深远的意义。

【发明内容】

[0007] 本发明目的是：提供一种预防和预测相结合且更加全面精确的基于糖尿病系统大数据的糖尿病概率计算方法，该方法设计了一种决策树与朴素贝叶斯模型相结合的两层模型方法，通过提取大数据中糖尿病的特征属性，从而预测糖尿病发生与否，并进一步计算其发生的概率。
[0008] 本发明的技术方案是：一种基于糖尿病系统大数据的糖尿病概率计算方法，包括以下步骤：
[0009] 1)构建糖尿病决策树模型，提取70%的糖尿病系统大数据作为所述决策树模型的训练样本S，根据该训练样本S获取糖尿病特征属性并将其作为所述决策树模型的输入变量X i,每个输入变量Xi都有其对应的分类Xij，其中i = 1，2，…，n，j的值由其对应的Xi 分类值确定；
[0010] 2)根据所述训练样本S的信息增益率Gains (Xi)选择所述决策树模型的最佳分枝变量；
[0011] 3)提取剩余30%的糖尿病系统大数据并从下向上进行决策树后剪枝，得到糖尿病诊断结果输出变量C k，其中k = 1，2,3，(^、(：2、(：3分别对应为可能、否、是糖尿病诊断结果的决策树输出变量；
[0012] 4)构建糖尿病朴素贝叶斯模型，从糖尿病系统大数据中提取包含上述决策树模型筛选后的特征属性数据并重新构成训练样本D，提取上述决策树模型中所有输出变量为 C1的节点，自上向下获取每个节点所经过的特征属性分类X y并定义第!个节点所拥有的特征属性集合乙为：Y1= {y P y2，…，ym}，其中m是对应节点所拥有的特征属性个数，再利用贝叶斯公式得，第r个节点上输出变量为C1的糖尿病可能性概率P (C i Iy1 *y2 -y3..... ym)。
[0013] 作为优选的技术方案，步骤2)中信息增益率Gains (Xi)的计算公式如下：
【主权项】
1. 一种基于糖尿病系统大数据的糖尿病概率计算方法，其特征在于，包括以下步骤： 1) 构建糖尿病决策树模型，提取70 %的糖尿病系统大数据作为所述决策树模型的训练样本S，根据该训练样本S获取糖尿病特征属性并将其作为所述决策树模型的输入变量 Xi,每个输入变量Xi都有其对应的分类Xij,其中i = 1，2，···，!!，j的值由其对应的Xi分类值确定； 2) 根据所述训练样本S的信息增益率Gains (Xi)选择所述决策树模型的最佳分枝变量； 3) 提取剩余30%的糖尿病系统大数据并从下向上进行决策树后剪枝，得到糖尿病诊断结果输出变量Ck，其中k = 1，2,3，(^、(：2、(：3分别对应为可能、否、是糖尿病诊断结果的决策树输出变量； 4) 构建糖尿病朴素贝叶斯模型，从糖尿病系统大数据中提取包含上述决策树模型筛选后的特征属性数据并重新构成训练样本D，提取上述决策树模型中所有输出变量为C1的节点，自上向下获取每个节点所经过的特征属性分类Xm并定义第r个节点所拥有的特征属性集合Y1?为：Y 1= {ypyy 其中m是对应节点所拥有的特征属性个数，再利用贝叶斯公式得，第r个节点上输出变量为C1的糖尿病可能性概率P(C i Iy1 · y2 · y3.....ym)。
2. 根据权利要求1所述的基于糖尿病系统大数据的糖尿病概率计算方法，其特征在于，步骤2)中信息增益率Gains (Xi)的计算公式如下：
Gain(Xi) = Info(S)-Info(Xi), (i = 1，2，…，η) Gains(Xi) =Gain(Xi)Zlnfo(Xi), (i = 1，2，…，η) 其中，|s|为训练样本s的样本总数； freq(ck，s)为训练样本s中属于Ck类糖尿病诊断结果的样本数量； freq(Ck，Xij)为训练样本S中包含输入变量\分类值为X ij的属于Ck类糖尿病诊断结果的样本数量； Ixi I为训练样本S中包含输入变量Xi的样本数量； Xij I为训练样本s中包含输入变量\分类值为X U的样本数量； Info(S)为训练样本S的信息熵；Info (Xi)为糖尿病特征属性Xi在训练样本S中的条件熵；Info(Xip为糖尿病特征属性分类Xu在训练样本S中的条件熵；Gain (Xi)为糖尿病特征属性Xi的信息增益。
3. 根据权利要求1所述的基于糖尿病系统大数据的糖尿病概率计算方法，其特征在于，步骤3)中决策树后剪枝的具体方法如下：采用置信区间法，给定置信水平I-α，假设第r个节点上的\个诊断预测中有B ^个是错误的，则错误率为By\，且通过正态分布表得到第r个节点上的糖尿病诊断结果的误差 μ 1?满足：
令Er=Br/Ar，的置信区间为：
假设父节点上的诊断结果的误差为μ，母个于节点占该分支样本量的比例为Θ,，对父节点拥有的所有子节点的诊断结果的误差进行加权计算：
当所有的μ,都取最小值时，如果V >叫则将该父节点的所有子节点都修剪去除。
4. 根据权利要求1所述的基于糖尿病系统大数据的糖尿病概率计算方法，其特征在于，步骤4)中第r个节点上输出变量为C1的糖尿病可能性概率P(C i Iy1 · y2 · y3.....又^勺计 |?Λν 才 f/mc .
P(Ck) = freq(Ck，D)/|D|，（k = 1，2,3)
其中|D I为训练训练样本D的样本总数； freq(Ck，D)为训练样本D中属于Ck类糖尿病诊断结果的样本数量； freq(Ck，ym)为训练样本D中包含输入变量7111的属于C k类糖尿病诊断结果的样本数量； P(Ck)为训练样本D中糖尿病诊断结果为Ck的概率；P (ym I Ck)为训练样本D中糖尿病诊断结果为(^且包含特征属性y 概率。
5. 根据权利要求1至4任一项所述的基于糖尿病系统大数据的糖尿病概率计算方法，其特征在于，所述决策树模型选自C5. O决策树模型。
【专利摘要】本发明公开了一种基于糖尿病系统大数据的糖尿病概率计算方法，包括以下步骤：1)构建糖尿病决策树模型；2)根据训练样本S的信息增益率Gains(Xi)选择所述决策树模型的最佳分枝变量；3)从下向上进行决策树后剪枝；4)构建糖尿病朴素贝叶斯模型，并利用贝叶斯公式得，第r个节点上输出变量为C1的糖尿病可能性概率P(C1|y1·y2·y3·…·ym)；该方法设计了一种决策树与朴素贝叶斯模型相结合的两层模型方法，通过提取大数据中糖尿病的特征属性，从来而预测糖尿病发生与否，并进一步计算其发生的概率，预防和预测相结合，且更加全面精确。
【IPC分类】G06F19-00
【公开号】CN104636631
【申请号】CN201510103017
【发明人】董建成, 顾春燕
【申请人】江苏中康软件有限责任公司
【公开日】2015年5月20日
【申请日】2015年3月9日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：董建成;顾春燕;
技术所有人：江苏中康软件有限责任公司;
我是此专利的发明人

上一篇：高精度相位小存储量查表计算方法
上一篇：一种基于均值滤波和等梯度的热电厂蒸汽压力滤波方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。