一种环境变化对疾病发病影响的分析预测模型的制作方法
【技术领域】
[0001] 本发明涉及一种基于非参数泊松回归模型的环境变化对疾病发病率的影响程度 的定量分析模型,并在此基础上构建基于支持向量回归机的环境变化对门诊量影响的预测 方法。
【背景技术】
[0002] 人类健康与所处的外部环境因素息息相关,其中气象条件变化与环境污染对人类 疾病的发生尤其相关。气象变化和环境污染对健康的影响已经成为普遍关注的焦点问题。 目前,人们对气象变化和环境污染对疾病发病率的影响方面大多还处于感性的认识。都认 为有影响,但对哪些疾病有影响以及影响程度如何?缺少定性和定量的分析。
【发明内容】
[0003] 本发明的目的是提供一种环境变化对疾病发病率的影响程度的定量分析方法。
[0004] 为了达到上述目的,本发明的技术方案是提供了一种环境变化对疾病发病影响的 分析预测模型,其特征在于,包括:
[0005] 输入输出数据模块,该输入输出数据模块的输入数据为:整理好的气象和环境污 染因子的时序数据;该输入输出数据模块的输出数据为:各科室的门诊预测量;
[0006] 数据预处理模块,用于:
[0007] 对气象和环境污染因子决策矩阵
【主权项】
1. 一种环境变化对疾病发病影响的分析预测模型,其特征在于,包括: 输入输出数据模块,该输入输出数据模块的输入数据为:整理好的气象和环境污染因 子的时序数据;该输入输出数据模块的输出数据为:各科室的门诊预测量; 数据预处理模块,用于: 对气象和环境污染因子决策矩f
i于归一化处理,其中,Xij表 示第i天的第j项气象和环境污染因子的数据指标;再计算归一化后的决策矩阵X的相关 系数矩卩
其中ru表示第i天的第j项气象和环境污染因子数据指 标的相关系数,且ru=I*#;同时计算气象和环境污染因子与各科室门诊量的相关系数; 非参数泊松回归模型模块,用于: 1) 构建非参数泊松回归模型,采用三次样条平滑函数拟合非线性自变量,并引入年份 和周日亚元变量,消除自变量间自相关性和长期季节趋势的影响,为了得到气象和环境污 染因子对门诊量的定量研宄结果,将气象因子和环境污染因子作为变量引入模型,分别观 察其对门诊量的影响: log[E(Yi)] = a+ns [Xj]+YEAR+DOW+S (meteoro log y, df)+s (environment, df) 式中,t为第i个观察日当天的门诊量;E(YJ为第i个观察日门诊量的期望值;a为 截距;\为第i个观察日气象环境污染因子的分指数,DOW为周日亚元变量;sOneteorolog y,df)为气象因子的三次样条平滑函数;s(environment,df)为环境污染因子的三次样条 平滑函数; 2) 脆弱性分析:分析当气象和环境污染因子变化某个单位时,对门诊量的影响程 度,根据非参数泊松回归模型计算出各气象和环境污染因子的回归系数0,计算当各 气象和环境污染因子变化四分位间距IQR时,门诊量自然对数的相对改变量,公式: [exp(f3 \^1〇-1]\100%,并在此基础上计算平均百分比改变的95%的置信区间; 3)敏感性分析:分析当气象因子和环境因子变化时,将在多长时间内对门诊量造成影 响,采用滞后效应进行研宄,选择分析滞后期lag为0~7天的气象和环境污染因子效应。 最后,根据非参数泊松回归模型计算出回归系数0,由0计算出不同滞后天数的RR值,根 据RR值确定最佳滞后期; 降维模块,用于:求取相关系数矩阵R所对应的J个特征根以及特征向量,每个特征根 对应一个主成分,并选取累积方差贡献度大于等于指定阀值的主成分,则从J个主成分中 筛选出P个主成分及特征向量;计算各个主成分因子在各个变量上的成分得分矩阵,得到P 个主成分在每周的得分; 数据分区模块,采用交叉验证的方法将输入向量矩阵及输出变量分为训练集和测试 集,输入向量矩阵为P+2维,由降维模块中得到的主成分得分与年份亚变量和节假日变量 组合构成,输出变量为下周的科室就诊人数平均值; 构建支持向量回归机模块,包括如下步骤: 第一步、模型参数选择,用于构建支持向量回归机的输入和输出,并且选择支持向量回 归机的特征参数,其中,特征参数包括核函数、初始的惩罚因子C和核函数参数s的试凑范 围与步长,以及初始的精度参数e,通过核函数将数据映射到高维的向量空间中,在约束条 件,其中,XiS1维空间的输入向量,y 1维空间的输出向量,W为特征空间连接到输出空 间的权值参数,巾(x)为x在特征空间的像,b为偏置或者负阀值: < w,伞(xD > +b-y# | 广+ e,i = 1,? ? ?,1yj- <w, <i> (xj) >-b^Ci+e.i=L....l Ii,Ii*彡 〇,i= 1,? ? ?,1 下求解目标函数,其中,C为选定的正参数:
该问题的对偶形式为:
其中约束条件为:
〇 彡 a " a,彡入 i = 1,2, ? ? ? 1 从而求解出参数a jP a 第二步、训练模型,调用训练函数,输入训练集样本,计算出支持向量以及求解对应的 参数,得到支持向量回归机:
根据支持向量回归机计算各科室就诊人数的预测值,计算实际输出与期望输出之间的MAE以及模型的拟合优度R2作为对模型拟合能力评价指标,判断回归函数fw是否满足性 能要求,若回归函数fw不满足性能要求,则需要调整支持向量回归机中的核函数和特征参 数重新训练模型,并保存最终结果; 第三步、根据回归预测分析最佳的参数得到的支持向量回归机计算各科室就诊人数的 预测值。
2.如权利要求1所述的一种环境变化对疾病发病影响的分析预测模型,其特征在于, 还包括:模型预测能力评估模块,其实施过程包括: 第一步、用支持向量回归机计算医院各科室的就诊人数的预测值; 第二步、获取各科室就诊人数的实际值,各科室就诊人数的预测值和实际值是同一时 间段的就诊人数; 第三步、计算预测值与实际值之间的差异,并根据误差图对模型的预测效果进行评估, 若模型的预测能力较差,则需要重新选择模型参数、重新训练模型,从而构建基于支持向量 回归机的气象环境污染因子的就诊人数预测模型。
3. 如权利要求1所述的一种环境变化对疾病发病影响的分析预测模型,其特征在于, 在数据预处理模块中,对决策矩阵X中第i天的第j项气象和环境污染因子数据指标Xij进 行归一化处理后得到Zij
式中,x'及〇分别为Xij的期望和方差。
4. 如权利要求1所述的一种环境变化对疾病发病影响的分析预测模型,其特 征在于,在构建支持向量回归机模块,所述核函数为Sigmoid核函数,其表达式为
中,q为倾斜系数,c2为常数参数;或所述核函数为径向基 核函数,其表达式戈
式中,y为l/k(其中k为类别数);或所述核 函数为多项式核函数,其表达式〉
式中,y为l/k(其中k为类别 数),a为常量参数,d为最高次项次数。
5. 如权利要求1所述的一种环境变化对疾病发病影响的分析预测模型,其特征在于, 在所述构建支持向量回归机模块中,引入拉格朗日函数得到目标函数的对偶形式,如下所 示:
其中a"a,,7^多〇,1 = 1,...,1函数L的极值应满足条件:
得到下面的式子:
C-aj-aj*-yj= 〇 将上面3个公式带入到拉格朗日函数中即可得到函数的对偶形式。
6. 如权利要求1所述的一种环境变化对疾病发病影响的分析预测模型,其特征在于, 在构建支持向量回归机模块的第二步的训练模型中,模型拟合能力评价指标:实际输出与 期望输出之间的均方误差MAE以及拟合优度R2由下面的公式给出:
式中,负隶示第i周的日平均就诊人数的预测值,yi表示第i周的日平均就诊人数的 真实值,n,0 <n<I,表示周数,其中MAE越小和R2越接近于1,表示所建立的支持向量回 归机越具有良好的泛化能力。
【专利摘要】本发明通过对门诊量数据与气象变化和环境污染数据的关联情况进行分析,构建基于非参数泊松回归模型的环境变化对疾病发病率的影响程度的定量分析模型,并在此基础上构建基于支持向量回归机的环境变化对门诊量影响的预测模型,对医院各科室的每周门诊量进行预测。使患者能够提前规避致病的不良气象条件和环境污染因素的影响,合理的安排日常活动;医院能够针对高发疾病合理配置各个科室的医疗资源和人手;公共卫生部门能够提前做好应急准备等,对特定人群进行提前干预,从而减少疾病的发病率,提高人类生活质量。
【IPC分类】G06F19-00
【公开号】CN104809335
【申请号】CN201510170135
【发明人】杨冬艳, 马成龙, 张敬谊, 于广军, 李光亚, 陈诚
【申请人】上海卫生信息工程技术研究中心有限公司, 万达信息股份有限公司
【公开日】2015年7月29日
【申请日】2015年4月10日