一种基于GIS的慢性病时空演化特征分析及环境健康风险监测系统及方法

文档序号:25097695发布日期:2021-05-18 22:13阅读:154来源:国知局
一种基于GIS的慢性病时空演化特征分析及环境健康风险监测系统及方法
一种基于gis的慢性病时空演化特征分析及环境健康风险监测系统及方法
技术领域
1.本发明属于疾病与地理学交叉的技术领域,具体涉及一种基于gis的慢性病时空演化特征分析及环境健康风险监测系统及方法。


背景技术:

2.慢性病全称是慢性非传染性疾病,不是特指某种疾病,而是对一类起病隐匿,病程长且病情迁延不愈,缺乏确切的传染性生物病因证据,病因复杂,且有些尚未完全被确认的疾病的概括性总称。常见的慢性病主要有心脑血管疾病、癌症、糖尿病、慢性呼吸系统疾病等。慢性病的危害主要是造成脑、心、肾等重要脏器的损害,易造成伤残,影响劳动能力和生活质量,并且医疗费用极其昂贵。同时由于病程长,治愈率低,复发率高,预后差,致残率高等原因,造成了沉重的家庭和社会负担。
3.gis(geographic information system,地理信息系统)是基于计算机的决策支持系统,它有相应的硬件、软件和数据组成,是用于采集、存储、处理分析和显示地理空间数据的计算机系统,它区别于一般的信息系统的关键在于其强大的处理和分析空间数据的能力,近年来已取得了飞速的发展和应用。在公共卫生领域gis发挥着巨大的作用,如分析疾病的空间、时间和时空的演化特征、潜在高危人群分布、危险因素分析、资源分配评估、疾病监控规划、疾病监测预警等。世界卫生组织调查显示,慢性病的发病原因60%取决于个人的生活方式,同时还与遗传、医疗条件、社会条件和气候等因素有关,利用gis的空间分析和可视化功能进行交互显示和分析研究慢性病和地理、环境和社会经济环境之间的相互关系,并进行空间可视化分析直观的反映出慢病在地理空间上的演化情况。
4.慢性病的预报预测是根据慢性病的发生、发展规律及有关因素,利用各种模型或算法对慢性病的发生、发展做出预报预测。它是慢性病预防控制中的一项重要工作,对提高慢性病防控的针对性、预见性和主动性,以及制定卫生决策都具有十分重要的意义。因此研究大数据背景下基于gis的慢性病预测预报技术,应用各种空间分析方法,揭示慢性病同基础地理环境、气象、社会经济之间的关系,并把大量的数据以图形图像的方式直观丰富的显示在地理空间中,探究慢性病空间演化特征,同时利用“大数据+慢性病管理”,不仅可以对慢性病进行预警,还能为患者提供灵活多样的慢性病信息服务,突破传统的分析管理方法,有利于破解当前慢性病防治的困境,为公共卫生管理部门制定公共卫生政策加强慢性病预防和控制工作提供决策依据具有重要的现实意义。


技术实现要素:

5.针对上述问题,本发明的目的是将医疗大数据与gis技术结合起来,提供一种简单有效的慢性病时空演化特征分析及环境健康风险监测的系统及方法。
6.本发明的目的是这样实现的:一种基于gis的慢性病时空演化特征分析及环境健康风险监测系统及方法,包括以下模块:慢性病病例数据收集与处理模块、空间集聚性识别
模块、时空演化格局识别模块、时空异质性分析推理模块、环境变量确定及变量域模块、环境因素影响分析和主导因素选取模块、疾病风险区预测模块以及资源调配和防控预警模块。
7.慢性病病例数据收集与处理模块:从县级以上医院的his系统中采集慢性病病例(心脑血管、癌症等)的脱敏数据。对采集的数据进行处理,所述数据处理包括数据筛选、数据清洗、数据分组和地理编码,所述数据处理得到慢性病的相关个人数据,所述数据包括病例的性别、年龄、就诊医院、详细住址、住址的经纬度坐标和确诊时间。
8.空间集聚性识别模块:采用空间自相关分析方法,揭示研究区域范围内观测值的空间分布特性,通过全局空间自相关分析识别慢性病的整体空间分布状态及其显著性,通过局部空间自相关分析识别慢性病的局部空间聚集性或者分散性;若慢性病具有明显的空间分异性,得到疾病的高及低风险聚集区,然后送至时空异质性分析推理模块。
9.时空演化格局识别模块:采用标准差椭圆定量解释各地区慢性病时空分布的中心性、方向性和离散性,得到慢性病发病重心的迁移轨迹,然后送至时空异质性分析推理模块。
10.时空异质性分析推理模块:根据空间集聚性识别模块获取高及低风险聚集区和时空演化格局识别模块获取的发病重心迁移轨迹,建立时空推理功能,判别疾病在时间、空间上的分布模式,然后送至环境变量确定及变量域模块,作为变量选取的参考之一。
11.变量确定及变量域模块:根据病理学知识初步筛选潜在致病因素,参考所述疾病和所述潜在致病因素时空分布模式的异同,将识别的影响因素作为解释变量,将发病率数据作为目标变量;所述疾病的影响因素分为遗传因素、环境因素和生活方式,所述遗传因素包括基因、家族性遗传疾病和以往病史,所述环境因素包括自然环境因素和社会经济因素,所述自然环境因素包括气象条件、空气质量状况和自然地理要素,所述社会经济因素包括个人经济条件、职业环境和区域医疗水平,所述生活方式包括饮食行为和运动行为;将所述环境因素的代理变量送至环境因素分析和主导因素选取模块。
12.环境因素分析和主导因素选取模块:采用地理探测器量化各个影响因子及其两两交互作用对慢性病发病率的解释力,将强解释力的影响因子和影响因子组合作为主导因素,将所述主导因素送至疾病风险区预测模块。
13.疾病风险区预测模块:将主导因素作为贝叶斯时空交互模型的协变量,计算疾病风险概率预测值;在时空贝叶斯网络建立的基础上,通过贝叶斯网络的后验概率推导得到疾病风险概率预测值,将得到疾病风险概率预测值送至资源调配和防控预警模块。
14.资源调配和防控预警模块:根据疾病风险区预测模块得到疾病风险概率预测值,获取研究区域发病风险等级;根据不同区域风险等级合理调配医疗资源,制定合理的疾病防控策略。
15.一种基于gis的慢性病时空演化特征分析及环境健康风险监测系统的方法,其特征在于:包括以下步骤:(1)采集数据:从县级以上医院的his系统中采集慢性病病例(心脑血管、癌症等)的脱敏数据;(2)处理数据:对步骤(1)中采集到的病例数据进行处理,所述数据处理包括数据筛选、数据清洗、数据分组和地理编码,所述数据筛选得到慢性病的可分析信息,所述信息
包括病例的性别、年龄、就诊医院、地址码、详细住址和确诊时间;所述数据清洗对病例数据进行重新审查和校验,包括缺失值处理、冗余值处理、异常值处理和归一化处理;所述数据分组基于microsoft office access关系数据库管理系统对地址码进行区县级行政单位匹配;所述地理编码将国内两种主流地图平台的多源在线地理编码与地名检索服务相结合,将疾病文本地址信息按精度筛选、转化为标准空间地名地址;最终实现带有重要属性信息的病例点数据在空间上的可视化;(3)识别慢性病空间集聚性:数据空间可视化之后,统计所分析空间尺度下不同空间单元的病例点数量,计算慢性病发病率,探测研究区域的空间聚集性;对已获取到的发病率数据,采用geoda计算局域空间自相关其代表局部空间自相关指数,可以用来判定局部空间相关性;(4)识别慢性病时空演变特征:采用标准差椭圆工具,通过其中心、长短轴和方位角等参数定量解释地理要素的重心迁移趋势、离散和方向趋势等空间特征;(5)构建慢性病时空异质性网络结构:根据步骤(3)、(4)中得到的慢性病冷热点分布和发病重心迁移轨迹等信息,建立初步的慢性病时空异质性分析网络,获取慢性病当前的空间格局;(6)潜在危险因素选取:根据疾病病理学知识和相关的研究成果,初步筛选所研究慢性病的潜在危险因素及其代理变量,构建慢性病发病机理网络及变量库;将预选的环境变量划分为自然环境因素和社会环境因素两大类。所述自然环境因素包括空气质量状况、气象条件和植被条件;所述社会环境变量包括职业环境和医疗条件。所述空气质量状况指空气污染物浓度,包括pm
2.5
、o3和 no2;所述气象条件包括年均气温、年均风速和年均降水量;所述植被条件以归一化差异植被指数(ndvi)表示;所述职业环境指某地区从事容易诱发肺癌职业的比例,高危职业包括采矿业、制造业和建筑业;所述医疗条件通过个人经济条件和地区医疗水平来衡量,包括人均gdp和医护人员占总人口的比重;(7)环境因素影响分析和主导因素选取:采用地理探测器和贝叶斯时空交互模型协变量分析探测单因子、双因子交互作用和多因子协同作用对慢性病发病的影响,从中筛选出影响显著的主导因素;(8)疾病未来风险区评级:根据步骤(7)中筛选出的主导因素构建慢性病风险预测模型,对研究区域进行风险评级;(9)监测预警:利用步骤(5)中得到的慢性病当前空间格局和步骤(8)中得到的未来各区域疾病发病风险等级,根据环境因素与慢性病发病间的关联,进行疾病预警的应用。
16.本发明的有益效果:本发明将传统的慢性病管理方法与gis相结合,能够识别出慢性病的空间异质性特征,制定具有区域针对性的防控措施;另一方面,慢性病受到多种环境要素的影响,而将地理探测器与贝叶斯时空交互模型结合不仅能够分析单因子的影响,同时能够探测出双因子交互作用和多因子协同作用对慢性病发病的影响方式。本发明可以用到与环境健康紧密相关的慢性病监测和预警中去。
附图说明
17.图1为本发明的组成框架;图2为本发明慢性病病例数据收集与处理模块实现流程图;
图3为本发明地理编码流程图;图4为本发明变量确定及变量域模块流程图;图5为本发明环境因素影响分析和主导因素选取模块流程图;图6展示了2016

2018年河南省肺癌病例点及其就诊医院的空间分布;图7展示了2016

2018年河南省肺癌发病率冷热点分布;图8展示了2016

2018年河南省肺癌时空演化特征;图9展示了河南省发病不同等级发病风险区的分布情况。
具体实施方式
18.如图1所示,一种基于gis的慢性病时空演化特征分析及健康风险监测系统,包括慢性病病例数据收集与处理模块、空间集聚性识别模块、时空演化格局识别模块、时空异质性分析推理模块、环境变量确定及变量域模块、环境因素影响分析和主导因素选取模块、疾病风险区预测模块以及资源调配和防控预警模块。
19.如图2所示,慢性病病例数据收集与处理模块具体实现过程如下:(1)从县级以上医院的his系统中采集慢性病病例的脱敏数据;(2)数据处理,对采集的病例数据进行处理,所述数据处理包括数据筛选、数据清洗、数据分组和地理编码;所述数据筛选得到慢性病的可分析信息,所述信息包括病例的性别、年龄、就诊医院、地址码、详细住址和确诊时间;所述数据清洗对病例数据进行重新审查和校验,包括缺失值处理、冗余值处理、异常值处理和归一化处理;所述数据分组基于microsoft officeaccess关系数据库管理系统对地址码进行区县级行政单位匹配;所述地理编码将国内两种主流地图平台的多源在线地理编码与地名检索服务相结合,将疾病文本地址信息按精度筛选、转化为标准空间地名地址;(3)所述地理编码流程如图3所示。所述地理编码流程包括基于百度地图app 的地理编码、基于高德地图app的地理编码和坐标整合。所述基于百度地图 app的地理编码,首先将清洗后的数据进行数据分组,创建各区县地址文档;然后从百度地图app申请密钥,基于python编写地址爬虫程序,获取各地址对应的百度经纬度坐标;随后使用百度坐标转地球坐标插件进行坐标纠偏;最后将纠偏后的坐标导入到arcgis中,通过区县矢量图边界提取边界范围内的准确坐标点bn和边界范围外的需进一步处理的错误坐标点bw。所述基于高德地图app的地理编码,首先将边界范围外的错误坐标点bw地址进一步处理,创建新的地址文档;然后从高德地图app申请密钥,基于python编写地址爬虫程序,获取各地址对应的高德经纬度坐标;随后使用火星坐标转地球坐标插件进行坐标纠偏;接着将纠偏后的坐标导入到arcgis中,通过区县矢量图边界提取边界范围内的准确坐标点gn和边界范围外的需进一步处理的错误坐标点gw。所述坐标整合,将坐标点bn和坐标点gn进行合并,导出地理编码结果bg。
20.本发明的空间集聚性识别模块具体实现过程如下:(1)采用空间统计软件(http://spatial.uchicago.edu/geoda)判别空间单元观测值是否与其相邻单元的观测值存在相关性,用以识别空间单元观测值的聚集程度。通过这种方法可以揭示区域范围内观测值的空间分布特性。根据研究对象的不同,该方法可以分为全局空间自相关分析和局部空间自相关分析,分别通过全局moran

s i统计量和局部
探测。全局moran

s i统计量能够描述慢性病的整体空间分布状态及其显著性:其中n为选定空间尺度上的单元数量,x
i
或x
j
为某空间尺度单元i或j的慢性病发病率,为研究区域所有单元发病率均值,w为空间权重矩阵。
21.(2)局部可以探测肺癌的局部空间聚集性或者分散性:其中s为发病率在整体区域上的标准差。
22.本发明的时空演化格局识别模块具体实现过程如下:采用arcgis10.3中的标准差椭圆(standard deviational ellipse,sde)工具,通过其中心、长短轴和方位角等参数定量解释地理要素的重心迁移趋势、离散和方向趋势等空间特征。其中标准差椭圆中心的计算公式为:其中分别为慢性病发病重心的经纬度坐标;n为空间单元总数;x
i
,y
i
分别为空间单元i的中心经纬度坐标;w
i
为空间单元i的慢性病发病率。
23.本发明的时空异质性分析推理模块具体实现过程如下:(1)统计各空间面元内的病例点数量,结合相应年限的人口数据,计算各空间单元的发病率。所述发病率的计算公式为:发病率=(某时间段某空间单元内慢性病发病人数/该时段该空间单元内总人口数)
×
10万对病例数据中的零值进行插补。同时,为了消除异方差的影响,将发病率数据取对数处理。
25.(2)加入整体空间分布状态及空间聚集性结果到模块之中,建立空间聚集及相关性推理:moran

s i和相应的显著性检验结果揭示了慢性病整体空间分布状态及其显著性,判别是否具有明显的空间异质性;在确定慢性病具有明显空间集聚性的基础上,基于热点探测识别慢性病发病的冷热点区域。
26.(3)加入标准差椭圆矢量图及其中心、长短轴和方位角等参数到模块之中,建立时空演化特征推理:标准差椭圆的中心点位置揭示了慢性病发病重心,以该重心向四周扩散,一定距离阈值内的区域为发病热点区域,分析结果能够与热点探测分析结果进行对比。标准差椭圆长短轴揭示了慢性病空间分布的方向性,结合不同时段长轴变化的方位角信息,能够识别慢性病的时空演化趋势。
27.本发明的环境变量确定及变量域模块具体实现过程如下:根据疾病病理学知识和相关的研究成果,初步筛选所研究慢性病的潜在危险因素及其代理变量,构建慢性病发病机理网络及变量库。如图4所示,本发明以肺癌为例,详细说明环境变量确定及发病机理网络结构的构建方法。
28.将预选的环境变量划分为自然环境因素和社会环境因素两大类。所述自然环境因素包括空气质量状况、气象条件和植被条件;所述社会环境变量包括职业环境和医疗条件。所述空气质量状况指空气污染物浓度,包括pm
2.5
、o3和no2;所述气象条件包括年均气温、年均风速和年均降水量;所述植被条件以归一化差异植被指数(ndvi)表示;所述职业环境指某地区从事容易诱发肺癌职业的比例,高危职业包括采矿业、制造业和建筑业;所述医疗条件通过个人经济条件和地区医疗水平来衡量,包括人均gdp和医护人员占总人口的比重。
29.如图5所示,本发明的环境因素影响分析和主导因素选取模块具体实现过程如下:
30.(1)采用地理探测器(http://www.geodetector.org/)从多种影响因子中筛选出具有显著影响的因子并探究每两种显著影响因子的交互作用对慢性病发病的影响水平。地理探测器包括四个探测器:分异及因子探测、交互作用探测、风险区探测和生态探测,本发明使用的是前两个探测器。分异及因子探测用于探测慢性病的空间分异性,以及探测某影响因子x多大程度上解释了慢性病y的空间分异,使用q值来度量,其表达式为:式中,h=1,...,l为变量y或因子x的分层,即分类或分区;n
h
和n分别为层h和全区的单元数;和σ2分别是层h和全区的y值的方差。使用q值来度量自变量对因变量的解释力,q∈[0,1],q值越大说明自变量对因变量的解释力越强。
[0031]
交互作用探测可以用来评估两种不同影响因子之间的交互作用对于慢性病的解释力,如x1和x2。评估的方法是首先分别计算x1和x2对慢性病的q值:q(x1) 和q(x2),并且计算它们交互时的q值:q(x1∩x2),并对q(x1)、q(x2)和q(x1∩x2)进行比较。
[0032]
(2)主导因素为单因子影响显著或对其他因子有明显增强影响力作用的因子,将所筛选的主导因素作为协变量,导入贝叶斯时空交互模型之中。所述贝叶斯时空交互模型的协变量系数对地理探测器结果进行验证,并对变量影响的类型(正相关/负相关)进行补充。
[0033]
本发明的疾病风险区预测模块具体实现过程如下:
[0034]
贝叶斯时空模型(bayesian spatio

temporal interaction model,bstim) 使用多种随机效应项来分析观测到的时空变化,解决时间和空间上可能出现的方差非齐性问题。此外,由于这种方法能够充分利用样本信息和先验信息来估计时空参数的后验分布,使得置信度更高,结果更稳健。
[0035]
考虑到慢性病发病数据的零散性、随机性且发病频次为非负整数的特点,本发明研究假定i个单元第j年慢性病发病数服从poisson分布,即y
ij
~poisson(μ
ij
)而poisson分布的参数μ
ij
可以表示为:μ
ij
=e
ij
θ
ij
;式中,e
ij
表示期望发病的人数,按照性别比例进行标准化,表示的是按第j年全部区域发病总人数中男女各自的发病率计算出的各区域的期望发病人数。θ
ij
表示区域i在第j年的实际发病人数与期望发病人数之比,即慢性病发病的相对风险。所述相对风险能够评价不同研究单元的发病风险。
[0036]
bstim模型的数学形式如下:
log(θ
ij
)=α0+α1*time
j
+u
i
+v
i
+g
i
+psi
ij

k
*x
ijk
式中,α0是截距。v
i
表示不相关空间异质效应,即由非空间因素引起的随机效应。u
i
表示相关空间异质效应,即由空间因素引起的随机效应。g
i
表示自回归效应。time
j
表示第j年的时间效应,α1表示时间效应的系数。psi
ij
表示时空交互效应。x
ijk
为影响因子k在第i个单元第j年的取值,β
k
为影响因子k对应的回归系数。
[0037]
本发明的资源调配和防控预警模块具体实现过程如下:(1)所述时空异质性分析推理模块获取研究区域发病率空间分布格局、冷热点分布状况和热点区域演变趋势,据此评估当前各区域慢性病发病局势;(2)所述疾病风险区预测模块预估各区域未来发病风险的空间分布状况,据此将各区域按发病风险程度分区,所述分区按风险程度从低到高分别为轻风险区、低风险区、中风险区、高风险区和重风险区;(3)所述环境因素影响分析和主导因素选取模块进一步探究慢性病发病机理,结合各区慢性病发病情况、致病机理和地区特点,制定区域性、专门性的公共安全策略,实现慢性病的有效防控。
[0038]
以河南省2016

2018年肺癌发病数据为例,对本发明详细说明:(1)慢性病病例数据收集与处理模块:肺癌病例数据收集自县级以上医院肺癌确诊病历的脱敏数据,共计65000例。如图6所示,所述病例数据经数据筛选、数据清洗、数据分组和地理编码后,实现地理空间上的可视化显示;(2)空间集聚性识别模块:将空间单元设为区县级行政单元,基于arcgis软件统计各区县内肺癌发病人数,结合当地人口数据计算各区县肺癌发病率。采用空间统计软件(http://spatial.uchicago.edu/geoda)进行全局moran

s i统计量计算和局部探测,用以描述肺癌的整体空间分布状态及冷热点分布情况,肺癌冷热点分布如图7所示;(3)时空演化格局识别模块:如图8所示,采用arcgis10.3中的标准差椭圆工具,通过其中心、长短轴和方位角等参数定量解释肺癌发病率的重心迁移趋势、离散和方向趋势等空间特征;(4)时空异质性分析推理模块:加入空间聚集性结果以及标准差椭圆的中心、长短轴和方位角等参数到模块之中,分析肺癌的空间分布格局和时空演化特征。结果显示,肺癌发病的热点区域在豫东地区聚集,冷点区域在豫西地区聚集;(5)变量确定及变量域模块:如图4所示,根据疾病病理学知识和相关的研究成果,初步筛选肺癌的潜在危险因素及其代理变量,构建肺癌发病机理网络及变量库。将预选的环境变量划分为自然环境因素和社会环境因素两大类。所述自然环境因素包括空气质量状况、气象条件和植被条件;所述社会环境变量包括职业环境和医疗条件。所述空气质量状况指空气污染物浓度,包括pm
2.5
、 o3和no2;所述气象条件包括年均气温、年均风速和年均降水量;所述植被条件以归一化差异植被指数(ndvi)表示;所述职业环境指某地区从事容易诱发肺癌职业的比例,高危职业包括采矿业、制造业和建筑业;所述医疗条件通过个人经济条件和地区医疗水平来衡量,包括人均gdp和医护人员占总人口的比重;(6)环境因素影响分析和主导因素选取模块:采用地理探测器(http:// www.geodetector.org/)从多种影响因子中筛选出具有显著影响的因子并探究每两种显著
影响因子的交互作用对肺癌发病的影响水平。其中,pm
2.5
浓度、o3浓度、年均风速、采矿业从业人员占比、人均gdp具有更高的决定力,人均 gdp和医护人员占比则对多种要素的决定力均具有明显的非线性增强的作用; (7)疾病风险区预测模块:将(6)中所筛选的pm
2.5
浓度、o3浓度、年均风速、采矿业从业人员占比、人均gdp和医护人员占比导入贝叶斯时空交互模型之中,得到肺癌发病的相对风险,所述相对风险能够评价不同研究单元的发病风险。如图9所示,基于疾病风险概率预测值将研究区划分为轻风险区、低风险区、中风险区、高风险区和重风险区;(8)资源调配和防控预警模块:根据(4)、(6)所得到的结果,为河南省制定更具区域性、针对性的肺癌防控策略,将周口市作为下一步的重点防控区域,并更注重加大河南省在环境治理和公共安全方面的资源投入力度。
[0039]
本发明提出的一种基于gis的慢性病时空演化特征分析及环境健康风险监测系统及方法,将传统慢性病管理方法与gis结合,在识别慢性病的时空分布格局和环境因素健康风险影响的基础上,结合区域本地的气候、空气质量和医疗水平等,以慢性病大数据为基础,通过本地居民慢性病环境因子相关性分析,来生成可执行和区域适用性更强的慢病管理方案以提高疾病控制率,为居民提供系统、高效的健康管理服务。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1