一种面向大气污染健康风险评估的健康数据清洗方法
【技术领域】
[0001] 本发明涉及一种面向大气污染健康风险评估的健康数据清洗方法,方法针对来自 于同一城市的不同医疗机构的健康数据进行清洗,从不同结构且描述模糊的健康数据中提 取出极大可能为该城市常住人口的特定健康数据集,用于分析评估该城市的大气污染与健 康风险之间的关系。属于公共卫生与环境健康技术领域。
【背景技术】
[0002] 由于气象特征以及主要大气污染物存在较大的地理区域差异,某一特定城市或区 域的大气污染对健康的影响更集中体现在该区域的常住人口身上。所以针对某一特定城市 或区域的大气污染健康风险进行分析评估需要基于该城市或区域常住人口的健康数据以 及该区域的气象数据、污染物数据。一般情况下,区域常住人口会在该区域内的各医疗机构 获取医疗服务,但由于异地就医情况的普遍存在,使得同一区域内各医疗机构的诊疗健康 记录包含本区域常住人口和外地来本区域就诊人员。因此需要对诊疗健康记录中将属于该 区域常住人口的健康数据抽取出来用于下一步的分析评估。
[0003] 但由于各医疗机构的数据记录要求不同以及历史原因。就诊患者的户籍地和现住 址登记信息并不准确完整。例如有只登记街道名、乡镇名、小区名、有使用街道或小区俗名 或缩写名的,有使用同音字或形似字的。同时我国还存在大量的同名街道、乡镇、小区,例如 北京海淀区有清河街道、河北有清河县、江苏淮安有清河区。这些模糊不准确的信息为准确 区分本地常住人口和临时来本地就医的人口带来了困难。传统的采用人工辨识方法效率十 分低下。
[0004] 本发明提出了一种基于决策树学习的自动健康数据清洗方法,用于对模糊不准确 的户籍地和现住址信息进行合理推理,用于区分就诊患者为本地常住人口还是临时来本地 就医人口。可以快速有效的对来自于特定区域的各医疗机构的大量健康数据进行清洗,使 其可应用于下一步的大气污染健康风险评估,使健康风险评估应用于全国及地方尺度的实 际工作中成为可能。
【发明内容】
[0005] I. 1 目的
[0006] 为了解决应用于大气污染健康风险评估的来自于同一区域各医疗机构的患者诊 疗健康数据中患者登记的户籍地和现住址信息模糊不准确问题,提出了一种基于决策树 学习的自动健康数据清洗方法,用于区分就诊患者为本地常住人口还是临时来本地就医人 □ 〇
[0007] 1. 2技术方案
[0008] 本发明一种面向大气污染健康风险评估的健康数据清洗方法,它有五大步骤:
[0009] 步骤一:在健康数据中抽取少量样本,人工根据样本中患者登记的户籍地和现住 址信息判断患者为本地常住人口还是临时来本地就医人口。
[0010] 步骤二:规则设计,构建决策树;设计以下6条规则。
[0011] 1.在本区域的全部健康数据中搜索看是否存在包含当前模糊不完整的户籍地和 现住址信息的户籍地和现住址信息填写完整的其它记录,判断是否可以以该匹配记录的本 地常住人口还是临时来本地就医人口属性作为当前记录的决策;
[0012] 2.在本区域的行政区划层级表中搜索是否存在包含当前模糊不完整的户籍地和 现住址信息的的模式;
[0013] 3.在本省的行政区划层级表中搜索是否存在包含当前模糊不完整的户籍地和现 住址信息的的模式;
[0014] 4.在全国的行政区划层级表中搜索是否存在包含当前模糊不完整的户籍地和现 住址信息的的模式;
[0015] 5.以当前填写模糊不完整的户籍地和现住址信息的同音字执行规则1的搜索判 断;
[0016] 6.以当前填写模糊不完整的户籍地和现住址信息的同音字执行规则2的搜索判 断;
[0017] 步骤三:基于上述规则对样本数据集进行处理,并结合步骤一的人工标注结果,得 到形如下表的决策树训练数据集。
[0020] 步骤四:基于步骤三的训练数据集构造决策树。
[0021] 步骤五:对待清洗数据依次执行步骤二中的6项规则的判断,并将6条结果输入步 骤四中训练好的决策树,得到最终的判断结果。
[0022] 1. 3优点与功效
[0023] 本发明构思科学,计算简单,可操作性高,普适性强。它在面向大气污染健康风险 评估的健康数据清洗中有较好的实用价值,在公共卫生与环境健康实际工作的推广中有切 实的应用前景。
【附图说明】
[0024] 图1为本发明清洗方法的实际操作流程图。
【具体实施方式】
[0025] 见图1,本发明一种面向大气污染健康风险评估的健康数据清洗方法,它是一种基 于决策树学习的面向大气污染健康风险评估的健康数据清洗方法,它有五大步骤:
[0026] 步骤一:在健康数据中抽取少量样本,人工根据样本中患者登记的户籍地和现住 址信息判断患者为本地常住人口还是临时来本地就医人口。
[0027] 步骤二:规则设计,构建决策树;设计以下6条规则。
[0028] 1.在本区域的全部健康数据中搜索看是否存在包含当前模糊不完整的户籍地和 现住址信息的户籍地和现住址信息填写完整的其它记录,判断是否可以以该匹配记录的本 地常住人口还是临时来本地就医人口属性作为当前记录的决策;
[0029] 2.在本区域的行政区划层级表中搜索是否存在包含当前模糊不完整的户籍地和 现住址信息的的模式;
[0030] 3.在本省的行政区划层级表中搜索是否存在包含当前模糊不完整的户籍地和现 住址信息的的模式;
[0031] 4.在全国的行政区划层级表中搜索是否存在包含当前模糊不完整的户籍地和现 住址信息的的模式;
[0032] 5.以当前填写模糊不完整的户籍地和现住址信息的同音字执行规则1的搜索判 断;
[0033] 6.以当前填写模糊不完整的户籍地和现住址信息的同音字执行规则2的搜索判 断;
[0034] 步骤三:基于上述规则对样本数据集进行处理,并结合步骤一的人工标注结果,得 到形如下表的决策树训练数据集。
[0036] 步骤四:基于步骤三的训练数据集构造决策树。
[0037] 步骤五:对待清洗数据依次执行步骤二中的6项规则的判断,并将6条结果输入步 骤四中训练好的决策树,得到最终的判断结果。
【主权项】
1. 一种面向大气污染健康风险评估的健康数据清洗方法,其特征在于:它有五大步 骤: 步骤一:在健康数据中抽取少量样本,人工根据样本中患者登记的户籍地和现住址信 息判断患者为本地常住人口还是临时来本地就医人口; 步骤二:规则设计,构建决策树,设计以下6条规则: (1) .在本区域的全部健康数据中搜索看是否存在包含当前模糊不完整的户籍地和现 住址信息的户籍地和现住址信息填写完整的其它记录,判断是否以该匹配记录的本地常住 人口还是临时来本地就医人口属性作为当前记录的决策; (2) .在本区域的行政区划层级表中搜索是否存在包含当前模糊不完整的户籍地和现 住址信息的的模式; (3) .在本省的行政区划层级表中搜索是否存在包含当前模糊不完整的户籍地和现住 址信息的的模式; (4) .在全国的行政区划层级表中搜索是否存在包含当前模糊不完整的户籍地和现住 址信息的的模式; (5) .以当前填写模糊不完整的户籍地和现住址信息的同音字执行规则1的搜索判断; (6) .以当前填写模糊不完整的户籍地和现住址信息的同音字执行规则2的搜索判断; 步骤三:基于上述规则对样本数据集进行处理,并结合步骤一的人工标注结果,得到形 如下表的决策树训练数据集;步骤四:基于步骤三的训练数据集构造决策树; 步骤五:对待清洗数据依次执行步骤二中的6项规则的判断,并将6条结果输入步骤四 中训练好的决策树,得到最终的判断结果。
【专利摘要】一种面向大气污染健康风险评估的健康数据清洗方法,它有五大步骤:一、在健康数据中抽取少量样本,人工根据样本中患者登记的户籍地和现住址信息判断患者为本地常住人口还是临时来本地就医人口;二、设计6条规则,构建决策树;三、基于上述6条规则对样本数据集进行处理,并结合步骤一的人工标注结果,得到决策树训练数据集;四、基于训练数据集构造决策树;五、对待清洗数据依次执行步骤二中的6项规则的判断,并将6条结果输入步骤四中训练好的决策树,得到最终的判断结果。本发明构思科学,计算简单,普适性强。它在面向大气污染健康风险评估的健康数据清洗中有较好的实用价值,在公共卫生与环境健康实际工作的推广中有切实的应用前景。
【IPC分类】G06Q50/22
【公开号】CN105303492
【申请号】CN201510708443
【发明人】孙庆华, 李湉湉
【申请人】中国疾病预防控制中心环境与健康相关产品安全所
【公开日】2016年2月3日
【申请日】2015年10月27日