一种心脏疾病数据队列生成方法和风险预测系统与流程

文档序号:22618093发布日期:2020-10-23 19:20阅读:212来源:国知局
一种心脏疾病数据队列生成方法和风险预测系统与流程

本发明属于医疗大数据处理技术领域,尤其涉及一种心脏疾病数据队列生成方法和风险预测系统。



背景技术:

本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。

目前保险行业中,用于判断客户健康风险的风险模型或者规则往往是基于保险行业的传统经验,例如基于年龄、性别等划分群体,制定各群体未来疾病发生率,保险公司参考行业统一的疾病发生率,进行保险定价,因而保险产品同质性高;此外,还存在逆选择风险,客户在投保告知过程中,如果隐瞒其患病状况或者家族病史等信息,对于保险公司而言,都存在承保风险。因此,需要一种能够为保险机构提供参考的可信的疾病风险预测手段。

心脏疾病如急性心肌梗死、风湿性心脏病等目前已有相关模型的构建,但是,据发明人了解,目前风湿性心脏病风险预测模型的构建主要存在以下问题:

获取的数据通常来源于体检数据和病例,尽管从这些数据中也能得到心脏疾病的数据队列,但数据队列中会存在大量噪声,例如,当患有心脏疾病的同时还患有其他疾病时,就难以判断该患者其他的指标数据是与心脏疾病有关的还是与其他疾病有关的,导致指标筛选有偏差,进而影响预测效果。

与心脏疾病直接相关的影响指标选取困难,目前指标的选取主要凭借临床经验、已有的公开文献等手段获取,具有很强的主观性。有报道指出,肺部感染、链球菌感染、风湿性关节炎和急性咽炎与风湿性心脏病发生存在关联,急性心肌梗死与血脂异常、高血压、糖尿病等慢性病危险因素相关。但仍然没有一个明确的标准来认定可以将哪些指标认定为风湿性心脏病的影响指标。并且,这些变量是人为定义的,没有证据证明这些变量与风湿性心脏病的密切关联性,这些变量还可能与其他很多疾病相关,再者,不同性别对于同一类疾病也可能存在差异,当前的研究均不能给出明确解释。



技术实现要素:

为克服上述现有技术的不足,本发明提供了一种急性心肌梗死数据队列生成方法和风险预测系统,对急性心肌梗死数据进行标准化,针对数据标准化,提出名称相同对照、名称相似对照、包含对照以及疾病编码对照的方法;根据急性心肌梗死相关疾病名称,从疾病大数据队列中匹配身份证号、性别以及地域数据,构建急性心肌梗死数据队列,有利于后续对急性心肌梗死发病概率的预测。

为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:

一种心脏疾病数据队列生成方法,包括:

获取疾病大数据队列,并进行疾病数据标准化;

接收心脏疾病大数据队列请求,基于疾病数据标准化的疾病大数据队列,抽取与心脏疾病相关的数据记录,得到初始心脏疾病大数据队列;

基于病例纳入标准对初始心脏疾病大数据队列进行过滤,得到心脏疾病大数据队列。

进一步地,所述疾病大数据队列,根据预设的与疾病有关的字段,查找数据库系统中包含这些字段的数据表;基于查找到的数据表,抽取身份证号和疾病相关的字段,生成疾病大数据队列。

进一步地,所述疾病数据标准化包括:从疾病大数据队列中筛选样本数据集,将样本数据中的疾病名称与疾病分类标准中的疾病名称进行对照,将样本数据中的疾病名称进行标准化,包括名称相同对照、名称相似对照和包含对照。

进一步地,所述名称相同对照为获取疾病名称与疾病分类标准中的疾病名称完全一致的样本数据,将原疾病名称写入标准化名称字段;

所述名称相似对照为获取疾病名称与疾病分类标准中的疾病名称相似度超过设定阈值的样本数据,将原疾病名称写入标准化名称字段;

所述包含对照为获取疾病名称与疾病分类标准中的疾病名称存在包含关系的样本数据。

进一步地,所述疾病数据标准化还包括疾病编码对照,具体为:将疾病编码与疾病分类标准中的编码进行对照,首先与疾病分类标准中的编码全部6位进行对照,其次与前4位进行对照,最后与前2位进行对照。

进一步地,抽取与心脏疾病相关的数据记录包括:根据心脏疾病相关名称,从疾病大数据队列中匹配身份证号、性别、地域数据,得到心脏疾病大数据队列。

进一步地,所述病例纳入标准包括:病例选取距今预设时间段期间有第一次急性心肌梗死诊断记录的、年龄在预设范围内的所有患者,且排除该时间段之前死亡和患有心脏疾病的患者。

进一步地,生成心脏疾病大数据队列后,还对其中的用户个人信息进行加密。

一个或多个实施例提供了一种心脏疾病风险预测系统,包括:

心脏疾病数据队列构建模块,用于基于上述方法构建心脏疾病大数据队列;

危险因素筛选模块,用于基于相关性分析筛选得到危险因素,所述危险因素包括男性危险因素和女性危险因素;

风险预测模型构建模块,分别基于筛选的男性危险因素和女性危险因素构建心脏疾病风险预测模型;

患病概率预测模块,接收发病风险预测请求,调取相关历史疾病数据队列,基于心脏疾病风险预测模型获取心脏疾病发病概率预测结果。

进一步地,急性心肌梗死男性危险因素包括血脂异常、高血压、糖尿病、外周血管疾病、肺炎、急性支气管炎、痛风、类风湿性关节炎、高尿酸血症、慢性阻塞性肺疾病和肥胖;女性危险因素包括血脂异常、高血压、糖尿病、外周血管疾病、急性支气管炎、类风湿性关节炎、高尿酸血症和慢性阻塞性肺疾病;风湿性心脏病男性危险因素包括肺部感染、链球菌感染、风湿性关节炎;女性危险因素包括肺部感染、链球菌感染、风湿性关节炎、急性咽炎。

以上一个或多个技术方案存在以下有益效果:

本发明通过引入多种类型数据库,以及纳入病例筛选标准,保证了心脏疾病数据队列的清洁,为后续危险因素筛选的客观性提供了保障,有利于心脏疾病风险预测模型的准确性。

本发明针对来源复杂的医疗大数据,基于多个层级的文本匹配方式,获取样本数据的标准化数据,依次按照名称和编码匹配的方式,完成海量的数据标准化,相较于全部医疗大数据之间与标准数据直接匹配的方式,能够得到更高的标准化率和准确率,且兼顾了标准化的效率。

本发明基于心脏疾病数据队列进行指标选取时,进行了相关分析和贝叶斯网络两级筛选,并且考虑了性别对于心脏疾病患病的影响,保证了指标的准确性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。

图1为本发明实施例1提供的急性心肌梗死数据队列生成方法流程图;

图2为本发明实施例1提供的数据标准化方法流程图。

具体实施方式

应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

实施例1

本实施例公开了一种心脏疾病数据队列生成方法,包括:

步骤1:服务器获取疾病大数据队列,并进行疾病数据标准化;

所述疾病大数据队列基于分布式数据库获取,所述分布式数据库系统包括布设在各地市的医疗信息数据库。具体地,根据预设的与疾病有关的字段,查找分布式数据库系统中包含这些字段的数据表;基于查找到的数据表,抽取身份证号和疾病相关的字段,如疾病、疾病编码、患病时间等,并记录该疾病的数据来源,例如源地市、源数据表,在数据表中的id等,生成疾病大数据队列。

本实施例中,医疗信息数据库包括分布于山东省各地市的全员人口信息数据库、公共卫生数据库、电子病历数据库、医保数据库、健康体检数据库、死因数据库等。

所述疾病数据标准化,从疾病大数据队列中筛选样本数据集,将样本数据中的疾病名称与疾病分类标准中的疾病名称进行对照,将样本数据中的疾病名称进行标准化,包括名称相同对照、名称相似对照和包含对照。

(1)名称相同对照:获取疾病名称与疾病分类标准中的疾病名称完全一致的样本数据,将原疾病名称写入标准化名称字段。

(2)名称相似对照:获取疾病名称与疾病分类标准中的疾病名称相似度超过设定阈值的样本数据,将原疾病名称写入标准化名称字段;所述相似性度量可采用余弦相似度、欧氏距离等现有文本相似度方法,在此不做限定。

(3)包含对照:获取疾病名称与疾病分类标准中的疾病名称存在包含关系的样本数据,例如“急性心肌梗死”和“亚急性心肌梗死”,将原疾病名称写入标准化名称字段。

(4)经由客户端由用户对样本数据的标准化名称进行人工审核。具体地,人工审核时可按频数将疾病名称进行排序,优先审核频数大的疾病名称。

所述疾病数据标准化还包括疾病编码对照,对于疾病大数据队列中未标准化的数据,将疾病名称与样本数据中的原疾病名称进行对照,完成部分疾病名称的标准化;

具体地,对于疾病名称与样本数据中的原疾病名称满足名称相同、名称相似度大于设定阈值或存在包含关系的数据,将样本数据中原疾病名称对应的标准化名称写入标准化字段。

对于疾病大数据队列中剩余未标准化的数据,将疾病编码与疾病分类标准中的编码进行对照,对于编码对照成功的数据,将疾病分类标准中的编码相应的疾病名称写入标准化字段。

具体为:将疾病编码与疾病分类标准中的编码进行对照,首先与疾病分类标准中的编码全部6位进行对照,其次与前4位进行对照,最后与前2位进行对照。

所述疾病数据标准化还包括人工审核,经由客户端由用户对疾病大数据队列中的标准化名称进行人工审核,统计对照率,若对照率超过设定阈值,标准化结束。

步骤2:服务器接收客户端的心脏疾病大数据队列请求,基于疾病数据标准化的疾病大数据队列,抽取与心脏疾病相关的数据记录,得到初始心脏疾病大数据队列;

所述抽取与心脏疾病相关的数据记录包括:

从疾病大数据队列中检索与心脏疾病相关的疾病名称;由于心脏疾病相关的表达形式较多,此处需进行同义词扩展,本领域技术人员可以理解,还可以通过构造逻辑表达式进行检索;

经由客户端由用户对检索得到的心脏相关疾病的名称进行审核;本领域技术人员可以理解,该审核可针对数据记录进行单独删减,也可通过构造逻辑表达式进行批量删减;

根据心脏疾病相关名称,从疾病大数据队列中匹配身份证号、性别、地域等数据,得到心脏疾病大数据队列。

步骤3:基于病例纳入标准对初始心脏疾病大数据队列进行过滤,得到心脏疾病大数据队列,发送至客户端。

为了保护用户隐私,本实施例设置保密机制,服务器得到心脏疾病大数据队列后,将数据记录中的姓名、身份证号等个人信息进行加密。这样客户端仅获取需要的数据记录并且保护了用户个人隐私。

由于心脏疾病包含多种类型,如急性心肌梗死、风湿性心脏病等,并且,不排除许多患者同时还患有其他疾病,因此所获取的数据记录中,有些指标可能是与其他疾病有关的,即存在许多噪音数据。

为了尽可能排除噪音,根据上文数据库可知,本实施例除了纳入病例、医保和体检数据以外,还纳入死亡数据,正是为了便于本步骤对初始心脏疾病大数据队列进行过滤。病例纳入标准为:病例选取距今预设时间段期间有第一次急性心肌梗死诊断记录的、年龄在预设范围内的所有患者,且排除该时间段之前死亡和患有心脏疾病的患者。

通过引入病例纳入标准,最大限度的清洗了心脏疾病大数据队列中的病例,为后续危险因素筛选的客观性提供了保障,有利于心脏疾病患病预测模型的准确性。

本实施例分别针对急性心肌梗死以及风湿性心脏病进行了疾病大数据队列的构建。对于急性心肌梗死,具体病例纳入标准为:病例选取预设时间段期间有第一次急性心肌梗死诊断记录的所有患者,至少有一次纵向随访记录,年龄≥20岁,且进入队列时未患过癌症、冠心病、急性心肌梗死等疾病。对于风湿性心脏病,具体病例纳入标准为:病例选取2012-01-01至2016-12-31期间有第一次风湿性心脏病诊断记录的0-84岁之间患者,风湿性心脏病定义通过icd10编码及诊断名称确定。对照选取2012-01-01至2016-12-31期间所有样本人群,并排除2012-01-01之前死亡人群和患有风湿性心脏病的人群,且排除2012-01-01至2016-12-31期间所有癌症患者。

实施例2

本实施例公开了一种心脏疾病风险预测系统,包括:云平台、客户端和用户终端。

其中,所述云平台被配置为包括:

心脏疾病大数据队列生成模块,基于实施例1中的方法步骤得到;

危险因素筛选模块,根据接收的病例纳入标准,从急性心肌梗死数据队列中获取急性心肌梗死病例,得到与急性心肌梗死相关的疾病变量,并与患急性心肌梗死事件进行相关性分析,筛选得到危险因素;

风险预测模型构建模块,基于筛选的危险因素构建心脏疾病患病风险预测模型;

患病概率预测模块,接收用户发送的患病风险预测请求,调取该用户相关历史疾病数据队列,基于心脏疾病患病风险预测模型获取发病概率预测结果。

在本实施例中,接收对照组匹配规则,基于心脏疾病大数据队列,按照对照组匹配规则为病例样本匹配对照组,在该队列中开展巢式病例对照研究。

所述危险因素筛选模块中,根据心脏疾病结局事件统计相关危险因素并进行筛选:

将心脏疾病相关变量与心脏疾病结局事件进行相关性分析,将相关性大于设定阈值的危险因素作为候选危险因素;

具体为:

(1)根据是否具有危险因素,构建二值化危险因素矩阵x,其中,每一行对应一个人,每一列对应一类危险因素,矩阵x的第m行第n列x(m,n)表示第m个人是否具有第n类危险因素,若是,记为1,若否,记为0;

(2)根据是否发生急性心肌梗死结局事件,构建二值化急性心肌梗死矩阵y,其中,矩阵y包含一列,每一行对应一个人是否发生急性心肌梗死结局事件;

(3)将二值化危险因素矩阵x的每一列与矩阵y进行相关性分析,得到相关性矩阵r,矩阵r中的各元素表示各危险因素与急性心肌梗死的相关性,将相关性大于设定阈值的危险因素作为候选危险因素。

基于贝叶斯网络,从候选危险因素中筛选最终危险因素。

贝叶斯网络是一种表示变量间连接概率的图形模式,可用于发现数据间的潜在关系,贝叶斯学习的结果表示为随机变量的概率分布,它可以解释为对不同可能性的信任程度。本实施例将候选危险因素与心脏疾病结局事件输入贝叶斯网络,得到与心脏疾病结局事件有关联的候选危险因素作为最终的危险因素。

本领域技术人员可以理解,还可以基于文献、临床数据和国家标准,人为的辅助指标筛选,采用多种指标筛选方法,防止重要指标的遗漏。

对于急性心肌梗死,在急性心肌梗死病例中获取急性心肌梗死相关疾病变量。

急性心肌梗死相关疾病变量分为男性和女性,其中男性包括血脂异常,高血压,糖尿病,外周血管疾病,肺炎,急性支气管炎,痛风,类风湿性关节炎,高尿酸血症,慢性阻塞性肺疾病,肥胖。

女性包括血脂异常,高血压,糖尿病,外周血管疾病,肺炎,急性支气管炎,痛风,类风湿性关节炎,高尿酸血症,慢性阻塞性肺疾病、肥胖。

急性心肌梗死诊断标准为根据疾病标准名称对照以及icd-10疾病编码对照显示病案资料中专业医师做出诊断,观察结局为病历资料显示医师初次诊断为急性心肌梗死;非急性心肌梗死死亡定义为“竞争事件”;

最终选择的危险因素包括:纳入男性急性心肌梗死险预测模型的预测因子有血脂异常,高血压,糖尿病,外周血管疾病,肺炎,急性支气管炎,痛风,类风湿性关节炎,高尿酸血症,慢性阻塞性肺疾病,肥胖;

纳入女性急性心肌梗死险预测模型的预测因子有血脂异常,高血压,糖尿病,外周血管疾病,急性支气管炎,类风湿性关节炎,高尿酸血症,慢性阻塞性肺疾病。

对于风湿性心脏病,最终选择的危险指标包括:纳入男性风湿性心脏病风险预测模型的预测因子有肺部感染、链球菌感染以及风湿性关节炎;纳入女性模型的预测因子有肺部感染、链球菌感染、急性咽炎以及风湿性关节炎。

风险预测模型构建模块,基于筛选的危险因素构建心脏疾病患病风险预测模型。被配置为执行以下步骤:

基于筛选的危险因素采用logistic回归模型进行单因素分析,通过逐步筛选法选择急性心肌梗死的独立预测因子。检验水准α=0.05。

logistic回归模型的公式如下:

其中β0为常数项,β1,β2,…,βp为回归系数,x1,x2,…,xp为自变量,p为预测值。

将筛选出的危险因素进行多因素logistic回归分析,考虑到竞争风险的存在,为避免对终点事件急性心肌梗死概率的估计偏差,采用fine和gray提出的部分分布竞争风险模型构建急性心肌梗死风险预测模型;

部分分布风险模型的模型构建如下:

这里,ε=1表示观测到的结局为1,也就是心脑血管病结局事件;公式t≥t∪(t<t∩ε≠1)表示除了未发生任何结局的个体之外,在t时刻之前已经观测到关心事件以外结局的个体都要纳入到风险集中;

在上述部分分布风险模型框架内,基于cox回归模型的部分分布竞争风险模型为:

采用fine和grey提出的风险集估计方法,估计参数向量b=(β1,β2,...,βp)和基准风险函数h01(t,x),其累计发生风险(也就是绝对风险)函数,即心脑血管病发生的绝对风险是:

所述系统还包括,健康报告生成子系统,包括:

用户管理模块,用于对注册用户的身份信息进行管理;

疾病应对策略管理模块,用于对各类疾病的注意事项、应对建议进行存储;

心脏疾病发病概率预测模块,接收用户终端发送的预测请求,调取所述用户的历史疾病数据队列,基于心脏疾病预测模型获取心脏疾病发病概率预测结果;

具体地,对于预测模型中的每个危险因素变量,若该用户患有该危险因素相应的疾病,则对该危险因素变量赋值为1,否则赋值为0,计算该用户的心脏疾病发病概率。

心脏疾病危险因素分析模块,获取该用户有关心脏疾病的危险因素及各危险因素的贡献率;

具体地,各危险因素的贡献率计算方法为:

对于上述赋值为1的每个危险因素变量,分别赋值为0并计算心脏疾病发病概率,得到该用户不患有该危险因素相应的疾病时的发病概率;将其与心脏疾病发病概率预测模块得到的发病概率作差,得到每个危险因素相应的疾病对该用户得心脏疾病的贡献率。

心脏疾病危险因素指引模块,对于该用户患有的对心脏疾病有影响的疾病,获取相应的应对策略;

健康报告生成模块,用于根据健康信息、心脏疾病发病概率预测结果和心脏疾病危险因素指引结果生成可视化报告。

云平台中预先封装相关数据处理方法,上述的数据处理均在云平台执行,数据不会传输至其他终端,保证了数据的安全,保护了用户的隐私。

本实施例提供了针对用户的健康评估系统,能够预测用户的心脏疾病发病概率,以及该用户所患与心脏疾病有关疾病的贡献率,给出这些疾病的应对策略,起到引导用户预防心脏疾病的作用。

本实施例采用云平台作为数据汇总和数据处理的核心,与各级地市医疗机构的数据库对接,保证了数据的真实性和完整性,以及数据的安全性。

工作终端,包括:

数据标准化模块,用于对云平台中样本数据标准化结果和全部数据标准化结果进行审核;

心脏疾病相关疾病名称获取模块,用于接收用户输入的与心脏疾病相关的疾病名称,或用于检索疾病名称的逻辑表达式;以及对检索到的疾病名称进行审核;

危险因素确定模块,用于从云平台获取候选危险因素及其贝叶斯网络结构图,接收用户对危险因素的确认和修正并发送至云平台;

模型构建模块,用于接收病例纳入标准、对照组匹配规则以及所采用的模型;

模型修正模块,用于对所采用的模型和模型参数进行修正。

用户终端,包括:

登录认证模块,用于对用户身份进行认证;

健康报告查看模块,用于从云平台获取该用户的健康信息,包括历史体检信息、病例信息等;

心脏疾病发病概率预测模块,用于从云平台获取心脏疾病发病概率预测结果;

心脏疾病危险因素指引模块,用于从云平台获取该用户有关心脏疾病的危险因素及各危险因素的贡献率;

健康报告生成模块,用于根据健康信息、心脏疾病发病概率预测结果和心脏疾病危险因素指引结果生成可视化报告。

本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1