一种基于电子病历分析的隐含规则挖掘方法及系统

文档序号:29799234发布日期:2022-04-23 19:40阅读:98来源:国知局
一种基于电子病历分析的隐含规则挖掘方法及系统

1.本发明涉及统计分析领域,特别是涉及一种基于电子病历分析的隐含规则挖掘方法及系统。


背景技术:

2.随着医疗电子病历的广泛普及和信息技术的迅速发展,医疗领域迈入了全新的信息化时代,使得医疗数据日益递增。面对海量的医疗数据,利用数据挖掘技术对其进行分析与挖掘,能够为医疗人员的临床诊断和预后分析提供全新的思路与方法。
3.在众多的数据挖掘方法中,关联规则挖掘方法是目前医疗领域中应用最广泛的方法之一,利用关联规则能够挖掘出医疗数据中蕴含的潜在规则,从而获取到有价值的信息。然而,传统的apriori关联规则算法如果直接应用在维度规模较大的医疗数据上会产生大量无意义的规则,导致数据冗余严重。
4.因此,亟需一种分析方法以提高关联规则的有效率。


技术实现要素:

5.本发明的目的是提供一种基于电子病历分析的隐含规则挖掘方法及系统,能够提高关联规则的有效率。
6.为实现上述目的,本发明提供了如下方案:一种基于电子病历分析的隐含规则挖掘方法,包括:将从电子病历数据集中提取的特征分为左项集和右项集;所述左项集为手术前的特征;所述右项集为手术后的特征;根据左项集中的所有非空子集,遍历电子病历数据集,确定每个非空左项子集的支持度;并将支持度大于或等于支持度阈值的非空左项子集进行保存,确定第一集合;将所述右项集的所有非空子集进行保存,确定第二集合;对所述第一集合和所述第二集合做直积,得到左项子集和右项子集的所有组合,确定第三集合;遍历电子病历数据集,确定所述第三集合每个组合的支持度;并将支持度大于或等于支持度阈值的组合确定为频繁项集;确定每个频繁项集的置信度;并根据置信度大于或等于置信度阈值的频繁项集确定强关联规则。
7.可选地,所述将从电子病历数据集中提取的特征分为左项集和右项集,之前还包括:获取电子病历数据集;对所述电子病历数据集进行预处理;所述预处理包括:数据提取、归一化处理、特征取值以及缺失值处理。
8.可选地,所述确定每个频繁项集的置信度;并根据置信度大于或等于置信度阈值
的频繁项集确定强关联规则,之后还包括:根据强关联规则确定提升度;判断所述提升度是否小于1;若所述提升度小于1,则所述强关联规则无效;若所述提升度大于或等于1,则所述强关联规则有效。
9.一种基于电子病历分析的隐含规则挖掘系统,包括:特征划分模块,用于将从电子病历数据集中提取的特征分为左项集和右项集;所述左项集为手术前的特征;所述右项集为手术后的特征;第一集合确定模块,用于根据左项集中的所有非空子集,遍历电子病历数据集,确定每个非空左项子集的支持度;并将支持度大于或等于支持度阈值的非空左项子集进行保存,确定第一集合;第二集合确定模块,用于将所述右项集的所有非空子集进行保存,确定第二集合;第三集合确定模块,用于对所述第一集合和所述第二集合做直积,得到左项子集和右项子集的所有组合,确定第三集合;频繁项集确定模块,用于遍历电子病历数据集,确定所述第三集合每个组合的支持度;并将支持度大于或等于支持度阈值的组合确定为频繁项集;强关联规则确定模块,用于确定每个频繁项集的置信度;并根据置信度大于或等于置信度阈值的频繁项集确定强关联规则。
10.可选地,还包括:电子病历数据集获取模块,用于获取电子病历数据集;预处理模块,用于对所述电子病历数据集进行预处理;所述预处理包括:数据提取、归一化处理、特征取值以及缺失值处理。
11.可选地,还包括:提升度确定模块,用于根据强关联规则确定提升度;第一判断模块,用于判断所述提升度是否小于1;判断结果第一确定模块,用于若所述提升度小于1,则所述强关联规则无效;判断结果第二确定模块,用于若所述提升度大于或等于1,则所述强关联规则有效。
12.根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明所提供的一种基于电子病历分析的隐含规则挖掘方法及系统,即利用基于apriori的限定左右项位置的关联规则挖掘算法,实现对手术后可能会引起感染的规则的挖掘与分析,克服了传统的统计分析方法过于依赖先验知识,导致无法挖掘出隐含的感染规则的局限性。本发明在产生规则的过程中通过项集的拆分与筛选,达到限定左右项位置的目的,避免了无用规则的产生,使得关联规则的有效率大大提高,从而提高了算法的效率。通过限定关联规则的左右项位置,在算法执行过程中及时剔除不符合条件的项与项集,大大减少了数据的冗余,从而降低了算法的运行时间和内存占用。
附图说明
13.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所
需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
14.图1为本发明所提供的一种基于电子病历分析的隐含规则挖掘方法流程示意图;图2为本发明所提供的实施例中基于电子病历的术后感染规则挖掘的流程示意图。
具体实施方式
15.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
16.本发明的目的是提供一种基于电子病历分析的隐含规则挖掘方法及系统,能够提高关联规则的有效率。
17.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
18.图1为本发明所提供的一种基于电子病历分析的隐含规则挖掘方法流程示意图,如图1所示,本发明所提供的一种基于电子病历分析的隐含规则挖掘方法,包括:将从电子病历数据集中提取的特征分为左项集和右项集;所述左项集为手术前的特征;所述右项集为手术后的特征;手术前的特征包括但不限于性别、年龄、吸烟史、术前是否肢体偏瘫、能否行走、是否存在某些症状(头痛、头晕、呕吐、发热、行走不稳、尿失禁、意识障碍、反应迟钝)、术前血常规值(血压、血型、红细胞、血红蛋白)、术前脑脊液常规值(白细胞、葡萄糖、微量蛋白)、凝血常规值(凝血酶原时间、国际标准化比值、活化部分凝血活酶时间、凝血酶时间、纤维蛋白原、d-二聚体)、术前腰穿压力值、手术方式。
19.手术后的特征包括但不限于是否颅内感染、其他部位是否感染、是否出现并发症。
20.根据左项集中的所有非空子集,遍历电子病历数据集,确定每个非空左项子集的支持度;并将支持度大于或等于支持度阈值的非空左项子集进行保存,确定第一集合;将所述右项集的所有非空子集进行保存,确定第二集合;对所述第一集合和所述第二集合做直积,得到左项子集和右项子集的所有组合,确定第三集合;遍历电子病历数据集,确定所述第三集合每个组合的支持度;并将支持度大于或等于支持度阈值的组合确定为频繁项集;确定每个频繁项集的置信度;并根据置信度大于或等于置信度阈值的频繁项集确定强关联规则。
21.(1)对于电子病历事务数据集d,由若干条病历记录t构成,每一条病历记录t均可视为一个包含k个特征(x1,x2,

,xk)的集合x。其中,对于x中的任意特征xi都有若干个不同的特征值。
22.(2)把限定在关联规则左项的特征项集合记为左项集l,l={x
11
,x
12


,x
1j
, x
21

x
22


,x
2j


, x
m1
,x
m2


,x
mj
},该集合中的每个元素代表一个具体的特征值。其中x
mj
表示第m个特征的第j个特征值,,。
23.(3)把限定在关联规则右项的特征项集合记为右项集r,r={x
11
,x
12


,x
1j
,x
21
,x
22


,x
2j


,x
n1
,x
n2


,x
nj
},该集合中的每个元素代表一个具体的特征值。其中x
nj
表示第n个特征下的第j个特征值,,。
24.(4),,即左项集与右项集中不存在相同的特征。
25.(5)l_sub表示存放左项集的所有非空子集的集合,l_sub=。r_sub表示存放右项集的所有非空子集的集合,r_sub={}。
26.(6)s表示存放l_sub和r_sub的直积结果的项集集合,s={}。
27.(7)形如表示一条关联规则,可解释为在x的条件下产生y,其中, ,x,y分别称作关联规则的左项和右项。
28.(8)支持度(support)、置信度(confidence)和提升度(lift)是衡量关联规则价值性的常用指标。支持度表示关联规则中的数据项在整个数据集中出现的概率,置信度体现了规则的右项在规则的左项的条件下出现的概率,置信度越高说明规则的左项和右项的关联性越强,一条强关联规则必须同时满足最小支持度阈值minsup和最小置信度阈值minconf。提升度用于衡量强关联规则的有效性,如果提升度大于1,则是有效的强关联规则。支持度、置信度和提升度的公式如下所示:,;;其中,,表示事务数据集中的事务总计数,表示事务数据集中含有x的事务计数。
29.如图2所示,对电子病历进行预处理,主要是从电子病历中提取出患者的主要特征信息及其他特征信息并将其表示成结构化数据。
30.对所述电子病历数据集进行预处理;所述预处理包括:数据提取、归一化处理、特征取值以及缺失值处理。
31.电子病历数据预处理的具体步骤:步骤一:提取数据。根据专业医生的意见,确定需要从电子病历中提取的特征信息,包括性别、年龄、个人史等基本信息,术前症状、术后症状、血常规、凝血常规、手术方式等临床信息。
32.步骤二:统一定义(归一化处理)。对病历中出现的表述不同但是含义相同的病症信息进行统一的定义。例如“认知障碍”、“意识模糊”、“呼之不应”等统一定义为“意识障碍”。
33.步骤三:特征取值。对于从病历中提取出的病症特征,如果病患满足相应的病症,那么该病症的特征取值为“1”,否则取值为“2”。对于存在两种以上形式的特征,每个形式依次从“1”开始升序取值。例如,以脑积水手术为例,引起脑积水的可能原因有先天性、肿瘤性、脑出血、外伤等形式,在特征取值时分别对应特征值
ꢀ“
1”、“2”、“3”、“4”等。同时,每种特征都赋予一个特征编号,特征编号按照“01”、“02
”…
依次递增,最终每个特征的特征值由特征编号与特征值共同构成。例如,“031”表示编号“03”特征下特征值为“1”的特征。
34.步骤四:缺失值处理。对于电子病历中获取不到的特征信息无法按照上一步的方法取特征值,为了保证数据的真实性和算法模型的可用性,我们对缺失的特征均赋予特征值“0”,再与特征编号组合在一起对缺失值进行填补。
35.提取的特征中,部分特征(年龄、血压、血常规、凝血常规)是连续型的数值形式,由于连续型的特征鲁棒性较差会给模型造成干扰,我们需要对连续型的特征通过数据分级的方式进行离散化处理,数据分级主要根据临床上的正常范围进行划分,分为正常范围内、低于正常范围、高于正常范围三种情况,依次取离散值“1”、“2”、“3”。
36.以年龄、血红蛋白、凝血酶时间为例,特征分级及离散化表示的具体实例如下表1、表2、表3所示。其中,血红蛋白以男性为例做具体示例。
37.表1表2表3
为了验证强关联规则的有效性,所述确定每个频繁项集的置信度;并根据置信度大于或等于置信度阈值的频繁项集确定强关联规则,之后还包括:根据强关联规则确定提升度;判断所述提升度是否小于1;若所述提升度小于1,则所述强关联规则无效;若所述提升度大于或等于1,则所述强关联规则有效。
38.利用基于apriori的限定左右项位置的关联规则挖掘算法可以从电子病历数据中挖掘出具有医疗价值的关联规则。关联规则的左项均为手术前的相关症状、指标、属性等特征,关联规则的右项均为手术后术后感染相关的症状特征。我们可以根据每一条关联规则的支持度、置信度与提升度对相应的关联规则进行深入分析。
39.支持度是对规则的一个宏观统计分析,即关联规则在整个数据集中的占比;提升度反映了关联规则的有效性,因此我们首先将关联规则按照提升度从高到低进行排序;然后根据置信度依次分析规则左项所包含的相关因素对规则右项所表示的感染症状的影响程度,置信度越高说明该因素引起术后感染的可能性越大,以此分析出引起术后感染的重要因素。
40.本发明所提供的一种基于电子病历分析的隐含规则挖掘系统,包括:特征划分模块,用于将从电子病历数据集中提取的特征分为左项集和右项集;所述左项集为手术前的特征;所述右项集为手术后的特征;第一集合确定模块,用于根据左项集中的所有非空子集,遍历电子病历数据集,确定每个非空左项子集的支持度;并将支持度大于或等于支持度阈值的非空左项子集进行保存,确定第一集合;第二集合确定模块,用于将所述右项集的所有非空子集进行保存,确定第二集合;第三集合确定模块,用于对所述第一集合和所述第二集合做直积,得到左项子集和右项子集的所有组合,确定第三集合;频繁项集确定模块,用于遍历电子病历数据集,确定所述第三集合每个组合的支持度;并将支持度大于或等于支持度阈值的组合确定为频繁项集;强关联规则确定模块,用于确定每个频繁项集的置信度;并根据置信度大于或等于置信度阈值的频繁项集确定强关联规则。
41.本发明所提供的一种基于电子病历分析的隐含规则挖掘系统,还包括:电子病历数据集获取模块,用于获取电子病历数据集;预处理模块,用于对所述电子病历数据集进行预处理;所述预处理包括:数据提取、归一化处理、特征取值以及缺失值处理。
42.本发明所提供的一种基于电子病历分析的隐含规则挖掘系统,还包括:
提升度确定模块,用于根据强关联规则确定提升度;第一判断模块,用于判断所述提升度是否小于1;判断结果第一确定模块,用于若所述提升度小于1,则所述强关联规则无效;判断结果第二确定模块,用于若所述提升度大于或等于1,则所述强关联规则有效。
43.本发明利用关联规则的方法从电子病历数据中,挖掘可能引起脑积水术后感染的规则,该方法是一种非目的性的无监督学习方法,注重寻找特征之间的相关性。一方面避免了因人工干预造成的时间和人力的损耗,另一方面打破了思维的局限性,可以挖掘出不同于往常先验知识的隐含潜在规则。针对传统的apriori算法的不足和局限性,对传统的apriori算法进行了改进,在产生规则的过程中通过项集的拆分与筛选,达到限定左右项位置的目的,避免了无用规则的产生,解决了数据冗余严重的问题,提高了产生有意义的规则的效率并大大降低了算法的执行时间和内存占用。
44.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
45.本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1