基于就医行为的医保欺诈识别方法、装置、设备和介质

文档序号:33375762发布日期:2023-03-08 03:55阅读:44来源:国知局
基于就医行为的医保欺诈识别方法、装置、设备和介质

1.本发明涉及医疗大数据技术领域,具体而言,涉及一种基于就医行为的医保欺诈识别方法、装置、设备和存储介质。


背景技术:

2.医疗欺诈不仅造成了巨大的经济损失,同时它也是影响医疗服务质量的一个重要原因,会使患者的健康受到威胁。
3.传统的医保欺诈检测方法,例如:1.采用知识工程的方法分析医疗保险欺诈问题并构建知识模型。2.基于数据挖掘分析的检测方法。3.采用统计方法建立欺诈识别模型。这些方法需要选定合适的欺诈评估指标,而常用的医疗保险欺诈评估指标可能会造成个人隐私问题,并且传统的检测方法对医疗数据的挖掘不够全面,忽略了医疗数据中隐含的行为信息。
4.此外,已有的图神经网络模型不是针对特定问题设计的,并不适合来解决医保欺诈问题。
5.有鉴于此,申请人在研究了现有的技术后特提出本技术。


技术实现要素:

6.本发明提供了一种基于就医行为的医保欺诈识别方法、装置、设备和存储介质,以改善上述技术问题中的至少一个。
7.第一方面、
8.本发明实施例提供了一种基于就医行为的医保欺诈识别方法,其包含步骤s1至步骤s5。
9.s1、获取医疗数据,并根据医疗数据构建医疗异构图。其中,医疗异构图以患者、医院科室、药物和日期为节点。
10.s2、根据行为模式对医疗异构图中的目标患者节点进行采样,获取目标患者节点的各个行为模式的行为异构图。
11.s3、根据医疗异构图,获取全局拓扑嵌入。
12.s4、通过两步注意力机制,先分别对各个行为异构图中的目标患者节点进行行为模式内的聚合,获取目标患者节点的各个行为模式的行为特征嵌入。然后,以全局拓扑嵌入指导各个行为模式的行为特征嵌入进行融合,获取目标患者节点的最终嵌入。
13.s5、根据最终嵌入,进行分类,判断目标患者节点是否为医保欺诈者。
14.在上述实施例的基础上,本发明的一个可选地实施例中,步骤s1具体包括步骤s11至步骤s13。
15.s11、获取医疗数据。
16.s12、根据医疗数据提取就诊记录。
17.s13、根据就诊记录,以患者、医院科室、日期和药物为实体构建医疗异构图。其中,
医院和科室为一个整体,不同医院的同名科室作为不同的实体。日期实体细化到天。药物实体不包含单价小于预设值的药物。
18.在上述实施例的基础上,本发明的一个可选地实施例中,步骤s2具体包括步骤s21至步骤s23。
19.s21、获取不同行为模式对应的一跳元路径、两跳元路径和元图。
20.s22、分别根据一跳元路径、两跳元路径和元图对医疗异构图中的目标患者节点进行采样,获取目标患者节点的各个行为模式的初始异构图。
21.s23、分别对各个初始异构图中的患者节点的特征向量进行预处理,获取目标患者节点的各个行为模式的行为异构图。其中,预处理模型为式中,h为预处理后的患者节点的投影特征向量、w为预处理前的患者节点的投影特征向量、λ为超参数、d是初始异构图中的患者节点的度、n是初始异构图中的患者节点的总数。
22.在上述实施例的基础上,本发明的一个可选地实施例中,步骤s3具体为:
23.根据医疗异构图,通过图神经网络gnn,获取全局拓扑嵌入h
t
。其中,全局拓扑嵌入h
t
的维度和目标患者节点的不同行为模式的行为特征嵌入的维度相同。
24.在上述实施例的基础上,本发明的一个可选地实施例中,步骤s4具体包括步骤s41至步骤s44。
25.s41、分别对目标患者节点的各个行为模式的行为异构图执行步骤s42至步骤s44,以对目标患者节点进行行为模式内的聚合,获取目标患者节点的各个行为模式的行为特征嵌入
26.s42、通过注意力机制获取行为异构图中各个邻居节点的重要性其中,重要性的计算式为:式中,att
intra
是执行注意力机制的深度神经网络、hu是目标患者节点u的投影特征向量、||是向量连接算子、hv是邻居节点v的投影特征向量、ρi是第i个行为模式。
27.s43、根据重要性通过softmax函数进行归一化,获取各个邻居节点的权重系数其中,权重系数的计算式为:式中,是第i个行为模式下邻居节点v对目标患者节点u的重要性。
28.s44、根据权重系数通过激活函数和多头注意力机制对目标患者节点进行行为模式内的聚合,获取目标患者节点的各个行为模式的行为特征嵌入其中,行为特征嵌入的计算式为:式中,是目标患者节点u的第i个行为模式的行为特征嵌入、是多头注意力机制、σ是激活函数、v是目标患者节点在行
为异构图中的邻居患者节点、是目标患者节点u的第i个行为模式的邻居节点集合、是第i个行为模式下邻居节点v对目标患者节点u的权重系数、hu是目标患者节点u的投影特征向量。
29.在上述实施例的基础上,本发明的一个可选地实施例中,步骤s4还包括步骤s45至步骤s47。
30.s45、通过权重矩阵对各个行为模式的行为特征嵌入进行转换,并对转换后的嵌入进行求平均操作,获取各个行为模式的重要性其中,各个行为模式的重要性的计算模型为:式中,表示第i个行为模式的重要性、m是行为模式的数量、q
t
是可学习的偏置向量、w
ρ
为权重矩阵、是目标患者节点u的第i个行为模式的行为特征嵌入、b
ρ
是参数化注意力向量。
31.s46、根据全局拓扑嵌入,获取全局拓扑的重要性s
t
。全局拓扑的重要性的计算模型为:s
t
=q
t
tanh(w
t
·ht
+b
t
),式中,q
t
是可学习的偏置向量、w
t
是权重矩阵、h
t
是全局拓扑嵌入、b
t
是偏置向量。
32.根据各个行为模式的重要性和全局拓扑的重要性s
t
,通过softmax函数进行归一化,获取各个行为模式的权重系数和全局拓扑的权重系数β
t

33.s47、根据各个行为模式的权重系数各个行为模式的特征嵌入全局拓扑的权重系数β
t
和全局拓扑嵌入h
t
,获取目标患者节点的最终嵌入h。其中,最终嵌入的计算式为:式中,h为目标患者节点的最终嵌入,是第i个行为模式的权重系数、是目标患者节点u的第i个行为模式的行为特征嵌入、β
t
是全局拓扑的权重系数、h
t
是全局拓扑嵌入。
34.在上述实施例的基础上,本发明的一个可选地实施例中,步骤s5具体为:
35.将最终嵌入输入多层感知机进行分类,以判断目标患者节点是否为医保欺诈者。
36.第二方面、
37.本发明实施例提供了一种基于就医行为的医保欺诈识别装置,其包含:
38.医疗异构图构建模块,用于获取医疗数据,并根据医疗数据构建医疗异构图。其中,医疗异构图以患者、医院科室、药物和日期为节点。
39.行为异构图构建模块,用于根据行为模式对医疗异构图中的目标患者节点进行采样,获取目标患者节点的各个行为模式的行为异构图。
40.全局拓扑获取模块,用于根据医疗异构图,获取全局拓扑嵌入。
41.向量融合模块,用于通过两步注意力机制,先分别对各个行为异构图中的目标患者节点进行行为模式内的聚合,获取目标患者节点的各个行为模式的行为特征嵌入。然后,以全局拓扑嵌入指导各个行为模式的行为特征嵌入进行融合,获取目标患者节点的最终嵌入。
42.向量分类模块,用于根据最终嵌入,进行分类,判断目标患者节点是否为医保欺诈者。
43.在上述实施例的基础上,本发明的一个可选地实施例中,医疗异构图构建模块具体包括:
44.医疗数据获取单元,用于获取医疗数据。
45.就诊记录提取单元,用于根据医疗数据提取就诊记录。
46.医疗异构图构建单元,用于根据就诊记录,以患者、医院科室、日期和药物为实体构建医疗异构图。其中,医院和科室为一个整体,不同医院的同名科室作为不同的实体。日期实体细化到天。药物实体不包含单价小于预设值的药物。
47.在上述实施例的基础上,本发明的一个可选地实施例中,行为异构图构建模块具体包括:
48.行为模式获取单元,用于获取不同行为模式对应的一跳元路径、两跳元路径和元图。
49.采样单元,用于分别根据一跳元路径、两跳元路径和元图对医疗异构图中的目标患者节点进行采样,获取目标患者节点的各个行为模式的初始异构图。
50.预处理单元,用于分别对各个初始异构图中的患者节点的特征向量进行预处理,获取目标患者节点的各个行为模式的行为异构图。其中,预处理模型为式中,b为预处理后的患者节点的投影特征向量、w为预处理前的患者节点的投影特征向量、λ为超参数、d是初始异构图中的患者节点的度、n是初始异构图中的患者节点的总数。
51.在上述实施例的基础上,本发明的一个可选地实施例中,全局拓扑获取模块具体用于:
52.根据医疗异构图,通过图神经网络gnn,获取全局拓扑嵌入h
t
。其中,全局拓扑嵌入h
t
的维度和目标患者节点的不同行为模式的行为特征嵌入的维度相同。
53.在上述实施例的基础上,本发明的一个可选地实施例中,向量融合模块具体包括:
54.循环单元,用于分别对目标患者节点的各个行为模式的行为异构图执行以下单元,以对目标患者节点进行行为模式内的聚合,获取目标患者节点的各个行为模式的行为特征嵌入
55.邻居重要性计算单元,用于通过注意力机制获取行为异构图中各个邻居节点的重要性其中,重要性的计算式为:式中,att
intra
是执行注意力机制的深度神经网络、hu是目标患者节点u的投影特征向量、||是向量连接算子、hv是邻居节点v的投影特征向量、ρi是第i个行为模式。
56.邻居权重系数计算单元,用于根据重要性通过softmax函数进行归一化,获取各个邻居节点的权重系数其中,权重系数的计算式为:式中,是第i个行为模式下邻居节点v对目标患者节点u的重要性。
57.聚合单元,用于根据权重系数通过激活函数和多头注意力机制对目标患者节点进行行为模式内的聚合,获取目标患者节点的各个行为模式的行为特征嵌入其
中,行为特征嵌入的计算式为:式中,是目标患者节点u的第i个行为模式的行为特征嵌入、是多头注意力机制、σ是激活函数、v是目标患者节点在行为异构图中的邻居患者节点、是目标患者节点u的第i个行为模式的邻居节点集合、是第i个行为模式下邻居节点v对目标患者节点u的权重系数、hu是目标患者节点u的投影特征向量。
58.在上述实施例的基础上,本发明的一个可选地实施例中,向量融合模块还包括:
59.行为模式重要性计算单元,用于通过权重矩阵对各个行为模式的行为特征嵌入进行转换,并对转换后的嵌入进行求平均操作,获取各个行为模式的重要性其中,各个行为模式的重要性的计算模型为:为模式的重要性的计算模型为:式中,表示第i个行为模式的重要性、m是行为模式的数量、q
t
是可学习的偏置向量、w
ρ
为权重矩阵、是目标患者节点u的第i个行为模式的行为特征嵌入、b
ρ
是参数化注意力向量。
60.全局重要性计算单元,用于根据全局拓扑嵌入,获取全局拓扑的重要性s
t
。全局拓扑的重要性的计算模型为:s
t
=q
t
tanh(w
t
·ht
+b
t
),式中,q
t
是可学习的偏置向量、w
t
是权重矩阵、h
t
是全局拓扑嵌入、b
t
是偏置向量。
61.行为模式权重系数计算单元,用于根据各个行为模式的重要性和全局拓扑的重要性s
t
,通过softmax函数进行归一化,获取各个行为模式的权重系数和全局拓扑的权重系数β
t

62.特征融合单元,用于根据各个行为模式的权重系数各个行为模式的特征嵌入全局拓扑的权重系数β
t
和全局拓扑嵌入h
t
,获取目标患者节点的最终嵌入h。其中,最终嵌入的计算式为:式中,h为目标患者节点的最终嵌入,是第i个行为模式的权重系数、是目标患者节点u的第i个行为模式的行为特征嵌入、β
t
是全局拓扑的权重系数、h
t
是全局拓扑嵌入。
63.在上述实施例的基础上,本发明的一个可选地实施例中,向量分类模块具体用于:
64.将最终嵌入输入多层感知机进行分类,以判断目标患者节点是否为医保欺诈者。
65.第三方面、
66.本发明实施例提供了一种基于就医行为的医保欺诈识别设备,其包括处理器、存储器,以及存储在存储器内的计算机程序。计算机程序能够被处理器执行,以实现如第一方面任意一段所说的基于就医行为的医保欺诈识别方法。
67.第四方面、
68.本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质包括存储的
计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行如第一方面任意一段所说的基于就医行为的医保欺诈识别方法。
69.通过采用上述技术方案,本发明可以取得以下技术效果:
70.本发明实施例的基于就医行为的医保欺诈识别方法能够充分挖掘医疗数据中的异常行为模式,大大提高了医保欺诈识别的准确性和效率。
附图说明
71.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
72.图1是医保欺诈识别方法的流程示意图。
73.图2是医保欺诈识别方法的模型结构图。
74.图3是医疗异构图以及采样策略的示意图。
75.图4是医保欺诈识别装置的结构示意图。
具体实施方式
76.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
77.实施例一、
78.请参阅图1至图3,本发明第一实施例提供一种基于就医行为的医保欺诈识别方法,其可由基于就医行为的医保欺诈识别设备来执行(以下简称:识别设备)。特别地,由识别设备中的一个或多个处理器来执行,以实现步骤s1至步骤s5。
79.s1、获取医疗数据,并根据医疗数据构建医疗异构图。其中,医疗异构图以患者、医院科室、药物和日期为节点。
80.具体的,把医疗数据集转换成一副医疗异构图,能够将医疗保险欺诈检测问题建模为异构图中的一个分类问题,为后续步骤解决医保欺诈检测问题提供理论基础,具有很好的实际意义。
81.可以理解的是,识别设备可以是便携笔记本计算机、台式机计算机、服务器、智能手机或者平板电脑等具有计算性能的电子设备。
82.在上述实施例的基础上,本发明的一个可选地实施例中,步骤s1具体包括步骤s11至步骤s13。
83.s11、获取医疗数据。
84.s12、根据医疗数据提取就诊记录。
85.s13、根据就诊记录,以患者、医院科室、日期和药物为实体构建医疗异构图。其中,医院和科室为一个整体,不同医院的同名科室作为不同的实体。日期实体细化到天。药物实体不包含单价小于预设值的药物。
86.具体的,在医保数据集中,有来自大量用户的数百万条交易记录,为了更好地理解患者的行为模式,我们将其构建成医保异构图,如图3的左侧a部分所示。我们对所选患者的所有就诊记录抽取出来,并从中构建了患者、医院科室、日期和药物四个实体。其中,为了更加细化空间上的地域,我们将医院和科室当做一个整体,意味着即使是不同医院的同名科室也会被当做不同的实体。对于日期实体细化到天,而对于药物实体,为了避免图过于稠密,我们将药物单价小于20元的实体剔除。最终,我们就在异构图上把患者就诊记录抽象表现为患者在某天与某家医院某个科室开具了某个药物。
87.在医保欺诈检测问题中,通过对真实就医场景中的不同类型对象及其相互作用建模成医疗异构图,g={v,ε,x}。在本实施例中,我们重点检测的是作为节点集v子集的患者节点集合u,在这里表示为在数据集中每个患者u∈u都拥有一个标签yu∈{0,1},来表示该患者是否属于医保欺诈人员。最终的目标就是预测患者u
t
在测试集中属于医保欺诈人员的概率。
88.s2、根据行为模式对医疗异构图中的目标患者节点进行采样,获取目标患者节点的各个行为模式的行为异构图。
89.在上述实施例的基础上,本发明的一个可选地实施例中,步骤s2具体包括步骤s21至步骤s23。
90.s21、获取不同行为模式对应的一跳元路径、两跳元路径和元图。
91.医疗欺诈者不同的行为模式有着不同的意义。本实施例中,为了在医疗异构图中挖掘潜在的行为模式,对医疗异构图进行基于多行为模式分解。给定医疗异构图中具有多种行为模式的节点u,首先需要用不同的方式对节点进行采样。使用采样策略是为了更多的关注那些包含多种行为模式的患者节点,这些节点通常给我们检测欺诈带来更多有用的信息。
92.本发明实施例为了深度挖掘医疗欺诈者的行为模式,一共采取了3种不同的采样策略。它们分别为基于一跳邻居的元路径,基于两条邻居的元路径和基于元图的采样,如图3的中间b部分所示。
93.s22、分别根据一跳元路径、两跳元路径和元图对医疗异构图中的目标患者节点进行采样,获取目标患者节点的各个行为模式的初始异构图。
94.在本实施例中,通过多行为模式分解,我们可以得到在不同行为模式下具有相似轨迹的节点,如图3的右侧c部分所示。通过三种采样策略去挖掘医疗欺诈者的隐式行为模式,能够有效的解决目前一些医保欺诈检测方法忽略了的异常行为特征的问题。
95.具体的,定义1:元路径可以表示成(简称a1a2a3…
l+1
)形式的路径,其中描述了对象a1和a
l+1
之间的复合关系。定义2:元图可以表示成(简称a1a2a3…
l+1
)形式的路径,其中描述了对象a1和a
l+1
之间的复合关系,||》2。
96.根据上述定义1和2,下面举例说明医保异构图中元路径和元图的含义。如图3的左侧a部分所示。构建了一个医疗异构图来对发生医保欺诈的就医场景进行建模。医保属性异构网络中包含多种类型的对象(即患者(p)、医院科室(d)、药物(m)、日期(t)),具有丰富的
属性和关系。
97.在异构图中,两个用户可以通过多条元路径连接,例如患者-科室-患者(pdp)、患者-药物-患者(pmp)、患者-日期-患者(ptp)。不同的元路径总是表达不同的语义。例如,路径pdp表示该元路径连接的两个患者在同一个科室看过病。而路径ptp表示该元路径连接的两个患者在同一天有过就诊记录。两个用户可以通过多条多重语义路径连接。
98.如图3的中间b部分所示,路径pdtp表示该路径连接的两个患者同一天在同一个科室看过病。通过路径pdtmp与目标患者连接的表示与目标患者同一天在同一个科室拿过同种药品。
99.图网络中目标节点表征的学习的关键在于如何准确的传播聚合邻居的信息。我们基于上述的定义1和定义2去选取行为模式相同的邻居患者节点。如图3的右侧c部分所示,通过一跳元路径pdp采样之后的图结构,部分节点被保留、其余节点被丢弃。经过不同的采样方法后的图结构也是不同的。因此,后续步骤需要将这些不同的图结构信息都进行学习,才能得到更为准确的嵌入表示。
100.s23、分别对各个初始异构图中的患者节点的特征向量进行预处理,获取目标患者节点的各个行为模式的行为异构图。其中,预处理模型为
[0101][0102]
式中,h为预处理后的患者节点的投影特征向量、w为预处理前的患者节点的投影特征向量、λ为超参数、d是初始异构图中的患者节点的度、n是初始异构图中的患者节点的总数。
[0103]
具体的,考虑到欺诈者往往会有更多的医疗记录,在异构图中则变现为更加密集连接的节点。我们对采样后的患者节点的特征向量进行处理,让后续输入图网络模型中学习节点嵌入时能更加关注这类型节点。经过预处理后,更加密集连接的节点能够在下一个模型组件的得到更高的关注度。
[0104]
s3、根据医疗异构图,获取全局拓扑嵌入。
[0105]
具体的,为了研究医疗欺诈者有许多复杂不同的行为轨迹,对其进行多行为模式的分解。步骤s2完成行为模式间的融合,我们能够学习到每个行为模式下隐含的语义信息。
[0106]
经过三种策略采样后虽然能够找到相似行为轨迹的群体,但是却会在一定程度上丢失了图的部分拓扑结构信息。这些缺失的拓扑结构却是不同行为模式间联系的纽带。多行为模式分解步骤的本质类似于局部聚类,使得行为模式合并的学习中难以获得全局知识。因此,本实施例中提出一个拓扑感知模块对模式间合并进行指导,将行为模式之间的结构挖掘的更加深入。
[0107]
在上述实施例的基础上,本发明的一个可选地实施例中,步骤s3具体为:
[0108]
根据医疗异构图,通过图神经网络gnn,获取全局拓扑嵌入h
t
。其中,全局拓扑嵌入h
t
的维度和目标患者节点的不同行为模式的行为特征嵌入的维度相同。
[0109]
具体的,如图2中的c部分所示,通过一个图神经网络gnn去学习全局拓扑结构信息。
[0110]ht
=gnn(a,x)
[0111]
其中,h
t
的维度和单个行为模式下学到的嵌入维度保持一致。在后续步骤中,将全局的拓扑嵌入h
t
和单个行为模式下的嵌入一同输入到模式间合并模块中进行融合学习。
[0112]
s4、通过两步注意力机制,先分别对各个行为异构图中的目标患者节点进行行为模式内的聚合,获取目标患者节点的各个行为模式的行为特征嵌入。然后,以全局拓扑嵌入指导各个行为模式的行为特征嵌入进行融合,获取目标患者节点的最终嵌入。
[0113]
在本实施例中,基于不同的行为模式聚合患者的邻居节点信息,以整合医疗异构图中多个方面的结构信息去更好地进行表示学习。在此基础上,我们提出一个拓扑感知模块,引入全局拓扑信息并通过语义关注度区分不同行为模式的差异,得到特定任务特定语义节点嵌入的最优加权组合。
[0114]
对于真实医保欺诈事件以及数据集观察可以看出,医保欺诈人员通常更倾向于团队作案,并且行为轨迹也相似甚至相同。医保欺诈人员更倾向于呈团队性地在同一家医院进行就医或者同一时间段留下医疗记录。基于这些特征,我们构建如图2所示的网络模型。
[0115]
具体的,对经过三种采样策略方法从医疗异构图中挖掘的患者行为信息和患者的特征信息,采用两步注意力机制,先对行为模式内部进行聚合,然后再对行为模式之间进行聚合,从而得到目标患者节点的复合语义信息(即:最终嵌入h)。其能够更加准确的表达目标患者节点,从而为下游的分了任务提供基础。
[0116]
在上述实施例的基础上,本发明的一个可选地实施例中,步骤s4具体包括步骤s41至步骤s44。
[0117]
s41、分别对目标患者节点的各个行为模式的行为异构图执行步骤s42至步骤s44,以对目标患者节点进行行为模式内的聚合,获取目标患者节点的各个行为模式的行为特征嵌入
[0118]
具体的,如图2的1部分所示,步骤s4首先要分别对行为异构图进行行为模式内的聚合,以获取目标患者节点的各个行为模式的行为特征嵌入。
[0119]
s42、通过注意力机制获取行为异构图中各个邻居节点的重要性
[0120]
具体的,在某个行为模式下(即不同的行为异构图中),同一个患者节点的度不同,这是因为这些节点的类型不同或者它们局部拓扑结构不同。这代表着每个邻居节点在模式内融合中扮演着不同的角色,具有不同的重要性。因此,不能直接用基础的gnn进行聚合。
[0121]
在本实施例中,通过一个注意力机制在这个过程进行聚合。具体的,基于某个行为模式ρi下的节点对(u,v),注意力机制可以学习到重要性这代表节点v对节点u的贡献。节点v的重要性的计算式为:
[0122][0123]
式中,att
intra
是执行注意力机制的深度神经网络、hu是目标患者节点u的投影特征向量、||是向量连接算子、hv是邻居节点v的投影特征向量、ρi是第i个行为模式。
[0124]
从节点对重要性计算公式来看,节点对之间的权重完全取决于它们的投影特征。因此,节点u不同的邻居节点可以被赋予不同的贡献。
[0125]
s43、根据重要性通过softmax函数进行归一化,获取各个邻居节点的权重系数
[0126]
具体的,在得到节点对之间的重要性之后,使用softmax函数得到归一化的加权系数a,a表示邻居节点v在节点u所以邻居中的权重。权重系数的计算式为:
[0127][0128]
式中,是第i个行为模式下邻居节点v对目标患者节点u的重要性。
[0129]
s44、根据权重系数通过激活函数和多头注意力机制对目标患者节点进行行为模式内的聚合,获取目标患者节点的各个行为模式的行为特征嵌入
[0130]
具体的,根据前面得到的权重系数对节点u进行行为模式内的聚合,通过一个激活函数σ(
·
)进行输出。由于加权系数是特定在某个行为模式下生成的,我们通过这种方式去挖掘不同行为模式的特定语义信息。即:
[0131][0132]
其中,异构图数据训练过程的方差较高,本发明实施例使用了多头的注意力机制来解决这个问题。具体的,执行k个独立的注意力机制,连接它们的输出。这种方法可以有效的稳定整个训练学习的过程。最终,行为特征嵌入的计算式为:
[0133][0134]
式中,是目标患者节点u的第i个行为模式的行为特征嵌入、是多头注意力机制、σ是激活函数、v是目标患者节点在行为异构图中的邻居患者节点、是目标患者节点u的第i个行为模式的邻居节点集合、是第i个行为模式下邻居节点v对目标患者节点u的权重系数、hu是目标患者节点u的投影特征向量。
[0135]
在本实施例中,为我们目标患者节点u在行为模式ρi下的概要。它显示了节点u中包含的语义信息的一个方面。假设我们有m个行为模式ρ0,ρ1...ρm,经过模式间融合,我们可以得到一个由m个行为模式特定向量表示的序列
[0136]
如图2的2部分所示,在完成行为模式内的融合后,需要进行行为模式间的融合,才能得到唯一的特征向量来表示目标患者节点。在本实施例中,通过一个多模式的关注学习不同行为模式的重要性和合并它们生成目标患者节点u的最终多模式表示目标节点。
[0137]
在上述实施例的基础上,本发明的一个可选地实施例中,步骤s4还包括步骤s45至步骤s48。
[0138]
s45、通过权重矩阵对各个行为模式的行为特征嵌入进行转换,并对转换后的嵌入进行求平均操作,获取各个行为模式的重要性
[0139]
具体的,为了学习不同行为模式的重要性,首先使用一个权重矩阵w
ρ
来转换每个行为模式下特定的表示,将特定行为模式下的嵌入表示转换成一个合适的维度,优选为降低维度。可以理解的是,维度过大的话计算的复杂度较高,并且过大的维度可能会导致额外的冗余。
[0140]
在转换维度后,平均所有转换后的嵌入表示来总结每个行为模式的重要性。
[0141]
其中,各个行为模式的重要性的计算模型为:
[0142][0143]
式中,表示第i个行为模式的重要性、m是行为模式的数量、q
t
是可学习的偏置向量、w
ρ
为权重矩阵、是目标患者节点u的第i个行为模式的行为特征嵌入、b
ρ
是参数化注意力向量。
[0144]
具体的,前面得到目标节点不同模式的嵌入之后,再通过一个权重矩阵转换到一个合适的维度。之后对所有的嵌入取一个平均得到一个平均嵌入,然后再评估每个模式下的嵌入和这个平均嵌入的相似程度作为每个行为模式的重要性。
[0145]
s46、根据全局拓扑嵌入,获取全局拓扑的重要性s
t

[0146]
具体的,由于本实施例加入拓扑感知来指导合并。因此,通过以下公式来评估全局拓扑信息在聚合过程中的重要性。全局拓扑的重要性的计算模型为:
[0147]st
=q
t
tanh(w
t
·ht
+b
t
)
[0148]
式中,q
t
是可学习的偏置向量、w
t
是权重矩阵、h
t
是全局拓扑嵌入、b
t
是偏置向量。
[0149]
s47、根据各个行为模式的重要性和全局拓扑的重要性s
t
,通过softmax函数进行归一化,获取各个行为模式的权重系数和全局拓扑的权重系数β
t

[0150]
具体的,在本实施例中通过softmax函数对重要性进行归一化,得到每个行为模式和全局拓扑的贡献度即权重系数。
[0151][0152][0153]
通过权重系数,可以解释为每个行为模式ρi对于欺诈检测的贡献,显然越高,行为模式ρi就越重要。
[0154]
s48、根据各个行为模式的权重系数各个行为模式的特征嵌入全局拓扑的权重系数β
t
和全局拓扑嵌入h
t
,获取目标患者节点的最终嵌入h。
[0155]
具体的,在得到各个行为模式和全局拓扑嵌入的重要性和嵌入表示之后,合并所
有的行为模式,并用全局拓扑嵌入来指导融合,得到最终的嵌入h。其中,最终嵌入的计算式为:
[0156][0157]
式中,h为目标患者节点的最终嵌入,是第i个行为模式的权重系数、是目标患者节点u的第i个行为模式的行为特征嵌入、β
t
是全局拓扑的权重系数、h
t
是全局拓扑嵌入。
[0158]
在本实施例中,使用两层注意力机制去聚合邻居节点的信息并引入拓扑感知模块指导融合不同行为模式间的信息,减少了噪声节点对最终预测任务的影响。
[0159]
s5、根据最终嵌入,进行分类,判断目标患者节点是否为医保欺诈者。
[0160]
具体的,将学习到的最终嵌入用于检测目标患者是否为医保欺诈者。在本实施例中,通过多层感知机对最终嵌入进行分类,在其它实施例中,可以使用其它现有的分类模型对异构图中的目标患者节点的嵌入表示进行分类,从而判断目标患者节点是否为医保欺诈者,本发明对分类模型的具体类型不做限定。
[0161]
本发明实施例的医保欺诈识别方法的模型在训练时使用交叉熵作为损失函数,并通过反向传播优化模型。交叉熵表示如下:
[0162][0163]
式中,y
l
和h
l
是已标记患者节点的标签和学习到的嵌入,m为分类器的参数。
[0164]
在图2所示的图神经网络模型中,我们使用这些框架来学习权重,并逐层聚合信息,从而得到有意义的节点嵌入。最后将节点嵌入用于进行预测用户是否是医保欺诈者。
[0165]
本发明实施例的基于就医行为的医保欺诈识别方法将医疗保险欺诈检测问题转换为医疗异构图中的一个节点分类问题。选采取三种采样策略,以挖掘疗医疗异构图中欺诈者的异常行为信息。通过两步注意力机制将从医疗异构图中挖掘的患者行为信息和患者的特征信息进行聚合学习,然后利用图表征学习技术学习图中节点的低维嵌入表示。最终将低维嵌入表示入多层感知机进行目标用户是否有医保欺诈行为的预测。注意力机制可以将不同采样方法的偏好进行学习,得到一个很好的目标节点嵌入,
[0166]
本发明实施例的基于就医行为的医保欺诈识别方法解决了传统方法局限于只关注用户的异常特征(比如异常就诊的金额)的问题,同时将医疗过程中的行为模式属性考虑进来,能够充分挖掘医疗数据中的异常行为模式,大大提高了医保欺诈识别的准确性和效率。
[0167]
实施例二、
[0168]
请参阅图4,本发明第二实施例提供一种基于就医行为的医保欺诈识别装置,其包含:
[0169]
医疗异构图构建模块1,用于获取医疗数据,并根据医疗数据构建医疗异构图。其中,医疗异构图以患者、医院科室、药物和日期为节点。
[0170]
行为异构图构建模块2,用于根据行为模式对医疗异构图中的目标患者节点进行采样,获取目标患者节点的各个行为模式的行为异构图。
[0171]
全局拓扑获取模块3,用于根据医疗异构图,获取全局拓扑嵌入。
[0172]
向量融合模块4,用于通过两步注意力机制,先分别对各个行为异构图中的目标患者节点进行行为模式内的聚合,获取目标患者节点的各个行为模式的行为特征嵌入。然后,以全局拓扑嵌入指导各个行为模式的行为特征嵌入进行融合,获取目标患者节点的最终嵌入。
[0173]
向量分类模块5,用于根据最终嵌入,进行分类,判断目标患者节点是否为医保欺诈者。
[0174]
在上述实施例的基础上,本发明的一个可选地实施例中,医疗异构图构建模块1具体包括:
[0175]
医疗数据获取单元,用于获取医疗数据。
[0176]
就诊记录提取单元,用于根据医疗数据提取就诊记录。
[0177]
医疗异构图构建单元,用于根据就诊记录,以患者、医院科室、日期和药物为实体构建医疗异构图。其中,医院和科室为一个整体,不同医院的同名科室作为不同的实体。日期实体细化到天。药物实体不包含单价小于预设值的药物。
[0178]
在上述实施例的基础上,本发明的一个可选地实施例中,行为异构图构建模块2具体包括:
[0179]
行为模式获取单元,用于获取不同行为模式对应的一跳元路径、两跳元路径和元图。
[0180]
采样单元,用于分别根据一跳元路径、两跳元路径和元图对医疗异构图中的目标患者节点进行采样,获取目标患者节点的各个行为模式的初始异构图。
[0181]
预处理单元,用于分别对各个初始异构图中的患者节点的特征向量进行预处理,获取目标患者节点的各个行为模式的行为异构图。其中,预处理模型为式中,h为预处理后的患者节点的投影特征向量、w为预处理前的患者节点的投影特征向量、λ为超参数、d是初始异构图中的患者节点的度、n是初始异构图中的患者节点的总数。
[0182]
在上述实施例的基础上,本发明的一个可选地实施例中,全局拓扑获取模块3具体用于:根据医疗异构图,通过图神经网络gnn,获取全局拓扑嵌入h
t
。其中,全局拓扑嵌入h
t
的维度和目标患者节点的不同行为模式的行为特征嵌入的维度相同。
[0183]
在上述实施例的基础上,本发明的一个可选地实施例中,向量融合模块4具体包括:
[0184]
循环单元,用于分别对目标患者节点的各个行为模式的行为异构图执行以下单元,以对目标患者节点进行行为模式内的聚合,获取目标患者节点的各个行为模式的行为特征嵌入
[0185]
邻居重要性计算单元,用于通过注意力机制获取行为异构图中各个邻居节点的重要性其中,重要性的计算式为:式中,att
intra
是执行注意力机制的深度神经网络、hu是目标患者节点u的投影特征向量、||是向量连接算子、hv是邻居节点v的投影特征向量、ρi是第i个行为模式。
[0186]
邻居权重系数计算单元,用于根据重要性通过softmax函数进行归一化,获取
各个邻居节点的权重系数其中,权重系数的计算式为:式中,是第i个行为模式下邻居节点v对目标患者节点u的重要性。
[0187]
聚合单元,用于根据权重系数通过激活函数和多头注意力机制对目标患者节点进行行为模式内的聚合,获取目标患者节点的各个行为模式的行为特征嵌入其中,行为特征嵌入的计算式为:式中,是目标患者节点u的第i个行为模式的行为特征嵌入、是多头注意力机制、σ是激活函数、v是目标患者节点在行为异构图中的邻居患者节点、是目标患者节点u的第i个行为模式的邻居节点集合、是第i个行为模式下邻居节点v对目标患者节点u的权重系数、hu是目标患者节点u的投影特征向量。
[0188]
在上述实施例的基础上,本发明的一个可选地实施例中,向量融合模块4还包括:
[0189]
行为模式重要性计算单元,用于通过权重矩阵对各个行为模式的行为特征嵌入进行转换,并对转换后的嵌入进行求平均操作,获取各个行为模式的重要性其中,各个行为模式的重要性的计算模型为:为模式的重要性的计算模型为:式中,表示第i个行为模式的重要性、m是行为模式的数量、q
t
是可学习的偏置向量、w
ρ
为权重矩阵、是目标患者节点u的第i个行为模式的行为特征嵌入、b
ρ
是参数化注意力向量。
[0190]
全局重要性计算单元,用于根据全局拓扑嵌入,获取全局拓扑的重要性s
t
。全局拓扑的重要性的计算模型为:s
t
=q
t
tanh(w
t
·ht
+b
t
),式中,q
t
是可学习的偏置向量、w
t
是权重矩阵、h
t
是全局拓扑嵌入、b
t
是偏置向量。
[0191]
行为模式权重系数计算单元,用于根据各个行为模式的重要性和全局拓扑的重要性s
t
,通过softmax函数进行归一化,获取各个行为模式的权重系数和全局拓扑的权重系数β
t

[0192]
特征融合单元,用于根据各个行为模式的权重系数各个行为模式的特征嵌入全局拓扑的权重系数β
t
和全局拓扑嵌入h
t
,获取目标患者节点的最终嵌入h。其中,最终嵌入的计算式为:式中,h为目标患者节点的最终嵌入,是第i个行为模式的权重系数、是目标患者节点u的第i个行为模式的行为特征嵌入、β
t
是全局拓扑的权重系数、h
t
是全局拓扑嵌入。
[0193]
在上述实施例的基础上,本发明的一个可选地实施例中,向量分类模块5具体用于:将最终嵌入输入多层感知机进行分类,以判断目标患者节点是否为医保欺诈者。
[0194]
实施例三、
[0195]
本发明第三实施例提供一种基于就医行为的医保欺诈识别设备,其包括处理器、存储器,以及存储在存储器内的计算机程序。计算机程序能够被处理器执行,以实现如实施例一任意一段所说的基于就医行为的医保欺诈识别方法。
[0196]
实施例四、
[0197]
本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行如实施例一任意一段所说的基于就医行为的医保欺诈识别方法。
[0198]
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0199]
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0200]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0201]
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
[0202]
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0203]
取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
[0204]
实施例中提及的“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换,以使这里描述的实施例能够以除了在这里图示或描述的那些内容以外的顺序实施。
[0205]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1