1.本发明涉及计算机技术领域,尤其涉及一种用于医保的疾病名称比对方法、装置、设备和存储介质。
背景技术:2.在医保领域,通常需要判断两个疾病名称所对应的疾病是否为相似疾病,例如医生在书写病历时,可能存在病历描述部分与病历结论部分的疾病名称不一致的问题,此时需要将病历描述部分的疾病名称与病历结论部分的疾病名称进行比对,以判断病历结论部分的疾病名称是否存在漏写。
3.目前,多通过字符对比方法进行疾病名称比对,如通过疾病名称之间的编辑距离进行疾病名称比对,以确定是否存在疾病名称漏写。然而,上述方法对于字符相似但实际对应不同疾病的两个疾病名称,容易出现误判。如,对于“高钾血症与高脂血症”这两个疾病名称,虽然字符相似,但实际对应两个完全不同疾病,进而导致比对出错的问题。
技术实现要素:4.本发明提供一种用于医保的疾病名称比对方法、装置、设备和存储介质,用以解决现有技术中疾病名称比对精度较低的缺陷。
5.本发明提供一种用于医保的疾病名称比对方法,包括:
6.获取待比对的疾病名称;
7.基于基础正样本对和增强负样本对,对所述待比对的疾病名称进行比对,得到比对结果;
8.所述基础正样本对包括相同疾病对应的多个疾病名称,所述增强负样本对包括不同疾病对应的疾病名称,所述增强负样本对是对所述基础正样本对中的疾病名称进行要素替换得到的。
9.根据本发明提供的一种用于医保的疾病名称比对方法,所述增强负样本对基于如下步骤确定:
10.对所述基础正样本对中的疾病名称进行要素替换,得到候选负样本对;
11.在所述候选负样本对的疾病名称与任一基础正样本对中的疾病名称相同的情况下,将所述候选负样本对作为所述增强负样本对。
12.根据本发明提供的一种用于医保的疾病名称比对方法,所述基于基础正样本对和增强负样本对,对所述待比对的疾病名称进行比对,得到比对结果,包括:
13.基于基础负样本对、所述基础正样本对以及所述增强负样本对,对所述待比对的疾病名称进行比对,得到比对结果;
14.所述基础正样本对和所述基础负样本对是基于病历文本中的病历疾病名称和/或疾病体系中的标准疾病名称确定的。
15.根据本发明提供的一种用于医保的疾病名称比对方法,所述基于基础负样本对、
所述基础正样本对以及所述增强负样本对,对所述待比对的疾病名称进行比对,得到比对结果,包括:
16.基于疾病名称比对模型,对所述待比对的疾病名称进行比对,得到比对结果;
17.所述疾病名称比对模型依次基于第一类样本、第二类样本和第三类样本训练得到,所述第一类样本包括基于所述病历疾病名称确定的基础正样本对和基础负样本对,所述第二类样本包括增强负样本对和基于所述病历疾病名称确定的基础正样本对,所述第三类样本包括基于所述标准疾病名称确定的基础正样本对和基础负样本对。
18.根据本发明提供的一种用于医保的疾病名称比对方法,所述基础正样本对和所述基础负样本对基于如下步骤确定:
19.确定各标准疾病名称在所述疾病体系中的层级;
20.基于各标准疾病名称之间的层级关系,对各标准疾病名称进行正负例划分,得到所述基础正样本对和所述基础负样本对。
21.根据本发明提供的一种用于医保的疾病名称比对方法,所述基于各标准疾病名称之间的层级关系,对各标准疾病名称进行正负例划分,得到所述基础正样本对和所述基础负样本对,包括:
22.在两个标准疾病名称中的一个标准疾病名称为另一个标准疾病名称的上一层级的标准疾病名称的情况下,将所述两个标准疾病名称划分至所述基础正样本对;
23.在所述两个标准疾病名称处于同一层级的情况下,将所述两个标准疾病名称划分至所述基础负样本对。
24.根据本发明提供的一种用于医保的疾病名称比对方法,所述基于基础正样本对和增强负样本对,对所述待比对的疾病名称进行比对,得到比对结果,包括:
25.基于编码参数,对各待比对的疾病名称进行编码,得到各待比对的疾病名称的编码特征;
26.基于交互参数,对各待比对的疾病名称的编码特征进行交互,得到各待比对的疾病名称之间的关系;
27.基于分类参数以及各待比对的疾病名称之间的关系,确定各待比对的疾病名称之间的比对结果;
28.所述编码参数、所述交互参数和所述分类参数是基于所述基础正样本对和所述增强负样本对确定的。
29.根据本发明提供的一种用于医保的疾病名称比对方法,所述基于编码参数,对各待比对的疾病名称进行编码,得到各待比对的疾病名称的编码特征,包括:
30.对各待比对的疾病名称进行疾病要素解析,得到各待比对的疾病名称的要素;
31.基于所述编码参数,对各待比对的疾病名称的要素进行编码,得到各待比对的疾病名称的编码特征。
32.本发明还提供一种用于医保的疾病名称比对装置,包括:
33.获取单元,用于获取待比对的疾病名称;
34.比对单元,用于基于基础正样本对和增强负样本对,对所述待比对的疾病名称进行比对,得到比对结果;
35.所述基础正样本对包括相同疾病对应的多个疾病名称,所述增强负样本对包括不
同疾病对应的疾病名称,所述增强负样本对是对所述基础正样本对中的疾病名称进行要素替换得到的。
36.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述用于医保的疾病名称比对方法。
37.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述用于医保的疾病名称比对方法。
38.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述用于医保的疾病名称比对方法。
39.本发明提供的用于医保的疾病名称比对方法、装置、设备和存储介质,由于基础正样本对能够表征相同疾病的疾病名称之间的整体名称内在规律,增强负样本对能够表征不同疾病的疾病名称之间的细节要素内在规律,从而在基于基础正样本对以及增强负样本对对疾病名称进行比对时,能够准确确定待比对的疾病名称之间的关系,进而准确得到比对结果。
附图说明
40.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1是本发明提供的用于医保的疾病名称比对方法的流程示意图;
42.图2是本发明提供的增强负样本对确定方法的流程示意图;
43.图3是本发明提供的基础样本对确定方法的流程示意图;
44.图4是本发明提供的基础样本对确定方法中步骤320的实施方式的流程示意图;
45.图5是本发明提供的用于医保的疾病名称比对方法中步骤120的实施方式的流程示意图;
46.图6是本发明提供的疾病名称比对模型的结构示意图;
47.图7是本发明提供的用于医保的疾病名称比对方法中步骤121的实施方式的流程示意图;
48.图8是本发明提供的用于医保的疾病名称比对装置的结构示意图;
49.图9是本发明提供的电子设备的结构示意图。
具体实施方式
50.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
51.目前,多通过字符对比方法进行疾病名称比对,如通过疾病名称之间的编辑距离进行疾病名称比对,以确定是否存在疾病名称漏写。然而,上述方法对于字符相似但实际对
应不同疾病的两个疾病名称,容易出现误判。如,对于“高钾血症与高脂血症”这两个疾病名称,虽然字符相似,但实际对应两个完全不同疾病,进而导致比对出错的问题。
52.此外,也有基于知识库进行字符层面检测,以实现疾病名称比对,但由于各疾病名称的要素不标准,导致无法基于字符层面检测精度较低。再有,也有通过文本匹配的方法进行疾病名称比对,但该方法仅针对字符层面进行编码,对于字符相似但实际对应不同疾病的两个疾病名称,同样容易出现误判。
53.对此,本发明提供一种用于医保的疾病名称比对方法。图1是本发明提供的用于医保的疾病名称比对方法的流程示意图,如图1所示,该方法包括如下步骤:
54.步骤110、获取待比对的疾病名称。
55.此处,待比对的疾病名称即需要进行疾病类别相似性比对的疾病名称。例如,对于“骨髓灰质炎的后遗症”与“小儿麻痹症”这两个疾病名称对应的是同一疾病,也就是这两个疾病名称相同;对于“慢性支气管炎”与“慢阻肺”这两个疾病名称对应的是两个不同的疾病,也就是这两个疾病名称不同。
56.需要说明的是,此处待比对的疾病名称为多个疾病名称,也就是既可以为两个疾病名称,也可以为两个以上的疾病名称,本发明实施例对此不作具体限定。
57.步骤120、基于基础正样本对和增强负样本对,对待比对的疾病名称进行比对,得到比对结果;
58.基础正样本对包括相同疾病对应的多个疾病名称,增强负样本对包括不同疾病对应的疾病名称,增强负样本对是对基础正样本对中的疾病名称进行要素替换得到的。
59.具体地,基础正样本对包括相同疾病对应的多个疾病名称,如“骨髓灰质炎的后遗症”与“小儿麻痹症”为相同疾病对应的疾病名称,从而{骨髓灰质炎的后遗症,小儿麻痹症}可以构成基础正样本对。其中,基础正样本对可以是从病历文本中的病历疾病名称确定的,也可以是从疾病体系中的标准疾病名称确定的,如可以基于国际疾病标准分类法(international classification of diseases,icd)得到的疾病体系中的标准疾病名称确定,本发明实施例对此不作具体限定。
60.增强负样本对包括不同疾病对应的疾病名称,其是对基础正样本对中的疾病名称进行要素替换得到的。其中,基础正样本对中的疾病名称对应的要素用于描述对应疾病,要素可以包括临床表现、部位、病因、病理等,其可以通过对疾病名称进行疾病解析后得到。例如,对基础正样本对中的疾病名称“肺炎”进行疾病解析后,得到其对应的要素为{肺部感染,肺炎},若将其中的“肺”替换为“胃”后,得到对应的疾病名称的要素为{胃部感染,胃炎},即该要素对应的疾病名称为“胃炎”,其与“肺炎”对应两个不同的疾病,也即{肺炎,胃炎}构成增强负样本对。
61.此外,基础正样本对可以表征相同疾病的疾病名称之间的内在规律,进而根据相同疾病的疾病名称之间的内在规律,可以对待比对的疾病名称进行分析,确定其是否符合相同疾病的疾病名称之间的内在规律,若是,则表明待比对的疾病名称为相同疾病的概率较大。同理,增强负样本对可以表征不同疾病的疾病名称之间的内在规律,进而根据不同疾病的疾病名称之间的内在规律,可以对待比对的疾病名称进行分析,确定其是否符合不同疾病的疾病名称之间的内在规律,若是,则表明待比对的疾病名称为不同疾病的概率较大。
62.再有,增强负样本对是对基础正样本对中的疾病名称进行要素替换得到的,从而
增强负样本对中不仅包含有疾病名称的整体规律信息,而且包含有疾病名称对应要素的细节规律信息,从而能够进一步准确表征不同疾病名称之间的内在规律,进而能够基于增强负样本对,准确识别待比对的疾病名称是否对应不同疾病,进而得到相应的比对结果。
63.可选地,本发明实施例可以基于基础正样本对以及增强负样本对训练得到疾病名称比对模型,从而可以使得训练得到的疾病名称比对模型既能从基础正样本对中学习相同疾病的疾病名称之间的内在规律,也能从增强负样本对中学习不同疾病的疾病名称之间的内在规律,进而能够基于疾病名称比对模型准确得到待比对的疾病名称的比对结果。
64.本发明实施例提供的疾病名称比对方法,由于基础正样本对能够表征相同疾病的疾病名称之间的整体名称内在规律,增强负样本对能够表征不同疾病的疾病名称之间的细节要素内在规律,从而在基于基础正样本对以及增强负样本对对疾病名称进行比对时,能够准确确定待比对的疾病名称之间的关系,进而准确得到比对结果。
65.基于上述实施例,图2是本发明提供的增强负样本对确定方法的流程示意图,如图2所示,增强负样本对确定方法包括:
66.步骤210、对基础正样本对中的疾病名称进行要素替换,得到候选负样本对;
67.步骤220、在候选负样本对的疾病名称与任一基础正样本对中的疾病名称相同的情况下,将候选负样本对作为增强负样本对。
68.具体地,基础正样本对中的疾病名称的要素用于描述对应疾病,其中要素可以包括临床表现、部位、病因、病理、主导词等,主导词可以为临床表现、部位、病因和病理中的任意一个,也可以根据实际情况选取其它要素作为主导词,本发明实施例对此不作具体限定。例如,基础正样本对中的疾病名称的要素可以表示为{肺部感染,肺炎},其中“肺部感染”为部位,“肺炎”为主导词。
69.此外,疾病名称的要素可以通过对疾病名称进行疾病解析后得到,例如,可以将疾病名称输入至命名实体识别模型,由命名实体识别模型对疾病名称进行命名实体识别,得到疾病名称的要素。其中,命名实体识别模型可以是基于bert+lstm+crf模型构建得到的,也可以是基于其它模型构建得到的,本发明实施例对此不作具体限定。
70.在确定基础正样本对中的疾病名称的要素后,可以对任意一个或多个要素进行替换,得到候选负样本对。然而,由于候选负样本对是对基础正样本对中的疾病名称的要素进行随机替换后得到的,从而得到基于候选负样本对中的要素确定的疾病名称可能没有对应的临床疾病,而基础正样本对中的疾病名称通常是从病历文本或病历体系中获取的,从而基础正样本对中的疾病名称是对应有临床疾病的。
71.对此,本发明实施例在得到候选负样本对后,若候选负样本对的疾病名称与任一基础正样本对中的疾病名称相同,则表明候选负样本对的疾病名称对应有临床疾病,也就是该候选负样本对是真实可靠的,从而可以将该候选负样本对作为增强负样本对。
72.例如,基础正样本对中疾病名称的要素为{肺部感染,肺炎},若将“肺”替换为“胃”后,得到对应的疾病名称的要素为{胃部感染,胃炎},即该要素对应的疾病名称为“胃炎”,而“胃炎”对应为临床疾病,从而{肺炎,胃炎}可以构成增强负样本对。
73.由此可见,本发明实施例在候选负样本对的疾病名称与任一基础正样本对中的疾病名称相同的情况下,将候选负样本对作为增强负样本对,保证增强负样本对的疾病名称对应有相应的临床疾病,从而保证了增强负样本对数据的真实可靠,进而能够基于真实可
靠的增强负样本对准确得到比对结果。
74.基于上述任一实施例,步骤120包括:
75.基于基础负样本对、基础正样本对以及增强负样本对,对待比对的疾病名称进行比对,得到比对结果;
76.基础正样本对和基础负样本对是基于病历文本中的病历疾病名称和/或疾病体系中的标准疾病名称确定的。
77.具体地,基础正样本对中包括相同疾病对应的多个疾病名称,基础负样本对包括不同疾病对应的疾病名称。其中,基础负样本对与增强负样本对不同的是,基础负样本对是基于病历文本中的病历疾病名称和/或疾病体系中的标准疾病名称确定的,而增强负样本对是对基础正样本对中的疾病名称进行要素替换得到的,也就是基础负样本对能够表征不同疾病名称的整体规律信息,而增强负样本对能够表征不同疾病名称的整体规律信息以及不同疾病名称对应要素的细节规律信息。
78.由于基础正样本对可以表征相同疾病的疾病名称之间的内在规律,进而根据相同疾病的疾病名称之间的内在规律,可以对待比对的疾病名称进行分析,确定其是否符合相同疾病的疾病名称之间的内在规律,若是,则表明待比对的疾病名称为相同疾病的概率较大。基础负样本对可以表征不同疾病的疾病名称之间的内在规律,进而根据不同疾病的疾病名称之间的内在规律,可以对待比对的疾病名称进行分析,确定其是否符合不同疾病的疾病名称之间的内在规律,若是,则表明待比对的疾病名称为不同疾病的概率较大。增强负样本对能够表征不同疾病名称的整体规律信息以及不同疾病名称对应要素的细节规律信息,进而能够从整体规律信息和细节规律信息方面对待比对的疾病名称进行分析,确定其是否符合不同疾病的疾病名称之间的内在规律,若是,则表明待比对的疾病名称为不同疾病的概率较大。
79.可选地,本发明实施例可以基于基础正样本对、基础负样本对以及增强负样本对训练得到疾病名称比对模型,从而可以使得训练得到的疾病名称比对模型能够从基础正样本对中学习相同疾病的疾病名称之间的内在规律,从基础负样本对中学习不同疾病的疾病名称之间的内在规律,以及从增强负样本对中学习不同疾病的疾病名称之间的整体规律和细节规律,进而能够基于疾病名称比对模型准确得到待比对的疾病名称的比对结果。其中,在基于基础正样本对、基础负样本对以及增强负样本对进行训练时,可以采用课程学习的方式进行训练,也就是由易到难进行训练,如可以先采用基础正样本对和基础负样本对进行训练,得到初始模型,使得初始模型能够学习到整体层面相同疾病和不同疾病之间的内在规律;接着,采用增强负样本对对初始模型进行训练,使得得到的疾病名称比对模型能够学习到整体层面和细节层面不同疾病之间的内在规律,进而准确得到比对结果。
80.作为一种可选实施例,基础正样本对和基础负样本对可以基于病历文本中的病历疾病名称确定,如可以从病历文本中获取病历疾病名称以及其对应的诊断编码(如icd编码),并基于诊断编码与标准疾病名称之间的映射关系,获取诊断编码对应的标准疾病名称,然后以不同病历疾病名称作为基础负样本对,以病历疾病名称及其对应的标准疾病名称作为基础正样本对。
81.作为一种可选实施例,基础正样本对和基础负样本对可以基于疾病体系中的标准疾病名称确定,如疾病体系(如icd-10)包括不同层级的标准疾病名称,可以将同一层级的
标准疾病名称作为基础负样本对,将任一标准疾病名称及其上一层级的标准疾病名称作为基础正样本对。
82.作为一种可选实施例,基础正样本对和基础负样本对可以基于病历文本中的病历疾病名称和疾病体系中的标准疾病名称确定,如以病历文本中不同病历疾病名称作为基础负样本对,以病历疾病名称及其对应的标准疾病名称作为基础正样本对,以及将同一层级的标准疾病名称作为基础负样本对,将任一标准疾病名称及其上一层级的标准疾病名称作为基础正样本对。
83.基于上述任一实施例,步骤120中的基于基础负样本对、基础正样本对以及增强负样本对,对待比对的疾病名称进行比对,得到比对结果,包括:
84.基于疾病名称比对模型,对待比对的疾病名称进行比对,得到比对结果;
85.疾病名称比对模型依次基于第一类样本、第二类样本和第三类样本训练得到,第一类样本包括基于病历疾病名称确定的基础正样本对和基础负样本对,第二类样本包括增强负样本对和基于病历疾病名称确定的基础正样本对,第三类样本包括基于标准疾病名称确定的基础正样本对和基础负样本对。
86.具体地,疾病名称比对模型的训练阶段共包括三个阶段,第一阶段是基于第一类样本进行训练,第二阶段是在第一阶段的基础上基于第二类样本进行训练,第三阶段是在第二阶段的基础上基于第三类样本进行训练。
87.其中,第一类样本中的基本正样本对和基础负样本对是基于病历疾病名称确定的,因此第一类样本数量最多且学习难度最低;第二类样本中的基础正样本对是基于病历疾病名称确定的,但其负样本对为增强负样本对,也就是第二类样本与第一类样本具有相同的正样本对,但负样本对不同,由于增强负样本对是对基础正样本对中的疾病名称进行要素替换得到的,从而第二类样本相较于第一类样本而言学习难度较高;第三类样本中的基础正样本对和基础负样本对是基于标准疾病名称确定的,而标准疾病名称相较于病历疾病名称更加规范和严谨,涉及的专业领域知识更多,从而第三类样本的学习难度最高。
88.对此,本发明实施例依次采用第一类样本、第二类样本和第三类样本训练得到疾病名称比对模型,使得在训练过程中能够由易到难逐步进行学习训练,从而得到性能较好的疾病名称比对模型,进而能够准确对待比对的疾病名称进行比对,得到比对结果。
89.基于上述任一实施例,图3是本发明提供的基础样本对确定方法的流程示意图,如图3所示,基础正样本对和基础负样本对基于如下步骤确定:
90.步骤310、确定各标准疾病名称在疾病体系中的层级;
91.步骤320、基于各标准疾病名称之间的层级关系,对各标准疾病名称进行正负例划分,得到基础正样本对和基础负样本对。
92.具体地,各标准疾病名称在疾病体系中的层级用于表征各标准疾病名称在疾病体系中的层级位置信息,可以基于各标准疾病名称的编码确定其在疾病体系中的层级。各标准疾病名称之间的层级关系用于表征各标准疾病名称之间的隶属关系,以疾病体系icd-10为例,3位icd编码的标准疾病名称是4位编码的标准疾病名称的上一层级。
93.由于疾病体系在对各标准疾病名称进行层级划分时,考虑了各标准疾病名称对应疾病之间的关系(如为相同疾病或不同疾病),从而基于各标准疾病名称之间的层级关系,可以获知各标准疾病名称对应疾病之间的关系,进而根据对应疾病之间的关系对各标准疾
病名称进行正负例划分,得到基础正样本对和基础负样本对。
94.需要说明的是,疾病体系比较庞大,几乎覆盖了现有的临床疾病,而且疾病体系中各标准疾病名称的层级是严格按照对应疾病的类型进行划分的,也就是在对各标准疾病名称进行划分层级时,考虑了字符相似的标准疾病名称的划分。例如,对于“高钾血症”与“高脂血症”这两个疾病名称实际对应不同的疾病,由于病历文本中的病历名称是医生凭借经验书写,对于这两个字符相似的疾病名称无法区分,进而误认为两个疾病名称对应的疾病相同,而疾病体系则对此此类字符相似的疾病名称进行了严格层级划分,从而能够准确基于疾病体系确定基础正样本对和基础负样本对,以准确获取比对结果。
95.基于上述任一实施例,图4是本发明提供的基础样本对确定方法中步骤320的实施方式的流程示意图,如图4所示,步骤320包括:
96.步骤321、在两个标准疾病名称中的一个标准疾病名称为另一个标准疾病名称的上一层级的标准疾病名称的情况下,将两个标准疾病名称划分至基础正样本对;
97.步骤322、在两个标准疾病名称处于同一层级的情况下,将两个标准疾病名称划分至基础负样本对。
98.具体地,各标准疾病名称之间的层级关系用于表征各标准疾病名称之间的隶属关系,进而根据该隶属关系可以确定各标准疾病名称对应的疾病为相同疾病或不同疾病。
99.在两个标准疾病名称中的一个标准疾病名称为另一个标准疾病名称的上一层级的标准疾病名称的情况下,根据疾病体系的层级划分规则,两个标准疾病名称对应相同疾病,即将两个标准疾病名称划分至基础正样本对。在两个标准疾病名称处于同一层级的情况下,根据疾病体系的层级划分规则,两个标准疾病名称对应不同疾病,即将两个标准疾病名称划分至基础负样本对。
100.以疾病体系icd-10为例,3位icd编码的标准疾病名称1是4位编码的标准疾病名称2和标准疾病名称3的上一层级,则标准疾病名称1与标准疾病名称2,标准疾病名称1与标准疾病名称3属于基础正样本对,但对标准疾病名称2和标准疾病名称3进行笛卡尔计算后,标准疾病名称2和标准疾病名称3属于基础负样本,3位icd编码还对应有标准疾病名称4和标准疾病名称5,则标准疾病名称1,标准疾病名称4和标准疾病名称5也属于基础负样本对。
101.基于上述任一实施例,图5是本发明提供的用于医保的疾病名称比对方法中步骤120的实施方式的流程示意图,如图5所示,步骤120包括:
102.步骤121、基于编码参数,对各待比对的疾病名称进行编码,得到各待比对的疾病名称的编码特征;
103.步骤122、基于交互参数,对各待比对的疾病名称的编码特征进行交互,得到各待比对的疾病名称之间的关系;
104.步骤123、基于分类参数以及各待比对的疾病名称之间的关系,确定各待比对的疾病名称之间的比对结果;
105.编码参数、交互参数和分类参数是基于基础正样本对和增强负样本对确定的。
106.具体地,编码参数用于对各待比对的疾病名称分别进行编码,得到各待比对的疾病名称的编码特征,此处待比对的疾病名称可以为多个。在得到编码特征后,基于交互参数,对各编码特征进行交互,确定各待比对的疾病名称之间的关系,也即两两疾病名称之间的关系,进而可以基于分类参数以及各待识别的疾病名称之间的关系,确定两两疾病名称
之间的比对结果,也即各待比对的疾病名称之间的比对结果。
107.传统方法中每次只能针对两个疾病名称进行比对,若需要对多个疾病名称进行比对,则需要以每两个疾病名称为一个批次进行比对,从而需要对多个疾病名称进行重复编码,降低了比对效率。然而,本发明实施例可以一次对多个疾病名称进行编码,并一次完成多个疾病名称的比对,避免对疾病名称进行重复编码导致比对效率较低的问题。
108.可选地,本发明实施例可以基于基础正样本对和增强负样本对训练得到疾病名称比对模型。图6是本发明提供的疾病名称比对模型的结构示意图,如图6所示,疾病名称比对模型包括编码层、交互层和分类层,将疾病名称a~f输入至编码层,由编码层基于编码参数进行编码,得到疾病名称a~f的编码特征ea~ef;接着将编码特征ea~ef输入至交互层,由交互层的交互参数基于高维注意力机制对编码特征ea~ef进行两两交互,得到任一疾病名称分别与所有疾病名称之间的关系,如r
aa
表示疾病名称a与疾病名称a之间的关系,r
ab
表示疾病名称a与疾病名称b之间的关系等,其中r
aa
~r
af
对应的值为二维矩阵。然后将各疾病名称之间的关系输入至分类层,由分类层基于分类参数以及各待比对的疾病名称之间的关系,确定各疾病名称之间的比对结果,如s
af
表示疾病名称a与疾病名称f之间的分类得分,其中s
aa
~s
af
对应的值为二维矩阵,进而基于该分类得分可以确定疾病名称a与疾病名称f之间的比对结果。其中,疾病名称j与疾病名称k之间的分类得分score
j,k
可以基于如下公式确定:
[0109][0110]
其中,score
j,k
的取值范围为(0,1),flat表示将矩阵平铺为1维向量(维度为p*p),mlp为多层感知机,将把维度由p*p映射为e。w,b均为可训练参数,s
j,k
表示疾病名称j与疾病名称k之间的关系。
[0111]
基于上述任一实施例,图7是本发明提供的用于医保的疾病名称比对方法中步骤121的实施方式的流程示意图,如图7所示,步骤121包括:
[0112]
步骤1211、对各待比对的疾病名称进行疾病要素解析,得到各待比对的疾病名称的要素;
[0113]
步骤1212、基于编码参数,对各待比对的疾病名称的要素进行编码,得到各待比对的疾病名称的编码特征。
[0114]
具体地,各待比对的疾病名称的要素用于表述对应的疾病,其可以包括临床表现、部位、病因、病理、主导词等,其可以通过对各疾病名称进行疾病要素解析获取。在得到各疾病名称的要素后,对要素进行编码,从而能够从契合疾病本身性质的要素方面对各疾病名称进行编码,得到能够准确表征各疾病名称对应疾病性质的编码特征。
[0115]
可选地,在对各疾病名称进行编码时,首先通过疾病名称解析工具对各疾病名称进行疾病要素解析,得到各疾病名称的要素,并将各要素通过随机初始化的字向量层映射为向量,之后输入到blstm(双向lstm)层进行编码,取其双向的序列最后一个字符编码并拼接(即[f;b],f为前向序列结果,b为反向序列结果),得每种要素的编码特征,之后输入glu层通过门控机制进行处理。
[0116]
基于上述任一实施例,本发明还提供一种用于医保的疾病名称比对方法,该方法
包括:
[0117]
获取多个待比对的疾病名称,并将各待比对的疾病名称输入至疾病名称比对模型,得到疾病名称比对模型输出的比对结果。
[0118]
其中,疾病名称比对模型包括编码层、交互层和分类层。编码层用于基于编码参数对待比对的疾病名称进行编码,得到各待比对的疾病名称的编码特征;交互层用于基于交互参数,对各待比对的疾病名称的编码特征进行交互,得到各待比对的疾病名称之间的关系;分类层用于基于分类参数以及各待比对的疾病名称之间的关系,确定各待比对的疾病名称之间的比对结果。
[0119]
此外,疾病名称比对模型基于基础数据集、增强数据集以及鉴别数据集训练得到,并采用课程学习的方式(由易到难)依次选取对应的数据集对模型进行训练,具体为:首先采用基础数据集对疾病名称比对模型的初始模型进行训练,得到第一模型;接着采用增强数据集对第一模型进行训练,得到第二模型;最后采用鉴别数据集对第二模型进行训练,得到疾病名称比对模型。
[0120]
其中,基础数据集是基于病历文本中的疾病名称确定,即以不同病历疾病名称作为基础数据集中的负样本对,以病历疾病名称及其对应的标准疾病名称作为基础数据集中的正样本对。增强数据集中以基础数据集中的正样本对作为正样本对,并将基础数据集中的正样本对的疾病名称进行要素替换后得到的样本对作为负样本对。鉴别数据集是基于疾病体系(如icd-10)中的标准疾病名称确定,即以同一层级的标准疾病名称作为鉴别数据集的负样本对,以任一标准疾病名称及其上一层级的标准疾病名称作为鉴别数据集的正样本对。
[0121]
下面对本发明提供的用于医保的疾病名称比对装置进行描述,下文描述的用于医保的疾病名称比对装置与上文描述的用于医保的疾病名称比对方法可相互对应参照。
[0122]
基于上述任一实施例,图8是本发明提供的用于医保的疾病名称比对装置的结构示意图,如图8所示,该装置包括:
[0123]
获取单元810,用于获取待比对的疾病名称;
[0124]
比对单元820,用于基于基础正样本对和增强负样本对,对所述待比对的疾病名称进行比对,得到比对结果;
[0125]
所述基础正样本对包括相同疾病对应的多个疾病名称,所述增强负样本对包括不同疾病对应的疾病名称,所述增强负样本对是对所述基础正样本对中的疾病名称进行要素替换得到的。
[0126]
基于上述任一实施例,所述装置还包括:
[0127]
要素替换单元,用于对所述基础正样本对中的疾病名称进行要素替换,得到候选负样本对;
[0128]
增强负样本确定单元,用于在所述候选负样本对的疾病名称与任一基础正样本对中的疾病名称相同的情况下,将所述候选负样本对作为所述增强负样本对。
[0129]
基于上述任一实施例,所述比对单元820,用于:
[0130]
基于基础负样本对、所述基础正样本对以及所述增强负样本对,对所述待比对的疾病名称进行比对,得到比对结果;
[0131]
所述基础正样本对和所述基础负样本对是基于病历文本中的病历疾病名称和/或
疾病体系中的标准疾病名称确定的。
[0132]
基于上述任一实施例,所述比对单元820,用于:
[0133]
基于疾病名称比对模型,对所述待比对的疾病名称进行比对,得到比对结果;
[0134]
所述疾病名称比对模型依次基于第一类样本、第二类样本和第三类样本训练得到,所述第一类样本包括基于所述病历疾病名称确定的基础正样本对和基础负样本对,所述第二类样本包括增强负样本对和基于所述病历疾病名称确定的基础正样本对,所述第三类样本包括基于所述标准疾病名称确定的基础正样本对和基础负样本对。
[0135]
基于上述任一实施例,所述装置还包括:
[0136]
层级确定单元,用于确定各标准疾病名称在所述疾病体系中的层级;
[0137]
正负例划分单元,用于基于各标准疾病名称之间的层级关系,对各标准疾病名称进行正负例划分,得到所述基础正样本对和所述基础负样本对。
[0138]
基于上述任一实施例,所述正负例划分单元,包括:
[0139]
第一确定单元,用于在两个标准疾病名称中的一个标准疾病名称为另一个标准疾病名称的上一层级的标准疾病名称的情况下,将所述两个标准疾病名称划分至所述基础正样本对;
[0140]
第二确定单元,用于在所述两个标准疾病名称处于同一层级的情况下,将所述两个标准疾病名称划分至所述基础负样本对。
[0141]
基于上述任一实施例,所述比对单元820,包括:
[0142]
编码单元,用于基于编码参数,对各待比对的疾病名称进行编码,得到各待比对的疾病名称的编码特征;
[0143]
交互单元,用于基于交互参数,对各待比对的疾病名称的编码特征进行交互,得到各待比对的疾病名称之间的关系;
[0144]
分类单元,用于基于分类参数以及各待比对的疾病名称之间的关系,确定各待比对的疾病名称之间的比对结果;
[0145]
所述编码参数、所述交互参数和所述分类参数是基于所述基础正样本对和所述增强负样本对确定的。
[0146]
基于上述任一实施例,所述编码单元,包括:
[0147]
要素解析单元,用于对各待比对的疾病名称进行疾病要素解析,得到各待比对的疾病名称的要素;
[0148]
要素编码单元,用于基于所述编码参数,对各待比对的疾病名称的要素进行编码,得到各待比对的疾病名称的编码特征。
[0149]
图9是本发明提供的电子设备的结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、存储器(memory)920、通信接口(communications interface)930和通信总线940,其中,处理器910,存储器920,通信接口930通过通信总线940完成相互间的通信。处理器910可以调用存储器920中的逻辑指令,以执行用于医保的疾病名称比对方法,该方法包括:获取待比对的疾病名称;基于基础正样本对和增强负样本对,对所述待比对的疾病名称进行比对,得到比对结果;所述基础正样本对包括相同疾病对应的多个疾病名称,所述增强负样本对包括不同疾病对应的疾病名称,所述增强负样本对是对所述基础正样本对中的疾病名称进行要素替换得到的。
[0150]
此外,上述的存储器920中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0151]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的用于医保的疾病名称比对方法,该方法包括:获取待比对的疾病名称;基于基础正样本对和增强负样本对,对所述待比对的疾病名称进行比对,得到比对结果;所述基础正样本对包括相同疾病对应的多个疾病名称,所述增强负样本对包括不同疾病对应的疾病名称,所述增强负样本对是对所述基础正样本对中的疾病名称进行要素替换得到的。
[0152]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的用于医保的疾病名称比对方法,该方法包括:获取待比对的疾病名称;基于基础正样本对和增强负样本对,对所述待比对的疾病名称进行比对,得到比对结果;所述基础正样本对包括相同疾病对应的多个疾病名称,所述增强负样本对包括不同疾病对应的疾病名称,所述增强负样本对是对所述基础正样本对中的疾病名称进行要素替换得到的。
[0153]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0154]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0155]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。