一种医院疾病诊断分类自动编码的方法及系统与流程

文档序号:26755896发布日期:2021-09-25 04:05阅读:609来源:国知局
一种医院疾病诊断分类自动编码的方法及系统与流程

1.本发明属于自然语言处理技术领域,尤其涉及一种医院疾病诊断分类自动编码的方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.医院对医保信息标准化也越来越重视,医生手书的诊断文字的组织方式可能和icd

10编码中真实概念的书写方式差异巨大,编码员水平存在差异,造成了病案数据的参差不齐,疾病诊断编码质量不能得到有效保障,医保疾病诊断分类编码效率及准确率比较低。
4.现有的专利文献中,公开了相关的自动编码方案,部分采用了自然语言处理技术,在文本表示方面,多采用one

hot编码形式对文字进行处理得到词向量,此种方法是基于词与词之间相互独立的情况,未考虑词与词之间的关系问题,且得到的特征是离散的,稀疏的。


技术实现要素:

5.为克服上述现有技术的不足,本发明提供了一种医院疾病诊断分类自动编码的方法,基于word2vec模型能够实现对医院疾病诊断分类自动编码。
6.为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
7.第一方面,公开了一种医院疾病诊断分类自动编码的方法,包括:
8.获取医保疾病诊断数据并进行预处理;
9.将医保疾病诊断数据与国际疾病标准分类编码icd

10中条目名称匹配的数据进行编码并将该数据存储到医院疾病诊断与医保icd

10诊断代码映射关系库中;
10.针对无法匹配编码的数据,依据关系库中不同版本之间的映射关系进行处理,对成功映射的医院疾病诊断名称自动编码,并存储于映射关系库中;
11.针对不符合医保编码的数据进行分词处理,生成分词列表,计算两个词的相关程度,得出最佳匹配,并存储于关系库中;
12.输出自动编码结果。
13.进一步的技术方案,依据关系库中不同版本之间的映射关系进行处理,包括:疾病诊断数据与国临版、国标版、团标版与医保版对照关系,自动对成功匹配的疾病诊断名称进行编码。
14.进一步的技术方案,针对一句不同版本对照关系依然无法自动编码的疾病诊断数据,进行自然语言处理,构造中文词向量word2vec训练模型,通过词语相似度计算,得出最优匹配疾病诊断并进行编码。
15.进一步的技术方案,词语相似度计算,具体为:对分词结果处理转化为向量空间中
的向量运算,计算两个词的相似程度,计算生成某个词的相关词列表,寻找关联程度最高的词语。
16.进一步的技术方案,输出自动编码结果中包括不能匹配的疾病诊断数据。
17.第二方面,公开了一种医院疾病诊断分类自动编码的系统,包括:
18.医院疾病诊断数据库模块,被配置为:存储医保疾病诊断数据并进行预处理;
19.诊断名称自动编码模块,被配置为:将医保疾病诊断数据与国际疾病标准分类编码icd

10中条目名称匹配的数据进行编码并将该数据存储到医院疾病诊断与医保icd

10诊断代码映射关系库中;
20.不同版本对照关系自动编码模块,被配置为:针对无法匹配编码的数据,依据关系库中不同版本之间的映射关系进行处理,对成功映射的医院疾病诊断名称自动编码,并存储于映射关系库中;
21.文本相似度匹配编码模块,被配置为:针对不符合医保编码的数据进行分词处理,生成分词列表,计算两个词的相关程度,得出最佳匹配,并存储于关系库中。
22.进一步的技术方案,还包括:医院疾病诊断分类自动编码结果输出模块,被配置为:输出自动编码结果,输出自动编码结果中包括不能匹配的疾病诊断数据。
23.进一步的技术方案,还包括:诊断代码自动编码模块,被配置为:针对自动对成功匹配的疾病诊断名称且进行编码的数据,自动筛选出符合医保版编码的数据,存储到映射关系库中。
24.以上一个或多个技术方案存在以下有益效果:
25.本发明能够对疾病诊断与医保版icd

10进行自动映射并进行编码,可以提高临床医师正确书写疾病诊断、编码人员正确编码归类的水平及正确率,为医院drgs的绩效评价和合理控费奠定基础,促进医院医疗安全质量和服务水平的提高,有利于加强医院经营管理工作,推进医院精细化管理。
26.同时通过本发明的技术方案可以提高医保医疗业务信息编码的标准化程度,提高数据质量,为实现不同区域、不同医疗机构之间的数据共享开放提供支撑。
27.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
28.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
29.图1是本发明一种基于word2vec模型的医院疾病诊断分类自动编码的装置的构成;
30.图2是本发明一种基于word2vec模型的医院疾病诊断分类自动编码的方法过程;
31.图3是本发明的示例a;
32.图4是本发明icd

10国标版与医保版对照库示例;
33.图5是本发明icd

10国临版与医保版对照库示例;
34.图6是本发明实施例子总体采用的数据匹配结果;
35.图7

9是本发明实施例子不能匹配的结果。
具体实施方式
36.应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
37.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
38.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
39.实施例一
40.参见附图2所示,本实施例公开了一种医院疾病诊断分类自动编码的方法,针对医院的疾病诊断数据,通过与医保条目(诊断)名称、诊断代码匹配进行自动编码;对疾病诊断名称进行分词处理,构造中文词向量word2vec训练模型,通过词语相似度计算,得出最优匹配疾病诊断并进行正确编码;将正确编码的数据存储于医院疾病诊断与医保icd

10映射关系库中。
41.更为具体的包括以下步骤:
42.步骤201:从医院数据库中获取医保疾病诊断数据,包括疾病诊断编码、疾病诊断名称;步骤202:对获取的医保疾病诊断数据进行缺失值、异常值处理;
43.步骤203:通过条目(诊断)名称自动编码模块102,对成功与医保版icd

10中条目名称匹配的数据进行编码,并将该数据存储到医院疾病诊断与医保icd

10诊断代码映射关系库107中。
44.如果获取的医院数据中的疾病诊断名称与医保icd

10中的疾病诊断名称一致,则把医保icd

10中的疾病诊断代码赋值给医院的疾病诊断代码;
45.步骤204:通过不同版本对照关系自动编码模块103,对上述过程后不能编码的数据,依据不同版本之间的映射关系,对成功映射的医院疾病诊断名称自动编码,并存储于映射关系库107中。
46.其中,国临版、团标版、国标版等这些标准的版本与医保icd

10之间存在固定的映射关系,根据国临版、团标版、国标版与医保icd

10之间的映射关系进行名称的映射,以示例a的例子说明,医院的疾病诊断名称是叫伤寒杆菌败血症,那医院用的是国临版编码,国临与医保之间存在映射关系,那应该讲该医院的疾病诊断名称修改为伤寒杆菌性脓毒症,对应的编码也需要重新编码,也就是重新赋值。在该实施例子中,每次均需要将正确匹配的关系进行保存,存储在对照库中,假设开始有1万条医院的数据,经过步骤203匹配4千条,将成功匹配的关系进行保存,剩下的6千条用步骤204的方法进行匹配,成功匹配2千条,将匹配的这2千条的与医保版的关系进行保存,剩下未能匹配的4千条用步骤205的方法进行匹配,依次类推,最终剩下少数几条不能够匹配的再进行最终的处理。示例a,如图3所示。
47.icd

10国标版与医保版对照库示例,如图4所示。icd

10国临版与医保版对照库示例,如图5所示。
48.步骤205:通过诊断代码自动编码模块104,对上述过程后符合医保编码的数据存储到映射关系库107中,不符合的进行下一步处理。
49.步骤206:通过文本相似度匹配模块105中的分词模块1051,对疾病诊断数据进行分词处理,生成分词列表。
50.该步骤为做文本相似度计算匹配的前提,需要先对文本进行分词,将每个得到的分词用word2vec模型转化成词向量,转化成高维空间中的向量后才能进行向量之间的比较计算,寻找确定哪两个向量最近,也就是哪两个词组最近,进而判断哪两个文本最相似。
51.步骤207:通过word2vec中文词向量模型训练模块1052,计算两个词的相关程度,得出最佳匹配,并存储于医院疾病诊断与医保icd

10诊断代码映射关系库107中。
52.通过调用python机器学习库,可以使用该模型,单纯的文本是不能进行计算的,需要转化成计算机能计算识别的语言,也就是将文本转化成向量才能进行计算,2个向量之间才能进行相似度的计算。
53.在一实施例子中,假设有一万条数据,针对每一条进行分词,第一条分出3个词,第二条分出4个词,第三条分出2个词,以此类推,每一条都会有个分词的列表,将每一条的分词做成词向量进行比较。
54.步骤208:通过医院疾病诊断分类自动编码结果输出模块106,输出不能匹配的疾病诊断数据。
55.经过上述步骤的处理后,不能匹配的数据较少,如千佛山医院8条未匹配,历下人民1条未匹配,铁路医院1条未匹配。针对这些少数未能匹配成功的数据,一是可以人工匹配,即让医院的工作人员人工进行匹配,而是针对实在是无法进行匹配,保留编码,新增项目,如历下人民医院未能匹配的关于新冠肺炎监测的。
56.更为具体的,总体采用的数据匹配结果如图6所示。不能匹配的数据示例,如图7所示:千佛山医院不能匹配8条。历下人民医院不能匹配2条,如图8所示,省肿瘤不能匹配0条,铁路医院不能匹配的1条,如图9所示。
57.实施例二
58.本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
59.实施例三
60.本实施例的目的是提供一种计算机可读存储介质。
61.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述方法的步骤。
62.实施例四
63.如图1所示,本实施例的目的是提供一种基于word2vec模型的医院疾病诊断分类自动编码系统,包括:医院疾病诊断数据库模块101、条目(诊断)名称自动编码模块102、不同版本对照关系自动编码模块103、诊断代码自动编码模块104、文本相似度匹配编码模块105、医院疾病诊断分类自动编码结果输出模块106、医院疾病诊断与医保icd

10诊断代码映射关系库107构成。
64.文本相似度匹配编码模块105由分词模块1051、word2vec中文词向量模型训练模块1052构成。
65.医院疾病诊断数据库模块101,主要用于存储医院的疾病诊断数据。
66.条目(诊断)名称自动编码模块102,通过该模块医院的疾病诊断数据自动与医保
版icd

10中的条目(诊断)名称匹配,自动编码成功匹配的诊断名称。
67.不同版本对照关系自动编码模块103,通过该模块医院的疾病诊断数据根据国临版、国标版、团标版与医保版对照关系,自动对成功匹配的疾病诊断名称进行编码。
68.诊断代码自动编码模块104,通过该模块自动筛选出符合医保版编码的数据,存储到映射关系库中。
69.文本相似度匹配编码模块105,对上述模块中不能匹配编码的数据通过自然语言处理,构造中文词向量word2vec训练模型,通过词语相似度计算,得出最优匹配疾病诊断并进行编码。
70.医院疾病诊断分类自动编码结果输出模块106,输出不能匹配和编码的疾病诊断数据。
71.医院疾病诊断与医保icd

10诊断代码映射关系库107,存储医院疾病诊断与医保诊断代码之间的映射关系数据。
72.文本相似度匹配编码模块105包括:
73.分词模块1051,通过该模块对医院、医保版icd

10中的疾病诊断名称进行分词处理。
74.word2vec中文词向量模型训练模块1052,构造词向量训练模型,对分词结果处理转化为向量空间中的向量运算,计算两个词的相似程度,计算生成某个词的相关词列表,寻找关联程度最高的词语。
75.以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
76.本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
77.上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1