疾病名称对码列表的生成方法、装置、设备及存储介质与流程

文档序号:27449338发布日期:2021-11-18 00:36阅读:275来源:国知局
疾病名称对码列表的生成方法、装置、设备及存储介质与流程

1.本发明涉及人工智能领域,尤其涉及一种疾病名称对码列表的生成方法、装置、设备及存储介质。


背景技术:

2.医学临床数据标准化是支持医联(共)体、区域内数据互通互认、医保异地结算等多种场景的基础能力。在制定统一的标准目录之前,不同省市、地区、医院在建立信息化系统的同时,对于诊疗、手术、疾病、药品等的编码及名称没有采用统一的标准,造成医疗信息不能全国通用。
3.目前,在进行医疗支付方式改革的过程中,也需要将历史数据的编码均统一化,否则,难以适应新时代医疗保障的要求,目前的疾病名称都是通过人为对码生成列表,效率低下。


技术实现要素:

4.本发明提供了一种疾病名称对码列表的生成方法、装置、设备及存储介质,用于利用改进的对码模型对待对码的疾病名称进行准确分词并对码,提高了对码模型对疾病名称的对码准确率和召回率。
5.本发明实施例的第一方面提供一种疾病名称对码列表的生成方法,包括:获取初始数据集,所述初始数据集包括多条需要进行对码的原始医疗语句;对所述初始数据集进行预处理,得到多个类别的医疗数据;调用预置的对码模型中的识别神经网络对于所述多个类别的医疗数据进行实体识别,得到疾病名称识别结果;调用所述对码模型中的分布式全文检索引擎和孪生网络将所述疾病名称识别结果与预置的标准数据集进行对码,得到对码结果;基于所述对码结果生成对码列表,所述对码列表包括原始短语列、标准短语列和数据编码列。
6.可选的,在本发明实施例第一方面的第一种实现方式中,所述对所述初始数据集进行预处理,得到多个类别的医疗数据,包括:对所述初始数据集进行格式调整和文本纠错,得到替换后的数据文本;筛选掉所述替换后的数据文本中的非医疗数据和重复数据,得到筛选后的数据;将筛选后的数据中缺失数据和异常数据进行补全、修改或删除操作,得到调整后的数据;将调整后的数据按照预置科室类别进行集成,得到多个类别的医疗数据。
7.可选的,在本发明实施例第一方面的第二种实现方式中,所述将调整后的数据按照预置科室类别进行集成,得到多个类别的医疗数据,包括:获取预置科室类别中每个科室类别对应的关键词集合,得到多个科室关键词集合,每个科室关键词集合对应一个科室类别;将所述调整后的数据与所述多个科室关键词集合依次进行匹配,得到多个匹配结果对,所述匹配结果对包括已匹配的医疗语句和已匹配的科室类别;将所述调整后的数据按照每个匹配结果对中的已匹配的科室类别进行集成,得到多个类别的医疗数据,每个类别的医疗数据中包括属于此类别的多个医疗相关语句。
8.可选的,在本发明实施例第一方面的第三种实现方式中,所述调用预置的对码模型中的识别神经网络对于所述多个类别的医疗数据进行实体识别,得到疾病名称识别结果,包括:将所述多个类别的医疗数据转换为多个字词向量序列;对所述多个字词向量序列进行标注,得到多个标注后的向量序列;从预置的对码模型中调用识别神经网络对所述多个标注后的向量序列进行实体识别,得到实体识别结果,所述实体识别结果包括多个医疗实体特征向量及每个医疗实体对应的词性;从所述实体识别结果的多个医疗实体特征向量中筛选出多个疾病名称,得到疾病名称识别结果,所述疾病名称识别结果中包括多个名词属性的疾病名称。
9.可选的,在本发明实施例第一方面的第四种实现方式中,所述从预置的对码模型中调用识别神经网络对所述多个标注后的向量序列进行实体识别,得到实体识别结果,所述实体识别结果包括多个医疗实体特征向量及每个医疗实体对应的词性,包括:调用预置的对码模型中识别神经网络的bilstm层对所述多个标注后的序列进行特征提取,得到多个预测标签序列,其中,预测标签序列中的每个预测标签对应所述标注后的序列中的每个单词;调用所述识别神经网络的crf层对所述多个预测标签序列进行上下文语义约束调整,得到最优标签序列;确定所述最优标签序列中每个医疗实体特征向量对应的词性,得到最优词性序列,并将所述最优标签序列及所述最优词性序列确定为实体识别结果。
10.可选的,在本发明实施例第一方面的第五种实现方式中,所述调用所述对码模型中的分布式全文检索引擎和孪生网络将所述疾病名称识别结果与预置的标准数据集进行对码,得到对码结果,包括:将所述疾病名称识别结果中的每个疾病名称特征向量与预置的标准数据集进行全词匹配,得到全词匹配结果;若全词匹配结果不为空,则将匹配到的多个词语确定为候选对码集;若全词匹配结果为空,则利用分布式全文检索引擎elasticsearch进行相关词召回,得到召回候选集,所述召回候选集中包括多个召回的词语;计算所述召回候选集和所述疾病名称识别结果之间的相似度,得到按照从大到小排列的相似度序列,将所述相似度序列中靠前的预置数量的词语确定为候选对码集;调用所述对码模型中的孪生网络将所述候选对码集与预置的标准疾病名称进行对码,生成对码结果,所述对码结果包括多个短语对,每个短语对包括原始疾病名称与对应的标准疾病名称。
11.可选的,在本发明实施例第一方面的第六种实现方式中,所述基于所述对码结果生成对码列表,所述对码列表包括原始短语列、标准短语列和数据编码列,包括:基于所述对码结果中多个短语对确定多个目标原始疾病名称,并将所述多个目标原始疾病名称导入原始短语列;基于所述对码结果中多个短语对确定多个目标标准疾病名称,并将所述多个目标标准疾病名称导入标准短语列;基于每个目标标准疾病名称在预置编码标准目录中查找至少一个候选编码;将所述至少一个候选编码中更新时间最晚的候选编码确定为每个目标标准疾病名称对应的标准疾病编码,得到多个标准疾病编码,并将所述多个标准疾病编码导入数据编码列;将所述原始短语列、所述标准短语列和所述数据编码列依次排列,生成对码列表。
12.本发明实施例的第二方面提供了一种疾病名称对码列表的生成装置,包括:获取模块,用于获取初始数据集,所述初始数据集包括多条需要进行对码的原始医疗语句;预处理模块,用于对所述初始数据集进行预处理,得到多个类别的医疗数据;识别模块,用于调用预置的对码模型中的识别神经网络对于所述多个类别的医疗数据进行实体识别,得到疾
病名称识别结果;对码模块,用于调用所述对码模型中的分布式全文检索引擎和孪生网络将所述疾病名称识别结果与预置的标准数据集进行对码,得到对码结果;生成模块,用于基于所述对码结果生成对码列表,所述对码列表包括原始短语列、标准短语列和数据编码列。
13.可选的,在本发明实施例第二方面的第一种实现方式中,预处理模块包括:数据纠错单元,用于对所述初始数据集进行格式调整和文本纠错,得到替换后的数据文本;数据筛选单元,用于筛选掉所述替换后的数据文本中的非医疗数据和重复数据,得到筛选后的数据;数据调整单元,用于将筛选后的数据中缺失数据和异常数据进行补全、修改或删除操作,得到调整后的数据;数据集成单元,用于将调整后的数据按照预置科室类别进行集成,得到多个类别的医疗数据。
14.可选的,在本发明实施例第二方面的第二种实现方式中,数据集成单元具体用于:获取预置科室类别中每个科室类别对应的关键词集合,得到多个科室关键词集合,每个科室关键词集合对应一个科室类别;将所述调整后的数据与所述多个科室关键词集合依次进行匹配,得到多个匹配结果对,所述匹配结果对包括已匹配的医疗语句和已匹配的科室类别;将所述调整后的数据按照每个匹配结果对中的已匹配的科室类别进行集成,得到多个类别的医疗数据,每个类别的医疗数据中包括属于此类别的多个医疗相关语句。
15.可选的,在本发明实施例第二方面的第三种实现方式中,识别模块包括:序列转换单元,用于将所述多个类别的医疗数据转换为多个字词向量序列;序列标注单元,用于对所述多个字词向量序列进行标注,得到多个标注后的向量序列;实体识别单元,用于从预置的对码模型中调用识别神经网络对所述多个标注后的向量序列进行实体识别,得到实体识别结果,所述实体识别结果包括多个医疗实体特征向量及每个医疗实体对应的词性;名称筛选单元,用于从所述实体识别结果的多个医疗实体特征向量中筛选出多个疾病名称,得到疾病名称识别结果,所述疾病名称识别结果中包括多个名词属性的疾病名称。
16.可选的,在本发明实施例第二方面的第四种实现方式中,实体识别单元具体用于:调用预置的对码模型中识别神经网络的bilstm层对所述多个标注后的序列进行特征提取,得到多个预测标签序列,其中,预测标签序列中的每个预测标签对应所述标注后的序列中的每个单词;调用所述识别神经网络的crf层对所述多个预测标签序列进行上下文语义约束调整,得到最优标签序列;确定所述最优标签序列中每个医疗实体特征向量对应的词性,得到最优词性序列,并将所述最优标签序列及所述最优词性序列确定为实体识别结果。
17.可选的,在本发明实施例第二方面的第五种实现方式中,对码模块具体用于:将所述疾病名称识别结果中的每个疾病名称特征向量与预置的标准数据集进行全词匹配,得到全词匹配结果;若全词匹配结果不为空,则将匹配到的多个词语确定为候选对码集;若全词匹配结果为空,则利用分布式全文检索引擎elasticsearch进行相关词召回,得到召回候选集,所述召回候选集中包括多个召回的词语;计算所述召回候选集和所述疾病名称识别结果之间的相似度,得到按照从大到小排列的相似度序列,将所述相似度序列中靠前的预置数量的词语确定为候选对码集;调用所述对码模型中的孪生网络将所述候选对码集与预置的标准疾病名称进行对码,生成对码结果,所述对码结果包括多个短语对,每个短语对包括原始疾病名称与对应的标准疾病名称。
18.可选的,在本发明实施例第二方面的第六种实现方式中,生成模块具体用于:基于所述对码结果中多个短语对确定多个目标原始疾病名称,并将所述多个目标原始疾病名称
导入原始短语列;基于所述对码结果中多个短语对确定多个目标标准疾病名称,并将所述多个目标标准疾病名称导入标准短语列;基于每个目标标准疾病名称在预置编码标准目录中查找至少一个候选编码;将所述至少一个候选编码中更新时间最晚的候选编码确定为每个目标标准疾病名称对应的标准疾病编码,得到多个标准疾病编码,并将所述多个标准疾病编码导入数据编码列;将所述原始短语列、所述标准短语列和所述数据编码列依次排列,生成对码列表。
19.本发明实施例的第三方面提供了一种疾病名称对码列表的生成设备,存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述疾病名称对码列表的生成设备执行上述的疾病名称对码列表的生成方法。
20.本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被处理器执行时实现上述任一实施方式所述的疾病名称对码列表的生成方法的步骤。
21.本发明实施例提供的技术方案中,获取初始数据集,初始数据集包括多条需要进行对码的原始医疗语句;对初始数据集进行预处理,得到多个类别的医疗数据;调用预置的对码模型中的识别神经网络对于多个类别的医疗数据进行实体识别,得到疾病名称识别结果;调用对码模型中的分布式全文检索引擎和孪生网络将疾病名称识别结果与预置的标准数据集进行对码,得到对码结果;基于对码结果生成对码列表,对码列表包括原始短语列、标准短语列和数据编码列。本发明实施例,利用改进的对码模型中的识别神经网络对待对码的疾病名称进行准确分词,然后利用改进的对码模型中的分布式全文检索引擎进行召回,最后通过改进的对码模型中的孪生网络进行对码,提高了改进的对码模型对疾病名称的对码准确率和召回率。
附图说明
22.图1为本发明实施例中疾病名称对码列表的生成方法的一个实施例示意图;
23.图2为本发明实施例中疾病名称对码列表的生成方法的另一个实施例示意图;
24.图3为本发明实施例中疾病名称对码列表的生成装置的一个实施例示意图;
25.图4为本发明实施例中疾病名称对码列表的生成装置的另一个实施例示意图;
26.图5为本发明实施例中疾病名称对码列表的生成设备的一个实施例示意图。
具体实施方式
27.本发明提供了一种疾病名称对码列表的生成方法、装置、设备及存储介质,用于利用改进的对码模型中的识别神经网络对待对码的疾病名称进行准确分词,然后利用改进的对码模型中的分布式全文检索引擎进行召回,最后通过改进的对码模型中的孪生网络进行对码,提高了改进的对码模型对疾病名称的对码准确率和召回率。
28.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例进行描述。
29.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、
延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
30.服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
31.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
32.请参阅图1,本发明实施例提供的疾病名称对码列表的生成方法的流程图,具体包括:
33.101、获取初始数据集,初始数据集包括多条需要进行对码的原始医疗语句。
34.其中,原始医疗语句为未经处理的医疗语句,该医疗语句中包括正常数据和脏数据,脏数据是指缺失数据、异常数据、重复数据或不能识别的医疗数据。
35.例如,血糖的正常取值范围为3.9~6.1mmol,血糖偏高或偏低,血糖值的数量级不会发生变化,在单位不变的情况下,若血糖值的数量级超过100,可以认定为异常数据。
36.可以理解的是,本发明的执行主体可以为疾病名称对码列表的生成装置,还可以是服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
37.102、对初始数据集进行预处理,得到多个类别的医疗数据。
38.其中,预处理过程主要包括数据清洗和数据集成,具体的,数据清洗主要包括筛选掉与主题无关的数据、删除重复数据,补全缺失数据,调整异常数据。
39.例如,若初始数据集中包括性别、体检日期、身份证id号等三个字段,对于糖尿病的检测来说,id号就属于无关字段,需要进行删除;性别字段男女可以分别映射为0和1,若妇科病对应的性别字段为男,则该数据为异常数据。
40.103、调用预置的对码模型中的识别神经网络对于多个类别的医疗数据进行实体识别,得到疾病名称识别结果。
41.需要说明的是,目前的医疗对码模型,大都是基于字典进行的,只有在自定义的字典中的词语才能被识别出来,而本实施例中预置的对码模型(改进的对码模型)解决了这一弊端。本实施例中预置的对码模型的识别神经网络是基于上下文语义进行识别的,能考虑到上下文语义确定分词场景,提高了实体识别结果的准确性。比如说,原来“银屑病”不在字典中,分词工具就识别不出来,而改用对码模型的识别神经网络的话,只要训练数据足够多,就可以给识别出来。传统的对码模型不具备实体识别功能,而本实施例中,将用于数据对码的对码模型的前序部分进行改造,加入识别神经网络,从而增加实体识别功能。
42.104、调用对码模型中的分布式全文检索引擎和孪生网络将疾病名称识别结果与预置的标准数据集进行对码,得到对码结果。
43.具体的,服务器调用改进的对码模型中的分布式全文检索引擎和孪生网络将疾病
名称识别结果与预置的标准数据集进行对码,得到对码结果。
44.需要说明的是,改进的对码模型可以对疾病名称识别结果进行预处理,然后基于预处理后的数据,与预置的标准数据集进行对码匹配,可以计算每个识别到的原始疾病名称与标准数据集中每个词语的相似度,并按照相似度大小进行降序排列,将序列中位于队首的疾病名称确定为相匹配的标准疾病名称,将匹配的原始疾病名称和标准疾病名称确定为短语对,将生成的多个短语对作为对码结果。
45.105、基于对码结果生成对码列表,对码列表包括原始短语列、标准短语列和数据编码列。
46.具体的,服务器将多个短语对中的原始疾病名称放入原始短语列中,将对应的标准疾病名称放入标准短语列中,然后基于标准短语列在预置编码标准中查找对应的标准疾病编码,其中,不同的原始疾病名称可以对应相同的标准疾病名称,而标准疾病名称对应的疾病编码是唯一的。
47.本发明实施例,利用改进的对码模型中的识别神经网络对待对码的疾病名称进行准确分词,然后利用改进的对码模型中的分布式全文检索引擎进行召回,最后通过改进的对码模型中的孪生网络进行对码,提高了改进的对码模型对疾病名称的对码准确率和召回率。
48.请参阅图2,本发明实施例提供的疾病名称对码列表的生成方法的另一个流程图,具体包括:
49.201、获取初始数据集,初始数据集包括多条需要进行对码的原始医疗语句。
50.其中,原始医疗语句为未经处理的医疗语句,该医疗语句中包括正常数据和脏数据,脏数据是指缺失数据、异常数据、重复数据或不能识别的医疗数据。
51.例如,血糖的正常取值范围为3.9~6.1mmol,血糖偏高或偏低,血糖值的数量级不会发生变化,在单位不变的情况下,若血糖值的数量级超过100,可以认定为异常数据。
52.可以理解的是,本发明的执行主体可以为疾病名称对码列表的生成装置,还可以是服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
53.202、对初始数据集进行预处理,得到多个类别的医疗数据。
54.服务器对初始数据集进行预处理,得到多个类别的医疗数据。其中,预处理过程主要包括数据清洗和数据集成,具体的,数据清洗主要包括筛选掉与主题无关的数据(非医疗数据)、删除重复数据,补全缺失数据,调整异常数据。
55.例如,若初始数据集中包括性别、体检日期、身份证id号等三个字段,对于糖尿病的检测来说,id号就属于无关字段,需要进行删除;性别字段男女可以分别映射为0和1,若妇科病对应的性别字段为男,则该数据为异常数据。
56.可选的,服务器对初始数据集进行预处理,得到多个类别的医疗数据具体包括:
57.1、服务器对初始数据集进行格式调整和文本纠错,得到替换后的数据文本;
58.其中,基于预置的词典对初始数据集进行拼写检测,对拼写错误的字词进行替换。得到替换后的数据文本。例如,若数据集中出现“夫塞米”,根据预置的标准词典,发现没有“夫塞米”这个词汇,查找同音或相似的词汇,检索到“呋塞米”,那么用“呋塞米”替换“夫塞米”,同理,若出现“拉塞米”检索不到该词汇,进行近似检索后,发现“托拉塞米”的可能性最大,将“托拉塞米”替换“拉塞米”。
59.其中,格式调整可以包括去除空格,全角转半角等,或者是,语气助词、标点符号等无用字符,还可以进行一下特征的规则处理,例如,按照语义完整性对段落中的语句进行划分,还可以进行其他处理,具体此处不作限定。
60.2、服务器筛选掉替换后的数据文本中的非医疗数据和重复数据,得到筛选后的数据;
61.进行格式调整和文本纠错后的数据,仍然需要将其中不涉及医疗知识的非医疗数据进行删除,并将重复数据择一选用。
62.3、服务器将筛选后的数据中缺失数据和异常数据进行补全、修改或删除操作,得到调整后的数据;
63.其中,对缺失数据可以进行删除或补全,例如,若缺失值对应的其他属性比较重要或属性较多时,需要对缺失值进行补全,例如,利用同类均值插补或进行多重插补,具体此处不再赘述。对异常数据可以进行删除或修改,此处不再赘述。
64.4、服务器将调整后的数据按照预置科室类别进行集成,得到多个类别的医疗数据。
65.具体包括:服务器获取预置科室类别中每个科室类别对应的关键词集合,得到多个科室关键词集合,每个科室关键词集合对应一个科室类别;服务器将调整后的数据与多个科室关键词集合依次进行匹配,得到多个匹配结果对,匹配结果对包括已匹配的医疗语句和已匹配的科室类别;服务器将调整后的数据按照每个匹配结果对中的已匹配的科室类别进行集成,得到多个类别的医疗数据,每个类别的医疗数据中包括属于此类别的多个医疗相关语句。
66.例如,内科对应的关键词集合可以包括心脏病、胃病、结石等,每一个科室涵盖的疾病种类众多,每种疾病都可以挑选3到5个关键词放入内科对应的关键词集合。又例如,外科对应的关键词集合可以涉及骨科、心胸外科、泌尿外科等,具体包括气胸、切除肺脏、结石手术和脑出血等关键词。
67.203、将多个类别的医疗数据转换为多个字词向量序列。
68.服务器将多个类别的医疗数据转换为多个字词向量序列。其中,每一个类别的医疗数据对应一个字词向量序列。
69.204、对多个字词向量序列进行标注,得到多个标注后的向量序列。
70.服务器对多个字词向量序列进行标注,得到多个标注后的向量序列。
71.需要说明的是,本实施例通过bio模式进行标注,例如,病损实体:b

jibing,i

jibing,解剖实体:b

jiepou,i

jiepou,术式实体:b

shushi,i

shushi。其中,b:begin,表示开始;i:inside,表示中间;o:other,表示其他。bio标注:一般情况下,将每个元素标注为“b

x”、“i

x”或者“o”。例如,“b

x”表示此元素所在的片段属于x类型并且此元素在此片段的开头,“i

x”表示此元素所在的片段属于x类型并且此元素在此片段的中间位置,“o”表示不属于任何类型。
72.205、从预置的对码模型中调用识别神经网络对多个标注后的向量序列进行实体识别,得到实体识别结果,实体识别结果包括多个医疗实体特征向量及每个医疗实体对应的词性。
73.具体包括:1、服务器从预置的对码模型中调用识别神经网络中的bilstm层对多个
标注后的序列进行特征提取,得到多个预测标签序列,其中,预测标签序列中的每个预测标签对应标注后的序列中的每个单词;
74.例如,“腕部虫咬伤”,首先得到字向量{腕,部,虫,咬,伤},经过bilstm层,对于“腕”,对应每个类别的概率矩阵为[1.5、0.9、0.1、0.08、0.05],“部”对应的分数为[0.2、0.4、0.1、0.11、0.05],“虫”对应的分数为[0.09、0.02、0.03、0.08、0.1],“咬”对应的分数为[0.003、0.002、0.2、0.07、0.05],“伤”对应的分数为[0.12、0.2、0.1、0.065、0.5]。
[0075]
其中,识别神经网络为事先进行训练得到的,其训练过程包括:先对预料进行标注:定义需要识别的实体类型,然后使用bio模式进行标注,
[0076]
例如,假设一共有n中可能的标签序列组合,且第i个标签序列的得分为p
i
,那么所有n条可能标签序列组合的总得分为:
[0077]
p
total
=p1+p2+p3+

+p
n
=e
s1
+e
s2
+e
s3
+

+e
sn
,其中e
si
表示第i个标签序列得分。显然,在所有可能的标签序列组合必然存在一个序列是真实标签序列,而剩下的标签序列组合都是错误的。在整个识别神经网络训练过程中,crf层的损失函数只需要两个得分:一个是真实标签序列得分,一个是所有可能标签序列组合的总得分,让真实的标签序列得分在总得分中的占比是最高的,即得到最优的识别神经网络。对于真实标签序列的得分e
si
,根据发射分数(emission score)和转移分数(transition score)直接计算s
i
即可:
[0078]
s
i
=emissionscore+transitionscore.
[0079]
2、服务器调用识别神经网络中的crf层对多个预测标签序列进行上下文语义约束调整,得到最优标签序列;
[0080]
服务器将上述预测标签序列作为crf层的输入,在crf层中进行上下文语义约束,将选择具有最高预测分数的标签序列作为最佳标签序列。其中,上下文语义约束可以通过命名实体识别进行语义补全,例如,对于文本“症状性动脉粥样硬化性椎动脉起始部狭窄血管内治疗”,经过初始识别后得到多个实体,例如,“症状性动脉粥样硬化”、“椎动脉”、“狭窄”,但是识别到的短语不能保留完整语义,因此通过命名实体识别进行补充,最终输出的最优标签序列是“症状性动脉粥样硬化性椎动脉起始部狭窄”。
[0081]
3、服务器确定最优标签序列中每个医疗实体特征向量对应的词性,得到最优词性序列,并将最优标签序列及最优词性序列确定为实体识别结果。
[0082]
206、从实体识别结果的多个医疗实体特征向量中筛选出多个疾病名称,得到疾病名称识别结果,疾病名称识别结果中包括多个名词属性的疾病名称。
[0083]
服务器从实体识别结果的多个医疗实体特征向量中筛选出多个疾病名称,得到疾病名称识别结果,疾病名称识别结果中包括多个名词属性的疾病名称。例如,若是与疾病相关,则对应的词性标识可以为nhd,若是与药品相关,则对应的词性标识可以为nhm;若是与医药疾病等健康相关名词相关,则对应的词性标识可以为nh。又例如,名词标识为n,形容词标识为a;数量词标识为mq,生物名标识为nb,具体此处不再赘述。
[0084]
需要说明的是,目前的医疗对码模型,大都是基于字典进行的,只有在自定义的字典中的词语才能被识别出来,而本实施例中预置的对码模型(改进的对码模型)解决了这一弊端。本实施例中预置的对码模型的识别神经网络是基于上下文语义进行识别的,能考虑到上下文语义确定分词场景,提高了实体识别结果的准确性。比如说,原来“银屑病”不在字典中,分词工具就识别不出来,而改用对码模型的识别神经网络的话,只要训练数据足够
多,就可以给识别出来。传统的对码模型不具备实体识别功能,而本实施例中,将用于数据对码的对码模型的前序部分进行改造,加入识别神经网络,从而增加实体识别功能。
[0085]
207、调用对码模型中的分布式全文检索引擎和孪生网络将疾病名称识别结果与预置的标准数据集进行对码,得到对码结果。
[0086]
具体的,服务器将疾病名称识别结果中的每个疾病名称特征向量与预置的标准数据集进行全词匹配,得到全词匹配结果;若全词匹配结果不为空,则服务器将匹配到的多个词语确定为候选对码集;若全词匹配结果为空,则服务器利用分布式全文检索引擎elasticsearch进行相关词召回,得到召回候选集,召回候选集中包括多个召回的词语;服务器计算召回候选集和疾病名称识别结果之间的相似度,得到按照从大到小排列的相似度序列,将相似度序列中靠前的预置数量的词语确定为候选对码集;服务器调用对码模型中的孪生网络将候选对码集与预置的标准疾病名称进行对码,生成对码结果,对码结果包括多个短语对,每个短语对包括原始疾病名称与对应的标准疾病名称。
[0087]
需要说明的是,预置的对码模型可以对疾病名称识别结果进行预处理,然后基于预处理后的数据,与预置的标准数据集进行对码匹配,可以计算每个识别到的原始疾病名称与标准数据集中每个词语的相似度,并按照相似度大小进行降序排列,将序列中位于队首的疾病名称确定为相匹配的标准疾病名称,将匹配的原始疾病名称和标准疾病名称确定为短语对,将生成的多个短语对作为对码结果。
[0088]
208、基于对码结果生成对码列表,对码列表包括原始短语列、标准短语列和数据编码列。
[0089]
具体的,服务器基于对码结果中多个短语对确定多个目标原始疾病名称,并将多个目标原始疾病名称导入原始短语列;服务器基于对码结果中多个短语对确定多个目标标准疾病名称,并将多个目标标准疾病名称导入标准短语列;服务器基于每个目标标准疾病名称在预置编码标准目录中查找至少一个候选编码;服务器将至少一个候选编码中更新时间最晚的候选编码确定为每个目标标准疾病名称对应的标准疾病编码,得到多个标准疾病编码,并将多个标准疾病编码导入数据编码列;服务器将原始短语列、标准短语列和数据编码列依次排列,生成对码列表。
[0090]
需要说明的是,不同的原始疾病名称可以对应相同的标准疾病名称,而标准疾病名称对应的疾病编码是唯一的。例如,对于识别到的原始疾病名称,可能包括:心衰、心力衰竭、心脏衰竭等,而上述疾病名称对应的标准疾病名称为“心功能不全”,该标准疾病名称“心功能不全”对应的疾病编码为“i50.902”。又例如,“脑梗死”“脑卒中”等名称对应的标准疾病名称为“脑梗塞”,而“脑梗塞”对应的疾病编码为“i63.902”。
[0091]
本发明实施例,利用改进的对码模型中的识别神经网络对待对码的疾病名称进行准确分词,然后利用改进的对码模型中的分布式全文检索引擎进行召回,最后通过改进的对码模型中的孪生网络进行对码,提高了改进的对码模型对疾病名称的对码准确率和召回率。
[0092]
上面对本发明实施例中疾病名称对码列表的生成方法进行了描述,下面对本发明实施例中疾病名称对码列表的生成装置进行描述,请参阅图3,本发明实施例中疾病名称对码列表的生成装置的一个实施例包括:
[0093]
获取模块301,用于获取初始数据集,所述初始数据集包括多条需要进行对码的原
始医疗语句;
[0094]
预处理模块302,用于对所述初始数据集进行预处理,得到多个类别的医疗数据;
[0095]
识别模块303,用于调用预置的对码模型中的识别神经网络对于所述多个类别的医疗数据进行实体识别,得到疾病名称识别结果;
[0096]
对码模块304,用于调用所述对码模型中的分布式全文检索引擎和孪生网络将所述疾病名称识别结果与预置的标准数据集进行对码,得到对码结果;
[0097]
生成模块305,用于基于所述对码结果生成对码列表,所述对码列表包括原始短语列、标准短语列和数据编码列。
[0098]
本发明实施例,利用改进的对码模型中的识别神经网络对待对码的疾病名称进行准确分词,然后利用改进的对码模型中的分布式全文检索引擎进行召回,最后通过改进的对码模型中的孪生网络进行对码,提高了改进的对码模型对疾病名称的对码准确率和召回率。
[0099]
请参阅图4,本发明实施例中疾病名称对码列表的生成装置的另一个实施例包括:
[0100]
获取模块301,用于获取初始数据集,所述初始数据集包括多条需要进行对码的原始医疗语句;
[0101]
预处理模块302,用于对所述初始数据集进行预处理,得到多个类别的医疗数据;
[0102]
识别模块303,用于调用预置的对码模型中的识别神经网络对于所述多个类别的医疗数据进行实体识别,得到疾病名称识别结果;
[0103]
对码模块304,用于调用所述对码模型中的分布式全文检索引擎和孪生网络将所述疾病名称识别结果与预置的标准数据集进行对码,得到对码结果;
[0104]
生成模块305,用于基于所述对码结果生成对码列表,所述对码列表包括原始短语列、标准短语列和数据编码列。
[0105]
可选的,预处理模块302包括:
[0106]
数据纠错单元3021,用于对所述初始数据集进行格式调整和文本纠错,得到替换后的数据文本;
[0107]
数据筛选单元3022,用于筛选掉所述替换后的数据文本中的非医疗数据和重复数据,得到筛选后的数据;
[0108]
数据调整单元3023,用于将筛选后的数据中缺失数据和异常数据进行补全、修改或删除操作,得到调整后的数据;
[0109]
数据集成单元3024,用于将调整后的数据按照预置科室类别进行集成,得到多个类别的医疗数据。
[0110]
可选的,数据集成单元3024具体用于:
[0111]
获取预置科室类别中每个科室类别对应的关键词集合,得到多个科室关键词集合,每个科室关键词集合对应一个科室类别;
[0112]
将所述调整后的数据与所述多个科室关键词集合依次进行匹配,得到多个匹配结果对,所述匹配结果对包括已匹配的医疗语句和已匹配的科室类别;
[0113]
将所述调整后的数据按照每个匹配结果对中的已匹配的科室类别进行集成,得到多个类别的医疗数据,每个类别的医疗数据中包括属于此类别的多个医疗相关语句。
[0114]
可选的,识别模块303包括:
[0115]
序列转换单元3031,用于将所述多个类别的医疗数据转换为多个字词向量序列;
[0116]
序列标注单元3032,用于对所述多个字词向量序列进行标注,得到多个标注后的向量序列;
[0117]
实体识别单元3033,用于从预置的对码模型中调用识别神经网络对所述多个标注后的向量序列进行实体识别,得到实体识别结果,所述实体识别结果包括多个医疗实体特征向量及每个医疗实体对应的词性;
[0118]
名称筛选单元3034,用于从所述实体识别结果的多个医疗实体特征向量中筛选出多个疾病名称,得到疾病名称识别结果,所述疾病名称识别结果中包括多个名词属性的疾病名称。
[0119]
可选的,实体识别单元3033具体用于:
[0120]
调用预置的对码模型中识别神经网络中的bilstm层对所述多个标注后的序列进行特征提取,得到多个预测标签序列,其中,预测标签序列中的每个预测标签对应所述标注后的序列中的每个单词;
[0121]
调用所述识别神经网络的crf层对所述多个预测标签序列进行上下文语义约束调整,得到最优标签序列;
[0122]
确定所述最优标签序列中每个医疗实体特征向量对应的词性,得到最优词性序列,并将所述最优标签序列及所述最优词性序列确定为实体识别结果。
[0123]
可选的,对码模块304具体用于:
[0124]
将所述疾病名称识别结果中的每个疾病名称特征向量与预置的标准数据集进行全词匹配,得到全词匹配结果;
[0125]
若全词匹配结果不为空,则将匹配到的多个词语确定为候选对码集;
[0126]
若全词匹配结果为空,则利用分布式全文检索引擎elasticsearch进行相关词召回,得到召回候选集,所述召回候选集中包括多个召回的词语;
[0127]
计算所述召回候选集和所述疾病名称识别结果之间的相似度,得到按照从大到小排列的相似度序列,将所述相似度序列中靠前的预置数量的词语确定为候选对码集;
[0128]
调用所述对码模型中的孪生网络将所述候选对码集与预置的标准疾病名称进行对码,生成对码结果,所述对码结果包括多个短语对,每个短语对包括原始疾病名称与对应的标准疾病名称。
[0129]
可选的,生成模块305具体用于:
[0130]
基于所述对码结果中多个短语对确定多个目标原始疾病名称,并将所述多个目标原始疾病名称导入原始短语列;
[0131]
基于所述对码结果中多个短语对确定多个目标标准疾病名称,并将所述多个目标标准疾病名称导入标准短语列;
[0132]
基于每个目标标准疾病名称在预置编码标准目录中查找至少一个候选编码;
[0133]
将所述至少一个候选编码中更新时间最晚的候选编码确定为每个目标标准疾病名称对应的标准疾病编码,得到多个标准疾病编码,并将所述多个标准疾病编码导入数据编码列;
[0134]
将所述原始短语列、所述标准短语列和所述数据编码列依次排列,生成对码列表。
[0135]
本发明实施例,利用改进的对码模型中的识别神经网络对待对码的疾病名称进行
准确分词,然后利用改进的对码模型中的分布式全文检索引擎进行召回,最后通过改进的对码模型中的孪生网络进行对码,提高了改进的对码模型对疾病名称的对码准确率和召回率。
[0136]
上面图3至图4从模块化功能实体的角度对本发明实施例中的疾病名称对码列表的生成装置进行详细描述,下面从硬件处理的角度对本发明实施例中疾病名称对码列表的生成设备进行详细描述。
[0137]
图5是本发明实施例提供的一种疾病名称对码列表的生成设备的结构示意图,该疾病名称对码列表的生成设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对疾病名称对码列表的生成设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在疾病名称对码列表的生成设备500上执行存储介质530中的一系列指令操作。
[0138]
疾病名称对码列表的生成设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如windows serve,mac os x,unix,linux,freebsd等等。本领域技术人员可以理解,图5示出的疾病名称对码列表的生成设备结构并不构成对疾病名称对码列表的生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0139]
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述疾病名称对码列表的生成方法的步骤。
[0140]
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
[0141]
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0142]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0143]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机
设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read

only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0144]
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1