本申请适用于数字医疗,尤其涉及一种基于关系抽取的病历图像识别方法、装置、设备及介质。
背景技术:
1、随着数字医疗技术的发展,采用先进的计算模型用于医疗领域的数据计算成为重要的课题,然而,这类计算模型一般需要大量的数据支撑,并且需要执行较为庞大的数据运算量。针对病历数据而言,存在着关系复杂、数据量大、实体数目较多等特点,也就意味着需要进行关系抽取时计算量大,因而采用模型进行关系抽取,然而,模型训练需要依靠大量的标注,需要大量的人工参与,同时,由于中文具有复杂的句式和语法,导致现有神经网络提取的特征及语义表示能力较差,从而影响中文关系抽取的效果。当前在中文实体关系抽取任务上,主要存在两种问题,1、由于边界模糊导致做分词时存在切分歧义;2、中文存在一词多义的问题。因此,如何自动化生成病历数据的实体关系,以提高医疗用关系抽取模型的训练效率成为亟待解决的问题。
技术实现思路
1、有鉴于此,本申请实施例提供了一种基于关系抽取的病历图像识别方法、装置、设备及介质,以解决如何自动化生成病历数据的实体关系,以提高医疗用关系抽取模型的训练效率的问题。
2、第一方面,本申请实施例提供一种基于关系抽取的病历图像识别方法,所述病历图像识别方法包括:
3、获取用户上传的病历图像,对所述病历图像进行字符识别,得到对应的识别文本,对所述识别文本进行句子分割,得到至少一个句子,对每个句子进行实体识别,得到对应句子的至少一个实体,使用字形匹配规则,确定每个实体的字形信息;
4、对所有的句子、实体和字形信息进行向量编码,得到对应的编码向量,针对任一句子,将所述句子的编码向量和属于所述句子的所有实体的编码向量及对应的字形信息的编码向量进行拼接,得到对应所述句子的拼接向量;
5、在预设的至少一个维度上,提取每个拼接向量中每个实体的关系信息,针对任一实体,将所有与所述实体相同的实体的关系信息与所述实体的关系信息进行合并,得到对应所述实体的合并结果;
6、根据每个实体的合并结果,确定对应的关系实体,将所有实体及其对应的关系实体连接,形成实体关系图,所述实体关系图用于表征所述病历图像中实体间的关联关系。
7、第二方面,本申请实施例提供一种基于关系抽取的病历图像识别装置,所述病历图像识别装置包括:
8、初始处理模块,用于获取用户上传的病历图像,对所述病历图像进行字符识别,得到对应的识别文本,对所述识别文本进行句子分割,得到至少一个句子,对每个句子进行实体识别,得到对应句子的至少一个实体,使用字形匹配规则,确定每个实体的字形信息;
9、编码拼接模块,用于对所有的句子、实体和字形信息进行向量编码,得到对应的编码向量,针对任一句子,将所述句子的编码向量和属于所述句子的所有实体的编码向量及对应的字形信息的编码向量进行拼接,得到对应所述句子的拼接向量;
10、关系识别模块,用于在预设的至少一个维度上,提取每个拼接向量中每个实体的关系信息,针对任一实体,将所有与所述实体相同的实体的关系信息与所述实体的关系信息进行合并,得到对应所述实体的合并结果;
11、实体关系构建模块,用于根据每个实体的合并结果,确定对应的关系实体,将所有实体及其对应的关系实体连接,形成实体关系图,所述实体关系图用于表征所述病历图像中实体间的关联关系。
12、第三方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的病历图像识别方法。
13、第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的病历图像识别方法。
14、本申请实施例与现有技术相比存在的有益效果是:本申请的获取用户上传的病历图像,对病历图像进行字符识别,得到对应的识别文本,对识别文本进行句子分割,得到至少一个句子,对每个句子进行实体识别,得到对应句子的至少一个实体,使用字形匹配规则,确定每个实体的字形信息,对所有的句子、实体和字形信息进行向量编码,得到对应的编码向量,针对任一句子,将句子的编码向量和属于句子的所有实体的编码向量及对应的字形信息的编码向量进行拼接,得到对应句子的拼接向量,在预设的至少一个维度上,提取每个拼接向量中每个实体的关系信息,针对任一实体,将所有与实体相同的实体的关系信息与实体的关系信息进行合并,得到对应实体的合并结果,根据每个实体的合并结果,确定对应的关系实体,将所有实体及其对应的关系实体连接,形成实体关系图,实体关系图用于表征病历图像中实体间的关联关系,从而实现实体关系的自动化构建,可以用于后续的关系提取模型的训练,减少了人工标注的使用,可以提高模型训练的效率。
1.一种基于关系抽取的病历图像识别方法,其特征在于,所述病历图像识别方法包括:
2.根据权利要求1所述的病历图像识别方法,其特征在于,对所述识别文本进行句子分割,得到至少一个句子,对每个句子进行实体识别,得到对应句子的至少一个实体包括:
3.根据权利要求1所述的病历图像识别方法,其特征在于,使用字形匹配规则,确定每个实体的字形信息包括:
4.根据权利要求1所述的病历图像识别方法,其特征在于,将所述句子的编码向量和属于所述句子的所有实体的编码向量及对应的字形信息的编码向量进行拼接,得到对应所述句子的拼接向量包括:
5.根据权利要求1所述的病历图像识别方法,其特征在于,在预设的至少一个维度上,提取每个拼接向量中每个实体的关系信息包括:
6.根据权利要求1所述的病历图像识别方法,其特征在于,根据每个实体的合并结果,确定对应的关系实体,将所有实体及其对应的关系实体连接,形成实体关系图包括:
7.根据权利要求1至6任一项所述的病历图像识别方法,其特征在于,在将所有实体及其对应的关系实体连接,形成实体关系图之后,还包括
8.一种基于关系抽取的病历图像识别装置,其特征在于,所述病历图像识别装置包括:
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的病历图像识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的病历图像识别方法。