基于关系抽取的病历图像识别方法、装置、设备及介质与流程

文档序号：36967909发布日期：2024-02-07 13:15阅读：22来源：国知局

本申请适用于数字医疗，尤其涉及一种基于关系抽取的病历图像识别方法、装置、设备及介质。

背景技术：

1、随着数字医疗技术的发展，采用先进的计算模型用于医疗领域的数据计算成为重要的课题，然而，这类计算模型一般需要大量的数据支撑，并且需要执行较为庞大的数据运算量。针对病历数据而言，存在着关系复杂、数据量大、实体数目较多等特点，也就意味着需要进行关系抽取时计算量大，因而采用模型进行关系抽取，然而，模型训练需要依靠大量的标注，需要大量的人工参与，同时，由于中文具有复杂的句式和语法，导致现有神经网络提取的特征及语义表示能力较差，从而影响中文关系抽取的效果。当前在中文实体关系抽取任务上，主要存在两种问题，1、由于边界模糊导致做分词时存在切分歧义；2、中文存在一词多义的问题。因此，如何自动化生成病历数据的实体关系，以提高医疗用关系抽取模型的训练效率成为亟待解决的问题。

技术实现思路

1、有鉴于此，本申请实施例提供了一种基于关系抽取的病历图像识别方法、装置、设备及介质，以解决如何自动化生成病历数据的实体关系，以提高医疗用关系抽取模型的训练效率的问题。

2、第一方面，本申请实施例提供一种基于关系抽取的病历图像识别方法，所述病历图像识别方法包括：

3、获取用户上传的病历图像，对所述病历图像进行字符识别，得到对应的识别文本，对所述识别文本进行句子分割，得到至少一个句子，对每个句子进行实体识别，得到对应句子的至少一个实体，使用字形匹配规则，确定每个实体的字形信息；

4、对所有的句子、实体和字形信息进行向量编码，得到对应的编码向量，针对任一句子，将所述句子的编码向量和属于所述句子的所有实体的编码向量及对应的字形信息的编码向量进行拼接，得到对应所述句子的拼接向量；

5、在预设的至少一个维度上，提取每个拼接向量中每个实体的关系信息，针对任一实体，将所有与所述实体相同的实体的关系信息与所述实体的关系信息进行合并，得到对应所述实体的合并结果；

6、根据每个实体的合并结果，确定对应的关系实体，将所有实体及其对应的关系实体连接，形成实体关系图，所述实体关系图用于表征所述病历图像中实体间的关联关系。

7、第二方面，本申请实施例提供一种基于关系抽取的病历图像识别装置，所述病历图像识别装置包括：

8、初始处理模块，用于获取用户上传的病历图像，对所述病历图像进行字符识别，得到对应的识别文本，对所述识别文本进行句子分割，得到至少一个句子，对每个句子进行实体识别，得到对应句子的至少一个实体，使用字形匹配规则，确定每个实体的字形信息；

9、编码拼接模块，用于对所有的句子、实体和字形信息进行向量编码，得到对应的编码向量，针对任一句子，将所述句子的编码向量和属于所述句子的所有实体的编码向量及对应的字形信息的编码向量进行拼接，得到对应所述句子的拼接向量；

10、关系识别模块，用于在预设的至少一个维度上，提取每个拼接向量中每个实体的关系信息，针对任一实体，将所有与所述实体相同的实体的关系信息与所述实体的关系信息进行合并，得到对应所述实体的合并结果；

11、实体关系构建模块，用于根据每个实体的合并结果，确定对应的关系实体，将所有实体及其对应的关系实体连接，形成实体关系图，所述实体关系图用于表征所述病历图像中实体间的关联关系。

12、第三方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的病历图像识别方法。

13、第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的病历图像识别方法。

14、本申请实施例与现有技术相比存在的有益效果是：本申请的获取用户上传的病历图像，对病历图像进行字符识别，得到对应的识别文本，对识别文本进行句子分割，得到至少一个句子，对每个句子进行实体识别，得到对应句子的至少一个实体，使用字形匹配规则，确定每个实体的字形信息，对所有的句子、实体和字形信息进行向量编码，得到对应的编码向量，针对任一句子，将句子的编码向量和属于句子的所有实体的编码向量及对应的字形信息的编码向量进行拼接，得到对应句子的拼接向量，在预设的至少一个维度上，提取每个拼接向量中每个实体的关系信息，针对任一实体，将所有与实体相同的实体的关系信息与实体的关系信息进行合并，得到对应实体的合并结果，根据每个实体的合并结果，确定对应的关系实体，将所有实体及其对应的关系实体连接，形成实体关系图，实体关系图用于表征病历图像中实体间的关联关系，从而实现实体关系的自动化构建，可以用于后续的关系提取模型的训练，减少了人工标注的使用，可以提高模型训练的效率。

技术特征：

1.一种基于关系抽取的病历图像识别方法，其特征在于，所述病历图像识别方法包括：

2.根据权利要求1所述的病历图像识别方法，其特征在于，对所述识别文本进行句子分割，得到至少一个句子，对每个句子进行实体识别，得到对应句子的至少一个实体包括：

3.根据权利要求1所述的病历图像识别方法，其特征在于，使用字形匹配规则，确定每个实体的字形信息包括：

4.根据权利要求1所述的病历图像识别方法，其特征在于，将所述句子的编码向量和属于所述句子的所有实体的编码向量及对应的字形信息的编码向量进行拼接，得到对应所述句子的拼接向量包括：

5.根据权利要求1所述的病历图像识别方法，其特征在于，在预设的至少一个维度上，提取每个拼接向量中每个实体的关系信息包括：

6.根据权利要求1所述的病历图像识别方法，其特征在于，根据每个实体的合并结果，确定对应的关系实体，将所有实体及其对应的关系实体连接，形成实体关系图包括：

7.根据权利要求1至6任一项所述的病历图像识别方法，其特征在于，在将所有实体及其对应的关系实体连接，形成实体关系图之后，还包括

8.一种基于关系抽取的病历图像识别装置，其特征在于，所述病历图像识别装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的病历图像识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的病历图像识别方法。

技术总结
本申请适用于数字医疗技术领域，尤其涉及一种基于关系抽取的病历图像识别方法、装置、设备及介质。该方法对用户上传的病历图像进行字符识别得到识别文本，分割识别文本得到句子，识别句子的实体，使用字形匹配规则，确定每个实体的字形信息，对所有的句子、实体和字形信息进行向量编码，得到对应的编码向量，并拼接得到每个句子的拼接向量，提取每个拼接向量中每个实体的关系信息，合并实体的关系信息得到合并结果，根据每个实体的合并结果，确定对应的关系实体，将所有实体及其对应的关系实体连接，形成实体关系图，从而实现实体关系的自动化构建，可用于后续的关系提取模型的训练，减少了人工标注的使用，提高了模型训练的效率。

技术研发人员：于凤英,王健宗,程宁
受保护的技术使用者：平安创科科技（北京）有限公司
技术研发日：
技术公布日：2024/2/6

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：于凤英,王健宗,程宁
技术所有人：平安创科科技（北京）有限公司
我是此专利的发明人

上一篇：镜像的构建方法、装置、终端设备和可读存储介质与流程
上一篇：一种冷库电梯防凝结电梯轿厢的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。