多模态文本图像分类方法、装置、电子设备及存储介质与流程

文档序号：37750535发布日期：2024-04-25 10:37阅读：12来源：国知局

本技术涉及计算机，尤其涉及一种多模态文本图像分类方法、装置、电子设备及计算机可读存储介质。

背景技术：

1、随着人工智能技术的发展，对文本、图像等信息进行分类识别的应用场景越来越多，采用人工智能技术可以大大提高文本、图像分类的效率。例如，可以采用人工智能技术对各种医疗材料影像图片进行自动化识别，从而将识别结果应用到保险理赔、医疗诊断等各种领域。目前常用的对包含文本的图像进行分类识别的方法，主要采用基于单一文本内容规则、文本特征和图像特征进行分类。

2、基于文本内容规则进行分类方法，由于不同影像材料的内容差异较大，采用规则分类方法将大大增加分类难度，需要消耗大量人工挑选文本特征，对新增类别材料大大增加了规则制定时间。而对于不包含文本的图片材料无法从中提取文本信息，因此无法对该材料进行区分，该分类方法所能达到的精度有限。

3、基于文本特征进行分类方法，虽然减少了大量人工挑选文本特征，但对于无文本的图片材料将无法进行分类，而无文本的图片材料也有比较多类型，因此无法进一步区分。

4、基于图像特征进行分类方法，可以快速处理大类医疗材料影像图片，对于其中包含的文本，不同类别材料图片区分度不高，无法直接从图像特征上进行区分，从而该分类方法所能达到的精度也有限。

5、例如，在基于医疗材料影像进行保险理赔的场景下，对于各种各样的医疗单证影像材料，如何快速区分不同医疗单证影像材料，减少不同医疗单证影像材料采用单一特征或者规则进行分类导致的识别错误，是需要解决的问题。由于医疗单证影像存在各种各样，且不同用户拍摄的图像质量也参差不齐，因此分类识别难度更大。目前需要一种鲁棒的方法，精确识别用户上传各种各样的医疗单证影像材料，降低用户对理赔材料的认知，减少理赔问题件，从而减少理赔时间，提升理赔效率。

技术实现思路

1、鉴于此，为解决上述部分或全部技术问题，本技术实施例提供一种多模态文本图像分类方法、装置、电子设备及计算机可读存储介质。

2、第一方面，本技术实施例提供一种多模态文本图像分类方法，该方法包括：获取待识别图像；利用预先训练的文本识别模型，从待识别图像中提取文本信息；利用预先训练的文本编码模型，对文本信息进行特征提取，得到文本特征；利用预先训练的图像编码模型，对待识别图像进行特征提取，得到图像特征；利用预先训练的多模态特征融合分类模型，对文本特征和图像特征进行融合分类，得到表示待识别图像的类别信息。

3、在一个可能的实施方式中，获取待识别图像，包括：利用预先训练的图像方向识别模型，对原始图像进行图像方向识别，得到原始图像的显示方向；基于显示方向，对原始图像进行旋转，得到待识别图像。

4、在一个可能的实施方式中，利用预先训练的文本识别模型，从待识别图像中提取文本信息，包括：利用文本识别模型包括的文本区域检测网络，从待识别图像中确定文本区域；利用文本识别模型包括的文本识别网络，识别文本区域中的文本，得到文本信息。

5、在一个可能的实施方式中，利用预先训练的图像编码模型，对待识别图像进行特征提取，得到图像特征，包括：将待识别图像划分为预设数量个图像块；对预设数量个图像块分别进行向量化处理，得到每个图像块对应的图像向量；利用图像编码模型，对图像向量进行特征提取，得到图像特征。

6、在一个可能的实施方式中，利用预先训练的文本编码模型，对文本信息进行特征提取，得到文本特征，包括：对文本信息进行向量化处理，得到文本信息对应的词向量；利用文本编码模型，对词向量进行特征提取，得到文本特征。

7、在一个可能的实施方式中，文本编码模型预先基于如下步骤训练得到：获取从包含文本的第一样本图像中提取的第一样本文本信息和对应的第一样本类别信息；利用预设的初始文本分类模型包括的文本编码网络，对第一样本文本信息进行特征提取，得到第一样本文本特征；利用初始文本分类模型包括的分类网络，对第一样本文本特征进行分类，得到第一预测类别信息；基于预设的第一损失函数，确定表示第一样本类别信息和第一预测类别信息之间的误差的第一损失值，并基于第一损失值，调整初始文本分类模型的参数；响应于调整参数后的初始文本分类模型符合预设的第一训练结束条件，将调整参数后的初始文本分类模型包括的文本编码网络，确定为文本编码模型。

8、在一个可能的实施方式中，图像编码模型预先基于如下步骤训练得到：获取第二样本图像和对应的第二样本类别信息；利用初始图像分类模型包括的图像编码网络，对第二样本图像进行特征提取，得到第一样本图像特征；利用初始图像分类模型包括的分类网络，对第一样本图像特征进行分类，得到第二预测类别信息；基于预设的第二损失函数，确定表示第二样本类别信息和第二预测类别信息之间的误差的第二损失值，并基于第二损失值，调整初始图像分类模型的参数；响应于调整参数后的初始图像分类模型符合预设的第二训练结束条件，将调整参数后的初始图像分类模型包括的图像编码网络，确定为图像编码模型。

9、在一个可能的实施方式中，多模态特征融合分类模型预先基于如下步骤训练得到：获取从包含文本的第三样本图像中提取的第三样本文本特征和第三样本图像特征，以及对应的第三样本类别信息；利用初始多模态特征融合分类模型，对第三样本文本特征和第三样本图像特征进行融合分类，得到第三预测类别信息；基于预设的第三损失函数，确定表示第三样本类别信息和第三预测类别信息之间的误差的第三损失值，并基于第三损失值，调整初始多模态特征融合分类模型的参数；响应于调整参数后的初始多模态特征融合分类模型符合预设的第三训练结束条件，将调整参数后的初始多模态特征融合分类模型确定为多模态特征融合分类模型。

10、第二方面，本技术实施例提供一种多模态文本图像分类装置，该装置包括：第一获取模块，用于获取待识别图像；第一提取模块，用于利用预先训练的文本识别模型，从待识别图像中提取文本信息；第一编码模块，用于利用预先训练的文本编码模型，对文本信息进行特征提取，得到文本特征；第二编码模块，用于利用预先训练的图像编码模型，对待识别图像进行特征提取，得到图像特征；第一分类模块，用于利用预先训练的多模态特征融合分类模型，对文本特征和图像特征进行融合分类，得到表示待识别图像的类别信息。

11、第三方面，本技术实施例提供一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于执行存储器中存储的计算机程序，且计算机程序被执行时，实现本技术上述第一方面的多模态文本图像分类方法中任一实施例的方法。

12、第四方面，本技术实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，实现如上述第一方面的多模态文本图像分类方法中任一实施例的方法。

13、第五方面，本技术实施例提供一种计算机程序，计算机程序包括计算机可读代码，当计算机可读代码在设备上运行时，使得该设备中的处理器实现如上述第一方面的多模态文本图像分类方法中任一实施例的方法。

14、本技术实施例提供的多模态文本图像分类方法、装置、电子设备及计算机可读存储介质，通过预先训练文本识别模型、文本编码模型、图像编码模型、多模态特征融合分类模型，在对图像进行分类识别时，从图像中提取文本特征和图像特征，由多模态特征融合分类模型对文本特征和图像特征进行特征融合及分类，从而实现了在分类过程中引入图像特征和文本特征，相比利用单一特征进行图像分类识别的方法，本技术实施例大大提高了对包含文本的图像的识别精度，并且对各种图像进行分类的适应性更高，泛化性更好。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邱佳梁,陈琳,吴伟佳,姚吉呈
技术所有人：微民保险代理有限公司
我是此专利的发明人

上一篇：一种无屑工作的铝合金板分切装置的制作方法
上一篇：一种钢管连接件的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。