多模态文本图像分类方法、装置、电子设备及存储介质与流程

文档序号：37750535发布日期：2024-04-25 10:37阅读：来源：国知局

技术特征：

1.一种多模态文本图像分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待识别图像，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用预先训练的文本识别模型，从所述待识别图像中提取文本信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用预先训练的图像编码模型，对所述待识别图像进行特征提取，得到图像特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述利用预先训练的文本编码模型，对所述文本信息进行特征提取，得到文本特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述文本编码模型预先基于如下步骤训练得到：

7.根据权利要求1所述的方法，其特征在于，所述图像编码模型预先基于如下步骤训练得到：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述多模态特征融合分类模型预先基于如下步骤训练得到：

9.一种多模态文本图像分类装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现上述权利要求1-8任一所述的方法。

技术总结
本申请实施例涉及一种文本图像分类方法、装置、电子设备及存储介质，该方法包括：获取待识别图像；利用预先训练的文本识别模型，从待识别图像中提取文本信息；利用预先训练的文本编码模型，对文本信息进行特征提取，得到文本特征；利用预先训练的图像编码模型，对待识别图像进行特征提取，得到图像特征；利用预先训练的多模态特征融合分类模型，对文本特征和图像特征进行融合分类，得到表示待识别图像的类别信息。本申请实施例大大提高了对包含文本的图像的识别精度，并且对各种图像进行分类的适应性更高，泛化性更好。

技术研发人员：邱佳梁,陈琳,吴伟佳,姚吉呈
受保护的技术使用者：微民保险代理有限公司
技术研发日：
技术公布日：2024/4/24

完整全部详细技术资料下载

当前第2页1 2