一种多级融合图像和文本的多模态方面级情感分析方法

文档序号：37338574发布日期：2024-03-18 18:06阅读：来源：国知局

技术特征：

1.一种多级融合图像和文本的多模态方面级情感分析方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种多级融合图像和文本的多模态方面级情感分析方法，其特征在于：粗粒度对齐中，通过图像描述模型处理图像，建立视觉和语言之间的整体关系，旨在生成有意义和有效的图像描述，在粗粒度级别上表示视觉内容的语义信息，连接模态之间的特征空间；具体为，应用图像字幕工具clipcap，为场景生成高质量的字幕，表示为c：

3.根据权利要求2所述的一种多级融合图像和文本的多模态方面级情感分析方法，其特征在于：细粒度对齐中，首先使用lightface人脸检测器来识别所有人脸，并将其转换为文本人脸属性；随后，利用面部表情描述模板来生成面部描述d：

4.根据权利要求3所述的一种多级融合图像和文本的多模态方面级情感分析方法，其特征在于：字符粒度对齐中，应用谷歌的tesseract ocr引擎，通过从图像中精确识别和提取文本，实现了字符粒度对齐：

5.根据权利要求4所述的一种多级融合图像和文本的多模态方面级情感分析方法，其特征在于：步骤2中，具体为：使用四块结构的resnet作为视觉编码器，yolov5x6作为对象检测器；最多保留置信度得分最高的三个区域ob＝(o1,o2,…,oz)；

6.根据权利要求5所述的一种多级融合图像和文本的多模态方面级情感分析方法，其特征在于：步骤2中，采用anp检测器作为视觉方面和意见的监督，使用具有前n个预测概率的形容词-名词对，前n个预测的分布p计算为：

7.根据权利要求6所述的一种多级融合图像和文本的多模态方面级情感分析方法，其特征在于：步骤2中，利用动态注意力机制将多层次视觉信息作为prompt投射到文本模态中的bert的第l层；通过动态投影仪计算多个归一化向量，这些向量决定bert内每个块的视觉特征变换程度；首先，计算logits作为映射信号量：

8.根据权利要求7所述的一种多级融合图像和文本的多模态方面级情感分析方法，其特征在于：步骤3中，将输出馈送到bert模型中得到的概率分布的kl-散度最小化，相当于计算这两个分布的交叉熵损失：

技术总结
本发明涉及图像和文本融合技术领域，具体地说，涉及一种多级融合图像和文本的多模态方面级情感分析方法，包括以下步骤：步骤1、多粒度视觉对齐；包括粗粒度对齐、细粒度对齐以及字符粒度对齐；步骤2、多尺度视觉融合；先通过利用多粒度视觉对齐的视觉数据来捕捉多尺度视觉特征并获得相应的层次视觉表示，然后进行视觉方面和意见的监督，最后基于prompt的动态视觉融合；步骤3、文本引导的多模态训练；通过最小化文本输出空间与文本+图像上下文输出空间的KL损失，得到多模态方面级情感分析结果。本发明能较佳地进行多模态方面级情感分析。

技术研发人员：李优,丁涵,林煜明
受保护的技术使用者：桂林电子科技大学
技术研发日：
技术公布日：2024/3/17

完整全部详细技术资料下载

当前第2页1 2