1.一种多级融合图像和文本的多模态方面级情感分析方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种多级融合图像和文本的多模态方面级情感分析方法,其特征在于:粗粒度对齐中,通过图像描述模型处理图像,建立视觉和语言之间的整体关系,旨在生成有意义和有效的图像描述,在粗粒度级别上表示视觉内容的语义信息,连接模态之间的特征空间;具体为,应用图像字幕工具clipcap,为场景生成高质量的字幕,表示为c:
3.根据权利要求2所述的一种多级融合图像和文本的多模态方面级情感分析方法,其特征在于:细粒度对齐中,首先使用lightface人脸检测器来识别所有人脸,并将其转换为文本人脸属性;随后,利用面部表情描述模板来生成面部描述d:
4.根据权利要求3所述的一种多级融合图像和文本的多模态方面级情感分析方法,其特征在于:字符粒度对齐中,应用谷歌的tesseract ocr引擎,通过从图像中精确识别和提取文本,实现了字符粒度对齐:
5.根据权利要求4所述的一种多级融合图像和文本的多模态方面级情感分析方法,其特征在于:步骤2中,具体为:使用四块结构的resnet作为视觉编码器,yolov5x6作为对象检测器;最多保留置信度得分最高的三个区域ob=(o1,o2,…,oz);
6.根据权利要求5所述的一种多级融合图像和文本的多模态方面级情感分析方法,其特征在于:步骤2中,采用anp检测器作为视觉方面和意见的监督,使用具有前n个预测概率的形容词-名词对,前n个预测的分布p计算为:
7.根据权利要求6所述的一种多级融合图像和文本的多模态方面级情感分析方法,其特征在于:步骤2中,利用动态注意力机制将多层次视觉信息作为prompt投射到文本模态中的bert的第l层;通过动态投影仪计算多个归一化向量,这些向量决定bert内每个块的视觉特征变换程度;首先,计算logits作为映射信号量:
8.根据权利要求7所述的一种多级融合图像和文本的多模态方面级情感分析方法,其特征在于:步骤3中,将输出馈送到bert模型中得到的概率分布的kl-散度最小化,相当于计算这两个分布的交叉熵损失: