本发明属于自然语言处理对话生成领域,具体涉及一种基于多模态知识增强的生成式对话方法和系统。
背景技术:
1、对话是人类沟通交流和进行日常活动的主要方式之一,通过对话我们可以预订车票出游,可以和同事讨论工作,可以和家人朋友聊天沟通感情。
2、在自然语言处理任务中,如何开发一个能与人类自然交流的智能对话系统是一项长期研究目标,同时这也是一项复杂的任务。
3、随着人工智能技术的发展,当下社会中对话系统的应用也越来越普遍,很多智能助理(比如阿里小蜜,微软小冰等)能根据用户的输入给出相应的回复,不仅满足了用户的需求,还节省了大量的人力和资源。
4、不过,此类对话系统大多只是在单模态(即文本模态)上应用,而忽略了在对话过程中某些重要的图像信息。比如用户在购物咨询时,有时候会用图像来代替描述自己的需求。因此,面向任务的多模态对话系统有一定的研究价值。
5、虽然一些现有的工作已经提出使用最先进的多模态模型来生成多模态对话,但它们主要集中在基于单个图像的问答式对话生成,而不是每个对话回合的每个图像。这种学习范式限制了多模态对话生成模型在现实场景中的应用范围,在现实场景中,对话发生在随时间变化的可视上下文中。
6、同时,由于知识图谱领域的发展以及网络上公开百科知识库的完善,近年来也有研究者们尝试通过引入知识图谱中提供的信息来生成回复,推动对话的进行,但是大多数研究止步于知识的前期融合,而没有直接作用于响应生成中去。基于此研究现状,目前面临的挑战主要有以下两个方面:
7、(1)在现实场景中,对话不仅仅只是围绕一张图像进行,每一段对话与图像的相关度也不一样,也就是说图像中的信息对对话内容的影响程度不同,需要探究一种更有效的多模态融合方式来生成更合理的回复;
8、(2)在面向任务的对话系统中,大部分利用外部知识库的研究只进行了前期的融合,而没有显式地利用知识生成响应,这样的做法忽略了知识在响应生成中的重要作用,因此需要探究外部知识在响应生成中的重要作用。
技术实现思路
1、本发明提供了一种基于多模态知识增强的生成式对话方法,该方法能够通过多模态融合的方式和加入了外部知识的方式能够实现更加合理对话回复。
2、一种基于多模态知识增强的生成式对话方法,包括:
3、获得多模态上下文,所述多模态上下文包括文本上下文和图像上下文,获得与文本上下文相匹配的知识序列,分别对知识序列、文本上下文进行向量表示得到知识特征向量和文本特征向量,同时对图像上下文本进行特征提取得到视觉语义特征;将知识特征向量和文本特征向量进行融合后通过文本编码器得到全局文本特征;
4、利用全局文本特征对视觉语义特征进行注意力加权得到增强视觉语义特征,利用视觉语义特征对全局文本特征进行注意力加权得到增强全局文本特征,将增强视觉语义特征和增强全局文本特征进行拼接,将拼接结果通过全连接得到多模态上下文特征,利用知识特征向量对多模态上下文特征进行注意力加权得到增强多模态上下文特征;
5、采用bart编码器对增强多模态上下文特征进行编码得到高阶特征,采用bart解码器以自回归方式解码高阶特征得到隐状态向量,将隐状态向量的维度转换为bart预训练语言模型的词表维度,将转换维度的隐状态向量归一化后映射到概率空间得到词表中单词的预测概率,基于单词的预测概率生成对话。
6、进一步的,所述利用全局文本特征对应视觉语义特征进行注意力加权得到增强视觉语义特征,包括:
7、基于每个视觉语义特征的词向量与全局文本特征的所有词向量的相似度得到视觉语义特征注意力权重,对每个视觉语义特征的词向量分配对应的视觉语义特征注意力权重得到增强视觉语义特征。
8、进一步的,所述基于每个视觉语义特征的词向量与全局文本特征的所有词向量的相似度得到视觉语义特征注意力权重,包括:
9、采用缩放点积方法将每个视觉语义特征的词向量与全局文本特征的词向量分别进行相似度匹配得到第一相似度向量集,对第一相似度向量集进行加和后归一化得到对应视觉语义特征的词向量的视觉语义特征注意力权重。
10、进一步的,所述获得与文本上下文相匹配的知识序列,包括:
11、采用nlp工具对文本上下文进行命名实体识别得到实体名称序列,获得知识库,知识库中包括多个知识实体,每个知识实体包括多个知识属性,将实体名称序列中知识实体的词向量与知识库中知识实体的词向量进行余弦相似度比较,保留相似度topk的知识实体,并整合相似度topk的知识实体对应的知识属性得到知识序列。
12、进一步的,通过嵌入层分别对知识序列、文本上下文进行向量表示得到知识特征向量和文本特征向量;采用基于clip模型预训练的vit-b/32模块提取图像上下文本的特征得到视觉语义特征。
13、进一步的,将知识特征向量和文本特征向量进行融合后编码得到全局文本特征tt为:
14、tt=text_encoder(eh+ek)={et1,et2,…eti…,eti}
15、其中,text_encoder为文本编码器,eti为全局文本特征中第i个的词向量,i为全局文本特征中词向量的个数,eh为文本特征向量,ek为知识特征向量。
16、进一步的,采用bart编码器对增强多模态上下文特征进行编码得到高阶特征,所述bart编码器包括多层编码层,每个编码层包括多头自注意力单元和前馈网络单元,所bart解码器包括与编码层对应层数的解码层,每个解码层包括掩码多头自注意力单元、多头编码器-解码器注意力单元和前馈网络单元。
17、一种基于多模态知识增强的生成式对话系统,包括:
18、特征处理模块,用于获得与多模态上下文中的文本上下文相匹配的知识序列;
19、特征提取模块,用于分别对知识序列、多模态上下文中的文本上下文进行向量表示得到知识特征向量和文本特征向量,同时对多模态上下文中的图像上下文本进行特征提取得到视觉语义特征;
20、特征融合模块,用于将知识特征向量和文本特征向量进行融合后通过文本编码器得到全局文本特征;利用全局文本特征对视觉语义特征进行注意力加权得到增强视觉语义特征,利用视觉语义特征对全局文本特征进行注意力加权得到增强全局文本特征,将增强视觉语义特征和增强全局文本特征进行拼接,将拼接结果通过全连接得到多模态上下文特征,利用知识特征向量对多模态上下文特征进行注意力加权得到增强多模态上下文特征;
21、响应生成模块,用于采用bart编码器对增强多模态上下文特征进行编码得到高阶特征,采用bart解码器以自回归方式解码高阶特征得到隐状态向量,将隐状态向量的维度转换为bart预训练语言模型的词表维度,将转换维度的隐状态向量归一化后映射到概率空间得到词表中单词的预测概率,基于单词的预测概率生成对话。
22、与现有技术相比,本发明的有益效果为:
23、本发明基于视觉语义特征利用注意力机制对全局文本特征进行了增强,基于全局文本特征利用注意力机制对视觉语义特征进行增强,将增强的结果进行融合得到了将图像和文本初步融合的多模态上下文特征,再基于知识特征向量对多模态上下文特征进行注意力权重分配得到了融合有外部知识的增强多模态上下文特征,利用本发明提供的方法将外部知识、对应的语义特征和文本特征进行了融合从而得到了较为合理的对话回复。