本发明涉及人工智能和协作会话处理,特别是涉及一种面向不确定模态缺失的在线协作会话情感识别方法及系统。
背景技术:
1、在线协作学习在培养和发展学习者的协作沟通能力、问题解决能力、高阶思维等方面具有极大的优势。当前,在线协作学习已成为高等教育中一种非常重要学习范式,其主要借助视频会议等方式开展协作会话讨论,以达成问题解决方案或特定的学习目标。由于时空阻隔等因素,在线协作学习会话过程中学习者易产生困惑、消极等学习情感,若教师未能及时地识别并感知学生的不良学习情感,进而未能及时给予适切的情感支持与学习干预,会导致协作学习会话过程难以有效地推进,最终影响协作学习体验与学习成效。因此,及时准确地识别协作学习会话过程中学习者的情感状态是非常关键的,它能为教师及时制定个性化的情感支持服务提供重要的决策依据。
2、目前针对协作学习会话过程中学习者的情感分析研究大都是基于事后人工分析,即协作学习结束后通过问卷调研或人工编码视频的等方法了解学习者的情感状态,显然它们无法实时地识别协作会话过程中学习者的情感状态及其变化,也难以提供相应的协作学习干预。在线方式的优势之一是可将协作学习过程中的交互会话数据记录下来,为教师和管理者深入了解协作学习过程及协作学习效果提供数据基础。因此,近年来有部分研究开始利用在线协作学习过程中产生的多模态交互会话数据,提出了基于多模态数据融合的学习者情感自动识别方法与模型。然而,这类研究大都未考虑协作学习过程中的上下文语境对学习者情感状态的影响,也未考虑到学习者自身及其他学习者对当前学习情感状态的影响,导致识别效果较差。此外,这类研究几乎都基于协作学习过程中各数据模态完备的假设,并未考虑到由于网络连接、背景噪声等原因导致实际协作学习会话过程中常出现不确定模态数据缺失的情况(例如:学生a在时刻1忘记开摄像头导致视觉模态缺失,学生b在时刻5因网络原因导致语音数据丢失等)。虽然对模态缺失数据进行丢弃或简单插值,可以解决不确定模态缺失的问题,但随之带来协作会话上下文丢失、会话数据稀少等问题并进一步导致情感识别效果难以满足实际教学应用。
3、综上所述,现有的多模态情感识别模型难以应对实际复杂协作会话场景下的学习者情感识别需求。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够应对实际复杂协作会话场景下学习者的情感识别需求的面向不确定模态缺失的在线协作会话情感识别方法及系统。
2、本发明提供了一种面向不确定模态缺失的在线协作会话情感识别方法,所述方法包括:
3、通过音视频采集设备获取协作会话数据,并根据协作学习过程的不同阶段将所述协作会话数据分割为具有时序关系的多个子协作会话数据;
4、对每个子协作会话数据进行情感标注,以确定每个子协作会话数据中学习者的情感状态;
5、调用单模态特征抽取器抽取预处理后的所述子协作会话数据中的单模态特征,并将所述单模态特征作为lstm层的输入捕捉所述子协作会话数据中的上下文信息,以获取所述子协作会话数据对应的各模态表征;
6、将多个所述单模态特征进行拼接处理,得到多模态融合特征,并基于transformer架构探索所述多模态融合特征与所述单模态特征之间的跨模态情感促进信息;
7、基于增强的单模态特征构建具有动态上下文学习窗口的多视角情感推理图,并通过图注意力机制更新所述多视角情感推理图中的节点表征,以获取所述子协作会话数据的融合话语表征;
8、将所述融合话语表征作为会话情感预测层的输入,训练得到协作会话情感识别模型,并调用所述协作会话情感识别模型对预处理后的当前协作会话数据进行识别,得到相应的情感识别结果;
9、其中,所述协作会话数据为所述音视频采集设备对在线协作学习过程中的会话交互内容进行采集得到的,包括视频数据和音频数据,所述预处理用于对情感标注后的所述子协作会话数据进行模态填充,所述单模态抽取器包括预训练的fast-rcnn、wav2vec2.0和bert模型,所述多视角情感推理图包括文本模态情感推理图、音频模态情感推理图以及视频模态情感推理图,所述会话情感预测层由全连接层和softmax层组成,用于为所述融合话语表征输出预测的情感标签。
10、在其中一个实施例中,所述通过音视频采集设备获取协作会话数据,并根据协作学习过程的不同阶段将所述协作会话数据分割为具有时序关系的多个子协作会话数据,之后包括:
11、根据协作学习过程中不同学习者的会话轮次将每个所述子协作会话数据进一步分割为具有时间先后顺序的多个协作话语数据;
12、对所述多个协作话语数据进行预处理,以在所述协作话语数据中缺少任意模态数据时,调用bert模型中的词汇表中的unk对缺失的对应模态数据进行填充;
13、其中,每个协作话语数据至少包括两个学习者的多轮次协作交互话语,且每轮次的所述协作交互话语均具有音频模态、视频模态以及文本模态的模态表征,且所述多个协作话语数据用于结合具有感情标注的子协作会话数据构建协作会话数据集,当所述协作话语数据中缺少音频模态或视频模态数据时,则通过空白帧对所述音频模态或视频模态数据进行填充。
14、在其中一个实施例中,所述调用单模态特征抽取器抽取预处理后的所述子协作会话数据中的单模态特征,并将所述单模态特征作为lstm层的输入捕捉所述子协作会话数据中的上下文信息,以获取所述子协作会话数据对应的各模态表征,包括:
15、调用所述预训练的fast-rcnn、wav2vec2.0和bert模型作为所述单模态特征抽取器分别提取所述协作话语数据的原始单模态特征,并将所述原始单模态特征分别作为三个所述lstm层的输入,以捕获原始协作会话的上下文特征;
16、将各模态数据输入至全连接层进行特征维度转化,以将各模态数据对应的模态特征映射至同一维度空间,得到对齐后的所述各模态表征。
17、在其中一个实施例中,所述将多个所述单模态特征进行拼接处理,得到多模态融合特征,并基于transformer架构探索所述多模态融合特征与所述单模态特征之间的跨模态情感促进信息,包括:
18、当情感信息的流动方向为多模态特征到单模态特征时,则设置所述单模态特征为查询向量,并设置所述多模态特征为键值对,从多模态特征中抽取与所述单模态特征关联的互补情感信息;以及
19、当情感信息流动方向为所述单模态特征到多模态特征时,则设置所述多模态特征为所述查询向量,设置所述单模态特征为所述键值对,以从所述单模态特征中抽取关键情感信息对所述多模态特征进行增强。
20、在其中一个实施例中,所述基于增强的单模态特征构建具有动态上下文学习窗口的多视角情感推理图,并通过图注意力机制更新所述多视角情感推理图中的节点表征,以获取所述子协作会话数据的融合话语表征,包括:
21、对每一个所述协作话语数据构建所述文本模态情感推理图、音频模态情感推理图以及视频模态情感推理图,每个推理图中的节点用于表征每轮次的所述协作交互话语;
22、通过图注意力机制对所述多模态特征和单模态特征进行融合,得到增强的单模态特征,以对各节点表征的所述协作交互话语进行初始化处理。
23、在其中一个实施例中,所述基于增强的单模态特征构建具有动态上下文学习窗口的多视角情感推理图,并通过图注意力机制更新所述多视角情感推理图中的节点表征,以获取所述子协作会话数据的融合话语表征,还包括:
24、获取所述协作话语数据中每个学习者在协作学习过程中的话语密度和话语数量,并基于所述话语密度和话语数量计算所述协作话语数据的上下文连接窗口,以设定所述动态上下文学习窗口;
25、分别对各模态情感推理图进行边关系和边权重的初始化处理,所述边权重为根据当前节点与所述动态上下文学习窗口内的多个邻居节点的情感语义相似度进行计算确定的;
26、通过图注意力机制根据所述邻居节点之间不同边的类型和节点之间的依赖对当前节点进行信息更新。
27、在其中一个实施例中,所述将所述融合话语表征作为会话情感预测层的输入,训练得到协作会话情感识别模型,并调用所述协作会话情感识别模型对预处理后的当前协作会话数据进行识别,得到相应的情感识别结果,包括:
28、将所述融合话语表征分别发送至多个解码器,以重构各模态的初始表征,并计算重构值与真实值之间的损失;以及
29、基于所述协作话语数据的多模态表征和标注的情感标签,并结合正例的多模态表征及其情感标签以及负例的多模态表征及其情感标签,计算不同的所述协作话语数据之间的对比损失;
30、基于所述重构值与真实值之间的损失和所述对比损失,确定所述协作会话情感识别模型的损失函数,并将模型参数通过反向传播和梯度下降算法进行参数学习,以获取最优模型参数下的所述协作会话情感识别模型。
31、本发明还提供了一种面向不确定模态缺失的在线协作会话情感识别系统,所述系统包括:
32、会话分割模块,用于通过音视频采集设备获取协作会话数据,并根据协作学习过程的不同阶段将所述协作会话数据分割为具有时序关系的多个子协作会话数据;
33、情感标注模块,用于对每个子协作会话数据进行情感标注,以确定每个子协作会话数据中学习者的情感状态;
34、模态特征获取模块,用于调用单模态特征抽取器抽取预处理后的所述子协作会话数据中的单模态特征,并将所述单模态特征作为lstm层的输入捕捉所述子协作会话数据中的上下文信息,以获取所述子协作会话数据对应的各模态表征;
35、特征融合模块,用于将多个所述单模态特征进行拼接处理,得到多模态融合特征,并基于transformer架构探索所述多模态融合特征与所述单模态特征之间的跨模态情感促进信息;
36、融合话语表征模块,用于基于增强的单模态特征构建具有动态上下文学习窗口的多视角情感推理图,并通过图注意力机制更新所述多视角情感推理图中的节点表征,以获取所述子协作会话数据的融合话语表征;
37、情感识别模块,用于将所述融合话语表征作为会话情感预测层的输入,训练得到协作会话情感识别模型,并调用所述协作会话情感识别模型对预处理后的当前协作会话数据进行识别,得到相应的情感识别结果;
38、其中,所述协作会话数据为所述音视频采集设备对在线协作学习过程中的会话交互内容进行采集得到的,包括视频数据和音频数据,所述预处理用于对情感标注后的所述子协作会话数据进行模态填充,所述单模态抽取器包括预训练的fast-rcnn、wav2vec2.0和bert模型,所述多视角情感推理图包括文本模态情感推理图、音频模态情感推理图以及视频模态情感推理图,所述会话情感预测层由全连接层和softmax层组成,用于为所述融合话语表征输出预测的情感标签。
39、本发明还提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述的面向不确定模态缺失的在线协作会话情感识别方法。
40、本发明还提供了一种计算机存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的面向不确定模态缺失的在线协作会话情感识别方法。
41、本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的面向不确定模态缺失的在线协作会话情感识别方法。
42、上述面向不确定模态缺失的在线协作会话情感识别方法及系统,通过在不确定模态缺失的情况下的多维度协作会话情感信息的抽取与融合,能够满足实际在线协作会话过程中学习者情感状态的自动准确识别,进而支持协作学习教师能及时地实施一些有针对性的情感干预策略到特定的学习者或协作学习群体,以期提高学习者的在线协作学习体验、提升学习者的在线协作学习动机、改善协作群体的学习成效。