一种多模态英语演讲能力评估方法

文档序号：35696515发布日期：2023-10-11 19:30阅读：45来源：国知局

本发明属于智慧教育与人工智能辅助语言学习领域。

背景技术：

1、公众演讲是大学生学业和职业生涯发展的一项基本技能，本发明聚焦于演讲者英语演讲能力评估的一个重要维度：公众演讲焦虑强度。据报道，有15％-30％的人面临演讲焦虑，这阻碍了他们的职业和学业发展。当演讲者遭受演讲焦虑时，他们通常会经历生理唤起(如，心跳加快)，消极的自我关注认知(如，“我担心我会显得无能”)，和/或行为伴随(如，颤抖，言语不流利，避免与听众目光接触)，以应对预期或实际的演讲。为了帮助人们减轻焦虑，一种精确的公共演讲焦虑检测方法对于后续的干预或治疗是必要的。同时，精确的焦虑检测方法也能进一步促进自动化英语演讲评分系统的发展。

2、目前少有带观众的真实教学课堂场景下的大规模细粒度公众演讲数据集，且现有的多模态演讲焦虑行为分析大多只关注于生理信号和非语言行为，缺少文本语言信息的支持。

3、多模态行为分析结合了多种模态例如语音、视频、姿态等，可以提供更丰富的信息表达。每个模态都可以提供不同的视角和特征，从而更全面地捕捉演讲者的行为和情感状态。不同模态之间存在互补性的特征，通过融合多个模态的信息可以增强特征的表达能力和鲁棒性。例如，语音可以提供情感色彩和声音特征，视频可以提供面部表情和身体语言特征，姿态可以提供动作和姿势特征。多模态行为分析可以同时考虑多个行为维度，如语言表达、情绪状态、姿态动作等，这有助于更全面地了解演讲者的行为特征和焦虑状态，实现更准确地焦虑检测和评估，从而提供个性化的指导和干预措施。

4、然而现有的多模态行为分析方法，多用于情感分析与情绪识别、抑郁症检测、参与度评估、幽默检测等任务，少有针对课堂公众演讲焦虑检测任务的深度学习模型，国内多模态演讲教学与评估的相关平台设计和实证研发相对匮乏。同时，大多数已有用于公众演讲能力评估的模型只使用非语言行为(如视频、音频)，忽视了文本语言信息对于焦虑检测任务的作用。

技术实现思路

1、本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

2、为此，本发明的目的在于提出一种多模态英语演讲能力评估方法，用于实现演讲课堂中学生英语演讲能力的大规模自动化评估。

3、为达上述目的，本发明第一方面实施例提出了一种多模态英语演讲能力评估方法，包括：

4、获取英语课堂上学生的演讲视频，对演讲视频进行数据筛选、切分和预处理，得到演讲片段；

5、对所述演讲片段进行人工标注，划分焦虑等级；

6、从所述演讲片段中提取音频和文本数据，对视频、音频、文本三模态提取模态特征；

7、构建英语演讲焦虑评估模型；所述英语演讲焦虑评估模型包括单模态表示层、多模态融合层、焦虑检测层；根据所述焦虑等级和所述模态特征对所述演讲焦虑评估模型进行训练；

8、将待评估演讲视频输入训练完成的英语演讲焦虑评估模型，输出包含所述焦虑等级的焦虑检测结果。

9、另外，根据本发明上述实施例的一种多模态英语演讲能力评估方法还可以具有以下附加的技术特征：

10、进一步地，在本发明的一个实施例中，从所述演讲片段中提取音频和文本数据，对视频、音频、文本三模态提取模态特征，包括：

11、使用bert-base-uncased预训练模型提取文本模态特征，使用wav2vec2.0-base预训练模型提取音频模态特征，使用r2plus1d预训练模型提取视觉模态特征。

12、进一步地，在本发明的一个实施例中，所述单模态表示层用于模态表示学习；其中，定义s,lt,a,v分别表示演讲稿、实时文本、音频和视频模态，则有语言向量序列音频向量序列视频向量序列实时文本向量序列ns、na和nlt表示序列的长度，ds、da、dv和dlt表示序列的维数；

13、对模态s,lt,a使用平均函数将映射到m∈{s,lt,a}，表示为：

14、

15、其中，nm表示序列长度或um的行数，um,表示第i行的矩阵um；

16、将输入表示向量通过语言编码器和声学编码器投射到语言空间和声学空间，所述语言编码器和声学编码器分别表示为：

17、

18、

19、进一步地，在本发明的一个实施例中，所述多模态融合层用于将声学相关向量融合到下游焦虑预测的联合向量中，通过串联生成最终的输出向量，表示为：

20、

21、其中，dh表示声学空间维度，代表拼接操作，最终的模型预测焦虑等级标签表示为使用一个全连接层作为p函数。

22、进一步地，在本发明的一个实施例中，所述英语演讲焦虑评估模型的损失函数表示为：

23、l＝ltask+α·lsim+β·ldiff+γ·lrecon，

24、其中，ltask与特定的任务有关，α、β和γ是决定正则化项在总损失中所占比例的三个超参数；

25、其中，任务损失task loss表示为：

26、正则化损失regularization loss包括：

27、相似性损失similarity loss表示为：

28、差异性损失difference loss表示为：其中，表示frobenius范数的平方，

29、重建损失reconstruction loss表示为：其中，表示l2范数的平方。

30、进一步地，在本发明的一个实施例中，

31、为达上述目的，本发明第二方面实施例提出了一种多模态英语演讲能力评估装置，包括以下模块：

32、预处理模块，用于获取英语课堂上学生的演讲视频，对演讲视频进行数据筛选、切分和预处理，得到演讲片段；

33、标注模块，用于对所述演讲片段进行人工标注，划分焦虑等级；

34、提取模块，用于从所述演讲片段中提取音频和文本数据，对视频、音频、文本三模态提取模态特征；

35、构建模块，用于构建英语演讲焦虑评估模型；所述英语演讲焦虑评估模型包括单模态表示层、多模态融合层、焦虑检测层；根据所述焦虑等级和所述模态特征对所述演讲焦虑评估模型进行训练；

36、评估模块，用于将待评估演讲视频输入训练完成的英语演讲焦虑评估模型，输出包含所述焦虑等级的焦虑检测结果。

37、进一步地，在本发明的一个实施例中，所述提取模块，还用于

38、使用bert-base-uncased预训练模型提取文本模态特征，使用wav2vec2.0-base预训练模型提取音频模态特征，使用r2plus1d预训练模型提取视觉模态特征。

39、为达上述目的，本发明第三方面实施例提出了一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述的一种多模态英语演讲能力评估方法。

40、为达上述目的，本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的一种多模态英语演讲能力评估方法。

41、本发明实施例提出的多模态英语演讲能力评估方法应用到智慧教育领域，收集英语演讲课堂上学生的演讲视频录像，从视频中分别提取音频和文本信息，得到视觉、声觉、语言三模态数据，构建一个专注于课堂演讲的大规模多标签的数据集。利用该数据集，使用深度学习技术训练一个多模态英语演讲焦虑自动化评估模型(public speaking anxietydetection,psad)，进行单模态特征提取和跨模态融合。针对视觉、声觉和文本的多模态数据特征选择有效的模态融合策略，得到融合后的多模态表示，模型输出最终的演讲焦虑强度预测结果，从而实现演讲课堂中学生英语演讲能力的大规模自动化评估。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴斌张婷婷郑春萍宋威
技术所有人：北京邮电大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。