基于录音的复述测评方法、装置、设备和介质与流程

文档序号:36651102发布日期:2024-01-06 23:35阅读:22来源:国知局
基于录音的复述测评方法、装置、设备和介质与流程

本申请涉及语义识别,例如涉及一种基于录音的复述测评方法、装置、设备和介质。


背景技术:

1、口语评测是计算机辅助语言学习的一个重要组成部分。对于中国人学习英语来说,口语评测可以分为文本相关与文本无关两大类,前者指的是朗读等有原文的类型,后者指的是根据听录音、看图、阅读等进行复述、口头作文等没有原文的类型。

2、现有的根据录音进行复述的口语测评技术根据语音特征和语音识别结果建立机器学习评分模型,语音识别结果仅仅用到了局部文本特征,例如关键词覆盖率、词语相似度以及文本相似度。但是,语义识别结果不包括全局文本特征,导致自动评分不准确,自动评分与人工评分出现显著差异。


技术实现思路

1、本申请目的在于:提供一种基于录音的复述测评方法、装置、设备和介质,通过结合复述文本的局部文本特征和全局文本特征,能够提高自动评分的准确率。

2、为达到上述目的,本申请提供了一种基于录音的复述测评方法,包括:

3、获取原始录音;对所述原始录音进行预处理,得到预处理音频;

4、使用弱语言模型对所述预处理音频进行语音识别,得到复述文本;其中,所述弱语言模型由噪声数据集训练得到;

5、提取所述复述文本的局部文本特征;

6、提取所述复述文本的自身特征,提取所述复述文本、原文文本和参考答案文本之间的关联特征;

7、根据所述自身特征、所述关联特征和所述局部文本特征建立回归模型,预测复述评分。

8、所述噪声数据集为含有固有噪声的数据集或含有人工添加噪声的数据集,所述噪声数据集的噪声比例为10%-20%。

9、所述提取所述复述文本的自身特征,包括:

10、使用文本纠错模型预测所述复述文本的自身特征,所述自身特征包括文本语法错误的位置和类型,所述文本语法错误包括单复数错误、时态错误和搭配错误。

11、所述提取所述复述文本的自身特征,包括:

12、通过连贯性评分模型的语义特征层提取所述复述文本的自身语义特征,将所述自身语义特征输入所述连贯性评分模型的全连接层,通过所述连贯性评分模型的全连接层输出所述复述文本的连贯性评分,将所述连贯性评分作为所述自身特征。

13、所述提取所述复述文本、原文文本和参考答案文本之间的关联特征,包括:

14、通过关联特征评分模型的语义特征层提取所述复述文本、所述原文文本和所述参考答案文本的关联语义特征,将所述关联语义特征输入所述关联特征评分模型的全连接层,通过所述关联特征评分模型的全连接层输出所述复述文本、原文文本和参考答案文本之间的关联性评分,将所述关联性评分作为所述关联特征。

15、所述关联特征评分模型由考试原题、所述参考答案文本和虚拟复述文本训练得到;所述虚拟复述文本由所述参考答案文本随机删减句子得到。

16、进一步地,所述对所述原始录音进行预处理,得到预处理音频之后,还包括:

17、提取所述预处理音频的发音特征,所述发音特征包括停顿、语速和音调。

18、本申请还提供了一种基于录音的复述测评装置,包括:

19、原始录音获取模块,用于获取原始录音;

20、预处理模块,用于对所述原始录音进行预处理,得到预处理音频;

21、语音识别模块,用于使用弱语言模型对所述预处理音频进行语音识别,得到复述文本;其中,所述弱语言模型由噪声数据集训练得到;

22、局部文本特征提取模块,用于提取所述复述文本的局部文本特征;

23、自身特征提取模块,用于提取所述复述文本的局部文本特征;

24、关联特征提取模块,用于提取所述复述文本、原文文本和参考答案文本之间的关联特征;

25、复述评分预测模块,用于根据所述自身特征、所述关联特征和所述局部文本特征建立回归模型,预测复述评分。

26、本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的一种基于录音的复述测评方法和/或上述任一项所述的基于录音的复述测评方法的步骤。

27、本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的一种基于录音的复述测评方法和/或上述任一项所述的基于录音的复述测评方法的步骤。

28、本申请的一种基于录音的复述测评方法,获取原始录音,对原始录音进行预处理,得到预处理音频。使用弱语言模型对预处理音频进行语音识别,得到复述文本;其中,所述弱语言模型由噪声数据集训练得到。使用弱语言模型能够防止对复述过程中出现的错误进行纠正,从而使得复述文本不失真。提取复述文本的局部文本特征。提取复述文本的自身特征,提取复述文本、原文文本和参考答案文本之间的关联特征。根据自身特征、关联特征和局部文本特征建立回归模型,预测复述评分。通过提取局部文本特征、自身特征和关联特征,能够将全局文本特征和局部文本特征结合,提高自动评分的准确率,减小自动评分与人工评分之间的差异。



技术特征:

1.一种基于录音的复述测评方法,其特征在于,包括:

2.根据权利要求1所述的基于录音的复述测评方法,其特征在于,所述噪声数据集为含有固有噪声的数据集或含有人工添加噪声的数据集,所述噪声数据集的噪声比例为10%-20%。

3.根据权利要求1所述的基于录音的复述测评方法,其特征在于,所述提取所述复述文本的自身特征,包括:

4.根据权利要求3所述的基于录音的复述测评方法,其特征在于,所述提取所述复述文本的自身特征,包括:

5.根据权利要求1所述的基于录音的复述测评方法,其特征在于,所述提取所述复述文本、原文文本和参考答案文本之间的关联特征,包括:

6.根据权利要求5所述的基于录音的复述测评方法,其特征在于,所述关联特征评分模型由考试原题、所述参考答案文本和虚拟复述文本训练得到;所述虚拟复述文本由所述参考答案文本随机删减句子得到。

7.根据权利要求1所述的基于录音的复述测评方法,其特征在于,所述对所述原始录音进行预处理,得到预处理音频之后,还包括:

8.一种基于录音的复述测评装置,其特征在于,包括:

9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的基于录音的复述测评方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于录音的复述测评方法的步骤。


技术总结
本申请的一种基于录音的复述测评方法,包括:获取原始录音;对原始录音进行预处理,得到预处理音频。使用弱语言模型对预处理音频进行语音识别,得到复述文本;其中,所述弱语言模型由噪声数据集训练得到。提取复述文本的局部文本特征。提取复述文本的自身特征,提取复述文本、原文文本和参考答案文本之间的关联特征。根据自身特征、关联特征和局部文本特征建立回归模型,预测复述评分。弱语言模型能够防止对复述过程中出现的错误进行纠正,从而使得复述文本不失真。通过提取局部文本特征、自身特征和关联特征,能够将全局文本特征和局部文本特征结合,提高自动评分的准确率,减小自动评分与人工评分之间的差异。

技术研发人员:张似衡,叶珑
受保护的技术使用者:广州视源电子科技股份有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1