一种口语评测方法及装置制造方法

文档序号：2827200阅读：275来源：国知局

一种口语评测方法及装置制造方法
【专利摘要】本发明公开了一种口语评测方法及装置，属于语言识别【技术领域】。所述方法包括：当接收到待评测语言时，对待评测语言进行处理，提取语言特征和语种特征；利用语音分析技术，对语音特征进行声学和语言学分析，得到待评测语言的评分特征，该评分特征包括待评测语言的语音信息数值矢量、语义信息数值矢量及语法信息数值矢量；利用预设语言模型组，对语种特征进行语种分析，得到所述待评测语言的语种，该预设语言模型用于语言识别；将待评测语言的评分特征及待评测语言的语种进行评分，得到对待评测语言的评分。本发明综合分析了待测试语言的语种特征和语言特征，对该测试语言进行了评测，提高了语言评测的公平性与准确性。
【专利说明】一种口语评测方法及装置【技术领域】
[0001]本发明涉及语言识别【技术领域】，特别涉及一种口语评测方法及装置。
【背景技术】
[0002]随着素质教育理念的不断深入，外语教学越来越注重外语交流能力，而口语表达又是其中最重要且最困难的一个项目，已经受到越来越多的重视。和阅读、写作、听力不同，口语能力的侧重点是沟通交际，因此主观性和开放性较强，对口语能力好坏的评价通常需要人工参与，存在极大的局限性。
[0003]现在技术中，采用计算机自动评分系统解决上述问题，该计算机自动评分系统是利用计算机辅助或者取代人工进行口语练习和口语考试的评分，利用计算机的高效运算，获得准确性和公平性良好的评分，从而解决或缓解大量的口语评分需求与匮乏的教师资源之间的矛盾。
[0004]发明人在实现本发明的过程中，发现现有技术存在以下技术问题:
[0005]该计算机自动评分系统是基于某单一语言的语音识别技术构建的，容易被学生的一些特殊发音或回答模式所欺骗，比如用母语作答甚至是随意瞎说。在这些情况下，由于计算机只会将语音当成目标语言来处理，因此系统往往也会给出一定的分数，有时甚至会给高分，影响评分的准确性和公平性。

【发明内容】

[0006]为了解决现有技术的问题，本发明实施例提供了一种口语评测方法及装置。所述技术方案如下:
[0007]—方面，提供了一种口语评测方法，所述方法包括:
[0008]当接收到待评测语言时，对所述待评测语言进行处理，提取语言特征和语种特征；
[0009]利用语音分析技术，对所述语音特征进行声学和语言学分析，得到所述待评测语言的评分特征，所述评分特征包括所述待评测语言的语音信息数值矢量、语义信息数值矢量及语法信息数值矢量；
[0010]利用预设语言模型组，对所述语种特征进行语种分析，得到所述待评测语言的语种，所述预设语言模型用于语言识别；
[0011]将所述待评测语言的评分特征及所述待评测语言的语种进行评分，得到对所述待评测语言的评分。
[0012]可选地，利用语音分析技术，对所述语音特征进行声学和语言学分析，得到所述待评测语言的评分特征包括:
[0013]利用预设声学模型以及预设语言模型，对所述语言特征进行语音识别，得到识别文本；
[0014]根据题目信息和所述识别文本，得到所述待评测语言的评分特征。[0015]可选地，所述预设语言模型组包括多个语言模型，每个语言模型对应一个语种，利用预设语言模型组，对所述语种特征进行语种分析，得到所述待评测语言的语种包括:
[0016]对所述语种特征进行序列识别，得到序列识别文本；
[0017]计算序列识别文本与所述多个语言模型的距离；
[0018]将所述序列识别文本与所述多个语言模型的距离进行融合处理，得到所述待评测语言的语种。
[0019]可选地，所述方法还包括:
[0020]对训练语音数据进行特征提取处理，得到多个语种特征；
[0021]利用不同语种的语种特征，得到不同语种对应的语言模块。
[0022]另一方面，提供了一种口语评测装置，所述装置包括:
[0023]特征提取模块，用于当接收到待评测语言时，对所述待评测语言进行处理，提取语言特征和语种特征；
[0024]评分特征获取模块，用于利用语音分析技术，对所述语音特征进行声学和语言学分析，得到所述待评测语言的评分特征，所述评分特征包括所述待评测语言的语音信息数
值矢量、语义信息数值矢量及语法信息数值矢量；
[0025]语种获取模块，用于利用预设语言模型组，对所述语种特征进行语种分析，得到所述待评测语言的语种，所述预设语言模型用于语言识别；
[0026]评分获取模块，用于将所述待评测语言的评分特征及所述待评测语言的语种进行评分，得到对所述待评测语言的评分。
[0027]可选地，所述评分特征获取模块包括:
[0028]识别文本获取单元，用于利用预设声学模型以及预设语言模型，对所述语言特征进行语音识别，得到识别文本；
[0029]评分特征获取单元，用于根据题目信息和所述识别文本，得到所述待评测语言的评分特征；
[0030]可选地，所述语种获取模块包括:
[0031]序列识别文本获取单元，用于对所述语种特征进行序列识别，得到序列识别文本；
[0032]距离计算单元，用于计算序列识别文本与所述多个语言模型的距离；
[0033]语种获取单元，用于将所述序列识别文本与所述多个语言模型的距离进行融合处理，得到所述待评测语言的语种。
[0034]可选地，所述装置还包括:
[0035]多个语种特征获取模块，用于对训练语音数据进行特征提取处理，得到多个语种特征；
[0036]语言模块获取模块，用于利用不同语种的语种特征，得到不同语种对应的语言模块。
[0037]本发明实施例提供的技术方案带来的有益效果是:
[0038]综合分析了待测试语言的语种特征和语言特征，对该测试语言进行了评测，提高了语言评测的公平性与准确性。【专利附图】

【附图说明】
[0039]为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0040]图1是本发明实施例提供的口语评测方法流程图；
[0041]图2是本发明实施例提供的口语评测方法流程图；
[0042]图3本发明实施例提供的口语评测示意图；
[0043]图4本发明实施例提供的口语评测示意图；
[0044]图5本发明实施例提供的口语评测示意图；
[0045]图6本发明实施例提供的口语评测示意图；
[0046]图7本发明实施例提供的口语评测示意图；
[0047]图8本发明实施例提供的口语评测示意图；
[0048]图9是本发明实施例提供的口语评测装置结构示意图。
【具体实施方式】
[0049]为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。
[0050]图1是本发明实施例提供的一种口语评测方法流程图。参见图1，该实施例包括:
[0051]101、当接收到待评测语言时，对待评测语言进行处理，提取语言特征和语种特征；
[0052]102、利用语音分析技术，对语音特征进行声学和语言学分析，得到待评测语言的评分特征，该评分特征包括待评测语言的语音信息数值矢量、语义信息数值矢量及语法信息数值矢量；
[0053]103、利用预设语言模型组，对语种特征进行语种分析，得到待评测语言的语种，该预设语言模型用于语言识别；
[0054]104、将待评测语言的评分特征及待评测语言的语种进行评分，得到对待评测语言的评分。
[0055]本发明实施例提供的方法，综合分析了待测试语言的语种特征和语言特征，对该测试语言进行了、准确的评测。
[0056]可选地，利用语音分析技术，对语音特征进行声学和语言学分析，得到待评测语言的评分特征包括:
[0057]利用预设声学模型以及预设语言模型，对语言特征进行语音识别，得到识别文本；
[0058]根据题目信息和所述识别文本，得到待评测语言的评分特征。
[0059]可选地，该预设语言模型组包括多个语言模型，每个语言模型对应一个语种，利用预设语言模型组，对语种特征进行语种分析，得到待评测语言的语种包括:
[0060]对该语种特征进行序列识别，得到序列识别文本；
[0061]计算序列识别文本与所述多个语言模型的距离；[0062]将序列识别文本与所述多个语言模型的距离进行融合处理，得所述待评测语言的语种。
[0063]可选地，所述方法还包括:
[0064]对训练语音数据进行特征提取处理，得到多个语种特征；
[0065]利用不同语种的语种特征，得到不同语种对应的语言模块。
[0066]图2是本发明实施例提供的口语评测方法流程图。参见图2，该实施例包括:
[0067]201、构建预设语言模块组；
[0068]其中，该预设语言模型组包括多个预设语言模型，每个语言模型对应一个语种。
[0069]模块的输入为不同语种训练数据的语音特征二。设训练数据包含N个语种，分别为I1, I2,, In，各语种的语音特征二组成的样本集合分别为T1, T2,, Tn，各集合含有的样本数分别为h，k2,..., kN。
[0070]分别对各集合中的样本进行序列识别，得到各语种的序列识别文本集合
S1, S2,, Sn，其中S ==，彳表示语种Ii的第j个训练样本的序列
识别文本，匕表示语种Ii的训练样本个数。序列识别文本类似语音识别的识别文本，也是一串有先后顺序的符号序列，只是这里的符号可以是一种抽象的符号，而不一定是音素、单词等有明确声学或语言学含义的符号。
[0071]本发明实施例可以只采用一个识别模块，得到一个序列识别文本输出，如图3所
/Jn ο
[0072]本发明实施例也可以采用多个不同的识别模块，得到多个序列识别文本输出，如图4所示。
[0073]这些不同的识别模块可以是采用的声学模型不同，也可以是采用的语言模型不同，还可以是识别参数设置不同等等。
[0074]本发明实施例可以使用音素级的语音识别算法进行序列识别，得到以音素为符号单元的序列识别文本。
[0075]其中，音素可以使用下表的44个常用英语音标。
[0076]表1
[0077]
【权利要求】
1.一种口语评测方法，其特征在于，所述方法包括: 当接收到待评测语言时，对所述待评测语言进行处理，提取语言特征和语种特征；利用语音分析技术，对所述语音特征进行声学和语言学分析，得到所述待评测语言的评分特征，所述评分特征包括所述待评测语言的语音信息数值矢量、语义信息数值矢量及语法信息数值矢量；利用预设语言模型组，对所述语种特征进行语种分析，得到所述待评测语言的语种，所述预设语言模型用于语言识别；将所述待评测语言的评分特征及所述待评测语言的语种进行评分，得到对所述待评测语言的评分。
2.根据权利要求1所述的方法，其特征在于，利用语音分析技术，对所述语音特征进行声学和语言学分析，得到所述待评测语言的评分特征包括: 利用预设声学模型以及预设语言模型，对所述语言特征进行语音识别，得到识别文本；根据题目信息和所述识别文本，得到所述待评测语言的评分特征。
3.根据权利要求1所述的方法，其特征在于，所述预设语言模型组包括多个预设语言模型，每个语言模型对应一个语种，利用预设语言模型组，对所述语种特征进行语种分析，得到所述待评测语言的语种包括: 对所述语种特征进行序列识别，得到序列识别文本；计算序列识别文本与所述多个语言模型的距离；` 将所述序列识别文本与所述多个语言模型的距离进行融合处理，得到所述待评测语言的语种。
4.根据权利要求3所述的方法，其特征在于，所述方法还包括: 对训练语音数据进行特征提取处理，得到多个语种特征；利用不同语种的语种特征，得到不同语种对应的预设语言模块。
5.一种口语评测装置，其特征在于，所述装置包括: 特征提取模块，用于当接收到待评测语言时，对所述待评测语言进行处理，提取语言特征和语种特征；评分特征获取模块，用于利用语音分析技术，对所述语音特征进行声学和语言学分析，得到所述待评测语言的评分特征，所述评分特征包括所述待评测语言的语音信息数值矢量、语义信息数值矢量及语法信息数值矢量；语种获取模块，用于利用预设语言模型组，对所述语种特征进行语种分析，得到所述待评测语言的语种，所述预设语言模型用于语言识别；评分获取模块，用于将所述待评测语言的评分特征及所述待评测语言的语种进行评分，得到对所述待评测语言的评分。
6.根据权利要求5所述的装置，其特征在于，所述评分特征获取模块包括: 识别文本获取单元，用于利用预设声学模型以及预设语言模型，对所述语言特征进行语音识别，得到识别文本；评分特征获取单元，用于根据题目信息和所述识别文本，得到所述待评测语言的评分特征。
7.根据权利要求5所述的装置，其特征在于，所述语种获取模块包括: 序列识别文本获取单元，用于对所述语种特征进行序列识别，得到序列识别文本；距离计算单元，用于计算序列识别文本与所述多个语言模型的距离；语种获取单元，用于将所述序列识别文本与所述多个语言模型的距离进行融合处理，得到所述待评测语言的语种。
8.根据权利要求7所述的装置，其特征在于，所述装置还包括: 多个语种特征获取模块，用于对训练语音数据进行特征提取处理，得到多个语种特征；语言模块获取模块，用于利用不同语种的语种特征，得到不同语种对应的语言模块。
【文档编号】G10L15/02GK103761975SQ201410007034
【公开日】2014年4月30日申请日期:2014年1月7日优先权日:2014年1月7日
【发明者】周伟达, 杨晓飞, 朱宏杰, 杨嵩, 梅微星, 袁军峰申请人:苏州思必驰信息科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周伟达;杨晓飞;朱宏杰;杨嵩;梅微星;袁军峰
技术所有人：苏州思必驰信息科技有限公司
我是此专利的发明人

上一篇：一种嵌入式语音识别系统的制作方法
上一篇：在智能手表上实现智能家居设备控制的系统及其方法