专利名称:半开放式口语试题的测试方法及系统的制作方法
技术领域:
本发明涉及语音识别、语音信号处理、计算机辅助语言学习等领域,尤其涉及一种运用计算机对半开放式口语试题的待测试人员进行录音,然后通过计算机处理,得到待测试人员半开放式口语试题的总体评分的方法及系统。
背景技术:
语音是信息交流和传播的主要途径之一。作为人际交流的重要媒介,口语语言学习在实际生活中占有极其重要的地位。标准的语音是口语和听力的基础,它能够增强日常交流的可靠性,提高交流的流畅度。随着社会经济的不断发展和全球化趋势的加剧,人们对语言学习的效率以及语言评估测试的客观性、公正性和规模化测试提出了越来越高的要求。口语的自动评估是根据语音信号的生理特征(如发音准确度、声调、重音、连读、 同化、失去爆破、语调、韵律等)和行为特征(如词汇、语法和句法等语言层次上的运用)对口语质量进行自动化的评估和诊断。口语自动评估和诊断技术以人的语音和语言特征为基础,以信号处理和模式识别等信息处理技术为手段,融合语音学、语言学和教育学等多学科的理论和知识,具有巨大的发展潜力和应用前景,因此,近年来得到了研究人员的广泛关注。目前现有的全自动口语评估主要集中在朗读试题、跟读试题这类封闭试题中,对半开放式试题、开放式试题则主要靠人工评分完成,其原因在于传统的评估技术首先进行语音识别,然后在识别结果的基础上进行发音、流利、韵律等信息的评估。申请人:意识到现有技术存在如下技术缺陷语音识别技术在半开放式口语中识别率较低,造成了在口语半开放式试题中无法真正的应用。
发明内容
(一)要解决的技术问题为解决上述缺陷,本发明提供了一种半开放式口语试题的测试方法及系统,从关键内容检测和文本无关评估技术入手,跳过了对语音识别的依赖,实现了对半开放口语试题的全自动评分。( 二 )技术方案根据本发明的一个方面,提供了一种半开放式口语试题的测试方法。该测试方法包括选择与被测试对象匹配的声学模型,利用声学模型对被测试人员的口语语音进行语音关键内容检测;由检测结果和得分点数据库中得分点内容进行匹配;根据匹配情况结合得分点权重获得被测试人员的内容评分;由检测结果获取被测试人员的口语发音质量特征;口语发音质量特征结合发音预测模型,获得被测试人员的发音评分;对被测试人员的语音进行文本无关流利度评估,获得语音流利度特征;由语音流利度特征结合流利度预测模型,获得被测试人员的流利度评分;对被测试人员的语音进行文本无关语音韵律评估,获
5得语音韵律特征;由语音韵律特征结合语音韵律预测模型,获得被测试人员的语音韵律评分;利用被测试人员的内容评分、发音评分、流利度评分和语音韵律评分,利用总体预测模型,获得被测试人员对口语半开放试题的总体评分。优选地,本发明半开放式口语试题的测试方法中,选择与被测试对象匹配的声学模型,利用声学模型对被测试人员的口语语音进行语音关键内容检测的步骤之前还包括: 构建针对被测试对象特点的语音数据库;对语音数据库使用连续语音声学模型训练平台训练得到声学模型;构建包含半开放式口语试题的得分点内容与得分点权重的得分点数据库;构建发音评估特征到发音评分的发音预测模型;构建语音流利度特征到语音流利度评分的流利度预测模型;构建语音韵律特征到语音韵律评分的语音韵律预测模型;构建内容评分、发音评分、流利度评分和语音韵律评分至总体评分的预测模型。优选地,本发明半开放式口语试题的测试方法中,构建针对被测试对象特点的语音数据库的步骤包括分性别,按照对应被测试对象人群的年龄分布寻找年龄相近人群; 按照音素平衡的原则设计录音样本;人群中的指定人员按照录音文本进行录音,并将语音与对应的文本建立关联,构建语音数据库;对语音数据库使用连续语音声学模型训练平台训练得到声学模型的步骤包括对语音数据库中的每条训练语音提取12阶Mel倒谱、归一化能量构成共13维作为基本特征;对基本特征通过一阶和二阶差分得到39维特征;利用训练语音的特征和语音对应的文本,通过强制对齐算法和前后向算法估计,得到单音子声学模型;在单音子声学模型的基础上,通过设计决策树和前后向算法,训练得到三音子声学模型;在三音子声学模型的基础上,通过区分度模型训练算法,训练得到具有区分度信息的三音子声学模型。优选地,本发明半开放式口语试题的测试方法中,构建包含半开放式口语试题的得分点内容与得分点权重的得分点数据库的步骤具体包括对每个半开放式口语试题收集得分点内容以及得分点的权重,生成关键内容检测需要的得分点数据库。优选地,本发明半开放式口语试题的测试方法中,选择与被测试对象特点相符合的声学模型,利用声学模型对被测试人员的口语语音进行语音关键内容提取与检测的步骤包括根据被测试人的性别和口语试题,选择对应的声学模型、得分点数据库;对答题语音进行特征提取;运行声学模型和得分点数据库,通过语音特征的关键内容检测得到其得分点内容的检测结果;利用每个单词的置信度,以及这个单词每个音素的置信度,使用识别的置信度技术抑制错误检测情况的发生。优选地,本发明半开放式口语试题的测试方法中,由检测结果获取被测试人员的口语发音质量特征,通过发音预测模型,获得被测试人员的发音评分的步骤包括根据关键内容检测的结果中的利用每个单词的置信度,以及这个单词每个音素的置信度,得到发音评估的特征;使用发音评估特征到发音评分的预测模型,得到当前语音的发音评分。优选地,本发明半开放式口语试题的测试方法中,对被测试人员的语音进行文本无关流利度评估,获得语音的流利度特征,由语音的流利度特征和流利度预测模型,获得被测试人员的流利度评分的步骤包括对句子进行文本无关韵律特征的切分,然后提取广义流利度特征,该广义流利度特征包括犹豫度、通顺性、连读和失去爆破;由广义流利度特征获取句子的流利度特征,并加权得到篇章总体的流利度特征;提取篇章一级全局广义流利度特征、文本无关错误停顿特征、文本无关重复修正特征;使用流利评估特征到流利评分的预测模型,得到当前语音的流利评分。优选地,本发明半开放式口语试题的测试方法中,对被测试人员的语音进行文本无关语音韵律评估,获得语音韵律特征,由语音韵律特征和语音韵律预测模型,获得被测试人员的语音韵律评分的步骤包括提取篇章一级全局韵律特征;使用韵律评估特征到韵律评分预测模型,得到当前语音的韵律评分优选地,本发明半开放式口语试题的测试方法中,获得被测试人员对口语半开放试题的总体评分的步骤之后还包括将被测试人员的发音、词汇使用、句型使用、韵律的意见反馈至被测试人员。根据本发明的另一个方面,还提供了一种半开放式口语试题的测试系统。该测试系统包括声学模型模块,用于构建针对被测试对象特点的语音数据库,对语音数据库使用连续语音声学模型训练平台训练得到声学模型;得分点数据库模块,用于构建包含半开放式口语试题的得分点内容与得分点权重的得分点数据库;特征提取模块,用于选择与被测试对象特点相符合的声学模型,利用声学模型对被测试人员的口语语音进行语音关键内容提取;关键内容检测模块,用于关键内容检测,并由检测结果和得分点数据库中得分点内容的匹配情况,结合得分点权重获得被测试人员的内容评分;发音评分模块,用于由检测结果获取被测试人员的口语发音质量特征,通过预存的发音评估特征到发音评分的发音预测模型,获得被测试人员的发音评分;流利度评分模块,用于对被测试人员的语音进行文本无关流利度评估,获得语音流利度特征,通过预存的语音流利度特征和流利度预测模型,获得被测试人员的流利度评分;语音韵律评分模块,用于对被测试人员的语音进行文本无关语音韵律评估,获得语音韵律特征;通过预存的语音韵律特征和语音韵律预测模型,获得被测试人员的语音韵律评分;总体评分模块,用于利用被测试人员的内容评分、发音评分、流利度评分和语音韵律评分,通过预存的内容评分、发音评分、流利度评分和语音韵律评分至总体评分的预测模型,获得被测试人员对口语半开放试题的总体评分。优选地,本发明半开放式口语试题的测试系统中,关键内容检测模块,与特征提取模块、声学模型模块和得分点数据库模块相连接;发音评分模块与关键内容检测模块相连接;流利度评分模块与特征提取模块相连接;语音韵律评分模块与特征提取模块相连接; 总体评分模块与内容评分模块、发音评分模块、流利度评分模块、语音韵律评分模块相连接。(三)有益效果本发明的半开放式口语试题的测试方法及系统具有以下有益效果(1)本发明提出把口语语音的评估分成内容、发音、流利、韵律四个部分,为口语评估工作奠定了基础;(2)本发明提出了使用语音关键内容检测技术用于半开放式口语试题自动评分, 避免了由于口语语音识别的不鲁棒性影响评估的准确性;(3)本发明提出了语音关键内容检测技术框架下的发音质量、流利度、韵律评估技术以提升评估的准确性,对口语评估起到了重要的补充;(4)本发明充分利用了积累的大量具有人工标注的语音数据,考虑了不同性别、不同年龄和不同地域的差异性,测试方法具有良好的推广性;(5)本发明涉及的检测出关键内容的置信度等参数均可以根据实际情况进行调节,便于用户使用;(6)本发明不仅可以进行评分,还可以在评测过程中给出被测试人员词汇使用、句型使用、韵律的一些意见,指导被测试人员矫正。
图1为本分明实施例半开放式口语试题测试方法的流程图;图2为本发明实施例半开放式口语试题测试系统的结构框图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。本分明半开放式口语试题测试方法的完整流程由两个阶段组成模型训练阶段训练部分包括训练声学模型、发音评估特征到发音评分的预测模型、流利度特征到流利评分的预测模型、韵律特征到韵律评分的预测模型、四个模块评分到总体评分的预测模型。口语半开放式试题全自动评分的方法包括一个模型训练部分,模型训练过程包括以下步骤(A)构建针对被测试对象人群特点的语音数据库,具体包括a. 1 分性别,按照对应被测试对象人群的年龄分布寻找一批年龄相近的人群;a. 2 按照音素平衡的原则设计录音样本;a. 3 指定人员按照录音文本进行录音,并将语音与对应的文本建立关联,语音文件名和文本文件取相同的文件名,不同的文件后缀,这样可以迅速从语音文件获得其对应的文本内容,从而构建语音数据库。(B)使用连续语音声学模型训练平台训练得到声学模型b. 1 对每条训练语音提取12阶Mel倒谱、归一化能量构成共13维作为基本特征, 然后通过一阶和二阶差分得到39维特征;b. 2 利用b. 1生成的训练语音的特征和语音对应的文本,通过强制对齐算法和前后向算法估计,得到单音子声学模型;b. 3 在单音子声学模型的基础上,通过设计决策树和前后向算法,训练得到三音子声学模型;b. 4 在三音子声学模型的基础上,通过区分度模型训练算法,训练得到具有区分度信息的三音子声学模型。(C)对每个半开放式口语试题收集专家制作的得分点内容以及得分点的权重,生成关键内容检测需要的得分点数据库。(D)预测模型的构建使用已有考题的专家打分和对应的各项特征进行机器打分预测模型估计,用于提高系统性能,对每类口语翻译试题收集M道被考生试题,通过L个专家给出评分,并将专家的平均分作为每道题的人工评分,然后引入基于预测的方法,构建各个参数到人工分数的映射关系,并将得到的参数保存,作为各个特征到评分的映射模型,这个过程是一个标准调整的过程。这些参数和模型将起到调整和校正的作用。本发明方法涉
8及的预测模型包括发音评估特征到发音评分的预测模型、流利度特征到流利评分的预测模型、韵律特征到韵律评分的预测模型、四个模块评分到总体评分的预测模型。此预测模型可以是线性模型,也可以是非线性模型(如支持向量机模型、神经网络模型),以线性模型为
例,得到相应模型的步骤如下公式一所示
ky = β0 + Yj β jXj................................................公式一上述公式一中,β。是常数项,i3」(j = 1,2,3,……k)是第j个特征\的回归系数,表示在其它特征不变的情况下,特征\每变动一个单位所引起的因变量的变化率;y就是人工分数。训练步骤中通过对训练数据各项特征的提取和人工分数的标注,可以通过上述公式计算得到各个回归系数,这些回归系数作为预测模型保存在系统中。测试步骤中,提取测试语音的各项特征,代入公式即可得到该语音的预测评分。需要说明的是,步骤B得到具有区分度信息的三音子声学模型、步骤D使用的各分数预测模型保存到系统中,每次使用只需要重新装载现有模型,不需要重新训练模型。口语半开放式试题全自动评分的方法包括一个评分部分,用于利用上述的发音评估特征到发音评分的预测模型、流利度特征到流利评分的预测模型、韵律特征到韵律评分的预测模型、四个模块评分到总体评分的预测模型对被测试人员的口语水平进行测试,评分过程包括以下步骤(E)语音关键内容检测和内容评分获取E. 1 根据被测试人的性别和试题,选择对应的声学模型、得分点数据库;E. 2 对答题语音进行特征提取;E. 3 运行声学模型和得分点数据库,通过语音特征的关键内容检测得到其得分点内容的检测结果;E. 4 输出每个单词的置信度,以及这个单词每个音素的置信度。(注置信度信息主要是为了据识)系统使用了拒识功能,使用识别的置信度技术来抑制错误检测情况的发生。根据通过拒识后的检测内容与得分点数据库的匹配情况,得到内容评分。其中,检测结果跟内容得分点的匹配情况是首先得到每道题得分点内容的分组和每个组的分数权重,然后生成一个带加权信息的标准答案网络,这个加权网络作为得分点数据库进行保存,在测试过程中根据关键内容检测结果与此得分点数据库进行匹配,将匹配率作为内容评分的来源。(F)发音评分的获取F. 1 根据(E)中关键内容检测的结果(单词、时间点、置信度),得到发音评估的特征;F. 2 使用发音评估特征到发音评分的预测模型,得到当前语音的发音评分。(G)流利评分的获取G. 1 采用多层次融合方法,首先对句子进行文本无关韵律特征的切分,然后提取句子级的广义流利度特征,在这个基础上对句子一级特征进行加权得到篇章总体的流利度特征,句子级广义流利度特征包括G. 1. 1句子表述通顺性如句子语速、句子平均语流长、句子有效停顿比例等。G. 1.2句子表达的音素段长这个步骤是为了补偿各发音人在语速上的差异对所有发音部分进行归一化。然后,通过统计相应的上下文无关音素的时长的离散概率分布计算归一化后时长评分的对数概率,得到某个音素的段长评分。G. 1. 3句子表述的韵律性根据检测结果,选取匹配的单词和标准发音对应单词进行韵律距离的比较,分能量、基频、段长对所有音素进行打分,得到在能量、基频、段长和标准音的距离得分,然后进行加权。G. 2 提取篇章一级全局广义流利度特征(如整体语速、整体平均语流长、整体有效停顿比例等信息)、文本无关错误停顿特征、文本无关重复修正特征;G. 3 使用流利评估特征到流利评分的预测模型,得到当前语音的流利评分。(H)韵律评分的获取H. 1 提取篇章一级全局韵律特征,其中包括4类特征H. 1. 1语调类型特征包括发音者发音过程中基频随时间的变化信息;H. 1. 2重音类型特征包含词汇重音和韵律重音的准确性;H. 1. 3停顿类型特征包含句子和意群停顿的准确性;H. 1. 4段长类型特征整体语流中各音素段长的宏观分布情况。H. 2 使用韵律评估特征到韵律评分的预测模型,得到当前语音的韵律评分。需要说明的是,综合E、F、G、H提到的四项评分,通过使用四个模块评分到总体评分的预测模型,获得最终评分,并且给出反馈意见。需要说明的是,以上利用预测模型对各项评分的顺序可以根据需要调整,并不一定按照上述的顺序进行,同样应包含在本发明的保护范围之内。此外,步骤F、G、H涉及的被测试人员发音质量、流利度、韵律的评估是用于具备一定口语能力的被测试人员,如果测试过程步骤E中内容得分低于一个阀值,将不进行这三项评估。评分阶段运用数字信号处理理论和计算机语言处理技术对被测试人的口语翻译录音进行评分,使得系统给出的最终评分尽可能的接近专家的人工评分。以上步骤A-H从原理角度对本发明的模型准备、训练、测试各阶段进行了说明。以下从具体实施测试的角度,对本发明进行具体阐述。图1是本发明实施例半开放式口语试题测试方法的流程图,如图1所示,本实施例包括以下步骤步骤100,被测试人员根据显示的文字或者一组图片(视频)进行口语半开放试题的作答;步骤101,进行语音信号采集,将被测试人员发音的模拟信号转变为数字信号,并保存在计算机中;步骤102,对语音的数字信号分帧处理,并且对每帧提取相应的特征。其中特征分成三类用于关键内容检测引擎的特征包括能量,MFCC参数等共39维,在本实施例中,此特征采用现有技术手段提取,如英国剑桥大学发布的Hidden Makov Model Toolkit 3. 4版本中有工具HCopy提取39维特征;用于文本无关流利评估引擎的特征包括时长特征、基频特征、能量特征、停顿特征,这些特征都采用现有技术手段提取;用于文本无关韵律评估引擎的特征包括语调类型特征、重音类型特征、停顿类型特征、段长类型特征,这些特征都采用现有技术手段提取。步骤103,根据被测试人员的性别和当前口语半开放式试题,选择使用的声学模型和得分点数据库,利用语音关键内容检测引擎对特征序列进行检测,识别得到一系列得分点内容,同时生成每个内容的置信度,起始终止时间,以及内容中每个音素的置信度、起始终止时间,通过得分点内容和置信度可以获得答题的内容得分,关键内容检测可以通过现有关键词检测技术手段获得,如通过发明人之一的已发表文献“A System Combination Based Keyword-spotting Method Using Complementary Acoustic Models(Meng MENG, Xiao-Rui WANG, Jia-En LIANG, Bo XU, Journal :Acta Automatica Sinica, vol. 35, no. 1, pp. 39-45,2009)”进行,通过对检测出内容的发音评估可以获取发音评分。同时利用文本无关流利评估引擎对答题语音进行文本无关流利度评估,可以获得流利评分,此技术可以通过现有技术手段获得,如通过发明人之一的已发表文献“辅助语音测试系统中一种流利度自动测试方法(黄申,李宏言,王士进,梁家恩,徐波,第十届全国人机语音通讯学术会议,2009) ” ;同时利用文本无关韵律评估引擎对答题语音进行文本无关韵律评估,可以获得韵律评分,此技术可以通过现有技术手段获得,如通过发明人之一的已发表文献 “automatic reference independent evaluation of prosody quality using multiple knowledge fusions(Shen Huang, Hongyan Li, Shijin Wang, Jiaen Liang, Bo Xu, In INTERSPEECH-2010,610-613,2010)”。当然以上信息的提取也可用所属技术领域人员知悉的其他方法获取。步骤104,根据步骤103得到的四项评分,使用相应的标准调校模型得到最终的评分。此模型可以是线性回归预测模型、SVM预测模型、人工神经网络预测模型或者其他所属技术领域人员知悉的方法实现。步骤105,根据以上结果对本次测试做出评判,同时根据发音评分的结果给出发音的指导意见;根据关键内容检测的结果给出词汇、句型使用的指导意见;根据韵律评分的结果给出韵律的指导意见。图2为本发明实施例半开放式口语试题测试系统的结构框图。实现本实施例的半开放式口语试题测试系统运行于微软视窗操作系统,包括声学模型模块202、得分点数据库模块204、语音特征提取模块206、关键内容检测模块208、发音评分模块210、流利度评分模块212、语音韵律评分模块214、总体评分模块216、评价反馈模块218。其中,声学模型模块202,用于构建针对被测试对象特点的语音数据库,对语音数据库使用连续语音声学模型训练平台训练得到声学模型。得分点数据库模块204,用于构建包含半开放式口语试题的得分点内容与得分点权重的得分点数据库。特征提取模块202, 用于选择与被测试对象特点相符合的声学模型,利用声学模型对被测试人员的口语语音进行语音关键内容提取。关键内容检测模块208,与特征提取模块、声学模型模块和得分点数据库模块相连接,用于关键内容检测,并由检测结果和得分点数据库中得分点内容的匹配情况,结合得分点权重获得被测试人员的内容评分。发音评分模块210,与关键内容检测模块相连接,用于由检测结果获取被测试人员的口语发音质量特征,通过预存的发音评估特征到发音评分的发音预测模型,获得被测试人员的发音评分。流利度评分模块212,与特征提取模块相连接,用于对被测试人员的语音进行文本无关流利度评估,获得语音流利度特征,通过预存的语音流利度特征和流利度预测模型,获得被测试人员的流利度评分。语音韵律评分模块214,与特征提取模块相连接,用于对被测试人员的语音进行文本无关语音韵律评估,获得语音韵律特征;通过预存的语音韵律特征和语音韵律预测模型,获得被测试人员的语音韵律评分。总体评分模块216,与内容评分模块、发音评分模块、流利度评分模块、语音韵律评分模块相连接,用于利用被测试人员的内容评分、发音评分、流利度评分和语音韵律评分,通过预存的内容评分、发音评分、流利度评分和语音韵律评分至总体评分的预测模型,获得被测试人员对口语半开放试题的总体评分。评价反馈模块218,与总体评分模块相连接,用于将被测试人员的发音、词汇使用、句型使用、韵律的意见反馈至被测试人员。本发明半开放式口语试题测试系统对被测试人员的口语进行评测的过程包括步骤一被测试人员口语半开放式试题被录音后,首先进入语音特征提取模块 206提取分帧的特征,该语音特征包含供关键内容检测模块208使用的特征、供流利度评分模块212使用的特征、供语音韵律评分模块214使用的特征;步骤二 进入关键内容检测模块208,根据被测试人员的性别和当前试题,选择合适的声学模型202、得分点数据库模块204,对提取出的供关键内容检测模块208使用的特征,利用语音关键内容检测引擎对特征序列进行关键内容检测,流转至内容评分模块,得到内容评分;步骤三发音评分模块210对检测到的内容进行发音评估,得到发音评分;步骤四对提取出的供流利度评分模块212使用的特征,流利度评分模块212进行文本无关的流利度评估,得到流利度评分;步骤五对提取出的供语音韵律评分模块214使用的特征,文本无关的语音韵律评分模块210进行文本无关的韵律评估,得到韵律评分;步骤六最后,进入总体评分模块216,根据四个模块的评分,得到被测试人员的语音总体评分;步骤七评价反馈模块218把被测试人员的发音、词汇使用、句型使用、韵律的一些意见反馈出来。综上所述,本发明针对口语半开放式试题中语音识别准确率低的特点,综合使用了计算机语音关键内容检测技术、发音评估技术、文本无关流利度评估技术、文本无关韵律评估技术得到被测试人员的半开放式口语试题答题的总体评分,可以达到与专家打分接近的水平,在大规模考试系统中有较大的应用价值,并且不受语种的限制。本发明可以用于口语考试或者口语训练软件中的口语问答试题、看图说话、看视频说话和相似试题的口语评分;可以运用于汉语、英语等各种语言的口语半开放式试题评分。以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种半开放式口语试题的测试方法,其特征在于,该测试方法包括步骤A,选择与被测试对象匹配的声学模型,利用所述声学模型对被测试人员的口语语音进行语音关键内容提取与检测;步骤B,由所述检测结果和得分点数据库中得分点内容进行匹配;根据匹配情况结合得分点权重获得所述被测试人员的内容评分;步骤C,由所述检测结果获取所述被测试人员的口语发音质量特征;所述口语发音质量特征结合发音预测模型,获得所述被测试人员的发音评分;步骤D,对所述被测试人员的语音进行文本无关流利度评估,获得语音流利度特征;由所述语音流利度特征结合流利度预测模型,获得所述被测试人员的流利度评分;步骤E,对所述被测试人员的语音进行文本无关语音韵律评估,获得语音韵律特征;由所述语音韵律特征结合语音韵律预测模型,获得所述被测试人员的语音韵律评分;步骤F,利用所述被测试人员的内容评分、发音评分、流利度评分和语音韵律评分,利用总体预测模型,获得所述被测试人员对所述口语半开放试题的总体评分。
2.根据权利要求1所述的半开放式口语试题的测试方法,其特征在于,所述步骤A之前还包括构建声学模型、发音预测模型、流利度预测模型、语音韵律预测模型及预测模型,该构建过程具体包括步骤A',构建针对被测试对象特点的语音数据库;对所述语音数据库使用连续语音声学模型训练平台训练得到声学模型;步骤B',构建包含所述半开放式口语试题的得分点内容与得分点权重的得分点数据库;步骤C',构建发音评估特征到发音评分的发音预测模型; 步骤D',构建语音流利度特征到语音流利度评分的流利度预测模型; 步骤E',构建语音韵律特征到语音韵律评分的语音韵律预测模型; 步骤F',构建所述内容评分、发音评分、流利度评分和语音韵律评分至总体评分的预测模型。
3.根据权利要求2所述的半开放式口语试题的测试方法,其特征在于,所述步骤A'中所述构建针对被测试对象特点的语音数据库的步骤包括分性别,按照对应被测试对象人群的年龄分布寻找年龄相近人群;按照音素平衡的原则设计录音样本;所述人群中的指定人员按照录音文本进行录音,并将语音与对应的文本建立关联,构建语音数据库;所述对语音数据库使用连续语音声学模型训练平台训练得到声学模型的步骤包括对所述语音数据库中的每条训练语音提取12阶Mel倒谱、归一化能量构成共13维作为基本特征;对所述基本特征通过一阶和二阶差分得到39维特征;利用训练语音的特征和语音对应的文本,通过强制对齐算法和前后向算法估计,得到单音子声学模型;在单音子声学模型的基础上,通过设计决策树和前后向算法,训练得到三音子声学模型;在三音子声学模型的基础上,通过区分度模型训练算法,训练得到具有区分度信息的三音子声学模型。
4.根据权利要求3所述的半开放式口语试题的测试方法,其特征在于,所述步骤B'具体包括对每个半开放式口语试题收集得分点内容以及得分点的权重,生成关键内容检测需要的得分点数据库。
5.根据权利要求1所述的半开放式口语试题的测试方法,其特征在于,所述步骤A包括根据被测试人的性别和口语试题,选择对应的声学模型、得分点数据库; 对答题语音进行特征提取;运行声学模型和得分点数据库,通过语音特征的关键内容检测得到其得分点内容的检测结果;利用所述每个单词的置信度,以及这个单词每个音素的置信度,使用识别的置信度技术抑制错误检测情况的发生。
6.根据权利要求5所述的半开放式口语试题的测试方法,其特征在于,所述步骤C包括根据关键内容检测的结果中的所述每个单词的置信度,以及这个单词每个音素的置信度,得到发音评估的特征;使用发音评估特征到发音评分的预测模型,得到当前语音的发音评分。
7.根据权利要求6所述的半开放式口语试题的测试方法,其特征在于,所述步骤D包括对句子进行文本无关韵律特征的切分,然后提取广义流利度特征,该广义流利度特征包括犹豫度、通顺性、连读和失去爆破;由所述广义流利度特征获取句子的流利度特征,并加权得到篇章总体的流利度特征; 提取篇章一级全局广义流利度特征、文本无关错误停顿特征、文本无关重复修正特征;使用所述语音流利度特征和流利度预测模型,得到当前语音的流利评分。
8.根据权利要求7所述的半开放式口语试题的测试方法,其特征在于,所述步骤E中, 所述语音韵律特征为篇章一级全局韵律特征。
9.根据权利要求8所述的半开放式口语试题的测试方法,其特征在于,所述获得所述被测试人员对所述口语半开放试题的总体评分的步骤之后还包括将被测试人员的发音、词汇使用、句型使用、韵律的意见反馈至被测试人员。
10.一种半开放式口语试题的测试系统,其特征在于,该测试系统包括声学模型模块,用于构建针对被测试对象特点的语音数据库,对所述语音数据库使用连续语音声学模型训练平台训练得到声学模型;得分点数据库模块,用于构建包含所述半开放式口语试题的得分点内容与得分点权重的得分点数据库;特征提取模块,用于选择与被测试对象特点相符合的声学模型,利用所述声学模型对被测试人员的口语语音进行语音关键内容提取;关键内容检测模块,用于关键内容检测,并由所述检测结果和得分点数据库中得分点内容的匹配情况,结合得分点权重获得所述被测试人员的内容评分;发音评分模块,用于由所述检测结果获取所述被测试人员的口语发音质量特征,通过预存的发音评估特征到发音评分的发音预测模型,获得所述被测试人员的发音评分;所述流利度评分模块,用于对所述被测试人员的语音进行文本无关流利度评估,获得语音流利度特征,通过预存的所述语音流利度特征和所述流利度预测模型,获得所述被测试人员的流利度评分;语音韵律评分模块,用于对所述被测试人员的语音进行文本无关语音韵律评估,获得语音韵律特征;通过预存的所述语音韵律特征和所述语音韵律预测模型,获得所述被测试人员的语音韵律评分;总体评分模块,用于利用所述被测试人员的内容评分、发音评分、流利度评分和语音韵律评分,通过预存的内容评分、发音评分、流利度评分和语音韵律评分至总体评分的预测模型,获得所述被测试人员对所述口语半开放试题的总体评分。
11.根据权利要求10所述的半开放式口语试题的测试系统,其特征在于,所述关键内容检测模块,与所述特征提取模块、所述声学模型模块和所述得分点数据库模块相连接;所述发音评分模块与所述关键内容检测模块相连接; 所述流利度评分模块与所述特征提取模块相连接; 所述语音韵律评分模块与所述特征提取模块相连接;所述总体评分模块与所述内容评分模块、发音评分模块、流利度评分模块、语音韵律评分模块相连接。
12.根据权利要求10所述的半开放式口语试题的测试系统,其特征在于,该系统还包括评价反馈模块,与所述总体评分模块相连接,用于将被测试人员的发音、词汇使用、句型使用、韵律的意见反馈至被测试人员。
全文摘要
本发明提供了一种半开放式口语试题的测试方法及系统,从关键内容检测和文本无关评估技术入手,跳过了对语音识别的依赖,实现了对半开放口语试题的全自动评分。本发明提出把口语语音的评估分成内容、发音、流利、韵律四个部分,为口语评估工作奠定了基础。
文档编号G10L11/00GK102354495SQ20111025421
公开日2012年2月15日 申请日期2011年8月31日 优先权日2011年8月31日
发明者徐波, 李宏言, 李鹏, 柯登峰, 王士进, 陈振标, 高鹏 申请人:中国科学院自动化研究所