一种基于语音电话实现自动口语训练的方法与装置的制作方法

文档序号：2837238阅读：253来源：国知局

专利名称：一种基于语音电话实现自动口语训练的方法与装置的制作方法
技术领域：
本发明属于自动口语训练的方法与装置，具体地说是一种基于语音电话实现自动口语训练的方法与装置。
背景技术：
语音识别技术已经在语音电话领域有许多应用，主要集中在对话情景
固定并且说话内容简单的内线电话智能语音交换机上。IBM的Phon印ass系统将语音电话和语音识别技术应用于英语口语测试，测试形式主要是朗读词汇和句子，以及口头做多项选择题。使用广泛的各种电话自动查询系统都采用话机按键交互方式，而不采用口语交互方式。
随着语音识别系统的识别准确率和识别速度的提高以及在特定环境下对硬件条件的要求越来越低，将基于微小芯片的语音识别技术嵌入消费类电子产品中越来越成为现实。随着消费类电子产品性能变得越来越混杂功能越来越强劲，语音识别科技使消费者可以更方便、更直观地使用这些产品。并且，在使用这些产品的时候不会伴随着一系列的按键和提示音，而是实现消费者和产品间的直接对话。
这些语音识别技术在语音电话领域的应用，由于缺乏口语交互式学习，还不能满足人们在口语训练屮的要求。

发明内容
为了克服现有技术中的不足，本发明的目的在于提供一种基于语音电话实现自动口语训练的方法与装置，满足人们利用语音电话进行交互式口语训练的需求。为完成上述发明目的，本发明提供一种基于语音电话实现自动口语训练的方法，该方法包括以下步骤
1) 电话用户拨进电话，激活电话接收模块；
2) 对话控制模块打开对话脚本，进入对话起始状态；
3) 确定当前所处的对话阶段，提取对应阶段所需的预期应答内容；
4) 编译当前对话阶段预期应答内容的语音识别规则，为识别电话用户的语音做好准备；
5) 启动语音识别模块，同时启动机器说话录音播放模块，播放提取的机器说话录音；
6) 语音识别模块激活进行语音识别并传递语音识别的结果到语言处理模块。语言处理模块把语音识别的结果与取得的预期应答内容进行比对。
为完成上述发明目的，本发明还提供一种基于语音电话实现自动口语训练的装置，包括电脑、电话接收模块、对话控制模块、语音识别模块和对话知识库，其特征在于，
所述电话接收模块，用于接收电话用户的电话，并将接通信号发送到对话控制模块。
.所述对话控制模块，接收来自电话接收模块信号，从对话知识库检索合适的对话知识，调用语言识别模块监听电话用户的话语，调用语言处理模块对识别的语言进行判断，给出该轮对话的反馈。
所述语音识别模块，用于监听电话用户的话语，并把语音识别的结果传送给语言处理模块。
所述语言处理模块，接收语音识别的结果并将其与对话知识库检索到的对话知识进行比较，给出比较结果。
所述对话知识库，存储对话知识及所有需要保留的信息。本发明具有明显的优点和积极效果。首先采用专家系统技术和简化的对话脚本控制技术组织人机对话预计所需的话语知识，可以方便地编写基于文字和真人录音的对话脚本并控制其运行流程。其次利用自行研发的词句模糊比对技术比对预期的对话人所说内容和实际识别的内容，比对结果达到设定的阈值则根据预定的积极反馈方案反馈，否则根据预定的消极反馈方案反馈。

图l为本发明系统构成图2为根据本发明的基于语音电话实现自动口语训练方法的流程图3为根据本发明的适当扩大语音识别语法规模方法框图4为根据本发明的语言处理模块工作流程图5为根据本发明的对话脚本表达方式和脚本控制方法流程图6为根据本发明的对话脚本编写格式。
具体实施例方式
下面结合说明书附图来说明本发明的具体实施方式
。
图1是本发明的系统构成图，参见图1，根据本发明的基于语音电话实
现自动口语训练装置包括以下模块
电脑，用于安装本发明装置的各种模块，控制各模块的工作。电话接收模块，该模块用于接收电话用户的电话，并将接通信号发送
到对话控制模块。
对话控制模块，接收来自电话接收模块信号，从对话知识库检索合适的对话知识，调用语言识别模块监听电话用户的话语，调用语言处理模块对识别的语言进行判断，给出该轮对话的反馈。
语音识别模块，用于监听电话用户的话语，并把语音识别的结果传送给语言处理模块。
语言处理模块，接收语音识别的结果并将其与对话知识库检索到的对话知识进行比较，给出比较结果。
对话知识库，存储对话知识及所有需要保留的信息。
图2为根据本发明的基于语音电话实现自动口语训练方法的流程图。下文将参考图2，对本发明自动口语训练方法进行详细描述。
首先，在步骤210，电话用户拨进电话，激活电话接收模块；
在步骤220，对话控制模块打开对话脚本，进入对话起始状态；
在步骤230，确定当前所处的对话阶段，提取对应阶段所需的各种预期应答内容，包括机器说话录音，预期电话用户应答内容，预期应答内容的语音识别规则，实际应答正确时机器的反馈和不正确时的机器反馈；
在步骤240，编译当前对话阶段预期应答内容的语音识别规则，为识别电话用户的语音做好准备；
在步骤250，启动语音识别模块，同时启动机器说话录音播放模块，播放步骤3提取的机器说话录音；
在歩骤260，语音识别模块激活语言处理模块并把语音识别的结果传递过去。语言处理模块把语音识别的结果与步骤230取得的预期应答内容进行比对，如果比对结果达到设定的阈值，启动机器说话录音播放模块，播放步骤230取得的正确机器反馈录音，否则播放步骤230取得的错误机器反馈录音。把控制交还给脚本控制模块，更新对话阶段，进入步骤230开始的新的一轮对话。
图3为根据本发明的适当扩大语音识别语法规模方法框图。310表示预计用户应答内容实际需要的语音识别规则。320为系统编译的略为扩大的语音识别规则。330是编译的语音规则，为310与320之和。通过增加一些冗余提高语音识别区分度，用户错误输入能够识别出来，从而提高准确率。
图4为根据本发明的语言处理模块工作流程图。下面将参考图4，对本发明的语言处理模块工作流程进行详细描述。
首先，在步骤410，语音识别模块获得电话用户话语；在步骤420，获取预计用户答案；在步骤430，分析是否存在各种不符点；
在步骤450，是计算比对分值的算法，这是一种根据句长和错误数比率
的相对值。
图5为根据本发明的对话脚本表达方式和脚本控制方法流程图。下面将参考图5，对本发明的对话脚本表达方式和脚本控制方法进行详细描述。
首先，在步骤500，根据当前的进入标志X从脚本库510中选择当前轮对话的脚本信息进行对话处理；
在步骤520，根据本发明的基于语音电话实现自动口语训练方法的流程对该轮对话进行处理；
在步骤530，用当前轮对话脚本的转出标志更新下一轮对话的转入标志，然后循环执行步骤500，进行新一轮对话处理。
图6为本发明的对话脚本编写格式，710是各轮对话的进入标志。720 是各轮对话的转出标志。
以上所述仅为本发明的优选实施例而己，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。
权利要求
1、一种基于语音电话实现自动口语训练的方法，该方法包括以下步骤1)电话用户拨进电话，激活电话接收模块；2)对话控制模块打开对话脚本，进入对话起始状态；3)确定当前所处的对话阶段，提取对应阶段所需的预期应答内容；4)编译当前对话阶段预期应答内容的语音识别规则，为识别电话用户的语音做好准备；5)启动语音识别模块，同时启动机器说话录音播放模块，播放提取的机器说话录音；6)语音识别模块激活进行语音识别并传递语音识别的结果到语言处理模块。语言处理模块把语音识别的结果与取得的预期应答内容进行比对。
2、根据权利要求l所述的基于语音电话实现自动口语训练的方法，其中，所述步骤1中的对话脚本的控制采用数据库纪录代表脚本各个阶段的内容，每条纪录设置进入和转出标志值，控制程序只需查找进入标志值与当前纪录的转出标志值匹配的任意多条纪录，就算找到了对话的下一轮脚本。
3、根据权利要求l所述的基于语音电话实现自动口语训练的方法，其中，所述步骤3中的提取对应阶段所需的预期应答内容包括机器说话录音，预期电话用户应答内容，预期应答内容的语音识别规则，实际应答正确时机器的反馈和不正确时的机器反馈。
4、一种基于语音电话实现自动口语训练装置包括电脑、电话接收模块、对话控制模块、语音识别模块和对话知识库，其特征在于，所述电话接收模块，用于接收电话用户的电话，并将接通信号发送到对话控制模块。所述对话控制模块，接收来自电话接收模块信号，从对话知识库检索合适的对话知识，调用语音识别模块监听电话用户的话语，调用语言处理模块对识别的语言进行判断，给出该轮对话的反馈。所述语音识别模块，用于监听电话用户的话语，并把语音识别的结果传送给语言处理模块。所述语言处理模块，接收语音识别的结果并将其与对话知识库检索到的对话知识进行比较，给出比较结果。所述对话知识库，存储对话知识及所有需要保留的信息。
5、根据权利要求4所述的基于语音电话实现自动口语训练装置，其中,所述语音识别模块为了提高语音识别准确率，通过增加一些冗余提高语音识别区分度，用户错误输入能够识别出来，从而提高准确率。
6、根据权利要求4所述的基于语音电话实现自动口语训练装置，其中，所述语言处理模块是将语音识别的结果与取得的预期应答内容进行比对。
全文摘要
一种基于语音电话实现自动口语训练的装置，包括电脑、电话接收模块、对话控制模块、语音识别模块、语言处理模块和对话知识库。一种基于语音电话实现自动口语训练的方法，包括以下步骤电话用户拨进电话，激活电话接收模块；对话控制模块打开对话脚本，进入对话起始状态；确定当前所处的对话阶段，提取对应阶段所需的预期应答内容；编译当前对话阶段预期应答内容的语音识别规则，为识别电话用户的语音做好准备；启动语音识别模块，同时启动机器说话录音播放模块，播放提取的机器说话录音；语音识别模块激活进行语音识别并传递语音识别的结果到语言处理模块。语言处理模块把语音识别的结果与取得的预期应答内容进行比对。
文档编号G10L15/00GK101304457SQ200710097430
公开日2008年11月12日申请日期2007年5月10日优先权日2007年5月10日
发明者许罗迈申请人:许罗迈

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许罗迈
技术所有人：许罗迈
我是此专利的发明人

上一篇：安多藏语语音音节切分的方法
上一篇：噪声除去装置、方法以及程序的制作方法