语音文本匹配云系统的制作方法

文档序号：2834991阅读：740来源：国知局

专利名称：语音文本匹配云系统的制作方法
技术领域：
本发明涉及一种处理参考文本每个字或者词对应的语音文本匹配云系统。
背景技术：
语音识别技术近年来发展迅速，使计算机处理语音信号逐步走向商业应用。语音文本匹配技术是以语音识别技术为基础，对语音和其对应的参考文本进行对准。与识别系统不同的是，语音文本匹配中语音的参考文本内容是己知的，语音文本匹配的过程就是获取参考文本每个字或者词对应的发音时间信息。语音文本匹配广泛应用在模型训练、多媒体检索、广播电视媒体、计算机辅助语言教学等方面；还可为现场直播的新闻、演讲、会议等生成字幕；为语言教学、游戏娱乐、电影制作等生成多媒体库；为歌曲制作同步的歌词显示
坐寸ο然而，现有的系统和方法在实际应用中面临着两大问题。I)语音文本匹配效率低。现有系统和方法不具备并行处理的能力，对于大规模连续语音及其文本的匹配处理因其时耗太大，而失去商业应用价值。2)缺乏鲁棒性。对于例如讲座等复杂噪音背景或是部分破坏的语音数据，现有的系统和方法不能正确给出匹配文本。

发明内容
针对现有语音文本匹配系统中存在的上述技术问题，本发明提供一种语音文本匹配云系统。本发明的技术方案是: 包括web服务模块、语音端点检测模块、语音识别模块和语音文本匹配模块；
所述的Web服务模块为用户提供web界面，用户可以通过该界面提交需要匹配的语音文件与参考文本，得到语音文本的匹配文件；
所述的语音端点检测模块将大的语音流分割成小的音频片段；
所述的语音识别模块可以并行的完成多个语音识别任务，将语音端点检测模块提交的音频文件转换为文字；
所述的语音文本匹配模块将语音识别输出结果同用户提交的文本进行对齐，从而得每个字或者词对应的发音时间信息。上述语音文本云匹配系统中，所述语音识别模块包括任务管理模块和多个识别节点。所述任务管理模块包括一个任务队列用来区分不同的语音文本匹配任务，每个任务对应维护一个作业队列。该模块将分割后语音文件以作业的形式发送给不同的识别节点，并当不同节点完成识别工作后，将分割音频流识别后的带时间标签的转写文本进行拼接，发送给文本匹配模块。所述识别节点采用分布式架构并行完成语音识别，即每个识别节点具有独立的语音识别功能，对于分发给识别节点的音频片段能够进行语音识别给出转写文本；识别节点在识别过程中采用动态自适应的声学模型和语言模型进行语音识别，从而提高识别准确率。上述语音文本云匹配系统中，所述语音文本匹配模块包括对齐模块和自适应模块，对齐模块和自适应模块可将语音识别输出结果同用户提交的文本进行对齐，从而得到单词或是字级别的时间对准信息并可依据用户需求确定对准级别。语音文本匹配模块中的对齐模块完成转写文本与用户提交的参考文本之间匹配工作。通过对齐模块将识别后的转写文本同用户提交的参考文本利用编辑距离进行对齐，基于删除、插入和改写三类错误的个数利用动态规划算法计算编辑距离，并给出一个错误阀值；当某段转写文本与参考文本之间的编辑距离小于阀值就认为该段文本是可信对齐文本区间，该区间的转写文本同用户提交的参考文本是匹配的。语音文本匹配模块中的自适应模块控制其他模块对同一任务中的语音文件进行迭代分割、识别、匹配和初始化并更新该任务识别节点的语言模型和动态自适应的声学模型。在初始化时，识别节点的声学模型初始化成为系统提供的标准声学模型，而语言模型采用该节点隶属任务的参考文本构建三元语言模型。对同一语音文本匹配任务，自适应模块控制语音端点检测模块对该任务上次迭代的不属于可信文本区间对应的音频流进行重新分割，并对该任务隶属的识别节点的声学模型和语言模型进行更新后，再次对不属于可信文本区间对应的音频进行识别，并控制对齐模块重新计算可信对齐区间；分割，识别，对齐等过程迭代进行，直到匹配本文的三类错误小于给定阀值或是小于一个给定的迭代次数。语音识别模块中的动态自适应的声学模型和语言模型对语音文本匹配模块中的自适应模块初始化并更新。语音文本匹配模块中的自适应模块在更新语音识别模块中的动态自适应的声学模型和语言模型时，对同一音频文本匹配任务的所有识别节点的声学模型仅在第一迭代后更新一次，而语音模型每次迭代后进行更新。所述对动态自适应的声学模型的更新是使用可信对齐文本区间和其对应的音频数据，采用最大似然线性回归训练一个全局的变换，再使用该变换优化该任务对应的识别节点的声学模型。所述对语音模型的更新是对语言模型采用有限状态的语法约束，该语法只允许对上次迭代不属于可信文本区间的参考文本的字序列做分割。首次迭代时，所有文本区间皆不可信。本发明的技术效果在于:本发明通过互联网提供语音文本匹配服务，采用分布式的架构部署在远端服务器上，客户可以根据自己实际需求，通过互联网定购所需的语音文本匹配服务，按定购的服务多少和时间长短支付费用，不仅使用方便、快捷还能有效降低成本。并且本发明能够并行完成语音文本匹配，使用自适应、迭代性的语音识别和文本对齐等技术，可以处理包含噪音的大规模长音频，对识别产生转写文本错误具有较好的鲁棒性。

图1本发明的结构示意图。图2本发明中语音端点检测模块的结构示意图。图3本发明中语音识别模块结构示意图。图4本发明中的数据处理流程图。
具体实施例方式为了更清楚的描述本发明的特征和优点，下面结合附图1 一 4做详细的说明如下: 语音文本匹配云系统从功能结构主要包含web服务模块、语音端点检测模块、语音识别模块、语音文本匹配模块4个部分。I) Web服务模块
Web服务模块为用户提供交互接口，包括用户服务和用户管理模块。用户模块提供用户上传下载，用户支付，用户注册等功能；管理模块包括用户信息管理，客户订单管理等子模块，提供客户动态信息，掌握客户的订单日信息，并与客户保持在线联系等功能。2)语音端点检测模块
语音端点检测模块利用语音的某种特性将语音切分成类别单一的音频片段，标注出各音频片段的分界点位置。包括格式转换，特征提取，语音分割等子模块。语音端点检测模块的功能分为三个部分实现，音频格式转换部分将音频数据文件转换为系统可以处理的WAV格式。特征提取部分抽取被转换为WAV格式转成Mfcc语音特征，即Mel频率倒谱系数语音特征。语音分割部分包含两个线程:主线程语音分割模块依据其声学特征将语音文件分割为音频片段。每段持续时间约为10至15秒；监听线程监听语音识别模块发来的迭代信息，更新主线程中需要分割的音频数据。3)语音识别模块
语音识别模块对音频文件进行语音识别，并对音频文件的识别结果进行拼接形成转写文本。包括任务管理、识别节点等子模块。任务管理模块用于管理不同任务和同一任务的不同作业，并将同一任务的识别结果拼接成一个完整的转写文本。识别节点采用分布式架构，多个识别节点并行完成语音识别功能。声学模型采用自己录制的语料训练三音素模型。从音频提取的声学特征的预加重系数为0.97。语言模型是依据用户提交的参考文本作为语料库，通过SRILM工具生成三元的语言模型，当生成语言模型的参考文本比较少时，使用Witten-Bell平滑法建立语言模型。对于每一个不同的识别音频，都要使用上述方法，产生对应的语料库。如图3语音识别模块包含任务管理模块和多个识别节点。该模块从语音端点检测模块获取分割后的音频流，维护一个任务队列用来区分不同的音频文本对其任务，每个任务对应一个作业队列。该模块将分割后音频流以作业的形式发送给不同的识别节点。当不同节点完成识别工作后，任务管理模块将分割音频流识别后的带时间标签的转写文本进行拼接，发送给文本匹配模块。每个识别节点都具有独立的识别功能，包含识别器、声学模型和语言模型。识别器利用声学模型和语言模型完成分发给该节点的识别任务。每个节点上的作业仅属于一个任务。有属于其他任务的作业到达识别节点，该节点的语言模型和声学模型将被初始化。4)语音文本匹配模块
语音文本匹配模块完成转写文本与参考文本之间的匹配工作，最终生成带有时间信息的匹配文本。包括对齐模块和自适应子模块。对齐模块使用最小编辑错误算法对齐转写文本和参考文本。自适应模块依据一个设定的阀值，控制未对齐的部分进行重新分割，识别和对齐处理，直到满足阀值要求。图4描述了系统数据流程，对用户提交的语音和参考文本，创建识别任务，将语音流分割成类别单一的音频片段，然后对音频片段进行并行识别，将识别后的结果拼接成完整的转写文本，再将转写文本同参考文本进行对齐。对齐使用动态规划方法计算带时间信息的转写文本同用户提交的参考文本之间的编辑距离。设定一个阀值作为对齐的标准，如果有部分文本的编辑距离大于设定的阀值，则将这部分文本对应的语音，重新进行语音断点检测，识别，对齐。这个过程将迭代进行，直到所有转写文本同参考文本之间的编辑距离达到设定的阀值要求。对于用户提交的音频流首次分割时，系统默认全体文本是非可信的对齐区间。随着迭代次数的增加非可信对齐文本区间不断减少，当编辑距离小于给定的一个阀值或是达到一定迭代次数后，算法结束。上面是本发明提供的一种语音文本匹配云系统架构的优选实施方式，并不构成对本发明的保护权限，任何在本发明上的改进，只要原理相同，都保含在本发明的权利要求保护范围之内。
权利要求
1.一种语音文本云匹配系统，其特征在于:包括Web服务模块、语音端点检测模块、语音识别模块和语音文本匹配模块；所述的Web服务模块为用户提供web界面，用户可以通过该界面提交需要匹配的语音文件与参考文本，得到语音文本的匹配文件；所述的语音端点检测模块将大的语音流分割成小的音频片段；所述的语音识别模块可以并行的完成多个语音识别任务，将语音端点检测模块提交的音频文件转换为文字；所述的语音文本匹配模块将语音识别输出结果同用户提交的文本进行对齐，从而得每个字或者词对应的发音时间信息。
2.如权利要求1所述的语音文本云匹配系统，其特征在于:所述的语音端点检测模块对于同一个语音文件仅提取一次声学特征，并利用语音文件的声学特征对语音文件进行分割。
3.如权利要求1所述的语音文本云匹配系统，其特征在于:所述的语音识别模块包括任务管理模块和多个识别节点；所述的任务管理模块使用任务队列管理不同识别任务，使用作业队列来管理同一个识别任务不同作业的识别节点，并能将同一任务不同的识别节点的转写文本进行拼接，形成该任务语音文件识别后的完整转写文本；所述的识别节点采用分布式架构并行完成语音识别，即每个识别节点具有独立的语音识别功能，对于分发给识别节点的音频片段能够进行语音识别给出转写文本；所述的识别节点在识别过程中采用动态自适应的声学模型和语言模型进行语音识别。
4.如权利要求3所述的语音文本云匹配系统，其特征在于:所述的语音文本匹配模块包括对齐模块和自适应模块；所述的对齐模块完成转写文本与用户提交的参考文本之间匹配工作；所述的自适应模块控制其他模块对同一任务中的语音文件进行迭代分割、识别、匹配和初始化并更新该任务语音识别模块中识别节点的语言模型和动态自适应的声学模型；语音识别模块中识别节点动态自适应的声学模型初始化成为系统提供的标准声学模型，语言模型采用该节点隶属任务的参考文本构建三元语言模型。
5.如权利要求4所述的语音文本云匹配系统，其特征在于:语音识别模块中的动态自适应的声学模型和语言模型对语音文本匹配模块中的自适应模块初始化并更新。
6.如权利要求4所述的语音文本云匹配系统，其特征在于:语音文本匹配模块中的对齐模块将识别后的转写文本同用户提交的参考文本利用编辑距离进行对齐，基于删除、插入和改写三类错误的个数利用动态规划算法计算编辑距离，并给出一个错误阀值；当某段转写文本与参考文本之间的编辑距离小于阀值就认为该段文本是可信对齐文本区间，该区间的转写文本同用户提交的参考文本是匹配的。
7.如权利要求书6所述的语音文本云匹配系统，其特征在于:语音文本匹配模块中的自适应模块对同一语音文本匹配任务，控制语音端点检测模块对该任务上次迭代的不属于可信文本区间对应的音频流进行重新分割，并对该任务隶属的识别节点的声学模型和语言模型进行更新后，再次对不属于可信文本区间对应的音频进行识别，并控制对齐模块重新计算可信对齐区间；分割，识别，对齐等过程迭代进行，直到匹配本文的三类错误小于给定阀值或是小于一个给定的迭代次数。
8.如权利要求书4所述的语音文本云匹配系统，其特征在于:语音文本匹配模块中的自适应模块对同一音频文本匹配任务的所有识别节点的声学模型仅在第一迭代后更新一次，而语音模型每次迭代后进行更新；所述对声学模型的更新是使用可信对齐文本区间和其对应的音频数据，采用最大似然线性回归训练一个全局的变换，再使用该变换优化该任务对应的识别节点的声学模型；所述对语音模型的更新是对语言模型采用有限状态的语法约束，该语法只允许对上次迭代不属于可信文本区间的参考文`本的字序列做分割。
全文摘要
本发明公开了一种语音文本匹配云系统。它包括web服务模块、语音端点检测模块、语音识别模块和语音文本匹配模块。本发明通过互联网提供语音文本匹配服务，语音文本匹配服务通过多个模块、采用分布式的架构部署在远端服务器上实现。本发明能够并行完成语音文本匹配，使用自适应、迭代性的语音识别和文本对齐等技术，可以处理包含噪音的大规模长音频，对识别产生转写文本错误具有鲁棒性。
文档编号G10L15/34GK103165130SQ20131004772
公开日2013年6月19日申请日期2013年2月6日优先权日2013年2月6日
发明者程戈, 黄山申请人:湘潭安道致胜信息科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：程戈;黄山
技术所有人：湘潭安道致胜信息科技有限公司
我是此专利的发明人

上一篇：基于移动通讯终端及眼镜的显示及语音输出方法及系统的制作方法
上一篇：可调式乐器用共鸣箱的制作方法