一种使用动态贝叶斯网络模型的语音识别系统和方法

文档序号：8227616阅读：780来源：国知局

一种使用动态贝叶斯网络模型的语音识别系统和方法
【技术领域】
[0001] 本发明的目标是实现一种使用贝叶斯网络的语音识别系统和方法。特别地，设及一种自动语音识别系统，其可W在用于广告和信息意图的对话系统中应用。对话系统的实施可W采用报亭或货摊的形式，其与顾客或观众开始一对话，并且将呈现适当的多媒体内容。
【背景技术】
[0002] 语音识别系统在日常生活中变得越来越常见。比如，它们可W被用于信息电话中屯、，比如为公共交通所用。然而，该些系统仍然经常依赖于键盘和文本作为输入信息源，而不是使用语音作为输入信息源而运行。
[0003] 已知各种类型的计算机化的交互报亭被用于与用户进行对话。比如，美国专利 US6256046公开了一种在计算机化的报亭内的有源公共用户交互接口，其通过处理视觉数据、通过使用动作和色彩分析W检测表示用户出现的环境中的改变来感知用户。交互空间被定义，系统记录其环境的初始模型，该环境随着时间更新，W反映出不活动对象的添加或减去，并且补偿光的改变。该系统研发了针对移动对象的模型，因此当他们在交互空间的附近移动时，该系统能够跟踪用户。一立体摄像系统进一步增强了该系统感知位置和移动的能力。该报亭呈现出音频和视频的反馈来反映其"看到"了什么。
[0004] 美国专利申请US20080204450公开了一种用于提供虚拟世界的系统、方法和程序产品，其中主动提供的广告被嵌入在自动虚拟角色中。所提供的系统包括：用于将广告虚拟角色引入虚拟世界的注册系统；用于定向用户虚拟角色W实现广告虚拟角色所传递的广告内容的定向系统；用于定义广告虚拟角色如何在虚拟世界中移动的移动系统；W及用于定义广告虚拟角色如何将广告内容传递给用户虚拟角色的广告传递系统。
[0005] 诸如上述的已知的对话系统的缺陷包括，在与用户进行复杂对话时缺乏足够的语音识别能力。
[0006] 美国专利US7203368公开了一种模式识别程序，其使用HMM(隐马尔科夫模型）和 CHMM(禪合隐马尔科夫模型）形成了分级的统计模型。分级的统计模型支持具有多个超节点的父层和具有与每一个父层的超节点相关联的多个节点的子层。经过训练之后，分级统计模型使用从数据集中提取的观察矢量来寻找基本的最优状态序列片段。对该过程进行改进是很有利的。
[0007] 一个比基于HMM的方案少一些限制的、更加通用的方案，是将贝叶斯网络用于语音识别。使用贝叶斯网络的方案包括动态贝叶斯网络值BN)，已经在W下出版物中被公开： -M. Wester，J. Frankel，W及 S. King所著的；"Asynchronous articulatory feature recognition using dynamic Bayesian networks" (Proceedings of lEICI Beyond HMM Workshop, 2004)("使用动态贝叶斯网络的异步分节特征识别"，公开于2004年HMM研讨会的IEICI会议录）； -J. A. Bilmes 和 C. Bartels 所著的"Graphical model architectures for speech reco即ition"，IE邸 Si即al Processing Magazine, vol. 22，pp.89-100,2005("用于语音识别的图形模型构造"，公开于IE邸信号处理杂志，2005年，vol. 22, pp. 89-100); -J. Frankel，M. Wester 和 S. King 所著的"Articulator/feature recognition using dynamic Bayesian networks" , Computer speech and Language，vol. 21，no. 4， pp. 620-640, October 2007 ("使用动态贝叶斯网络的发音器/特征识别"，公开于2007年 10月，计算机语音和语言vol. 21，no. 4,卵.620-640)。使用贝叶斯网络的语音识别方法依据特征矢量对声音时长进行建模。在DBN中，使用表示声音的变量替换表示时长的变量已经变得可能。然而，所有的现有技术的方案都在预定的时间范围内进行语音分析。
[000引考虑到之前的现有技术，有必要设计和实现一种允许提高人类和机器之间的对话效率的语音识别系统和方法。

【发明内容】

[0009] 本发明的目的在于提供一种用于自动语音识别的计算机实现的方法，包括W下步骤；通过输入设备记录表示语音的电信号，并将该信号转换至频域或时-频域，基于DBN在模块分析中分析信号，被配置为基于观察到的信号特征（0A，0V)生成单词（W)的假设和它们的概率，基于特定单词（W)假设和它们的概率识别出表示语音的电信号所对应的文本。该方法的特征在于，将观察到的信号特征输入到分析模块中，该观察到的信号是对于多个时间段、在至少两条并行信号处理线上的频域或时-频域中为信号而确定的，其中在每条线上的时间片段都不同，并且，在分析模块中对至少两个不同的时间片段分析观察到的信号特征之间的关系。
[0010] 优选地，时间片段具有预定的时长。
[0011] 优选地，时间片段取决于语音片段的内容，比如音素（phonemes)、音节 (syll油les)、单词（words)。
[0012] 优选地，该方法进一步包括在分析模块定义描述模型的变量之间的确定性和概率性关系，而概率性关系至少被定义用于将观察到的信号特征与当前状态（Sti)进行关联。
[0013] 优选地，该方法进一步包括同时分析不同的观察到的信号特征（0A，0V)。
[0014] 本发明的另一个目标是实现用于语音识别的、计算机实现的系统，包括用于将代表语音的电信号进行记录的输入设备，用于将表示语音的记录的电信号转换为频域或时-频域的模块，基于DBN的分析模块，被配置为分析表示语音的信号，并且，被配置为基于观察到的信号特征（0A，0V)生成单词（W)的假设和它们的概率，用于基于已定义的单词（W) 的假设与它们的概率识别表示语音的电信号所对应的文本的模块。该系统进一步包括至少两个信号参数化模块，用于为分析模块在至少两条并行信号处理线上为每条线上不同的时间片段确定至少两个观察到的信号特征，其中分析模块被配置为分析在至少两个不同的时间片段上，观察到的信号特征之间的相关性。
[0015] 本发明的目标是还提供一种计算机程序，包括当所述程序在计算机上运行时，用于执行根据本发明的计算机实现的方法的所有步骤的程序代码装置，还有存储计算机可执行指令的计算机可读介质，当在计算机上执行该指令时，该指令执行根据本发明的计算机实现的方法的所有步骤。附图简要说明
[0016] 已经在附图中的示例性实施例中公开了本发明的目标，其中：
[0017] 附图1示出了依据本发明的系统的方框图；
[001引附图2示出了自动语音识别过程的方框图；
[0019] 附图3示出了在不同长度的并行时间周期内使用DBN对语音进行模型化；
[0020] 附图4描述了使用与附图3中示出的DBN相似的DBN进行单词序列解码的例子 (为了示例性目的，已经被简化的版本）。
【具体实施方式】
[0021] 附图1示出了依据本发明的系统的方框图。该系统可W被用于交互性广告或其它提供信息的对话系统中。对话尽可能地接近现实中的对话。由于使用诸如模式识别、语义分析的技术，使用语音合成所伴随的本体认知和自然语言生成，该种

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：巴尔托什·焦尔科;托马什·贾奇克;
技术所有人：克拉科夫大学;
我是此专利的发明人