新增口说语汇的语音识别系统与方法

文档序号：9218167阅读：649来源：国知局

新增口说语汇的语音识别系统与方法
【技术领域】
[0001]本发明涉及一种新增口说语汇(spoken vocabulary)的语音识别系统与方法。
【背景技术】
[0002]语音识别模块/系统在运行之前，常需预先设定好辨识的语汇与声学模型，并且为该语汇建构辨识时期所需的搜寻网络，以便在辨识时能引用该搜寻网络与声学模型进行辨识。因此，该语音识别模块/系统在应用之前，需要在脱机阶段做好事前的准备工作。
[0003]在实际应用上，当预先设定的语汇并非使用者所习惯的语汇，或是使用者日常所使用的语言/腔调与该语音识别模块/系统的设定不一致时，例如，一个结合居家操控的语音识别器提供台湾腔中文声学模型与一组语汇，如「打开电灯」、「打开冷气」、...等，让使用者对居家电器设备进行语音操控，而用户习惯用台语，或者想用「开灯」来取代原本设定的「打开电灯」语汇，或者使用上辨识效果不佳时，可能会降低使用者的使用意愿。此时，前述的语音识别器，往往需要根据使用者的习惯做客制化设计或调整。
[0004]有一技术使用一图形化接口来增加新语汇。新增的语汇透过拼音数据库比对，得到对应的新语汇的拼音，再将此新语汇增加到语音识别字典中。有一新增语汇的技术透过一歧异性侦测器(ambiguity detect1n engine)来侦测输入的语汇是否与已存在的语汇有歧异性；当没有歧异性时，回馈给使用者并询问是否做一新增语汇的动作。有一技术依据音素结构(phonetic structure),执行输入的声学数据(acoustic data)的语汇元素特定型态声学音素录制、语汇元素型态的分类、以及语汇元素特定型态音素至字母形式转换(phoneme-to-grapheme convers1n),来产生语汇元素。有一技术先侦测输入的语汇是否与已存在的多个语汇的一语汇实质上匹配，是的话，将该同义词替代该语汇并请求打算使用该语汇的用户的输入语音新增该同义词。有一技术透过麦克风逐字输入欲增加的语汇，并提供一种增加语汇的操作接口。
[0005]现有含语音识别功能的产品有地域性的限制。不同地区因口音或语系差异，需要做客制化设计与足够的发展时程。例如，需要收集该地区大量的语音数据来涵盖该地区可能的年龄层与口音，并检验这些语料的质量，以及训练适用于该地区的声学模型等。
[0006]在上述及/或现行的语汇产生的的语音识别技术或产品中，有的需要根据不同地区口音，做客制化设计。有的需预先设定好识别的语汇与声学模型，以便在识别时能引用该搜寻网络与声学模型进行识别；在实际应用上，需要根据使用者的习惯做客制化设计或调整。所以，能够提供一个可根据使用者需求来做调整的语音识别模块/系统，以让用户方便的进行操控，并且能够减轻技术提供者的负担，以让技术可被广泛的应用是目前研发的重点。

【发明内容】

[0007]本发明的实施例可提供一种新增口说语汇的语音识别系统与方法。
[0008]本发明的一实施例是关于一种新增口说语汇的语音识别系统。此系统可包含至少一输入设备、一模式侦测(mode detect1n)模块、一语音训练模块、以及一语音识别模块。此输入设备接收多个输入信号，此多个输入信号至少包括一段声音信号(sound signal)。此模式侦测模块侦测此多个输入信号，当侦测出该段声音信号中存在一特定声音事件或是该多个输入信号还包括该段声音信号以外的至少一控制信号时，输出一语音训练模式，当侦测出该段声音信号中不存在该特定声音事件并且该多个输入信号中不存在此段声音信号以外的该至少一控制信号时，输出一语音识别模式。此语音训练模块接收该语音训练模式，并对该段声音信号进行一训练处理后，输出一训练结果。此语音识别模块接收该语音识别模式，并对该段声音信号进行一语音识别处理后，输出一辨识结果。
[0009]本发明的另一实施例是关于一种新增口说语汇的语音识别方法。此方法可包含:利用至少一输入设备接收多个输入信号，此多个输入信号至少包括一段声音信号，并利用一模式侦测模块侦测此多个输入信号；当侦测出该段声音信号中存在一特定声音事件或是该多个输入信号还包括该段声音信号以外的至少一控制信号时，输出一语音训练模式，由一语音训练模块对该段声音信号进行一训练处理后，输出一训练结果；以及当侦测出该段声音信号中不存在该特定声音事件并且是该多个输入信号中不存在此段声音信号以外的该至少一控制信号时，输出一语音识别模式，由一语音识别模块对该段声音信号进行一语音识别处理后，输出一辨识结果。
[0010]下面将结合下列图示、实施例的详细说明及申请专利范围，将详细描述上述及本发明的其他优点。
【附图说明】
[0011]图1是根据本发明的一实施例，说明一种新增口说语汇的语音识别系统。
[0012]图2是根据本发明的一实施例，说明新增口说语汇的语音识别系统的一应用范例。
[0013]图3是根据本发明的一实施例，说明新增口说语汇的语音识别系统的另一应用范例。
[0014]图4(A)是根据本发明的一实施例，说明声音事件侦测模块进行关键词萃取，取得此特定关键词存在于输入的一段声音信号的分段时间标记的一范例示意图。
[0015]图4(B)是根据本发明的一实施例，说明声音事件侦测模块进行静音侦测，取得此特定静音存在于输入的一段声音信号的分段时间标记的一范例不意图。
[0016]图4(C)是根据本发明的一实施例，说明声音事件侦测模块进行特殊音侦测，取得此特定特殊音存在于输入的一段声音信号的分段时间标记的一范例不意图。
[0017]图5是根据本发明的一实施例，说明控制信号侦测模块侦测默认的控制信号，取得此默认的控制信号存在于输入的一段声音信号的分段时间标记的一范例示意图。
[0018]图6是根据本发明的一实施例，说明语音训练模块进行语汇训练的一范例示意图。
[0019]图7是根据本发明的一实施例，说明一种新增口说语汇的语音识别方法。
[0020]图8是根据本发明的一实施例，说明一语汇模型训练器的元件与处理流程。
[0021]图9㈧是根据本发明的一实施例，说明以图4㈧或图4(C)的范例，经语音切割处理后，得到的语音段落。
[0022]图9(B)是根据本发明的一实施例，说明以图4(B)的范例，经语音切割处理后，得到的语音段落。
[0023]图10是根据本发明的一实施例，举一范例说明一种可避免无法成功侦测既定语汇的处理流程。
[0024]附图标记说明:
[0025]100新增口说语汇的语音识别系统
[0026]110输入设备120模式侦测模块
[0027]130语音训练模块 140语音识别模块
[0028]112输入信号114 一段声音信号
[0029]124语音训练模式 126语音识别模式
[0030]132训练处理134训练结果[0031 ] 142语音识别处理 144辨识结果
[0032]210输入设备220声音事件侦测模块
[0033]310另一输入设备 320控制信号侦测模块
[0034]314非声音信号
[0035]两箭头分段时间标记
[0036]505使用者507默认的控制信号
[0037]514—段声音信号 520另一输入设备
[0038]634数据库
[0039]632语汇模型训练器ml 1、ml2语汇模型
[0040]636语汇集合
[0041]710利用至少一输入设备接收多个输入信号，此多个输入信号至少包括一段声音信号
[0042]720利用一模式侦测模块侦测此多个输入信号
[0043]732当侦测出该段声音信号中存在一特定声音事件或是该多个输入信号还包括该段声音信号以外的至少一控制信号时，输出一语音训练模

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：简世杰;郭志忠;
技术所有人：财团法人工业技术研究院;
我是此专利的发明人