声音识别装置、声音识别方法以及声音识别程序的制作方法

文档序号:2830627阅读:292来源:国知局
专利名称:声音识别装置、声音识别方法以及声音识别程序的制作方法
技术领域
本发明涉及这样的声音识别装置、声音识别方法以及声音识别程序: 依照转换规则将识别词的读音转换成音素串,并根据所转换的音素串生 成作为标准模式串的词模型,从而识别人的说话声音。
背景技术
一般,声音识别装置具有这样的功能将存储在识别词存储部内的 识别词的读音转换成音素串,并根据所转换的音素串生成作为标准模式 串的词模型,从而识别人的说话声音。具体地说,声音识别装置根据读 音和音素之间的转换规则或者读音和音素串之间的转换规则,将识别词 的读音转换成音素串。声音识别装置根据所转换的音素串生成作为标准 模式串的词模型。声音识别装置计算所输入的说话声音和所生成的词模 型在各时刻的相似度。声音识别装置提取所生成的词模型中、在各时刻 的相似度是阈值以上的词模型。声音识别装置将与提取出的词模型对应
的识别词作为识别结果来输出(例如,参照日本特开昭62 — 116999号公 报、日本特开昭63 — 5395号公报、日本特开平01 —302295号公报、或 者日本特开平08—248979号公报)。
另外,人一般不会清楚地发出说话声音的所有音素。也就是说,人 的说话声音包含有含糊音素。特别是,当人快速地发声时,人的说话声 音容易包含有含糊音素。因此,存在这样的问题即使在人发出了识别
词的声音的情况下,声音识别装置有时也不能识别人的发声。
作为一例,假定在声音识别装置的识别词存储部内存储有识别词的
读音"i J: <!: (toyotomi)"。在该情况下,声音识别装置根据转换规则, 将识别词的读音"t A i V转换成音素串"toyotomi"。另外,转换规则是 "i^to"、 "j:^yo"、"办Gmi"。声音识别装置根据所转换的音素串"toyotomi"生成作为标准模式串的"toyotomi"的词模型。这里,在人发出 识别词"^ A &办"的声音的情况下,由于所发出的"i J: i办"中的"J:" 是含糊发声,因而在声音识别装置中,判定为"t^ t办,,中的"J:"(音 素yo)是省略了音素"y"的"扭"(音素o),其结果,判定为说话声音 是"i ;b、 i ,,。在说话声音"i扭<b V中的"fc、"和词模型"toyotomi"中的
"yo"在各时刻的相似度为阈值以下的情况下,声音识别装置不能识别说 话声音"i好iV。
为了解决上述问题,在现有的声音识别装置中,根据识别词的读音 预先将包含容易变得含糊的音素的音素串追加给转换规则。在上述例子 中,作为转换规则,不仅有"t^to"、 "J:。yo"、 "^mi",还追加"i J:^too"。由此,声音识别装置将识别词的读音"i A i V转换成音素串 "toyotomi"和音素串"tootomi"。声音识别装置根据所转换的音素串 "toyotomi"生成作为标准模式串的"toyotomi"的词模型,并根据所转换的 音素串"tootomi"生成作为标准模式串的"tootomi"的词模型。所以,声音 识别装置即使在判定为说话声音是"i *>、 i办,,的情况下,由于说话声音 "i & t ^"和词模型"tootomi"在各时刻的相似度为阈值以上,因而也能 将说话声音"i & i V识别为"i J: t *"。
然而,在上述现有的声音识别装置中,虽然能识别在人发出识别词 的声音的情况下的包含有含糊音素的说话声音,但是在人发出识别词以 外的词的声音的情况下,有时也仍将该词误识别为识别词。即,这是因 为,在上述现有的声音识别装置中,根据识别词的读音预先将包含容易 变得含糊的音素的音素串追加给了转换规则。
具体地说,在上述现有的声音识别装置中,能识别在人发出识别词 J: i办,,的声音的情况下的包含有含糊音素的说话声音"i fc、 i办,,。然 而,在上述现有的声音识别装置中,在人发出识别词"i J: i *,,以外的 词"i i i办"的声音的情况下,说话声音"£ & & A"和词模型"tootomi"
在各时刻的相似度有时为阈值以上,在该情况下,导致将说话声音"& 6 & ^"误识别为"^ ct ",,。

发明内容
本发明是鉴于上述问题而作成的,本发明的目的是提供这样的声音识别装置、声音识别方法以及声音识别程序能在识别在人发出识别词的声音的情况下的包含有含糊音素的说话声音的同时,防止在人发出识别词以外的词的声音的情况下,将该词误识别为识别词。
为了达到上述目的,本发明中的声音识别装置具有声音分析部,其将所输入的说话声音转换成特征量;识别词存储部,其存储有识别词的读音;转换规则存储部,其存储有读音与音素之间的转换规则或者读音与音素串之间的转换规则;音素串转换部,其根据存储在所述转换规
则存储部内的转换规则,将存储在所述识别词存储部内的识别词的读音转换成音素串;音素模型存储部,其存储有对音素容易变成怎样的特征量进行建模而成的标准模式;词模型生成部,其根据由所述音素串转换部转换的音素串,提取存储在所述音素模型存储部内的标准模式,对提取出的标准模式进行连接,由此生成作为标准模式串的词模型;以及声音核对部,其计算由所述声音分析部转换的特征量与由所述词模型生成部生成的词模型之间的、各时刻的相似度,所述转换规则存储部还存储与所述转换规则中的至少1个转换规则的音素或音素串对应的第1阈值条件,所述声音核对部提取由所述词模型生成部生成的词模型中的这样的词模型在所述各时刻的相似度中最小的相似度或者由所述各时刻的相似度获得的整体相似度满足第2阈值条件,且所述说话声音的发声区间中、对应于与所述第1阈值条件对应的音素或音素串的区间的、各时刻的相似度满足该第1阈值条件,所述声音核对部将与提取出的词模型对应的识别词作为识别结果来输出。
通过将所述第1阈值条件设定成可识别在人发出识别词的声音的情况下的包含有含糊音素的说话声音,而且将所述第1阈值条件设定成在人发出识别词以外的词的情况下可废弃该词,由此本发明的声音识别装置能在识别在人发出识别词的声音的情况下的包含有含糊音素的说话声音的同时,防止在人发出识别词以外的词的声音的情况下,将该词误识别为识别词。例如,假定声音核对部计算在人发出识别词的声音的情况下的包含有含糊音素的说话声音的特征量与所生成的词模型之间的、各时刻的相似度。在该情况下,声音核对部提取所生成的词模型中的这样的词模型在各时刻的相似度中最小的相似度或者由各时刻的相似度获得的整体相似度满足第2阈值条件,且说话声音的发声区间中、对应于与第1阈值条件对应的音素或音素串的区间的、各时刻的相似度满足该第1阈值条件。由此,声音核对部能将与提取出的词模型对应的识别词作为识别结果来输出。另一方面,例如假定声音核对部计算在人发出识别词以外的词的声音的情况下的该词的特征量与所生成的词模型之间的、各时刻的相似度。在该情况下,说话声音的发声区间中、对应于与第1阈值条件对应的音素或音素串的区间的、各时刻的相似度满足该第1阈值条件的词模型不存在。因此,声音核对部不提取词模型。由此,在人发出识别词以外的词的声音的情况下,声音核对部能废弃该词。
在上述本发明中的声音识别装置中,优选采用以下方式所述转换规则存储部针对所述第1阈值条件表示的每个条件配备有多个,所述音素串转换部根据存储在所述识别词存储部内的识别词的读音数,从多个转换规则存储部中选择用于将识别词的读音转换成音素串的转换规则存储部,根据存储在所选择的转换规则存储部内的转换规则,将存储在所述识别词存储部内的识别词的读音转换成音素串。
根据上述结构,音素串转换部根据识别词的读音数,从多个转换规则存储部中选择用于将识别词的读音转换成音素串的转换规则存储部。例如,在识别词的读音数多到1000以上的情况下,音素串转换部仅选择存储有条件低的第1阈值条件的转换规则存储部。也就是说,这是因为,在存储有条件低的第1阈值条件的转换规则存储部内,通常存储有在人发出识别词的声音的情况下的包含容易变得含糊的音素的音素串的转换规则。另外,在存储有条件高的第1阈值条件的转换规则存储部内,通常存储有在人发出识别词的声音的情况下的包含很少变得含糊的音素的音素串的转换规则。另一方面,例如在识别词的读音数少到不足1000的情况下,音素串转换部选择所有转换规则存储部。音素串转换部根据存储在所选择的转换规则存储部内的转换规则,将识别词的读音转换成音素串。由此,例如在识别词的读音数多的情况下,音素串转换部能使用 最低限度的转换规则存储部来将识别词的读音转换成音素串。所以,可 抑制声音核对部的核对速度的下降。另一方面,例如在识别词的读音数 少的情况下,音素串转换部能使用所有转换规则存储部来将识别词的读 音转换成音素串。所以,声音核对部能可靠识别在人发出识别词的声音 的情况下的包含有含糊音素的说话声音。
在上述本发明中的声音识别装置中,优选采用以下方式该声音识 别装置还具有使用频度计算部,其计算在生成与从所述声音核对部输 出的识别结果的识别词对应的词模型时使用的转换规则的使用频度;以 及第1阈值条件更新部,其在由所述使用频度计算部计算出的转换规则 的使用频度大于边界条件的情况下,更新第1阈值条件,使得与该转换 规则的音素或音素串对应的该第1阈值条件降低,在由所述使用频度计 算部计算出的转换规则的使用频度小于边界条件的情况下,更新第1阈 值条件,使得与该转换规则的音素或音素串对应的该第1阈值条件增高。
根据上述结构,使用频度计算部计算用于生成与识别结果的识别词 对应的词模型的转换规则的使用频度。第1阈值条件更新部在转换规则 的使用频度大于边界条件的情况下,更新第1阈值条件,使得与该转换 规则的音素或音素串对应的该第1阈值条件降低。也就是说,在转换规 则的使用频度高的情况下,该转换规则频繁地用于生成词模型,因而第1 阈值条件更新部能将第1阈值条件更新成使第1阈值条件降低。由此, 声音识别装置的识别率提高。另一方面,第1阈值条件更新部在转换规 则的使用频度小于边界条件的情况下,更新第1阈值条件,使得与该转 换规则的音素或音素串对应的该第1阈值条件增高。也就是说,在转换 规则的使用频度低的情况下,该转换规则不频繁地用于生成词模型,因 而第1阈值条件更新部能将第1阈值条件更新成使第1阈值条件增高。 由此,声音识别装置的识别率下降。
在上述本发明中的声音识别装置中,优选釆用以下方式该声音识 别装置还具有输入部,其从用户处受理从所述声音核对部输出的识别 结果是否错误的决定;使用频度计算部,其在所述输入部从用户处受理了从所述声音核对部输出的识别结果是错误的决定的情况下,计算在生
成与该识别结果的识别词对应的词模型时使用的转换规则的使用频度; 以及第1阈值条件更新部,其在由所述使用频度计算部计算出的转换规 则的使用频度大于边界条件的情况下,更新第1阈值条件,使得与该转 换规则的音素或音素串对应的该第1阈值条件增高,在由所述使用频度 计算部计算出的转换规则的使用频度小于边界条件的情况下,更新第1 阈值条件,使得与该转换规则的音素或音素串对应的该第1阈值条件降 低。
根据上述结构,输入部从用户处受理从声音核对部输出的识别结果 是否错误。在输入部从用户处受理了从声音核对部输出的识别结果是错 误的情况下,使用频度计算部计算用于生成与该识别结果的识别词对应 的词模型的转换规则的使用频度。第1阈值条件更新部在转换规则的使 用频度大于边界条件的情况下,更新第1阈值条件,使得与该转换规则 的音素或音素串相对应的该第1阈值条件增高。也就是说,在转换规则 的使用频度高的情况下,该转换规则频繁地用于生成在识别词错误的情 况下的词模型,因而第1阈值条件更新部能将第1阈值条件更新成使第1 阈值条件增高。由此,声音识别装置的识别率下降。另一方面,第1阈 值条件更新部在转换规则的使用频度小于边界条件的情况下,更新第1 阈值条件,使得与该转换规则的音素或音素串对应的第1阈值条件降低。 也就是说,在转换规则的使用频度低的情况下,该转换规则不频繁地用 于生成在识别词错误的情况下的词模型,因而第1阈值条件更新部能将 第1阈值条件更新成使第1阈值条件降低。由此,声音识别装置的识别 率提高。
在上述本发明中的声音识别装置中,优选采用以下方式所述转 换规则存储部还存储与所述转换规则的音素或音素串对应的持续时 间,所述声音核对部判定所述说话声音的发声区间中、对应于与所述 持续时间对应的音素或音素串的区间中的、发声时间是否是所述持续 时间以上,在判定为所述区间中的发声时间是所述持续时间以上的情 况下,废弃提取出的词模型,在判定为所述区间中的发声时间少于所述持续时间的情况下,将与提取出的词模型对应的识别词作为识别结 果来输出。
根据上述结构,在判定为说话声音的发声区间中、对应于与持续时 间对应的音素或音素串的区间中的、发声时间是持续时间以上的情况下, 声音核对部废弃提取出的词模型。也就是说,在所述区间中的发声时间 是持续时间以上的情况下,由于是人慢速地发声的情况,因而即使在提 取出词模型的情况下,声音核对部也仍废弃提取出的词模型。由此,能 防止声音识别装置的误识别。另一方面,在判定为说话声音的发声区间 中、对应于与持续时间对应的音素或音素串的区间中的、发声时间少于 持续时间的情况下,声音核对部将与提取出的词模型对应的识别词作为 识别结果来输出。也就是说,在所述区间中的发声时间少于持续时间的 情况下,由于是人快速地发声的情况,因而声音核对部将提取出的词模 型作为识别结果来输出。由此,声音识别装置能识别在人发出识别词的 声音的情况下的包含有含糊音素的说话声音。
为了达到上述目的,本发明中的声音识别方法包含声音分析步骤, 由计算机具有的声音分析部将所输入的说话声音转换成特征量;音素串
转换步骤,由所述计算机具有的音素串转换部根据在存储有读音与音素 之间的转换规则或者读音与音素串之间的转换规则的转换规则存储部内 存储的转换规则,将在存储有识别词的读音的识别词存储部内存储的识
别词的读音转换成音素串;词模型生成步骤,由所述计算机具有的词模 型生成部根据由所述音素串转换步骤转换的音素串,提取在存储有对音 素容易变成怎样的特征量进行建模而成的标准模式的音素模型存储部内 存储的标准模式,对提取出的标准模式进行连接,由此生成作为标准模 式串的词模型;以及声音核对步骤,由所述计算机具有的声音核对部计 算由所述声音分析步骤转换的特征量与由所述词模型生成步骤生成的词 模型之间的、各时刻的相似度,所述转换规则存储部还存储与所述转换 规则中的至少1个转换规则的音素或音素串对应的第1阈值条件,所述 声音核对步骤提取由所述词模型生成步骤生成的词模型中的这样的词模 型在所述各时刻的相似度中最小的相似度或者由所述各时刻的相似度获得的整体相似度满足第2阈值条件,且所述说话声音的发声区间中、 对应于与所述第1阈值条件对应的音素或音素串的区间的、各时刻的相 似度满足该第1阈值条件,所述声音核对步骤将与提取出的词模型对应 的识别词作为识别结果来输出。
为了达到上述目的,本发明中的声音识别程序使计算机执行以下处 理声音分析处理,将所输入的说话声音转换成特征量;音素串转换处 理,根据在存储有读音与音素之间的转换规则或者读音与音素串之间的 转换规则的转换规则存储部内存储的转换规则,将在存储有识别词的读 音的识别词存储部内存储的识别词的读音转换成音素串;词模型生成处 理,根据由所述音素串转换处理转换的音素串,提取在存储有对音素容 易变成怎样的特征量进行建模而成的标准模式的音素模型存储部内存储 的标准模式,对提取出的标准模式进行连接,由此生成作为标准模式串 的词模型;以及声音核对处理,计算由所述声音分析处理转换的特征量 与由所述词模型生成处理生成的词模型之间的、各时刻的相似度,所述 转换规则存储部还存储与所述转换规则中的至少1个转换规则的音素或 音素串对应的第1阈值条件,所述声音核对处理使所述计算机执行这样 的处理提取由所述词模型生成处理生成的词模型中的这样的词模型
在所述各时刻的相似度中最小的相似度或者由所述各时刻的相似度获得
的整体相似度满足第2阈值条件,且所述说话声音的发声区间中、对应
于与所述第1阈值条件对应的音素或音素串的区间的、各时刻的相似度 满足该第1阈值条件,将与提取出的词模型对应的识别词作为识别结果 来输出。
另外,本发明中的声音识别方法和声音识别程序取得与上述的声音 识别装置相同的效果。
如上所述,本发明的声音识别装置、声音识别方法以及声音识别程
序取得这样的效果能在识别在人发出识别词的声音的情况下的含糊的
说话声音的同时,防止在人发出识别词以外的词的声音的情况下,将该 词误识别为识别词。


图1是示出本发明的第1实施方式涉及的声音识别装置的概略结构 的框图。
图2是示出上述声音识别装置中的识别词存储部的数据的内容一例 的图。
图3是示出上述声音识别装置中的转换规则存储部的数据的内容一 例的图。
图4是示出上述声音识别装置中的转换规则存储部的数据的内容的 另一例的图。
图5是示出上述声音识别装置中的音素模型存储部的数据的内容一
例的图。
图6是概略示出特征量"^扭i V和词模型"tootomi"在各时刻的相
似度的图。
图7是概略示出特征量"i & i》"和词模型"tootomi"在各时刻的相 似度的图。
图8是示出上述声音识别装置的动作一例的流程图。 图9是示出本发明的第2实施方式涉及的声音识别装置的概略结构 的框图。
图10是分别示出上述声音识别装置中的转换规则存储部的数据的 内容一例的图。
图11是示出本发明的第3实施方式涉及的声音识别装置的概略结构 的框图。
图12是示出上述声音识别装置中的转换规则存储部的数据的内容 一例的图。
图13是示出在由上述声音识别装置中的第1阈值条件更新部更新后 的存储在上述转换规则存储部内的数据的内容一例的图。
图14是示出在由上述声音识别装置中的第1阈值条件更新部更新后 的存储在上述转换规则存储部内的数据的内容一例的图。
图15是示出上述声音识别装置的动作一例的流程图。图16是示出本发明的第4实施方式涉及的声音识别装置的概略结构
的框图。
图17是示出上述声音识别装置中的转换规则存储部的数据的内容
图18是示出在由上述声音识别装置中的第1阈值条件更新部更新后 的存储在上述转换规则存储部内的数据的内容一例的图。
图19是示出在由上述声音识别装置中的第1阈值条件更新部更新后 的存储在上述转换规则存储部内的数据的内容一例的图。
图20是示出上述声音识别装置的动作一例的流程图。
图21是示出本发明的第5实施方式涉及的声音识别装置的概略结构 的框图。
图22是示出上述声音识别装置中的转换规则存储部的数据的内容 一例的图。
图23是示出与音素串"t""o""o"的标准模式串对应的说话声音的发声 区间V的一例的图。
图24是示出上述声音识别装置的动作一例的流程图。
具体实施例方式
以下,参照附图详细说明本发明的更具体的实施方式。 [实施方式l]
图1是示出本实施方式涉及的声音识别装置1的概略结构的框图。 图1所示的声音识别装置1例如用作声音识别引擎,该声音识别引擎从 声音对话应用程序等的上位程序传递用户的说话声音,并将其识别结果 返回给上位程序。并且,声音识别装置1由例如个人计算机、服务端等 的通用计算机构成。另外,声音识别装置1可以由装入在例如车载信息 终端、便携电话、家电产品等的电子设备内的计算机构成。
艮P,本实施方式涉及的声音识别装置1具有声音分析部ll,识别 词存储部12,转换规则存储部13,音素串转换部14,音素模型存储部 15,词模型生成部16以及声音核对部17。
15声音分析部11将所输入的说话声音转换成每帧的特征量。特征量大
多使用MFCC、 LPC倒谱和功率、它们的一次和二次回归系数、以及将 这些值通过主分量分析和判别分析进行了维数压缩的结果等的多维矢 量,然而这里不作特别限定。转换后的特征量与各帧固有的信息(帧固 有信息) 一起被记录在内部的存储器内。另外,帧固有信息是表示例如 帧序号、各帧的开始时点、结束时点、功率等的数据,帧序号表示各帧 是从开头起的第几个帧。
识别词存储部12存储多个识别词的读音。图2是示出存储在识别词 存储部12内的数据的内容一例的图。如图2所示,在识别词存储部12 内存储有识别词的读音。例如,声音识别装置1的用户使声音识别装置1 读取记录有词的读音数据的记录介质,从而在识别词存储部12内存储上 述识别词的读音。
转换规则存储部13存储读音和音素之间的转换规则、以及读音和音 素串之间的转换规则中的至少一方。并且,转换规则存储部13存储与转 换规则中的至少1个转换规则的音素或音素串对应的第1阈值条件。图3 是示出存储在转换规则存储部13内的数据的内容一例的图。如图3所示, 在转换规则存储部13内存储有转换规则和第1阈值条件。在图3所示的 例子中,在转换规则存储部13内对应于转换规则"i J:'Wt""o""o"的音 素串"t""o""o"存储有第1阈值条件"70"。并且,在转换规则存储部13内对 应于转换规则"&工"Wt""o""o"以外的转换规则的音素或音素串存储有第 1阈值条件"无"(图中,"一")。也就是说,针对转换规则"i J: ,W't""o""o" 以外的转换规则的音素或音素串,不设定第1阈值条件。另外,第1阈 值条件表示用于由声音核对部17将识别词作为识别结果来输出的条件。
这里,在本实施方式中,存储在转换规则存储部13内的转换规则和 第1阈值条件由声音识别装置1的管理者(例如,制造声音识别装置1 的制造商的人员)预先设定。在本实施方式中,声音识别装置1的管理 者根据经验将第1阈值条件设定在转换规则存储部13内,然而可以根据 例如音素的核对精度将第1阈值条件设定在转换规则存储部13内。具体 地说,首先,声音识别装置1的管理者针对每个音素预先调查音素的核
16对精度。另外,音素的核对精度是在声音识别装置1中可正确识别音素
的程度,成为统计数据。例如,由于音素"m"和音素"n"在人的发音中非 常相似,因而在声音识别装置1中,音素"m"容易误识别为音素"n",并 且,音素"n"容易误识别为音素"m"。所以, 一般,音素"m"和音素"n"的 核对精度降低。另一方面,与此相反,由于音素"a"是人可清楚发声的音 素,因而在声音识别装置l中,音素"a"被误识别的可能性低。所以,一 般,音素"a"的核对精度变高。
声音识别装置1的管理者计算要设定第1阈值条件的转换规则的音 素串中的各音素的核对精度的平均值。例如,在要设定第1阈值条件的 转换规则是"i J:"G"t""o""o"的情况下,声音识别装置1的管理者根据音 素"t"的核对精度和音素"o"的核对精度,计算音素串"t""o""o"中的各音素 的核对精度的平均值。声音识别装置1的管理者根据计算出的核对精度 的平均值,决定应设定的第1阈值条件。例如,声音识别装置1的管理 者在核对精度的平均值大的情况下,将阈值低的第1阈值条件设定在转 换规则存储部13内。并且,声音识别装置1的管理者在核对精度的平均 值小的情况下,将阈值高的第1阈值条件设定在转换规则存储部13内。
并且,在图3所示的例子中,说明了在转换规则存储部13内对应于 转换规则"i J:"Wt""o""o"的音素串"t""o""o"存储有第1阈值条件"70" 的例子,然而不限于此。例如,可以在转换规则存储部13内,如图4所 示,对应于转换规则"&工"G"t""o""o"的音素串"t""o""o"中的各音素分别 存储有第1阈值条件。在图4所示的例子中,在转换规则存储部13内对 应于音素串"t""o""o"中的第1音素"t,,存储有第1阈值条件"50"。并且, 在转换规则存储部13内对应于音素串"t""o""o"中的第2音素"o"存储有第 1阈值条件"50"。而且,在转换规则存储部13内对应于音素串"t""o,,"o" 中的第3音素"o"存储有第1阈值条件"70"。
音素串转换部14根据存储在转换规则存储部13内的转换规则,将 存储在识别词存储部12内的识别词的读音转换成音素串。这里,音素串 转换部14实际上根据转换规则,将存储在识别词存储部12内的所有识 别词的读音转换成音素串。然而,在本实施方式中,为了简化说明,假定音素串转换部14根据"i,,G"t""o"、 "J:,,e"y""o"、"》,,G"m""i"的转 换规则,将识别词的读音"t A & V转换成音素串"toyotomi"。并且,假 定音素串转换部14根据"t J: ,,Wt""o""o"、 " t "Wt""o"、"办,,^"m,,"i" 的转换规则,将识别词的读音"i ^ ^ V转换成音素串"tootomi"。
音素模型存储部15存储对哪个音素容易变成怎样的特征量进行了 建模的标准模式。图5是示出存储在音素模型存储部15内的数据的内容 一例的图。如图5所示,在音素模型存储部15内存储有音素的标准模式。 另外,音素的标准模式可使用例如HMM (Hidden Markov Model,隐式
马尔可夫模型)、音素模板(代表点)等。
词模型生成部16根据由音素串转换部14所转换的音素串,提取存 储在音素模型存储部15内的音素的标准模式。在本实施方式中,词模型 生成部16根据由音素串转换部14所转换的音素串"toyotomi"和音素串 "tootomi",提取音素"t"的标准模式、音素"o"的标准模式、音素"y"的标 准模式、音素"m"的标准模式、以及音素"i"的标准模式。词模型生成部 16通过将提取出的音素的标准模式根据音素串"toyotomi"进行连接,生成 "toyotomi"的词模型。并且,词模型生成部16通过将提取出的音素的标 准模式根据音素串"tootomi"进行连接,生成"tootomi"的词模型。也就是 说,词模型由标准模式串构成。所生成的词模型被记录在内部的存储器 内。
声音核对部17将由声音分析部11所转换的特征量和由词模型生成 部16所生成的词模型进行核对。核对结果,声音核对部17计算由声音 分析部11所转换的特征量和由词模型生成部16所生成的词模型之间的、 各时刻的相似度。声音核对部17提取由词模型生成部16所生成的词模 型中的满足下述全部(1) (3)的词模型。声音核对部17将与提取出 的词模型对应的识别词作为识别结果来输出。另外,下述(1)中的阈值 T,预先被记录在内部的存储器内。在本实施方式中,假定阈值T,是"60"。 并且,下述(2)中的阈值T2也预先被记录在内部的存储器内。在本实施 方式中,假定阈值T2是"50"。
(1)各时刻的相似度的平均值是阈值T,以上。(2) 各时刻的相似度中最小的相似度是阈值T2以上。
(3) 说话声音的发声区间中、对应于与第1阈值条件相对应的音素 或音素串的区间的、各时刻的相似度是第1阈值条件表示的阈值C以上。
以下,对下述的情况进行说明在用户发出识别词"i A ^ ^"的声 音的情况下,由于所发出的"i A ^ V中的"J:"是含糊发声,因而在声音 识别装置1中,判定为"^工i办,,中的"J:"(音素y0)是省略了音素"y" 的"fe,,(音素o),其结果,判定为说话声音是"ifi办"。具体地说,参 照图6来说明声音核对部17在由声音分析部ll所转换的特征量'i & i办" 和由词模型生成部16所生成的词模型"tootomi"之间进行的核对处理。另 外,图6是概略示出特征量"i *>、办"和词模型"tootomi"在各时刻的相 似度作为时序数据S,的图。
声音核对部17首先计算各时刻的相似度的平均值(整体相似度)。 在本实施方式中,假定各时刻的相似度的平均值是"85"。因此,声音核 对部17判定为计算出的相似度的平均值是阈值^以上。另外,声音核对 部17可以计算各时刻的相似度的总和,来取代计算各时刻的相似度的平 均值。也就是说,各时刻的相似度的平均值或各时刻的相似度的总和是 本发明的整体相似度的一实施方式。并且,声音核对部17判定为各时刻 的相似度中最小的相似度是阈值T2以上。而且,声音核对部17判定为说 话声音的发声区间中、对应于与第1阈值条件对应的音素串"t""o""o"的 区间的、各时刻的相似度是第1阈值条件表示的阈值C"70"以上。
以上,由于词模型"tootomi"是满足上述全部(1) (3)的词模型,
因而声音核对部17将与词模型"tootomi"对应的识别词"t J: i *"作为识
别结果来输出。由此,本实施方式涉及的声音识别装置1能识别在用户
发出了识别词"i上i ^"的声音的情况下的包含有含糊音素的说话声音 "t fc、 i "。
并且,以下说明用户发出了识别词"i J: i办,,以外的词"i t i *,, 的声音的情况。具体地说,参照图7来说明声音核对部17在由声音分析 部11所转换的特征量"i ^ ^办"和由词模型生成部16所生成的词模型 "tootomi"之间进行的核对处理。另外,图7是概略示出特征量"i & i
19和词模型"tootomi"之间的各时刻的相似度作为时序数据S2的图。
声音核对部17首先计算各时刻的相似度的平均值。在本实施方式中,假定各时刻的相似度的平均值是"75"。因此,声音核对部17判定为计算出的相似度的平均值是阈值Ti以上。并且,声音核对部17判定为各时刻的相似度中最小的相似度是阈值T2以上。而且,声音核对部17判定为说话声音的发声区间中、对应于与第1阈值条件对应的音素串"t""o""o"的区间的、各时刻的相似度小于第1阈值条件表示的阈值C"70"。
以上,由于词模型"tootomi"是满足上述(1)和(2)而不满足上述(3)的词模型,因而声音核对部17不将与词模型"tootomi"对应的识别词"i J: i ^"作为识别结果来输出。由此,本实施方式涉及的声音识别装置1能防止在用户发出识别词"i J: i V以外的词"i i i *"的声音的情况下,将该词误识别为识别词。
另外,上述声音识别装置1也能通过将程序安装在个人计算机等的任意计算机内来实现。即,上述的声音分析部ll、音素串转换部14、词模型生成部16以及声音核对部17通过由计算机的CPU根据实现它们的功能的程序进行动作来实现。因此,用于实现声音分析部11、音素串转换部14、词模型生成部16以及声音核对部17的功能的程序或者记录有该程序的记录介质也是本发明的一实施方式。并且,识别词存储部12、转换规则存储部13以及音素模型存储部15由计算机的内置存储装置或者能从该计算机进行存取的存储装置来实现。
下面,参照图8来说明上述结构涉及的声音识别装置1的动作。图8是示出声音识别装置1的动作一例的流程图。即,如图8所示,音素串转换部14根据存储在转换规则存储部13内的转换规则,将存储在识别词存储部12内的识别词的读音转换成音素串(步骤Opl)。词模型生成部16根据在步骤Opl所转换的音素串,提取存储在音素模型存储部15内的音素的标准模式。词模型生成部16通过将提取出的音素的标准模式根据音素串进行连接,生成词模型(步骤Op2)。所生成的词模型被记录在内部的存储器内。
另一方面,声音分析部11将所输入的说话声音转换成每帧的特征量(步骤Op3)。转换后的特征量与帧固有信息一起被记录在内部的存储器
内。另夕卜,在图8中,步骤Opl和步骤Op2的处理与步骤Op3的处理采用并行执行的方式,然而步骤Opl 步骤Op3的处理可以釆用串行执行的方式。
声音核对部17计算在步骤Op3所转换的特征量和在步骤Op2所生成的词模型之间的各时刻的相似度(步骤Op4)。声音核对部17判定各时刻的相似度的平均值是否是阈值Ti以上(步骤Op5)。在判定为各时刻的相似度的平均值是阈值l以上的情况下(在步骤Op5"是"),声音核对部17判定各时刻的相似度中最小的相似度是否是阈值T2以上(步骤Op6)。另一方面,在判定为各时刻的相似度的平均值不是阈值T,以上的情况下(在步骤Op5"否"),声音核对部17结束图8的处理。
在判定为各时刻的相似度中最小的相似度是阈值T2以上的情况下(在步骤Op6"是"),声音核对部17判定说话声音的发声区间中、对应于与第1阈值条件对应的音素或音素串的区间的、各时刻的相似度是否是第1阈值条件表示的阈值C以上(步骤Op7)。另一方面,在判定为各时刻的相似度中最小的相似度不是阈值T2以上的情况下(在步骤Op6"否"),声音核对部17结束图8的处理。
在判定为说话声音的发声区间中、对应于与第1阈值条件对应的音素或音素串的区间的、各时刻的相似度是第1阈值条件表示的阈值C以上(在步骤Op7"是")时,声音核对部17将与在步骤Op2所生成的词模型对应的识别词作为识别结果来输出(步骤Op8)。另一方面,在判定为说话声音的发声区间中、对应于与第1阈值条件对应的音素或音素串的区间的、各时刻的相似度不是第1阈值条件表示的阈值C以上的情况下(在步骤Op7"否"),声音核对部17结束图8的处理。
如以上所述,根据本实施方式涉及的声音识别装置1,通过将第1阈值条件设定成可识别人发出识别词的声音的情况下的包含有含糊音素的说话声音,而且将第1阈值条件设定成人发出识别词以外的词的声音的情况下,可废弃该词,本实施方式涉及的声音识别装置1能在识别在人发出识别词的声音的情况下的包含有含糊音素的说话声音的同时,防止在人发出识别词以外的词的声音的情况下,将该词误识别为识别词。
另外,在上述中,说明了在判定为说话声音的发声区间中、对应于与第1阈值条件对应的音素或音素串的区间的、各时刻的相似度是第1
阈值条件表示的阈值C以上的情况下,声音核对部17输出识别结果的例
子,然而不限于此。例如,还可以通过将第1阈值条件表示的阈值设定为预定范围,在判定为与音素的标准模式或者音素串的标准模式串对应的说话声音的发声区间内的各时刻的相似度在预定范围内的情况下,使
声音核对部17输出识别结果。
并且,还可以在判定为说话声音的发声区间中、对应于与第1阈值条件对应的音素或音素串的区间的各时刻的相似度是第1阈值条件表示的阈值C以下的情况下,使声音核对部17输出识别结果。这里,作为一例,假定在转换规则存储部13内对应于转换规则"t J:"^"t""o""o"的音素串"t""o""o"存储有第1阈值条件"95"。并且,假定声音核对部17计算说话声音"t好t ^"和词模型"tootomi,,在各时刻的相似度。在该情况下,在说话声音的发声区间中、对应于与第1阈值条件对应的音素串"t""o""o"的区间的、各时刻的相似度是第1阈值条件表示的阈值"95"以上的情况下,声音核对部17判定为,用户清楚地发出识别词"i J: i办"以外的词"t fc、 i *"的声音,而不是用户在发出识别词"t J: t A"的声音的情况下
发出的说话声音"t扭i W。因此,在该情况下,声音核对部17废弃说话声音"t封t A"。
图9是示出本实施方式涉及的声音识别装置2的概略结构的框图。即,本实施方式涉及的声音识别装置2具有转换规则存储部21 23,而取代图l所示的转换规则存储部13。另外,在图9中,为了简化说明,图示出3个转换规则存储部21 23,然而构成声音识别装置2的转换规则存储部的数量是任意的。并且,本实施方式涉及的声音识别装置2具有音素串转换部24,而取代图1所示的音素串转换部14。另外,在图9中,对于具有与图1相同功能的结构,附上相同的参照标号,省略其详细说明。
22转换规则存储部21 23与图1所示的转换规则存储部13 —样,存储读音和音素之间的转换规则、以及读音和音素串之间的转换规则中的至少一方。并且,转换规则存储部21 23与图l所示的转换规则存储部13 —样,存储与音素或音素串对应的第1阈值条件。转换规则存储部21 23针对第1阈值条件表示的每个条件配备多个。在本实施方式中,在转换规则存储部21内,如图10 (a)所示,存储有与第1阈值条件"无"(图中"一")对应的转换规则。另外,在转换规则存储部21内,例如如"V^"m""i"那样,存储有通常的转换规则。并且,在转换规则存储部22内,如图10 (b)所示,存储有与第1阈值条件"70"对应的转换规贝(J。另外,在转换规则存储部22内,存储有在人发出识别词"t J: i ^"的声音的情况下的包含容易变得含糊的音素的音素串的转换规则。而且,在转换规则存储部23内,如图10 (c)所示,存储有与第1阈值条件"80"相对应的转换规则。另外,在转换规则存储部23内,存储有在人发出识别词"i J: t办"的声音的情况下的包含很少变得含糊的音素的音素串的转换规则。
另外,在图9中,示出转换规则存储部21 23分别由不同硬件构成的例子,然而不限于此。例如,转换规则存储部21 23可以分别构成为同一硬件内的不同区域。
音素串转换部24根据存储在识别词存储部12内的识别词的读音数,从多个转换规则存储部21 23中选择用于将识别词的读音转换成音素串的转换规则存储部。在本实施方式中,在识别词的读音数是1000以上的情况下,音素串转换部24选择转换规则存储部21、 22。另一方面,在识别词的读音数少于1000的情况下,音素串转换部24选择所有转换规则存储部21 23。声音核对部24根据存储在所选择的转换规则存储部内的转换规则,将存储在识别词存储部12内的识别词的读音转换成音素串。
如以上所述,根据本实施方式涉及的声音识别装置2,例如,在识别词的读音数多到1000以上的情况下,音素串转换部24能使用最低限度的转换规则存储部21、 22来将识别词的读音转换成音素串。所以,可抑制声音核对部17的核对速度的下降。另一方面,例如,在识别词的读音数少到不足1000的情况下,音素串转换部24能使用所有转换规则存 储部21 23来将识别词的读音转换成音素串。所以,声音核对部17能 可靠识别在人发出识别词的声音的情况下的包含有含糊音素的说话声

图11是示出本实施方式涉及的声音识别装置3的概略结构的框图。 即,本实施方式涉及的声音识别装置3不仅具有图1所示的声音识别装 置1,而且还具有转换规则计数部31、使用频度计算部32以及第1阈值 条件更新部34。并且,本实施方式涉及的声音识别装置3具有转换规则 存储部33,而取代图l所示的转换规则存储部13。另外,上述的转换规 则计数部31、使用频度计算部32以及第1阈值条件更新部34也可通过 由计算机的CPU根据实现其功能的程序进行动作来实现。另外,在图11 中,对于具有与图1相同功能的结构,附上相同的参照标号,省略其详 细说明。
转换规则计数部31对转换规则进行计数,该转换规则用于生成与由 声音核对部17所输出的识别结果的识别词对应的词模型。例如,在由声 音核对部17所输出的识别结果的识别词是"i A i V的情况下,转换规 则计数部31通过参照词模型生成部16,提取与识别词"i J: & *"对应的 词模型"tootomi"。并且,转换规则计数部31对用于生成词模型"tootomi" 的转换规则进行计数。在本实施方式中,转换规则计数部31计数为转 换规则"i J:,Wt,,"o""o"是T,转换规则"t"^"t""o"是'T,,以及转换 规则WWm""i"是"l"。转换规则计数部31将所计数的计数值输出到使 用频度计算部32。另外,转换规则计数部31将由声音核对部17所输出 的识别结果照原样输出到外部。
使用频度计算部32将从转换规则计数部31所输出的计数值按每个 转换规则写入到转换规则存储部33内。这里,在从转换规则计数部31 进一步输出了转换规则的计数值的情况下,使用频度计算部32提取存储 在转换规则存储部33内的转换规则的计数值,计算提取出的转换规则的 计数值与从转换规则计数部31所输出的转换规则的计数值之和(累积值)。使用频度计算部32将计算出的累积值用作使用频度。使用频度计 算部32将存储在转换规则存储部33内的计数值更新为计算出的累积值。 也就是说,每次从转换规则计数部31输出转换规则的计数值时,使用频 度计算部32新计算累积值,并更新存储在转换规则存储部33内的累积 值。另外,在上述中,说明了使用频度计算部32将转换规则的累积值用 作使用频度的例子,然而不限于此。例如,使用频度计算部32可以将转 换规则的累积值与所有转换规则的累积值之和的比例用作使用频度。
转换规则存储部33不仅对存储在图1所示的转换规则存储部13内 的转换规则和第1阈值条件进行存储,而且还存储转换规则的使用频度 (累积值)。图12是示出存储在转换规则存储部33内的数据的内容一例 的图。如图12所示,在转换规则存储部33内存储有转换规则、第1阈值 条件以及转换规则的使用频度。例如,转换规贝lJ"t J:"^T"o""o"的使用 频度"ll"表示,为了生成与由声音核对部17所输出的识别结果的识别词对 应的词模型,音素串转换部14使用了 11次转换规则"t A "Wt""o""o"。
在转换规则的使用频度大于边界条件的情况下,第1阈值条件更新 部34更新第1阈值条件,使得与该转换规则的音素或音素串对应的第1 阈值条件降低。并且,在转换规则的使用频度小于边界条件的情况下, 第1阈值条件更新部34更新第1阈值条件,使得与该转换规则的音素或 音素串对应的第1阈值条件增高。
具体地说,第1阈值条件更新部34按任意定时,提取存储在转换规 则存储部33内的转换规则的使用频度。在本实施方式中,假定第1阈值 条件更新部34提取出转换规贝lj"i J:'Wt""o""o"的使用频度"ll"。第1 阈值条件更新部34判定提取出的转换规则的使用频度是否大于边界条件。 另外,边界条件预先被记录在内部的存储器内。在本实施方式中,假定边 界条件是"10"。在本实施方式中,由于提取出的转换规贝l」"i J:'W't""o""o" 的使用频度"11"大于边界条件"10",因而第1阈值条件更新部34更新存 储在转换规则存储部33内的第1阈值^f牛,以使与转^M1则"i J:''@叩'"0""0" 的音素串"t""o""o"对应的第1阈值条件"70"降低。图13是示出在由第1 阈值条件更新部34更新后的存储在转换规则存储部33内的数据的内容一例的图。如图13所示,转换规则"i J:"^"t""o""o"的第1阈值条件由 第1阈值条件更新部34从"70"更新为"65"。
另一方面,假如在边界条件是"15"的情况下,由于提取出的转换规 贝lj"i J:"^"t""o""o"的使用频度"ll"小于边界条件"15",因而第1阈值条 件更新部34更新存储在转换规则存储部33内的第1阈值条件,以使与 转换规则"^ A"G"t""o""o"的音素串"t""o""o"对应的第1阈值条件 "70"增高。图14是示出在由第1阈值条件更新部34更新后的存储在 转换规则存储部33内的数据的内容一例的图。如图14所示,转换规 贝lj" i J: "Wt,,"o""o"的第1阈值条件由第1阈值条件更新部34从"70"更 新为"75"。
下面,参照图15来说明上述结构涉及的声音识别装置3的动作。 图15是示出声音识别装置3的动作一例的流程图。即,如图15所 示,转换规则计数部31对转换规则进行计数,该转换规则用于生成与在 图8所示的步骤Op8所输出的识别结果的识别词对应的词模型(步骤 Op9)。使用频度计算部32通过累积在步骤Op9所计数的计数值,计算 转换规则的使用频度(累积值)(步骤OplO)。使用频度计算部32将计 算出的转换规则的使用频度写入到转换规则存储部33内。
在步骤OplO计算出的转换规则的使用频度大于边界条件的情况下 (在步骤Opll"是"),第1阈值条件更新部34更新第1阈值条件,以使 与该转换规则的音素或音素串对应的第1阈值条件降低(步骤Opl2)。 另一方面,在步骤OplO计算出的转换规则的使用频度小于边界条件的情 况下(在步骤Opll"否"),第1阈值条件更新部34更新第1阈值条件, 以使与该转换规则的音素或音素串对应的第1阈值条件增高(步骤 Opl3)。
如以上所述,根据本实施方式涉及的声音识别装置3,在转换规则 的使用频度高的情况下,该转换规则频繁地用于生成词模型,因而第1 阈值条件更新部34能将第1阈值条件更新成使第1阈值条件降低。由此, 声音识别装置3的识别率提高。另一方面,在转换规则的使用频度低的 情况下,该转换规则不频繁地用于生成词模型,因而第1阈值条件更新
26部34能将第1阈值条件更新成使第1阈值条件增高。由此,声音识别装 置3的识别率下降。 [实施方式4]
图16是示出本实施方式涉及的声音识别装置4的概略结构的框图。 即,本实施方式涉及的声音识别装置4不仅具有图1所示的声音识别装 置l,而且还具有输入部41、转换规则计数部42、使用频度计算部43以 及第l阈值条件更新部45。并且,本实施方式涉及的声音识别装置4具 有转换规则存储部44,而取代图1所示的转换规则存储部13。另外,上 述的输入部41、转换规则计数部42、使用频度计算部43以及第1阈值 条件更新部45也通过由计算机的CPU根据实现其功能的程序进行动作 来实现。另外,在图16中,对于具有与图l相同功能的结构,附上相同 的参照标号,省略其详细说明。
输入部41从用户处受理由声音核对部17所输出的识别结果是否错 误。在本实施方式中,输入部41在识别结果错误的情况下,从用户处受 理识别结果是错误的情况。另外,输入部41由键盘、鼠标、十键、触摸 面板等的任意输入器件构成。
在从用户处受理了识别结果错误的情况下,转换规则计数部42对转 换规则进行计数,该转换规则用于生成与该识别结果的识别词对应的词 模型。例如,在从用户处受理了识别结果"i上i W是错误的情况下, 转换规则计数部42通过参照词模型生成部16,提取与识别词"t J: t办" 对应的词模型"tootomi"。并且,转换规则计数部41对用于生成词模型 "tootomi"的转换规则进行计数。在本实施方式中,转换规则计数部42计
数为转换规则"i丄,,0"t,,"O,,"O,,是"r,,转换规则"t ,,C't""o"是'T,,
以及转换规则"VWm""i"是"l"。转换规则计数部42将所计数的计数值 输出到使用频度计算部43。另外,转换规则计数部42将由声音核对部 17所输出的识别结果照原样输出到外部。
使用频度计算部43与图11所示的使用频度计算部32 —样,将从转 换规则计数部42所输出的计数值按每个转换规则写入到转换规则存储部 44内。这里,在从转换规则计数部42进一步输出了转换规则的计数值的
27情况下,使用频度计算部43提取存储在转换规则存储部44内的转换规 则的计数值,计算提取出的转换规则的计数值与从转换规则计数部42所 输出的转换规则的计数值之和(累积值)。使用频度计算部43将计算出 的累积值用作使用频度。使用频度计算部43将存储在转换规则存储部44 内的计数值更新为累积值。也就是说,每次从转换规则计数部42输出转 换规则的计数值时,使用频度计算部43新计算累积值,并更新存储在转 换规则存储部44内的累积值。
转换规则存储部44与图11所示的转换规则存储部33 —样,存储转 换规则、第1阈值条件以及转换规则的使用频度(累积值)。图17是示 出存储在转换规则存储部44内的数据的内容一例的图。例如,转换规则 "t J:"^"t""o""o"的使用频度"6"表示,为了生成在从用户处受理了识别 结果错误的情况下的与该识别结果的识别词对应的词模型,音素串转换 部14使用了 6次转换规则"t A "^"t""o""o"。
在转换规则的使用频度大于边界条件的情况下,第1阈值条件更新 部45更新第1阈值条件,以使与该转换规则的音素或音素串对应的第1 阈值条件增高。并且,在转换规则的使用频度小于边界条件的情况下, 第1阈值条件更新部45更新第1阈值条件,以使与该转换规则的音素或 音素串对应的第1阈值条件降低。
具体地说,第1阈值条件更新部45按任意定时,提取存储在转换规 则存储部44内的转换规则的使用频度。在本实施方式中,假定第l阈值 条件更新部45提取出转换规则"t J: "G"t,,"o""o"的使用频度"6"。第1阈 值条件更新部45判定提取出的转换规则的使用频度是否大于边界条件。另 外,边界条件预先被记录在内部的存储器内。在本实施方式中,假定边界 条件是"5"。在该情况下,由于提取出的转换规贝lj"t J:"Wt""o""o"的使用 频度"6"大于边界条件"5",因而第1阈值条件更新部45更新存储在 转换规则存储部44内的第1阈值条件,以使与转换规则"i J: ,Wt""o""o" 的音素串"t""o""o"对应的第1阈值条件"70"增高。图18是示出在由第1 阈值条件更新部45更新后的存储在转换规则存储部44内的数据的内容 一例的图。如图18所示,转换规则"i ct"^"t""o""o"的第1阈值条件由第1阈值条件更新部45从"70"更新为"75"。
另一方面,假如在边界条件是"10"的情况下,由于提取出的转换规 贝lj"i J:"e"t""o""o"的使用频度"6"小于边界条件"10",因而第1阈值条 件更新部45更新存储在转换规则存储部44内的第1阈值条件,以使与 转换规则"i J:"^"t""o""o"的音素串"t""o""o"对应的第1阈值条件"70" 降低。图19是示出在由第1阈值条件更新部45更新后的存储在转换规则存 储部44内的数据的内容一例的图。如图19所示,转换规则"i J:"Wt""o""o" 的第1阈值条件由第1阈值条件更新部45从"70"更新为"65"。
下面,参照图20来说明上述结构涉及的声音识别装置4的动作。
图20是示出声音识别装置4的动作一例的流程图。gp,如图20所 示,在图8所示的步骤Op8所输出的识别结果是错误的情况下,输入部 41从用户处受理识别结果错误的情况(步骤Opl4)。转换规则计数部42 对转换规则进行计数,该转换规则用于生成与在步骤Opl4所受理的识别 结果的识别词对应的词模型(步骤Opl5)。使用频度计算部43通过对在 步骤Opl5所计数的计数值进行累积,计算转换规则的使用频度(累积值) (步骤Opl6)。使用频度计算部43将计算出的转换规则的使用频度写入 到转换规则存储部44内。
在步骤Opl6计算出的转换规则的使用频度大于边界条件的情况下 (在步骤Opl7"是"),第1阈值条件更新部45更新第1阈值条件,以使 与该转换规则的音素或音素串对应的第1阈值条件增高(步骤Opl8)。 另一方面,在步骤Opl6计算出的转换规则的使用频度小于边界条件的情 况下(在步骤Opl7"否"),第1阈值条件更新部45更新第1阈值条件, 以使与该转换规则的音素或音素串对应的第1阈值条件降低(步骤 Opl9)。
如以上所述,根据本实施方式涉及的声音识别装置4,在转换规则 的使用频度高的情况下,该转换规则频繁地用于生成在识别词错误的情 况下的词模型,因而第1阈值条件更新部45能将第1阈值条件更新成使 第1阈值条件增高。由此,声音识别装置4的识别率下降。另一方面, 在转换规则的使用频度低的情况下,该转换规则不频繁地用于生成在识
29别词错误的情况下的词模型,因而第1阈值条件更新部45能将第1阈值 条件更新成使第l阈值条件降低。由此,声音识别装置4的识别率提高。 [实施方式5]
图21是示出本实施方式涉及的声音识别装置5的概略结构的框图。 即,本实施方式涉及的声音识别装置5具有转换规则存储部51和声音核 对部52,而取代图1所示的转换规则存储部13和声音核对部17。另外, 在图21中,对于具有与图l相同功能的结构,附上相同的参照标号,省 略其详细说明。
转换规则存储部51不仅对存储在图1所示的转换规则存储部13内 的转换规则和第1阈值条件进行存储,而且还存储持续时间。图22是示 出存储在转换规则存储部51内的数据的内容一例的图。如图22所示, 在转换规则存储部51内存储有转换规则、第1阈值条件以及持续时间。 在图22所示的例子中,在转换规则存储部51内对应于转换规则"t j: "Wt,,"o""o"的音素串"t""o""o"存储有持续时间"150"。并且,在转换规 则存储部51内对应于转换规则"t J:"^"t""o""o"以外的转换规则的音素 或音素串存储有持续时间"无"(图中"一")。也就是说,针对转换规则"i J:"^"t""o""o"以外的转换规则的音素或音素串,未设定持续时间。另外, 在本实施方式中,持续时间由ms (毫秒)表示。
声音核对部52与图1所示的声音核对部17 —样,将由声音分析部 11所转换的特征量和由词模型生成部16所生成的词模型进行核对。核对 结果,声音核对部52计算由声音分析部11所转换的特征量和由词模型 生成部16所生成的词模型之间的、各时刻的相似度。声音核对部52提 取由词模型生成部16所生成的词模型中、满足在实施方式1所说明的上 述全部(1) (3)的词模型。在本实施方式中,假定声音核对部52提 取出由词模型生成部16所生成的词模型中的词模型"tootomi"。
并且,声音核对部52判定说话声音的发声区间中、对应于与持续时 间对应的音素或音素串的区间中的发声时间是否是持续时间以上。具体 地说,声音核对部52首先提取与持续时间"150"对应的音素串"t""o""o"。 声音核对部52确定说话声音的发声区间中、与提取出的音素串"t""o""o"对应的区间。该区间通过使用例如维特比(Viterbi)算法来确定。图23 是示出说话声音的发声区间中、与音素串"t""o""o"对应的区间V的一例 的图。如图23所示,声音核对部52确定说话声音的发声区间中、与音 素串"t""o""o,,对应的区间V。声音核对部52计算区间V中的发声时间。 因此,声音核对部52具有时刻测量功能。在本实施方式中,假定声音核 对部52计算出区间V中的发声时间"160" (ms)。
在本实施方式中,声音核对部52判定为区间V中的发声时间是持续 时间以上。也就是说,在本实施方式中,由于区间V中的发声时间是持 续时间以上,因而声音核对部52判定为用户慢速地发声。g卩,声音核对 部52判定为,用户有意识地发出识别词"i上i办,,以外的词"i扭i *,, 的声音,而不是用户在发出识别词"t A i办"的声音的情况下发出的说 话声音为"i扭^^"。因此,声音核对部52废弃提取出的词模型 "tootomi,,o
另一方面,假如在声音核对部52判定为区间V中的发声时间少于持 续时间的情况下,将与提取出的词模型"tootomi"对应的识别词"i J: t办,, 作为识别结果来输出。也就是说,在区间V中的发声时间少于持续时间的 情况下,声音核对部52判定为用户快速地发声。g卩,声音核对部52判定 为,在用户发出识别词"^A & V的声音的情况下说话声音为"i a i *"。因 此,声音核对部52输出与提取出的词模型"tootomi"对应的识别词"i J: t *"。
下面,参照图24来说明上述结构涉及的声音识别装置5的动作。另 外,在图24中,对于表示与图8相同处理的部分,附上相同的参照标号, 省略其详细说明。
图24是示出声音识别装置5的动作一例的流程图。g卩,在步骤Op7 中,声音核对部52判定为说话声音的发声区间中、对应于与第l阈值条 件对应的音素或音素串的区间的、各时刻的相似度是第1阈值条件表示 的阈值C以上(在步骤Op7"是"),之后判定说话声音的发声区间中、对 应于与持续时间对应的音素或音素串的区间中的发声时间是否是持续时 间以上(步骤Op20)。
声音核对部52在判定为说话声音的发声区间中、对应于与持续时间对应的音素或音素串的区间中的发声时间是持续时间以上的情况下(在
步骤Op20"是"),废弃在步骤Op2所生成的词模型(步骤Op21)。另一 方面,声音核对部52在判定为说话声音的发声区间中、对应于与持续时 间对应的音素或音素串的区间中的发声时间少于持续时间的情况下(在 步骤Op20"否"),将与在步骤Op2所生成的词模型对应的识别词作为识 别结果来输出(步骤Op22)。
如以上所述,根据本实施方式涉及的声音识别装置5,在说话声音 的发声区间中、对应于与持续时间对应的音素或音素串的区间中的发声 时间是持续时间以上的情况下,由于是人慢速地发声的情况,因而声音 核对部52即使在提取出词模型的情况下,也废弃提取出的词模型。由此, 能防止声音识别装置5的误识别。另一方面,在说话声音的发声区间中、 对应于与持续时间对应的音素或音素串的区间中的发声时间少于持续时 间的情况下,由于是人快速地发声的情况,因而声音核对部52将提取出 的词模型作为识别结果来输出。由此,声音识别装置5能识别在人发出 识别词的声音的情况下的包含有含糊音素的说话声音。
产业上的可利用性
如以上所述,本发明作为这样的声音识别装置、声音识别方法或者 声音识别程序是有用的依照转换规则将识别词的读音转换成音素串, 并根据所转换的音素串生成作为标准模式串的词模型,从而识别人的说 话声音。
权利要求
1.一种声音识别装置,该声音识别装置具有声音分析部,其将所输入的说话声音转换成特征量;识别词存储部,其存储有识别词的读音;转换规则存储部,其存储有读音与音素之间的转换规则或者读音与音素串之间的转换规则;音素串转换部,其根据存储在所述转换规则存储部内的转换规则,将存储在所述识别词存储部内的识别词的读音转换成音素串;音素模型存储部,其存储有对音素容易变成怎样的特征量进行建模而成的标准模式;词模型生成部,其根据由所述音素串转换部转换的音素串,提取存储在所述音素模型存储部内的标准模式,对提取出的标准模式进行连接,由此生成作为标准模式串的词模型;以及声音核对部,其计算由所述声音分析部转换的特征量与由所述词模型生成部生成的词模型之间的、各时刻的相似度,所述转换规则存储部还存储与所述转换规则中的至少1个转换规则的音素或音素串对应的第1阈值条件,所述声音核对部提取由所述词模型生成部生成的词模型中的这样的词模型在所述各时刻的相似度中最小的相似度或者由所述各时刻的相似度获得的整体相似度满足第2阈值条件,且所述说话声音的发声区间中、对应于与所述第1阈值条件对应的音素或音素串的区间的各时刻的相似度满足该第1阈值条件,所述声音核对部将与提取出的词模型对应的识别词作为识别结果来输出。
2.根据权利要求1所述的声音识别装置,其中,所述转换规则存储部针对所述第1阈值条件表示的每个条件配备有多个,所述音素串转换部根据存储在所述识别词存储部内的识别词的读音数,从多个转换规则存储部中选择用于将识别词的读音转换成音素串的转换规则存储部,根据存储在所选择的转换规则存储部内的转换规则, 将存储在所述识别词存储部内的识别词的读音转换成音素串。
3. 根据权利要求1所述的声音识别装置,其中,该声音识别装置还具有使用频度计算部,其计算在生成与由所述声音核对部输出的识别结 果的识别词对应的词模型时使用的转换规则的使用频度;以及第1阈值条件更新部,其在由所述使用频度计算部计算出的转换规 则的使用频度大于边界条件的情况下,更新第1阈值条件,使得与该转 换规则的音素或音素串对应的该第1阈值条件降低,在由所述使用频度 计算部计算出的转换规则的使用频度小于边界条件的情况下,更新第1 阈值条件,使得与该转换规则的音素或音素串对应的该第1阈值条件增高。
4. 根据权利要求1所述的声音识别装置,其中, 该声音识别装置还具有-输入部,其从用户处受理由所述声音核对部输出的识别结果是否错 误的决定;使用频度计算部,其在所述输入部从用户处受理了由所述声音核对 部输出的识别结果是错误的决定的情况下,计算在生成与相应识别结果 的识别词对应的词模型时使用的转换规则的使用频度;以及第1阈值条件更新部,其在由所述使用频度计算部计算出的转换规 则的使用频度大于边界条件的情况下,更新第1阈值条件,使得与该转 换规则的音素或音素串对应的该第1阈值条件增高,在由所述使用频度 计算部计算出的转换规则的使用频度小于边界条件的情况下,更新第1 阈值条件,使得与该转换规则的音素或音素串对应的该第1阈值条件降 低。
5. 根据权利要求1所述的声音识别装置,其中, 所述转换规则存储部还存储与所述转换规则的音素或音素串对应的持续时间,所述声音核对部判定所述说话声音的发声区间中、对应于与所述持续时间对应的音素或音素串的区间中的发声时间是否是所述持续时间以 上,在判定为所述区间中的发声时间是所述持续时间以上的情况下,废 弃提取出的词模型,在判定为所述区间中的发声时间少于所述持续时间 的情况下,将与提取出的词模型对应的识别词作为识别结果来输出。
6.—种声音识别方法,该声音识别方法包含声音分析步骤,由计算机具有的声音分析部将所输入的说话声音转 换成特征量;音素串转换步骤,由所述计算机具有的音素串转换部根据在存储有 读音与音素之间的转换规则或者读音与音素串之间的转换规则的转换规则存储部内存储的转换规则,将在存储有识别词的读音的识别词存储部内存储的识别词的读音转换成音素串;词模型生成步骤,由所述计算机具有的词模型生成部根据由所述音 素串转换步骤转换的音素串,提取在存储有对音素容易变成怎样的特征 量进行建模而成的标准模式的音素模型存储部内存储的标准模式,对提 取出的标准模式进行连接,由此生成作为标准模式串的词模型;以及声音核对步骤,由所述计算机具有的声音核对部计算由所述声音分 析步骤转换的特征量与由所述词模型生成步骤生成的词模型之间的、各 时刻的相似度,所述转换规则存储部还存储与所述转换规则中的至少1个转换规则 的音素或音素串对应的第1阈值条件,所述声音核对步骤提取由所述词模型生成步骤生成的词模型中的这 样的词模型在所述各时刻的相似度中最小的相似度或者由所述各时刻的相似度获得的整体相似度满足第2阈值条件,且所述说话声音的发声区间中、对应于与所述第1阈值条件对应的音素或音素串的区间的、各 时刻的相似度满足该第1阈值条件,所述声音核对步骤将与提取出的词 模型对应的识别词作为识别结果来输出。
7.种声音识别程序,该声音识别程序使计算机执行以下处理 声音分析处理,将所输入的说话声音转换成特征量;音素串转换处理,根据在存储有读音与音素之间的转换规则或者读音与音素串之间的转换规则的转换规则存储部内存储的转换规则,将在 存储有识别词的读音的识别词存储部内存储的识别词的读音转换成音素串;词模型生成处理,根据由所述音素串转换处理转换的音素串,提取 在存储有对音素容易变成怎样的特征量进行建模而成的标准模式的音素 模型存储部内存储的标准模式,对提取出的标准模式进行连接,由此生 成作为标准模式串的词模型;以及声音核对处理,计算由所述声音分析处理转换的特征量与由所述词 模型生成处理生成的词模型之间的、各时刻的相似度,所述转换规则存储部还存储与所述转换规则中的至少1个转换规则 的音素或音素串对应的第1阈值条件,所述声音核对处理使所述计算机执行这样的处理提取由所述词模型生成处理生成的词模型中的这样的词模型在所述各时刻的相似度中最小的相似度或者由所述各时刻的相似度获得的整体相似度满足第2阈值条件,且所述说话声音的发声区间中、对应于与所述第1阈值条件对 应的音素或音素串的区间的、各时刻的相似度满足该第1阈值条件,将 与提取出的词模型对应的识别词作为识别结果来输出。
全文摘要
本发明提供声音识别装置、声音识别方法以及声音识别程序。该声音识别装置(1)具有声音核对部(17),声音核对部(17)计算由声音分析部(11)转换的特征量和由词模型生成部(16)生成的词模型之间的各时刻的相似度。声音核对部(17)提取由词模型生成部(16)生成的词模型中的这样的词模型在各时刻的相似度中最小的相似度或者由各时刻的相似度获得的整体相似度满足第2阈值条件,且说话声音的发声区间中、对应于与第1阈值条件对应的音素或音素串的区间内的各时刻的相似度满足第1阈值条件,声音核对部(17)将与提取出的词模型对应的识别词作为识别结果来输出。
文档编号G10L15/06GK101689364SQ200780053719
公开日2010年3月31日 申请日期2007年7月9日 优先权日2007年7月9日
发明者原田将治 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1