误识别订正方法、误识别订正装置以及误识别订正程序与流程

文档序号:11277714阅读:384来源:国知局
误识别订正方法、误识别订正装置以及误识别订正程序与流程

本公开涉及订正对于用户所说的话的语音识别结果的误识别的误识别订正方法、误识别订正装置以及误识别订正程序。



背景技术:

语音识别技术是将语音转换成文字串的技术。随着语音识别技术的应用,用语音来控制设备的语音对话装置正在被进行研究。

在使用语音识别技术将语音转换成文字串的情况下,语音识别结果有可能含有误识别。例如,说出了“打开电视机的电源”的语音的语音识别结果有时会变为“打开电视机的天元”(日语中“天元(tenngenn)”与“电源(denngenn)”音似)。因此,存在由于语音识别的误识别而导致设备不按用户的旨意工作这一问题。

为了根据用户的说话语音而准确地控制设备,存在如下技术:通过基于假想用户要说的文字串来使语音识别功能适应于易被说的表达方式或者词汇,从而使误识别的出现频度降低。作为使语音识别功能自动地适应于表达方式或者词汇的技术,例如有专利文献1以及专利文献2。

现有技术文献

专利文献

专利文献1:日本特开2003-140691号公报

专利文献2:日本特开2010-256498号公报



技术实现要素:

发明所要解决的问题

然而,关于专利文献1以及专利文献2,为了进行适应于用户的说话内容的语音识别,都需要在进行语音识别之前预测用户会说出怎样的话。因此,存在如下问题:在没能获得用于预测用户的说话内容的信息的情况下,无法进行适应于用户的说话内容的语音识别,无法削减语音识别结果的误识别。

本公开是为了解决上述的问题而做出的,其目的在于提供能够削减语音识别结果的误识别的误识别订正方法、误识别订正装置以及误识别订正程序。

用于解决问题的技术方案

本公开的一个技术方案涉及的误识别订正方法是订正对于用户所说的话的语音识别结果的误识别的误识别订正装置中的误识别订正方法,包括:基于作为所述语音识别结果而取得的包括单词串的文本数据,确定说话内容;从用于订正所述文本数据的误识别的多个误识别订正处理方法中,选择与所确定出的所述说话内容相应的误识别订正处理方法;使用所选择出的所述误识别订正处理方法,订正所述文本数据的误识别。

发明效果

根据本公开,能够削减语音识别结果的误识别。

附图说明

图1是表示本公开的实施方式1涉及的语音控制系统的整体构成的图。

图2是表示本公开的实施方式1涉及的语音输入装置的具体构成的框图。

图3是表示本公开的实施方式1涉及的服务器的具体构成的框图。

图4是表示本公开的实施方式1涉及的误识别订正装置的具体构成的框图。

图5是表示用于根据语音识别结果来确定说话内容id的说话内容id确定用数据的一例的图。

图6是表示记载有说话内容id的详细内容的说话内容id数据的一例的图。

图7是表示用于根据说话内容id来选择误识别订正处理方法id的误识别订正处理方法id选择用数据的一例的图。

图8是表示记载有误识别订正处理方法id的详细内容的误识别订正处理方法id数据的一例的图。

图9是表示本公开的实施方式1涉及的语音对话装置的具体构成的框图。

图10是表示本公开的实施方式1涉及的语音控制系统中的处理的流程的时序图。

图11是表示本公开的实施方式1涉及的误识别订正处理方法选择处理的顺序的流程图。

图12是表示本公开的实施方式1涉及的误识别订正处理的顺序的流程图。

图13是表示本公开的实施方式1涉及的设备控制判定处理的顺序的流程图。

图14是表示用于根据语音识别结果或者误识别订正结果来判定设备控制id的设备控制id判定用数据的一例的图。

图15是表示记载有设备控制id的详细内容的设备控制id数据的一例的图。

图16是表示在本公开的实施方式1涉及的语音控制系统中,向用户提示语音识别结果以及误识别订正结果的显示画面的一例的图。

图17是表示在本公开的实施方式1涉及的语音控制系统中,向用户提示误识别订正结果的输出语音的一例的图。

图18是表示在本公开的实施方式1涉及的语音控制系统中,未能由误识别订正装置订正语音识别结果的误识别而没有正确进行设备控制的例子的图。

图19是表示在本公开的实施方式1涉及的语音控制系统中,通过学习语音识别结果,能由误识别订正装置订正语音识别结果的误识别而正确进行了设备控制的例子的图。

图20是表示本公开的实施方式2涉及的误识别订正装置的具体构成的框图。

图21是表示本公开的实施方式3涉及的误识别订正装置的具体构成的框图。

图22是表示本公开的实施方式4涉及的误识别订正装置的具体构成的框图。

标号说明

1:语音输入装置

2:服务器

3、31、32、33:误识别订正装置

4:语音对话装置

5:网络

101:语音取得部

102:语音检测部

103:语音区间切取部

104:特征量算出部

105:通信部

201:通信部

201:语音识别部

203:说话语料库保存部

204:设备控制判定部

205:设备控制id判定用数据保存部

301:通信部

302:语音识别结果存储部

303、316:说话内容确定部

304:数据保存部

305:误识别订正处理方法选择部

306:误识别订正部

307:误识别订正处理方法保存部

313:第1误识别订正部

314:第2误识别订正部

315:历史记录管理部

401:通信部

402:设备控制部

具体实施方式

(成为本发明的基础的见解)

在上述的专利文献1中,记载有如下语音利用系统:通过基于用于预测用户的说话内容的信息来从多个语音识别引擎中选择1个语音识别引擎、或者组合多个语音识别引擎,从而进行适应于说话内容的语音识别,削减误识别。例如,在终端装置向用户通知了“请说出4位的设备密码”的情况下,可预测到在用户接下来说的话中会包含数字。因此,语音利用系统通过使用对数字的识别率高的语音识别引擎来削减数字的误识别。

在专利文献2中,记载有如下语音识别结果转换系统:生成与根据以怎样的目的转换语音识别结果而确定的多个用途中的各用途相应的转换模型,通过使用所生成的转换模型来获得实施了与各用途相应的转换处理得到的文本。

这样,关于专利文献1以及专利文献2,为了进行适应于用户的说话内容的语音识别,都需要在语音识别之前预测用户的说话内容。因此,存在如下问题:在没能获得用于预测用户的说话内容的信息的情况下,无法进行适应于由用户说出的说话内容的语音识别,无法削减误识别。

例如,在通过语音识别来控制电视机的情况下,在用户未对电视机进行操作的状态下,没有获得用于预测接下来用户进行的操作(例如,音量操作、频道操作或者搜索节目操作等)是什么操作的信息,因此,在专利文献1以及专利文献2的方法中,无法通过适应于说话内容的语音识别来削减误识别。

为了解决这样的课题,本公开的一个技术方案涉及的误识别订正方法是订正对于用户所说的话的语音识别结果的误识别的误识别订正装置中的误识别订正方法,包括:基于作为所述语音识别结果而取得的包括单词串的文本数据,确定说话内容;从用于订正所述文本数据的误识别的多个误识别订正处理方法中,选择与所确定出的所述说话内容相应的误识别订正处理方法;使用所选择出的所述误识别订正处理方法,订正所述文本数据的误识别。

根据该构成,基于作为语音识别结果而取得的包括单词串的文本数据,确定说话内容。从用于订正文本数据的误识别的多个误识别订正处理方法中,选择与所确定出的说话内容相应的误识别订正处理方法。使用所选择出的误识别订正处理方法,订正文本数据的误识别。

因此,由于基于作为语音识别结果而取得的包括单词串的文本数据来确定说话内容,并从多个误识别订正处理方法中选择与所确定出的说话内容相应的误识别订正处理方法,所以不需要事先获取用于预测用户的说话内容的信息,就能够削减语音识别结果的误识别。

另外,也可以为,在上述的误识别订正方法中,所述多个误识别订正处理方法包括以下方法中的至少一个:音韵相似型误识别订正处理方法,将成为订正误识别的对象的单词转换成音韵相似的多个单词中的某一个;参数特殊化型误识别订正处理方法,将成为订正误识别的对象的单词转换成音韵相似的多个单词中的与参数有关的单词;以及语境(context,上下文)依赖型误识别订正处理方法,将成为订正误识别的对象的单词转换成与语境相应的其他单词。

根据该构成,多个误识别订正处理方法包括以下方法中的至少一个:音韵相似型误识别订正处理方法,将成为订正误识别的对象的单词转换成音韵相似的多个单词中的某一个;参数特殊化型误识别订正处理方法,将成为订正误识别的对象的单词转换成音韵相似的多个单词中的与参数有关的单词;以及语境依赖型误识别订正处理方法,将成为订正误识别的对象的单词转换成与语境相应的其他单词。

因此,能够使用根据说话内容选择出的音韵相似型误识别订正处理方法、参数特殊化型误识别订正处理方法以及语境依赖型误识别订正处理方法中的至少一个,订正文本数据的误识别。

另外,也可以为,在上述的误识别订正方法中,在所述误识别订正处理方法的选择中,通过参照对标识所述说话内容的信息与标识所述误识别订正处理方法的信息进行了关联而得到的表,选择与所确定出的所述说话内容相应的所述误识别订正处理方法。

根据该构成,在误识别订正处理方法的选择中,通过参照对标识说话内容的信息与标识误识别订正处理方法的信息进行了关联而得到的表,选择与所确定出的说话内容相应的误识别订正处理方法,因此,能够根据说话内容容易地选择误识别订正处理方法。

另外,也可以为,在上述的误识别订正方法中,还包括:取得通过所述用户所说的话进行操作的设备的当前的状况;基于取得的所述设备的当前的状况,预测所述说话内容;从所述多个误识别订正处理方法中,选择与预测出的所述说话内容相应的所述误识别订正处理方法。

根据该构成,取得通过用户所说的话进行操作的设备的当前的状况。基于取得的设备的当前的状况,预测说话内容。而且,从多个误识别订正处理方法中,选择与预测出的说话内容相应的误识别订正处理方法,因此,能够选择更准确的与说话内容相应的误识别订正处理方法。

另外,也可以为,在上述的误识别订正方法中,还包括:基于所确定出的所述说话内容,判断是否需要订正误识别;在判断为需要订正误识别的情况下,从所述多个误识别订正处理方法中,选择与所确定出的所述说话内容相应的所述误识别订正处理方法;在判断为不需要订正误识别的情况下,不从所述多个误识别订正处理方法中选择与所确定出的所述说话内容相应的所述误识别订正处理方法。

根据该构成,基于所确定出的说话内容,判断是否需要订正误识别。在判断为需要订正误识别的情况下,从多个误识别订正处理方法中,选择与所确定出的说话内容相应的误识别订正处理方法。另外,在判断为不需要订正误识别的情况下,不从多个误识别订正处理方法中选择与所确定出的说话内容相应的误识别订正处理方法。

因此,仅在需要订正误识别的情况下,选择与说话内容相应的误识别订正处理方法,所以能够防止进行不必要的选择处理。

另外,也可以为,在上述的误识别订正方法中,在所述说话内容涉及通过所述用户所说的话进行操作的设备的控制的情况下,判断为需要订正误识别。

根据该构成,在说话内容涉及通过用户所说的话进行操作的设备的控制的情况下,判断为需要订正误识别。在用于控制设备的输入语音的语音识别结果中包含误识别的情况下,可能会造成设备的操作性变差。于是,在说话内容涉及设备的控制的情况下,通过订正误识别,能够进行准确的设备控制,切实地对设备进行操作。

另外,也可以为,在上述的误识别订正方法中,在所述说话内容涉及闲谈的情况下,判断为不需要订正误识别。

根据该构成,在说话内容涉及闲谈的情况下,判断为不需要订正误识别。在说话内容为闲谈的情况下,即使语音识别结果中包含了误识别,也不会影响设备的控制。因此,在说话内容为闲谈的情况下,不进行订正误识别的误识别订正处理,由此,能够防止进行不必要的处理。

另外,也可以为,在上述的误识别订正方法中,在发生误识别的频度比预定值高的文字串包含于所述文本数据的情况下,判断为需要订正误识别。

根据该构成,在发生误识别的频度比预定值高的文字串包含于文本数据的情况下,判断为需要订正误识别。因此,能够在发生误识别的可能性高的文字串包含于文本数据的情况下,切实地订正误识别。

另外,也可以为,在上述的误识别订正方法中,发生误识别的频度比预定值高的所述文字串是在通过所述用户所说的话进行操作的设备的操作中使用的参数。

根据该构成,由于在通过用户所说的话进行操作的设备的操作中使用的参数被误识别的可能性高,因此能够在参数包含于文本数据的情况下,切实地订正误识别。

另外,也可以为,在上述的误识别订正方法中,所述参数为数值。

根据该构成,由于数值被误识别的可能性高,因此能够在数值包含于文本数据的情况下,切实地订正误识别。

另外,也可以为,在上述的误识别订正方法中,发生误识别的频度比预定值高的所述单词串是与预先存储的单词串音韵相似的单词串。

根据该构成,由于与预先存储的单词串音韵相似的单词串被误识别的可能性高,因此能够在与预先存储的单词串音韵相似的单词串包含于文本数据的情况下,切实地订正误识别。

另外,也可以为,在上述的误识别订正方法中,根据选择出的所述误识别订正处理方法,使用所述语音识别结果和所述所说的话的语音特征量中的至少一方来订正所述文本数据的误识别。

根据该构成,能够使用适合于所选择出的误识别订正处理方法的语音识别结果和所说的话的语音特征量中的至少一方来订正文本数据的误识别。

另外,也可以为,在上述的误识别订正方法中,还包括:将作为所述语音识别结果而取得的所述文本数据和订正了误识别而得到的文本数据中的至少一方通知给所述用户。

根据该构成,将作为语音识别结果而取得的文本数据和订正了误识别而得到的文本数据中的至少一方通知给用户,因此,用户能够确认是否正确地进行了语音识别。

另外,也可以为,在上述的误识别订正方法中,还包括:使用预定的初步的误识别订正处理方法,初步地订正所述文本数据的误识别;基于初步地订正了误识别而得到的文本数据,确定所述说话内容。

根据该构成,使用预定的初步的误识别订正处理方法,初步地订正文本数据的误识别。基于初步地订正了误识别而得到的文本数据,确定说话内容。

因此,首先,使用预定的初步的误识别订正处理方法,初步地订正文本数据的误识别,之后,使用根据说话内容所选择出的误识别订正处理方法,对初步地订正了误识别而得到的文本数据的误识别再次进行订正,因此,语音识别结果的误识别至少得到两次订正,能够更切实地削减语音识别结果的误识别。

另外,也可以为,在上述的误识别订正方法中,在初步地订正误识别的情况下,对所述文本数据所包含的单词中的、发生误识别的频度比预定值高的单词,初步地订正误识别。

根据该构成,能够首先对发生误识别的频度比预定值高的单词初步地订正误识别。

本公开的另一技术方案涉及的误识别订正装置是订正对于用户所说的话的语音识别结果的误识别的误识别订正装置,具备:确定部,基于作为所述语音识别结果而取得的包括单词串的文本数据,确定说话内容;选择部,从用于订正所述文本数据的误识别的多个误识别订正处理方法中,选择与所确定出的所述说话内容相应的误识别订正处理方法;以及订正部,使用所选择出的所述误识别订正处理方法,订正所述文本数据的误识别。

根据该构成,基于作为语音识别结果而取得的包括单词串的文本数据,确定说话内容。从用于订正文本数据的误识别的多个误识别订正处理方法中,选择与所确定出的说话内容相应的误识别订正处理方法。使用所选择出的误识别订正处理方法,订正文本数据的误识别。

因此,由于基于作为语音识别结果而取得的包括单词串的文本数据来确定说话内容,并从多个误识别订正处理方法中选择与所确定出的说话内容相应的误识别订正处理方法,所以不需要事先获取用于预测用户的说话内容的信息,就能够削减语音识别结果的误识别。

本公开的另一技术方案涉及的误识别订正程序是订正对于用户所说的话的语音识别结果的误识别的误识别订正程序,使计算机作为确定部、选择部和订正部发挥功能,所述确定部基于作为所述语音识别结果而取得的包括单词串的文本数据,确定说话内容,所述选择部从用于订正所述文本数据的误识别的多个误识别订正处理方法中,选择与所确定的所述说话内容相应的误识别订正处理方法,所述订正部使用选择出的所述误识别订正处理方法,订正所述文本数据的误识别。

根据该构成,基于作为语音识别结果而取得的包括单词串的文本数据,确定说话内容。从用于订正文本数据的误识别的多个误识别订正处理方法中,选择与所确定出的说话内容相应的误识别订正处理方法。使用所选择出的误识别订正处理方法,订正文本数据的误识别。

因此,由于基于作为语音识别结果而取得的包括单词串的文本数据来确定说话内容,并从多个误识别订正处理方法中选择与所确定的说话内容相应的误识别订正处理方法,所以不需要事先获取用于预测用户的说话内容的信息,就能够削减语音识别结果的误识别。

以下,参照附图,对本公开的实施方式进行说明。

以下说明的实施方式均表示本公开的一个实施例。在以下的实施方式中表示的数值、形状、构成要素、步骤以及步骤的顺序等为一例,并非旨在限定本公开。另外,对于以下的实施方式中的构成要素中的、没有记载在表示最上位概念的独立权利要求中的构成要素,作为任意的构成要素进行说明。另外,在所有的实施方式中,也可以组合各自的内容。

(实施方式1)

图1是表示本公开的实施方式1涉及的语音控制系统的整体构成的图。

如图1所示,本实施方式1的语音控制系统具备语音输入装置1、服务器2、误识别订正装置3以及语音对话装置4。

语音输入装置1取得用户所说的语音,将取得的语音发送给服务器2。服务器2经由网络5分别与语音输入装置1以及误识别订正装置3进行数据的收发。服务器2对由语音输入装置1发送来的语音进行语音识别处理,将语音识别结果发送给误识别订正装置3。误识别订正装置3基于从服务器2接收到的进行语音识别处理而得到的结果即语音识别结果,订正语音识别结果中包含的误识别,并将误识别订正结果发送给服务器2。服务器2基于由误识别订正装置3发送来的误识别订正结果,决定语音对话装置4的控制内容。服务器2将决定的控制内容发送给语音对话装置4。

语音对话装置4例如是智能手机等便携式通信终端。另外,语音对话装置4例如是电视机或者空调机等家电设备等。语音对话装置4基于从服务器2发送来的语音识别结果、误识别订正结果以及控制内容,输出语音、图像以及文字,并且执行设备控制。网络5例如是互联网。语音输入装置1、服务器2、误识别订正装置3以及语音对话装置4例如使用有线局域网(lan:localareanetwork)、无线局域网或者bluetooth(注册商标,蓝牙)等通信方法与网络5连接。

此外,在本实施方式1中,可以将语音输入装置1、服务器2以及误识别订正装置3中的任一个组装在语音对话装置4中。另外,也可以将语音输入装置1、服务器2以及误识别订正装置3全部组装在语音对话装置4中。再者,还可以将语音输入装置1、服务器2以及误识别订正装置3中的任意两个组装在语音对话装置4中。

此外,在本实施方式1中,误识别订正装置3也可以进行以多个语音对话装置4全部为对象的误识别订正处理。或者,通过将误识别订正装置3组装在各语音对话装置4中,误识别订正装置3也可以进行以各语音对话装置4为对象的误识别订正处理。

图2是表示本公开的实施方式1涉及的语音输入装置的具体构成的框图。如图2所示,语音输入装置1具备语音取得部101、语音检测部102、语音区间切取部103、特征量算出部104以及通信部105。

语音取得部101取得用户所说出的语音。语音检测部102判定是否检测到了语音。取得的语音信号中含有杂音(噪声)等。因此,语音区间切取部103检测用户输入的语音所存在的区间,切取所检测到的语音区间。特征量算出部104基于所切取出的语音区间来算出语音特征量。通信部105将由特征量算出部104算出的语音特征量发送给服务器2。另外,通信部105也可以将由特征量算出部104算出的语音特征量发送给服务器2以及误识别订正装置3。

此外,语音输入装置1例如是内置或者连接于语音对话装置4的麦克风、内置于语音对话装置4等所附带的遥控器的麦克风、内置或者连接于便携式通信终端的麦克风、或者设置在家中的集音麦克风等。

图3是表示本公开的实施方式1涉及的服务器的具体构成的框图。如图3所示,服务器2具备通信部201、语音识别部202、说话语料库保存部203、设备控制判定部204以及设备控制id判定用数据保存部205。此外,服务器2是语音识别装置的一例。

通信部201接收从语音输入装置1的通信部105发送来的语音特征量。另外,通信部201向误识别订正装置3发送语音特征量以及语音识别结果。另外,通信部201接收从误识别订正装置3的通信部301发送来的误识别订正结果。另外,通信部201向语音对话装置4发送语音识别结果、误识别订正结果以及表示控制内容的设备控制id。

此外,通信部201向语音对话装置4既可以仅发送误识别订正结果,也可以发送设备控制id和误识别订正结果这二者。另外,通信部201向语音对话装置4既可以仅发送语音识别结果,也可以发送设备控制id和语音识别结果这二者。再者,通信部201也可以向语音对话装置4发送语音识别结果和误识别订正结果这二者。

语音识别部202基于保存于说话语料库保存部203的说话文的信息,将接收到的语音特征量转换成文字串以及单词串。说话语料库保存部203预先保存基于一般容易获取的报纸新闻或者web上的文本文件等而制作出的说话文。此外,说话语料库保存部203也可以保存可能会被输入到语音对话装置4的说话文。另外,说话语料库保存部203也可以保存报纸新闻或者web上的文本文件等的说话文、和可能会被输入到语音对话装置4的说话文这二者。例如,作为报纸新闻或者web上的文本文件等的说话文的例子,保存有“早上好”或者“今天的天气如何?”等在闲谈中使用的说话文。作为可能会被输入到语音对话装置4的说话文的例子,保存有“电视机电源on”、“打开电视机电源”或者“转到8频道”等对电视机的设备控制所特有的说话文。

设备控制判定部204基于由语音识别部202识别出的语音识别结果或者由通信部201接收到的误识别订正结果,使用设备控制id判定用数据保存部205来判定用户输入的设备控制内容。设备控制id判定用数据保存部205保存使语音识别结果或者误识别订正结果与表示设备控制内容的设备控制id相关联而得到的设备控制id判定用数据。设备控制判定部204从设备控制id判定用数据保存部205中读出与由语音识别部202识别出的语音识别结果相关联的设备控制id。另外,设备控制判定部204从设备控制id判定用数据保存部205中读出与由通信部201接收到的误识别订正结果相关联的设备控制id。此外,在本实施方式1中,设备控制判定部204并非从语音识别部202取得语音识别结果,而是从通信部201取得由误识别订正装置3发送来的语音识别结果。

图4是表示本公开的实施方式1涉及的误识别订正装置的具体构成的框图。如图4所示,误识别订正装置3具备通信部301、语音识别结果存储部302、说话内容确定部303、数据保存部304、误识别订正处理方法选择部305、误识别订正部306以及误识别订正处理方法保存部307。

通信部301接收从服务器2的通信部201发送来的语音特征量以及语音识别结果。通信部301将误识别订正结果发送给服务器2。

语音识别结果存储部302存储由通信部301接收到的语音特征量以及语音识别结果。

数据保存部304保存以下数据:使语音识别结果与用于标识说话内容的说话内容id相关联而得到的说话内容id确定用数据,使说话内容id与关于说话内容的信息相关联而得到的说话内容id数据,使说话内容id与用于标识误识别订正处理方法的误识别订正处理方法id相关联而得到的误识别订正处理方法id判定用数据,以及使误识别订正处理方法id与关于误识别订正处理方法的信息相关联而得到的误识别订正处理方法id数据。

说话内容确定部303基于作为语音识别结果而取得的包括单词串的文本数据,确定说话内容。说话内容确定部303使用数据保存部304来确定说话内容。

误识别订正处理方法选择部305从用于订正文本数据的误识别的多个误识别订正处理方法中,选择与所确定出的说话内容相应的误识别订正处理方法。误识别订正处理方法选择部305使用数据保存部304来选择误识别订正处理方法。误识别订正处理方法选择部305在误识别订正处理方法的选择中,通过参照对标识说话内容的信息与标识误识别订正处理方法的信息进行了关联的表,选择与所确定出的说话内容相应的误识别订正处理方法。

图5是表示用于根据语音识别结果来确定说话内容id的说话内容id确定用数据的一例的图,图6是表示记载有说话内容id的详细内容的说话内容id数据的一例的图。

图7是表示用于根据说话内容id来选择误识别订正处理方法id的误识别订正处理方法id选择用数据的一例的图,图8是表示记载有误识别订正处理方法id的详细内容的误识别订正处理方法id数据的一例的图。

例如,在语音识别结果为“电视机电源on”的情况下,说话内容确定部303根据图5所示的说话内容id确定用数据,确定为说话内容id是“c001”。而且,误识别订正处理方法选择部305根据图7所示的误识别订正处理方法id选择用数据,选择与说话内容id“c001”对应的误识别订正处理方法id“rid001”。由此,可知只要对“电视机电源on”的语音识别结果应用与误识别订正处理方法id“rid001”对应的音韵相似型误识别订正处理方法即可。

误识别订正处理方法保存部307保存与多个误识别订正处理方法id分别相关联的多个误识别订正处理方法。

误识别订正部306使用由误识别订正处理方法选择部305选择出的误识别订正处理方法,订正文本数据的误识别。误识别订正部306基于由误识别订正处理方法选择部305选择出的误识别订正处理方法id,从误识别订正处理方法保存部307调出误识别订正处理方法,对存储于语音识别结果存储部302的语音识别结果的误识别之处进行订正。

此外,误识别订正部306也可以使用由通信部301接收到的语音特征量来订正误识别之处。另外,误识别订正部306也可以使用存储于语音识别结果存储部302的语音识别结果和由通信部301接收到的语音特征量这二者来订正误识别之处。

图9是表示本公开的实施方式1涉及的语音对话装置的具体构成的框图。如图9所示,语音对话装置4具备通信部401以及设备控制部402。

通信部401接收从服务器2的通信部201发送来的设备控制id、语音识别结果以及误识别订正结果。设备控制部402使用由通信部401接收到的设备控制id、语音识别结果以及误识别订正结果中的至少一个,输出语音、图像或者文字。另外,设备控制部402使用设备控制id来执行家电设备等的设备控制。

此外,设备控制部402也可以仅使用设备控制id来进行设备控制。例如,在用户说出“电视机音量加1”、并由服务器2判定为设备控制id是电视机的音量调整的情况下,设备控制部402能够仅使用设备控制id来使音量的等级增大一级。

另外,设备控制部402也可以使用设备控制id、和语音识别结果以及误识别订正结果中的某一方来进行设备控制。例如,在用户说出“电视机音量加1”、由服务器2语音识别为“电视机冤魂加1”(日语中“冤魂”与“音量”(onnryou)同音)、由误识别订正装置3订正为“电视机音量加1”、并由服务器2判定为设备控制id是电视机的音量调整的情况下,设备控制部402也可以使用设备控制id来使电视机的音量的等级增大一级,并且将语音识别结果“电视机冤魂加1”显示在电视机画面上。另外,在该情况下,设备控制部402也可以使用设备控制id来使电视机的音量的等级增大一级,并且将误识别订正结果“电视机音量加1”显示在电视机画面上。通过将语音识别结果或者误识别订正结果通知给用户,能够对用户的语音输入是否成功进行通知。

另外,设备控制部402也可以使用设备控制id、语音识别结果以及误识别订正结果的全部来进行设备控制。例如,在用户说出“电视机音量加1”、由服务器2语音识别为“电视机冤魂加1”、由误识别订正装置3订正为“电视机音量加1”、并由服务器2判定为设备控制id是电视机的音量调整的情况下,设备控制部402也可以使用设备控制id来使电视机的音量的等级增大一级,并且将语音识别结果“电视机冤魂加1”显示在电视机画面上。而且,设备控制部402也可以在显示了语音识别结果之后,将误识别订正结果“电视机音量加1”显示在电视机画面上。通过将语音识别结果和误识别订正结果这二者通知给用户,能够将虽然在语音识别处理时含有误识别但通过进行误识别订正处理已被适当订正这一情况通知给用户。

图10是表示本公开的实施方式1涉及的语音控制系统中的处理的流程的时序图。

首先,在步骤s1中,语音输入装置1的语音取得部101受理用户的语音输入。

接着,在步骤s2中,特征量算出部104根据所受理的语音,算出语音特征量。通信部105将由特征量算出部104算出的语音特征量发送给服务器2。

接着,在步骤s3中,服务器2的通信部201接收由语音输入装置1发送来的语音特征量。语音识别部202进行如下语音识别处理:基于保存于说话语料库保存部203的说话语料库的信息,将接收到的语音特征量转换成包括文字串以及单词串的文本数据。通信部201将语音特征量以及语音识别结果发送给误识别订正装置3。误识别订正装置3的通信部301接收由服务器2发送来的语音特征量以及语音识别结果,将接收到的语音特征量以及语音识别结果存储在语音识别结果存储部302中。

此外,在本实施方式1中,服务器2将语音特征量与语音识别结果一并发送给误识别订正装置3,但本公开并不特别限定于此。也可以为,服务器2仅将语音识别结果发送给误识别订正装置3,语音输入装置1将语音特征量发送给误识别订正装置3。

接着,在步骤s4中,误识别订正装置3的说话内容确定部303基于作为语音识别结果而取得的包括单词串的文本数据,确定说话内容。此时,说话内容确定部303参照保存于数据保存部304的说话内容id确定用数据,确定与接收到的语音识别结果相关联的说话内容id。

接着,在步骤s5中,误识别订正处理方法选择部305进行如下误识别订正处理方法选择处理:从用于订正文本数据的误识别的多个误识别订正处理方法中,选择与所确定出的说话内容相应的误识别订正处理方法。此时,误识别订正处理方法选择部305参照保存于数据保存部304的误识别订正处理方法id选择用数据,选择与所确定出的说话内容id相关联的误识别订正处理方法id。误识别订正处理方法选择部305选择针对语音识别结果中包含的误识别而适当的误识别订正处理方法。误识别订正处理方法选择部305将误识别订正处理方法id输出给误识别订正部306。关于步骤s5的误识别订正处理方法选择处理的详细内容,将在后面使用图11进行说明。

此外,误识别订正处理方法选择部305也可以基于由说话内容确定部303确定出的说话内容,判断是否需要订正误识别。误识别订正处理方法选择部305在判断为需要订正误识别的情况下,从多个误识别订正处理方法中,选择与所确定出的说话内容相应的误识别订正处理方法。另外,误识别订正处理方法选择部305在判断为不需要订正误识别的情况下,不选择误识别订正处理方法。

误识别订正处理方法选择部305也可以在说话内容涉及设备的控制的情况下,判断为需要订正误识别。另外,误识别订正处理方法选择部305也可以在说话内容涉及闲谈的情况下,判断为不需要订正误识别。再者,误识别订正处理方法选择部305也可以在发生误识别的频度比预定值高的文字串包含于文本数据的情况下,判断为需要订正误识别。在该情况下,发生误识别的频度比预定值高的文字串是在通过用户所说的话进行操作的设备的操作中使用的参数。参数例如为数值。另外,发生误识别的频度比预定值高的单词串也可以是与预先存储的单词串音韵相似的单词串。在判断为不需要订正误识别的情况下,通信部301也可以将语音识别结果发送给服务器2。

接着,在步骤s6中,误识别订正部306从误识别订正处理方法保存部307中调出与通过步骤s5输出的误识别订正处理方法id对应的误识别订正处理方法,进行如下误识别订正处理:使用调出的误识别订正处理方法,订正语音识别结果中包含的误识别。通信部301将误识别订正结果发送给服务器2。服务器2的通信部201接收由误识别订正装置3发送来的误识别订正结果。此外,关于步骤s6的误识别订正处理的详细内容,将在后面进行说明。

接着,在步骤s7中,服务器2的设备控制判定部204进行如下设备控制判定处理:判定与通过步骤s3识别出的语音识别结果或者通过步骤s6发送来的误识别订正结果对应的设备控制内容。设备控制判定部204参照保存于设备控制id判定用数据保存部205的设备控制id判定用数据,提取与语音识别结果或者误识别订正结果相关联的设备控制id。设备控制判定部204判定用于使家电设备等的语音对话装置4输出语音、图像或文字的设备控制id或者用于进行语音对话装置4的设备控制的设备控制id。通信部201将设备控制id、语音识别结果以及误识别订正结果发送给语音对话装置4。语音对话装置4的通信部401接收由服务器2发送来的设备控制id、语音识别结果以及误识别订正结果。此外,关于步骤s7的设备控制判定处理的详细内容,将在后面进行说明。

接着,在步骤s8中,设备控制部402使用在步骤s7中发送来的设备控制id、语音识别结果以及误识别订正结果,对语音对话装置4的工作进行控制。此时,设备控制部402也可以判断实际是否能够执行设备控制,如果能够执行就执行设备控制。例如,在电视机的电源为断开(off)状态时接收到与调整音量的设备控制对应的设备控制id的情况下,不可能执行设备控制,因此,设备控制部402判断为无法执行设备控制。

图11是表示本公开的实施方式1涉及的误识别订正处理方法选择处理的顺序的流程图。在误识别订正处理方法选择处理中,基于语音识别结果,实施针对语音识别结果中包含的误识别而适当的误识别订正处理方法的选择。

首先,在步骤s301中,误识别订正处理方法选择部305取得由说话内容确定部303确定出的说话内容id。

接着,在步骤s302中,误识别订正处理方法选择部305判断是否需要对语音识别结果进行误识别订正处理。作为判断方法,误识别订正处理方法选择部305根据使用图5的说话内容id确定用数据所确定出的说话内容id是否为需要进行误识别订正的说话内容id来进行判断。例如,在与语音识别结果对应的说话内容id表示电视机的设备控制的情况下,设备控制的误识别会造成操作性变差。因此,在说话内容id表示电视机的设备控制的情况下,误识别订正处理方法选择部305判断为需要进行误识别订正处理。

另一方面,如果是如闲谈那样即使含有误识别也对用户的设备控制影响不大的说话内容,则误识别订正处理方法选择部305判断为不需要进行误识别订正处理。

此外,误识别订正处理方法选择部305也可以根据是否有发生误识别的可能性高的文字串包含于语音识别结果,判断是否需要进行误识别订正处理。例如,在除已知被输入到语音对话装置4的文字串以外的文字串包含于语音识别结果的情况下,或者在出现频度比已知的文字串的出现频度低的文字串包含于语音识别结果的情况下,发生误识别的可能性高。因此,误识别订正处理方法选择部305也可以根据是否有出现频度比已知的文字串的出现频度低的文字串包含于语音识别结果,判定是否需要进行误识别订正处理。

具体而言,在进行电视机的设备控制时,语音识别为“打开电视机天元”的情况下,由于语音识别结果的“天元”是并不会在通常的电视机的设备控制中使用的单词串,因此,“天元”是误识别的可能性高。或者,在数字或者音韵方面接近的单词串等容易引起误识别的文字串或单词串包含于语音识别结果的情况下,认为发生误识别的可能性高。因此,误识别订正处理方法选择部305也可以根据是否有数字或者音韵方面接近的单词串等容易引起误识别的文字串或单词串包含于语音识别结果,判断是否需要进行误识别订正处理。具体而言,在语音识别结果中含有“on”这一单词串的情况下,被误识别为音韵方面接近的“off”(日语中“on”和“off”的发音相近)的可能性高。

在此,在判断为需要对语音识别结果进行误识别订正处理的情况下(步骤s302:是),移至步骤s303的处理,在判断为不需要对语音识别结果进行误识别订正处理的情况下(步骤s302:否),移至步骤s305的处理。

在判断为需要对语音识别结果进行误识别订正处理的情况下,在步骤s303中,误识别订正处理方法选择部305参照图7的误识别订正处理方法id选择用数据,调出与通过步骤s301取得的说话内容id对应的误识别订正处理方法id。

接着,在步骤s304中,误识别订正处理方法选择部305将通过步骤s303调出的误识别订正处理方法id输出给误识别订正部306。

另一方面,在判断为不需要对语音识别结果进行误识别订正处理的情况下,在步骤s305中,通信部301不执行误识别订正处理而将语音识别结果发送给服务器2。服务器2在从误识别订正装置3接收到语音识别结果的情况下,基于接收到的语音识别结果,进行设备控制判定处理。

此外,在判断为不需要对语音识别结果进行误识别订正处理的情况下,通信部301也可以将表示不对语音识别结果进行误识别订正处理的通知信息发送给服务器2。在该情况下,服务器2也可以在从误识别订正装置3接收到通知信息的情况下,基于由语音识别部202进行语音识别而得到的语音识别结果,进行设备控制判定处理。

图5所示的说话内容id确定用数据包含语音识别结果、与语音识别结果对应的输入语音、以及说话内容id。另外,图6所示的说话内容id数据包含说话内容id、与说话内容id对应的说话内容、控制对象设备类别、设备控制详细情况、以及表示容易发生误识别的词汇的误识别频出词汇。此外,说话内容id确定用数据以及说话内容id数据也可以按每个语音对话装置4来制作。

例如,在对语音输入装置1输入“电视机电源on”这一语音、并由服务器2语音识别为“电视机电源off”的情况下,从图5的说话内容id确定用数据中调出说话内容id“c001”。此时,也可以对1个输入语音关联多个语音识别结果。其原因在于,根据用户不同而有可能出现不同的误识别的文字串或单词串,或者根据语音识别引擎不同而有时会对1个输入语音输出多个语音识别结果。另外,也可以对1个说话内容id关联多个输入语音。其原因在于,可设想如下情况:在用户以语音输入的方式进行将设备的电源打开的指示时,例如,有时会说出“电视机电源on”,也有时会说出“打开电视机电源”,即使想要进行相同的操作,说话表达也不同。

图7所示的误识别订正处理方法id选择用数据包含说话内容id以及与说话内容id对应的误识别订正处理方法id。图8所示的误识别订正处理方法id数据包含误识别订正处理方法id、与误识别订正处理方法id对应的误识别订正处理方法、以及误识别订正处理所需的输入数据。此外,误识别订正处理方法id选择用数据以及误识别订正处理方法id数据也可以按每个语音对话装置4来制作。

在图8中,“音韵相似型误识别订正处理方法”是指如下的误识别订正处理方法:将成为订正误识别的对象的单词基于预定的规则转换成音韵相似的多个单词中的某一个。音韵相似型误识别订正处理方法例如能够通过如下方式来实现:在误识别订正处理所使用的误识别订正词典中,对单词与音韵相关联地进行管理。在通过音韵相似型误识别订正处理方法进行误识别订正处理的情况下,需要确定音韵相似的单词,因此,使用所说的话的语音特征量作为输入数据。

另外,在图8中,“参数特殊化型误识别订正处理方法”是指如下的误识别订正处理方法:将成为订正误识别的对象的单词基于预定的规则转换成音韵相似的多个单词中的与参数有关的单词。参数例如为数字或者字母。参数特殊化型误识别订正处理方法例如能够通过如下方式来实现:在误识别订正处理所使用的误识别订正词典中,对音韵相似的多个单词中的与参数(例如数字)有关的单词设定高优先级。在通过参数特殊化型误识别订正处理方法进行误识别订正处理的情况下,需要在文字串或者音韵中确定与参数(例如数字)关联的单词,因此,使用语音识别结果以及语音特征量作为输入数据。

另外,在图8中,“语境依赖型误识别订正处理方法”是指如下的误识别订正处理方法:将成为订正误识别的对象的单词转换成与语境相应的其他单词。语境依赖型误识别订正处理方法例如能够通过如下方式来实现:误识别订正部306分别根据正解文、和正解文中一部分被误识别的语句来学习单词的排列。在通过语境依赖型误识别订正处理方法进行误识别订正处理的情况下,需要根据识别出的文字串来确定单词的排列,因此,使用语音识别结果作为输入数据。

例如,在对语音输入装置1输入“电视机电源on”这一语音、由服务器2语音识别为“电视机电源off”、并从图5的说话内容id确定用数据中调出说话内容id“c001”的情况下,由图7以及图8可知,只要对“电视机电源off”这一语音识别结果使用误识别订正处理方法id为“rid001”的音韵相似型误识别订正处理方法即可。此时,也可以对1个误识别订正处理方法id关联多个说话内容id。另外,也可以对1个说话内容id关联多个误识别订正处理方法id。

此外,误识别订正处理方法选择部305也可以使用如下的学习模型,自动地对表示所输入的说话内容的说话内容id分配误识别订正处理方法id,所述学习模型是基于图5、图6、图7以及图8所示的数据和输入语音的文字串或单词串的出现频度,使得自动地对说话内容id分配误识别订正处理方法id的模型。

图12是表示本公开的实施方式1涉及的误识别订正处理的顺序的流程图。在误识别订正处理中,基于误识别订正处理方法id,对语音识别结果中包含的误识别实施误识别订正处理。

首先,在步骤s401中,误识别订正部306从误识别订正处理方法选择部305取得误识别订正处理方法id。

接着,在步骤s402中,误识别订正部306参照保存于数据保存部304的图8所示的误识别订正处理方法id数据,判断是否需要语音特征量作为误识别订正处理所需的输入数据。在判断为需要语音特征量作为输入数据的情况下(步骤s402:是),移至步骤s403的处理,在判断为不需要语音特征量作为输入数据的情况下(步骤s402:否),移至步骤s404的处理。

误识别订正处理中需要语音特征量的情况是指出现了如下误识别的情况所述误识别含有相似音韵的文字串或单词串的说话或者含有数字的说话等,难以根据前后的文字串或单词串判断为是误识别。例如,在用户说出“电视机电源on”的结果是被语音识别为“电视机电源off”的情况下,由于“电视机电源off”是用户在电视机的设备控制中说出的可能性高的话,因此无法根据前后的单词即“电视机”以及“电源”来判断“off”是误识别。于是,误识别订正部306通过再次向使“on”以及“off”的语音识别特殊化的语音识别引擎输入语音特征量,能够将“电视机电源off”的误识别订正为“电视机电源on”。

如图8所示,在所选择的误识别订正处理方法为音韵相似型误识别订正处理方法的情况下,需要语音特征量作为输入数据,在所选择的误识别订正处理方法为参数特殊化型误识别订正处理方法的情况下,需要语音特征量以及语音识别结果作为输入数据,在所选择的误识别订正处理方法为语境依赖型误识别订正处理方法的情况下,需要语音识别结果作为输入数据。误识别订正部306根据所选择的误识别订正处理方法,使用语音识别结果以及说话的语音特征量中的至少一方来订正文本数据的误识别。

在判断为需要语音特征量作为输入数据的情况下,在步骤s403中,误识别订正部306从语音识别结果存储部302取得语音特征量。

接着,在取得了语音特征量之后,或者在判断为不需要语音特征量作为输入数据的情况下,在步骤s404中,误识别订正部306从语音识别结果存储部302取得作为语音识别结果的文字串或单词串。

此外,在不移至步骤s403的处理,而仅使用通过步骤s404的处理取得的语音识别结果来订正误识别的情况下,能够使用语境信息以及误识别的出现倾向性来订正误识别。例如,在用户说出“打开电视机电源”、并被语音识别为“打开电视机天元”的情况下,如果存在作为与“电视机”和“打开”同时出现的单词串,“天元”并不合适,“天元”作为“电源”的误识别而出现的倾向性高这一信息,则误识别订正部306能够将“打开电视机天元”订正为“打开电视机电源”。

接着,在步骤s405中,误识别订正部306从误识别订正处理方法保存部307中调出与通过步骤s401取得的误识别订正处理方法id对应的误识别订正处理。

接着,在步骤s406中,误识别订正部306使用通过步骤s404取得的语音识别结果以及/或者通过步骤s403取得的语音特征量,执行通过步骤s405调出的误识别订正处理。在通过步骤s402判断为输入数据中需要语音特征量的情况下,误识别订正部306既可以使用通过步骤s403取得的语音特征量和通过步骤s404取得的语音识别结果来进行误识别订正处理,也可以仅使用通过步骤s403取得的语音特征量来进行误识别订正处理。

接着,在步骤s407中,通信部301将通过步骤s406订正了误识别而得到的结果即误识别订正结果发送给服务器2。

此外,在本实施方式1中,在判断为需要语音特征量作为输入数据的情况下,误识别订正部306取得存储于语音识别结果存储部302的语音特征量,但本公开并不特别限定于此。在语音特征量未被服务器2发送且未存储在语音识别结果存储部302中的情况下,在步骤s403中,通信部301也可以向服务器2请求语音特征量,从服务器2接收语音特征量。另外,通信部301也可以向语音输入装置1请求语音特征量,从语音输入装置1接收语音特征量。

图13是表示本公开的实施方式1涉及的设备控制判定处理的顺序的流程图。在设备控制判定处理中,基于语音识别结果或者误识别订正结果,判定如何控制设备。

首先,在步骤s501中,设备控制判定部204判断是否由误识别订正装置3对语音识别结果执行了误识别订正处理。当由误识别订正装置3对语音识别结果执行了误识别订正处理的情况下,通信部201从误识别订正装置3接收误识别订正结果,当没有由误识别订正装置3对语音识别结果执行误识别订正处理的情况下,通信部201从误识别订正装置3接收语音识别结果。因此,设备控制判定部204在通信部201从误识别订正装置3接收到误识别订正结果的情况下,判断为执行了误识别订正处理,在通信部201从误识别订正装置3接收到语音识别结果的情况下,判断为没有执行误识别订正处理。

在判断为执行了误识别订正处理的情况下(步骤s501:是),移至步骤s502的处理,在判断为没有执行误识别订正处理的情况下(步骤s501:否),移至步骤s504的处理。

在判断为执行了误识别订正处理的情况下,在步骤s502中,设备控制判定部204从设备控制id判定用数据保存部205中调出与误识别订正结果对应的设备控制id。

接着,在步骤s503中,通信部201将通过步骤s502调出的设备控制id、以及误识别订正结果或者语音识别结果发送给语音对话装置4。

在判断为没有执行误识别订正处理的情况下,在步骤s504中,设备控制判定部204从设备控制id判定用数据保存部205中调出与语音识别结果对应的设备控制id。

接着,在步骤s505中,通信部201将通过步骤s504调出的设备控制id、以及语音识别结果发送给语音对话装置4。

图14是表示用于根据语音识别结果或者误识别订正结果来判定设备控制id的设备控制id判定用数据的一例的图,图15是表示记载有设备控制id的详细内容的设备控制id数据的一例的图。

图14所示的设备控制id判定数据包含语音识别结果或者误识别订正结果、以及与语音识别结果或者误识别订正结果对应的设备控制id。图15所示的设备控制id数据包含设备控制id、与设备控制id对应的控制内容、控制对象设备类别、以及设备控制详细情况。此外,设备控制id判定用数据以及设备控制id数据也可以按每个语音对话装置4来制作。

例如,在对语音输入装置1输入“打开电视机电源”这一语音、由服务器2语音识别为“打开电视机天元”、并由误识别订正装置3订正为“打开电视机电源”的情况下,可从图14的设备控制id判定用数据中调出设备控制id“m001”。此外,也可以对1个设备控制id关联多个语音识别结果或者误识别订正结果。其原因在于,可设想如下情况:在用户以语音输入的方式进行将电视机的电源打开的指示时,例如,有时会说出“电视机电源on”,也有时会说出“打开电视机电源”,即使想要进行相同的操作,说话表达也不同。

此外,设备控制判定部204也可以使用如下的学习模型,自动地对所输入的语音识别结果或者误识别订正结果分配设备控制id,所述学习模型是基于图14以及图15所示的数据和输入语音的文字串或单词串的出现频度来自动地判定设备控制id的模型。

图16是表示在本公开的实施方式1涉及的语音控制系统中,向用户提示语音识别结果以及误识别订正结果的显示画面的一例的图,图17是表示在本公开的实施方式1涉及的语音控制系统中,向用户提示误识别订正结果的输出语音的一例的图。

语音对话装置4也可以将作为语音识别结果而取得的文本数据以及订正了误识别而得到的文本数据中的至少一方通知给用户。

在语音识别结果中发生误识别,并通过误识别订正装置3订正了误识别的情况下,语音对话装置4向用户通知已进行误识别订正处理这一意思。在图16以及图17中,示出了对正在以语音输入的方式操作作为语音对话装置4的一例的电视机的音量的用户,通知已进行误识别订正处理这一情况的例子。如图16所示,语音对话装置4将“电视机的冤魂加1”这一含有误识别的语音识别结果显示在显示画面上。之后,语音对话装置4将“电视机的音量加1”这一进行了误识别订正处理而得到的结果即误识别订正结果显示在显示画面上。另外,如图17所示,例如,语音对话装置4也可以从电视机或者遥控器的扬声器输出“电视机的音量加1吗”这一用于确认误识别订正结果是否正确的语音。

此外,语音对话装置4也可以根据语音识别结果的可信度,将用于确认误识别订正结果是否正确的文字串显示在显示画面上。另外,语音对话装置4也可以根据语音识别结果的可信度,从扬声器输出用于确认误识别订正结果是否正确的语音。例如,在“电视机的冤魂加1”这一语音识别结果的可信度比阈值低的情况下,含有误识别的可能性高。因此,为了确认误识别订正结果是否正确,语音对话装置4既可以在画面上显示“电视机的音量加1吗”这一文字串,也可以从扬声器输出“电视机的音量加1吗”这一语音。

图18以及图19是用于说明本公开的实施方式1涉及的语音控制系统中的学习工作的图。图18是表示在本公开的实施方式1涉及的语音控制系统中,未能由误识别订正装置订正语音识别结果的误识别而没有正确进行设备控制的例子的图,图19是表示在本公开的实施方式1涉及的语音控制系统中,通过学习语音识别结果,能由误识别订正装置订正语音识别结果的误识别而正确进行了设备控制的例子的图。

在通过第一次误识别订正处理,误识别订正装置3没能订正对于用户所说的话的语音识别结果中产生的误识别,而通过第二次误识别订正处理,误识别订正装置3订正了误识别的情况下,语音对话装置4将使用误识别订正装置3的学习功能进行了误识别订正处理这一意思通知给用户。

说明在针对正在以语音输入的方式操作作为语音对话装置4的一例的电视机的音量的用户,进行误识别订正处理的学习的情况下的例子。在图18中,在用户第一次说出“电视机的音量加1”、被语音识别为“电视机的冤魂加1”、并由误识别订正装置3进行了误识别订正处理的结果也是“电视机的冤魂加1”的情况下,没有实施电视机的音量控制。此时,用户再次说出相同的语音,或者用户用遥控器直接调整了音量的情况下,误识别订正装置3学习到以下内容:“电视机的冤魂加1”是错误的,需要在音量控制中进行订正。在图19中,用户第二次说出“电视机的音量加1”,被语音识别为“电视机的冤魂加1”,从第一次的错误中学习到“电视机的冤魂加1”是音量控制的结果是“电视机的冤魂加1”被订正为“电视机的音量加1”。由此,尽管语音识别结果中含有误识别也能够实施电视机的音量控制。此外,并不是说学习一定在第二次完成,误识别订正装置3也可以根据输出了两次以上包含相同误识别的语音识别结果的结果来进行学习。

使用图10对以上处理的具体例子进行说明。例如,考虑用户对电视机说出“电视机电源on”的情况。受理用户说出的语音输入(步骤s1),对所输入的语音执行语音特征量算出处理(步骤s2)。接着,执行基于保存于说话语料库保存部203的信息将接收到的语音特征量转换成文字串或单词串的语音识别处理(步骤s3),获得“电视机电源off”作为语音识别结果。

接着,基于语音识别结果来确定说话内容(步骤s4),基于所确定出的说话内容来执行误识别订正处理方法选择处理(步骤s5)。由此,针对语音识别结果“电视机电源off”选择音韵相似型误识别订正处理方法。接着,基于选择结果,执行基于音韵相似型误识别订正处理方法的误识别订正处理(步骤s6),将“电视机电源off”订正为“电视机电源on”。

接着,通过基于误识别订正结果,执行设备控制判定处理(步骤s7),从而进行打开电视机的电源的设备控制(步骤s8)。

接着,例如,感觉电视机的音量不够的用户再次说出“电视机音量加1”。从语音特征量算出处理(步骤s2)至设备控制判定处理(步骤s7)为止,执行与第一次说话同样的处理。在此,在语音识别结果为“电视机冤魂加1”、且误识别订正结果为“电视机音量加1”的情况下,为了向用户传达已进行误识别订正处理这一情况,首先,在显示画面上显示含有误识别的语音识别结果即“电视机的冤魂加1”这一文字串,之后显示进行了误识别订正处理而得到的结果即误识别订正结果“电视机的音量加1”这一文字串。

其结果是,用户在通过语音输入进行电视机的设备控制时,即使语音识别结果含有误识别,也无需事先从用户取得信息,就能够订正误识别,进行设备控制。

此外,在本实施方式1中,语音对话装置4也可以将从多个误识别订正处理方法中选择了哪个误识别订正处理方法通知给用户。

(实施方式2)

图20是表示本公开的实施方式2涉及的误识别订正装置的具体构成的框图。相对于图4所示的误识别订正装置3的构成,误识别订正装置31添加了第1误识别订正部313,并且,代替误识别订正部306而具备第2误识别订正部314。

图20所示的误识别订正装置31具备通信部301、语音识别结果存储部302、说话内容确定部303、数据保存部304、误识别订正处理方法选择部305、误识别订正处理方法保存部307、第1误识别订正部313以及第2误识别订正部314。此外,在实施方式2中,对与实施方式1相同的构成部分赋予相同的标号,并省略说明。

第1误识别订正部313使用预定的第1误识别订正处理方法(初步的误识别订正处理方法),初步地订正文本数据的误识别。第1误识别订正部313在由误识别订正处理方法选择部305选择第2误识别订正处理方法之前,通过预定的第1误识别订正处理方法来订正误识别。第1误识别订正部313在初步地订正误识别的情况下,对文本数据所包含的单词中的、发生误识别的频度比预定值高的单词,初步地订正误识别。通过在由误识别订正处理方法选择部305选择第2误识别订正处理方法之前,由第1误识别订正部313订正语音识别结果的误识别,能够减少错误的误识别订正处理方法被选择的情况。

说话内容确定部303基于初步地订正了误识别而得到的文本数据,确定说话内容。

第2误识别订正部314使用由误识别订正处理方法选择部305选择出的第2误识别订正处理方法,订正语音识别结果(文本数据)的误识别。此外,第2误识别订正部314的构成与实施方式1的误识别订正部306的构成相同。

例如,在明确了当对电视机的工作进行控制时,会高频度地发生“电源”被转换成“天元”的误识别的情况下,第1误识别订正部313根据语境依赖型误识别订正处理方法,将语音识别结果中包含的“天元”这一单词订正为“电源”这一单词。由此,在用户说出“电视机电源on”、并被语音识别为“电视机天元off”的情况下,通过第1误识别订正部313,语音识别结果被订正为“电视机电源off”,由此,误识别订正处理方法选择部305选择音韵相似型误识别订正处理方法作为第2误识别订正处理方法。其结果是,第2误识别订正部314通过使用在订正音韵相似的单词方面性能优异的音韵相似型误识别订正处理方法来订正误识别,能够将“电视机电源off”转换为“电视机电源on”。

此外,由第1误识别订正部313使用的第1误识别订正处理方法与由第2误识别订正部314使用的第2误识别订正处理方法可以是不同的误识别订正处理方法,也可以是相同的误识别订正处理方法。

另外,在本实施方式2中,第1误识别订正部313使用预先决定的第1误识别订正处理方法,订正语音识别结果的误识别,但本公开并不特别限定于此。也可以为,说话内容确定部316基于语音识别结果来确定说话内容,误识别订正处理方法选择部305基于所确定出的说话内容来选择两个误识别订正处理方法(第1误识别订正处理方法以及第2误识别订正处理方法)。而且,第1误识别订正部313也可以使用由误识别订正处理方法选择部305选择出的第1误识别订正处理方法,订正语音识别结果的误识别。另外,第2误识别订正部314也可以使用由误识别订正处理方法选择部305选择出的第2误识别订正处理方法,再次订正由第1误识别订正部313订正后的语音识别结果的误识别。

另外,本公开的实施方式2涉及的语音输入装置、服务器以及语音对话装置的构成与实施方式1相同,因此省略说明。另外,关于本公开的实施方式2涉及的语音控制系统的工作,除上述的误识别订正装置31的工作以外,也与实施方式1相同,因此省略说明。

(实施方式3)

图21是表示本公开的实施方式3涉及的误识别订正装置的具体构成的框图。相对于图4所示的误识别订正装置3的构成,误识别订正装置32还具备历史记录管理部315。

图21所示的误识别订正装置32具备通信部301、语音识别结果存储部302、数据保存部304、误识别订正处理方法选择部305、误识别订正部306、误识别订正处理方法保存部307、历史记录管理部315以及说话内容确定部316。此外,在实施方式3中,对与实施方式1相同的构成部分赋予相同的标号,并省略说明。

历史记录管理部315保存用户与语音控制系统之间的对话历史记录、或者设备控制历史记录等各种日志信息。

说话内容确定部316取得通过用户所说的话进行操作的设备的当前的状况,基于取得的所述设备的当前的状况,预测说话内容。说话内容确定部316参照保存于历史记录管理部315的日志信息,取得通过用户所说的话进行操作的设备的当前的状况,基于取得的设备的当前的状况,预测用户的说话内容。

误识别订正处理方法选择部305从多个误识别订正处理方法中,选择与由说话内容确定部316预测出的说话内容相应的误识别订正处理方法。

例如,说话内容确定部316在用户说出了某句话的情况下,参照保存于历史记录管理部315的对话历史记录,确定大多在该所说的话的后面被说的话的说话内容。而且,误识别订正处理方法选择部305选择适合于所确定出的说话内容的误识别订正处理方法。

另外,说话内容确定部316在参照保存于历史记录管理部315的设备控制历史记录,确定为控制对象设备的电源当前为断开的情况下,预测为接下来用于对控制对象设备进行控制的说话内容是使控制对象设备的电源接通。而且,误识别订正处理方法选择部305选择适合于所预测出的说话内容的误识别订正处理方法。

另外,本公开的实施方式3涉及的语音输入装置、服务器以及语音对话装置的构成与实施方式1相同,因此省略说明。另外,关于本公开的实施方式3涉及的语音控制系统的工作,除上述的误识别订正装置32的工作以外,也与实施方式1相同,因此省略说明。

(实施方式4)

图22是表示本公开的实施方式4涉及的误识别订正装置的具体构成的框图。相对于图4所示的误识别订正装置3的构成,误识别订正装置33添加了第1误识别订正部313以及历史记录管理部315,并且,代替误识别订正部306而具备第2误识别订正部314。

图22所示的误识别订正装置33具备通信部301、语音识别结果存储部302、数据保存部304、误识别订正处理方法选择部305、误识别订正处理方法保存部307、第1误识别订正部313、第2误识别订正部314、历史记录管理部315以及说话内容确定部316。此外,在实施方式4中,对与实施方式1~实施方式3相同的构成部分赋予相同的标号,并省略说明。

历史记录管理部315所保存的信息以及说话内容确定部316的工作与上述的实施方式3中的历史记录管理部315所保存的信息以及说话内容确定部316的工作是同样的。另外,第1误识别订正部313以及第2误识别订正部314的工作与上述的实施方式2中的第1误识别订正部313以及第2误识别订正部314的工作是同样的。

根据这样的构成,能够取得通过用户所说的话进行操作的设备的当前的状况,基于取得的设备的当前的状况,预测用户的说话内容,并且,能够在用户说了话的情况下,事先根据预定的初步的误识别订正处理方法来订正语音识别结果中包含的误识别。

此外,本公开的实施方式4涉及的语音输入装置、服务器以及语音对话装置的构成与实施方式1相同,因此省略说明。另外,关于本公开的实施方式4涉及的语音控制系统的工作,除上述的误识别订正装置33的工作以外,也与实施方式1相同,因此省略说明。

另外,在本实施方式1~4中,订正了对于用日语说出的语音的语音识别结果的误识别,但本公开并不特别限定于此,也可以订正对于用英语及中文等除日语以外的语言说出的语音的语音识别结果的误识别。

产业上的可利用性

本公开涉及的误识别订正方法、误识别订正装置以及误识别订正程序能够削减语音识别结果的误识别,作为订正对于用户所说的话的语音识别结果的误识别的误识别订正方法、误识别订正装置以及误识别订正程序是有用的。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1