语音识别终端及系统、服务器及其控制方法、非易失性存储介质的制作方法

文档序号：8362627阅读：535来源：国知局

语音识别终端及系统、服务器及其控制方法、非易失性存储介质的制作方法
【技术领域】
[0001]本发明涉及提供虚拟交流的语音识别终端、服务器、服务器的控制方法、语音识别系统、存储了语音识别终端的控制程序的非易失性存储介质、以及存储了服务器的控制程序的非易失性存储介质。
【背景技术】
[0002]作为语音识别装置，利用客户端-服务器型的语音识别系统，该系统使用由便携式终端等构成的客户端装置(也称为终端装置)、以及通过网络连接的服务器装置执行语音识别处理。
[0003]该语音识别系统中采用的方式是:在终端装置中的语音识别较为困难等情况下，将该语音识别结果输出到服务器装置，由服务器装置侧进行语音识别，从终端装置输出该结果。

【发明内容】

[0004]另一方面，在上述语音识别系统中，因为基于终端装置中的语音识别结果执行服务器装置中的语音识别处理，所以从服务器装置得到的语音识别结果需要花费时间，对于利用终端装置的用户而言，来自终端装置的应答输出时间变长，存在着无法顺利进行交流的问题。
[0005]按照本发明的一种方式的语音识别终端，设置为能够与服务器通信，该服务器能够进行识别语音的语音识别，所述语音识别终端具备:语音输入接受部，接受来自用户的语音输入；语音识别部，对语音输入接受部接受的语音输入进行语音识别；应答处理执行部，基于对语音输入接受部接受的语音输入的语音识别结果，执行对用户的应答处理；以及通信部，对服务器发送语音输入接受部接受的语音输入，接收服务器的语音识别结果。应答处理执行部基于语音识别部的语音识别结果与从服务器接收的语音识别结果中判断为更合适的语音识别结果，执行对用户的应答处理。
[0006]优选的是，应答处理执行部基于语音识别部的语音识别结果与从服务器接收的语音识别结果中先得到的语音识别结果，执行对用户的应答处理。
[0007]优选的是，应答处理执行部不执行基于后得到的语音识别结果的对用户的应答处理。
[0008]优选的是，语音识别对语音进行识别并计算表示该识别的准确度的可靠度，应答处理执行部，关于语音识别部的语音识别结果中包含的可靠度，在后得到的语音识别结果中包含的可靠度大于先得到的语音识别结果中包含的可靠度的情况下，进一步基于后得到的语音识别结果，执行对用户的应答处理。
[0009]尤其是，应答处理执行部，关于语音识别部的语音识别结果中包含的可靠度，在先得到的语音识别结果中包含的可靠度为指定可靠度以下的情况下，在后得到的语音识别结果中包含的可靠度大于先得到的语音识别结果中包含的可靠度的情况下，进一步基于后得到的语音识别结果，执行对用户的应答处理。
[0010]优选的是，还包括动作模式切换部，基于对输入到语音输入接受部的语音输入的语音识别结果，切换服务器模式和普通模式，在服务器模式下，语音识别终端按照服务器的指示进行动作，在普通模式下，语音识别终端选择性地利用服务器的指示进行动作。
[0011]尤其是，应答处理执行部在服务器模式的情况下，使语音识别部的语音识别结果无效。
[0012]按照本发明的一种方式的服务器，设置为能够与语音识别终端通信，该语音识别终端能够进行识别语音的语音识别，所述服务器具备:语音输入接收部，经由语音识别终端接收来自用户的语音输入；语音识别部，对语音输入接收部接收的语音输入进行语音识别；以及应答处理执行指示部，基于对语音输入接收部接收的语音输入的语音识别结果，指示语音识别终端执行对用户的应答处理，其中，应答处理执行指示部指示语音识别终端从普通模式切换为服务器模式，所述普通模式下，语音识别终端选择性地利用服务器的指示进行动作，所述服务器模式下，指示语音识别终端按照服务器的指示进行动作。
[0013]优选的是，应答处理执行指示部，作为对语音输入接收部接受的语音输入的语音识别结果，判断是否是来自用户的指定信息的询问的请求，在判断为是指定信息的询问的请求的情况下，判断是否登记有用于取得该指定信息的数据，基于判断结果，在未登记用于取得该指定信息的数据的情况下，指示执行促使用户输入数据的应答处理。
[0014]按照本发明的一种方式的服务器的控制方法中，服务器设置为能够与语音识别终端通信，该语音识别终端能够进行识别语音的语音识别，所述控制方法包括:经由语音识别终端接收来自用户的语音输入的步骤；对接收的语音输入进行语音识别的步骤；以及基于对接收的语音输入的语音识别结果，指示语音识别终端执行对用户的应答处理的步骤，其中，指示执行应答处理的步骤包括:指示从普通模式切换为服务器模式的步骤，所述普通模式下，语音识别终端选择性地利用服务器的指示进行动作，所述服务器模式下，指示语音识别终端按照服务器的指示进行动作。
[0015]按照本发明的一种方式的语音识别系统具备:服务器，能够进行识别语音的语音识别；以及语音识别终端，设置为能够与服务器通信。语音识别终端包括:语音输入接受部，接受来自用户的语音输入；语音识别部，对语音输入接受部接受的语音输入进行语音识别；应答处理执行部，基于对语音输入接受部接受的语音输入的语音识别结果，执行对用户的应答处理；以及通信部，对服务器发送语音输入接受部接受的语音输入，接收服务器的语音识别结果。应答处理执行部基于语音识别部的语音识别结果与从服务器接收的语音识别结果中判断为更合适的语音识别结果，执行对用户的应答处理。
[0016]按照本发明的一种方式的非易失性存储介质存储在语音识别终端的计算机中执行的控制程序，该语音识别终端设置为能够与服务器通信，该服务器能够进行识别语音的语音识别，所述控制程序使所述计算机执行如下步骤:接受来自用户的语音输入的步骤；对接受的语音输入进行语音识别的步骤；基于对接受的语音输入的语音识别结果，执行对用户的应答处理的步骤；以及对服务器发送接受的语音输入，接收服务器的语音识别结果的步骤。执行应答处理的步骤包括:根据基于进行语音识别的步骤的语音识别结果与从服务器接收的语音识别结果中判断为更合适的语音识别结果，执行对用户的应答处理的步骤。
[0017]按照本发明的一种方式的非易失性存储介质存储在服务器的计算机中执行的控制程序，该服务器设置为能够与语音识别终端通信，该语音识别终端能够进行识别语音的语音识别，所述控制程序使计算机执行如下步骤:经由语音识别终端接收来自用户的语音输入的步骤；对接收的语音输入进行语音识别的步骤；以及基于对接收的语音输入的语音识别结果，指示语音识别终端执行对用户的应答处理的步骤。指示执行应答处理的步骤包括:指示从普通模式切换为服务器模式的步骤，所述普通模式下，语音识别终端选择性地利用服务器的指示进行动作，所述服务器模式下，指示语音识别终端按照服务器的指示进行动作。
[0018]按照本发明的一种方式的语音识别终端的控制方法，该语音识别终端设置为能够与服务器通信，该服务器能够进行识别语音的语音识别，所述控制方法包括:接受来自用户的语音输入；对接受的语音输入进行语音识别；基于对接受的语音输入的语音识别结果，执行对用户的应答处理；以及对服务器发送接受的语音输入，接收服务器的语音识别结果。执行应答处理包括:基于对接受的语音输入的语音识别结果与从服务器接收的语音识别结果中判断为更合适的语音识别结果，执行对用户的应答处理。
[0019]优选的是，执行应答处理包括:基于对接受的语音输入的语音识别结果与从服务器接收的语音识别结果中先得到的语音识别结果，执行对用户的应答处理。
[0020]优选的是，执行应答处理包括:不执行基于后得到的语音识别结果的对用户的应答处理。
[0021]优选的是，进行语音识别包括:对语音进行识别并计算表示该识别的准确度的可靠度，并且执行应答处理包括:关于对接受的语音输入的语音识别结果中包含的可靠度，在后得到的语音识别结果中包含的可靠度大于先得到的语音识别结果中包含的可靠度的情况下，进一步基于后得到的语音识别结果，执行对用户的应答处理。
[0022]优选的是，执行应答处理包括:关于对接受的语音输入的语音识别结果中包含的可靠度，在先得到的语音识别结果中包含的可靠度在指定可靠度以下的情况下，在后得到的语音识别结果中包含的可靠度大于先得到的语音识别结果中包含的可靠度的情况下，进一步基于后得到的语音识别结果，执行对用户的应答处理。
[0023]优选的是，还包括:基于对接受的语音输入的语音识别结果，切换服务器模式和普通模式，在服务器模式下，语音识别终端按照服务器的指示进行动作，在普通模式下，语音识别终端选择性地利用服务器的指示进行动作。
[0024]优选的是，执行应答处理包括:在服务器模式的情况下，使对接受的语音输入的语音识别结果无效。
[0025]根据结合附图进行理解的与本发明有关的如下详细说明，本发明的上述及其他目的、特征、方式以及优点变得更为明确。
【附图说明】
[0026]图1是说明基于本实施方式的语音识别系统I的图。
[0027]图2是说明本实施方式的语音识别系统I的主要结构的图。
[0028]图3是说明基于本实施方式的发话内容数据库的图。
[0029]图4是表示基于实施方式I的语音识别系统I中的应答处理流程的时序图。
[0030]图5是执行基于本实施方式I的清洁机器人10的语音识别处理的流程图。
[0031]图6是执行基于本实施方式2的清洁机器人10的语音识别处理的流程图。
[0032]图7是说明基于本实施方式2的可靠度判定处理的流程图。
[0033]图8是说明基于本实施方式3的发话内容数据库232的图。
[0034]图9是说明基于本实施方式3的多个动作模式的图。
[0035]图10是说明基于本实施方式3的普通辞典的图。
[0036]图11是说明基于本实施方式3的词语接龙辞典的图。
[0037]图12是说明基于本实施方式3的状态存储部233中存储的信息的图。
[0038]图13是表示基于实施方式3的语音识别系统I中的词语接龙游戏开始的应答处理流程的时序图。
[0039]图14是表示基于实施方式3的语音识别系统I中的词语接龙游戏结束的应答处理(其一)的流程的时序图。
[0040]图15是表示基于实施方式3的语音识别系统I中的词语接龙游戏结束的应答处理(其二)的流程的时序图。
[0041]图16是表示基于实施方式3的语音识别系统I中的词语接龙游戏结束的应答处理(其三)的流程的时序图。
[0042]图17是执行基于本实施方式3的服务器20的语音识别处理的流程图。
[0043]图18是说明基于本实施方式4的邮政编码辞典和是/不是辞典的图。
[0044]图19是表示基于实施方式4的语音识别系统I中的取得天气信息(其一)的应答处理流程的时序图。
[0045]图20是表示基于实施方式4的语音识别系统I中的取得天气信息(其二)的应答处理流程的时序图。
[0046]图21是执行基于本实施方式4的服务器20的语音识别处理的流程图。
[0047]图22是基于本实施方式4的决定回答短句的处理的子流程图。
[0048]图23是说明基于本实施方式5的服务器的结构的图。
【具体实施方式】
[0049]以下，参考【附图说明】本实施方式。在实施方式的说明中提到个数和量等时，除了特别记载的情况以外，本发明的范围不一定限定于该个数和该量等。在实施方式的说明中，对同一部件和相应部件标注同一参考编号，有时不反复进行重复说明。只要没有特别限制，从最初起便预定适当组合并使用实施方式所示的结构。
[0050]实施方式I
[0051 ] 语音识别系统I的结构
[0052]图1是说明基于本实施方式的语音识别系统I的图。
[0053]参考图1，基于本实施方式的语音识别系统I由清洁机器人(语音识别终端)10、网络5、以及服务器20构成。
[0054]清洁机器人10设置为能够经由网络5与服务器20通信。此外，本例中说明经由网络5与服务器20通信的情况，但也可以采用清洁机器人10与服务器20直接通信的方式。
[0055]在语音识别系统I中，清洁机器人10接受人类(用户)发出的语音输入时，清洁机器人10或服务器20进行语音识别，从清洁机器人10输出表示对输入了的语音的应答内容的语音(以后也记为“应答语音”)。
[0056]由此，本实施方式的语音识别系统I实现用户与清洁机器人10的虚拟会话。
[0057]此外，本实施方式中，作为语音识别终端的一例，举例说明识别语音并对用户输出应答语音的清洁机器人10，但本发明不限于此。例如，作为语音识别终端，还能够采用具有语音识别功能的玩偶、清洁机器人10以外的家电(例如电视机、微波炉等)等。
[0058]另外，本实施方式中，举例说明服务器20由一个服务器实现的结构，但本发明不限于此，也可以采用由其它服务器实现服务器20具备的各部件(各功能)中的至少一部分的结构。
[0059]语音识别系统I的主要结构
[0060]图2是说明本实施方式的语音识别系统I的主要结构的图。
[0061]参考图2，首先说明清洁机器人10的结构。
[0062]基于本实施方式的清洁机器人10包括通信部101、控制部102、麦克风103、扬声器104、清洁部105、驱动部106、显示部108、以及存储部109。
[0063]通信部101与外部进行通信。具体而言，通信部101经由例如因特网等网络5与服务器20进行通信。此外，可以进行无线或有线中的任一种通信。
[0064]麦克风103从外部接受声音输入。此外，本实施方式中，表示麦克风103接受输入的声音的声音数据中，主要说明接受人类所发语音的频带中包含的声音数据(以后也称为语音数据)的输入的情况，但也可以包括包含语音数据频带以外的频带的声音数据。麦克风103将表示输入的声音的语音数据输出到控制部102。
[0065]扬声器104输出应答语音，该应答语音表示从控制部102输出的应答内容。以后，将清洁机器人10经由扬声器104进行的应答语音输出也记为“发话”。此外，关于应答内容的详细情况在后面进行描述。
[0066]清洁部105基于来自控制部102的指示，实现作为清洁机的功能。
[0067]驱动部106基于来自控制部102的指示移动清洁机器人10。
[0068]通过清洁部105以及驱动部106的共同动作，清洁机器人10能够自动进行房间的清洁。
[0069]显示部108按照来自控制部102的指示，实现各种显示功能。
[0070]存储部109是RAM (Random Access Memory,随机存取存储器)以及闪速存储器等存储装置，存储有用于实现清洁机器人10的各种功能的程序等。另外，存储部109作为一例具有发话内容数据库120，该数据库120是与语音应答的输出有关的信息。
[0071]控制部102主要由CPU (Central Processing Unit，中央处理单元)构成，通过由该CPU执行存储部109中存储的程序，来实现各部件的功能。
[0072]控制部102统一控制清洁机器人10的各个部件。具体而言，控制部102通过控制清洁部105以及驱动部106，控制清洁机器人10的清洁动作。另外，控制部102将表示通过麦克风103从外部取得的声音的语音数据，经由通信部101发送到服务器20。
[0073]另外，控制部102对于已发送给服务器20的语音数据，经由通信部101接收通过服务器20的语音识别得到的语音识别结果数据。并且，控制部102按照接收了的语音识别结果数据，能够从扬声器104输出表示应答内容的语音应答。
[0074]对控制部102的主要功能结构进行说明。控制部102包括语音识别部111、应答处理执行部112、动作模式切换部113、以及语音输入接受部114。
[0075]语音输入接受部114检测(提取)语音数据。更详细而言，语音输入接受部114在自外部接收了的声音数据中提取人类所发语音的频带，由此检测语音数据。
[0076]作为语音输入接受部114的从声音数据中检测语音数据的方法，例如能够举出通过从声音数据中提取人类所发语音的频带(例如10Hz以上且IkHz以下的频带)来检测语音数据的方法。在此情况下，语音输入接受部114为了从声音数据中提取人类所发语音的频带，例如可以具备带通滤波器、或者组合了高通滤波器以及低通滤波器的滤波器等。
[0077]语音输入接受部114将从声音数据中检测出的语音数据输出到语音识别部111，同时经由通信部101发送到服务器20。
[0078]语音识别部111作为识别内容，识别由语音输入接受部114接受了的语音数据所表示的语音的内容(语音内容)。并且，语音识别部111将从语音数据中识别的语音内容的识别结果输出到应答处理执行部112。
[0079]此外，语音识别部111还能够计算表示识别的准确度(表示正确性的程度)的可靠度，该识别是作为语音内容的识别结果(语音识别结果)得到的识别，具体情况后述。
[0080]此外，在假设识别准确度的最小值为“0”，最大值为“ I ”的情况下，例如，可靠度高的情况可以是“0.6”以上的情况，但本发明并不限定于这些值。
[0081]此外，作为语音识别部111中的语音识别结果的可靠度的判定方法，例如能够使用如下判定方法:判定预先准备的、表示指定的多个语句(短句，phrase)的语音波形模型(声学模型)与语音数据所表示的波形的一致度，将最高的一致度作为可靠度。此外，本判定方法不限于此，例如还能够使用模式匹配等。
[0082]应答处理执行部112基于语音识别部111的语音内容的识别结果，决定应答内容。具体而言，应答处理执行部112参考存储部109中存储的发话内容数据库120，决定对语音数据所表示的语音内容的应答内容。应答处理执行部112基于语音识别部111的语音内容识别结果决定应答内容后，基于所决定的应答内容，作为一例，经由扬声器104对用户发话。另外，应答处理执行部112能够基于经由通信部101从服务器20发送的作为语音识别的识别结果的语音识别结果数据，作为一例，经由扬声器104对用户发话。
[0083]动作模式切换部113执行清洁机器人10具有的多个动作模式的切换。关于动作模式的切换，在后面进行描述。
[0084]接着，说明基于本实施方式的服务器20的结构。基于本实施方式的服务器20包括通信部201、控制部202、以及存储部203。
[0085]通信部201与外部进行通信。具体而言，通信部201经由例如因特网等网络5与清洁机器人10进行通信。此外，可以进行无线或有线中的任一种通信。
[0086]存储部203是RAM (Random Access Memory,随机存取存储器)以及闪速存储器等存储装置，存储有用于实现服务器20的各种功能的程序等。另外，存储部203作为一例具有:发话内容数据库232，该数据库232是与语音应答的输出有关的信息；以及状态存储部233，存储清洁机器人10的状态。
[0087]控制部202主要由CPU (Central Processing Unit，中央处理单元)构成，通过由该CPU执行存储部203中存储的程序，来实现各部件的功能。
[0088]控制部202统一控制服务器20的各个部件。具体而

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：平田真章;户岛朗;岩野裕利;
技术所有人：夏普株式会社;
我是此专利的发明人

上一篇：一种家用机器人的语音人机交互系统的制作方法
上一篇：利用语音识别的命令执行系统及其工作方法