人机语音交互方法及系统的制作方法

文档序号：2828162阅读：508来源：国知局

人机语音交互方法及系统的制作方法
【专利摘要】本发明公开了一种人机语音交互方法及系统，通过采集用户的语音信息，分析语音信息得出语言类型，对语音信息采用与语言类型对应的识别模式进行识别，将该语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的反馈语音信息，再将识别的语音信息与预先存储的反馈视频信息进行检索匹配，得到匹配的反馈视频信息；当得到的上述两种信息存在关联时，则将两种信息同步输出。通过上述人机语音交互方法，可识别多种语言的语音，实现多种语言的交互，且同时实现视频与语音的同步回应，使客户体验感更强，且通过判断反馈语音信息与反馈视频信息的关联性，实现反馈语音信息与反馈视频信息的一致性，提高交互准确率，且声音和画面更加的协调与同步。
【专利说明】人机语音交互方法及系统

【技术领域】
[0001]本发明涉及电子产品【技术领域】，特别是涉及人机语音交互方法及系统。

【背景技术】
[0002]随着科技的进步，数字文化馆内的电子产品越来越多，也越来越智能化，人机语音交互产品就是其中一个。人机语音交互系统可以为参观的客户提供有效的人机交互功能，通过语音与机器进行交流，让机器明白人说的是什么，并给出相应的回答。例如，通过人机语音交互系统获取数字文化馆内的相关产品的介绍以及相关功能，也可通过人机语音交互系统为客户指引路径，告诉客户想要去的地方的路线等功能。
[0003]然而，现有的人机语音交互方法及系统只是通过采集语音信息，然后对语音信息进行识别，再通过该语音信息调取数据库中预先存储的语音回应信息并输出，对用户的问题进行解答，实现人机语音交互。这种人机语音交互系统功能单一，交互准确性比较低。

【发明内容】

[0004]基于此，有必要针对现有的人机语音交互方法及系统的交互准确性较低的问题，提供一种人机语音交互方法及系统。
[0005]一种人机语音交互方法，包括以下步骤:
[0006]采集用户的语音信息；
[0007]对所述语音信息进行分析，得出所述语音信息所对应的语言类型；
[0008]对所述语音信息采用与所述语言类型对应的识别模式进行识别；
[0009]将识别的所述语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的所述反馈语音信息；
[0010]将识别的所述语音信息与预先存储的反馈视频信息进行检索匹配，得到匹配的所述反馈视频信息；
[0011]判断匹配的所述反馈语音信息与匹配的所述反馈视频信息是否存在关联；
[0012]若匹配的所述反馈语音信息与匹配的所述反馈视频信息存在关联；
[0013]则将匹配的所述反馈语音信息与匹配的所述反馈视频信息同步输出；
[0014]显示所述反馈视频信息。
[0015]本发明还公开一种人机语音交互系统，包括:
[0016]采集模块，用于采集用户的语音信息；
[0017]语音分析模块，用于对所述语音信息进行分析，得出所述语音信息所对应的语言类型；
[0018]语音识别模块，用于对所述语音信息采用与所述语言类型对应的识别模式进行识别；
[0019]第一匹配模块，用于将识别的所述语音信息与预先存储的反馈语音信息进行检索匹配；
[0020]第二匹配模块，用于将识别的所述语音信息与预先存储的反馈视频信息进行检索匹配；
[0021]关联判断模块，用于判断匹配的所述反馈语音信息与匹配的所述反馈视频信息是否存在关联；
[0022]输出模块，用于将匹配的所述反馈语音信息与匹配的所述反馈视频信息同步输出；
[0023]显示模块，用于显示所述反馈视频信息。
[0024]上述人机语音交互方法及系统，通过不同的识别模式对不同语言的语音信息进行识别，再将识别的语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的反馈语音信息，再将识别的语音信息与预先存储的反馈视频信息进行检索匹配，得到匹配的反馈视频信息；当匹配的反馈语音信息与匹配的反馈视频信息存在关联时，则将这两种信息同步输出。通过上述人机语音交互方法，可识别多种语言的语音，实现多种语言的交互，且同时实现视频与语音的同步输出，使客户体验感更强，且通过判断反馈语音信息与反馈视频信息的关联性，实现反馈语音信息与反馈视频信息的一致性，提高交互准确率，提高声音和画面的协调性。

【专利附图】

【附图说明】
[0025]图1为一种实施方式的人机语音交互方法的流程图；
[0026]图2为一种实施方式的人机语音交互系统的模块图；
[0027]图3为另一实施方式的人机语音交互系统中的结构子模块图。

【具体实施方式】
[0028]为了使本发明的目的、技术方案和优点更加清楚明了，以下根据附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。
[0029]请参考参阅1，一种人机语音交互方法，包括以下步骤:
[0030]SlOO:采集用户的语音信息。
[0031]只有通过采集到用户的语音信息，才能根据用户的语音信息进行后续相应的处理，整个系统是以用户的语音信息为依据，为用户提供相应的回应，实现人机语音交互。
[0032]S200:对语音信息进行分析，得出语音信息所对应的语言类型。
[0033]不同的用户可能采用不同的语言方式进行交互，即采用不同的语种进行交互，例如，采用中文、英文或其他语种，则采集的用户语音信息包括多种语言的语音信息，若对不同语言类型的语音信息均采用同样的识别模式进行识别，则识别错误率会较高，所以首先需要分析采集的用户语音信息的语言类型。
[0034]S300:对语音信息采用与语言类型对应的识别模式进行识别。
[0035]分析得出用户的语音信息的语言类型后，需要选择与语言类型对应的识别模式对语音信息进行识别，多种识别模式预先设置的。例如，分析得到用户的语音信息的语音类型为中文，则采用对应的中文识别模式对语音信息进行识别；分析得到用户的语音信息的语音类型为英文，则采用对应的英文识别模式对语音信息进行识别。这样采用对应的识别模式对不同语言类型的语音信息进行识别，可提高识别准确性。
[0036]S400:将识别的语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的反馈语音信息。
[0037]在数据库中预先存储了反馈语音信息，当语音信息经过识别后，将其与预先存储的反馈语音信息进行检索匹配，得到与用户的语音信息相对应的反馈语音信息。例如，数据库中预先存储了数字文化馆内肉眼3D电视机的功能介绍语音信息，用户询问的语音信息是需要知道肉眼3D电视机的相关信息，通过检索匹配，可以得到与用户的语音信息相对应的反馈语音信息，即肉眼3D电视机的功能介绍语音信息。
[0038]S500:将识别的语音信息与预先存储的反馈视频信息进行检索匹配，得到匹配的反馈视频信息。
[0039]同样的，在数据库中预先存储了反馈视频信息，当语音信息经过识别后，将其与预先存储的反馈视频信息进行检索匹配，得到与用户的语音信息相对应的反馈视频信息。例如，数据库中预先存储了数字文化馆内关于肉眼3D电视机的视频信息，用户询问的语音信息是需要知道肉眼3D电视机的相关信息，通过检索匹配，可以得到与用户的语音信息相对应的反馈视频信息，即肉眼3D电视机的视频信息。
[0040]S600:判断匹配的反馈语音信息与匹配的反馈视频信息是否存在关联。
[0041]在数据库中预先存储了反馈语音信息与反馈视频信息的关联关系，例如，预先存储了 3D电视机功能介绍语音信息和关于3D电视机的视频信息的关联，这种关联关系可以是多对多的，即多个语音信息可关联到多个视频信息，一个语音信息可关联多个视频信息，一个视频信息可关联到多个语音信息。
[0042]若匹配的反馈语音信息与匹配的反馈视频信息存在关联，则执行以下步骤:
[0043]S700:将匹配的反馈语音信息与匹配的反馈视频信息同步输出。
[0044]S800:显示反馈视频信息。
[0045]通过识别的语音信息匹配出的反馈语音信息和反馈视频信息存在关联，则将匹配的反馈语音信息与匹配的反馈视频信息同步输出，并显示反馈视频信息，使声音和画面更为协调，且使得用户不但能听到回应的信息，而且能观看视频。
[0046]在其中一个实施例中，若匹配的反馈语音信息与匹配的反馈视频信息不存在关联，则执行以下步骤:
[0047]S610:统计关联失败的次数。
[0048]S620:判断关联失败的次数是否小于等于预设值。
[0049]若关联失败的次数小于等于预设值；则执行以下步骤:
[0050]返回并继续执行将识别的语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的反馈语音信息的步骤S400 ;直到匹配的反馈语音信息与匹配的反馈视频信息存在关联或者关联失败的次数大于预设值。
[0051]若匹配出的反馈语音信息与反馈视频信息不存在关联，则统计关联失败的次数，当关联失败的次数小于等于一个预设值时，再返回重新进行检索匹配，直到关联成功，再将此时匹配的反馈语音信息与反馈视频信息同步输出。
[0052]上述人机语音交互方法，通过采集用户的语音信息，对语音信息进行分析后得出语音的语言类型，对语音信息采用与语言类型对应的识别模式进行识别，将识别的语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的反馈语音信息，再将识别的语音信息与预先存储的反馈视频信息进行检索匹配，得到匹配的反馈视频信息；当得到的反馈语音信息与反馈视频信息存在关联时，则将这种信息同步输出。通过上述人机语音交互方法，可识别多种语言的语音，实现多种语言的交互，且同时实现视频与语音的同步回应，使客户体验感更强，且通过判断反馈语音信息与反馈视频信息的关联性，实现反馈语音信息与反馈视频信息的一致性，提高交互准确率，且声音和画面更加的协调与同步。
[0053]在其中一个实施例中，若关联失败的次数大于预设值，则执行以下步骤:
[0054]将匹配的反馈语音信息与匹配的反馈视频信息同步输出的步骤S700。
[0055]当关联失败的次数大于预设值，不再进行重新检索匹配，直接将此时匹配的反馈语音信息与反馈视频信息同步输出。
[0056]在每次进行采集用户的语音信息前，先将关联失败的次数清零。确保原先的关联失败次数对本次的识别过程产生影响。在其中一个实施例中，采集用户的语音信息的步骤SlOO之前还包括以下步骤:
[0057]判断当前的交互模式；
[0058]若当前的交互模式为人机语音交互模式，再执行采集用户的语音信息的步骤SlOOo
[0059]若当前的交互模式为普通播放模式，则执行以下步骤:
[0060]获取用户的切换指令；
[0061]根据切换指令，切换至人机语音交互模式。
[0062]当前的交互模式时普通播放模式时，是播放预先存储的视频语音信息，例如，数字文化馆的宣传片等视频。当用户需要进行交互时，需要切换到人机语音交互模式，才能对用户的语音信息进行采集。通过用户输入的切换指令，切换到人机语音交互模式。
[0063]在其中一个实施例中，反馈视频信息播放完毕后，自动切换至普通播放模式；或
[0064]获取用户的终止指令；
[0065]根据该终止指令，切换人机语音交互模式至普通播放模式。
[0066]根据用户的语音信息进行回应输出的反馈视频信息播放完毕后，会自动回复到普通播放模式；或者用户已经了解了相关内容，不需要再进行观看，用户可输入终止指令，切换人机语音交互模式至普通播放模式，或者另一个用户需要进行语音交互时，但当前还在播放上一个用户的反馈视频信息，也可输入终止指令，切换人机语音交互模式至普通播放模式。再通过输入切换指令切换至语音交互模式，进行下一次的语音信息采集。
[0067]在其中一个实施例中，将识别的语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的反馈语音信息的步骤S400之前包括以下步骤:
[0068]对识别的语音信息进行关键语音段提取。
[0069]对关键语音段进行整合，得到整合后的语音信息。
[0070]用户输入的语音信息中可能包含许多非必要的信息，需要对整个语音信息进行关键信息提取，再将关键信息进行整合后得到精简的语音信息，为后续的匹配提高效率。
[0071]在其中一个实施例中，将识别的语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的反馈语音信息的步骤S400具体为:
[0072]将整合后的语音信息与预先存储的反馈语音信息进行检索匹配。
[0073]将识别的语音信息与预先存储的反馈视频信息进行检索匹配，得到匹配的反馈视频信息的步骤S500具体为:
[0074]将整合后的语音信息与预先存储的反馈视频信息进行检索匹配。
[0075]经过整合后，且是对关键信息的提取，不但不会丢失用户想要表达的信息，也使语音信息更加精简，很大程度上减少了检索匹配时间，提高匹配效率。
[0076]请参阅图2，本发明还公开了一种人机语音交互系统，包括:
[0077]采集模块100，用于采集用户的语音信息。
[0078]语音分析模块200，用于对语音信息进行分析，得出语音信息所对应的语言类型。
[0079]语音识别模块300，用于对语音信息采用与语言类型对应的识别模式进行识别。
[0080]第一匹配模块400，用于将识别的语音信息与预先存储的反馈语音信息进行检索匹配。
[0081]第二匹配模块500，用于将识别的语音信息与预先存储的反馈视频信息进行检索匹配。
[0082]关联判断模块600，用于判断匹配的反馈语音信息与匹配的反馈视频信息是否存在关联。
[0083]输出模块700，用于当关联判断模块判断匹配的反馈语音信息与匹配的反馈视频信息存在关联时，将匹配的反馈语音信息与匹配的反馈视频信息同步输出。
[0084]显示模块800，用于显示反馈视频信息。
[0085]上述人机语音交互系统，通过采集模块100采集用户的语音信息，语音分析模块200对语音信息进行分析后得到语音的语言类型，语音识别模块300采用与语言类型对应的识别模式进行识别，通过第一匹配模块400将识别的语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的反馈语音信息，再通过第二匹配模块500将识别的语音信息与预先存储的反馈视频信息进行检索匹配，得到匹配的反馈视频信息；当得到的上述两种信息存在关联时，则将两种信息同步输出。通过上述人机语音交互方法，可识别多种语言的语音，实现多种语言的交互，且同时实现视频与语音的同步回应，使客户体验感更强，且通过判断反馈语音信息与反馈视频信息的关联性，实现反馈语音信息与反馈视频信息的一致性，提高交互准确率，且声音和画面更加的协调与同步。
[0086]在其中一个实施例中，请参阅图3，上述人机语音交互系统还包括:
[0087]统计模块610，用于当关联判断模块判断匹配的反馈语音信息与匹配的反馈视频信息不存在关联时，统计关联失败的次数。
[0088]第一判断模块620，用于判断关联失败的次数是否小于等于预设值。
[0089]在其中一个实施例中，上述人机语音交互系统还包括:
[0090]第二判断模块，用于判断当前的交互模式是否为人机语音交互模式。
[0091]获取模块，用于获取用户的切换指令。
[0092]切换模块，用于根据切换指令，切换至人机语音交互模式。
[0093]若判断当前的交互模式为普通播放模式时，获取用户的切换指令，根据切换指令，切换至人机语音交互模式，再通过采集模块100进行语音采集。若判断当前的交互模式为人机语音交互模式时，则可通过采集模块100采集用户的语音信息。
[0094]在其中一个实施例中，获取模块，还用于获取用户的终止指令。
[0095]切换模块，还用于当反馈视频信息播放完毕后，自动切换至普通播放模式，且用于根据终止指令切换人机语音交互模式至普通播放模式。
[0096]在其中一个实施例中，上述人机语音交互系统还包括:
[0097]关键语音段提取模块，用于对识别的语音信息进行关键语音段提取。
[0098]整合模块，用于对关键语音段进行整合，得到整合后的语音信息。
[0099]第一匹配模块400，还用于将整合后的语音信息与预先存储的反馈语音信息进行检索匹配。
[0100]第二匹配模块500，还用于将整合后的语音信息与预先存储的反馈视频信息进行检索匹配。
[0101]以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。
【权利要求】
1.一种人机语音交互方法，其特征在于，包括以下步骤: 采集用户的语音信息；对所述语音信息进行分析，得出所述语音信息所对应的语言类型；对所述语音信息采用与所述语言类型对应的识别模式进行识别；将识别的所述语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的所述反馈语音信息；将识别的所述语音信息与预先存储的反馈视频信息进行检索匹配，得到匹配的所述反馈视频?目息；判断匹配的所述反馈语音信息与匹配的所述反馈视频信息是否存在关联；若匹配的所述反馈语音信息与匹配的所述反馈视频信息存在关联；则将匹配的所述反馈语音信息与匹配的所述反馈视频信息同步输出；显示所述反馈视频信息。
2.根据权利要求1所述的人机语音交互方法，其特征在于，若匹配的所述反馈语音信息与匹配的所述反馈视频信息不存在关联；统计关联失败的次数；若所述关联失败的次数小于等于预设值；则返回并继续执行所述将识别的所述语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的所述反馈语音信息的步骤；直到匹配的所述反馈语音信息与匹配的所述反馈视频信息存在关联或者所述关联失败的次数大于所述预设值。
3.根据权利要求2所述的人机语音交互方法，其特征在于，若所述关联失败的次数大于预设值；则执行所述则将匹配的所述反馈语音信息与匹配的所述反馈视频信息同步输出的步骤。
4.根据权利要求1所述的人机语音交互方法，其特征在于，所述采集用户的语音信息的步骤之前还包括以下步骤: 判断当前的交互模式是否为人机语音交互模式；若当前的交互模式为人机语音交互模式，则执行所述采集用户的语音信息的步骤；若判断当前的交互模式为普通播放模式，则执行以下步骤: 获取用户的切换指令；根据所述切换指令，切换至人机语音交互模式。
5.根据权利要求1所述的人机语音交互方法，其特征在于，所述将识别的所述语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的所述反馈语音信息的步骤之前包括以下步骤: 对识别的所述语音信息进行关键语音段提取；对所述关键语音段进行整合，得到整合后的语音信息。
6.根据权利要求5所述的人机语音交互方法，其特征在于，所述将识别的所述语音信息与预先存储的反馈语音信息进行检索匹配，得到匹配的反馈语音信息的步骤具体为: 将所述整合后的语音信息与预先存储的反馈语音信息进行检索匹配；所述将识别的所述语音信息与预先存储的反馈视频信息进行检索匹配，得到匹配的反馈视频信息的步骤具体为: 将所述整合后的语音信息与预先存储的反馈视频信息进行检索匹配。
7.—种人机语音交互系统，其特征在于，包括: 采集模块，用于采集用户的语音信息；语音分析模块，用于对所述语音信息进行分析，得出所述语音信息所对应的语言类型；语音识别模块，用于对所述语音信息采用与所述语言类型对应的识别模式进行识别；第一匹配模块，用于将识别的所述语音信息与预先存储的反馈语音信息进行检索匹配；第二匹配模块，用于将识别的所述语音信息与预先存储的反馈视频信息进行检索匹配；关联判断模块，用于判断匹配的所述反馈语音信息与匹配的所述反馈视频信息是否存在关联; 输出模块，用于将匹配的所述反馈语音信息与匹配的所述反馈视频信息同步输出；显示模块，用于显示所述反馈视频信息。
8.根据权利要求7所述的人机语音交互系统，其特征在于，还包括: 统计模块，用于当所述关联判断模块判断匹配的所述反馈语音信息与匹配的所述反馈视频信息不存在关联时，统计关联失败的次数；第一判断模块，用于判断所述关联失败的次数是否小于等于预设值。
9.根据权利要求7所述的人机语音交互系统，其特征在于，还包括: 第二判断模块，用于判断当前的交互模式是否为人机语音交互模式；获取模块，用于获取用户的切换指令；切换模块，用于根据所述切换指令，切换至人机语音交互模式。
10.根据权利要求7所述的人机语音交互系统，其特征在于，还包括: 关键语音段提取模块，用于对识别的所述语音信息进行关键语音段提取；整合模块，用于对所述关键语音段进行整合，得到整合后的语音信息；第一匹配模块，还用于将所述整合后的语音信息与预先存储的反馈语音信息进行检索匹配；第二匹配模块，还用于将所述整合后的语音信息与预先存储的反馈视频信息进行检索匹配。
【文档编号】G10L15/22GK104505091SQ201410830417
【公开日】2015年4月8日申请日期:2014年12月26日优先权日:2014年12月26日
【发明者】周新华, 王小兰申请人:湖南华凯文化创意股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周新华;王小兰;
技术所有人：湖南华凯文化创意股份有限公司;
我是此专利的发明人

上一篇：一种评估lte通信系统语音质量的方法
上一篇：一种合成语音自然度的提升方法