语音对话系统中的匹配方法以及匹配系统与流程

文档序号：20187338发布日期：2020-03-27 19:16阅读：683来源：国知局

本发明涉及人机交互技术，特别涉及语音对话系统中的匹配方法以及匹配系统。

背景技术：

语音对话系统的核心是理解用户意图，执行相关操作并生成恰当的语音反馈。由于一个拥有强大理解和处理能力的对话系统不是一蹴而就的，需要在包括自然语言处理、模型算法、系统实现等各方面进行长期的大量迭代，因此为了保证对话系统交互的用户友好性，需要设计一套完备且兼具多样化等特性的兜底话术策略，当现有的系统能力无法完全理解或执行用户的意图时，用该兜底策略进行应对，保证交互体验友好。

技术实现要素：

鉴于所述问题，本发明旨在提出一种兼备多样化等特性的兜底话术策略的语音对话系统中的匹配方法以及语音对话系统中的匹配系统。

本发明的语音对话系统中的匹配方法，其特征在于，包括下述步骤：

转换映射步骤，判断语音对话的nlu输出结果能否进行转换映射，若判断为是，则将nlu输出结果进行转换映射；

行为执行条件判断步骤，判断当前的nlu结果是否能够满足行为执行条件，若判断结果为是，则继续下述的执行步骤；以及

执行步骤，执行对应的行为并结束流程；

可选地，进一步包括下述步骤：

动态询问步骤，若在所述行为执行条件判断步骤中判断结果为否的情况下，判断是否进行动态询问，若判断结果为是，则对于所述nlu输出结果计算执行行为所缺少的元素并通过向用户进行的询问补充元素并结束流程。

可选地，进一步包括下述步骤：

功能手册回复步骤，在所述动态询问步骤中判断为否的情况下，判断是否能够利用预先定义的功能手册回复用户，若判断为是则利用预先定义的功能手册回复用户并结束流程。

可选地，进一步包括下述步骤：

专用兜底话术步骤，在所述功能手册回复步骤中判断为否的情况下，判断是否配置了专用兜底话术模型，若判断为是，则对于所述nlu输出结果匹配专用兜底话术模型并结束流程。

可选地，进一步包括下述步骤：

通用兜底话术步骤，在所述专用兜底话术步骤中判断为否的情况下，判断是否配置通用兜底话术模型，若判断为是，则对于所述nlu输出结果执行通用兜底话术模型并结束流程。

可选地，所述转换映射步骤包括：

领域判断子步骤，对于所述nlu输出结果中的用户的疑问进行领域判断；

意图判断子步骤，对于在该领域下的所述用户的疑问进行意图判断；

转换映射子步骤，判断所述nlu输出结果的用户意图是否能够转换成另一种预先设定的意图。

可选地，在所述转换映射子步骤中，按照领域、意图、槽以及槽属性将用户意图转换成另一种预先设定的意图。

可选地，在所述功能手册回复步骤中，作为预先定义的功能手册，以独立的模型标出用户疑问中所有和功能手册对应的意图，在模型标出的意图的范围内，用疑问去搜索，判断是否命中某个功能点，若命中则，则利用预先定义的功能手册回复用户并结束流程。

可选地，在通用兜底话术步骤中，按照领域、意图和槽执行通用兜底话术模型。

可选地，在通用兜底话术步骤中，匹配时采用最长匹配原则，具体顺序为：

领域、意图以及槽；

领域和意图；

领域。

本发明的语音对话系统中的匹配系统，其特征在于，包括：

转换映射模块，用于语音对话的nlu输出结果能否进行转换映射，并且在判断能够进行转换映射的情况下将nlu输出结果进行转换映射；

行为执行条件判断模块，判断当前的nlu结果是否能够满足行为执行条件；以及

执行模块，在所述行为执行条件判断模块判断为满足行为执行条件的情况下执行对应的行为。

可选地，进一步包括：

动态询问模块，用于判断是否进行动态询问，并且在判断结果为是的情况下对于所述nlu输出结果计算执行行为所缺少的元素并通过向用户进行的询问补充元素。

可选地，进一步包括：

功能手册回复模块，用于判断是否能够利用预先定义的功能手册回复用户，并且若判断为是的情况下利用预先定义的功能手册回复用户。

可选地，进一步包括：

专用兜底话术模块，用于判断是否配置了专用兜底话术模型，并且在判断为是的情况下对于所述nlu输出结果匹配专用兜底话术模型。

可选地，进一步包括：

通用兜底话术模块，用于判断是否配置通用兜底话术模型，并且在判断为是的情况下对于所述nlu输出结果执行通用兜底话术模型。

可选地，所述转换映射模块包括：

领域判断子模块，对于所述nlu输出结果中的用户的疑问进行领域判断；

意图判断子模块，对于在该领域下的所述用户的疑问进行意图判断；

转换映射子模块，判断所述nlu输出结果的用户意图是否能够转换成另一种预先设定的意图。

可选地，在所述转换映射子模块中，按照领域、意图、槽以及槽属性将用户意图转换成另一种预先设定的意图。

可选地，在所述功能手册回复模块中，作为预先定义的功能手册，以独立的模型标出用户疑问中所有和功能手册对应的意图，在模型标出的意图的范围内，用疑问去搜索，判断是否命中某个功能点，若命中则，则利用预先定义的功能手册回复用户。

可选地，在所述通用兜底话术模块中，按照领域、意图和槽执行通用兜底话术模型。

可选地，在所述通用兜底话术模块中，匹配时采用最长匹配原则，具体顺序为：

领域、意图以及槽；

领域和意图；

领域。

本发明的语音对话系统，其执行上述的语音对话系统中的匹配方法和/或包括上述的语音对话系统中的匹配定义系统。

本发明的计算机可读存储介质，其上存储程序，其特征在于，该程序被处理器执行时实现上述的语音对话系统中的匹配方法。

本发明的数据处理设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现上述的语音对话系统中的匹配方法。

根据本发明的语音对话系统中的匹配方法以及语音对话系统中的匹配系统，能够将用户一种意图转换成预先设定的另一种意图，例如另一中相近的意图，由此能够灵活地执行用户的意图。进一步，利用本发明，还能够通过设置兜底话术策略，当现有的系统能力无法完全理解或执行用户的意图时，用该兜底策略进行应对，能够保证良好的用户体检和提高人机交互的智能性。而且，通过设置多级兜底话术策略，当系统无法处理用户意图时，根据对话包含的信息，经过多层由具体到宽泛的匹配策略，生成合适的兜底话术，完成对话，进一步能够提高用户体验感。

附图说明

图1是表示本发明的语音对话系统中一实施方式的匹配方法的流程示意图。

图2是表示本发明一实施方式的语音对话系统中的匹配系统的构造框图。

图3是表示本发明的转换映射模块的构造框图。

具体实施方式

下面介绍的是本发明的多个实施例中的一些，旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。

本发明的语音对话系统中的意图行为关系的定义方法以及语音对话系统中的意图转换为行为的执行方法及其实现这些方法的系统能够适用于各种人机交互的语音系统。以下，以车载语音系统为例进行具体说明，但是这仅仅是一种实施方式，本发明还可以使用于例如智能家居系统中的语音对话系统等等。

首先，对于本发明的语音对话系统中的意图行为关系的定义方法应用于车载语音系统的一个实施方式进行说明。

这里先对于以下描述中出现的一些用语进行说明。

(1)领域(domain)：是指用户对话所属的场景领域，车载场景主要包括导航、电话、媒体、车控、闲聊等。

(2)意图或也称类别(intent)：是指用户对话的具体意图，即用户想要执行的一系列操作的具体场景类别，如导航领域下的查找poi场景，电话领域下的查找联系人场景，媒体领域下的搜索歌手的歌曲等。

(3)槽(slot)：用户对话中包含的具体可使用自然语言理解信息的最小单位。如我要听周杰伦的晴天，周杰伦<music_artist>，晴天<music_name>等。

(4)行为(action)：在车载语音系统的情况下是指车机行为，即车机对于用户对话的结果层面的反应。在本发明中行为的划分是以互相独立的能表示一类相似的行为为标准的。如appopen，表示打开车载蓝牙、行车记录仪、热点、wifi等，airconditionerwinddirectionmode，表示空调风向的除霜、吹前挡、吹脚等模式。行为的划分粒度可以根据业务需要自行调整。

(5)操作(operation)：在车载语音系统的情况是指车机产生的具体操作，可以根据不同车型支持的功能单独设计，但其制定标准都应该包含类型(type)和参数(params)，前者表示操作的类型，后者是具体操作的参数。

(6)元素(element)：对话系统用于处理槽(slot)而定义的表示不同状态下的槽的数据结构。

(7)路径(path)：是指满足一个行动执行条件的元素的最小集合，一个行动可以包含多条路径，若一个行动的定义的路径中，有一条被满足，则行动可执行。

接着，对于行动、路径以及元素它们之间的关系进行详细说明。

元素(element)和路径(path)都属于行动(action)的元数据(metadata)的范畴，用来定义完成行动的必要条件。

元素(element)有以下形态：

形态1：只关心其槽类型(slottype)，认为只要出现这种类型的槽，那么就满足条件。如：调节温度，“温度”属于只需要知道其类型即可。

形态2：除了类型(type)要满足规定以外，属性(property)还要符合某些范围才算满足。如：当意图为打开应用(app_open)时，我们知道用户的意图是打开某个应用，这时候我们还需要知道用户具体要打开的是什么应用，才可以执行这个行动，所以我们需要一个type＝＝2，槽类型(slottype)为control_target_app，且槽属性(slotproperty)在一定范围内的元素(element)。例如打开微信，“微信”就是一个槽属性(slotproperty)为微信(wechat)的上述元素(element)。

路径(path)是由n个元素(element)构成的，当n取值不同时，含义如下：

n＝0，表示当前路径(path)不需要任何多余的信息即可执行，通常此类意图(intent)目标明确，执行任务单一，粒度较小；

n＝1，表示当前意图(intent)需要一个特定的元素(element)才能执行，通常此类意图(intent)包含几个区别较为清晰的目标；

n>1，表示当前意图(intent)需要多余一个的元素(element)才能执行，通常此类意图(intent)覆盖面广，支持的说法较多，且能产生的操作较多，需要更为精确的信息才能被正确的执行。

接着，对于本发明一实施方式的语音对话系统中的匹配方法进行说明。

图1是表示本发明的语音对话系统中一实施方式的匹配方法的流程示意图。

如图1所示，本发明一实施方式的语音对话系统中的匹配方法，其特征在于，包括下述步骤：

步骤s10：判断语音对话的nlu(naturallanguageunderstand，自然语言理解)输出结果能否进行转换映射，若判断为是，则将nlu输出结果进行转换映射；

步骤s11，判断当前的nlu结果是否能够正确执行行为即判断当前的nlu结果是否满足行为(action)执行的条件，若判断结果为是，则继续下述的步骤s12，若判断结果为否，则继续下述的步骤s13，其中，满足行为的执行条件是指：该行为中定义的任何一条路径(path)被满足，其中，路径由元素(element)组成，而对话中是否含有必要的元素(element)则可以由nlu结果直接判断；

步骤s12：执行对应的行为并结束流程；

步骤s13：判断是否配置了动态询问场景，若判断结果为是，则继续步骤s14，若判断结果为否，则继续步骤s15；

步骤s14：进行动态询问，即对于所述nlu输出结果计算执行行为所缺少的元素并通过向用户进行的询问补充元素并结束流程；

步骤s15：判断是否能够利用预先定义的功能手册回复用户，若判断为是，则进入步骤s16，否则进入步骤s17；

步骤s16：利用预先定义的功能手册回复用户并结束流程,具体地作为预先定义的功能手册，以独立的模型标出用户疑问中所有和功能手册对应的意图，在模型标出的意图的范围内，用疑问去搜索，判断是否命中某个功能点，若命中则，则利用预先定义的功能手册回复用户并结束流程；

步骤s17：判断是否配置了专用兜底话术模型，若判断为是，则执行步骤s18，若判断为否则执行步骤s19；

步骤s18：对于所述nlu输出结果匹配专用兜底话术模型并结束流程；

步骤s19：判断是否配置通用兜底话术模型(按照领域、意图和槽执行通用兜底话术模型)，若判断为是，则执行步骤s20，若判断为否，则执行步骤s21；

步骤s20：对于所述nlu输出结果执行通用兜底话术模型并结束流程；

步骤s21：进入闲聊模式，当然闲聊模式是一个示例，也可以进入其他预先设定的模式。

其中，在步骤10中进行的转换映射的目的在于，虽然系统可以理解用户对话，但限于各种原因(例如车不支持，环境不支持，不合常理等)无法执行的用户意图，则转换为相近的另一种意图，从而部分地满足用户的需求或为用户提供一些信息。

关于转换映射，依据事先配置定义好的规则，将特定的nlu结果即“领域+意图+槽+槽属性”(“domain+intent+slot+slotproperty”)，映射为另一种预先设定的nlu结果，并依据后者进行后续处理。例如：将“打开制冷模式”转换映射为“空调最大制冷”；将“打开吹脸除霜模式”转换映射为“打开除霜吹脸吹脚模式”。

接着，对于步骤s10进行的转换映射判断的具体过程进行说明。这里，转换映射的具体过程包括下述子步骤：

领域判断子步骤：对于所述nlu输出结果中的用户的疑问进行领域判断，即判断用户的疑问是否属于某个领域(domain)，若判断结果为是的话，继续下述子步骤，若判断结果为否的话，则跳至上述的步骤s15；

意图判断子步骤：对于在该领域下的所述用户的疑问进行意图判断，即判断在该领域下的用户的疑问是否具有明确的意图(intent)，若判断结果为是则继续下述的子步骤，若判断结果为否，则跳至上述的步骤s15；

转换映射子步骤，判断所述nlu输出结果的用户意图是否能够转换成另一种预先设定的意图，即判断当前的nlu结果中的领域+意图+槽+槽属性(domain+intent+slot+slotproperty)是否能够进行转换映射，若判断结果为是，则对nlu结果进行转换映射，若判断结果为否，则跳至上述的步骤s11。

在步骤s14中进行动态询问，具体地，当可以理解用户的疑问的意图，但疑问中缺失了执行后续行为所必须的某些信息时，向用户询问缺失的信息，其中根据预定义的场景，计算出完成场景行为需要补充的元素，并依据其向用户询问。例如，用户说：调一下空调温度，则系统会询问：要调到多少度？由此，补充完成场景行为需要的元素。

在步骤s16中利用预先定义的功能手册回复用户。这里所谓的功能手册是指，车内所有功能点的集合，当用户询问的功能无法用语音功能处理，但又确实在车的功能范围内时，利用功能手册进行兜底。具体地的，将功能手册数据放入es建立索引。该索引需要体现功能手册里的级别层次，即功能分类--功能---详细功能。其中，一个独立的模型标注出用户疑问(query)中所有和手册功能对应的意图(intent)，在模型标出的意图(intent)的范围内，用疑问(query)去es里进行搜索，如果命中了某个功能点，则调用前端的功能手册，为用户展示手册里的内容。例如，用户问“无钥匙解锁怎么用？”，则为用户展示功能手册《无钥匙解锁》相关章节的内容。

以上对于本发明的语音对话系统中的匹配方法进行了说明。接着，对于本发明的语音对话系统中的匹配系统进行说明。

图2是表示本发明一实施方式的语音对话系统中的匹配系统的构造框图。

如图2所示，本发明一实施方式的语音对话系统中的匹配系统，其特征在于，包括：

转换映射模块100，用于语音对话的nlu输出结果能否进行转换映射，并且在判断能够进行转换映射的情况下将nlu输出结果进行转换映射；

行为执行条件判断模块200，判断当前的nlu结果是否能够满足行为执行条件；

执行模块300，在所述行为执行条件判断模块判断为满足行为执行条件的情况下执行对应的行为；

动态询问模块400，用于判断是否进行动态询问，并且在判断结果为是的情况下对于所述nlu输出结果计算执行行为所缺少的元素并通过向用户进行的询问补充元素；

功能手册回复模块500，用于判断是否能够利用预先定义的功能手册回复用户，并且若判断为是的情况下利用预先定义的功能手册回复用户；

专用兜底话术模块600，用于判断是否配置了专用兜底话术模型，并且在判断为是的情况下对于所述nlu输出结果匹配专用兜底话术模型；以及

通用兜底话术模块700，用于判断是否配置通用兜底话术模型，并且在判断为是的情况下对于所述nlu输出结果执行通用兜底话术模型。

其中，在所述功能手册回复模块500中，作为预先定义的功能手册，以独立的模型标出用户疑问中所有和功能手册对应的意图，在模型标出的意图的范围内，用疑问去搜索，判断是否命中某个功能点，若命中则，则利用预先定义的功能手册回复用户。

在所述通用兜底话术模块700中，按照领域、意图和槽执行通用兜底话术模型。在所述通用兜底话术模块700中，匹配时采用最长匹配原则，具体顺序为：

领域、意图以及槽；

领域和意图；

领域。

接着，对于转换映射模块100进行具体说明。

图3是表示本发明的转换映射模块100的构造框图。

如图3所示，转换映射模块100包括：

领域判断子模块110，对于所述nlu输出结果中的用户的疑问进行领域判断；

意图判断子模块120，对于在该领域下的所述用户的疑问进行意图判断；以及

转换映射子模块130，判断所述nlu输出结果的用户意图是否能够转换成另一种预先设定的意图，其中，在转换映射子模块130中，按照领域、意图、槽以及槽属性将用户意图转换成另一种预先设定的意图。

本发明还提供一种语音对话系统，其执行上述的语音对话系统中的匹配方法和/或包括上述的语音对话系统中的匹配定义系统。

本发明还提供一种计算机可读存储介质，其上存储程序，其特征在于，该程序被处理器执行时实现上述的语音对话系统中的匹配方法。

本发明还提供一种数据处理设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现上述的语音对话系统中的匹配方法。

以上例子主要说明了本发明的语音对话系统中的匹配方法以及语音对话系统中的匹配系统。尽管只对其中一些本发明的具体实施方式进行了描述，但是本领域普通技术人员应当了解，本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此，所展示的例子与实施方式被视为示意性的而非限制性的，在不脱离如所附各权利要求所定义的本发明精神及范围的情况下，本发明可能涵盖各种的修改与替换。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐龙生;马天泽;葛斯函;林锋
技术所有人：蔚来汽车有限公司
我是此专利的发明人

上一篇：一种功能性育苗基质的制作方法
上一篇：具有自旋行星式几何结构的自旋泵的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。