用户被动式语音交互方法、装置、终端、服务器和介质与流程

文档序号：26840213发布日期：2021-10-08 22:07阅读：106来源：国知局

1.本技术实施例涉及计算机技术，尤其涉及语音识别技术领域。

背景技术：

2.现有的终端一般开发有语音交互功能，通过与用户对话提供音乐、新闻、导航等服务。
3.现有的终端的语音交互过程为：用户发出语音，如“我要听音乐”、“我要导航回家”；终端将语音识别为文本后，分析用户的意图，以匹配合适的推荐内容并播放出来。
4.如上所述，现有的语音交互模式需要用户主动发出询问语音，终端才会针对询问语音进行响应。可见，现有的语音交互需要由用户主动发起，可称为用户主动式语音交互或终端被动式语音交互。显然，这种语音交互模式比较死板，用户体验尚有上升空间。

技术实现要素：

5.本技术实施例提供一种用户被动式语音交互方法、装置、终端、服务器和介质，以提供一种用户被动式语音交互模式，提高了语音交互模式的灵活性和智能性，并提高了用户体验。
6.第一方面，本技术实施例公开了一种用户被动式语音交互方法，适用于终端，包括：
7.获取终端的状态信息，所述状态信息包括服务提供状态信息和/或页面显示状态信息；
8.若所述终端的状态信息满足设定触发条件，确定与所述终端的状态信息相匹配的目标引导内容；
9.主动播放所述目标引导内容的语音信息。
10.本技术实施例中，终端的状态信息包括服务提供状态信息和/或页面显示状态信息，这两种信息能从侧面体现用户对服务的消费情况和所青睐的终端页面，反映了用户的需求和兴趣点；进而通过状态信息满足设定触发条件时，确定与状态信息相匹配的目标引导内容，从而准确确定用户感兴趣的目标引导内容，而且通过设定触发条件能够灵活控制目标引导内容的确定时机；在确定目标引导内容后主动将目标引导内容的语音信息播放给用户，即终端主动发起语音交互，而非用户主动发起，提高了语音交互模式的灵活性和智能性，并提高了用户体验。
11.可选的，所述若所述终端的状态信息满足设定触发条件，确定与所述终端的状态信息相匹配的目标引导内容，包括：
12.若所述服务提供状态信息包括提供中的设定服务内容，确定与提供中的设定服务内容相匹配的目标引导内容；和/或，
13.若所述页面显示状态信息包括当前显示的设定页面内容，确定与所述当前显示的设定页面内容相匹配的目标引导内容。
14.上述申请中的一个实施例具有如下优点或有益效果：由于正在提供的服务内容也就是用户正在消费的服务内容，反映了用户的当前需求，因此实现目标引导内容与终端当前正在提供的服务内容相匹配，按需定位引导内容，可以提高用户对目标引导内容的接受度和满意度。同理，当前显示的页面内容也是用户正在观看的页面，也反映了用户的当前需求，因此实现目标引导内容与页面内容相匹配，同样可以实现提高用户对目标引导内容的接受度和满意度。
15.可选的，所述若所述终端的状态信息满足设定触发条件，确定与所述终端的状态信息相匹配的目标引导内容，包括：
16.若所述终端的状态信息满足设定触发条件，确定所述设定触发条件所属的服务；
17.从所述设定触发条件所属的服务，获取与所述终端的状态信息相匹配的目标引导内容。
18.上述申请中的一个实施例具有如下优点或有益效果：本实施例以服务为单位来组织引导内容，可见，本实施例可以向用户提供多种服务的引导内容，提高了引导内容的多样性；不同的服务设置有对应的触发条件，若状态信息满足设定触发条件，需要首先确定设定触发条件所属的服务，进而从该服务获取目标引导内容，提高状态信息与目标引导内容的匹配程度，进而提高用户对目标引导内容的接受度和满意度。
19.可选的，所述从所述设定触发条件所属的服务获取与所述终端的状态信息相匹配的目标引导内容，包括：
20.如果所述设定触发条件所属的服务数量为至少两个，根据至少两个所述服务的优先级，确定目标服务；
21.从所述目标服务获取与所述终端的状态信息相匹配的目标引导内容。
22.上述申请中的一个实施例具有如下优点或有益效果：通过对服务设置优先级，并根据服务的优先级确定目标服务和目标引导内容，从而通过优先级实现服务维度下的引导内容的筛选；不同服务的引导内容的类型不同，则通过服务维度下的引导内容筛选，筛选出某一类型的引导内容进行优先播放。
23.可选的，所述主动播放所述目标引导内容的语音信息，包括：
24.获取当前语音交互信息，并根据所述当前语音交互信息判断当前语音交互类型，其中，所述当前语音交互信息包括当前引导内容；
25.若当前语音交互类型为用户被动式语音交互，获取当前引导内容的来源服务；
26.如果所述当前引导内容的来源服务的优先级低于所述目标引导内容的来源服务的优先级，停止当前语音交互操作，并主动播放所述目标引导内容的语音信息。
27.上述申请中的一个实施例具有如下优点或有益效果：在判断当前语音交互类型为用户被动式语音交互时，通过对目标引导内容和当前引导内容的来源服务的优先级判断，提高了主动播放的语音的实时性；同时，通过对来源服务设置优先级，能够根据用户的需求智能化调整来源于不同服务的引导内容，提高用户的服务使用体验感。
28.可选的，在所述根据所述当前语音交互信息判断当前语音交互类型之后，所述方法还包括：
29.若当前语音交互类型为用户主动式语音交互，继续执行当前语音交互操作。
30.上述申请中的一个实施例具有如下优点或有益效果：在当前语音交互类型为用户
主动式语音交互时，对用户当前主动式语音交互操作进行保护，采取继续执行不打断的操作，提高了终端对向用户主动播放引导语音的智能化，避免主动播放语音会造成对用户正常语音交互的干扰。
31.第二方面，本技术实施例公开了一种被动式语音交互方法，适用于服务器，包括：
32.从终端获取所述终端的状态信息，所述状态信息包括服务提供状态信息和/或页面显示状态信息；
33.若所述终端的状态信息满足设定触发条件，确定与所述终端的状态信息相匹配的目标引导内容；
34.将所述目标引导内容发送至所述终端，以供所述终端主动播放所述目标引导内容的语音信息。
35.本技术实施例中，服务器获取终端发送的状态信息，终端的状态信息包括服务提供状态信息和/或页面显示状态信息，这两种信息能从侧面体现用户对服务的消费情况和所青睐的终端页面，反映了用户的需求和兴趣点；进而服务器通过终端状态信息满足设定触发条件时，确定与终端状态信息相匹配的目标引导内容，从而服务器准确确定用户感兴趣的目标引导内容，而且通过设定触发条件能够灵活控制目标引导内容的确定时机；在确定目标引导内容后主动将目标引导内容发送至终端，保证终端与用户之间的互动性。
36.第三方面，本技术实施例公开了一种被动式语音交互方法，适用于终端，包括：
37.向服务器发送终端的状态信息，以供所述服务器判定所述终端的状态信息满足设定触发条件，确定与所述终端的状态信息相匹配的目标引导内容，并返回所述目标引导内容；所述状态信息包括服务提供状态信息和/或页面显示状态信息；
38.接收所述服务器返回的目标引导内容；
39.主动播放所述目标引导内容的语音信息。
40.本技术实施例中，终端向服务器发送其状态信息，以便从服务器获取到服务器根据其状态信息确定的目标引导内容，目标引导内容反映了用户的需求和兴趣点；并且终端接收到目标引导内容是服务器判断达到设定触发条件时，实现了目标引导内容的确定时机的灵活性；终端在确定目标引导内容后主动将目标引导内容的语音信息播放给用户，即终端主动发起语音交互，而非用户主动发起，提高了语音交互模式的灵活性和智能性，并提高了用户体验。
41.可选的，在所述主动播放所述目标引导内容的语音信息之前，还包括：如果所述目标引导内容的数量为至少两个，且来源于至少两个服务器；
42.根据所述至少两个服务器的优先级，确定目标服务器；
43.从至少两个所述目标引导内容中，筛选来源于目标服务器的目标引导内容。
44.上述申请中的一个实施例具有如下优点或有益效果：通过对服务器设置优先级，并根据服务器的优先级确定目标服务器和目标引导内容，从而通过优先级实现服务器维度下的引导内容的筛选；不同服务器的引导内容的类型不同，则通过服务器维度下的引导内容筛选，筛选出某一类型的引导内容进行优先播放。
45.第四方面，本技术实施例公开了一种被动式语音交互装置，适用于终端，包括：
46.状态信息获取模块，用于获取终端的状态信息，所述状态信息包括服务提供状态信息和/或页面显示状态信息；
47.目标引导内容确定模块，用于若所述终端的状态信息满足设定触发条件，确定与所述终端的状态信息相匹配的目标引导内容；
48.语音信息主动播放模块，用于主动播放所述目标引导内容的语音信息。
49.第五方面，本技术实施例公开了一种被动式语音交互装置，适用于服务器，包括：
50.状态信息获取模块，用于从终端获取所述终端的状态信息，所述状态信息包括服务提供状态信息和/或页面显示状态信息；
51.目标引导内容确定模块，用于若所述终端的状态信息满足设定触发条件，确定与所述终端的状态信息相匹配的目标引导内容；
52.目标引导内容发送模块，用于将所述目标引导内容发送至所述终端，以供所述终端主动播放所述目标引导内容的语音信息。
53.第六方面，本技术实施例公开了一种被动式语音交互装置，适用于终端，包括：
54.状态信息发送模块，用于向服务器发送终端的状态信息，以供所述服务器判定所述终端的状态信息满足设定触发条件，确定与所述终端的状态信息相匹配的目标引导内容，并返回所述目标引导内容；所述状态信息包括服务提供状态信息和/或页面显示状态信息；
55.目标引导内容接收模块，用于接收所述服务器返回的目标引导内容；
56.语音信息主动播放模块，用于主动播放所述目标引导内容的语音信息。
57.第七方面，本技术实施例公开了一种终端，包括：
58.至少一个处理器；以及
59.与所述至少一个处理器通信连接的存储器；其中，
60.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本技术第一方面和第三方面实施例所述的方法。
61.第八方面，本技术实施例公开了一种服务器，包括：
62.至少一个处理器；以及
63.与所述至少一个处理器通信连接的存储器；其中，
64.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本技术第二实施例所述的方法。
65.第九方面，本技术实施例公开了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如本技术任一实施例所述的方法。
66.上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
67.附图用于更好地理解本方案，不构成对本技术的限定。其中：
68.图1是根据本技术第一实施例提供的一种被动式语音交互方法的流程示意图；
69.图2是根据本技术第二实施例提供的一种被动式语音交互方法的流程示意图；
70.图3是根据本技术第三实施例提供的一种被动式语音交互方法的流程示意图；
71.图4是根据本技术第四实施例提供的一种被动式语音交互方法的流程示意图；
72.图5为本技术实施例五提供的一种被动式语音交互装置的结构示意图；
73.图6为本技术实施例六提供的一种被动式语音交互装置的结构示意
74.图7为本技术实施例七提供的一种被动式语音交互装置的结构示意图；
75.图8是用来实现本技术实施例九的被动式语音交互方法的终端或服务器的框图。
具体实施方式
76.以下结合附图对本技术的示范性实施例做出说明，其中包括本技术实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本技术的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
77.第一实施例
78.图1是根据本技术第一实施例提供的一种被动式语音交互方法的流程示意图，本实施例适用于终端与用户进行语音交互的情况。该方法可以由被动式语音交互装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成于终端中，该终端可以独立执行本发明实施例的被动式语音交互方法。如图1所示，本实施例提供的被动式语音交互方法可以包括：
79.s110、获取终端的状态信息，所述状态信息包括服务提供状态信息和/或页面显示状态信息。
80.其中，终端是指具有语音交互功能的设备，如智能手机、车机或者智能手机与车机二者兼有。当终端包括智能手机与车机时，车机可作为智能手机的录音器。
81.在获取终端的状态信息时，具体的，对于智能手机或车机来说，可直接获取自身的状态信息；对于智能手机和车机来说，可以以智能手机为执行主体，获取自身的状态信息，并通过与智能手机的通信连接获取智能手机的状态信息；也可以以车机作为执行主体，获取自身的状态信息，并通过与车机的通信连接获取车机的状态信息。
82.本实施例中，状态信息包括服务提供状态信息和/或页面显示状态信息。其中，服务提供状态信息反映了终端当前的服务提供情况，可以包括服务的提供中状态、未提供状态，以及提供中的服务内容。示例性的，终端包括音乐服务、地图服务和新闻服务。服务提供状态信息包括音乐服务处于提供中状态，服务内容为正在播放a歌手的歌曲，地图服务和新闻服务处于未提供状态。页面显示状态信息包括是否显示页面，以及当前显示的页面内容。示例性的，终端显示有一页面，该显示页面的内容包括正在播放的音乐、导航路线或新闻等。
83.s120、若所述终端的状态信息满足设定触发条件，确定与所述终端的状态信息相匹配的目标引导内容。
84.其中，设定触发条件是指预先设置与终端状态信息有关的条件，可选的，设定触发条件可以是服务处于提供中状态且提供设定服务内容，和/或，显示页面且显示设定页面内容。例如，设定触发条件包括：音乐服务处于提供中状态且正在播放怀旧类型的歌曲，或者地图服务处于提供中状态且当前时间满足通勤时间点，或者新闻服务处于提供中状态且有最新新闻发布。设定触发条件还可以包括：显示歌词页面，显示桌面，显示地图页面等。具体的设定触发条件可以根据终端中服务的实际情况以及根据用户的需求进行设置，在此不作限定。目标引导内容是指终端根据状态信息确定的，为用户引导的用户可能感兴趣的服务
内容，例如，向用户引导是否播放某歌星的某歌曲。
85.可选的，设定触发条件的数量为至少一项。具体的，判断当前状态信息中的服务提供状态信息和/或页面显示状态信息是否满足至少一项设定触发条件，若满足一项设定触发条件，则可以确定与当前状态信息匹配的目标引导内容。
86.可选的，所述若所述终端的状态信息满足设定触发条件，确定与所述终端的状态信息相匹配的目标引导内容，包括：若所述服务提供状态信息包括提供中的设定服务内容，确定与提供中的设定服务内容相匹配的目标引导内容；和/或，若所述页面显示状态信息包括当前显示的设定页面内容，确定与所述当前显示的设定页面内容相匹配的目标引导内容。
87.具体的，若服务提供状态信息包括提供中的设定服务内容，则终端的状态信息满足设定触发条件，进而确定与提供中的设定服务内容相匹配的目标引导内容。例如，提供中的设定服务内容为新闻服务中的视频新闻，则确定与该视频新闻相匹配的另一新闻的引导内容作为目标引导内容，另一新闻的引导内容例如为“是否播放另一新闻”。
88.若页面显示状态信息包括当前显示的设定页面内容，则终端的状态信息满足设定触发条件，进而确定与当前显示的设定页面内容相匹配的目标引导内容。例如，当前显示的设定页面内容为某市地图，则确定与某市地图匹配的导航路线的引导内容作为目标引导内容，导航路线的引导内容例如为“是否对该路线进行导航”。又例如，当前显示的设定页面内容为地图服务的首页，在当前时间点为通勤时间点时，确定与地图服务的首页匹配的目标引导内容为“是否将导航目的地设置为公司”，从而用户在打开地图服务时，不需要主动确定目的地，终端自发性的根据当前页面状态信息确定引导目的地，并将引导目的地作为目标引导内容，提高了智能化体验感，节省了用户的时间。
89.若服务提供状态信息包括提供中的设定服务内容，同时页面显示状态信息包括当前显示的设定页面内容，则可确定与提供中的设定服务内容或者当前显示的设定页面内容相匹配的目标引导内容。
90.可选的，所述若所述终端的状态信息满足设定触发条件，确定与所述终端的状态信息相匹配的目标引导内容，包括：若所述终端的状态信息满足设定触发条件，确定所述设定触发条件所属的服务；从所述设定触发条件所属的服务获取与所述终端的状态信息相匹配的目标引导内容。
91.本实施例以服务为单位来组织引导内容，例如音乐服务的引导内容包括“是否播放某歌星的歌曲”，地图服务的引导内容包括“是否将导航目的地设置为公司”。本实施例可以向用户提供多种服务的引导内容，提高了引导内容的多样性。不同的服务设置有对应的触发条件，若状态信息满足设定触发条件，需要首先确定设定触发条件所属的服务，进而从该服务获取目标引导内容，例如，当前显示的设定页面内容为某市地图，所属地图服务，则从地图服务获取与某市地图匹配的导航路线的引导内容作为目标引导内容。可见，导航路线的引导内容与某市地图的页面内容更加匹配。如果从音乐服务获取与某市地图匹配的引导内容，如“是否听某市地图的歌曲”，这显然与某市地图的页面内容不太匹配。可见，本实施例能够提高状态信息与目标引导内容的匹配程度，进而提高用户对目标引导内容的接受度和满意度；同时，避免出现目标引导内容与终端的状态信息中其他非所属服务的信息相匹配的情况，保证目标引导内容的合理性。
92.可选的，所述从所述设定触发条件所属的服务获取与所述终端的状态信息相匹配的目标引导内容，包括：如果所述设定触发条件所属的服务数量为至少两个，根据至少两个所述服务的优先级，确定目标服务；从所述目标服务获取与所述终端的状态信息相匹配的目标引导内容。
93.其中，服务的优先级是指根据用户对服务的需求程度对服务的重要性进行程度区分的结果。服务的优先级可以根据服务自身性质进行确定，也可以根据用户的个性化需求进行设置。示例性的，在上述示例的基础上，服务的优先级可以是地图服务优先于新闻服务，新闻服务优先于音乐服务。目标服务是指满足设定触发条件所属的服务中优先级最高的服务，表明用户对该服务的关注度最高。
94.具体的，由于设定触发条件为多个，则根据终端的状态信息确定满足的设定触发条件可能会出现同时满足至少两个的情况，确定的满足设定触发条件所属的服务也为至少两个。在这种情况下，根据预先确定服务的优先级顺序，将至少两个服务中优先级最高的服务作为目标服务。从该优先级最高的目标服务获取与状态信息相匹配的目标引导内容，如“是否对该路线进行导航”。
95.通过对服务设置优先级，并根据服务的优先级确定目标服务和目标引导内容，从而通过优先级实现服务维度下的引导内容的筛选；不同服务的引导内容的类型不同，则通过服务维度下的引导内容筛选，筛选出某一类型的引导内容进行优先播放；而且，通过对服务优先级的确定保证了目标引导内容所属服务对用户的需求度，提高用户对目标引导内容的满意度以及目标引导内容的智能化程度。
96.s130、主动播放所述目标引导内容的语音信息。
97.其中，终端主动播放相对于现有技术中的终端被动播放而言。终端被动播放指响应于用户的唤醒词或者其它具有意图的语音信息而播放；相反，终端主动播放是指无需识别到用户的唤醒词或者其它具有意图的语音信息，自发性地播放。可选的，确定目标引导内容后，将目标引导内容进行语音合成得到语音信息，并通过语音播放器将目标引导内容的语音信息播放出来。
98.可选的，在主动播放所述目标引导内容的语音信息之后还包括：接收用户的反馈信息，并根据反馈信息进行响应。其中，用户的反馈信息包括正反馈、负反馈、无反馈以及指令反馈。
99.具体的，正反馈是指接收到用户正面的响应，如通过语音识别确定接收到的用户语音中包括是、播放等正面意图的词。负反馈是指接收到用户反面的响应，如通过语音识别确定接收到的用户语音中包括不是、不播放以及不用等正面意图的词。无反馈是指没有接收到和目标引导内容相关的语音信息，如在设定时间内没有接收到用户的语音，或者通过语音识别没有相关信息。指令反馈是指接收到用户与目标引导内容无关的执行其他命令的指令。
100.当用户接收到终端播放的目标引导内容的语音信息后，若终端接收到用户的正反馈，则执行目标引导内容的服务指令，如播放现在有最新新闻发布，接收到用户的播放指令，则终端播放该最新新闻的语音信息。若终端接收到用户的负反馈或者无反馈，则终端保持当前状态，不作响应。若终端接收到用户的指令反馈，则执行该指令反馈的内容，如目标引导内容为新闻服务，用户反馈的语音信息为执行播放音乐服务指令，则终端打开音乐服
务，进行播放音乐。通过终端根据状态信息主动播放目标引导内容，在车载情况下，不需要用户主动进行操作，可以极大地提高安全性。并且终端主动地询问用户，让终端与用户之间的交互更加自然，让终端更懂用户的行为，提高用户对终端的智能体验感。
101.本技术实施例提供的技术方案，终端的状态信息包括服务提供状态信息和/或页面显示状态信息，这两种信息能从侧面体现用户对服务的消费情况和所青睐的终端页面，反映了用户的需求和兴趣点；进而通过状态信息满足设定触发条件时，确定与状态信息相匹配的目标引导内容，从而准确确定用户感兴趣的目标引导内容，而且通过设定触发条件能够灵活控制目标引导内容的确定时机；在确定目标引导内容后主动将目标引导内容的语音信息播放给用户，即终端主动发起语音交互，而非用户主动发起，提高了语音交互模式的灵活性和智能性，并提高了用户体验。
102.进一步的，由于正在提供的服务内容也就是用户正在消费的服务内容，反映了用户的当前需求，因此实现目标引导内容与终端当前正在提供的服务内容相匹配，按需定位引导内容，可以提高用户对目标引导内容的接受度和满意度。同理，当前显示的页面内容也是用户正在观看的页面，也反映了用户的当前需求，因此实现目标引导内容与页面内容相匹配，同样可以实现提高用户对目标引导内容的接受度和满意度。
103.第二实施例
104.图2是本技术实施例二中的一种被动式语音交互方法的流程图，本技术实施例在上述各实施例的技术方案的基础上进行优化。
105.可选的，将操作“主动播放所述目标引导内容的语音信息”细化为“获取当前语音交互信息，并根据所述当前语音交互信息判断当前语音交互类型，其中，所述当前语音交互信息包括当前引导内容；若所述当前语音交互类型为用户被动式语音交互，获取所述当前引导内容的来源服务；如果所述当前引导内容的来源服务的优先级低于所述目标引导内容的来源服务的优先级，停止当前语音交互操作，并主动播放所述目标引导内容的语音信息”，以提高用户的服务使用体验感。
106.可选的，在操作“根据所述当前语音交互信息判断当前语音交互类型”之后，追加“若当前语音交互类型为用户主动式语音交互，继续执行当前语音交互操作”，避免主动播放语音会造成对用户正常语音交互的干扰。
107.如图2所示的一种被动式语音交互方法，包括：
108.s210、获取终端的状态信息，所述状态信息包括服务提供状态信息和/或页面显示状态信息。
109.s220、若所述终端的状态信息满足设定触发条件，确定与所述终端的状态信息相匹配的目标引导内容。
110.s230、获取当前语音交互信息，并根据所述当前语音交互信息判断当前语音交互类型，其中，所述当前语音交互信息包括当前引导内容。
111.其中，当前语音交互信息包括用户发出的用户语音信息和终端发出的终端语音信息。是当前语音交互类型用于表示当前语音播放内容的主动发起方，如当前语音交互类型包括用户主动式语音交互以及用户被动式语音交互。用户主动式语音交互是指由用户主动发起的语音指令，例如用户主动发起的地图服务，或者用户发起的通话交互等。用户被动式语音交互是指由终端主动发起的语音指令，例如目标引导内容的语音信息，或者终端播放
目标引导内容的语音信息后，得到用户的正反馈进行响应的语音信息。
112.可选的，所述根据所述当前语音交互信息判断当前语音交互类型，包括以下任一种：1)如果所述当前语音交互信息由用户发起，即包括唤醒词，判定当前语音交互类型为用户主动式语音交互。2)获取所述当前语音交互信息中用户语音信息的意图和终端语音信息的意图，如果二者不一致，判定当前语音交互类型为用户主动式语音交互。3)获取所述当前语音交互信息由终端发起，即不包括唤醒词，且当前语音交互信息的第一句是终端语音信息，且所述当前语音交互信息中用户语音信息的意图和终端语音信息的意图一致，判定当前语音交互类型为用户被动式语音交互。
113.其中，用户发起是指用户通过特定的词主动向终端发起语音指令。示例性的，用户通过特定的唤醒词唤醒终端语音响应，并执行相应的语音指令。例如，用户在打开地图服务时，主动发出唤醒词加目的地的语音指令，则终端识别到唤醒词后的语音信息即为用户主动发起的服务内容。终端发起是指终端在接收到用户的唤醒词时主动发起的语音交互行为。示例性的，终端根据目标引导内容主动播放语音信息为终端发起。
114.用户语音信息的意图是指根据用户输入的语音，对语音信息进行意图识别得到的信息。示例性的，获取终端中用户输入的语音信息，并进行意图识别。终端语音信息的意图是指根据终端向用户发送的语音，对语音信息进行意图识别得到的信息。
115.具体的，根据当前语音交互信息确定当前语音为用户通过唤醒词发起的，则确定当前语音交互类型为用户主动式语音交互。示例性的，根据输入记录确定当前语音交互是由“唤醒词+指令内容”发起的，例如“小度小度我要导航去公司”，则表示当前语音交互信息是用户发起的。
116.根据终端中的语音输入记录确定当前语音交互信息的发起来源对话，该对话可以是由终端和用户之间的一轮对话，或者多轮对话，获取对话中双方每句话的意图，并对意图进行判断，若用户语音信息的意图和终端语音信息的意图不一致，则表示当前语音交互信息是由用户主动发起的，为用户主动式语音交互。示例性的，终端中的语音输入记录为：终端：是否导航去公司，用户：导航去商场或者播放周杰伦的音乐。根据意图识别，确定终端意图与用户意图是不一样的，则说明当前导航去商场的语音交互信息或者正在播放的周杰伦的音乐信息是由用户主动发起的。
117.根据终端中的语音输入记录确定当前语音交互信息的发起来源是终端，即可以通过发起语音对话中不包括唤醒词，并且发起来源第一句是终端语音信息，则对终端和用户的语音意图进行识别，如果识别结果一致，则确定当前语音交互类型为用户被动式语音交互。示例性的，终端中的语音输入记录为：终端：是否导航去公司，用户：导航去公司或者是。根据意图识别，确定终端意图与用户意图是一样的，则说明当前导航去公司的语音交互信息是用户被动接受的。
118.s240、判断当前语音交互类型。如果当前语音交互类型为用户主动式语音交互，跳转到步骤s250，如果当前语音交互类型为用户被动式语音交互，跳转到步骤s260。
119.s250、继续执行当前语音交互操作。结束本次操作。
120.根据当前语音交互信息确定当前语音交互类型为用户主动式语音交互时，则保持当前语音交互操作不变，不对确定的目标引导内容进行播放。示例性的，根据终端的状态信息确定用户正在使用导航服务，则目标引导内容为是否导航回家，根据当前语音交互类型
确定当前正在执行的为用户主动发起的导航去商场的语音交互操作，则保持当前导航去商场的操作，并且不播放目标引导内容。
121.s260、获取当前引导内容的来源服务。继续执行s270。
122.根据当前语音交互信息确定当前语音交互类型为用户被动式语音交互时，则表明当前语音播放的内容为终端主动播放的引导内容，获取当前引导内容的来源服务。对当前引导内容的来源服务进行确定。
123.s270、如果所述当前引导内容的来源服务的优先级低于所述目标引导内容的来源服务的优先级，停止当前语音交互操作，并主动播放所述目标引导内容的语音信息。
124.确定当前引导内容的来源服务和目标引导内容的来源服务的优先级，若当前引导内容的来源服务优先级低于目标引导内容的来源服务优先级，表明当前引导内容的重要性低于目标引导内容，则停止当前语音交互操作，主动播放目标引导内容的语音信息。关于服务优先级的设置在上述实施例中已详细说明，在此不作赘述。示例性的，若当前引导内容为音乐服务，确定的目标引导内容为新闻服务，由于新闻服务的优先级高于音乐服务，则停止当前音乐服务主动播放新闻服务的目标引导内容的语音信息。
125.若当前引导内容的来源服务的优先级高于目标引导内容的来源服务的优先级，表明当前引导内容的重要性高于目标引导内容，则继续执行当前语音交互操作。示例性的，若当前引导内容为新闻服务，确定的目标引导内容为音乐服务，由于新闻服务的优先级高于音乐服务，则保持当前新闻服务的引导内容语音交互操作，不对目标引导内容进行语音播放。
126.当前语音交互信息可以是当前引导内容，也可以是用户对历史目标引导内容进行正反馈响应后播放的引导内容的具体语音信息。例如，当前语音交互信息可以是“是否播放周杰伦的音乐”，或者正在播放周杰伦的音乐，该音乐是根据终端的引导内容进行播放的。
127.本技术实施例提供的技术方案，根据对终端当前语音交互信息进行判断，识别当前语音交互类型为用户主动式语音交互时，保证当前语音交互操作，不对目标引导内容进行响应。实现了目标引导内容播放操作的智能化，避免干扰到用户的正常服务使用，提高用户的使用体验感。识别当前语音交互类型为用户被动式语音交互时，通过对当前用户被动式语音交互和引导内容的来源服务的优先级判断，提高了主动播放的语音的实时性；同时，通过对来源服务设置优先级，能够根据用户的需求智能化调整来源于不同服务的引导内容，提高用户的服务使用体验感。
128.第三实施例
129.图3是根据本技术第三实施例提供的一种被动式语音交互方法的流程示意图。该方法可以由被动式语音交互装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成于服务器。如图3所示，本实施例提供的被动式语音交互方法可以包括：
130.s310、从终端获取所述终端的状态信息，所述状态信息包括服务提供状态信息和/或页面显示状态信息。
131.其中，终端是指具有语音播放功能的设备，需要与服务器配合进行被动式语音交互。服务器用于根据终端发送的状态信息确定目标引导内容。服务器可以设置为多个，分别对应于终端中的不同服务，例如音乐服务器确定音乐服务的引导内容；导航服务器确定导航服务的引导内容等。通过多个服务器的设置可以提高引导内容确定的效率。
132.终端根据状态信息所属服务类型发送至对应服务的服务器。示例性的，终端将状态信息中音乐服务的状态信息发送至音乐服务器，以供音乐服务器确定该状态信息是否满足设定触发条件，确定目标引导内容。
133.服务器获取终端的服务提供状态信息和/或页面显示状态信息，示例性的，多个服务器分别获取对应服务的状态信息，避免产生干扰。
134.s320、若所述终端的状态信息满足设定触发条件，确定与所述终端的状态信息相匹配的目标引导内容。
135.服务器根据获取到的状态信息确定是否满足设定触发条件，若满足则确定目标引导内容。示例性的，音乐服务器根据获取到的终端中音乐服务的状态信息，确定是否满足音乐服务设定触发条件，若满足，则确定与音乐服务的状态信息匹配的音乐服务的目标引导内容。
136.s330、将所述目标引导内容发送至所述终端，以供所述终端主动播放所述目标引导内容的语音信息。
137.服务器发送到终端的目标引导内容是文本信息，终端根据该文本信息合成语音信息进行播放。避免语音信息在传输过程中失真，影响用户的体验感。示例性的，目标引导内容中只包括音乐服务的引导内容，服务器将引导内容发送至终端，终端主动将该引导内容通过语音播放，如服务器确定的目标引导内容为是否播放周杰伦的音乐，则终端将该目标引导内容转换为语音信息进行主动播放。
138.本技术实施例中，服务器获取终端发送的状态信息，终端的状态信息包括服务提供状态信息和/或页面显示状态信息，这两种信息能从侧面体现用户对服务的消费情况和所青睐的终端页面，反映了用户的需求和兴趣点；服务器通过终端状态信息满足设定触发条件时，确定与终端状态信息相匹配的目标引导内容，服务器准确确定用户感兴趣的目标引导内容，而且通过设定触发条件能够灵活控制目标引导内容的确定时机；在确定目标引导内容后主动将目标引导内容发送至终端，保证终端与用户之间的互动性。
139.第四实施例
140.图4是根据本技术第四实施例提供的一种被动式语音交互方法的流程示意图。该方法可以由被动式语音交互装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成于终端。如图4所示，本实施例提供的被动式语音交互方法可以包括：
141.s410、向服务器发送终端的状态信息，以供所述服务器判定所述终端的状态信息满足设定触发条件，确定与所述终端的状态信息相匹配的目标引导内容，并返回所述目标引导内容；所述状态信息包括服务提供状态信息和/或页面显示状态信息。
142.s420、接收所述服务器返回的目标引导内容。
143.s430、主动播放所述目标引导内容的语音信息。
144.可选的，在所述主动播放所述目标引导内容的语音信息之前，还包括：如果所述目标引导内容的数量为至少两个，且来源于至少两个服务器；根据所述至少两个服务器的优先级，确定目标服务器；从至少两个所述目标引导内容中，筛选来源于目标服务器的目标引导内容。
145.终端接收到服务器返回的目标引导内容为至少两个且来源于至少两个服务器，例如两个服务器均发送了目标引导内容，则根据服务器的优先级确定优先级高的服务器为目
标服务器，服务器的优先级设置可以参考上述实施例中服务优先级的设置。然后，从接收到的所有目标引导内容中筛选来源于目标服务器的目标引导内容，并主动播放筛选出的目标引导内容的语音信息。
146.本技术实施例提供的技术方案，终端通过将接收到的目标引导内容进行主动播放，并且主动播放的目标引导内容是服务器根据终端状态信息进行确定的，实现主动播放的目标引导信息与用户真实意图之间的契合，提高用户对主动播放语音的满意度。
147.第五实施例
148.图5是本技术实施例五中的一种被动式语音交互装置的结构图，本实施例用于终端与用户进行语音交互的情况，该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的终端中。
149.如图5所示的一种被动式语音交互装置500，包括：状态信息获取模块51、目标引导内容确定模块52和语音信息主动播放模块53。
150.状态信息获取模块51，用于获取终端的状态信息，所述状态信息包括服务提供状态信息和/或页面显示状态信息。
151.目标引导内容确定模块52，用于若所述终端的状态信息满足设定触发条件，确定与所述终端的状态信息相匹配的目标引导内容。
152.语音信息主动播放模块53，用于主动播放所述目标引导内容的语音信息。
153.本技术实施例中，终端的状态信息包括服务提供状态信息和/或页面显示状态信息，这两种信息能从侧面体现用户对服务的消费情况和所青睐的终端页面，反映了用户的需求和兴趣点；进而通过状态信息满足设定触发条件时，确定与状态信息相匹配的目标引导内容，从而准确确定用户感兴趣的目标引导内容，而且通过设定触发条件能够灵活控制目标引导内容的确定时机；在确定目标引导内容后主动将目标引导内容的语音信息播放给用户，即终端主动发起语音交互，而非用户主动发起，提高了语音交互模式的灵活性和智能性，并提高了用户体验。
154.可选的，目标引导内容确定模块52，具体用于：若所述服务提供状态信息包括提供中的设定服务内容，确定与提供中的设定服务内容相匹配的目标引导内容；和/或，若所述页面显示状态信息包括当前显示的设定页面内容，确定与当前显示的设定页面内容相匹配的目标引导内容。
155.可选的，目标引导内容确定模块52，包括：服务确定单元，用于若所述终端的状态信息满足设定触发条件，确定所述设定触发条件所属的服务；目标引导内容确定单元，用于从所述设定触发条件所属的服务获取与所述终端的状态信息相匹配的目标引导内容。
156.可选的，目标引导内容确定单元，具体用于：如果所述设定触发条件所属的服务数量为至少两个，根据至少两个所述服务的优先级，确定目标服务；从所述目标服务获取与所述终端的状态信息相匹配的目标引导内容。
157.可选的，语音信息主动播放模块53具体用于：获取当前语音交互信息，并根据所述当前语音交互信息判断当前语音交互类型，其中，所述当前语音交互信息包括当前引导内容；若所述当前语音交互类型为用户被动式语音交互，获取所述当前引导内容的来源服务；如果所述当前引导内容的来源服务的优先级低于所述目标引导内容的来源服务的优先级，停止当前语音交互操作，并主动播放所述目标引导内容的语音信息。
158.所述装置还包括：继续执行模块，用于若所述当前语音交互类型为用户主动式语音交互，继续执行当前语音交互操作。
159.上述被动式语音交互装置可执行本技术任意实施例所提供的被动式语音交互方法，具备执行被动式语音交互方法相应的功能模块和有益效果。
160.第六实施例
161.图6是本技术实施例六中的一种被动式语音交互装置的结构图，本实施例用于终端与用户进行语音交互的情况，该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的服务器中。
162.如图6所示的一种被动式语音交互装置600，包括：状态信息获取模块61、目标引导内容确定模块62和目标引导内容发送模块63。
163.状态信息获取模块61，用于从终端获取所述终端的状态信息，所述状态信息包括服务提供状态信息和/或页面显示状态信息。
164.目标引导内容确定模块62，用于若所述终端的状态信息满足设定触发条件，确定与所述终端的状态信息相匹配的目标引导内容。
165.目标引导内容发送模块63，用于将所述目标引导内容发送至所述终端，以供所述终端主动播放所述目标引导内容的语音信息。
166.本技术实施例中，终端向服务器发送其状态信息，以便从服务器获取到服务器根据其状态信息确定的目标引导内容，目标引导内容反映了用户的需求和兴趣点；并且终端接收到目标引导内容是服务器判断达到设定触发条件时，实现了目标引导内容的确定时机的灵活性；终端在确定目标引导内容后主动将目标引导内容的语音信息播放给用户，即终端主动发起语音交互，而非用户主动发起，提高了语音交互模式的灵活性和智能性，并提高了用户体验。
167.上述被动式语音交互装置可执行本技术任意实施例所提供的被动式语音交互方法，具备执行被动式语音交互方法相应的功能模块和有益效果。
168.第七实施例
169.图7是本技术实施例七中的一种被动式语音交互装置的结构图，本实施例用于终端与用户进行语音交互的情况，该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的终端中。
170.如图7所示的一种被动式语音交互装置700，包括：状态信息发送模块71、目标引导内容接收模块72和语音信息主动播放模块73。
171.状态信息发送模块71，用于向服务器发送终端的状态信息，以供所述服务器判定所述终端的状态信息满足设定触发条件，确定与所述终端的状态信息相匹配的目标引导内容，并返回所述目标引导内容；所述状态信息包括服务提供状态信息和/或页面显示状态信息。
172.目标引导内容接收模块72，用于接收所述服务器返回的目标引导内容。
173.语音信息主动播放模块73，用于主动播放所述目标引导内容的语音信息。
174.本技术实施例中，终端向服务器发送其状态信息，以便从服务器获取到服务器根据其状态信息确定的目标引导内容，目标引导内容反映了用户的需求和兴趣点；并且终端接收到目标引导内容是服务器判断达到设定触发条件时，实现了目标引导内容的确定时机
的灵活性；终端在确定目标引导内容后主动将目标引导内容的语音信息播放给用户，即终端主动发起语音交互，而非用户主动发起，提高了语音交互模式的灵活性和智能性，并提高了用户体验。
175.可选的，所述装置还包括目标引导内容筛选模块，具体用于：如果所述目标引导内容的数量为至少两个，且来源于至少两个服务器；根据所述至少两个服务器的优先级，确定目标服务器；从至少两个所述目标引导内容中，筛选来源于目标服务器的目标引导内容。
176.上述被动式语音交互装置可执行本技术任意实施例所提供的被动式语音交互方法，具备执行被动式语音交互方法相应的功能模块和有益效果。
177.第八实施例
178.根据本技术的实施例，本技术还提供了一种终端、服务器和一种可读存储介质。
179.如图8所示，是根据本技术实施例的被动式语音交互方法的终端的框图。终端旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。终端还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴电子设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本技术的实现。
180.如图8所示，该终端包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在终端内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示电子设备)上显示gui的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个终端，各个终端提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。
181.存储器802即为本技术所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本技术所提供的被动式语音交互方法。本技术的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本技术所提供的被动式语音交互方法。
182.存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本技术实施例中的被动式语音交互方法对应的程序指令/模块(例如，附图5所示的状态信息获取模块51、目标引导内容确定模块52和语音信息主动播放模块53或者附图7所示的状态信息发送模块71、目标引导内容接收模块72和语音信息主动播放模块73)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的被动式语音交互方法。
183.存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据被动式语音交互的终端的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例
中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至被动式语音交互的终端。上述网络的实例包括但不限于互联网、企业内部网、区块链网络、局域网、移动通信网及其组合。
184.被动式语音交互方法的终端还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。
185.输入装置803可接收输入的数字或字符信息，以及产生与被动式语音交互的终端的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示电子设备、辅助照明装置(例如，led)和触觉反馈装置(例如，振动电机)等。该显示电子设备可以包括但不限于，液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中，显示电子设备可以是触摸屏。
186.本实施例还提供一种服务器，其结构如图8所示，对图8中各部分的描述详见上述实施例，此处不再赘述。不同之处在于，存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本技术实施例中的被动式语音交互方法对应的程序指令/模块(例如，附图6所示的包括状态信息获取模块61、目标引导内容确定模块62和目标引导内容发送模块63)。
187.此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
188.这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、电子设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(pld))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
189.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
190.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算
系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)、区块链网络和互联网。
191.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
192.根据本技术实施例的技术方案，通过根据获取到的用户的实时定位信息，确定与实时定位信息相关的用户查询信息，并获取查询结果，将查询结果显示在用户正在使用的输入法界面的背景图像上，实现了利用输入法界面的背景图像对用户进行场景提示，丰富输入法系统的功能。
193.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本技术公开的技术方案所期望的结果，本文在此不进行限制。
194.上述具体实施方式，并不构成对本技术保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本技术的精神和原则之内所作的修改、等同替换和改进等，均应包含在本技术保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄佳滢
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种适应于数据中心的新型供电系统的制作方法
上一篇：一种净化板生产用环保新风系统的制作方法