语音交互方法、语音交互系统和存储介质与流程

文档序号：26731994发布日期：2021-09-22 21:49阅读：120来源：国知局

1.本发明涉及语音技术领域，特别涉及一种语音交互方法、语音交互系统和存储介质。

背景技术：

2.由于用户用车习惯不同，每个车机常用的回复指令也是大不一样，单一的缓存有失效、丢失风险，造成请求第三方服务流量大，音频播报延时较高，影响人机交互体感，而且，频繁使用第三方服务，会使得成本增加。

技术实现要素：

3.本发明的实施方式提供一种语音交互方法、语音交互系统和存储介质。
4.本发明实施方式的一种语音交互方法，包括：
5.接收用户语音请求并对所述语音请求进行自然语言理解处理，获取相应的文本数据；
6.根据所述文本数据获取回复文本数据，并根据所述回复文件数据依次查找车机终端和云端的缓存中相应回复的音频文件；
7.将查找到的音频文件由所述车机终端播报。
8.在某些实施方式中，根据所述文本数据获取回复文本数据，并根据回复文件数据依次查找车机终端和云端的缓存中相应回复的音频文件，包括：
9.根据所述回复文本数据先查找所述车机终端的预置缓存；
10.在所述车机终端的预置缓存查找不到所述音频文件时，再查找所述车机终端的一级缓存。
11.在某些实施方式中，所述语音交互方法包括：
12.在所述车机终端的一级缓存存储一定周期的数据时，执行缓存淘汰策略。
13.在某些实施方式中，所述语音交互方法包括：
14.在所述车机终端的一级缓存不存在所述音频文件时，将查找到的所述音频文件存储至所述车机终端的一级缓存。
15.在某些实施方式中，根据所述文本数据获取回复文本数据，并根据回复文件数据依次查找车机终端和云端的缓存中相应回复的音频文件，包括：
16.在所述车机终端查找不到所述音频文件时，先查找所述云端的二级缓存；
17.在所述云端的二级缓存查找不到所述音频文件时，再查找所述云端的三级缓存。
18.在某些实施方式中，根据所述文本数据获取回复文本数据，并根据回复文件数据依次查找车机终端和云端的缓存中相应回复的音频文件，包括：
19.在所述云端的三级缓存查找不到所述音频文件时，再查找所述云端的动态缓存。
20.在某些实施方式中，所述云端包括第一云端和第二云端，所述第一云端包括所述二级缓存和所述三级缓存，所述第二云端包括所述动态缓存。
21.在某些实施方式中，所述语音交互方法包括：
22.在所述云端的二级缓存存储一定周期的数据时，执行缓存淘汰策略。
23.在某些实施方式中，所述语音交互方法包括：
24.在所述云端的二级缓存和/或三级缓存不存在所述音频文件时，将查找到的所述音频文件存储至所述云端的二级缓存和/或三级缓存。
25.本发明实施方式的一种语音交互系统，包括：
26.理解模块，用于接收用户语音请求并对所述语音请求进行自然语言理解处理，获取相应的文本数据；
27.查找模块，用于根据所述文本数据获取回复文本数据，并根据所述回复文件数据依次查找车机终端和云端的缓存中相应回复的音频文件；
28.播报模块，用于将查找到的音频文件由所述车机终端播报。
29.本发明实施方式的一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述任一实施方式的语音交互方法。
30.上述语音交互方法、语音交互系统和计算机可读存储介质，通过优先查找车机终端后查找云端的多级缓存策略，可以更快地获到音频文件，降低音频播报延时，在低成本与高质量音频播报速度之间取得均衡，给用户带来更加流畅的播报体验。
31.本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
32.本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
33.图1是本发明实施方式的语音交互方法的流程示意图；
34.图2是本发明实施方式的语音交互系统的一个模块示意图；
35.图3是本发明实施方式的语音交互系统的另一模块示意图。
36.图4是本发明实施方式的语音交互系统的又一模块示意图。
37.图5是本发明实施方式的语音交互系统的再一模块示意图。
38.图6是本发明实施方式的语音交互方法的场景示意图。
39.图7是本发明实施方式的语音交互系统的再一模块示意图。
具体实施方式
40.下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
41.在本发明的实施方式的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的实施方式的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
42.请参阅图1和图2，本发明实施方式提供的一种语音交互方法，包括：
43.步骤s12，接收用户语音请求并对语音请求进行自然语言理解处理，获取相应的文本数据；
44.步骤s14，根据文本数据获取回复文本数据，并根据回复文本数据依次查找车机终端100和云端200的缓存中相应回复的音频文件；
45.步骤s16，将查找到的音频文件由车机终端100播报。
46.上述语音交互方法，通过优先查找车机终端100后查找云端200的多级缓存策略，可以更快地获到音频文件，降低音频播报延时，在低成本与高质量音频播报速度之间取得均衡，给用户带来更加流畅的播报体验。
47.具体地，在步骤s12中，语音请求可来自车机终端100，也可以来自于与车机终端通信的移动终端，车机终端100可以是安装在车辆上。车辆包括但不限于燃油汽车、增程式电动车、纯电动汽车、混合动力汽车、氢能源汽车等，移动终端包括但不限于手机、平板电脑、可穿戴智能设备、笔记本电脑等。云端200可以与车辆进行有线或无线连接，以实现数据和信号传输。无线连接的方式包括但不限于wifi、移动通信网络等。移动通信网络可包括4g、5g、6g等移动通信方式。
48.在一个实施方式中，车机终端100可包括显示屏102和语音交互终端104。
49.显示屏102用于显示图形用户界面，例如控制面板界面，导航界面，音乐界面等。显示屏102可以是触摸显示屏102，除显示与车机终端100相关的图形用户界面外，还提供用户输入的方式。用户通过触摸触摸显示屏102上的相关按键或输入相关手势来实现指令的输入。在一个实施方式中，显示屏102可以包括车辆的中控显示屏、仪表显示屏和副驾驶显示屏、主副驾驶座背面的娱乐大屏的至少一者。用户可以通过车辆上的按键或语音输入相关指令，进入到想要的图形用户界面。
50.语音交互终端104用于采集用户语音请求及播报音频文件，例如，语音交互终端104可包括麦克风和扬声器，语音交互终端104通过麦克风采集到用户语音请求，并上传至云端200，云端200对该语音请求进行自然语言理解处理，获取相应的操作指令及文本数据，云端200将操作指令及文本数据发送至语音交互终端104，由语音交互终端104控制车辆执行相应操作。
51.在步骤s14中，车机终端100获取到文本数据后，可以基于tts(text to speech，“从文本到语音)方式获得回复文本数据，根据回复文本数据在本地缓存查找相应回复的音频文件，即播报源。在查找到相应回复的音频文件后，车机终端100直接播报该音频文件，使得音频播报延时降低，提升了用户体验，而且无需引入第三方服务进行在线合成，降低了成本。
52.可以利用相关技术来将语音请求转换为文本数据，在此不详细展开。例如语音请求为“打开车窗”，转换为文本数据为“打开车窗”。
53.请结合图3，在某些实施方式中，步骤s14，包括：
54.根据回复文本数据先查找车机终端100的预置缓存106；
55.在车机终端100的预置缓存106查找不到音频文件时，再查找车机终端100的一级缓存108。
56.如此，可以实现在车机终端100进行两级缓存策略。
57.具体地，车机终端100获取到回复文本数据后，根据文本内容优先匹配车机终端
100的预置缓存106，找到对应音频文件，无需再进行查找，本次处理结束。
58.在车机终端100的预置缓存106查找不到音频文件时，车机终端100再查找车机终端100的一级缓存108。在查找到相应回复的音频文件后，无需再进行查找，本次处理结束。
59.车机终端100播报查找到的音频文件，实现与用户的交互。
60.在本实施方式中，车机终端100的预置缓存106是存储车机交互回复较多的音频文件，就是存储一些高频使用的音频文件，最大程度地提升车机响应速度，提升音频播报速度，例如常用的回复性话术：“好的”、“我没有听懂”、“换个说法好吗？”、“已为你选择第1条路线”等。则存储回复性话术相应的音频文件至预置缓存106。通常地，预置缓存106所存储的音频文件数量及音频内容不会变化。当然，也可以在ota(在线升级)过程中，更新车机终端100的预置缓存106所存储的音频文件的数量及音频内容。
61.车机终端100的一级缓存108：根据淘汰策略、车机终端100容量，存储每个车主用车习惯需要进行的tts回复音频文件。用车时间越长一级缓存108会越健壮，即一级缓存108存储的音频文件会越来越多。其中，车机终端100的预置缓存106和一级缓存108都受限于车机终端100的容量，所以有对应的缓存淘汰策略，以及需要云端200来提供更多数据的支持。车机终端100的预置缓存106的缓存淘汰策略可以是通过ota来实现，通过云端200的大数据分析得到需要更新的预置缓存106的音频文件。
62.具体地，在某些实施方式中，语音交互方法包括：
63.在车机终端100的一级缓存108存储一定周期的数据时，执行缓存淘汰策略。如此，可以使得车机终端100的一级缓存108能够动态存储音频文件。
64.具体地，车机终端100的容量一般是固定的，一级缓存108也可是动态缓存206，会对云端200传回的音频文件进行动态存储，如果分配给一级缓存108的容量已用完，则车机终端100无法更新一级缓存108所存储的音频文件。因此，在车机终端100的一级缓存108存储一定周期的数据时，执行缓存淘汰策略，使得车机终端100的一级缓存108能够存储云端200传送的音频文件。
65.在一个例子中，一定周期可以是7天，当车机终端100的一级缓存108存储了7天的数据时，即进入第8天时，执行缓存淘汰策略，删除前7天的音频文件。可以理解的，一定周期还可以是其它周期，例如，3天、一个星期、10天等，在此不作具体限定。
66.在某些实施方式中，语音交互方法包括：
67.在车机终端100的一级缓存108不存在音频文件时，将查找到的音频文件存储至车机终端100的一级缓存108。如此，可以将车机终端100的一级缓存108没有的音频文件回填至车机终端100的一级缓存108，在后续需要用到该音频文件时，可直接在本地读取，降低音频播报延时，为用户带来更流畅的播报体现。
68.具体地，在车机终端100的一级缓存108没有相应回复的音频文件时，根据回复文本数据在云端200进行查找，查找到相应回复的音频文件后，云端200会传输该音频文件至车机终端100，车机终端100播报该音频文件。车机终端100可以将查找到的音频文件回填至车机终端100的一级缓存108。
69.回填时，可以采用异步回填的方式，即，车机终端100可以有两个进程，其中一个进程可以称为主进程，即车机终端100从云端200获取到相应回复的音频文件后，播报音频文件，另一个进程，可以是车机终端100将从云端200获取到的音频文件存储至车机终端100的
一级缓存108。这两个进程之间不会相互影响，两个进程之间也没有时序上的具体限制。
70.请结合图4，在某些实施方式中，步骤s14，包括：
71.在车机终端100查找不到音频文件时，先查找云端200的二级缓存202；
72.在云端200的二级缓存202查找不到音频文件时，再查找云端200的三级缓存204。
73.如此，可以实现在云端200进行两级缓存策略。
74.具体地，车机终端可包括控制模块205，控制模块205连接二级缓存202和三级缓存204，在车机终端100查找不到相应回复的音频文件后，基于tts方式，控制模块205用于根据回复文本数据查找相应回复的音频文件。控制模块205用于优先从二级缓存202查找，查找到后相应回复的音频文件后，将音频文件传输至车机终端100，由车机终端100播报该音频文件。在传输过程中，控制模块205可采用音频文件对应的字节流进行传输。车机终端100获取到云端200发送的字节流数据后，转换为音频文件，并进行本地车机终端100的一级缓存108动态存储。
75.在云端200的二级缓存202查找不到相应回复的音频文件时，控制模块205再查找三级缓存204。在查找到相应回复的音频文件后，将音频文件传输至车机终端100，由车机终端100播报该音频文件。在传输过程中，云端200采用音频文件对应的字节流进行传输，车机终端100获取到云端200发送的字节流数据后，转换为音频文件，并进行本地车机终端100的一级缓存108动态存储。
76.控制模块250还可用于维护二级缓存202和三级缓存204的更新策略。
77.需要说明的是，在车机终端100接收到云端200传输的音频文件的首帧数据后，车机终端100即可以利用该首帧数据进行播报，无需等待整个音频文件的字节流传输完成再播报，这样可进一步降低了音频播报延时，提升用户体验。首帧数据的长度可以由系统默认设置，也可以由用户自行设定，在此不作具体限定。首帧数据播报过程中，车机终端100继续接收云端200发送的音频文件的字节流，首帧播放完成，接着播报下一帧数据以完成整个音频文件的播报。
78.车机终端100播报查找到的音频文件，实现与用户的交互。
79.在一个实施方式中，云端200的二级缓存202可以是高性能缓存(如高性能缓存容器)，在车机终端100查找不到相应回复的音频文件(即无命中)的情况下，采用高性能缓存容器，在服务请求到云端200时，以最快的速度响应给车机终端100，同时，二级缓存202会按照缓存淘汰策略，保证高性能、控制一定的成本。
80.在某些实施方式中，语音交互方法包括：
81.在云端200的二级缓存202存储一定周期的数据时，执行缓存淘汰策略。如此，可以使得云端200的二级缓存202能够动态存储音频文件。
82.具体地，云端200分配给二级缓存202的容量一般是固定的，二级缓存202会对云端200查找到的音频文件进行存储，如果分配给二级缓存202的容量已用完，则云端200无法更新二级缓存202所存储的音频文件。因此，在云端200的二级缓存202存储一定周期的数据时，执行缓存淘汰策略，使得云端200的二级缓存202能够存储最新的音频文件。
83.在一个例子中，一定周期可以是7天，当云端200的二级缓存202存储了7天的数据时，即进入第8天时，执行缓存淘汰策略，删除前7天的音频文件。可以理解的，一定周期还可以是其它周期，例如，3天、一个星期、10天等，在此不作具体限定。另外，二级缓存202执行缓
存淘汰策略的周期与一级缓存108执行缓存淘汰策略的周期可以相同，也可以不同，在此不作具体限定。
84.在一个实施方式中，云端200的三级缓存204可以是高可靠性缓存，二级缓存202可能会存在失效或者系统异常情况，作为二级缓存202降级方案，采用可靠性更高的存储介质作为兜底，性能上相比二级缓存202会有一定的损耗，成本上相对廉价，作为可靠性的存储介质，可无需缓存淘汰策略。
85.在某些实施方式中，步骤s14，包括：
86.在云端200的三级缓存204查找不到音频文件时，再查找云端200的动态缓存206。如此，可以实现在云端200进行三级缓存204策略。
87.具体地，在前面多缓存都无法查找到相应回复的音频文件(即无法命中)的情况下，可以使用云端200的三级缓存204作为应急处理方案。
88.具体地，请结合图5，云端200包括第一云端208和第二云端210，第一云端208包括控制模块205、二级缓存202和三级缓存204，第二云端210包括动态缓存206。第一云端208可以是车辆厂家的云端服务器，第二云端210可以是第三方服务提供商的云端服务器。第三方服务提供商可以提供在线合成服务，使得车机终端100能够播报相应回复的音频文件。
89.在某些实施方式中，语音交互方法包括：
90.在云端200的二级缓存202和/或三级缓存204不存在音频文件时，将查找到的音频文件存储至云端200的二级缓存202和/或三级缓存204。如此，可以将云端200的二级缓存202和/或三级缓存204没有的音频文件回填至云端200的二级缓存202和/或三级缓存204，在后续需要用到该音频文件时，可直接在云端200读取并发送至车机终端100，降低音频播报延时，为用户带来更流畅的播报体现。
91.具体地，在一个实施方式中，云端200的二级缓存202没有该音频文件时，根据回复文本数据在云端200进行查找，查找到相应回复的音频文件后，云端200会传输该音频文件至车机终端100，车机终端100播报该音频文件，云端200也将查找到相应回复的音频文件回填至二级缓存202。
92.回填时，可以采用异步回填的方式，即，云端200可以有两个进程，其中一个进程可以称为主进程，即云端200查找到相应回复的音频文件后，传输音频文件至车机终端100，使车机终端100播报该音频文件，另一个进程，可以是云端200将相应回复的音频文件存储至云端200的二级缓存202。这两个进程之间不会相互影响，两个进程之间也没有时序上的具体限制。
93.三级缓存204的回填与上述二级缓存202回填的方法相类似，在此不作详细展开。
94.在云端200的二级缓存202和/或三级缓存204不存在音频文件时，将查找到的音频文件存储至云端200的二级缓存202和/或三级缓存204，可以是，在云端200的二级缓存202不存在音频文件时，将查找到的音频文件存储至云端200的二级缓存202，可以是，在云端200的三级缓存204不存在音频文件时，将查找到的音频文件存储至云端200的三级缓存204，还可以是，在云端200的二级缓存202和三级缓存204不存在音频文件时，将查找到的音频文件存储至云端200的二级缓存202和三级缓存204。
95.在本发明的实施方式中，图6所示的是，语音交互方法的多级缓存策略的一个场景图。在图6中，车机终端100收到用户语音请求，如“打开车窗”，上传至云端200，由云端200经
过自然语言理解处理，得到用户意愿，云端200生成操作指令和文本数据发送至车机终端100；
96.车机终端100接收操作指令，控制车辆执行相应操作，以帮忙用户操作车机终端100指令或者软件应用操作，同时基于文本数据响应回复用户tts播报话术获取回复文本数据；
97.车机终端100根据回复文本数据内容优先匹配车机终端100的预置缓存106，找到对应音频文件并播报该音频，本次处理结束，音频文件播报的内容为“好的，已为您打开”；
98.在车机终端100的预置缓存106无命中(即查找不到相应回复的音频文件)时，继续查找车机终端100的一级缓存108，查找到相应回复的音频文件后，由车机终端100播报该音频文件；
99.在车机终端100的一级缓存108无命中时，需要请求云端200从云端200获取，优先从第一云端208的二级高性能缓存中获取，二级高性能缓存中存储回复音频对应的字节流，根据tts播报话术匹配到结果后返回给车机终端100进行播报，车机终端100拿到云端200字节流数据源后转化为音频文件进行本地一级动态缓存206存储，同时增加缓存淘汰策略；
100.在第一云端208的二级缓存202无命中时，继续匹配第一云端208的三级高可靠性缓存，查找到相应回复的音频文件后返回给车机终端100进行播报，同时异步回填第一云端208的二级缓存202，车机终端100拿到相应回复的音频文件后再回填至车机终端100的一级缓存108；
101.在第一云端208的三级缓存204无命中时，需要向第二云端210(第三方服务提供商)在线请求，获取在线音频文件对应的字节流结果，返回给车机终端100播报，同时异步回填第一云端208的三级缓存204、二级缓存202，车机终端100获取到相应回复的音频文件后回填一级缓存108；
102.以上处理完本次流程结束，本发明实施方式采用漏斗匹配，漏斗回填的方式进行处理，能够为用户提升播报体验。
103.请参图7，本发明实施方式提供的一种语音交互系统300，包括：
104.理解模块302，用于接收用户语音请求并对语音请求进行自然语言理解处理，获取相应回复的文本数据；
105.查找模块304，用于根据文本数据获取回复文本数据，并根据回复文件数据依次查找车机终端100和云端200的缓存中相应回复的音频文件；
106.播报模块306，用于将查找到的音频文件由车机终端100播报。
107.上述语音交互系统300，通过优先查找车机终端100后查找云端200的多级缓存策略，可以更快地获到音频文件，降低音频播报延时，在低成本与高质量音频播报速度之间取得均衡，给用户带来更加流畅的播报体验。
108.具体地，在一个实施方式中，理解模块可以位于云端200，例如可以位于车辆厂家的云端200服务器，也可以位于第三方服务提供商的云端200服务器，还可以是理解模块的部分功能由车辆厂家的云端200服务器实现，部分功能由第三方服务提供商实现，在此不作具体限定。
109.在一个实施方式中，查找模块可以位于本地的车机终端100，也可以位于云端200，还可以是，查找模块的部分功能由车机终端100实现，部分功能由云端200实现，在此不作具
体限定。
110.在一个实施方式中，播报模块可以位于车机终端100，也可以位于云端200，在此不作具体限定。
111.综上，本发明实施方式的语音交互系统300可包括车机终端100和云端200。
112.本发明实施方式提供的一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述任一实施方式的语音交互方法。
113.具体地，在一个实施方式，计算机程序被处理器执行时，实现的语音交互方法包括：
114.步骤s12，接收用户语音请求并对语音请求进行自然语言理解处理，获取相应回复的文本数据；
115.步骤s14，根据文本数据获取回复文本数据，并根据回复文件数据依次查找车机终端100和云端200的缓存中相应回复的音频文件；
116.步骤s16，将查找到的音频文件由车机终端100播报。
117.可以理解的是，上述对语音交互方法的实施方式和有益效果的解释说明，也适用于本发明实施方式的语音交互系统300及计算机可读存储介质，为避免冗余，在此不作详细展开。
118.综上，本发明实施方式的语音交互方法、语音交互系统300及计算机可读存储介质，针对，车机场景对tts响应速度有较高要求，尤其对导航以及危险驾驶的一些安全提醒，因此降低音频播报延时是一个用户场景感知中的重要一环。本发明实施方式采用漏斗匹配、漏斗式回填机制，将每一级缓存108强壮，同时通过各级缓存的失效策略控制每一级缓存108的容量，控制存储成本。不同于解决传统高并发问题的思路，单一的保证服务稳定，tts在线多缓存策略，要解决的是用户听到tts回复更快的响应时延，使用户得到更快的tts播报，保证更好的高品质音质，更好的产品体验，保证人机交互智能化中更高的使命。
119.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
120.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
121.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。
122.尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭华鹏
技术所有人：广州小鹏汽车科技有限公司
我是此专利的发明人