导航语音的处理方法、装置、电子设备及程序产品与流程

文档序号：31692580发布日期：2022-10-01 00:02阅读：130来源：国知局

1.本技术涉及一种导航语音的处理方法、装置、电子设备及程序产品，属于计算机技术领域。

背景技术：

2.目前，语音合成(tts，text to speech)技术在导航场景下的应用频率越来越高。随着tts技术的发展，通过机器学习模型能够实现质量更高的导航语音。不过，受限于客户端侧设备性能的局限，需要计算资源较大的机器学习模型无法在终端侧运行，或者即使能在客户端侧运行，也会带来较高的处理延迟，而无法满足导航语音播报高实时性的要求。

技术实现要素：

3.本发明实施例提供一种导航语音的处理方法、装置、电子设备及程序产品，以提升导航语音的播报效果。
4.为了实现上述目的，本发明实施例提供了一种导航语音的处理方法，包括：
5.响应于导航路径规划处理，向云端发送导航语音请求；
6.接收云端预合成的导航语音数据并进行存储；
7.响应于导航处理，读取与行进路径对应的导航语音数据进行播报。
8.本发明实施例还提供了一种导航语音的处理方法，包括：
9.响应于客户端的导航语音请求，获取导航语音文案；
10.根据所述导航语音文案，对导航语音进行预合成；
11.将预合成的导航语音数据发送至所述客户端。
12.本发明实施例还提供了一种导航语音的处理装置，包括：
13.导航语音请求模块，用于响应于导航路径规划处理，向云端发送导航语音请求；
14.导航语音数据接收模块，用于接收云端预合成的导航语音数据并进行存储；
15.导航语音播报模块，用于响应于导航处理，读取与行进路径对应的导航语音数据进行播报。
16.本发明实施例还提供了一种导航语音的处理装置，包括：
17.导航语音文案获取模块，用于响应于客户端的导航语音请求，获取导航语音文案；
18.导航语音合成模块，用于根据所述导航语音文案，对导航语音进行预合成；
19.导航语音数据发送模块，用于将预合成的导航语音数据发送至所述客户端。
20.本发明实施例还提供了一种虚拟主播播报的处理方法，包括：
21.在直播的过程中，向云端发送查询请求；
22.接收云端根据答复内容进行语音合成出的模拟当前主播或者虚拟角色的语音答复数据；
23.播放所述语音答复数据。
24.本发明实施例还提供了一种电子设备，包括：
25.存储器，用于存储程序；
26.处理器，用于运行所述存储器中存储的所述程序，以执行前述的导航语音的处理方法或者虚拟主播播报的处理方法。
27.本发明实施例还提供了一种计算机程序产品，包括计算机程序或指令，当所述计算机程序或指令被处理器执行时，致使所述处理器实现前述的导航语音的处理方法或者虚拟主播播报的处理方法。
28.本发明实施例的导航语音的处理方法、装置、电子设备及程序产品，在客户端发起导航路径规划处理后，触发云端来预合成导航语音数据并发送给客户端，从而能够借助云端强大的计算处理能力，合成出质量较高的导航语音数据，提高导航语音的播报效果。
29.上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。
附图说明
30.图1为本发明实施例的导航语音的处理方法的应用场景示意图；
31.图2为本发明实施例的导航语音的处理方法的流程示意图之一；
32.图3为本发明实施例的导航语音的处理方法的流程示意图之二；
33.图4为本发明实施例的导航语音的处理装置的结构示意图之一；
34.图5为本发明实施例的导航语音的处理装置的结构示意图之二；
35.图6为本发明实施例的电子设备的结构示意图。
具体实施方式
36.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
37.下面通过一些具体实施例来进一步说明本发明的技术方案。
38.如图1所示，其为本发明实施例的导航语音的处理方法的应用场景示意图，在本发明实施例中，导航语音的合成处理，可以通过云端的语音合成引擎来实现，云端的语音合成引擎可以配置语音合成效果较好的机器学习模型，例如采用基于深度学习技术的端到端(end2end)的语音合成模型进行语音合成处理，该端到端的语音合成模型能够获得相对流畅并且表现力更好的合成语音，由于端到端的语音合成模型需要大量的算力支持，所以难以部署在客户端一侧，在本发明实施例中，通过云端与客户端的交互，在云端完成语音合成处理后，再将合成后的语音数据返回给客户端进行使用。
39.此外，在本发明实施例中，可以采用客户端与云端相融合的导航语音处理方式，在云端合成导航语音失败，或者由于网络原因导致客户端无法接收到合成的导航语音的情况下，可以通过客户端本地的语音合成引擎来进行语音合成处理。客户端本地配置的语音合成引擎可以采用占用计算资源较小的语音合成模型，例如基于hmm(隐马尔可夫模型)或者基于nn(神经网络)的语音合成模型。语音合成引擎也可以应用于临时的导航语音文案的变
化情形，例如在导航过程中，临时调整文案，如用户切换路线或插入紧急播报等，在这种情况下，为了及时进行导航语音播报，可以使用本地语音合成引擎快速生成导航语音并进行播放。
40.另外，为了在出现突发情形时，仍然能够获得较好的语音合成效果，云端的语音合成引擎可以预先将一些高频语句进行合成，生成对应的语音数据，然后，将这些高频语句对应的语音数据发送给客户端，客户端可以存储于本地的语音数据库中，从而在出现无法或者来不及从云端获取语音导航数据的情况下，先从语音数据库中查找导航语音文案中的语句对应的语音数据，并优先采用命中的语音数据，剩下没有命中的导航语音文案中的语句，在通过本地的语音合成引擎来进行语音合成处理，通过这种方式，最大限度的保证了播放出的导航语音来自云端的语音合成引擎，从而确保较高的语音质量。
41.此外，路径规划处理以及导航语音文案的生成可以由云端或者也可以由客户端来完成，相应地，在云端和客户端都可以配置有路径规划处理模块和导航语音文案生成模块。在云端处理的情况下，客户端可以将用户选定的起点和终端地理位置发送给云端，云端可以执行路径规划并生成导航语音文案，进而再生成与规划路径对应的导航语音数据。在客户端执行路径规划的情况下，可以在规划完路径后，进而在本地生成需要的导航语音文案，并发送给云端进行语音合成处理。
42.如图2所示，其为本发明实施例的导航语音的处理方法的流程示意图之一，该方法可以应用于客户端一侧，通过与云端的交互来实现导航过程中的导航语音播报，该客户端可以是安装有地图导航应用的手机终端或者计算机设备，也可以是车载的导航设备等，具体地，该方法包括：
43.s101：响应于导航路径规划处理，向云端发送导航语音请求。用户导航路径规划处理一般起始于用户对于起点和终点的选定操作，起点可以通过用户输入或者选择或者gps定位等方式获得，终点一般由用户选择或者输入来确定。在起点和终点的地理位置信息(例如gps信息)确定后就可以开始执行导航路径规划了，从而形成一条或者多条的规划路径。
44.路径规划完成后，就可以生成对应的导航语音文案了。导航语音文案是指沿途向用户播报的语音文字内容，用来指引用户行进路线并提供相关信息。导航语音文案可以包括路线行进提示，例如“向左转”、“向右转”、“进入xx道路”，也可以包括一些沿途的信息提示，例如“前方堵车，预计通行时间xxx”，此外，还可以包括一些其他方面的信息，例如，天气信息、突发新闻插入等等。导航语音文案可以在云端生成，也可以在客户端本地生成。
45.在本发明实施例中，可以在导航路径规划一开始的时候就向云端发出导航语音请求，并且可以将路径规划处理以及导航语音文案的生成处理让云端来完成，具体地，该步骤s101可以包括：响应于导航路径规划处理，获取起点和终点的地理位置信息；将地理位置信息包含在导航语音请求中向云端发送。
46.此外，路径规划处理以及导航语音文案的生成处理也可以由客户端来完成，在这种情况下，该步骤s101可以包括：响应于导航路径规划处理，获取起点和终点的地理位置信息；根据地理位置信息进行的路径规划并生成导航语音文案；将导航语音文案包含在导航语音请求中向云端发送。
47.s102：接收云端预合成的导航语音数据并进行存储。云端在接收到导航语音请求后，会执行导航语音的合成处理。如前面步骤介绍的，如果客户端在导航语音请求中携带了
导航语音文案，则云端的语音合成引擎可以根据该导航语音文案直接生成导航语音数据。如果客户端在导航语音请求中携带了起点和终点的地理位置信息，则云端先执行路径规划处理，然后生成相应的导航语音文案，进而再执行导航语音的合成处理。云端在生成了导航语音数据后，会发送给客户端，客户端可以存储在内存中，用于在路径导航的过程中进行播报。
48.需要说明的是，云端所执行语音合成处理以及向客户端下发导航语音数据可以分段进行，相应地，在客户端会分段接收云端预合成的导航语音数据并进行存储，从而可以确保客户端能够及时获得一部分导航语音数据，以进行及时播报。
49.具体地，在分段策略方面，可以根据车辆行驶状态和/或路况，车辆行驶状态和/或路况，预先对前方预设距离和/或时间的路线进行预测，并将预测结果向云端发送，以触发云端根据预测路线生成导航语音数据，客户端接收云端返回的预测路线对应的导航语音数据后进行存储，以供后续播报。分段接收的提前量根据车速和路况而定，例如在高速公路的环境下，需要提前较长的距离来获取导航语音数据，而如果在拥堵时段，车速较慢，则可以提前较短的距离来获取导航语音数据，并且由于拥堵时段的路况变化不确定，提前预测太多，也会造成计算资源的浪费。
50.s103：响应于导航处理，读取与行进路径对应的导航语音数据进行播报。在获得部分或者全部规划路径的导航语音数据后，随着导航处理过程，可以提取与当前路径对应的导航语音数据进行播报。
51.在一些情况下，可能会出现向云端请求导航语音失败情形，这种情形可能是因为云端的语音合成引擎出现问题，也可能是网络原因等，在这种情况下，客户端可以进行本地导航语音的合成处理，并根据本地合成的导航语音数据进行播报。如前面介绍的，客户端本地配置的语音合成引擎可以采用占用计算资源较小的语音合成模型，从而能够及时生成导航语音。此外，即使在获取到了云端的预合成的导航语音数据，但是，在导航的图中，也可能会出现导航语音变动的情形，例如，用户临时切换路线，并未按照导航规划的路径走，从而导致需要临时重新规划路线等，再例如，在行进途中，可能插入一些紧急播报，例如前方出现交通事故或者交通堵塞等，这些情形的相关语音播报内容，是很难预先合成的。因此，在这样的临时调整的情况下，也可以由进行本地导航语音的合成处理，从而进行及时的播报。
52.此外，在导航应用的场景下，导航语音文案中的一些语句会有较高的重复率，云端的语音合成引擎可以预先将一些高频语句进行合成，生成对应的语音数据，然后，将这些高频语句对应的语音数据发送给客户端，客户端可以将这些高频的语音数据存储于本地的语音数据库中，用于本地的导航语音数据的合成处理，从而使得客户端在进行离线的本地导航语音数据合成处理中，也能够产生较好的导航语音数据。
53.因此，本实施例的导航语音的处理方法还可以包括：获取云端的根据导航语音文案中的高频语句合成的语音数据，将语音数据存储于本地语音数据库中。相应地，向云端请求导航语音失败或者导航处理过程中出现导航语音变动的情况下，执行本地导航语音的合成处理可以包括：
54.获取导航语音文案，根据导航语音文案在本地语音数据库中进行查询，获取命中导航语音文案的语音数据，根据命中的语音数据生成导航语音数据，和/或，根据未命中的导航语音文案，进行语音很合成处理，生成导航语音数据。
55.导航语音文案可能包括很多高频的语句，例如，“向左转”、“向右转”、“前方限速”等等，这些高频语句可以预先合成并存储在客户端一侧的方式，从而减少了本地的语音合成引擎的处理数据量，同时也确保了这些高频语句能够具有云端的语音合成引擎的语音质量。除了这些高频语句外，导航语音文案还会存在非高频语句，这些非高频语句一般和具体路径相关，例如路径上的接到名称等等，这些语句最终由客户端本地的语音合成引擎来进行合成，然后将这些高频语句和非高频语句对应的导航语音合成在一起，形成完整的导航语音进行播报。
56.进一步的，上述的高频的语句可以基于云端对大量的客户端的导航语音文案进行统计后而得出，通过这样的方式获得的高频的语句具有一定的通用性，例如前面提到的“向左转”、“向右转”、“前方限速”等等，另一方面，高频的语句也可以针对某个客户端的导航语音文案进行统计而得出，通过这样方式获得的高频的语句具有一定的针对性，能够更好地覆盖具体用户的导航需求，例如，某个用户每天上下班的路线基本是固定的，沿途路线的道路名称具有较高的重复性，通过进行统计后，可以生成针对具体客户端所对应的高频的语句。上述的高频语句的统计处理可以定期执行并更新客户端的本地语音数据库。本发明实施例的导航语音的处理方法，在客户端发起导航路径规划处理后，触发云端来预合成导航语音数据并发送给客户端，从而能够借助云端强大的计算处理能力，合成出质量较高的导航语音数据，提高导航语音的播报效果。
57.对于本地合成语音处理，也可以生成多种类型的导航语音数据，作为语音播报的候选，而选择的依据可以根据合成出的语音与之前导航语音的相似度来判断，从而尽可能地与云端合成的语音效果相匹配。具体地，上述的执行本地导航语音的合成处理，并根据本地合成的导航语音进行播报可以包括：将本地导航语音的合成处理生成的多个导航语音数据与已经接收的云端合成的导航语音数据进行相似度计算；根据相似度排名，从本地合成的多个导航语音数据中进行选择并播报，具体可以选择相似度最高的本地合成的导航语音数据进行播报。
58.如图3所示，其为本发明实施例的导航语音的处理方法的流程示意图之二，该方法可以应用于云端，通过与客户端的交互，来为客户端提供导航过程中需要的语音数据，具体地，该方法包括：
59.s201：响应于客户端的导航语音请求，获取导航语音文案。其中，导航语音文案可以在云端生成，也可以在客户端生成。具体地，在云端生成的情况下，导航语音请求中可以包括起点和终点的地理位置信息，相应地，该步骤可以包括：根据起点和终点的地理位置进行路径规划并生成导航语音文案。导航语音文案在客户端生成的情况下，导航语音请求将会直接导航语音文案，相应地，该步骤可以包括：响应于客户端的导航语音请求，从导航语音请求中获取导航语音文案。
60.s202：根据导航语音文案，对导航语音进行预合成。导航语音文案确定后，就可以基于tts模型进行语音合成处理。如前面介绍的，云端的语音合成引擎可以配置例如基于深度学习技术的端到端(end2end)的语音合成模型，从而获得相对流程并且表现力更好的合成语音。
61.s203：将预合成的导航语音数据发送至客户端。其中，上述的语音合成处理以及向客户端发送合成后的导航语音数据可以采用分段的方式进行，例如，按照规划处的路径顺
序，可以先合成初始一小段路径的导航语音数据并发送给客户端，从而让客户端能够配合行进路线进行及时播报，后续部分再陆续发送至客户端。
62.此外，如前面介绍的，云端的语音合成引擎可以获取导航语音文案中的高频语句，并将这些高频语句进行语音合成，生成对应的语音数据，然后，将这些高频语句对应的语音数据发送给客户端，客户端可以将这些高频的语音数据存储于本地的语音数据库中，从而可以在无法从云端及时获得预合成的导航语音数据的情况下，优先使用这些提前合成的高频的语音数据来进行本地的导航语音合成，从而尽可能保持较好的语音播放效果。
63.如前面介绍的，高频语句可以是针对各个客户端形成的海量的导航语音文案进行统计而得出，也可以是针对具体某个客户端的导航语音文案而得出的针对该客户端的高频语句。相应地，获取导航语音文案中的高频语句，对高频语句进行语音合成生成语音数据，并发送至客户端可以具体包括：
64.基于对多个客户端的导航语音文案的统计处理，生成第一高频语句，对第一高频语句进行语音合成生成语音数据，并发送至多个客户端，和/或，基于对指定客户端的导航语音文案的统计处理，生成第二高频语句，对第二高频语句进行语音合成生成语音数据，并发送至指定客户端。上述的第一高频语句是具有普遍适用性的高频语句，例如“向左转”、“向右转”、“前方限速”等等，与该第一高频语句对应的语音数据可以向全部的客户端发送。上述的第二高频语句是具有针对性的高频语句，即具体某个客户端在用户使用过程中而形成的高频语句，例如用户每天上下班的路线基本是固定的，沿途路线的道路名称就属于这种第二高频语句，第二高频语句对应的语音数据会发送给作为统计对象的客户端所使用。
65.本发明实施例的导航语音的处理方法，在客户端发起导航路径规划处理后，由云端来预合成导航语音数据并发送给客户端，从而能够借助云端强大的计算处理能力，合成出质量较高的导航语音数据，提高导航语音的播报效果。
66.如图4所示，其为本发明实施例的导航语音的处理装置的结构示意图之一，该装置可以应用于客户端一侧，通过与云端的交互来实现导航过程中的导航语音播报，该客户端可以是安装有地图导航应用的手机终端或者计算机设备，也可以是车载的导航设备等，具体地，该装置包括：
67.导航语音请求模块11，用于响应于导航路径规划处理，向云端发送导航语音请求。用户导航路径规划处理一般起始于用户对于起点和终点的选定操作，在起点和终点的地理位置信息(例如gps信息)确定后就可以开始执行导航路径规划了，从而形成一条或者多条的规划路径。
68.路径规划完成后，就可以生成对应的导航语音文案了。导航语音文案是指沿途向用户播报的语音文字内容，用来指引用户行进路线并提供相关信息。导航语音文案可以在云端生成，也可以在客户端本地生成。在本发明实施例中，可以在导航路径规划一开始的时候就向云端发出导航语音请求，并且可以将路径规划处理以及导航语音文案的生成处理让云端来完成，具体地，该导航语音请求模块11的处理可以包括：响应于导航路径规划处理，获取起点和终点的地理位置信息；将地理位置信息包含在导航语音请求中向云端发送。
69.此外，路径规划处理以及导航语音文案的生成处理也可以由客户端来完成，在这种情况下，该导航语音请求模块11的处理可以包括：响应于导航路径规划处理，获取起点和终点的地理位置信息；根据地理位置信息进行的路径规划并生成导航语音文案；将导航语
音文案包含在导航语音请求中向云端发送。
70.导航语音数据接收模块12，用于接收云端预合成的导航语音数据并进行存储。如前面介绍的，如果客户端在导航语音请求中携带了导航语音文案，则云端的语音合成引擎可以根据该导航语音文案直接生成导航语音数据。如果客户端在导航语音请求中携带了起点和终点的地理位置信息，则云端先执行路径规划处理，然后生成相应的导航语音文案，进而再执行导航语音的合成处理。云端在生成了导航语音数据后，会发送给客户端，客户端可以存储在内存中，用于在路径导航的过程中进行播报。
71.需要说明的是，云端所执行语音合成处理以及向客户端下发导航语音数据可以分段进行，相应地，在客户端会分段接收云端预合成的导航语音数据并进行存储，从而可以确保客户端能够及时获得一部分导航语音数据，以进行及时播报。
72.导航语音播报模块13，用于响应于导航处理，读取与行进路径对应的导航语音数据进行播报。在获得部分或者全部规划路径的导航语音数据后，随着导航处理过程，可以提取与当前路径对应的导航语音数据进行播报。
73.在一些情况下，可能会出现向云端请求导航语音失败情形，这种情形可能是因为云端的语音合成引擎出现问题，也可能是网络原因等，在这种情况下，客户端可以进行本地导航语音的合成处理，并根据本地合成的导航语音数据进行播报。此外，即使在获取到了云端的预合成的导航语音数据，但是，在导航的图中，也可能会出现导航语音变动的情形，例如，用户临时切换路线，或者，可能插入一些紧急播报，这些情形的相关语音播报内容，是很难预先合成的。因此，在这样的临时调整的情况下，也可以由进行本地导航语音的合成处理，从而进行及时的播报。
74.具体地，本实施例的装置还可以包括：导航语音合成模块14，用于在向云端请求导航语音失败或者在导航处理过程中出现导航语音变动的情况下，执行本地导航语音的合成处理，并触发导航语音播报模块13根据本地合成的导航语音进行播报。
75.此外，为了让客户端在进行本地的导航语音数据的合成处理中，也能够产生较好的导航语音数据，云端的语音合成引擎可以预先将一些高频语句进行合成，生成对应的语音数据，然后，将这些高频语句对应的语音数据发送给客户端，客户端可以将这些高频的语音数据存储于本地的语音数据库中，用于本地的导航语音数据的合成处理。
76.因此，上述的导航语音数据接收模块还可以用于获取云端的根据导航语音文案中的高频语句合成的语音数据，将语音数据存储于本地语音数据库中，相应地，上述的导航语音合成模块14，在向云端请求导航语音失败或者在导航处理过程中出现导航语音变动的情况下，执行本地导航语音的合成处理可以具体包括：
77.获取导航语音文案，根据导航语音文案在本地语音数据库中进行查询，获取命中导航语音文案的语音数据；
78.根据命中的语音数据生成导航语音数据，和/或，根据未命中的导航语音文案，进行语音很合成处理，生成导航语音数据。
79.本发明实施例的导航语音的处理装置，在客户端发起导航路径规划处理后，触发云端来预合成导航语音数据并发送给客户端，从而能够借助云端强大的计算处理能力，合成出质量较高的导航语音数据，提高导航语音的播报效果。
80.如图5所示，其为本发明实施例的导航语音的处理装置的结构示意图之二，该装置
可以应用于云端，通过与客户端的交互，来为客户端提供导航过程中需要的语音数据，具体地，该装置包括：
81.导航语音文案获取模块21，用于响应于客户端的导航语音请求，获取导航语音文案。导航语音文案可以在云端生成，也可以在客户端生成。具体地，在云端生成的情况下，导航语音请求中可以包括起点和终点的地理位置信息，相应地，导航语音文案获取模块21的处理可以包括：根据起点和终点的地理位置进行路径规划并生成导航语音文案。导航语音文案在客户端生成的情况下，导航语音请求将会携带导航语音文案，相应地，导航语音文案获取模块21的处理可以包括：响应于客户端的导航语音请求，从导航语音请求中获取导航语音文案。
82.导航语音合成模块22，用于根据导航语音文案，对导航语音进行预合成。导航语音文案确定后，就可以基于tts模型进行语音合成处理。导航语音合成模块22所配置的语音合成引擎可以采用例如基于深度学习技术的端到端(end2end)的语音合成模型，从而获得相对流程并且表现力更好的合成语音。
83.导航语音数据发送模块23，用于将预合成的导航语音数据发送至客户端。上述的语音合成处理以及向客户端发送合成后的导航语音数据可以采用分段的方式进行，例如，按照规划处的路径顺序，可以先合成初始阶段路径的导航语音数据并发送给客户端，从而让客户端能够配合行进路线进行及时播报，后续部分再陆续发送至客户端。
84.此外，如前面介绍的，云端的语音合成引擎可以获取导航语音文案中的高频语句，并将这些高频语句进行语音合成，生成对应的语音数据，然后，将这些高频语句对应的语音数据发送给客户端，客户端可以将这些高频的语音数据存储于本地的语音数据库中，从而可以在无法从云端及时获得预合成的导航语音数据的情况下，优先使用这些提前合成的高频的语音数据来进行本地的导航语音合成，从而尽可能保持较好的语音播放效果。相应地，导航语音合成模块22还用于获取导航语音文案中的高频语句，对高频语句进行语音合成生成语音数据，并通过导航语音数据23发送模块发送至客户端。
85.如前面介绍的，高频语句可以是针对各个客户端形成的海量的导航语音文案进行统计而得出，也可以是针对具体某个客户端的导航语音文案而得出的针对该客户端的高频语句。相应地，获取导航语音文案中的高频语句，对高频语句进行语音合成生成语音数据，并发送至客户端可以具体包括：
86.基于对多个客户端的导航语音文案的统计处理，生成第一高频语句，对第一高频语句进行语音合成生成语音数据，并发送至多个客户端，和/或，基于对指定客户端的导航语音文案的统计处理，生成第二高频语句，对第二高频语句进行语音合成生成语音数据，并发送至指定客户端。
87.本发明实施例的导航语音的处理装置，在客户端发起导航路径规划处理后，由云端来预合成导航语音数据并发送给客户端，从而能够借助云端强大的计算处理能力，合成出质量较高的导航语音数据，提高导航语音的播报效果。
88.此外，本发明实施例还提供了一种虚拟主播播报的处理方法，可以应用于例如商品销售或者在线教育等方面的直播互动。以教育直播为例，主播在进行在线授课的过程中，观看直播的用户可能会对授课内容存在问题，会在线发起提问，在这种情况下，对于一些常规性的问题可以预先设定好答案或者基于搜索引擎来获取一些答案，然后使用本发明实施
例提供的方法，将这些答案内容进行语音合成处理，形成具有当前主播风格或者特定虚拟角色风格的语音数据，并以虚拟主播的形式进行播放。
89.具体地，在客户端一侧，本发明实施例的虚拟主播播报的处理方法可以包括：
90.s301：在直播的过程中，向云端发送查询请求。该查询请求可以是基于用户输入的文字形式的提问或者用户通过语音输入形式的提问，在客户端的直播界面中，可以设置有用户与虚拟主播之间之间的交互界面，用户可以在这个交互界面上输入各种问题。
91.s302：接收云端根据答复内容进行语音合成出的模拟当前主播或者虚拟角色的语音答复数据。如前面所介绍的，在云端可以利用数据资源以及服务器处理性能方面的优势，运行较为复杂的语音合成模型，这些模型可以预先使用主播的语义数据或者希望的虚拟角色(例如经过授权的明星或者动漫人物等)的语音数据进行训练，从而使得合成的语音数据具有对应的声音特点和语言风格。
92.s302：播放所述语音答复数据。具体地可以在上述的用户与虚拟主播之间的交互界面中进行语音播放，从用户视角来看，相当于在主播讲解的同时，还有另一个虚拟主播在与用户进行交互，回答用户的各种问题。
93.此外，云端除了向客户端提供合成好的语音答复数据外，还可以向客户端提供文本形式的答复内容。在一些情况下，如果云端无法成功合成语音答复数据，则客户端可以根据文本的答复内容，在本地进行语音合成并播放。具体地，上述方法还可以包括：接收云端返回的答复内容；如果未收到云端合成的语音答复数据，则根据所述答复内容，执行本地语音合成处理，生成本地合成的语音答复数据；播放本地合成的语音答复数据。
94.本发明实施例的虚拟主播播报的处理方法，可以很好的辅助主播与作为用户的观众进行交互，帮助主播处理各种观众的提问，同时又不会影响主播自身的直播节奏，用户也能获得与主播或者特定虚拟角色进行交互的体验。前面实施例描述了导航语音的处理方法和虚拟主播播报的处理方法的流程处理及装置结构，上述的方法和装置的功能可借助一种电子设备实现完成，如图6所示，其为本发明实施例的电子设备的结构示意图，具体包括：存储器110和处理器120。
95.存储器110，用于存储程序。
96.除上述程序之外，存储器110还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。
97.存储器110可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
98.处理器120，耦合至存储器110，用于执行存储器110中的程序，以执行前述实施例中所描述的导航语音的处理方法或者虚拟主播播报的处理方法的操作步骤。
99.此外，处理器120也可以包括前述实施例所描述的各种模块以执行导航语音的处理或者虚拟主播播报的处理，并且存储器110可以例如用于存储这些模块执行操作所需要的数据和/或所输出的数据。
100.对于上述处理过程具体说明、技术原理详细说明以及技术效果详细分析在前面实
施例中进行了详细描述，在此不再赘述。
101.进一步，如图所示，电子设备还可以包括：通信组件130、电源组件140、音频组件150、显示器160等其它组件。图中仅示意性给出部分组件，并不意味着电子设备只包括图中所示组件。
102.通信组件130被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如wifi，2g、3g、4g/lte、5g等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件130经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件130还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
103.电源组件140，为电子设备的各种组件提供电力。电源组件140可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。
104.音频组件150被配置为输出和/或输入音频信号。例如，音频组件150包括一个麦克风(mic)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器110或经由通信组件130发送。在一些实施例中，音频组件150还包括一个扬声器，用于输出音频信号。
105.显示器160包括屏幕，其屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。
106.此外，本发明实施例还提供了一种计算机程序产品，包括计算机程序或指令，当计算机程序或指令被处理器执行时，致使处理器实现前述的导航语音的处理方法或者虚拟主播播报的处理方法。
107.本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
108.最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韩卫生雷鸣万玉龙高杰
技术所有人：阿里巴巴新加坡控股有限公司
我是此专利的发明人

上一篇：关于疾病的多状态模型的机器学习的制作方法
上一篇：一种带有束线结构的网络线

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。