语音播报方法、装置、存储介质和计算机设备与流程

文档序号：34566171发布日期：2023-06-28 11:05阅读：29来源：国知局

本技术涉及信息管理，尤其是涉及到一种语音播报方法、装置、存储介质和计算机设备。

背景技术：

1、在日常的生活工作中，常常会面临许多需要对数字内容进行语音播报的情况。例如，在交易活动中，商家通常会使用手机支付软件内置的插件程序来自动语音播报商家的账户上所收到的钱款的金额数目。

2、相关技术中，音箱通常采用了文字转语音(texttospeech，tts)的方式进行语音合成播报，但这种形式播报需要通过硬件将语料库刻制到音箱介质中，并基于音箱本地的语料库对文字进行tts处理，容易导致语料库更新不及时的情况，而且播报声音音色比较机械、生硬，不符合人类的语音习惯，甚至影响收听者对所播报的数字内容的理解，那以适用于一些方言地区或者特殊业务场景。

技术实现思路

1、有鉴于此，本技术提供了一种语音播报方法、装置、存储介质和计算机设备，通过批量推送多种语音类型的语音包，使智能设备能够通过本地存储的多种语音类型的语音包进行播报，达到高效、流畅地进行语音播报的目的。

2、根据本技术的第一个方面，提供了一种语音播报方法，应用于服务端，该方法包括：

3、生成至少一种语音类型的语音包，其中，语音包包括第一语料的发音信息和预设语料标识；

4、将至少一种语音类型的语音包发送至智能设备，以及将至少一种语音类型的语音包的属性信息发送至商家端；

5、若接收到商家端发送的目标语料和目标语料的目标语音类型，根据目标语音类型确定目标语料的目标语料标识，以及确定目标语料标识的排列顺序；

6、将目标语料的播报指令发送至商家端关联的智能设备，其中，播报指令携带有目标语料标识和排列顺序，以供智能设备根据目标语音类型的语音包、目标语料标识和排列顺序确定目标语料的音频文件，并播放音频文件。

7、可选地，生成至少一个语音类型的语音包，包括：

8、获取至少一个预设语料；

9、确定至少一个预设语料中的第一语料；

10、显示语音包界面，其中，语音包界面包括第一控件；

11、响应于对第一控件的第一输入，显示语音包创建窗口；

12、响应于对语音包创建窗口的第二输入，获取第一语音类型；

13、根据第一语音类型，确定第一语料的发音信息和第一语料的预设语料标识；

14、组装第一语料的发音信息和第一语料的预设语料标识，得到第一语音类型的语音包。

15、可选地，获取至少一个预设语料，包括：

16、显示语料界面，其中，语音包界面包括第二控件；

17、响应于对第二控件的第三输入，显示语料创建窗口；

18、响应于对语料创建窗的第四输入，确定预设语料和预设语料的语料类型，其中，语料类型包括通用类型和定制类型。

19、可选地，确定至少一个预设语料中的第一语料，包括：

20、在语音包创建窗口上显示属于定制类型的预设语料；

21、响应于对语音包创建窗口的第五输入，确定第二语料，其中，第二语料为第五输入对应的属于定制类型的预设语料；

22、将属于通用类型的预设语料和/或第二语料确定为第一语料。

23、可选地，根据第一语音类型，确定第一语料的发音信息，包括：

24、将第一语料输入第一语音类型对应的发音模型，得到第一语料的发音信息，其中，发音模型根据音频样本和语料标签训练得到。

25、可选地，根据第一语音类型，确定第一语料的预设语料标识，包括：

26、确定与第一语音类型匹配的第一字节数组；

27、根据第一语料的拼音信息确定第二字节数组；

28、按照预设生成规则对第一字节数组和第二字节数组进行处理，生成预设语料标识。

29、可选地，语音播报方法还包括：

30、若预设语料发生变化，确定预设语料对应的语音包的第二语音类型；

31、将变化后的预设语料输入第二语音类型对应的发音模型，得到变化后的预设语料的发音信息；

32、根据变化后的预设语料的发音信息更新预设语料对应的语音包。

33、可选地，确定目标语料标识的排列顺序，包括：

34、对目标语料进行识别处理，确定目标语料中相邻语料之间的连接顺序；

35、根据连接顺序配置目标语料标识的排列顺序。

36、可选地，将至少一种语音类型的语音包发送至智能设备，包括：

37、显示至少一种语音类型的语音包的属性信息；

38、响应于第六输入，将第六输入对应的属性信息所属的语音包发送至智能设备；

39、其中，语音类型包括以下至少一种：语种、语速、音色和音量。

40、可选地，将至少一种语音类型的语音包发送至智能设备，包括：

41、接收商家端发送的第三语音类型，并将第三语音类型的语音包发送至智能设备；

42、其中，语音类型包括以下至少一种：语种、语速、音色和音量。

43、可选地，语音播报方法还包括：

44、若目标语音类型和第三语音类型不同，将目标语音类型的语音包发送至智能设备。

45、根据本技术的第二个方面，提供了一种语音播报方法，应用于智能设备，该方法包括：

46、若接收到服务端发送的语音包，存储语音包，其中，语音包包括第一语料的发音信息和预设语料标识；

47、接收服务端发送的目标语料的播报指令；

48、对播报指令进行解析处理，确定目标语料对应的目标语料标识和目标语料标识的排列顺序；

49、根据预设语料标识和目标语料标识的对比结果，确定目标语料的发音信息；

50、根据排列顺序对目标语料的发音信息进行拼接处理，确定目标语料的音频文件；

51、播放音频文件。

52、可选地，确定目标语料的发音信息之后，语音播报方法还包括：

53、若排列顺序中相邻目标语料标识对应的发音信息属于多个语音类型的语音包，将目标语料中相邻目标语料标识对应的语料确定为衔接语料；

54、根据多个语音类型确定衔接语料的发音修正信息；

55、按照发音修正信息调整衔接语料的发音信息。

56、根据本技术的第三个方面，提供了一种语音播报方法，应用于商家端，该方法包括：

57、接收服务端发送的至少一种语音类型的语音包的属性信息；

58、响应于第七输入，显示语音配置界面，其中，语音配置界面包括属性信息；

59、响应于对语音配置界面的第八输入，将第八输入对应的属性信息中语音类型确定为目标语音类型；

60、获取目标语料；

61、若目标语料符合商家端所属用户的语料权限，将目标语料和目标语音类型发送至服务端，以供服务端根据目标语料和目标语音类型确定目标语料的目标语料标识，并将携带有目标语料标识的播报指令发送至商家端关联的智能设备。

62、根据本技术的第四个方面，提供了一种语音播报装置，应用于服务端，该装置包括：

63、管理模块，用于生成至少一种语音类型的语音包，其中，语音包包括第一语料的发音信息和预设语料标识；

64、通信模块，用于将至少一种语音类型的语音包发送至智能设备，以及将至少一种语音类型的语音包的属性信息发送至商家端；

65、确定模块，用于若接收到商家端发送的目标语料和目标语料的目标语音类型，根据目标语音类型确定目标语料的目标语料标识，以及确定目标语料标识的排列顺序；

66、通信模块，还用于将目标语料的播报指令发送至商家端关联的智能设备，其中，播报指令携带有目标语料标识和排列顺序，以供智能设备根据目标语音类型的语音包、目标语料标识和排列顺序确定目标语料的音频文件，并播放音频文件。

67、可选地，管理模块，具体用于获取至少一个预设语料；以及，

68、确定至少一个预设语料中的第一语料；

69、语音播报装置还包括：

70、第一显示模块，用于显示语音包界面，其中，语音包界面包括第一控件；以及，响应于对第一控件的第一输入，显示语音包创建窗口；

71、管理模块，具体用于响应于对语音包创建窗口的第二输入，获取第一语音类型；以及，根据第一语音类型，确定第一语料的发音信息和第一语料的预设语料标识；以及，组装第一语料的发音信息和第一语料的预设语料标识，得到第一语音类型的语音包。

72、可选地，第一显示模块，还用于显示语料界面，其中，语音包界面包括第二控件；以及，响应于对第二控件的第三输入，显示语料创建窗口；

73、管理模块，具体用于响应于对语料创建窗的第四输入，确定预设语料和预设语料的语料类型，其中，语料类型包括通用类型和定制类型。

74、可选地，第一显示模块，还用于在语音包创建窗口上显示属于定制类型的预设语料；

75、管理模块，具体用于响应于对语音包创建窗口的第五输入，确定第二语料，其中，第二语料为第五输入对应的属于定制类型的预设语料；以及，将属于通用类型的预设语料和/或第二语料确定为第一语料。

76、可选地，管理模块，具体用于将第一语料输入第一语音类型对应的发音模型，得到第一语料的发音信息，其中，发音模型根据音频样本和语料标签训练得到。

77、可选地，管理模块，具体用于确定与第一语音类型匹配的第一字节数组；根据第一语料的拼音信息确定第二字节数组；按照预设生成规则对第一字节数组和第二字节数组进行处理，生成预设语料标识。

78、可选地，语音播报装置还包括：

79、更新模块，用于若预设语料发生变化，确定预设语料对应的语音包的第二语音类型；将变化后的预设语料输入第二语音类型对应的发音模型，得到变化后的预设语料的发音信息；根据变化后的预设语料的发音信息更新预设语料对应的语音包。

80、可选地，确定模块，具体用于对目标语料进行识别处理，确定目标语料中相邻语料之间的连接顺序；根据连接顺序配置目标语料标识的排列顺序。

81、可选地，语音播报装置还包括：

82、第二显示模块，用于显示至少一种语音类型的语音包的属性信息；

83、通信模块，具体用于响应于第六输入，将第六输入对应的属性信息所属的语音包发送至智能设备；其中，语音类型包括以下至少一种：语种、语速、音色和音量。

84、可选地，通信模块，具体用于接收商家端发送的第三语音类型，并将第三语音类型的语音包发送至智能设备；其中，语音类型包括以下至少一种：语种、语速、音色和音量。

85、可选地，通信模块，还用于若目标语音类型和第三语音类型不同，将目标语音类型的语音包发送至智能设备。

86、根据本技术的第五个方面，提供了一种语音播报装置，应用于智能设备，该装置包括：

87、存储模块，用于若接收到服务端发送的语音包，存储语音包，其中，语音包包括第一语料的发音信息和预设语料标识；

88、通信模块，用于接收服务端发送的目标语料的播报指令；

89、解析模块，用于对播报指令进行解析处理，确定目标语料对应的目标语料标识和目标语料标识的排列顺序；

90、处理模块，用于根据预设语料标识和目标语料标识的对比结果，确定目标语料的发音信息；以及，根据排列顺序对目标语料的发音信息进行拼接处理，确定目标语料的音频文件；

91、播放模块，用于播放音频文件。

92、可选地，语音播报装置还包括：

93、确定模块，用于若排列顺序中相邻目标语料标识对应的发音信息属于多个语音类型的语音包，将目标语料中相邻目标语料标识对应的语料确定为衔接语料；以及，根据多个语音类型确定衔接语料的发音修正信息；

94、处理模块，还用于按照发音修正信息调整衔接语料的发音信息。

95、根据本技术的第六个方面，提供了一种语音播报装置，应用于商家端，该装置包括：

96、通信模块，用于接收服务端发送的至少一种语音类型的语音包的属性信息；

97、显示模块，用于响应于第七输入，显示语音配置界面，其中，语音配置界面包括属性信息；

98、配置模块，用于响应于对语音配置界面的第八输入，将第八输入对应的属性信息中语音类型确定为目标语音类型；

99、获取模块，用于获取目标语料；

100、通信模块，还用于若目标语料符合商家端所属用户的语料权限，将目标语料和目标语音类型发送至服务端，以供服务端根据目标语料和目标语音类型确定目标语料的目标语料标识，并将携带有目标语料标识的播报指令发送至商家端关联的智能设备。

101、根据本技术第七个方面，提供了可读存储介质，其上存储有程序或指令，程序或指令被处理器执行时实现上述语音播报方法的步骤。

102、根据本技术第八个方面，提供了一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，处理器执行程序时实现上述语音播报方法的步骤。

103、借由上述技术方案，运营人员可通过服务端配置多种不同语音类型的语音包，以便于按需将不同语音类型的语音包推送至具备语音播报功能的智能设备，智能设备接收到语音包后对其进行存储，以便于智能设备从本地直接获取语音素材，不仅无需智能设备实时下载大量语音包，降低语音播报时的通信带宽占用，保证语音播报的流畅性，而且多种不同语音类型的语音包能够实现了多场景、多类型的语音播报，提升收听者的使用体验。此外，当商家需要对目标语料进行播报时，可通过商家端从服务端提供的多种语音类型语音包中选择用于播报的目标语音类型。服务端接收到目标语料和目标语音类型后，利用目标语音类型对应的语音包匹配目标语料的目标语料标识，同时按照目标语料中各个语料的连接顺序确定目标语料标识的排列顺序。服务端只需将目标语料标识和排列顺序发送至智能设备，智能设备就可以利用简化后的目标语料标识和已存储的语音包匹配出目标语料的发音信息。由此，智能设备按照排列顺序拼接不同目标语料标识对应的发音信息得到待播放的目标语料的音频文件。从而通过具备排列顺序的目标语料标识代替目标语料的文本进行传输，不仅进一步降低通信传输的数据量，而且实现了音频文件的动态组合，更加适用于不同内容的播报，优化了整体播报的流畅度。

104、上述说明仅是本技术技术方案的概述，为了能够更清楚了解本技术的技术手段，而可依照说明书的内容予以实施，并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂，以下特举本技术的具体实施方式。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：庞毅杰吴志平孙战平韩军燕王英姿刘伟超
技术所有人：银联商务股份有限公司
我是此专利的发明人

上一篇：一种智慧化废旧金属回收用抓钢机的制作方法
上一篇：一种房建地面施工赶平设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。