语音应答方法、装置及智能问答系统与流程

文档序号：29861198发布日期：2022-04-30 11:07阅读：235来源：国知局

1.本技术涉及语音应答领域，具体而言，涉及一种语音应答方法、装置、计算机可读存储介质、处理器及智能问答系统。

背景技术：

2.现有的对话机器人系统在提供问答服务时，通过调用语音合成能力进行话术的播报时，调节语速的方案中第一种方案是为机器人配置一个语速播报的参数，机器人播报语速全部按照此机器人的语速参数来执行。第二种方案是基于asr转写的文本内容所属的领域去调整机器人的播报语速。
3.现有对话机器人系统在针对机器人的语速调节上比较单一，要么是固定语速参数配置，要么可以依据asr转写文本所属领域调节机器人的播报语速，要么依据客户用户画像调整机器人的播报语速。但针对同一个用户在不同情境下如果存在习惯语速变化的情况，不能依据不同用户在不同情境下的语速变化情况动态调整机器人的播报语速，进而无法提升用户体验。
4.在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解，因此，背景技术中可能包含某些信息，这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。

技术实现要素：

5.本技术的主要目的在于提供一种语音应答方法、装置、计算机可读存储介质、处理器及智能问答系统，以解决现有技术中问答服务的语速调节不灵活导致用户体验差的问题。
6.根据本发明实施例的一个方面，提供了一种语音应答方法，包括：获取用户提问的语音，得到提问语音；对所述提问语音进行语音识别和语速检测，得到提问内容和提问语速，所述提问内容为所述提问语音转写得到的文字；对所述提问内容进行智能问答，得到智能问答结果；根据所述智能问答结果和所述提问语速进行语音合成，得到播报语音；将所述播报语音进行播报。
7.可选地，根据所述智能问答结果和所述提问语速进行语音合成，得到播报语音，包括：根据所述提问语速所在的语速范围确定语音合成标记语言，所述语速范围与所述语音合成标记语言的扩展级别值一一对应，所述扩展级别值用于表征语速的快慢；根据所述智能问答结果和所述语音合成标记语言合成所述播报语音。
8.可选地，根据所述智能问答结果和所述标记语言合成所述播报语音，包括：将所述智能问答结果和所述语音合成标记语言输入tts引擎，并调用所述tts引擎合成语音，得到所述播报语音。
9.可选地，对所述提问内容进行智能问答，得到智能问答结果，包括：根据请求参数调用nlu智能问答接口对所述提问内容进行智能问答，得到所述智能问答结果，所述请求参
数为所述nlu智能问答接口的请求参数。
10.可选地，获取用户提问的语音，得到提问语音，包括：接受通话呼叫并获取通话语音，得到所述提问语音，所述通话呼叫为所述用户通过网关或者呼叫中心发起的。
11.可选地，所述语音合成标记语言为s3ml标注语言，所述s3ml标注语言至少用于控制所述播报语音的语速。
12.根据本发明实施例的另一方面，提供了一种语音应答装置，包括：获取单元，用于获取用户提问的语音，得到提问语音；第一处理单元，用于对所述提问语音进行语音识别和语速检测，得到提问内容和提问语速，所述提问内容为所述提问语音转写得到的文字；第二处理单元，用于对所述提问内容进行智能问答，得到智能问答结果；合成单元，用于根据所述智能问答结果和所述提问语速进行语音合成，得到播报语音；播报单元，用于将所述播报语音进行播报。
13.根据本发明实施例的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行任意一种所述的方法。
14.根据本发明实施例的又一方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任意一种所述的方法。
15.根据本发明实施例的再一方面，提供了一种智能问答系统，包括语音应答装置，其特征在于，所述语音应答装置用于执行任意一种所述的方法。
16.在本发明实施例中，上述语音应答方法中，首先，获取用户提问的语音，得到提问语音；然后，对上述提问语音进行语音识别和语速检测，得到提问内容和提问语速，上述提问内容为上述提问语音转写得到的文字；之后，对上述提问文字进行智能问答，得到智能问答结果；之后，根据上述智能问答结果和上述提问语速进行语音合成，得到播报语音；最后，将上述播报语音进行播报。该方法通过检测提问语音的语速得到提问语速，通过提问语速调整智能问答结果合成的语音的语速，得到播报语音，使得播报语音根据不同情境下如果存在习惯语速变化动态调整播报语速，从而提升用户体验，解决了现有技术中问答服务的语速调节不灵活导致用户体验差的问题。
附图说明
17.构成本技术的一部分的说明书附图用来提供对本技术的进一步理解，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
18.图1示出了根据本技术的一种实施例的语音应答方法的流程图；
19.图2示出了根据本技术的一种实施例的语音应答装置的示意图；
20.图3示出了根据本技术的一种实施例的语音应答系统的示意图。
具体实施方式
21.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
22.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人
员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
23.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
24.应该理解的是，当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时，该元件可直接在该另一元件上，或者也可存在中间元件。而且，在说明书以及权利要求书中，当描述有元件“连接”至另一元件时，该元件可“直接连接”至该另一元件，或者通过第三元件“连接”至该另一元件。
25.正如背景技术中所说的，现有技术中的问答服务的语速调节不灵活导致用户体验差的问题，为了解决上述问题，本技术的一种典型的实施方式中，提供了一种语音应答方法、装置、计算机可读存储介质、处理器及智能问答系统。
26.根据本技术的实施例，提供了一种语音应答方法。
27.图1是根据本技术实施例的语音应答方法的流程图。如图1所示，该方法包括以下步骤：
28.步骤s101，获取用户提问的语音，得到提问语音；
29.步骤s102，对上述提问语音进行语音识别和语速检测，得到提问内容和提问语速，上述提问内容为上述提问语音转写得到的文字；
30.步骤s103，对上述提问内容进行智能问答，得到智能问答结果；
31.步骤s104，根据上述智能问答结果和上述提问语速进行语音合成，得到播报语音；
32.步骤s105，将上述播报语音进行播报。
33.在本发明实施例中，上述语音应答方法中，首先，获取用户提问的语音，得到提问语音；然后，对上述提问语音进行语音识别和语速检测，得到提问内容和提问语速，上述提问内容为上述提问语音转写得到的文字；之后，对上述提问文字进行智能问答，得到智能问答结果；之后，根据上述智能问答结果和上述提问语速进行语音合成，得到播报语音；最后，将上述播报语音进行播报。该方法通过检测提问语音的语速得到提问语速，通过提问语速调整智能问答结果合成的语音的语速，得到播报语音，使得播报语音根据不同情境下如果存在习惯语速变化动态调整播报语速，从而提升用户体验，解决了现有技术中问答服务的语速调节不灵活导致用户体验差的问题。
34.需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
35.本技术的一种实施例中，根据上述智能问答结果和上述提问语速进行语音合成，得到播报语音，包括：根据上述提问语速所在的语速范围确定语音合成标记语言，上述语速范围与上述语音合成标记语言的扩展级别值一一对应，上述扩展级别值用于表征语速的快慢；根据上述智能问答结果和上述语音合成标记语言合成上述播报语音。针对同一个用户
在不同情境下如果存在习惯语速变化的情况，依据不同用户在不同情境下的语速变化情况动态调整机器人的播报语速，跟随用户说话节奏而反映，进而去提升用户体验。
36.具体地，rate为语速的快慢，合法值为：级别值，语音合成标记语言扩展级别值，级别值rate为："x-fast","fast","medium","slow","x-slow"和"default"。预定义值的实际相对大小为：x-fast＝l9,fast＝l7,medium＝l5,slow＝l3,x-slow＝l1，将语音合成标记语言的l0—l9与上述提问语速建立映射。例如，x字/秒～y字/秒映射l0；z字/秒～w字/秒映射l1等。
37.本技术的一种实施例中，根据上述智能问答结果和上述标记语言合成上述播报语音，包括：将上述智能问答结果和上述语音合成标记语言输入tts引擎，并调用上述tts引擎合成语音，得到上述播报语音。具体地，tts引擎可以将文本转化为语音输出，从而可以将上述智能问答结果转换为语音，并通过语音合成标记语言调整语音的语速，形成上述播报语音。
38.本技术的一种实施例中，对上述提问内容进行智能问答，得到智能问答结果，包括：根据请求参数调用nlu智能问答接口对上述提问内容进行智能问答，得到上述智能问答结果，上述请求参数为上述nlu智能问答接口的请求参数。具体地，nlu为智能语音理解，通过建立计算机框架来实现语言能力、语言应用的语言模型，利用相应的方法来不断地完善语言模型。
39.本技术的一种实施例中，获取用户提问的语音，得到提问语音，包括：接受通话呼叫并获取通话语音，得到上述提问语音，上述通话呼叫为上述用户通过网关或者呼叫中心发起的。具体地，用户通过网关或者呼叫中心发起的通话呼叫，接受通话呼叫建立通话即可获取通话语音得到提问语音，从而根据提问语音实现智能问答。
40.本技术的一种实施例中，上述语音合成标记语言为s3ml标注语言，上述s3ml标注语言至少用于控制上述播报语音的语速。具体地，s3ml标记语言的功能包括进度反馈、音量调节、语速调节、音高调节等。s3ml符合ssml国际规范，并在其基础上进一步细化了部分较为笼统的定义，同时针对中文语音合成作了适当扩展。
41.本技术实施例还提供了一种语音应答装置，需要说明的是，本技术实施例的语音应答装置可以用于执行本技术实施例所提供的用于语音应答方法。以下对本技术实施例提供的语音应答装置进行介绍。
42.图2是根据本技术实施例的语音应答装置的示意图。如图2所示，该装置包括：
43.获取单元10，用于获取用户提问的语音，得到提问语音；
44.第一处理单元20，用于对上述提问语音进行语音识别和语速检测，得到提问内容和提问语速，上述提问内容为上述提问语音转写得到的文字；
45.第二处理单元30，用于对上述提问内容进行智能问答，得到智能问答结果；
46.合成单元40，用于根据上述智能问答结果和上述提问语速进行语音合成，得到播报语音；
47.播报单元50，用于将上述播报语音进行播报。
48.上述语音应答装置中，获取单元用于获取用户提问的语音，得到提问语音；第一处理模块用于对上述提问语音进行语音识别和语速检测，得到提问内容和提问语速，上述提问内容为上述提问语音转写得到的文字；第二处理模块，用于对上述提问内容进行智能问
答，得到智能问答结果；合成单元，用于根据上述智能问答结果和上述提问语速进行语音合成，得到播报语音；确定模块，合成模块播报单元，用于将上述播报语音进行播报。该装置通过检测提问语音的语速得到提问语速，通过提问语速调整智能问答结果合成的语音的语速，得到播报语音，使得播报语音根据不同情境下如果存在习惯语速变化动态调整播报语速，从而提升用户体验，解决了现有技术中问答服务的语速调节不灵活导致用户体验差的问题。
49.本技术的一种实施例中，上述合成单元包括确定模块和合成模块，其中，上述确定模块用于根据上述提问语速所在的语速范围确定语音合成标记语言，上述语速范围与上述语音合成标记语言的扩展级别值一一对应，上述扩展级别值用于表征语速的快慢；上述合成模块用于根据上述智能问答结果和上述语音合成标记语言合成上述播报语音。具体地，针对同一个用户在不同情境下如果存在习惯语速变化的情况，依据不同用户在不同情境下的语速变化情况动态调整机器人的播报语速，跟随用户说话节奏而反映，进而去提升用户体验。
50.另外，rate为语速的快慢，合法值为：级别值，语音合成标记语言扩展级别值，级别值rate为："x-fast","fast","medium","slow","x-slow"和"default"。预定义值的实际相对大小为：x-fast＝l9,fast＝l7,medium＝l5,slow＝l3,x-slow＝l1，将语音合成标记语言的l0—l9与上述提问语速建立映射。例如，x字/秒～y字/秒映射l0；z字/秒～w字/秒映射l1等。
51.本技术的一种实施例中，上述合成模块包括调用子模块，上述调用子模块用于将上述智能问答结果和上述语音合成标记语言输入tts引擎，并调用上述tts引擎合成语音，得到上述播报语音。具体地，tts引擎可以将文本转化为语音输出，从而可以将上述智能问答结果转换为语音，并通过语音合成标记语言调整语音的语速，形成上述播报语音。
52.本技术的一种实施例中，上述第二处理单元包括处理模块，上述处理模块用于根据请求参数调用nlu智能问答接口对上述提问内容进行智能问答，得到上述智能问答结果，上述请求参数为上述nlu智能问答接口的请求参数。具体地，nlu为智能语音理解，通过建立计算机框架来实现语言能力、语言应用的语言模型，利用相应的方法来不断地完善语言模型。
53.本技术的一种实施例中，上述获取单元包括获取模块，上述获取模块用于接受通话呼叫并获取通话语音，得到上述提问语音，上述通话呼叫为上述用户通过网关或者呼叫中心发起的。具体地，用户通过网关或者呼叫中心发起的通话呼叫，接受通话呼叫建立通话即可获取通话语音得到提问语音，从而根据提问语音实现智能问答。
54.本技术的一种实施例中，上述语音合成标记语言为s3ml标注语言，上述s3ml标注语言至少用于控制上述播报语音的语速。具体地，s3ml标记语言的功能包括进度反馈、音量调节、语速调节、音高调节等。s3ml符合ssml国际规范，并在其基础上进一步细化了部分较为笼统的定义，同时针对中文语音合成作了适当扩展。
55.本技术实施例还提供了一种智能问答系统，包括语音应答装置，上述语音应答装置用于执行任意一种上述的方法。
56.上述智能问答系统中，包括语音应答装置，获取单元用于获取用户提问的语音，得到提问语音；第一处理模块用于对上述提问语音进行语音识别和语速检测，得到提问内容
和提问语速，上述提问内容为上述提问语音转写得到的文字；第二处理模块，用于对上述提问内容进行智能问答，得到智能问答结果；合成单元，用于根据上述智能问答结果和上述提问语速进行语音合成，得到播报语音；确定模块，合成模块播报单元，用于将上述播报语音进行播报。该装置通过检测提问语音的语速得到提问语速，通过提问语速调整智能问答结果合成的语音的语速，得到播报语音，使得播报语音根据不同情境下如果存在习惯语速变化动态调整播报语速，从而提升用户体验，解决了现有技术中问答服务的语速调节不灵活导致用户体验差的问题。
57.需要说明的是，如图3所示，上述智能问答系统包括ivr系统和对话机器人系统，上述智能问答系统应用于智能对话机器人，对话机器人是一种基于自然语言处理(nlp)技术开发的一种智能交互应用系统，运用智能人机交互技术，通过文字等方式提供智能问答服务，上述智能问答系统进行语音应答的步骤包括：客户通过网关或者呼叫中心发起通话呼叫，接受通话呼叫并获取通话语音，得到上述提问语音，呼叫中心调asr引擎对提问语音进行语音识别并获得提问内容与提问语速，呼叫中心将提问内容及其他问答接口请求参数送入问答接口，智能对话机器人问答接口服务调用nlu智能问答接口对提问内容进行智能问答并返回智能问答结果；ivr系统调“asr语速检测结果与s3ml标注语言映射模块”获得该句用户提问语速对应的s3ml标注语言，ivr系统解析问答接口返参中的答案并结合s3ml标注语言，调tts引擎实现语音合成播报语音，ivr系统将播报语音播报给用户。
58.上述语音应答装置包括处理器和存储器，上述获取单元、第一处理单、单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
59.处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决了现有技术中问答服务的语速调节不灵活导致用户体验差的问题。
60.存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)，存储器包括至少一个存储芯片。
61.本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现上述语音应答方法。
62.本发明实施例提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述语音应答方法。
63.本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：
64.步骤s101，获取用户提问的语音，得到提问语音；
65.步骤s102，对提问语音进行语音识别和语速检测，得到提问内容和提问语速，提问内容为提问语音转写得到的文字；
66.步骤s103，对提问内容进行智能问答，得到智能问答结果；
67.步骤s104，根据智能问答结果和提问语速进行语音合成，得到播报语音；
68.步骤s105，将播报语音进行播报。
69.本文中的设备可以是服务器、pc、pad、手机等。
70.本技术还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：
71.步骤s101，获取用户提问的语音，得到提问语音；
72.步骤s102，对提问语音进行语音识别和语速检测，得到提问内容和提问语速，提问内容为提问语音转写得到的文字；
73.步骤s103，对提问内容进行智能问答，得到智能问答结果；
74.步骤s104，根据智能问答结果和提问语速进行语音合成，得到播报语音；
75.步骤s105，将播报语音进行播报。
76.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
77.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
78.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
79.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
80.上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的计算机可读存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
81.从以上的描述中，可以看出，本技术上述的实施例实现了如下技术效果：
82.1)、本技术的语音应答方法中，获取用户提问的语音，得到提问语音；对上述提问语音进行语音识别和语速检测，得到提问内容和提问语速，上述提问内容为上述提问语音转写得到的文字；对上述提问文字进行智能问答，得到智能问答结果；根据上述智能问答结果和上述提问语速进行语音合成，得到播报语音；将上述播报语音进行播报。该方法通过检测提问语音的语速得到提问语速，通过提问语速调整智能问答结果合成的语音的语速，得到播报语音，使得播报语音根据不同情境下如果存在习惯语速变化动态调整播报语速，从而提升用户体验，解决了现有技术中问答服务的语速调节不灵活导致用户体验差的问题。
83.2)、本技术的语音应答装置中，获取单元用于获取用户提问的语音，得到提问语
音；第一处理模块用于对上述提问语音进行语音识别和语速检测，得到提问内容和提问语速，上述提问内容为上述提问语音转写得到的文字；第二处理模块，用于对上述提问内容进行智能问答，得到智能问答结果；合成单元，用于根据上述智能问答结果和上述提问语速进行语音合成，得到播报语音；确定模块，合成模块播报单元，用于将上述播报语音进行播报。该装置通过检测提问语音的语速得到提问语速，通过提问语速调整智能问答结果合成的语音的语速，得到播报语音，使得播报语音根据不同情境下如果存在习惯语速变化动态调整播报语速，从而提升用户体验，解决了现有技术中问答服务的语速调节不灵活导致用户体验差的问题。
84.3)、本技术的智能问答系统中，包括语音应答装置，获取单元用于获取用户提问的语音，得到提问语音；第一处理模块用于对上述提问语音进行语音识别和语速检测，得到提问内容和提问语速，上述提问内容为上述提问语音转写得到的文字；第二处理模块，用于对上述提问内容进行智能问答，得到智能问答结果；合成单元，用于根据上述智能问答结果和上述提问语速进行语音合成，得到播报语音；确定模块，合成模块播报单元，用于将上述播报语音进行播报。该装置通过检测提问语音的语速得到提问语速，通过提问语速调整智能问答结果合成的语音的语速，得到播报语音，使得播报语音根据不同情境下如果存在习惯语速变化动态调整播报语速，从而提升用户体验，解决了现有技术中问答服务的语速调节不灵活导致用户体验差的问题。
85.以上所述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李健舒洪陈明武卫东
技术所有人：北京捷通华声科技股份有限公司
我是此专利的发明人

上一篇：数据中心系统以及数据中心系统的管理方法与流程
上一篇：车身标识的智能喷涂方法及装置与流程