语音应答方法、装置、设备、介质和计算机程序产品与流程

文档序号：29562017发布日期：2022-04-09 01:15阅读：136来源：国知局

1.本技术属于语音合成技术领域，尤其涉及一种语音应答方法、装置、设备、介质和计算机程序产品。

背景技术：

2.随着语音合成技术的飞速发展，越来越多的服务方采用含有语音应答功能的人工智能设备来应答用户的问询信息。通常人工智能设备会根据用户的问询信息，在应答库中匹配可以回答用户问题的文本信息，在将该文本信息合成为人声应答用户的问询信息，完成与用户的交互。
3.但语音合成的语音会与真人存在差异，用户可以通过应答语音听出语音是合成的。
4.因此，如何增加应答语音的拟真程度成为目前急需解决的技术问题。

技术实现要素：

5.本技术实施例提供的一种语音应答方法、装置、设备、介质和计算机程序产品，能够增加应答语音的拟真程度，进一步降低了用户在不同场景下由语音应答转回人工应答的概率，降低了人工成本。
6.第一方面，本技术实施例提供一种语音应答方法，包括：
7.接收问询信息；
8.从应答库中确定与所述问询信息对应的第一应答语音信息；
9.根据仿真语音处理规则，向所述第一应答语音信息中添加目标音频信息，得到第二应答语音信息，其中，所述目标音频信息为目标环境音和/或目标气音；
10.根据所述第二应答语音信息对所述问询信息进行应答。
11.在一些实施例中，所述目标音频信息的音频特征与所述问询信息的音频特征相匹配。
12.在一些实施例中，所述根据仿真语音处理规则，向所述第一应答语音信息中添加目标音频信息，得到第二应答语音信息，可以包括：
13.根据所述第一应答语音信息的音频特征信息，确定与所述音频特征信息相匹配的目标音频信息；
14.将所述第一应答语音信息与所述目标音频信息进行合成，得到所述第二应答语音信息。
15.在一些实施例中，所述将所述第一应答语音信息与所述目标音频信息进行合成，得到所述第二应答语音信息，可以包括：
16.根据所述第一应答语音信息的语音音量信息，确定所述目标音频信息的目标音量，其中，在所述目标音频信息包括所述目标环境音时，所述目标环境音的目标音量小于所述第一应答语音信息的语音音量信息中的语音音量；
17.根据所述目标音量的目标音频信息，确定所述目标音频信息的音频波信号；
18.基于所述第一应答语音信息对应的语音波信号与所述目标音频信息的音频波信号进行语音信息合成，得到所述第二应答语音信息。
19.在一些实施例中，所述基于所述第一应答语音信息对应的语音波信号与所述目标音频信息的音频波信号进行语音信息合成，得到所述第二应答语音信息，可以包括：
20.在所述目标音频信息为目标气音时，根据所述第一应答语音信息中的语音停顿时长信息，确定所述目标气音的添加目标位置；
21.将目标音量的目标气音添加在所述添加目标位置，得到所述第二应答语音信息。
22.第二方面，本技术实施例提供了一种语音应答装置，装置包括：
23.接收模块，用于接收问询信息；
24.确定模块，用于从应答库中确定与所述问询信息对应的第一应答语音信息；
25.添加模块，用于根据仿真语音处理规则，向所述第一应答语音信息中添加目标音频信息，得到第二应答语音信息，其中，所述目标音频信息为目标环境音和/或目标气音；
26.应答模块，用于根据所述第二应答语音信息对所述问询信息进行应答。
27.在一些实施例中，所述添加模块可以包括：
28.确定子模块，用于根据所述第一应答语音信息的第一音频特征信息，确定与所述第一音频特征信息相匹配的目标音频信息；
29.合成子模块，用于将所述第一应答语音信息与所述目标音频信息进行合成，得到所述第二应答语音信息。
30.第三方面，本技术实施例提供了一种语音应答设备，设备包括：处理器以及存储有计算机程序指令的存储器；
31.所述处理器执行所述计算机程序指令时实现本技术任一实施例中所述的语音应答方法。
32.第四方面，本技术实施例提供了一种计算机存储介质，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如本技术任一实施例中所述的语音应答方法。
33.第五方面，本技术实施例提供了一种计算机程序产品，所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备执行如本技术任一实施例中所述的语音应答方法。
34.本技术实施例的一种语音应答方法、装置、设备、介质和计算机程序产品，本技术实施例的方法，在获取问询信息的第一应答语音信息后，根据拟真语音处理规则，向第一应答语音信息中添加环境音和/或气音得到第二应答语音信息后，根据第二应答语音信息应答问询信息。在第一应答语音的基础上添加环境音后的第二应答语音可以模拟更加真实的外界环境。例如，添加办公室的环境音可以模拟在人在办公室中应答问题的场景，进一步增加第二应答语音的拟真程度。在第一应答语音的基础上添加气音的第二应答语音可以模拟人在说话时喘气的场景，提高了第二应答语音的拟人程度，进一步增加第二应答语音的拟真程度。本技术实施例基于第二应答语音应答问题信息，可以模拟更加真实的外界环境和/或人在说话时喘气的场景，提高了语音应答的拟真程度，进一步降低了用户在不同场景下由语音应答转回人工应答的概率，降低了人工成本。
附图说明
35.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
36.图1是本技术实施例提供的一种语音应答方法流程示意图；
37.图2是本技术实施例提供的另一种语音应答方法流程示意图；
38.图3是本技术实施例提供的再一种语音应答方法流程示意图；
39.图4是本技术实施例提供的语音应答装置示意图；
40.图5是本技术实施例提供的语音应答设备示意图。
具体实施方式
41.下面将详细描述本技术的各个方面的特征和示例性实施例，为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本技术进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本技术，而不是限定本技术。对于本领域技术人员来说，本技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本技术的示例来提供对本技术更好的理解。
42.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
43.在阐述本技术实施例所提供的技术方案之前，为了便于对本技术实施例理解，本技术首先对专用术语进行介绍。
44.语音合成(text to speech，tts)：将输入的文本(text)处理为语音波形(waveform)输出。
45.如背景技术所述，人工智能设备通过合成语音模拟人声与用户进行交互，但语音合成的语音与真人的语音存在差异。
46.发明人研究发现，语音合成的语音与真人的语音存在差异是因为合成的语音没有模拟真实的外界环境，而且合成的语音与正常人沟通时的方式存在区别。
47.因此，发明人提出可以在合成的语音中添加外界的环境音来模拟真实的外界环境，和/或添加气音来模拟正常人在交流过程中的时的喘气声，提高语音应答的拟真程度，进一步提高语音应答的应用场景，降低人工成本。
48.本技术的语音应答方法，可以由语音应答装置来执行。
49.下面结合附图介绍本技术实施例，首先对本技术实施例所提供的一种语音应答方法进行介绍。
50.图1示出了本技术实施例提供的一种语音应答方法流程示意图，所示方法包括：
51.s110，接收问询信息。
52.s120，从应答库中确定与所述问询信息对应的第一应答语音信息。
53.s130，根据仿真语音处理规则，向所述第一应答语音信息中添加目标音频信息，得到第二应答语音信息，其中，所述目标音频信息为目标环境音和/或目标气音。
54.s140，根据所述第二应答语音信息对所述问询信息进行应答。
55.本技术实施例中，在获取问询信息的第一应答语音信息后，根据拟真语音处理规则，向第一应答语音信息中添加环境音和/或气音得到第二应答语音信息后，根据第二应答语音信息应答问询信息。在第一应答语音的基础上添加环境音后的第二应答语音可以模拟更加真实的外界环境。例如，添加办公室的环境音可以模拟在人在办公室中应答问题的场景，进一步增加第二应答语音的拟真程度。在第一应答语音的基础上添加气音的第二应答语音可以模拟人在说话时喘气的场景，提高了第二应答语音的拟人程度，进一步增加第二应答语音的拟真程度。本技术实施例基于第二应答语音应答问题信息，可以模拟更加真实的外界环境和/或人在说话时喘气的场景，提高了语音应答的拟真程度，进一步降低了用户在不同场景下由语音应答转回人工应答的概率，降低了人工成本。
56.在一些实施例中，在s110中，问询信息为用户询问语音应答装置问题时的问题语音，语音应答装置在接收到问题语音后，将问题语音识别为文本信息，并在预设问题库中找到与该文本信息匹配的问题文本信息。
57.在一些实施例中，在s120中，语音应答装置通过语义匹配在预设应答库中，找到与上一步确定的问题文本信息相匹配的应答文本，再通过tts将应答文本合成为应答语音，该应答语音即为第一应答语音信息。
58.在一些实施例中，通过tts将应答文本合成为应答语音为现有技术，本技术实施例不做赘述。其中，tts包括但不限于基于拼接法的语音合成、基于参数法的语音合成以及基于神经网络端到端的语音合成。
59.在一些实施例中，在s130中，目标音频信息为目标环境音和/或目标气音。语音应答装置在上一步的应答语音的基础上，根据仿真语音处理规则在应答语音的不同位置添加目标环境音和/或目标气音，以实现模拟真人应答的场景。
60.为了提高语音应答的拟真程度，在一些实施例中，所述目标音频信息的音频特征与所述问询信息的音频特征相匹配。
61.在一些实施例中，目标音频信息的音频特征可以包括目标音频信息的音频类型，目标音频信息为目标环境音时，目标环境音的音频特征可以是环境音的类型。环境音的类型可以包括但不限于办公室环境音、工地环境音、商场环境音以及道路环境音。
62.作为一个示例，以语音应答装置为某人工智能设备a为例，用户在某正在作业的建筑工地向人工智能设备a询问问题。为了提高用户的体验，使用户更清楚的听到语音应答，问询信息的音频特征可以包括但不限于问询信息中噪声的噪声音量。人工智能设备a在接收到用户的问题语音后，判断该问题语音中噪声音量，当该噪声音量超过第一预设值时，人工智能设备a选择一音量小于第一预设值的环境音作为向应答该用户问题的应答语音中添加的目标环境音。第一预设值的选取根据实际情况而定，本技术实施例不做限定。例如，当问题语音中噪声音量超过65分贝时，人工智能设备a从预设的环境音语音库中选择一音量为20分贝的办公室环境音作为向该用户应答语音中添加的目标环境音。
63.继续以上述实施例为例，为了提高同一场景下语音应答的拟真程度，可以是人工
智能设备a在接收到用户的问题语音后，判断问题语音中噪声的噪声音量，选择相应音量及目标类型的环境音作为向应答该用户问题的应答语音中添加的目标环境音，其中，噪声音量减去相应音量后的值小于第二预设值。第二预设值的选取根据实际情况而定，本技术实施例不做限定。例如，问题语音中噪声的噪声音量为65分贝，第二预设值为10分贝，人工智能设备a从预设的环境音语音库中选择一音量为60分贝的工地环境音作为向该用户应答语音中添加的目标环境音，以模仿在同样的建筑工地下人与人交流的场景。
64.作为一个示例，以语音应答装置为某网店的人工智能客服b为例，客户向人工智能客服b询问有关该店某商品的信息。该网店的工作人员为了提高人工智能客服b应答客户时应答语音的拟真程度，以降低客户不会由人工智能客服转为人工客服，工作人员提前选择一类型的环境音作为向应答该用户问题的应答语音中添加的目标环境音。例如，人工智能客服b响应于工作人员选择商场环境音的输入，从预设的环境音语音库中选择将商场环境音作为向应答该用户问题的应答语音中添加的目标环境音，以模仿网店工作人员在商场店铺回答客户问题的场景。
65.本技术实施例中，目标音频信息的音频特征与问询信息的音频特征相匹配，可以根据问询信息的音频特征选择与之相匹配的目标音频模拟了真人交流的过程，进一步提高了应答语音的拟真程度。
66.为了进一步提高应答语音的拟真程度，在一些实施例中，如图2所示，本技术实施例提供的另一种语音应答方法流程示意图，所述根据仿真语音处理规则，向所述第一应答语音信息中添加目标音频信息，得到第二应答语音信息，可以包括s131-s132：
67.s131，根据所述第一应答语音信息的音频特征信息，确定与所述音频特征信息相匹配的目标音频信息。
68.s132，将所述第一应答语音信息与所述目标音频信息进行合成，得到所述第二应答语音信息。
69.本技术实施例中，第二应答语音信息是在第一应答语音信息的基础上合成与第一应答语音信息音频特征信息相匹配的目标音频信息后得到的应答语音信息，当合成的目标音频为目标环境音时，第二应答语音信息模拟了真实的外界环境；当合成的目标音频为目标气音时，第二应答语音信息模拟了真人交流过程中的喘气的场景；当合成的目标音频为目标气音和目标环境音时，第二应答语音信息模拟了真人在某特征外界环境下讲话的场景，实现了应答交流过程中的进一步的拟人，提高了应答语音的拟真程度。
70.在一些实施例中，在s131中，语音应答装置根据第一应答语音信息的音频特征信息，处理环境音和/或气音，直至环境音和/或气音与第一应答语音信息的音频特征信息相匹配，得到目标音频信息。
71.作为一个示例，可以是环境音和/或气音的音量与第一应答语音信息的语音音量相匹配。
72.在一些实施例中，在s132中，第一应答语音信息包括第一应答语音信息的语音波信号，语音应答装置将第一应答语音信息的语音波信号与目标音频信息的音频波信号进行合成，得到第二应答语音信息。
73.为了提高用户的体验，在一些实施例中，所述将所述第一应答语音信息与所述目标音频信息进行合成，得到所述第二应答语音信息，可以包括：
74.根据所述第一应答语音信息的语音音量信息，确定所述目标音频信息的目标音量，其中，在所述目标音频信息包括所述目标环境音时，所述目标环境音的目标音量小于所述第一应答语音信息的语音音量信息中的语音音量。
75.在一些实施例中，第一应答语音信息的语音音量信息为第一应答语音信息的语音音量，语音应答装置在通过tts将应答文本合成为应答语音后，根据当前应答语音的语音音量计算出一比例因子，用于放大或缩小目标环境音和/或目标气音的音量，且保证放大或缩小后的目标环境音的音量小于当前应答语音的语音音量。
76.值得注意地是，语音应答装置在通过tts将应答文本合成为应答语音后既能获取应答语音的音量，此为现有技术本技术实施例不做赘述。
77.在一些实施例中，语音应答装置预先将目标环境音和/或目标气音处理为数字信号，再将处理后的数字信号中表征音量的部分与计算的比例因子相乘，得到目标音量的目标环境音和/或目标气音。
78.根据所述目标音量的目标音频信息，确定所述目标音频信息的语音波信号。
79.在一些实施例中，目标音频信息可以包括目标环境音和/或目标气音的波形信息，语音应答装置通过音频的波形信息获取目标环境音和/或目标气音的音频波信号。
80.值得注意地是，在目标环境音和/或目标气音为数字信号的基础上，语音应答装置通过音频的波形信息获取目标环境音和/或目标气音的语音波信号也是数字信号。
81.基于所述第一应答语音信息对应的语音波信号与所述目标音频信息的音频波信号进行语音信息合成，得到所述第二应答语音信息。
82.在一些实施例中，语音应答装置将应答语音的语音波信号与目标环境音和/或目标气音的音频波信号合成为一个语音信号，将该合成后的语音信号作为第二应答语音信息。本技术实施例不对信号合成的具体方式作限定，可以是信号在频域上的合成也可以是信号在时域上的合成。作为一个实施例，语音应答装置将应答语音的语音波信号与目标环境音和/或目标气音的音频波信号在频域上相加，得到第二应答语音信息频域上的语音信号，之后将频域上的第二应答语音信息转换为时域上的语音信号。
83.本技术实施例中，根据第一应答语音信息的语音音量信息，确定目标音频信息的音量，再根据目标音量的目标音频信息，得到目标音频信息的音频波信号后，将第一应答语音信息对应的语音波信号与目标音频信息的音频波信号进行语音信息合成得到第二应答语音信息。目标音频信息的音量被第一应答语音信息的语音音量信息影响，使第二应答语音信息中的目标音频信息的音量与第一应答语音信息的语音音量相匹配，且在目标音频包括目标环境音时，目标环境音的语音音量小于第一应答语音的音量，避免了环境音干扰应答语音中的语音信息，提高了用户的体验。
84.发明人研究发现tts合成的语音与真人正常交流存在差异是因为tts合成的语音都比较端正，虽然有停顿的地方但正常人停顿时喘气的气音。因此，为了进一步提高语音应答过程中与用户交流的拟人程度，在一些实施例中，如图3所示本技术实施例提供的再一种语音应答方法的流程示意图，所述基于所述第一应答语音信息对应的语音波信号与所述目标音频信息的音频波信号进行语音信息合成，得到所述第二应答语音信息，可以包括s1321-s1322：
85.s1321，在所述目标音频信息为目标气音时，根据所述第一应答语音信息中的语音
停顿时长信息，确定所述目标气音的添加目标位置。
86.在一些实施例中，语音应答装置通过比较第一应答语音信息中的各个停顿位置的语音停顿时长与预设时长的大小关系，将超过预设时长的停顿位置作为目标气音的添加目标位置。或比较第一应答语音信息中的各个停顿位置的语音停顿时长之间的大小关系，将语音停顿时长最长的停顿位置作为目标气音的添加目标位置。
87.s1322，将目标音量的目标气音添加在所述添加目标位置，得到所述第二应答语音信息。
88.在一些实施例中，语音应答装置将目标音量的目标气音的数字信号逐个添加到上一步确定的停顿位置中，得到第二应答语音信息。
89.本技术实施例中，根据第一应答语音信息中的语音停顿时长信息，确定目标气音的添加目标位置后，将目标音量的目标气音添加在添加目标位置，以得到第二应答语音信息。在第一应答语音信息停顿的位置中添加目标气音，模仿真人交流时在停顿时的喘气的场景，实现与用户交流过程中的拟人化，提高了语音应答过程中与用户交流的拟人程度。
90.在一些实施例中，在s140中，语音应答装置将添加过目标环境音和/或目标气音的第一应答语音输出为语音以实现对问询信息的应答。
91.基于上述任一实施例提供的语音应答方法，本技术还提供了一种语音应答装置实施例，具体参见图4。
92.图4示出了本技术一实施例提供的一种语音应答装置示意图。如图4所示，该装置可以包括：
93.接收模块410，用于接收问询信息。
94.确定模块420，用于从应答库中确定与所述问询信息对应的第一应答语音信息。
95.添加模块430，用于根据仿真语音处理规则，向所述第一应答语音信息中添加目标音频信息，得到第二应答语音信息，其中，所述目标音频信息为目标环境音和/或目标气音。
96.应答模块440，用于根据所述第二应答语音信息对所述问询信息进行应答。
97.本技术实施例中的装置，在获取问询信息的第一应答语音信息后，根据拟真语音处理规则，向第一应答语音信息中添加环境音和/或气音得到第二应答语音信息后，根据第二应答语音信息应答问询信息。在第一应答语音的基础上添加环境音后的第二应答语音可以模拟更加真实的外界环境。例如，添加办公室的环境音可以模拟在人在办公室中应答问题的场景，进一步增加第二应答语音的拟真程度。在第一应答语音的基础上添加气音的第二应答语音可以模拟人在说话时喘气的场景，提高了第二应答语音的拟人程度，进一步增加第二应答语音的拟真程度。本技术实施例基于第二应答语音应答问题信息，可以模拟更加真实的外界环境和/或人在说话时喘气的场景，提高了语音应答的拟真程度，进一步降低了用户在不同场景下由语音应答转回人工应答的概率，降低了人工成本。
98.在一些实施例中，为了进一步提高应答语音的拟真程度，添加模块430可以包括：
99.确定子模块，用于根据所述第一应答语音信息的音频特征信息，确定与所述音频特征信息相匹配的目标音频信息。
100.合成子模块，用于将所述第一应答语音信息与所述目标音频信息进行合成，得到所述第二应答语音信息。
101.本技术实施例中的装置，第二应答语音信息是在第一应答语音信息的基础上合成
与第一应答语音信息音频特征信息相匹配的目标音频信息后得到的应答语音信息，当合成的目标音频为目标环境音时，第二应答语音信息模拟了真实的外界环境；当合成的目标音频为目标气音时，第二应答语音信息模拟了真人交流过程中的喘气的场景；当合成的目标音频为目标气音和目标环境音时，第二应答语音信息模拟了真人在某特征外界环境下讲话的场景，实现了应答交流过程中的进一步的拟人，提高了应答语音的拟真程度。
102.在一些实施例中，为了提高用户的体验，确定子模块可以包括：
103.第一确定单元，用于根据所述第一应答语音信息的语音音量信息，确定所述目标音频信息的目标音量，其中，在所述目标音频信息包括所述目标环境音时，所述目标环境音的目标音量小于所述第一应答语音信息的语音音量信息中的语音音量。
104.第二确定单元，用于根据所述目标音量的目标音频信息，确定所述目标音频信息的音频波信号。
105.合成单元，用于基于所述第一应答语音信息对应的语音波信号与所述目标音频信息的音频波信号进行语音信息合成，得到所述第二应答语音信息。
106.本技术实施例中的装置，根据第一应答语音信息的语音音量信息，确定目标音频信息的音量，再根据目标音量的目标音频信息，得到目标音频信息的音频波信号后，将第一应答语音信息对应的语音波信号与目标音频信息的音频波信号进行语音信息合成得到第二应答语音信息。目标音频信息的音量被第一应答语音信息的语音音量信息影响，使第二应答语音信息中的目标音频信息的音量与第一应答语音信息的语音音量相匹配，且在目标音频包括目标环境音时，目标环境音的语音音量小于第一应答语音的音量，避免了环境音干扰应答语音中的语音信息，提高了用户的体验。在一些实施例中，为了进一步提高语音应答过程中与用户交流的拟人程度，合成子模块可以包括：
107.第三确定单元，用于在所述目标音频信息为目标气音时，根据所述第一应答语音信息中的语音停顿时长信息，确定所述目标气音的添加目标位置。
108.添加单元，用于将目标音量的目标气音添加在所述添加目标位置，得到所述第二应答语音信息。
109.本技术实施例中的装置，根据第一应答语音信息中的语音停顿时长信息，确定目标气音的添加目标位置后，将目标音量的目标气音添加在添加目标位置，以得到第二应答语音信息。在第一应答语音信息停顿的位置中添加目标气音，模仿真人交流时在停顿时的喘气的场景，实现与用户交流过程中的拟人化，提高了语音应答过程中与用户交流的拟人程度。
110.此外，结合上述实施例中语音应答方法，如图5所示，本技术实施例可提供一种语音应答设备，所述设备可以包括处理器510以及存储有计算机程序指令的存储器520。
111.具体地，上述处理器510可以包括中央处理器(cpu)，或者特定集成电路(application specific integrated circuit，asic)，或者可以被配置成实施本技术实施例的一个或多个集成电路。
112.存储器520可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器520可包括硬盘驱动器(hard disk drive，hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus，usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器520可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储
器520可在综合网关容灾设备的内部或外部。在特定实施例中，存储器520是非易失性固态存储器。在特定实施例中，存储器520包括只读存储器(rom)。在合适的情况下，该rom可以是掩模编程的rom、可编程rom(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、电可改写rom(earom)或闪存或者两个或更多个以上这些的组合。
113.处理器510通过读取并执行存储器520中存储的计算机程序指令，以实现上述实施例中的任一种语音应答方法。
114.在一个示例中，电子设备还可包括通信接口530和总线540。其中，如图5所示，处理器510、存储器520、通信接口530通过总线540连接并完成相互间的通信。
115.通信接口530，主要用于实现本技术实施例中各模块、设备、单元和/或设备之间的通信。
116.总线540包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(agp)或其他图形总线、增强工业标准架构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、无限带宽互连、低引脚数(lpc)总线、存储器总线、微信道架构(mca)总线、外围组件互连(pci)总线、pci-express(pci-x)总线、串行高级技术附件(sata)总线、视频电子标准协会局部(vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线540可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线，但本技术考虑任何合适的总线或互连。
117.该语音应答处理器执行所述计算机程序指令时实现上述任一实施例所述的语音应答方法。
118.另外，结合上述语音应答方法，本技术实施例可提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述任一实施例所述语音应答方法。
119.需要明确的是，本技术并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本技术的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本技术的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。
120.以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时，本技术的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
121.还需要说明的是，本技术中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本技术不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。
122.上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图
和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。
123.以上所述，仅为本技术的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张烜峰李良斌陈孝良
技术所有人：北京声智科技有限公司
我是此专利的发明人

上一篇：一种恒温恒湿装置的制作方法
上一篇：一种连续分离排杂式污水处理设备的制作方法