基于全双工通信协议的语音处理方法及系统、计算机设备与流程

文档序号:30347177发布日期:2022-06-08 09:30阅读:142来源:国知局
基于全双工通信协议的语音处理方法及系统、计算机设备与流程

1.本发明涉及人工智能技术领域,尤其涉及一种基于全双工通信协议的语音处理方法及系统、计算机设备。


背景技术:

2.在如今的工业和服务业中,向用户提供问答服务是生产消费中不可或缺的一环,随着人工智能的不断发展,语音识别技术也越来越成熟,使用智能语音客服机器人是一个有效节省人力的选择,通过对一些问题的搜索遍历,即可快速准确地给出用户想要的答案。但是相关技术的语音交互客服系统,通常为客服机器人在说完一句完整的话术后,再对用户进行相应答复,这样就造成了客服系统在语音对话交互中,无法有效处理被用户打断或打断用户的问题,给用户带来较差的对话体验。并且,语音对话中的停顿时长也变得不可控,经常出现太迅速应答用户的提问或回复太慢的情况,使得用户与客服机器人在语音对话中沟通不畅,降低用户的满意度。


技术实现要素:

3.本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于全双工通信协议的语音处理方法及系统、计算机设备,能够有效提升用户的对话体验,进而提升用户满意度。
4.第一方面,本发明实施例提供了一种基于全双工通信协议的语音处理方法,包括:
5.接收用户的第一音频信息,将所述第一音频信息转换为多个第一文本信息;
6.对所述第一文本信息进行打标点服务得到带标点的第二文本信息;
7.将多个所述第二文本信息分多轮传输,其中,所述第二文本信息携带当前轮的关键信息和标点信息,所述关键信息包括当前轮数和请求服务延迟时间;
8.根据所述标点信息和所述请求服务延迟时间确定对话流程中回复用户的第一等待时间;
9.将所述第二文本信息与预设的意图库进行匹配,得到当前轮的回复信息;
10.将所述当前轮数和预设回复轮数进行比较,得到比较结果,并根据所述比较结果、所述回复信息和所述第一等待时间回复用户,或者根据所述比较结果和所述回复信息取消回复用户。
11.在一些实施例中,所述将所述第一音频信息转换为多个第一文本信息,包括:
12.将所述第一音频信息转化为二进制数据;
13.对所述二进制数据提取语音特征,输入至预设的asr语音识别模型,得到多个第一文本信息。
14.在一些实施例中,所述对所述第一文本信息进行打标点服务得到带标点的第二文本信息,包括:
15.通过预设的bert预训练模型对所述第一文本信息进行编码;
16.采用bilstm+crf算法预测与所述第一文本信息对应的标点,得到第二文本信息,其中,所述第二文本信息为带标点的完整语句。
17.在一些实施例中,所述根据所述标点信息和所述请求服务延迟时间确定对话流程中回复用户的第一等待时间,包括:
18.根据所述标点信息判断用户在当前对话流程中的状态信息;
19.根据所述状态信息确定第二等待时间;
20.计算所述第二等待时间和所述请求服务延迟时间的差值,得到第一等待时间。
21.在一些实施例中,所述将所述第二文本信息与预设的意图库进行匹配,得到当前轮的回复信息,包括:
22.对所述第二文本信息进行语音识别,得到语义识别结果,其中,所述语义识别结果包括用户的意图信息和实体信息;
23.将所述意图信息和所述实体信息匹配所述意图库,得到当前轮的回复信息。
24.在一些实施例中,所述根据所述比较结果、所述回复信息和所述第一等待时间回复用户,或者根据所述比较结果和所述回复信息取消回复用户,包括:
25.若所述比较结果为所述当前轮数大于所述预设回复轮数,判定当前轮的回复信息无效,取消回复用户;
26.若所述比较结果为所述当前轮数小于或等于所述预设回复轮数,将所述回复信息转换为第二音频信息,停顿所述第一等待时间后输出所述第二音频信息至用户。
27.在一些实施例中,在所述得到当前轮的回复信息之后,若接收到来自用户的第三音频信息,判定当前轮的回复信息无效,取消回复用户。
28.第二方面,本发明实施例还提供了一种基于全双工通信协议的语音处理系统,包括:
29.获取模块,用于接收用户的第一音频信息,将所述第一音频信息转换为多个第一文本信息;
30.打标点模块,用于对所述第一文本信息进行打标点服务得到带标点的第二文本信息;
31.多轮传输模块,用于将多个所述第二文本信息分多轮传输,其中,所述第二文本信息携带当前轮的关键信息和标点信息,所述关键信息包括当前轮数和请求服务延迟时间;
32.时间确定模块,用于根据所述标点信息和所述请求服务延迟时间确定对话流程中回复用户的第一等待时间;
33.信息匹配模块,用于将所述第二文本信息与预设的意图库进行匹配,得到当前轮的回复信息;
34.比较模块,将所述当前轮数和预设回复轮数进行比较,得到比较结果,并根据所述比较结果、所述回复信息和所述第一等待时间回复用户,或者根据所述比较结果和所述回复信息取消回复用户。
35.第三方面,本发明实施例还提供了一种计算机设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的语音处理方法。
36.第四方面,本发明实施例还提供了一种计算机可读存储介质,存储有计算机可执
行指令,所述计算机可执行指令用于执行如上述第一方面所述的语音处理方法。
37.本发明实施例包括基于全双工通信协议的语音处理方法及系统、计算机设备、计算机可读存储介质。所述语音处理方法包括:接收用户的第一音频信息,将所述第一音频信息转换为多个第一文本信息;对所述第一文本信息进行打标点服务得到带标点的第二文本信息;将多个所述第二文本信息分多轮传输,其中,所述第二文本信息携带当前轮的关键信息和标点信息,所述关键信息包括当前轮数和请求服务延迟时间;根据所述标点信息和所述请求服务延迟时间确定对话流程中回复用户的第一等待时间;将所述第二文本信息与预设的意图库进行匹配,得到当前轮的回复信息;将所述当前轮数和预设回复轮数进行比较,得到比较结果,并根据所述比较结果、所述回复信息和所述第一等待时间回复用户,或者根据所述比较结果和所述回复信息取消回复用户。根据本发明实施例的技术方案,通过将用户输入的第一音频信息转换成多个第一文本信息后进行分析,对第一文本信息进行打标点服务得到第二文本信息,可以为后续理解用户的语音做铺垫,基于全双工通信协议,分多轮传输第二文本信息,可以提高在对话流程中响应用户的速度,由于第二文本信息携带有当前轮的关键信息和标点信息,通过考虑标点信息和请求服务延迟时间,综合决定在对话流程中回复用户的第一等待时间,实现个性化推算客服机器人说话的时机,能够有效提升用户的对话体验,进而提升用户满意度,此外,通过采用意图库匹配第二文本信息,能够快速获取当前轮的回复信息,通过进一步比较当前轮数和预设回复轮数,根据比较结果决定等待第一时间回复用户或者取消回复用户,使得在对话流程中能够更智能高效地对用户的问题做相应的回复。
38.本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
39.附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
40.图1是本发明一个实施例提供的语音处理方法的流程图;
41.图2是本发明一个实施例提供的语音处理系统的结构示意图;
42.图3是本发明一个实施例提供的语音处理系统与用户进行语音交互的结构示意图;
43.图4是本发明另一个实施例提供的语音处理方法的流程图;
44.图5是本发明另一个实施例提供的语音处理方法的流程图;
45.图6是本发明另一个实施例提供的语音处理方法的流程图;
46.图7是本发明另一个实施例提供的语音处理方法的流程图;
47.图8是本发明另一个实施例提供的语音处理方法的流程图;
48.图9是本发明一个实施例提供的计算机设备的结构示意图。
具体实施方式
49.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对
本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
50.需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本文中使用的术语“和/或”仅仅是一种描述关联对象的相同的字段,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在 a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
51.相关技术中的语音交互客服系统,绝大多数还停留在单工单信道交互,使得客服机器人通常在说完一句完整的话术后,再对用户的问题进行相应回复,这样就造成了客服系统在语音对话交互中,无法有效处理被用户打断或打断用户的问题,给用户带来较差的对话体验。并且,语音对话中的停顿时长也变得不可控,经常出现太迅速应答用户的提问或回复太慢的情况,太迅速应答用户的提问会使用户觉得十分唐突,回复太慢也会使用户感到不耐烦且觉得客服机器人不智能,使得用户与客服机器人在语音对话中沟通不畅,降低用户的满意度。
52.下面结合附图,对本发明实施例作进一步阐述。
53.如图1和图2所示,本发明第一方面实施例提供一种基于全双工通信协议的语音处理方法,语音处理方法应用于图2中的语音处理系统200,语音处理系统200内采用全双工通信协议进行数据传输。
54.如图1所示,语音处理方法包括但不限于步骤s110至步骤s160:
55.步骤s110:接收用户的第一音频信息,将第一音频信息转换为多个第一文本信息;
56.如图3所示,语音处理系统200通过音频收集系统300和客户端400与用户进行语音交互,用户通过客户端400(如手机app,网页等)将第一音频信息传入音频收集系统300进行保存,经音频收集系统300将第一音频信息传输至语音处理系统200,通过调用语音转文本服务,将第一音频信息转换为多个第一文本信息,通过将音频数据转化为文本数据,便于在语音交互流程中对数据作处理。
57.步骤s120:对第一文本信息进行打标点服务得到带标点的第二文本信息;
58.通过对第一文本信息进行打标点服务,为第一文本信息加上标点,得到的第二文本信息为带标点的完整语句,能够为更好地理解用户的语音做铺垫。
59.步骤s130:将多个第二文本信息分多轮传输,其中,第二文本信息携带当前轮的关键信息和标点信息,关键信息包括当前轮数和请求服务延迟时间;
60.需要说明的是,语音处理系统200内采用http/2协议进行数据传输,在接收到用户的对话请求时,可将第二文本信息分多轮传输,无需等待用户说完一句完整的话术,有利于提升用户的对话体验。
61.需要说明的是,通过将多个第二文本信息分多轮传输,第二文本信息携带当前轮
的关键信息和标点信息,关键信息包括当前轮数和请求服务延迟时间,当前轮数为约定的整型关键字,多个第二文本信息分多轮传输,每轮传输都将当前轮数加1,请求服务延迟时间包括调用语音转文本服务、打标点服务、文本转语音服务等服务所产生的延迟时间,通过对第一文本信息进行打标点服务得到带标点的第二文本信息,从而使得第二文本信息携带有标点信息。
62.步骤s140:根据标点信息和请求服务延迟时间确定对话流程中回复用户的第一等待时间;
63.由于标点信息可以反馈用户在对话流程中的说话状态,从而能够降低出现被用户打断或打断用户的情况,此外,进一步考虑请求服务延迟时间,综合决定客服机器人合理的回复用户的第一等待时间,可以理解的是,当接收到用户的语音信息,客服机器人需要等待第一等待时间再回复用户,使得语音对话中的停顿时长变得有效可控,实现用户与客服机器人在语音对话中的沟通顺畅,有利于提升用户满意度,改善服务质量。
64.步骤s150:将第二文本信息与预设的意图库进行匹配,得到当前轮的回复信息;
65.通过将第二文本信息与意图库进行匹配,可以输出与第二文本信息相应的回复话术,即得到当前轮的回复信息,并根据回复信息对用户进行回复。
66.步骤s160:将当前轮数和预设回复轮数进行比较,得到比较结果,并根据比较结果、回复信息和第一等待时间回复用户,或者根据比较结果和回复信息取消回复用户。
67.通过进一步考虑当前轮数,比较当前轮数和预设回复轮数,得到比较结果,并根据比较结果判断回复用户或者取消回复用户,使得语音对话交互更加智能,避免出现在对话流程中出现错误识别导致错误回复的情况。
68.上述第一方面实施例的语音处理方法,通过将用户输入的第一音频信息转换成多个第一文本信息后进行分析,对第一文本信息进行打标点服务得到第二文本信息,可以为后续理解用户的语音做铺垫,基于全双工通信协议,分多轮传输第二文本信息,可以提高在对话流程中响应用户的速度,由于第二文本信息携带有当前轮的关键信息和标点信息,通过考虑标点信息和请求服务延迟时间,综合决定在对话流程中回复用户的第一等待时间,实现个性化推算客服机器人说话的时机,能够有效提升用户的对话体验,进而提升用户满意度,此外,通过采用意图库匹配第二文本信息,能够快速获取当前轮的回复信息,通过进一步比较当前轮数和预设回复轮数,根据比较结果决定等待第一时间回复用户或者取消回复用户,使得在对话流程中能够更智能高效地对用户的问题做相应的回复。
69.如图4所示,在上述的语音处理方法中,步骤s110中将第一音频信息转换为多个第一文本信息,包括但不限于步骤s210和步骤s220:
70.步骤s210:将第一音频信息转化为二进制数据;
71.步骤s220:对二进制数据提取语音特征,输入至预设的asr语音识别模型,得到多个第一文本信息。
72.当接收到来自用户的第一音频信息,请求自动语音识别(automatic speech recognition, asr)服务将用户的音频转换为文本,具体地,将收集的第一音频信息处理为二进制数据,进一步提取语音特征,输入至asr语音识别模型,根据机器学习算法及相关匹配策略得到多个第一文本信息。
73.如图5所示,在上述的语音处理方法中,步骤s120中对第一文本信息进行打标点服
务得到带标点的第二文本信息,包括但不限于步骤s310和步骤s320:
74.步骤s310:通过预设的bert预训练模型对第一文本信息进行编码;
75.步骤s320:采用bilstm+crf算法预测与第一文本信息对应的标点,得到第二文本信息,其中,第二文本信息为带标点的完整语句。
76.需要说明的是,基于变换器的双向编码器表示技术(bidirectional encoderrepresentations from transformers,bert)模型是一种深度双向的、无监督的语言表示,仅使用纯文本语料库进行预训练的模型。打标点服务首先使用bert预训练模型对第一文本信息进行编码,然后使用bilstm+crf算法预测出与第一文本信息对应的标点,得到一句完整带标点的用户问题,即得到第二文本信息。例如,当识别到用户问询“请问去地方a怎么走
”ꢀ
(第一文本信息)为疑问句,则为该文本句尾加上问号,得到第二文本信息,能够为更好地理解用户语音做铺垫。
77.如图6所示,在上述的语音处理方法中,步骤s140中根据标点信息和请求服务延迟时间确定对话流程中回复用户的第一等待时间,包括但不限于步骤s410至步骤s430:
78.步骤s410:根据标点信息判断用户在当前对话流程中的状态信息;
79.步骤s420:根据状态信息确定第二等待时间;
80.步骤s430:计算第二等待时间和请求服务延迟时间的差值,得到第一等待时间。
81.当识别到当前轮的第二文本信息后,首先根据标点信息判断用户在当前对话流程中的状态信息,状态信息可以反映是否已完成整句对话,或者只说了一半还在思索后面的话术等,根据状态信息确定第二等待时间。例如,若第二文本信息为“请问去地方a怎么走?”,可确定上述语句是一个完整的语句,可以等待较短时间即给出答复,即第二等待时间较短暂,若第二文本信息为“让我想想
……”
,识别到用户后续还有话要说,可以等待较长时间,即第二等待时间较长,给予用户充分思考时间,使对话更加人性化。此外,进一步考虑到在对话流程中请求其它服务产生的延迟时间,计算第二等待时间和请求服务延迟时间的差值,得到第一等待时间,从而能够实现综合决策客服机器人合理的回复等待时间。例如,第二等待时间为x秒,请求服务延迟时间占用了y秒,则需要等待x-y秒(第一等待时间)后进行回复,即当x-y<0时立即回复,使得客服机器人能够做到不抢话、有耐心、能聆听,大大提高用户的对话体验感。
82.如图7所示,在上述的语音处理方法中,步骤s150中将第二文本信息与预设的意图库进行匹配,得到当前轮的回复信息,包括但不限于步骤s510和步骤s520:
83.步骤s510:对第二文本信息进行语音识别,得到语义识别结果,其中,语义识别结果包括用户的意图信息和实体信息;
84.步骤s520:将意图信息和实体信息匹配意图库,得到当前轮的回复信息。
85.当识别到当前轮的第二文本信息,通过语义识别服务,识别出用户的意图信息和可能的实体信息,即得到语义识别结果,根据意图信息和实体信息匹配意图库,能够获得当前轮的回复信息。例如,第二文本信息为“请问去地方a怎么走?”,识别到用户“问路”的意图信息,目的地(实体信息)为“地方a”,通过搜索意图库可以匹配到相应的答案。需要说明的是,可以通过规则与模型匹配得到回复信息,能够提高数据获取的速度。通过根据意图信息、实体信息和意图库得到回复信息,能够有效地识别用户语音内容的语义,有针对性地给用户提供想要的答案,使得语音交互更加智能化。
86.如图8所示,在上述的语音处理方法中,步骤s160中根据比较结果、回复信息和第一等待时间回复用户,或者根据比较结果和回复信息取消回复用户,包括但不限于步骤s610和步骤s620:
87.步骤s610:若比较结果为当前轮数大于预设回复轮数,判定当前轮的回复信息无效,取消回复用户;
88.步骤s620:若比较结果为当前轮数小于或等于预设回复轮数,将回复信息转换为第二音频信息,停顿第一等待时间后输出第二音频信息至用户。
89.若得到当前轮的回复信息,将当前轮数与预设回复轮数进行比较,预设回复轮数用于标记语音处理系统200可回复的轮数(turn)值,若当前轮数已大于预设回复轮数,则认为当前轮的回复信息无效,不予回复用户,若当前轮数小于或等于预设回复轮数,则认为当前轮的回复信息有效,停顿第一等待时间后输出第二音频信息至用户,使得客服机器人在对话流程中的回复更加有效。
90.需要说明的是,由于回复信息是文本信息,通过请求语音生成(text to speech,tts) 服务将回复信息转换为第二音频信息,具体地,首先将回复信息转换成音素序列,并进行预处理,然后使用拼接法,在事前录制的海量语音数据中选择合适的基本单位,拼接为音频,最后传输至客户端400并输出给用户。
91.需要说明的是,请求服务延迟时间包括请求asr、tts、打标点等服务所产生的延迟时间。
92.在上述的语音处理方法中,在步骤s150中得到当前轮的回复信息之后,若接收到来自用户的第三音频信息,判定当前轮的回复信息无效,取消回复用户。
93.可以理解的是,得到当前轮的回复信息之后,判断在某时间段中是否接收到来自用户的第三音频信息,能够判断用户当前是否正在说话,若接收到第三音频信息(客户端400有音频传入),认为用户正在说话,不宜打断用户,则认为当前轮的回复信息无效,取消回复用户,能够实现客服机器人在说话过程中,支持用户打断的功能,可以将话语主导权交予用户,极大地提升了用户与客服机器人的对话体验,在客服行业中有着很大的应用价值,也对企业提升用户满意度、改善服务质量起到了极为重要的作用。
94.基于上述语音处理方法,下面分别提出本发明的语音处理系统、计算机设备和计算机可读存储介质的各个实施例。
95.如图2所示,本发明第二方面实施例提供一种基于全双工通信协议的语音处理系统200,语音处理系统200包括但不限于获取模块210、打标点模块220、多轮传输模块230、时间确定模块240、信息匹配模块250、比较模块260,语音处理系统200内采用全双工通信协议进行数据传输。
96.具体地,获取模块210用于接收用户的第一音频信息,将所述第一音频信息转换为多个第一文本信息;打标点模块220用于对所述第一文本信息进行打标点服务得到带标点的第二文本信息;多轮传输模块230用于将多个所述第二文本信息分多轮传输,其中,所述第二文本信息携带当前轮的关键信息和标点信息,所述关键信息包括当前轮数和请求服务延迟时间;时间确定模块240用于根据所述标点信息和所述请求服务延迟时间确定对话流程中回复用户的第一等待时间;信息匹配模块250用于将所述第二文本信息与预设的意图库进行匹配,得到当前轮的回复信息;比较模块260将所述当前轮数和预设回复轮数进行比
较,得到比较结果,并根据所述比较结果、所述回复信息和所述第一等待时间回复用户,或者根据所述比较结果和所述回复信息取消回复用户。
97.上述第二方面实施例的语音处理系统200,通过将用户输入的第一音频信息转换成多个第一文本信息后进行分析,对第一文本信息进行打标点服务得到第二文本信息,可以为后续理解用户的语音做铺垫,基于全双工通信协议,分多轮传输第二文本信息,可以提高在对话流程中响应用户的速度,由于第二文本信息携带有当前轮的关键信息和标点信息,通过考虑标点信息和请求服务延迟时间,综合决定在对话流程中回复用户的第一等待时间,实现个性化推算客服机器人说话的时机,能够有效提升用户的对话体验,进而提升用户满意度,此外,通过采用意图库匹配第二文本信息,能够快速获取当前轮的回复信息,通过进一步比较当前轮数和预设回复轮数,根据比较结果决定等待第一时间回复用户或者取消回复用户,使得在对话流程中能够更智能高效地对用户的问题做相应的回复。
98.需要说明的是,本发明实施例的语音处理系统200的具体实施方式及对应的技术效果,可对应参照上述语音处理方法的具体实施方式及对应的技术效果。
99.如图9所示,本发明第三方面实施例提供一种计算机设备900,该计算机设备900包括:存储器910、处理器920及存储在存储器910上并可在处理器920上运行的计算机程序。
100.处理器920和存储器910可以通过总线或者其他方式连接。存储器910作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器910可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器910可选包括相对于处理器920远程设置的存储器,这些远程存储器可以通过网络连接至该发号器组件。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。本领域技术人员可以理解的是,图9中示出的计算机设备900并不构成对本发明实施例的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。实现上述实施例的语音处理方法所需的非暂态软件程序以及指令存储在存储器910中,当被处理器920执行时,执行上述实施例的语音处理方法,例如,执行以上描述的图1以及图4至图8中的方法步骤。
101.上述第三方面实施例的计算机设备,通过将用户输入的第一音频信息转换成多个第一文本信息后进行分析,对第一文本信息进行打标点服务得到第二文本信息,可以为后续理解用户的语音做铺垫,基于全双工通信协议,分多轮传输第二文本信息,可以提高在对话流程中响应用户的速度,由于第二文本信息携带有当前轮的关键信息和标点信息,通过考虑标点信息和请求服务延迟时间,综合决定在对话流程中回复用户的第一等待时间,实现个性化推算客服机器人说话的时机,能够有效提升用户的对话体验,进而提升用户满意度,此外,通过采用意图库匹配第二文本信息,能够快速获取当前轮的回复信息,通过进一步比较当前轮数和预设回复轮数,根据比较结果决定等待第一时间回复用户或者取消回复用户,使得在对话流程中能够更智能高效地对用户的问题做相应的回复。
102.另外,本发明第四方面实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于执行上述的语音处理方法。例如,被上述语音处理系统200的一个处理器执行,可使得上述处理器执行上述实施例中的语音处理方法,例如,执行以上描述的图1以及图4至图8中的方法步骤。通过将用户输入的第一音
频信息转换成多个第一文本信息后进行分析,对第一文本信息进行打标点服务得到第二文本信息,可以为后续理解用户的语音做铺垫,基于全双工通信协议,分多轮传输第二文本信息,可以提高在对话流程中响应用户的速度,由于第二文本信息携带有当前轮的关键信息和标点信息,通过考虑标点信息和请求服务延迟时间,综合决定在对话流程中回复用户的第一等待时间,实现个性化推算客服机器人说话的时机,能够有效提升用户的对话体验,进而提升用户满意度,此外,通过采用意图库匹配第二文本信息,能够快速获取当前轮的回复信息,通过进一步比较当前轮数和预设回复轮数,根据比较结果决定等待第一时间回复用户或者取消回复用户,使得在对话流程中能够更智能高效地对用户的问题做相应的回复。
103.本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
104.以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1