语音处理方法、装置及电子设备与流程

文档序号:33485019发布日期:2023-03-15 14:42阅读:7714来源:国知局
语音处理方法、装置及电子设备与流程

1.本技术涉及语音处理技术领域,具体而言,涉及一种语音处理方法、装置及电子设备。


背景技术:

2.在现有技术中,客服人员在接收到咨询电话等电话语音之后,通常需要人工识别电话语音所对应的语种和方言,然后根据识别结果人工选择与电话语音相匹配的回复语音。例如,客服人员接收到一个使用方言a的用户打来的咨询电话,首先客服人员需要人工识别出对方使用的方言是方言a,然后再选择方言a的客服语音回复该用户。
3.容易注意到的是,上述人工识别电话语音所对应的语种和方言的方式不仅会耗费大量的人工成本,还会容易出现识别错误的问题,从而影响了确定客服语音时的准确性,进而导致了电话语音回复效率低的问题。


技术实现要素:

4.本技术实施例提供了一种语音处理方法、装置及电子设备,以至少解决现有技术中对于电话语音回复效率低的技术问题。
5.根据本技术实施例的一个方面,提供了一种语音处理方法,包括:获取终端设备发送的电话语音以及终端设备对应的电话号码;根据语料库确定电话语音对应的第一语言类型,其中,第一语言类型表征电话语音对应的语种为第一语种,电话语音对应的方言为第一方言;根据电话号码确定电话语音对应的第二语言类型,其中,第二语言类型表征电话语音对应的语种为第二语种,电话语音对应的方言为第二方言;从第一语言类型和第二语言类型中确定目标语言类型,并根据目标语言类型生成回复电话语音的目标客服语音。
6.进一步地,上述的语料库用于存储多个语音信息,每个语音信息与一种预设语种相对应,并且每个语音信息与一种预设方言相对应。
7.进一步地,语音处理方法还包括:将电话语音切分为多个语音片段;从多个语音片段中识别目标语音片段,其中,目标语音片段中包含有预设关键词的发音信息;根据目标语音片段从语料库中存储的多个语音信息中确定目标语音信息,其中,目标语音信息中包含有目标语音片段;确定目标语音信息所对应的预设语种为第一语种,目标语音信息所对应的预设方言为第一方言。
8.进一步地,语音处理方法还包括:在根据电话号码确定电话语音对应的第二语言类型之前,获取终端设备所处区域的地理位置信息;根据地理位置信息确定第一子语言类型,其中,第一子语言类型包括第三语种和第三方言,第三语种为所处区域对应的语种,第三方言为所处区域对应的方言。
9.进一步地,语音处理方法还包括:根据电话号码确定目标对象的籍贯和开户行信息,其中,目标对象为使用电话号码的对象,开户行信息为目标对象的银行账户所对应的银行信息;根据籍贯确定电话语音对应的第二子语言类型,其中,第二子语言类型包括第四语
种和第四方言,第四语种为籍贯所对应的地区的语种,第四方言为籍贯所对应的地区的方言;根据开户行信息确定电话语音对应的第三子语言类型,其中,第三子语言类型包括第五语种和第五方言,第五语种为开户行信息对应的银行所在地区的语言语种,第五方言为开户行信息对应的银行所在地区的方言;检测第一子语言类型、第二子语言类型以及第三子语言类型之间是否存在相同的子语言类型,得到检测结果;根据检测结果从第一子语言类型、第二子语言类型以及第三子语言类型中确定第二语言类型。
10.进一步地,语音处理方法还包括:在第一子语言类型、第二子语言类型以及第三子语言类型之间存在相同的子语言类型的情况下,确定相同的子语言类型为第二语言类型;在第一子语言类型、第二子语言类型以及第三子语言类型各不相同的情况下,依据电话语音的收听对象预设的选择顺序从第一子语言类型、第二子语言类型以及第三子语言类型中确定第二语言类型。
11.进一步地,语音处理方法还包括:在第一子语言类型、第二子语言类型以及第三子语言类型各不相同的情况下,获取终端设备的系统语言信息,其中,系统语言信息至少包括终端设备设置的默认语种;检测第三语种、第四语种以及第五语种中是否存在默认语种;在检测第三语种、第四语种以及第五语种中存在默认语种时,根据默认语种从第一子语言类型、第二子语言类型以及第三子语言类型中确定第二语言类型,其中,第二语言类型中的第二语种为默认语种。
12.进一步地,语音处理方法还包括:检测第一语言类型和第二语言类型是否相同;在第一语言类型和第二语言类型相同的情况下,确定第一语言类型或所述第二语言类型为目标语言类型;在第一语言类型和第二语言类型不同的情况下,根据目标优先级从第一语言类型和第二语言类型中确定目标语言类型,其中,目标优先级用于表征第一语言类型和第二语言类型的选择顺序。
13.进一步地,语音处理方法还包括:获取电话语音对应的语音时长;在语音时长大于预设时长的情况下,根据第一目标优先级确定第一语言类型为目标语言类型,其中,第一目标优先级表征第一语言类型的优先级高于第二语言类型;在语音时长小于或等于预设时长的情况下,根据第二目标优先级确定第二语言类型为目标语言类型,其中,第二目标优先级表征第二语言类型的优先级高于第一语言类型。
14.进一步地,语音处理方法还包括:在根据目标优先级从第一语言类型和第二语言类型中确定目标语言类型之后,获取目标语言类型所对应的翻译模型;根据翻译模型将目标语言类型的电话语音翻译为预设语言类型的语音信息,其中,预设语言类型为电话语音的收听对象所设置的语言类型;通过音频播放设备播放预设语言类型的语音信息。
15.根据本技术实施例的另一方面,还提供了一种语音处理装置,包括:获取模块,用于获取终端设备发送的电话语音以及终端设备对应的电话号码;第一确定模块,用于根据语料库确定电话语音对应的第一语言类型,其中,第一语言类型表征电话语音对应的语种为第一语种,电话语音对应的方言为第一方言;第二确定模块,用于根据电话号码确定电话语音对应的第二语言类型,其中,第二语言类型表征电话语音对应的语种为第二语种,电话语音对应的方言为第二方言;第三确定模块,用于从第一语言类型和第二语言类型中确定目标语言类型,并根据目标语言类型生成回复电话语音的目标客服语音。
16.根据本技术实施例的另一方面,还提供了一种电子设备,电子设备包括一个或多
个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述的语音处理方法。
17.在本技术中,采用根据语料库和电话号码分别识别电话语音对应的语言类型的方式,首先获取终端设备发送的电话语音以及终端设备对应的电话号码,然后根据语料库确定电话语音对应的第一语言类型,并根据电话号码确定电话语音对应的第二语言类型,最后从第一语言类型和第二语言类型中确定目标语言类型,并根据目标语言类型生成回复电话语音的目标客服语音。其中,第一语言类型表征电话语音对应的语种为第一语种,电话语音对应的方言为第一方言;第二语言类型表征电话语音对应的语种为第二语种,电话语音对应的方言为第二方言。
18.由上述内容可知,本技术一方面通过语料库对电话语音进行直接识别,另一方面通过电话号码这一信息对电话语音进行间接识别,不仅能够识别电话语音的语种,还能够识别电话语音对应的方言,由于整个过程无需人工参与,因此减少了人工成本,也避免了人工识别容易出现错误的问题。同时,两种识别方式相结合还可以提高对电话语音的识别准确度,进而实现提高电话语音回复效率的效果。
19.由此可见,本技术的技术方案达到了自动识别电话语音对应的语种和方言的目的,从而实现了提高电话语音的识别准确度和回复语音的生成准确性的技术效果,进而解决了现有技术中对于电话语音回复效率低的技术问题。
附图说明
20.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
21.图1是根据本技术实施例的一种可选的语音处理方法的流程图;
22.图2是根据本技术实施例的一种可选的确定第二语言类型的方法流程图;
23.图3是根据本技术实施例的另一种可选的确定第二语言类型的方法流程图;
24.图4是根据本技术实施例的一种根据目标优先级确定目标语言类型的方法流程图;
25.图5是根据本技术实施例的另一种可选的语音处理方法的流程图;
26.图6是根据本技术实施例的一种可选的语音处理装置的示意图;
27.图7是根据本技术实施例的一种可选的电子设备的示意图。
具体实施方式
28.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
29.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
30.另外,还需要说明的是,本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。
31.实施例1
32.根据本技术实施例,提供了一种语音处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
33.图1是根据本技术实施例的一种可选的语音处理方法的流程图,如图1所示,该方法包括如下步骤:
34.步骤s101,获取终端设备发送的电话语音以及终端设备对应的电话号码。
35.在步骤s101中,终端设备包括但不限于智能手机、固定电话、网络电话等移动通讯设备。另外,上述的电话语音可以是用户使用终端设备拨打的咨询电话、投诉电话等电话语音,上述的电话号码为用户使用终端设备拨打上述电话语音时所使用的电话号码。
36.在一种可选的实施例中,一种智能客服系统可作为本技术实施例中的语音处理方法的执行主体,例如,智能客服系统可应用至银行等金融机构中,当银行的客户使用智能手机拨打银行的咨询热线时,智能手机和智能客服系统建立通讯连接,从而智能客服系统可以接收到智能手机发送的电话语音以及智能手机所对应的电话号码。
37.步骤s102,根据语料库确定电话语音对应的第一语言类型。
38.在步骤s102中,第一语言类型表征电话语音对应的语种为第一语种,电话语音对应的方言为第一方言。
39.具体的,语料库用于存储多个语音信息,每个语音信息与一种预设语种相对应,并且每个语音信息与一种预设方言相对应。
40.在一种可选的实施例中,智能客服系统首先将电话语音切分为多个语音片段,然后从多个语音片段中识别目标语音片段,其中,目标语音片段中包含有预设关键词的发音信息。最后,智能客服系统根据目标语音片段从语料库中存储的多个语音信息中确定目标语音信息,并确定目标语音信息所对应的预设语种为第一语种,目标语音信息所对应的预设方言为第一方言。其中,目标语音信息中包含有目标语音片段。
41.举例而言,语料库中存储有n个语音信息,其中,n个语音信息中至少包括普通话发音的“你好”,各种方言版本发音的“你好”(例如、粤语发音、上海话发音、山东话发音等等),各种语种发音的“你好”(例如,中文发音的“你好”、英文发音的“hello”)。当智能客服系统接收到一段电话语音之后,智能客服系统将电话语音切分为多个语音片段,并从多个语音片段中识别包含有预设关键词的发音信息的目标语音片段。例如,假设预设关键词为“你
好”,如果智能客服系统识别到语音片段1中包含有关于“你好”这两个字的发音信息,则智能客服系统确定语音片段1为目标语音片段。进一步地,智能客服系统将语音片段1与语料库中的n个语音信息进行一一比对,如果确定语音片段1中“你好”的发音信息和语音信息a中的“你好”的发音信息一致,则智能客服系统确定语音信息a为目标语音信息,假设语音信息a对应的语种为中文语种,语音信息对应的方言为广东方言,则智能客服系统可确定第一语言类型中的第一语种为中文语种,第一方言为广东方言。
42.需要注意到的是,在一段电话语音中可能会存在一些无效语音,例如,在用户拨通电话并开始讲述时,可能会由于用户在进行思考而导致电话语音中存在空白语音,即无人讲话的语音。在此基础上,当无效语音很多时,如果将整段电话语音直接与语料库中的语音信息进行比对识别,不仅会占用过多的计算资源,还会严重影响识别效率。因此,为了解决该问题,本技术首先将电话语音切分为多个语音片段,并从多个语音片段中识别出包含有预设关键字发音信息的目标语音片段,从而将不包含有预设关键字发音信息的语音片段(包括空白语音对应的语音片段)进行了过滤,进而减少了实际参与比对的语音片段的数量,不仅能够节约计算资源,还能提高电话语音的识别效率。
43.步骤s103,根据电话号码确定电话语音对应的第二语言类型。
44.在步骤s103中,第二语言类型表征电话语音对应的语种为第二语种,电话语音对应的方言为第二方言。
45.具体的,通过电话号码,智能客服系统可以确定目标对象的籍贯和开户行信息,其中,目标对象为使用该电话号码的对象,开户行信息为目标对象的银行账户所对应的银行信息。
46.容易理解的是,在得到目标对象的籍贯和开户行信息之后,智能客服系统既可以根据目标对象的籍贯所对应的地区确定电话语音对应的语种和方言,也可以根据目标对象的银行账户的开户行所在地区确定电话语音对应的语种和方言。与通过语料库直接对电话语音进行识别的方式不同,通过电话号码确定电话语音对应的第二语言类型,实际上是通过目标对象的相关信息间接的确定了电话语音对应的语种和方言。
47.步骤s104,从第一语言类型和第二语言类型中确定目标语言类型,并根据目标语言类型生成回复电话语音的目标客服语音。
48.在步骤s104中,第一语言类型和第二语言类型可能相同,也可能不同。需要注意到的是,只有第一语种和第二语种相同并且第一方言和第二方言也相同的情况下,智能客服系统才会确定第一语言类型和第二语言类型相同。在(第一语种与第二语种不同)和/或(第一方言与第二方言不同)的情况下,智能客服系统都会确定第一语言类型和第二语言类型不同。
49.进一步地,当第一语言类型和第二语言类型相同时,智能客服系统可以随机选择一种语言类型为目标语言类型。当第一语言类型和第二语言类型相同时,智能客服系统可以根据用户预设的优先级从第一语言类型和第二语言类型中确定目标语言类型,也可以随机的从第一语言类型和第二语言类型中选择一种语言类型为目标语言类型。
50.另外,智能客服系统中还预先建立有不同语种、不同方言的智能客服库,在确定目标语言类型之后,智能客服系统可以确定目标语言类型所对应的智能客服库,并依据智能客服库生成回复电话语音的目标客服语音。例如,电话语音为方言a版的“请问办理信用卡
需要准备哪些资料?”,最终智能客服系统生成的目标客服语音为方言a版的“办理信用卡需要身份证复印件、收入证明等资料”。
51.基于上述步骤s101至步骤s104的内容可知,在本技术中,采用根据语料库和电话号码分别识别电话语音对应的语言类型的方式,首先获取终端设备发送的电话语音以及终端设备对应的电话号码,然后根据语料库确定电话语音对应的第一语言类型,并根据电话号码确定电话语音对应的第二语言类型,最后从第一语言类型和第二语言类型中确定目标语言类型,并根据目标语言类型生成回复电话语音的目标客服语音。其中,第一语言类型表征电话语音对应的语种为第一语种,电话语音对应的方言为第一方言;第二语言类型表征电话语音对应的语种为第二语种,电话语音对应的方言为第二方言。
52.由上述内容可知,本技术一方面通过语料库对电话语音进行直接识别,另一方面通过电话号码这一信息对电话语音进行间接识别,不仅能够识别电话语音的语种,还能够识别电话语音对应的方言,由于整个过程无需人工参与,因此减少了人工成本,也避免了人工识别容易出现错误的问题。同时,两种识别方式相结合还可以提高对电话语音的识别准确度,进而实现提高电话语音回复效率的效果。
53.由此可见,本技术的技术方案达到了自动识别电话语音对应的语种和方言的目的,从而实现了提高电话语音的识别准确度和回复语音的生成准确性的技术效果,进而解决了现有技术中对于电话语音回复效率低的技术问题。
54.在一种可选的实施例中,在根据电话号码确定电话语音对应的第二语言类型之前,智能客服系统还会获取终端设备所处区域的地理位置信息,并根据地理位置信息确定第一子语言类型,其中,第一子语言类型包括第三语种和第三方言,第三语种为所处区域对应的语种,第三方言为所处区域对应的方言。
55.可选的,智能客服系统可以根据终端设备的通讯信息对终端设备进行定位,从而获取终端设备所处区域的地理位置信息,并根据地理位置信息确定电话语音对应的第三语种和第三方言。例如,如果智能客服系统确定终端设备所处区域为上海区域,则智能客服系统可确定第一子语言类型中的第三语种为中文语种,第三方言为上海方言。
56.在一种可选的实施例中,图2示出了根据本技术实施例的一种可选的确定第二语言类型的方法流程图,如图2所示,包括如下步骤:
57.步骤s201,根据电话号码确定目标对象的籍贯和开户行信息,其中,目标对象为使用电话号码的对象,开户行信息为目标对象的银行账户所对应的银行信息;
58.步骤s202,根据籍贯确定电话语音对应的第二子语言类型,其中,第二子语言类型包括第四语种和第四方言,第四语种为籍贯所对应的地区的语种,第四方言为籍贯所对应的地区的方言;
59.步骤s203,根据开户行信息确定电话语音对应的第三子语言类型,其中,第三子语言类型包括第五语种和第五方言,第五语种为开户行信息对应的银行所在地区的语言语种,第五方言为开户行信息对应的银行所在地区的方言;
60.步骤s204,检测第一子语言类型、第二子语言类型以及第三子语言类型之间是否存在相同的子语言类型,得到检测结果;
61.步骤s205,根据检测结果从第一子语言类型、第二子语言类型以及第三子语言类型中确定第二语言类型。
62.可选的,智能客服系统除了根据终端设备所处区域的地理位置信息确定第一子语言类型之外,还分别根据目标对象的籍贯确定第二子语言类型、根据目标对象的开户行信息确定第三子语言类型。容易注意到的是,通过多个维度确定电话语音所对应的语种和方言,可以实现提高电话语音识别准确度的效果。
63.进一步地,在第一子语言类型、第二子语言类型以及第三子语言类型之间存在相同的子语言类型的情况下,智能客服系统确定相同的子语言类型为第二语言类型;在第一子语言类型、第二子语言类型以及第三子语言类型各不相同的情况下,智能客服系统依据电话语音的收听对象预设的选择顺序从第一子语言类型、第二子语言类型以及第三子语言类型中确定第二语言类型。
64.需要说明的是,上述的三个子语言类型可能相同,也可能不同。当三个子语言类型全部相同时,智能客服系统可随机选择一种子语言类型为第二语言类型。当三个子语言类型中有两个子语言类型相同,剩余一个子语言类型与另外两个子语言类型不同时,智能客服系统从相同的两个子语言类型中选择一个子语言类型为第二语言类型。例如,第一子语言类型与第三子语言类型相同,两者都是h语言类型,但是第二子语言类型为k语言类型,则智能客服系统确定第一子语言类型或第三子语言类型为第二语言类型,即第二语言类型为h语言类型。容易注意到的是,通过检测第一子语言类型、第二子语言类型以及第三子语言类型之间是否存在相同的子语言类型,并确定相同的子语言类型为第二语言类型,可以提高第二语言类型的确定准确度。
65.另外,还需要说明的是,如果第一子语言类型、第二子语言类型以及第三子语言类型各不相同,则智能客服系统会依据电话语音的收听对象预设的选择顺序从第一子语言类型、第二子语言类型以及第三子语言类型中确定第二语言类型。例如,如果预设的选择顺序为第二子语言类型的优先级高于第一子语言类型,第一子语言类型的优先级高于第三子语言类型,则智能客服系统确定第二子语言类型为第二语言类型。
66.在一种可选的实施例中,图3示出了根据本技术实施例的另一种可选的确定第二语言类型的方法,如图3所示,包括如下步骤:
67.步骤s301,在第一子语言类型、第二子语言类型以及第三子语言类型各不相同的情况下,获取终端设备的系统语言信息,其中,系统语言信息至少包括终端设备设置的默认语种;
68.步骤s302,检测第三语种、第四语种以及第五语种中是否存在默认语种;
69.步骤s303,在检测第三语种、第四语种以及第五语种中存在默认语种时,根据默认语种从第一子语言类型、第二子语言类型以及第三子语言类型中确定第二语言类型,其中,第二语言类型中的第二语种为默认语种。
70.可选的,本领域技术人员知晓的是,终端设备会设置有系统语言信息,虽然系统语言信息中通常不包括方言信息,但是一定会包括有语种信息,即上述的默认语种。智能客服系统可以向终端设备发送语言信息获取请求,当终端设备接收到语言信息获取请求之后,将系统语言信息发送给智能客服系统,从而智能客服系统可以从系统语言信息中提取中默认语种。
71.进一步地,如果智能客服系统检测到默认语种为上述的第三语种、第四语种以及第五语种中的一种,例如,默认语种为上述的第四语种,则智能客服系统会确定第四语种所
对应的第二子语言类型为第二语言类型。
72.另外,需要注意到的是,如果默认语种和第三语种、第四语种以及第五语种中的每个语种都不相同,则智能客服系统还是依据电话语音的收听对象预设的选择顺序从第一子语言类型、第二子语言类型以及第三子语言类型中确定第二语言类型。
73.在一种可选的实施例中,智能客服系统会检测第一语言类型和第二语言类型是否相同,在第一语言类型和第二语言类型相同的情况下,智能客服系统确定第一语言类型或第二语言类型为目标语言类型;在第一语言类型和第二语言类型不同的情况下,智能客服系统根据目标优先级从第一语言类型和第二语言类型中确定目标语言类型,其中,目标优先级用于表征第一语言类型和第二语言类型的选择顺序。
74.可选的,如果智能客服系统检测到第一语言类型和第二语言类型相同,则智能客服系统确定第一语言类型和第二语言类型中的任意一个语言类型为目标语言类型即可。如果智能客服系统检测到第一语言类型和第二语言类型不同,则智能客服系统会根据目标优先级从第一语言类型和第二语言类型中确定目标语言类型。其中,目标优先级至少包括第一目标优先级、第二目标优先级以及第三目标优先级。其中,第一目标优先级表征第一语言类型的优先级高于第二语言类型,第二目标优先级表征第二语言类型的优先级高于第一语言类型,第三目标优先级表征第一语言类型和第二语言类型的优先级相同,两者随机选择。
75.在一种可选的实施例中,图4示出了根据本技术实施例的一种根据目标优先级确定目标语言类型的方法,如图4所示,包括如下步骤:
76.步骤s401,获取电话语音对应的语音时长;
77.步骤s402,在语音时长大于预设时长的情况下,根据第一目标优先级确定第一语言类型为目标语言类型,其中,第一目标优先级表征第一语言类型的优先级高于第二语言类型;
78.步骤s403,在语音时长小于或等于预设时长的情况下,根据第二目标优先级确定第二语言类型为目标语言类型,其中,第二目标优先级表征第二语言类型的优先级高于第一语言类型。
79.可选的,上述的预设时长可自定义设置。容易理解的是,通常来说,电话语音对应的语音时长越长,则电话语音中的语音内容越丰富,电话语音被切分后能够得到的语音片段的数量也就越多,并且目标语音片段中包含的预设关键词发音信息也可能越多,从而使用语料库识别电话语音对应的语言类型时的精准度也就越高,因此,当语音时长大于预设时长时,智能客服系统优先选择第一语言类型为目标语言类型。
80.另外,如果电话语音对应的语音时长较短,则说明电话语音中的语音内容也较少,在此基础上,通过语料库识别到的第一语言类型可能不够准确。但是由于第二语言类型是通过目标对象和终端设备的相关信息间接确定的语言类型,其实际上与电话语音本身并没有任何关联关系,因此,在电话语音对应的语音时长小于或等于预设时长的情况下,第二语言类型的可信度比第一语言类型更高,智能客服系统可以优先选择第二语言类型为目标语言类型。
81.在一种可选的实施例中,在根据目标优先级从第一语言类型和第二语言类型中确定目标语言类型之后,智能客服系统还会获取目标语言类型所对应的翻译模型,并根据翻译模型将目标语言类型的电话语音翻译为预设语言类型的语音信息,其中,预设语言类型
为电话语音的收听对象所设置的语言类型。最后,智能客服系统通过音频播放设备播放预设语言类型的语音信息。
82.可选的,上述的翻译模型可以是一种用于实现语音翻译的神经网络模型,上述的预设语言类型可以是收听对象设置的任意一种语言类型。
83.容易注意到的是,通过上述翻译的过程,无论目标语言类型对应的语种是哪一种语种,目标语言类型对应的方言是哪一种方言,智能客服系统都可以将电话语音翻译为收听对象能够听懂的语音信息,从而降低了收听对象对电话语音的识别难度,提高了电话语音的接听效率。
84.在一种可选的实施例中,图5示出了根据本技术实施例的另一种可选的语音处理方法的流程图,如图5所示,智能客服系统首先接收到终端设备发送的电话语音和终端设备对应的电话号码,然后智能客服系统根据电话语音开启第一语言类型识别模式,并根据电话号码开启第二语言类型识别模式。
85.其中,在第一语言类型识别模式下,智能客服系统根据语料库确定电话语音对应的第一语言类型,其中,语料库用于存储多个语音信息,每个语音信息与一种预设语种相对应,并且每个语音信息与一种预设方言相对应。智能客服系统通过将电话语音中包含的预设关键词发音信息与语料库中的多个语音信息进行比对,从而确定第一语言类型。例如,预设关键词可以是“你好”,语料库中存储有多个关于“你好”的语音信息,例如,普通话发音的“你好”,粤语发音的“你好”,闽南语发音的“你好”,山东方言版本的“你好”,英文发音的“你好”等等,当智能客服系统检测到电话语音中“你好”的发音信息为粤语发音的“你好”,则智能客服系统确定该电话语音对应的第一语言类型为中文语种、粤语方言。
86.另外,在第二语言类型识别模式下,智能客服系统首先获取终端设备的系统默认语言和终端设备所处区域的地理位置信息,然后智能客服系统还可以根据电话号码确定目标对象的籍贯和开户行信息。其中,目标对象为电话号码的使用对象。容易注意到的是,在得到地理位置信息、籍贯以及开户行信息之后,智能客服系统可以根据每一种信息分别推测目标对象使用的语种和方言。在此基础上,智能客服系统根据推测结果,结合上述得到的终端设备的系统默认语言,可以综合确定电话语音对应的第二语言类型。
87.最后,在得到第一语言类型和第二语言类型之后,智能客服系统根据目标优先级从第一语言类型和第二语言类型中确定目标语言类型,并根据目标语言类型生成回复电话语音的目标客服语音。其中,目标优先级用于表征第一语言类型和第二语言类型的选择顺序。
88.由上述内容可知,本技术一方面通过语料库对电话语音进行直接识别,另一方面通过电话号码这一信息对电话语音进行间接识别,不仅能够识别电话语音的语种,还能够识别电话语音对应的方言,由于整个过程无需人工参与,因此减少了人工成本,也避免了人工识别容易出现错误的问题。同时,两种识别方式相结合还可以提高对电话语音的识别准确度,进而实现提高电话语音回复效率的效果。
89.实施例2
90.根据本技术实施例,还提供了一种语音处理装置,其中,图6是根据本技术实施例的一种可选的语音处理装置的示意图,如图6所示,该装置包括:获取模块601,用于获取终端设备发送的电话语音以及终端设备对应的电话号码;第一确定模块602,用于根据语料库
确定电话语音对应的第一语言类型,其中,第一语言类型表征电话语音对应的语种为第一语种,电话语音对应的方言为第一方言;第二确定模块603,用于根据电话号码确定电话语音对应的第二语言类型,其中,第二语言类型表征电话语音对应的语种为第二语种,电话语音对应的方言为第二方言;第三确定模块604,用于从第一语言类型和第二语言类型中确定目标语言类型,并根据目标语言类型生成回复电话语音的目标客服语音。
91.需要说明的是,上述获取模块601、第一确定模块602、第二确定模块603以及第三确定模块604对应于上述实施例1中的步骤s101至步骤s104,四个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
92.可选的,上述的语料库用于存储多个语音信息,每个语音信息与一种预设语种相对应,并且每个语音信息与一种预设方言相对应。
93.可选的,上述的第一确定模块还包括:切分单元、第一识别单元、第一确定单元以及第二确定单元。其中,切分单元,用于将电话语音切分为多个语音片段;第一识别单元,用于从多个语音片段中识别目标语音片段,其中,目标语音片段中包含有预设关键词的发音信息;第一确定单元,用于根据目标语音片段从语料库中存储的多个语音信息中确定目标语音信息,其中,目标语音信息中包含有目标语音片段;第二确定单元,用于确定目标语音信息所对应的预设语种为第一语种,目标语音信息所对应的预设方言为第一方言。
94.可选的,语音处理装置还包括:第一获取模块和第四确定模块。其中,第一获取模块,用于获取终端设备所处区域的地理位置信息;第四确定模块,用于根据地理位置信息确定第一子语言类型,其中,第一子语言类型包括第三语种和第三方言,第三语种为所处区域对应的语种,第三方言为所处区域对应的方言。
95.可选的,上述的第二确定模块还包括:第三确定单元、第四确定单元、第五确定单元、第一检测单元以及第六确定单元。其中,第三确定单元,用于根据电话号码确定目标对象的籍贯和开户行信息,其中,目标对象为使用电话号码的对象,开户行信息为目标对象的银行账户所对应的银行信息;第四确定单元,用于根据籍贯确定电话语音对应的第二子语言类型,其中,第二子语言类型包括第四语种和第四方言,第四语种为籍贯所对应的地区的语种,第四方言为籍贯所对应的地区的方言;第五确定单元,用于根据开户行信息确定电话语音对应的第三子语言类型,其中,第三子语言类型包括第五语种和第五方言,第五语种为开户行信息对应的银行所在地区的语言语种,第五方言为开户行信息对应的银行所在地区的方言;第一检测单元,用于检测第一子语言类型、第二子语言类型以及第三子语言类型之间是否存在相同的子语言类型,得到检测结果;第六确定单元,用于根据检测结果从第一子语言类型、第二子语言类型以及第三子语言类型中确定第二语言类型。
96.可选的,上述的第六确定单元还包括:第一确定子单元和第二确定子单元。其中,第一确定子单元,用于在第一子语言类型、第二子语言类型以及第三子语言类型之间存在相同的子语言类型的情况下,确定相同的子语言类型为第二语言类型;第二确定子单元,用于在第一子语言类型、第二子语言类型以及第三子语言类型各不相同的情况下,依据电话语音的收听对象预设的选择顺序从第一子语言类型、第二子语言类型以及第三子语言类型中确定第二语言类型。
97.可选的,语音处理装置还包括:第一获取模块、第一检测模块以及第五确定模块。其中,第一获取模块,用于在第一子语言类型、第二子语言类型以及第三子语言类型各不相
同的情况下,获取终端设备的系统语言信息,其中,系统语言信息至少包括终端设备设置的默认语种;第一检测模块,用于检测第三语种、第四语种以及第五语种中是否存在默认语种;第五确定模块,用于在检测第三语种、第四语种以及第五语种中存在默认语种时,根据默认语种从第一子语言类型、第二子语言类型以及第三子语言类型中确定第二语言类型,其中,第二语言类型中的第二语种为默认语种。
98.可选的,上述的第三确定模块还包括:第二检测单元、第七确定单元以及第八确定单元。其中,第二检测单元,用于检测第一语言类型和第二语言类型是否相同;第七确定单元,用于在第一语言类型和第二语言类型相同的情况下,确定第一语言类型或第二语言类型为目标语言类型;第八确定单元,用于在第一语言类型和第二语言类型不同的情况下,根据目标优先级从第一语言类型和第二语言类型中确定目标语言类型,其中,目标优先级用于表征第一语言类型和第二语言类型的选择顺序。
99.可选的,上述的第八确定单元还包括:第一获取子单元、第三确定子单元以及第四确定子单元。其中,第一获取子单元,用于获取电话语音对应的语音时长;第三确定子单元,用于在语音时长大于预设时长的情况下,根据第一目标优先级确定第一语言类型为目标语言类型,其中,第一目标优先级表征第一语言类型的优先级高于第二语言类型;第四确定子单元,用于在语音时长小于或等于预设时长的情况下,根据第二目标优先级确定第二语言类型为目标语言类型,其中,第二目标优先级表征第二语言类型的优先级高于第一语言类型。
100.可选的,语音处理装置还包括:第二获取模块、翻译模块以及播放模块。其中,第二获取模块,用于获取目标语言类型所对应的翻译模型;翻译模块,用于根据翻译模型将目标语言类型的电话语音翻译为预设语言类型的语音信息,其中,预设语言类型为电话语音的收听对象所设置的语言类型;播放模块,用于通过音频播放设备播放预设语言类型的语音信息。
101.实施例3
102.根据本技术实施例,还提供了一种电子设备实施例,其中,图7是根据本技术实施例的一种可选的电子设备的示意图,如图7所示,电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
103.获取终端设备发送的电话语音以及终端设备对应的电话号码;根据语料库确定电话语音对应的第一语言类型,其中,第一语言类型表征电话语音对应的语种为第一语种,电话语音对应的方言为第一方言;根据电话号码确定电话语音对应的第二语言类型,其中,第二语言类型表征电话语音对应的语种为第二语种,电话语音对应的方言为第二方言;从第一语言类型和第二语言类型中确定目标语言类型,并根据目标语言类型生成回复电话语音的目标客服语音。
104.可选的,上述的语料库用于存储多个语音信息,每个语音信息与一种预设语种相对应,并且每个语音信息与一种预设方言相对应。
105.可选的,处理器执行程序时还实现以下步骤:将电话语音切分为多个语音片段;从多个语音片段中识别目标语音片段,其中,目标语音片段中包含有预设关键词的发音信息;根据目标语音片段从语料库中存储的多个语音信息中确定目标语音信息,其中,目标语音信息中包含有目标语音片段;确定目标语音信息所对应的预设语种为第一语种,目标语音
信息所对应的预设方言为第一方言。
106.可选的,处理器执行程序时还实现以下步骤:在根据电话号码确定电话语音对应的第二语言类型之前,获取终端设备所处区域的地理位置信息;根据地理位置信息确定第一子语言类型,其中,第一子语言类型包括第三语种和第三方言,第三语种为所处区域对应的语种,第三方言为所处区域对应的方言。
107.可选的,处理器执行程序时还实现以下步骤:根据电话号码确定目标对象的籍贯和开户行信息,其中,目标对象为使用电话号码的对象,开户行信息为目标对象的银行账户所对应的银行信息;根据籍贯确定电话语音对应的第二子语言类型,其中,第二子语言类型包括第四语种和第四方言,第四语种为籍贯所对应的地区的语种,第四方言为籍贯所对应的地区的方言;根据开户行信息确定电话语音对应的第三子语言类型,其中,第三子语言类型包括第五语种和第五方言,第五语种为开户行信息对应的银行所在地区的语言语种,第五方言为开户行信息对应的银行所在地区的方言;检测第一子语言类型、第二子语言类型以及第三子语言类型之间是否存在相同的子语言类型,得到检测结果;根据检测结果从第一子语言类型、第二子语言类型以及第三子语言类型中确定第二语言类型。
108.可选的,处理器执行程序时还实现以下步骤:在第一子语言类型、第二子语言类型以及第三子语言类型之间存在相同的子语言类型的情况下,确定相同的子语言类型为第二语言类型;在第一子语言类型、第二子语言类型以及第三子语言类型各不相同的情况下,依据电话语音的收听对象预设的选择顺序从第一子语言类型、第二子语言类型以及第三子语言类型中确定第二语言类型。
109.可选的,处理器执行程序时还实现以下步骤:在第一子语言类型、第二子语言类型以及第三子语言类型各不相同的情况下,获取终端设备的系统语言信息,其中,系统语言信息至少包括终端设备设置的默认语种;检测第三语种、第四语种以及第五语种中是否存在默认语种;在检测第三语种、第四语种以及第五语种中存在默认语种时,根据默认语种从第一子语言类型、第二子语言类型以及第三子语言类型中确定第二语言类型,其中,第二语言类型中的第二语种为默认语种。
110.可选的,处理器执行程序时还实现以下步骤:检测第一语言类型和第二语言类型是否相同;在第一语言类型和第二语言类型相同的情况下,确定第一语言类型或第二语言类型为目标语言类型;在第一语言类型和第二语言类型不同的情况下,根据目标优先级从第一语言类型和第二语言类型中确定目标语言类型,其中,目标优先级用于表征第一语言类型和第二语言类型的选择顺序。
111.可选的,处理器执行程序时还实现以下步骤:获取电话语音对应的语音时长;在语音时长大于预设时长的情况下,根据第一目标优先级确定第一语言类型为目标语言类型,其中,第一目标优先级表征第一语言类型的优先级高于第二语言类型;在语音时长小于或等于预设时长的情况下,根据第二目标优先级确定第二语言类型为目标语言类型,其中,第二目标优先级表征第二语言类型的优先级高于第一语言类型。
112.可选的,处理器执行程序时还实现以下步骤:在根据目标优先级从第一语言类型和第二语言类型中确定目标语言类型之后,获取目标语言类型所对应的翻译模型;根据翻译模型将目标语言类型的电话语音翻译为预设语言类型的语音信息,其中,预设语言类型为电话语音的收听对象所设置的语言类型;通过音频播放设备播放预设语言类型的语音信
息。
113.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
114.在本技术的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
115.在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
116.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
117.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
118.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
119.以上所述仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
当前第1页1 2 
网友询问留言 已有2条留言
  • 135210... 来自[中国] 2023年03月17日 09:26
    语音处理技术需要更多人来关注
    0
  • 152681... 来自[中国] 2023年03月16日 16:11
    很不错
    0
1