一种语音交互方法、装置、计算设备及存储介质与流程

文档序号:20760607发布日期:2020-05-15 18:04阅读:145来源:国知局
一种语音交互方法、装置、计算设备及存储介质与流程

本申请涉及语音交互技术领域,尤其涉及一种语音交互方法、装置、计算设备及存储介质。



背景技术:

语音智能控制设备,可以接收用户的语音,并对用户的语音进行解析得到语音命令,然后根据语音命令去执行相应的功能。随着人工智能理论和技术的日益成熟,语音交互已经成为一种新型的人机交互方式被广泛的使用。

目前,各种智能语音设备已经成为人们生活中不可或缺的东西,例如,智能语音音箱、智能语音电视、智能语音空调等,用户都可以通过语音与它们进行交互。然而,用户在跟智能设备进行语音交互时,设备在应答的过程中,虽然每个字都合成了读音,但是每个字之间的间隔停顿与人正常说话时的状态有差异,使得设备应答较为机械,不够自然,缺乏语音交互的真实感。

综上所述,如何使智能设备在人机交互时输出的应答语音更接近人正常说话的状态是需要解决的技术问题。



技术实现要素:

本申请提供一种语音交互方法、装置、计算设备及存储介质,用于解决在人机交互时设备的应答比较机械,缺乏人机交互的真实感的技术问题。

第一方面,提供一种语音交互方法,所述方法包括:

基于获取的用户交互语音,生成应答文本;

按照预设获取策略,获取与所述应答文本相关联的目标语音资源;

对所述目标语音资源进行音频特征提取,以获得所述目标语音资源对应的音韵特征信息;

根据所述音韵特征信息对所述应答文本进行合成处理,以获得与所述应答文本对应的设备应答语音;

输出所述设备应答语音。

可选的,按照预设获取策略,获取与所述应答文本相关联的目标语音资源,包括:

对所述应答文本进行分词处理,并提取所述应答文本包括的关键词;

获取包含所述关键词的语音资源作为所述目标语音资源。

可选的,按照预设获取策略,获取与所述应答文本相关联的目标语音资源,包括:

对所述应答文本进行语义识别,以确定所述应答文本对应的语义;

获取具有所述语义的语音资源作为所述目标语音资源。

可选的,按照预设获取策略,获取与所述应答文本相关联的目标语音资源,包括:

确定所述用户交互语音对应的用户的目标用户属性信息;

根据预先设置的用户属性信息与偏好语音类型的对应关系,确定与所述目标用户属性信息对应的目标偏好语音类型;

获取与所述目标偏好语音类型对应的语音资源作为所述目标语音资源。

可选的,按照预设获取策略,获取与所述应答文本相关联的目标语音资源,包括:

确定与所述用户交互语音的目标口音类型满足预设关联条件的关联口音类型;

获取具有所述关联口音类型的语音资源作为所述目标语音资源。

可选的,按照预设获取策略,获取与所述应答文本相关联的目标语音资源,包括:

获取与所述应答文本相关联的多个候选语音资源;

确定每个候选语音资源对应的文本与所述应答文本的匹配值,以得到至少两个匹配值;其中,匹配值用于表征所述候选语音资源对应的文本与所述应答文本的文本内容的相似程度;

根据匹配值筛选策略和所述至少两个匹配值,从所述多个候选语音资源中确定所述目标语音资源。

可选的,利用所述音韵特征信息对所述应答文本进行合成处理,包括:

确定所述应答文本的语句特征信息,其中,所述语句特征信息用于表征所述应答文本的句式类型、文本长度、单词词性中的至少一种;

根据所述语句特征信息,将所述音韵特征信息与所述应答文本进行合成。

第二方面,提供一种语音交互装置,所述装置包括:

第一获取模块,用于基于获取的用户交互语音,生成应答文本;

第二获取模块,用于按照预设获取策略,获取与所述应答文本相关联的目标语音资源;

特征提取模块,用于对所述目标语音资源进行音频特征提取,以获得所述目标语音资源对应的音韵特征信息;

合成模块,用于根据所述音韵特征信息对所述应答文本进行合成处理,以获得与所述应答文本对应的设备应答语音;

输出模块,用于输出所述设备应答语音。

在一种可能的设计中,所述第二获取模块,用于:

对所述应答文本进行分词处理,并提取所述应答文本包括的关键词;

获取包含所述关键词的语音资源作为所述目标语音资源。

在一种可能的设计中,所述第二获取模块,用于:

对所述应答文本进行语义识别,以确定所述应答文本对应的语义;

获取具有所述语义的语音资源作为所述目标语音资源。

在一种可能的设计中,所述第二获取模块,用于:

确定所述用户交互语音对应的用户的目标用户属性信息;

根据预先设置的用户属性信息与偏好语音类型的对应关系,确定与所述目标用户属性信息对应的目标偏好语音类型;

获取与所述目标偏好语音类型对应的语音资源作为所述目标语音资源。

在一种可能的设计中,所述第二获取模块,用于:

确定与所述用户交互语音的目标口音类型满足预设关联条件的关联口音类型;

获取具有所述关联口音类型的语音资源作为所述目标语音资源。

在一种可能的设计中,所述第二获取模块,用于:

获取与所述应答文本相关联的多个候选语音资源;

确定每个候选语音资源对应的文本与所述应答文本的匹配值,以得到至少两个匹配值;其中,匹配值用于表征所述候选语音资源对应的文本与所述应答文本的文本内容的相似程度;

根据匹配值筛选策略和所述至少两个匹配值,从所述多个候选语音资源中确定所述目标语音资源。

在一种可能的设计中,所述合成模块,用于:

确定所述应答文本的语句特征信息,其中,所述语句特征信息用于表征所述应答文本的句式类型、文本长度、单词词性中的至少一种;

根据所述语句特征信息,将所述音韵特征信息与所述应答文本进行合成。

第三方面,提供一种计算设备,所述计算设备包括:

存储器,用于存储程序指令;

处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行第一方面中的任一方法包括的步骤。

第四方面,提供一种存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行第一方面中的任一方法包括的步骤。

第五方面,提供一种包含指令的计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行上述各种可能的实现方式中所描述的语音交互方法。

在本申请实施例中,在获取用户交互语音并根据用户交互语音生成应答文本后,可以获取与该应答文本相关联的语音资源,并获得该语音资源的音韵特征信息,然后将音韵特征信息合成到应答文本得到具有该音韵特征信息的应答语音,最后将得到的应答语音输出,以实现与用户之间的语音交互。也就是说,当用户与语音设备进行语音交互时,设备可以将获取的语音资源的音韵特征应用到生成的应答文本上进行语音合成,使得设备生成的应答语音中具备了音韵特征,而音韵特征能够表达真实用户的语音特点,所以具备音韵特征的应答语音更为自然,进而达到接近与真人交互应答的效果,提供了一种在人机交互时使设备的语音应答更自然的技术方案,解决了设备应答机械不自然的问题,提升了用户的语音交互体验。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的应用场景的示意图;

图2为本申请实施例提供的语音交互方法的流程示意图;

图3为本申请实施例提供的语音交互装置的结构框图;

图4为本申请实施例提供的计算设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请中的“多个”可以表示至少两个,例如可以是两个、三个或者更多个,本申请实施例不做限制。

另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,在不做特别说明的情况下,一般表示前后关联对象是一种“或”的关系。

为了便于理解,下面先对本发明实施例的技术背景进行介绍。

目前,智能语音设备在应答时,从本地存储的语音库中获取语音资源,语音库中的存储的语音信息需要专门的人进行长时间的录制,而且针对用户不同的语音信息需要进行不同的应答时,语音库中需要的数据量较大,人为录制需要的周期较长,以致于语音库中存储的语音资源不完整,当智能语音设备生成的应答文本在语音库中没有相应的语音资源时,就需要用词和字的发音来合成,就没有正常应答时的特征,以致于用户在跟智能语音设备进行语音交互时,设备输出的应答语音较为机械不够自然,例如,智能语音设备根据用户的语音信息生成的应答文本是“已经将电视频道切换到湖南卫视”,此时语音库中没有这句话的语音样本,就需要用词和字的发音将“已经将电视频道切换到湖南卫视”中的词和字按照统一的方式来进行合成,得到合成后的语音中每个字和词的读音跟正常说话不同,比较机械生硬,从而导致输出的应答语音机械不自然,影响用户体验。

为了满足用户对于智能语音设备输出的应答语音更加流畅自然的需求以及提升用户体验,本申请实施例提供了一种语音交互的方案,该方案通过获取与智能语音设备生成的应答文本相同或相似的语音资源,获取该语音资源中的音韵特征信息(例如也可以称作是韵律特征信息),并将该音韵特征信息合成到应答文本上生成应答语音并进行输出,使得合成到应答文本上的音韵特征信息是从同一个语音资源中获取的,输出的应答语音流畅自然,提升了用户的使用体验。

在介绍完本申请实施例的设计思想后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单的介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。

请参见图1所示,图1为本申请实施例的技术方案能够适用的一种应用场景,在该应用场景中,包括多个用户(如用户1和用户2)和多个电子设备(如电子设备1、电子设备2、电子设备3和电子设备4),电子设备可以是例如手机、电脑或者其它可以进行语音交互的智能家居设备(例如空调、冰箱、智能风扇、加湿器),等等,本申请实施例不做限制。在本应用场景中,电子设备在接收到用户1和用户2语音信息后,生成应答文本,从本地语音库中存储的语音资源中获取与应答文本相同或相似的语音资源,或者从网络上爬取与应答文本相同或相似的语音资源,例如可以将从本地语音库中获取的语音资源和从网络上爬取的语音资源称作是目标语音资源,然后对目标语音资源进行音频特征提取,获得目标语音资源的音韵特征信息,将获得的音韵特征信息合成到应答文本上,生成应答语音,最后电子设备将生成的应答语音输出。

下面结合说明书附图介绍本申请实施例提供的技术方案。

请参见图2所示,图2位本申请实施例提供的一种语音交互方法,该方法可以由前述图1中所示的应用场景中的任一电子设备执行,在具体的实施过程中,该电子设备例如可以是手机、平板、电脑或其它可以进行语音交互的智能家居设备(例如空调、冰箱、智能风扇、加湿器)。图2中语音交互方法的流程描述如下:

步骤201:获取用户交互语音。

在本申请实施例中,用户交互语音是用户用于与智能语音设备进行交互的语音信息。例如,可以是用户对智能语音设备的控制指令,也可以是用户想智能语音设备发出的询问指令,等等。

步骤202:基于获取的用户交互语音,生成应答文本。

在本申请实施例中,当用户与智能语音设备进行交互时,智能语音设备获取用户的语音信息并进行解析,确定用户的意图,然后根据用户的意图生成用于回应用户的应答文本,例如,用户的语音信息是“今天的气温是多少度”,智能语音设备根据用户的语音信息判断出用户的意图是想要知道今天的天气情况,然后智能语音设备生成用于回应用户的应答文本内容是“今天的最低气温为7℃,最高气温为11℃”,等等,智能语音设备可以根据用户不同的语音信息生成不同的应答文本。

步骤203:按照预设获取策略,获取与应答文本相关联的目标语音资源。

在本申请实施例中,目标语音资源是指根据应答文本获取的语音资源,在获取的过程中,目标语音资源可以是获取的与应答文本具有相同文本的语音资源,也可以是获取的包含应答文本但包含其它文本的语音资源,也就是说,获取的目标语音资源对应的文本内容可以是和应答文本内容完全相同,也可以是里面包含了应答文本内容,但还包含一些其它的文本内容。预设获取策略是指根据应答文本获取与应答文本相关联的目标语音资源的方式,其中,相关联可以是相同,也可以是相似,即目标语音资源与应答文本之前具有一定的关联关系,这样可以使得对应答文本的合成更能符合应答文本自身的文本特性。本申请实施例中,对与应答文本相关联的目标语音资源按照预设获取策略进行获取的方式可以包括多种,为便于理解,以下举例说明。

第一种获取方式

在本申请实施例中,智能语音设备对生成的应答文本的文本内容进行分词处理,并提取应答文本包括的关键词,然后根据提取的关键词进行搜索,搜索到的目标语音资源中包括该关键词。

在一种可能的实施方式中,智能语音设备对生成的应答文本的文本内容进行分词处理,分词处理的处理方式可以是根据文本内容的句式结构将文本内容分为主谓宾结构,分别从主语、谓语、宾语中确定出关键词和关键句,其中关键句中可以包含多个字词或者包含多个关键词,也就是说,关键句中的字长比关键词的字长长,关键句中包含的字词数量也比关键词中包含的字词数量多,但是由于在很多特定的场景下,多个关键词都是一起出现的,因此也可以直接获取一个字长较长的关键句,以用户询问天气为例,智能语音设备生成的应答文本是“今天的最高气温为11摄氏度,最低气温为7摄氏度”,其中,“气温”可以作为一个关键词,“摄氏度”也可以作为一个关键词,但是由于“气温”和“摄氏度”很多情况下都是同时出现的,因此可以将“气温为11摄氏度”和“气温为7摄氏度”作为关键句,根据关键词(今天、最高)和关键句(气温为11摄氏度、气温为7摄氏度)搜索到的目标语音资源中将会包含前面的关键词和关键句。

在一种可能的实施方式中,智能语音设备对生成的应答文本的文本内容进行分词处理,分词处理的处理方式还可以是与标准词语库进行比对,将存在于标准词语库中的词语与其它的字分隔开(例如用空格符进行分隔),也就是说,如果文本内容中的一个词语存在于标准词语库中,则将该词语的前后都进行分割处理,并将该词语作为一个关键词,例如,生成的应答文本是“空调已开启”,“空调”这两个字存在于标准词语库中,则将“空调”与其它字分隔开,并将“空调”作为一个关键词,且“开启”这两个字也存在于标准词语库中,则将“开启”也与其它字分隔开,并将“开启”作为一个关键词,该应答文本经过分词处理后,文本内容变成“空调已开启”,根据关键词搜索到的目标语音资源中将会包含“空调”和“开启”字样。

在具体的实施过程中,通过对应答文本进行分词处理并提取应答文本中关键词和关键句的方式搜索目标语音资源,能够提升目标语音搜索过程中的搜索效率和搜索准确性。

第二种获取方式

在本申请实施例中,智能语音设备根据应答文本的文字信息对应答文本进行语义分析,确定应答文本对应的语义,根据该语义获取与应答文本语义相同的语音资源,其中,语义相同可以是指获取的目标语音资源对应的文字信息和应答文本的文字信息是相同的,也可以是指获取的目标语音资源对应的文字信息和应答文本的文字信息不同,但目标语音资源对应的文字信息中所要表达的语义和应答文本的文字信息所要表达的语义相同。还是以用户询问天气预报为例,生成的应答文本是“今天的最高气温为11摄氏度,最低气温为7摄氏度”,通过对应答文本进行语义分析,确定出应答文本对应的语义是回答天气,因此在进行搜索时可能搜索出来的结果是“今天的最高气温为11摄氏度,最低气温为7摄氏度”,与应答文本的文字信息是相同的,也可能搜索出来的结果是“今天的最高温度为11摄氏度,最低温度为7摄氏度”,与应答文本的文字信息不同,但搜索出的目标语音资源对应的文字信息中所要表达的语义和应答文本的文字信息所要表达的语义相同的。

在具体的实施过程中,通过搜索与应答文本语义相同的目标语音资源可以在没有搜索到拥有与应答文本的文字信息相同的文字信息的目标语音资源时,可以搜索与应答文本的文字信息类似的目标语音资源,尽量避免由于搜索不到拥有与应答文本的文字信息相同的文字信息的目标语音资源而放弃搜索,导致将从不同语音资源中获取的语音片段进行合成,产生设备应答机械不自然的情况。

第三种获取方式

在本申请实施例中,根据用户交互语音,确定用户属性信息(例如可以是用户的年龄阶段、性别、职业等信息),然后根据预先设置的用户属性信息与偏好语音类型的对应关系,确定出该用户偏好的语音类型,根据用户偏好的语音类型搜索目标语音资源。

在一种可能的实施方式中,例如家里有3口人,一个老人,一个小朋友,一个中年人,小朋友喜欢的语音类型可能是动画片里面的比较童真的语音类型,老人喜欢的语音类型可能是比较成熟的语音类型,中年人喜欢的语音类型可能是比较活泼的语音类型,因此在预先设置时就将老人偏好的语音类型设置成比较成熟的语音类型,小孩偏好的语音类型就设置成童真的语音类型,中年人就设置成比较活泼的语音类型,在用户在进行语音交互时,智能语音设备接收到用户交互语音时就根据用户的属性信息判断预先设置的该用户偏好的语音类型,然后搜索用户偏好语音类型对应的目标语音资源。

在一种可能的实施方式中,例如家里有2口人,一个播音主持,一个喜剧演员,播音主持喜欢的语音类型可能是比较正式的语音类型,喜剧演员喜欢的语音类型可能是比较有趣的语音类型,因此在预先设置时就将播音主持偏好的语音类型设置成正式的语音类型,喜剧演员偏好的语音类型设置成有趣的语音类型,在用户进行语音交互时,智能语音设备获取目标语音资源的方式跟上述实施方式中获取目标语音资源的方式相同,在此不再赘述。

在具体的实施过程中,根据用户的属性信息获取用户偏好的语音类型,可以个性化的满足用户的需求,使得获取的目标语音资源更具灵活性,提升用户体验。

第四种获取方式

在本申请实施例中,根据用户交互语音判断用户的口音类型,然后根据该口音类型确定满足预设关联条件的关联口音类型,根据该关联口音类型搜索目标语音资源,其中,预设关联条件可以是由用户自己设置,也可以是由智能语音设备设置,在本申请实施例中不做限定。

在一种可能的实施方式中,预设关联条件是指关联的口音类型与该用户的口音相同,例如,用户的口音类型是陕西话,则根据预设关联条件确定出的关联口音类型也是陕西话,因此智能语音设备在搜索目标语音资源时可以从网上搜索口音类型是陕西话的语音资源作为目标语音资源。又例如,智能语音设备将每次与用户进行交互时的用户语音信息存储在本地语音库中,当生成应答文本时,智能语音设备搜索到本地语音库中存在该应答文本对应的语音资源,则智能语音设备将用户自己曾经的语音资源作为目标语音资源。

在一种可能的实施方式中,预设关联条件是指关联的口音类型与该用户的口音类型相似,例如,由于四川话、贵州话、云南话相似,因此在预设关联条件时可以将四川话、贵州话、云南话作为关联口音类型,也就是说,当用户的口音类型是四川话时,根据预设关联条件确定出的关联口音类型可以是四川话,也可以是云南话,还可以是贵州话,同样,当用户的口音类型是云南话或者贵州话时确定出的关联口音类型也可以是四川话或者云南话或者贵州话,因此当用户的口音类型是这三种口音类型之一时,智能语音设备在搜索目标语音资源时可以搜索口音类型是这三种口音类型的任意一种类型对应的语音资源作为目标语音资源。

在一种可能的实施方式中,预设关联条件是指关联的口音类型与该用户的口音类型差异很大,例如,用户的口音类型是广东话,预设的关联口音类型是东北话,因此智能语音设备在搜索目标语音资源时可以从搜索口音类型是陕西话的语音资源作为目标语音资源。

在具体的实施过程中,根据用户的口音类型确定关联的口音类型,使得在人机交互时,智能语音设备可以更加个性化的满足用户的需求,使得获取的目标语音资源更具灵活性,提升用户体验。

在另一种可能的实施方式中,如果通过前述四种获取方式获取了与应答文本相关联的多个候选语音资源,智能语音设备将每个候选语音资源对应的文本与应答文本进行比较,进而确定两者之间的至少两个匹配值(匹配值用于表示候选语音资源对应的文本和应答文本的相似程度),然后根据匹配值筛选策略从至少两个匹配值对应的多个候选语音资源中确定出一个目标语音资源,例如,将最大匹配值对应的语音资源作为目标语音资源。

在具体的实施过程中,通过对每个候选语音资源对应的文本与应答文本进行比较的方式,来确定目标语音资源,确保了目标语音资源获取的有效性和准确性。

步骤204:对目标语音资源进行音频特征提取,以获得目标语音资源对应的音韵特征信息。

在本申请实施例中,音韵特征信息包括字与字之间的停顿特征、连音特征,以及每个字的发音高、低特征、语调、时域分布和重音等信息中的至少一种,智能语音设备从目标语音资源中提取目标语音资源的音频特征,进而得到该目标语音资源的音韵特征信息。

步骤205:利用音韵特征信息对应答文本进行合成处理,以获得与应答文本对应的设备应答语音。

在本申请实施例中,设备应答语音是指设备作为应答者进行应答的语音,也就是说设备应答语音是设备作为应答者回复用户的语音,例如可以称作是设备应答语音,将提取的目标语音资源中的音韵特征信息合成到应答文本上,得到与应答文本对应的应答语音。

在一种可能的实施方式中,确定应答文本的语句特征信息,其中,语句特征信息是指应答文本的句式类型,文本长度,各个单词词性中的至少一种。例如,当应答文本的句式类型是反问句,对应于语气词“吗”可以轻读;又例如,当文本长度较长时,需要提取的音韵特征可以是停顿特征(即哪个字后面可以停顿的时间稍长);再例如,用户交互语音是动作指令,则生成的应答文本可能主要针对动作进行回答,此时可以将针对动作的动词进行重读。然后分别将获取的目标语音资源中的音韵特征信息与智能语音设备生成的应答文本输入语音合成模块,语音合成模块根据前述的语句特征信息,将目标语音资源中的音韵特征信息与应答文本进行合成。这样,根据应答文本的语句特征信息,将音韵特征信息与应答文本进行合成使得合成的方式更加合理、准确,使得生成的应答语音更加自然,从而提升用户的体验。

步骤206:输出设备应答语音。

在本申请实施例中,将生成的设备应答语音进行输出,以对用户的语音进行回应。

本申请实施例中,智能语音设备根据获取的用户交互语音信息生成应答文本,然后根据不同的获取方式从本地存储的语音资源或通过爬虫从网上爬取的语音资源中获取与应答文本相关联的目标语音资源,提取目标语音资源的音韵特征信息,将该音韵特征信息合成到应答文本上生成应答语音,并输出,使得应答文本具有和目标语音资源中相同的音韵特征信息,从而使用户能够感觉到正常对话的特征,提升用户的体验。

基于同一发明构思,本申请实施例提供了一种语音交互装置,该语音交互装置能够实现前述的语音交互方法对应的功能。该语音交互装置可以是硬件结构、软件模块、或者硬件结构加软件模块。该语音交互装置可以由芯片系统实现,芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。请参见图3所示,该语音交互装置包括第一获取模块301、第二获取模块302、特征提取模块303、合成模块304和输出模块305。其中:

第一获取模块301,用于基于获取的用户交互语音,生成应答文本;

第二获取模块302,用于按照预设获取策略,获取与应答文本相关联的目标语音资源;

特征提取模块303,用于对目标语音资源进行音频特征提取,以获得目标语音资源对应的音韵特征信息;

合成模块304,用于利用音韵特征信息对应答文本进行合成处理,以获得与应答文本对应的设备应答语音;

输出模块305,用于输出设备应答语音。

在一种可能的实施方式中,第二获取模块302,用于:

对应答文本进行分词处理,并提取应答文本包括的关键词;

获取包含关键词的语音资源作为目标语音资源。

在一种可能的实施方式中,第二获取模块302,用于:

对应答文本进行语义识别,以确定应答文本对应的语义;

获取具有语义的语音资源作为目标语音资源。

在一种可能的实施方式中,第二获取模块302,用于:

确定用户交互语音对应的用户的目标用户属性信息;

根据预先设置的用户属性信息与偏好语音类型的对应关系,确定与目标用户属性信息对应的目标偏好语音类型;

获取与目标偏好语音类型对应的语音资源作为目标语音资源。

在一种可能的实施方式中,第二获取模块302,用于:

确定与用户交互语音的目标口音类型满足预设关联条件的关联口音类型;

获取具有关联口音类型的语音资源作为目标语音资源。

在一种可能的实施方式中,第二获取模块302,用于:

获取与应答文本相关联的多个候选语音资源;

确定每个候选语音资源对应的文本与应答文本的匹配值,以得到至少两个匹配值;其中,匹配值用于表征两个文本的文本内容的相似程度。

按照匹配值筛选策略和至少两个匹配值,从多个候选语音资源中确定目标语音资源。

在一种可能的实施方式中,合成模块304,用于:

确定应答文本的语句特征信息,其中,语句特征信息用于表征应答文本的句式类型、文本长度、各个单词词性中的至少一种;

根据语句特征信息,将音韵特征信息与应答文本进行合成。

前述的语音交互方法的实施例涉及的各步骤的所有相关内容均可援引到本申请施例中的语音交互装置所对应的功能模块的功能描述,在此不再赘述。

本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本申请各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

基于同一发明构思,本申请实施例提供一种计算设备。请参见图4所示,该计算设备包括至少两个处理器401,以及与至少两个处理器连接的存储器402,本申请实施例中不限定处理器401与存储器402之间的具体连接介质,图4中是以处理器401和存储器402之间通过总线400连接为例,总线400在图4中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线400可以分为地址总线、数据总线、控制总线等,为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

本申请实施例中的计算设备还可以包括通信接口403,该通信接口403例如是网口,计算设备可以通过该通信接口403接收数据或者发送数据。

在本申请实施例中,存储器402存储有可被至少两个处理器401执行的指令,至少两个处理器401通过执行存储器402存储的指令,可以执行前述的语音交互方法中所包括的步骤。

其中,处理器401是计算设备的控制中心,可以利用各种接口和线路连接整个设备的各个部分,通过运行或执行存储在存储器402内的指令以及调用存储在存储器402内的数据,计算设备的各种功能和处理数据,从而对计算设备进行整体监控。可选的,处理器401可包括一个或多个处理单元,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。在一些实施例中,处理器401和存储器402可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。

处理器401可以是通用处理器,例如中央处理器(cpu)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的语音交互方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

存储器402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器402可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(randomaccessmemory,ram)、静态随机访问存储器(staticrandomaccessmemory,sram)、可编程只读存储器(programmablereadonlymemory,prom)、只读存储器(readonlymemory,rom)、带电可擦除可编程只读存储器(electricallyerasableprogrammableread-onlymemory,eeprom)、磁性存储器、磁盘、光盘等等。存储器402是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器402还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。

通过对处理器401进行设计编程,可以将前述实施例中介绍的语音交互方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行前述的语音交互方法的步骤,如何对处理器401进行设计编程为本领域技术人员所公知的技术,这里不再赘述。

基于同一发明构思,本申请实施例还提供一种存储介质,该存储介质存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行如前述的语音交互方法的步骤。

在一些可能的实施方式中,本申请提供的语音交互方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使该电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的语音交互方法中的步骤。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1