口音转换方法及装置、电子设备与流程

文档序号:14571877发布日期:2018-06-01 22:43阅读:265来源:国知局
口音转换方法及装置、电子设备与流程

本发明涉及语音处理技术领域,尤其涉及一种口音转换方法及装置、电子设备。



背景技术:

随着经济的发展,在工作或者生活中,用户会与不同国家或者地区的用户交流。双方会采用同一种语言进行沟通,并且双方会不自觉地将各自的口音嵌入到该语言中,影响到对方的理解。以英语为例,包括英式英语、美式英语、澳式英语、中式英语、印式英语等。另外,在电话沟通场景中,由于缺少表情、动作等辅助方式的帮忙,影响结果更加明显。



技术实现要素:

本发明提供一种口音转换方法及装置、电子设备,以解决相关技术中的不足。

根据本发明实施例的第一方面,提供一种口音转换方法,所述方法包括:

获取具有第一口音的源语音数据;

获取所述源语音数据对应的源语音特征向量;

调用特征转换模型,将所述源语音特征向量转换成目标语音特征向量;

基于所述目标语音特征向量合成具有第二口音的目标语音数据。

可选地,所述源语音特征向量包括以下至少一个:所述源语音数据的基频特征向量、语速特征向量、能量特征向量和频谱特征向量。

可选地,所述源语音特征向量包括所述源语音数据的基频特征向量,所述获取所述源语音数据对应的源语音特征向量包括:

利用自相关方法获取所述源语音数据的基频特征向量。

可选地,所述源语音特征向量包括所述源语音数据的语速特征向量,所述获取所述源语音数据对应的源语音特征向量包括:

利用可视化语音工具获取所述源语音数据中音节的边界;

根据所述边界确定所述源语音数据的时长和包含词语的数量;

根据所述时长和所述数量获取所述源语音数据的语速特征向量。

可选地,所述源语音特征向量包括能量特征向量和频谱特征向量,所述获取所述源语音数据对应的源语音特征向量包括:

利用线性预测编码LPC对所述源语音数据进行编码,得到所述LPC的系数;

获取所述系数的倒谱,得到线性预测倒谱系数;所述作为所述源语音数据的能量特征向量和频谱特征向量。

可选地,所述源语音特征向量包括能量特征向量和频谱特征向量,所述获取所述源语音数据对应的源语音特征向量包括:

基于所述源语音数据的频率,根据梅尔公式获取所述源语音数据对应的能量包络谱;

将所述能量包络谱输入梅尔滤波器组,得到梅尔频率刻度;

对所述梅尔频率刻度进行对数变换和离散余弦变换,得到梅尔频率倒谱系数MFCC;所述MFCC作为所述源语音数据的能量特征向量和频谱特征向量。

可选地,所述方法还包括:

获取设定数量的样本语音数据对;所述样本语音数据对包括分别采用第一口音和第二口音朗读同一内容后得到的语音数据;

利用所述样本语音数据训练初始的特征转换模型,直至满足终止条件时停止训练,得到训练后的特征转换模型;

其中,所述终止条件包括:初始的特征转换模型输出的语音特征向量和所述第二口音的语音数据对应的语音特征向量之间的损失值,小于或者等于损失值阈值。

根据本发明实施例的第二方面,提供一种口音转换装置,所述装置包括:

源语音数据获取模块,用于获取具有第一口音的源语音数据;

源特征向量获取模块,用于获取所述源语音数据对应的源语音特征向量;

目标特征向量获取模块,用于调用特征转换模型,将所述源语音特征向量转换成目标语音特征向量;

目标语音合成模块,用于基于所述目标语音特征向量合成具有第二口音的目标语音数据。

可选地,所述源特征向量获取模块获取的源语音特征向量包括以下至少一个:所述源语音数据的基频特征向量、语速特征向量、能量特征向量和频谱特征向量。

可选地,所述源特征向量获取模块获取的源语音特征向量包括所述源语音数据的基频特征向量,所述装置包括:

所述源特征向量获取模块用于利用自相关方法获取所述源语音数据的基频特征向量。

可选地,所述源特征向量获取模块获取的源语音特征向量包括所述源语音数据的语速特征向量,所述源特征向量获取模块包括:

音节边界获取单元,用于利用可视化语音工具获取所述源语音数据中音节的边界;

时长词数获取单元,用于根据所述边界确定所述源语音数据的时长和包含词语的数量;

语速特征向量获取单元,用于根据所述时长和所述数量获取所述源语音数据的语速特征向量。

可选地,所述源特征向量获取模块获取的源语音特征向量包括能量特征向量和频谱特征向量,所述源特征向量获取模块包括:

LPC系数获取单元,用于利用线性预测编码LPC对所述源语音数据进行编码,得到所述LPC的系数;

特征向量获取单元,用于获取所述系数的倒谱,得到线性预测倒谱系数;所述作为所述源语音数据的能量特征向量和频谱特征向量。

可选地,所述源特征向量获取模块获取的源语音特征向量包括能量特征向量和频谱特征向量,所述源特征向量获取模块包括:

包络谱获取单元,用于基于所述源语音数据的频率,根据梅尔公式获取所述源语音数据对应的能量包络谱;

刻度获取单元,用于将所述能量包络谱输入梅尔滤波器组,得到梅尔频率刻度;

MFCC获取单元,用于对所述梅尔频率刻度进行对数变换和离散余弦变换,得到梅尔频率倒谱系数MFCC;所述MFCC作为所述源语音数据的能量特征向量和频谱特征向量。

可选地,所述装置还包括:

样本数据对获取模块,用于获取设定数量的样本语音数据对;所述样本语音数据对包括分别采用第一口音和第二口音朗读同一内容后得到的语音数据;

转换模型训练模块,用于利用所述样本语音数据训练初始的特征转换模型,直至满足终止条件时停止训练,得到训练后的特征转换模型;

其中,所述终止条件包括:初始的特征转换模型输出的语音特征向量和所述第二口音的语音数据对应的语音特征向量之间的损失值,小于或者等于损失值阈值。

根据本发明实施例的第三方面,提供一种电子设备,所述电子设备包括:

受话器;

扬声器;

处理器;

用于存储所述处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述存储器中可执行指令以实现第一方面所述方法的步骤。

根据上述实施例可知,通过获取具有第一语音的源主意数据对应的源语音特征向量,然后调用特征转换模型,根据源语音特征向量转换成与第二口音相匹配的目标语音特征向量,最后根据目标语音特征向量合成具有第二口音的目标语音数据。可见,本实施例中,通过对双方的源语音数据进行口音转换,使双方具有相同或者相似的口音,降低因口音不同而引起的沟通障碍,可以提升双方沟通效率。另外,本实施例可以保持双方说话时的语音特点,使双方感受到对方的内容和情感,进一步提升沟通效率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1是根据本发明实施例示出的一种口音转换方法的应用场景示意图;

图2是根据本发明实施例示出的一种口音转换方法的流程示意图;

图3是根据本发明实施例示出的获取语速特征向量的流程示意图;

图4是根据本发明实施例示出的获取LPC作为能量特征向量和频谱特征向量的流程示意图;

图5是根据本发明实施例示出的获取MFCC作为能量特征向量和频谱特征向量的流程示意图;

图6是根据本发明实施例示出的训练特征转换模型的流程示意图;

图7~图11是根据本发明实施例示出的一种口音转换装置的框图;

图12是根据本发明实施例示出的一种电子设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

随着经济的发展,在工作或者生活中,用户会与不同国家或者地区的用户交流。双方会采用同一种语言进行沟通,并且双方会不自觉地将各自的口音嵌入到该语言中,影响到对方的理解。以英语为例,包括英式英语、美式英语、澳式英语、中式英语、印式英语等。另外,在电话沟通场景中,由于缺少表情、动作等辅助方式的帮忙,影响结果更加明显。为解决上述问题,本发明实施例提供了一种口音转换方法,图1是根据本发明实施例示出的一种口音转换方法的应用场景示意图。参见图1,一名澳大利亚人和一名中国人在电话沟通,由于澳大利亚人持有第一口音,其所说英语可以称之为“澳式英语”,中国人持第二口音,其所说英语可以称之为“中式英语”。若澳大利亚人直接听到“中式英语”和中国人直接听到“澳式英语”,轻则不习惯,降低沟通效率,重则错误理解对方的意思。本实施例中,“中式英语”或者“澳式英语”转换到对方口音的英语,这样,澳大利亚人可以听到“澳式英语”,中国人可以听到“中式英语”,由于仅改变口音而不改变内容,这样可以能够使双方快速高效的沟通,提升对方的使用体验。

图2是根据本发明实施例示出的一种口音转换方法的流程示意图。本实施例中口音转换方法可以应用于终端、服务器等设备。为方便描述,本实施例中以口音转换方法应用于通信服务器为例进行说明,在语音通话的一个情景中,具有第一口音的用户(后称之为第一用户)为语音通话的主动方,具有第二口音的用户(后称之为第二用户)为语音通话的被动方。参见图2,该口音转换方法包括步骤201~步骤204:

201,获取具有第一口音的源语音数据。

本实施例中,语音采集设备采集到第一用户的源语音数据,然后语音采集设备将源语音数据发送给通信服务器。通信服务器可以获取具有第一口音的源语音数据。

在语音通话过程中,第一用户所处环境可能存在一些噪声,例如说话声、回声、风声等,影响到口音转换方法的具体实施。为此,本实施例中语音采集设备对采集到的初始语音数据(区别于后续的源语音数据)进行预处理得到源语音数据。当然,源语音数据的预处理也可以由通信服务器实现,在此不作限定。

其中预处理包括至少一种下述处理:过滤噪声处理、去除回音处理、增强有效信号处理、信号补齐与切割处理。对于过滤噪声处理、去除回音处理、增强有效信号处理、信号补齐与切割处理等可以采用相关技术中的方案实现,在此不作限定。

202,获取所述源语音数据对应的源语音特征向量。

本实施例中,通信服务器提取源语音数据的语音特征,然后利用这些语音特征形成源语音数据对应的源语音特征向量。可理解的是,上述语音特征与第一口音相关,可以第一口音的音调、语速、响度、音色和发音等特征。例如,音调与源语音数据的基音频率(基频)相关,语速与源语音数据的时长相关,响度与源语音数据的能量相关,音色与源语音数据的各次谐波相关,发音与源语音数据的频谱相关。

基于上述分析,上述源语音特征向量可以包括以下至少一个:所述源语音数据的基频特征向量、语速特征向量、能量特征向量和频谱特征向量。可理解的是,所述源语音数据的基频特征向量、语速特征向量、能量特征向量和频谱特征向量可以包括一个或者多个,可以根据具体场景进行调整。在一实施例中,源语音特征向量包括上述四个特征向量。

在一实施例中源语音特征向量可以包括基频特征向量,这是由于男女用户的音调存在明显差异,而决定音调高低的是源语音数据中的基频部分,源语音数据的各次谐波影响音色。获取基频特征向量的步骤可以包括:

本实施例调用一个60-500Hz的带通滤波方法,利用带通滤波方法滤除源语音数据中的高次谐波分量,可以检测出源语音数据中分布在100-200Hz的基频。

然后,将源语音数据分割为若干个语音帧。一般情况下,源语音数据属于短时平稳信号,在10-30ms内语音特性基本上是不变的,或者变化缓慢,因此可以从中截取一段进行频谱分析。在一实施例中语音帧的长度为30ms。

之后,对分割好的语音帧进行清浊音判断,确定浊音变清音的时刻,提取浊音段。例如,采用布莱克曼窗对语音帧的短时能量分析,获取到两个窗口内的能量。浊音有基频周期,清音没有基频周期,即语音帧中浊音段的短时平均能量远远大于清音段的短时平均能量,即通过短时能量的计算可以区分清音段与浊间段。

最后,计算浊音段信号的自相关函数,根据自相关函数的周期性计算源语音数据的基频周期。自相关函数反映了信号序列x(n)与其经过一段延迟后的信号序列x(n+m)的相似程度,n表示序列中离散信号的序号,m表示延迟时间。如果信号序列x(n)具有周期Np,则其自相关函数是准周期函数,周期性变化与x(n)序列相同。浊音信号具有准周期性,浊音信号的自相关函数在基频周期的整数倍位置上出现峰值,而清音信号的自相关函数没有明显的峰值,对于浊音信号,只要检测到N的位置,就可以估计源语音数据的基频周期值。当然,源语音数据的基频特征还可以采用其他方法来实现,同样可以实现本申请的方案,在此不再赘述。

本实施例中,在获取到源语音数据的基频特征后,可以将基频特征转换成指定形式的基频特征向量。

在另一实施例中,源语音特征向量可以包括源语音数据的语速特征向量。参见图3,获取语速特征向量的步骤可以包括:

301,利用可视化语音Visual Speech工具获取源语音数据中音节的边界。例如清音和浊音的分隔时刻。302,根据边界确定源语音数据中每个语音帧的时长和包含词语的数量。303,根据时长和数量获取语音帧的语速,并根据每个语音帧和语速确定源语音数据的语速特征向量。

实际应用中,Visual Speech工具设有可视化图形界面,用户在界面内手动修正边界,从而提高用户的互动性。

在又一实施例中,源语音特征向量包括能量特征向量和频谱特征向量。本实施例中,采用线性预测倒谱系数LPC(Linear Predictive Coding,LPC)的方法来获取所述源语音数据对应的源语音特征向量,参见图4,包括:

401,利用线性预测编码LPC对源语音数据进行编码,通过实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即得到LPC的系数

402,获取系数的倒谱,得到线性预测倒谱系数Cn;该系数Cn作为源语音数据的能量特征向量和频谱特征向量。其中,系数和系数Cn的关系为:

k是序号变量,n是LPCC系数的阶数,P是谱估计模型的除数。

实际应用中,对LPC的计算方法有自相关法、协方差法、格型法等,具体可参见相关技术,在此不再详述。

在又一实施例中,源语音特征向量包括能量特征向量和频谱特征向量。本实施例中,采用梅尔(Mel)倒谱系数MFCC法来获取所述源语音数据对应的源语音特征向量,参见图5,包括:

501,基于所述源语音数据的频率,根据梅尔公式获取所述源语音数据对应的能量包络谱;其中,梅尔公式可以采用下式表示:

Mel(f)=2595*lg(1+f/700);

式中,f为源语音数据的频率。

502,将所述能量包络谱输入梅尔滤波器组,得到梅尔频率刻度M(k);

503,对所述梅尔频率刻度进行对数变换和离散余弦变换,得到梅尔频率倒谱系数MFCC;所述MFCC作为所述源语音数据的能量特征向量和频谱特征向量。MFCC的计算公式如下:

式中,M是梅尔滤波器组中滤波器的个数,L是阶数。标准的MFCC是13维向量,包括能量维和频谱维,反应语音特征的静态特性,即选择MFCC的前13个系数作为最终结果。

203,调用特征转换模型,将所述源语音特征向量转换成目标语音特征向量。

本实施例中,通信服务器调用预先训练好的特征转换模型,将源语音特征向量输入到特征转换模型中,可以由该特征转换模型将其转换成目标语音特征向量。

可理解的是,上述特征转换模型可以包括以下至少一种:卷积神经网络、循环神经网络、长短期记忆神经网络、非线性变换方法。本发明一实施例中,特征转换模型包括卷积神经网络和ReLU非线性变换。

上述特征转换模块在使用之前可以预先进行训练,训练过程可以包括:

获取设定数量的样本语音数据对;所述样本语音数据对包括分别采用第一口音和第二口音朗读同一内容后得到的语音数据;

利用样本语音数据训练初始的特征转换模型,直至满足终止条件时停止训练,得到训练后的特征转换模型;

其中,所述终止条件包括:初始的特征转换模型输出的语音特征向量和所述第二口音的语音数据对应的语音特征向量之间的损失值,小于或者等于损失值阈值。

在一实施例中,在图1所示场景下,选择样本内容,由澳大利亚人和中国人保持同样感情(如快乐、悲伤、激昂等)朗读样本内容中的每个句子,每个句子对应“澳式英语”形式的语音数据和“中式英语”形式的语音数据,从而形成一个样本语音数据对。重复上述步骤,得到若干个样本语音数据对。本实施例中设定数据至少为10000个。参见图6,将每个样本语音数据对中“澳式英语”形式的语音数据作为源语音数据,将“中式英语”形式的语音数据作为目标语音数据。然后,获取该源语音数据的源语音特征向量。之后,将源语音特征向量输入到初始的特征转换模型,可以得到特征转换模型输出的实际语音特征向量。最后,将实际语音特征向量和目标语音特征向量作为损失函数的输入量,获取该损失函数的损失值。若该损失值大于损失值阈值,则对初始的特征转换模型继续训练,直至损失值小于或者等于损失值阈值为止,得到训练后的特征转换模型。

204,基于所述目标语音特征向量合成具有第二口音的目标语音数据。

本实施例中,通信服务器利用语音合成方法将目标语音特征向量转换成具有第二口音的目标语音数据。其中,语音合成方法可以包括波形合成法、参数合成法或规则合成法等。然后将该目标语音数据输出到第二用户所用终端,此时第二用户即可听到目标语音数据。

可见,本实施例中,通过对双方的源语音数据进行口音转换,使双方具有相同或者相似的口音,降低因口音不同而引起的沟通障碍,可以提升双方沟通效率。另外,本实施例可以保持双方说话时的语音特点,使双方感受到对方的内容和情感,进一步提升沟通效率。

本发明的实施例还提出了一种口音转换装置,图7是根据本发明实施例示出的一种口音转换装置的框图。参见图7,口音转换装置700包括:

源语音数据获取模块701,用于获取具有第一口音的源语音数据;

源特征向量获取模块702,用于获取所述源语音数据对应的源语音特征向量;

目标特征向量获取模块703,用于调用特征转换模型,将所述源语音特征向量转换成目标语音特征向量;

目标语音合成模块704,用于基于所述目标语音特征向量合成具有第二口音的目标语音数据。

本实施例中,源语音数据获取模块701获取具有第一口音的源语音数据。可理解的是,该源语音数据获取模块701可以对获取的源语音数据进行预处理,得到需要形式的源语音数据。源语音数据获取模块701将该源语音数据发送给源特征向量获取模块702。源特征向量获取模块702基于源语音数据获取其源语音特征向量,并输出给目标特征向量获取模块703。目标特征向量获取模块703调用特征转换模型,将源语音特征向量转换成目标语音特征向量。目标语音合成模块704基于目标语音特征向量合成具有第二口音的目标语音数据,并输出到指定设备。

本实施例中,通过对双方的源语音数据进行口音转换,使双方具有相同或者相似的口音,降低因口音不同而引起的沟通障碍,可以提升双方沟通效率。另外,本实施例可以保持双方说话时的语音特点,使双方感受到对方的内容和情感,进一步提升沟通效率。

在一实施例中,源特征向量获取模块702获取的源语音特征向量包括以下至少一个:所述源语音数据的基频特征向量、语速特征向量、能量特征向量和频谱特征向量。

在一实施例中,所述源特征向量获取模块702获取的源语音特征向量包括所述源语音数据的基频特征向量,所述装置包括:

所述源特征向量获取模块702用于利用自相关方法获取所述源语音数据的基频特征向量。

在一实施例中,所述源特征向量获取模块702获取的源语音特征向量包括所述源语音数据的语速特征向量,参见图8,所述源特征向量获取模块702包括:

音节边界获取单元801,用于利用可视化语音工具获取所述源语音数据中音节的边界;

时长词数获取单元802,用于根据所述边界确定所述源语音数据的时长和包含词语的数量;

语速特征向量获取单元803,用于根据所述时长和所述数量获取所述源语音数据的语速特征向量。

在一实施例中,所述源特征向量获取模块702获取的源语音特征向量包括能量特征向量和频谱特征向量,参见图9,所述源特征向量获取模块702包括:

LPC系数获取单元901,用于利用线性预测编码LPC对所述源语音数据进行编码,得到所述LPC的系数;

特征向量获取单元902,用于获取所述系数的倒谱,得到线性预测倒谱系数;所述作为所述源语音数据的能量特征向量和频谱特征向量。

在一实施例中,所述源特征向量获取模块702获取的源语音特征向量包括能量特征向量和频谱特征向量,参见图10,所述源特征向量获取模块702包括:

包络谱获取单元1001,用于基于所述源语音数据的频率,根据梅尔公式获取所述源语音数据对应的能量包络谱;

刻度获取单元1002,用于将所述能量包络谱输入梅尔滤波器组,得到梅尔频率刻度;

MFCC获取单元1003,用于对所述梅尔频率刻度进行对数变换和离散余弦变换,得到梅尔频率倒谱系数MFCC;所述MFCC作为所述源语音数据的能量特征向量和频谱特征向量。

在一实施例中,参见图11,口音转换装置700还包括:

样本数据对获取模块1101,用于获取设定数量的样本语音数据对;所述样本语音数据对包括分别采用第一口音和第二口音朗读同一内容后得到的语音数据;

转换模型训练模块1102,用于利用所述样本语音数据训练初始的特征转换模型,直至满足终止条件时停止训练,得到训练后的特征转换模型;

其中,所述终止条件包括:初始的特征转换模型输出的语音特征向量和所述第二口音的语音数据对应的语音特征向量之间的损失值,小于或者等于损失值阈值。

关于上述实施例中的口音转换装置,其中各个模块执行操作的具体方式已经在有关该口音转换方法的实施例中进行了详细描述,此处将不做详细阐述说明。

本发明的实施例还提出了一种电子设备,参见图12,该电子设备1200包括:

受话器1201;

扬声器1202;

处理器1203;

用于存储所述处理器1203可执行指令的存储器1204;

其中,处理器1203被配置为执行存储器1204中可执行指令以实现上述各口音转换方法的步骤。

需要说明的是,本实施例中的电子设备1200可以为电话机、电视机、电子纸、手机、平板电脑、笔记本电脑、数码相框、导航仪等任何具有语音数据输入和语音数据输出的产品或部件。用户利用电子设备可以进行语音通信、语言学习等。

在本发明中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。

本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1