1.本技术涉及语音技术领域,特别是涉及一种语音增强方法、装置、电子设备及计算机可读存储介质。
背景技术:2.语音增强的目的是去除说话人语音中的背景噪声和干扰音,本质上也是一种分离任务,已经有较多的研究通过结合语音外的辅助信息来提高语音增强效果。例如,目前的多模态增强方案中利用的视觉模态来辅助语音增强,但是视觉信息存在较大的不稳定性,如由于光照和设备等问题导致视觉信息存在不稳定的情况,这会使得视觉未发挥作用,从而导致语音增强效果的不稳定。
技术实现要素:3.本技术主要解决的技术问题是提供一种语音增强方法、装置、电子设备及计算机可读存储介质,能够提升语音增强的鲁棒性。
4.为解决上述技术问题,本技术第一方面提供了一种语音增强方法,包括:获取目标的视频数据和原始音频数据,其中,视频数据是获取原始音频数据时对目标拍摄得到的;利用视频数据提取视觉特征,以及利用原始音频数据提取语义特征和语音特征;基于视觉特征、语义特征和语音特征进行语音增强处理,得到增强音频数据。
5.为解决上述技术问题,本技术第二方面提供了一种语音增强装置,包括:获取模块,用于获取目标的视频数据和原始音频数据,其中,视频数据是获取原始音频数据时对目标拍摄得到的;特征提取模块,用于利用视频数据提取视觉特征,以及利用原始音频数据提取语义特征和语音特征;语音增强模块,用于基于视觉特征、语义特征和语音特征进行语音增强处理,得到增强音频数据。
6.为解决上述技术问题,本技术第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器用于存储程序数据,处理器用于执行程序数据以实现前述的方法。
7.为解决上述技术问题,本技术第四方面提供了一种计算机可读存储介质,该计算机可读存储介质中存储有程序数据,程序数据在被处理器执行时,用以实现前述的方法。
8.本技术的有益效果是:区别于现有技术的情况,本技术通过获取目标的视频数据和原始音频数据,其中,视频数据是获取原始音频数据时对目标拍摄得到的,然后利用视频数据提取视觉特征,以及利用原始音频数据提取语义特征和语音特征,最后基于视觉特征、语义特征和语音特征进行语音增强处理,得到增强音频数据,其中,引入了新的语义特征,通过综合视觉特征、语义特征和语音特征进行多模态语音增强处理,在视觉特征不稳定的情况下,可以利用语义特征进行辅助增强,有利于提升语音增强的鲁棒性。
附图说明
9.为了更清楚地说明本技术中的技术方案,下面将对实施例描述中所需要的附图作
简单的介绍,显而易见地,下面描述的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
10.图1是本技术语音增强方法一实施例的流程示意图;
11.图2是本技术语音增强方法一实施例另一流程示意图;
12.图3是本技术步骤s12另一实施例的流程示意图;
13.图4是本技术步骤s12又一实施例的流程示意图;
14.图5是图1中步骤s13另一实施例的流程示意图;
15.图6是图1中步骤s13另一实施例的另一流程;
16.图7是图5中步骤s133另一实施例的流程示意图;
17.图8是本技术语音增强方法另一实施例的流程示意图;
18.图9是本技术语音增强装置一实施例的结构示意框图;
19.图10是本技术电子设备一实施例的结构示意框图;
20.图11是本技术计算机可读存储介质一实施例的结构示意框图。
具体实施方式
21.在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
22.本技术中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
23.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
24.目前,语音增强方案可以分为单模态方案和多模态方案两种。其中,单模态方案基于语音特征,通过学习干净语音掩膜(mask)得到增强后的语音,或者通过提取声纹特征提升特定说话人语音增强效果,对于固定说话人效果较稳定,但是只能针对目标人做定制,泛化能力较弱,降低了模型的可用性。多模态方案主要加入了视觉特征,但是视素相比音素可细粒度不足,并且视觉特征存在一定的不稳定性,模型不够稳定,从而使得语音增强的鲁棒性较差。此外,采用的特征融合方式并未挖掘出视觉模态对音频信号的提取能力,在低噪声环境下甚至还会起到反作用。
25.基于此,本技术提供了一种语音增强方法,同时利用视频数据和原始音频数据提取多模态特征来辅助语音增强,由于音频和视频可以分别在低噪声和高噪声场景下起到良
好的辅助效果,所以融合两者可以提高噪声环境的鲁棒性。其次,唇形关键点信息能够加强视觉特征的提取,而语义特征的引入,通过发声方式和语义内容等信息提升语音增强的鲁棒性。另外,通过transformer有效融合不同模态的特征,可以保证该本系统在不同噪声等级和视觉特征不稳定时仍然有较好的语音增强结果。
26.请参阅图1至图2,图1是本技术语音增强方法一实施例的流程示意图,图2是本技术语音增强方法一实施例另一流程示意图。
27.该方法可以包括以下步骤:
28.步骤s11:获取目标的视频数据和原始音频数据,其中,视频数据是获取原始音频数据时对目标拍摄得到的。
29.目标是任何能够发出声音的主体,例如可以是人、拟人机器人等。目标可以包括一个或多个主体。在一示例中,原始音频数据可以是(一个或多个)人说话时发出的声音。
30.视频数据是图像帧的结合。其中,视频数据可以包括音频数据,也可以不包括音频数据。在一相关技术中,只采用一张人脸图片提取视觉特征,虽然降低了模型的计算量,但是只对集内数据有效,对模型可用性较差。而本实施例中,通过视频数据提取运动视觉特征,相比于只采用一张人脸图片提取视觉特征,模型可用性更强。
31.在一应用场景中,可以利用摄像头对目标进行拍摄,以得到目标的视频数据,同时利用音频收集装置(例如麦克风)对目标的音频数据进行采集得到原始音频数据。其中,由于采集环境等影响,原始音频数据可能是带噪的音频数据,而本实施例提供的语音增强方法可以将原始音频数据中的噪音去除,得到增强音频数据。噪音可以但不限于是掺杂有噪声、混响、呼吸声等非目标声音。
32.在一些实施方式中,在步骤s12之前还可以对视频数据和原始音频数据进行预处理,以得到保证视频数据和原始音频的有效性。
33.在一个例子中,预处理可以是基于人脸关键点信息,将视频数据中未包含关注区域的图像帧去除,其中,关注区域中包括目标的唇形。可以理解的,视频数据用于辅助语音增强,而唇形的运动和发音是息息相关的,从而可以通过结合唇形的运动信息来提升语音增强的结果,故视频数据中有效的图像帧需要包含目标的唇形。具体地,可以利用人脸关键点算法对视频数据中的图像帧进行人脸关键点检测,以得到人脸关键点信息,然后基于人脸关键点信息可以筛选出未包含关注区域的图像帧,从而可以将该部分图像帧去除。在其他情况下,关注区域内还可以为其他与发音相关的部位,并不限于目标的唇形。例如,当目标为拟人机器人时,当目标发音时目标的眼睛(具体可以是显示屏上显示的眼睛区域)会睁开,当目标未发音时目标的眼睛会闭合,此时,可以将目标的眼睛所在区域作为关注区域。
34.在另一个例子中,预处理可以是去除音频数据和视频数据中不同步的数据,以得到同步的音频数据和视频数据。由于本技术是一种多模态语音增强方法,同时需要音频数据和视频数据,并且需要两者具有较好的同步性。在一些应用场景下,音频数据和视频数据的获取可能存在时延或不对称,导致得到的音频数据和视频数据不同步。
35.在又一个例子中,预处理可以是基于人脸关键点信息,将视频数据中未包含关注区域的图像帧去除,然后去除音频数据和视频数据中不同步的数据。其中,由于视频数据中部分图像帧被去除,导致音频数据和视频数据不同步,故可以将该部分图像帧对应的音频数据去除。另外,可以将视频数据的帧率进行统一,例如统一为25fps(frames per second,
每秒传输帧数)。
36.步骤s12:利用视频数据提取视觉特征,以及利用原始音频数据提取语义特征和语音特征。
37.在一些实施方式中,视觉特征中包含目标的唇形的运动信息,例如张开和闭合等信息。语义即数据的含义,语义特征中包含原始音频数据中目标所表达的含义。语音特征中包含原始音频数据中目标所发出声音的特征,例如音色、音调等。
38.步骤s13:基于视觉特征、语义特征和语音特征进行语音增强处理,得到增强音频数据。
39.如图2所示,具体地,可以将视觉特征、语义特征和语音特征进行特征融合,得到增强特征,然后基于增强特征,得到增强音频数据。在一些实施方式中,可以直接将增强特征作为增强音频数据输出,在另一些实施方式中,还可以进一步对增强特征进行处理,得到增强音频数据。具体内容可以分别参见后面的实施例。
40.由于受到光照和设备等问题使得视觉信息不稳定,从而导致语音增强效果不稳定,然而语音增强本质上是提取目标的音频数据,因此可以从音频数据自身提取语义特征和语音特征,用于自身的语音增强。本实施例中,综合利用视觉特征、语义特征和语音特征进行多模态的语音增强处理,即便在视觉特征不稳定的情况下,仍然可以根据语义特征和语音特征提取高质量的语音,有利于提升语音增强的鲁棒性。
41.在本实施例中,通过获取目标的视频数据和原始音频数据,其中,视频数据是获取原始音频数据时对目标拍摄得到的,然后利用视频数据提取视觉特征,以及利用原始音频数据提取语义特征和语音特征,最后基于视觉特征、语义特征和语音特征进行语音增强处理,得到增强音频数据,其中,引入了新的语义特征,通过综合视觉特征、语义特征和语音特征进行多模态语音增强处理,在视觉特征不稳定的情况下,可以利用语义特征进行辅助增强,有利于提升语音增强的鲁棒性。
42.下面将结合图3至图4,分别介绍视觉特征、语音特征和语义特征的获取方式。
43.请参阅图3,图3是本技术步骤s12另一实施例的流程示意图。
44.在本实施例中,利用视频数据提取视觉特征,可以包括步骤s121~s123。
45.步骤s121:利用视频数据截取目标的关注区域图像,关注区域中包括目标的唇形。
46.如图2所示,在一些实施方式中,关注区域图像是以唇形(或唇部)为中心的图像。关注区域图像的类型可以包括但不限于:rgb(彩色)图像、灰度图像、红外图像。
47.步骤s122:根据唇形的关键点生成关键点掩膜图像。
48.具体地,可以对关注区域图像进行处理得到唇形的关键点,从而可以根据唇形关键点生成关键点掩膜图像(mask图),用于提取唇形运动特征,即视觉特征。
49.步骤s123:基于关键点掩膜图像和关注区域图像,提取视觉特征。
50.在一些实施方式中,在进行视觉特征提取时,需要关注区域图像和关键点掩膜图像的尺寸相同,例如均为64x64像素。在其他实施方式中,关注区域图像和关键点掩膜图像的尺寸可以不做限定。在另一些实施方式中,即便注区域图像和关键点掩膜图像的尺寸不相同,或不符合网络输入尺寸,则可以根据需要对图像尺寸进行调整。
51.在一些实施方式中,可以利用三维卷积残差网络对关键点掩膜图像和关注区域图像进行预设预测,得到视觉特征。具体地,可以采用以唇形为中心的64x64的彩色关注区域
图像以及对应的关键点掩膜图像合并为4通道序列做为网络输入。在本实施方式中,视觉特征具有一定的时序性,每一帧图像和前后相邻的图像有一定的联系,所以,采用神经网络并采用3d卷积和残差网络结构(例如conv3d+resnet18),能较好的综合相邻帧之间的特征变化,提取到更有效的特征。
52.请参阅图4,图4是本技术步骤s12又一实施例的流程示意图。
53.在本实施例中,利用音频数据提取语义特征和语音特征,可以包括步骤s124~s126。需要说明的是,上述步骤s121~s123与步骤s124~s126之间并无一定的先后关系,可以执行,也可以先后执行。
54.步骤s124:利用音频数据提取频域特征,以及将音频数据进行短时傅里叶变换得到混合语音功率谱。
55.一方面,可以利用音频数据提取预设数量维(例如40维)频域特征,作为语义提取网络的输入,用于语义特征的提取。预设数量可以根据语义提取网络的需要进行设置。
56.另一方面,通过将音频数据进行短时傅里叶变换(short-time fourier transform,stft)之后可以得到混合语音功率谱和混合语音相位。其中,混合语音功率谱用于语音特征的提取。混合语音相位用于后续对目标语音相位进行预测,具体可以参见后面的实施例。
57.步骤s125:利用语义提取网络对频域特征进行处理,得到语义特征。
58.语义特征中需要将音频数据中具有辨识度的成分提取出来,去除噪声等的影响,本实施例中,利用预先训练好的语义提取网络对频域特征(例如fbank特征)进行处理,得到语义特征。其中,语义提取网络输出的语音特征为帧级别。
59.步骤s126:利用增强网络对混合语音功率谱进行处理,得到语音特征。
60.由于语音增强需要还原出目标语音,故本实施例通过将混合语音功率谱作为初始语音特征,输入预先训练好的增强网络,以通过增强网络对初始语音特征进行增强处理,从而得到语音特征。
61.在一些实施方式中,语音特征和语义特征的帧长和步长相同,例如帧长为25ms,步长为10ms;视觉特征例如为帧长为40ms,为了和语音特征保持一致,可以利用双线性插值的方式将视觉特征和语音特征对齐。由此,可以便于后续将视觉特征、语义特征和语音特征进行特征融合。
62.本实施例中,语义提取网络和增强网络可以是深度神经网络(deep neural networks,dnn)经过训练得到,在其他示例中,也可以采用其他类型的神经网络。
63.请参阅图5至图6,图5是图1中步骤s13另一实施例的流程示意图,图6是图1中步骤s13另一实施例的另一流程。
64.在本实施例中,步骤s13可以包括子步骤s131至s133。
65.步骤s131:将视觉特征和语义特征合并,得到辅助特征。
66.由于视觉特征在噪声较大时增强效果明想,语义特征在噪声较小时能保持干净语音不失真,为了有效融合两种特征的优点,首先在时间维度上将两种特征合并得到辅助特征(记作f)。
67.步骤s132:融合辅助特征和语音特征,得到增强特征。
68.由于本技术涉及多模态的语音增强方案,所以,不同模态之间的特征融合方式的
选取也对最后的语音增强效果有影响。对此,本实施例还提供一种适用于本方法的特征融合方式,即采用注意力机制进行融合,能够。
69.在得到辅助特征之后,可以利用注意力机制融合辅助特征和语音特征,得到增强特征。具体地,如图6所示,可以将辅助特征和语音特征输入transformer模型,以基于多头注意力机制(multi-head attention,mha)将辅助特征和语音特征进行融合。其中,可以根据辅助特征中提取的特征key,在语音特征中提取相应的特征,然后经过三层mha后得到增强特征,即干净语音的特征。
70.步骤s133:基于增强特征,得到增强音频数据。
71.由于经过特征融合后得到的增强特征已经去除噪声,所以在本实施例中可以直接将增强特征作为增强音频数据。
72.但是,在另一些实施例中,为了加强相邻帧之间的联系,避免出现语音失真问题,还可以对增强特征进行进一步的后处理。
73.请参阅图7,图7是图5中步骤s133另一实施例的流程示意图。
74.在本实施例中,步骤s133还可以包括子步骤s1331至s1333。
75.步骤s1331:基于增强特征,提取得到目标语音功率谱。
76.具体地,可以利用长短期记忆神经网络(long short-term memory,lstm)对增强特征进行处理,得到目标语音功率谱。长短期记忆神经网络可以但不限于是双向长短期记忆神经网络(bi-directional long short-term memory,bilstm)和单向长短期记忆神经网络(单向lstm)中的任意一种。其中,bilstm是由前向lstm与后向lstm组合而成。
77.在一些实施方式中,可以利用bilstm对增强特征进行处理,得到目标语音功率谱。本技术发明人在试验中发现,bilstm相比于单向lstm的语音增强结果有明显提升。
78.步骤s1332:将目标语音功率谱和混合语音功率谱进行预设运算,得到目标语音对数功率谱,其中,混合语音功率谱由原始音频数据经过短时傅里叶变换得到。
79.可选地,预设运算可以为点乘(向量的内积、数量积)等能起到类似作用的数学运算方法。
80.步骤s1333:基于目标语音相位,对目标语音对数功率谱进行预设变换,得到增强音频数据。
81.可选地,预设变换为逆短时傅里叶变换(inverse short-time fourier transform,istft),但不限于此。
82.由于音频数据经过短时傅里叶变换后,分为功率谱和相位两部分,其中,相位对语音增强效果也存在影响。在一些实施方式中,可以利用原始音频数据经过短时傅里叶变换得到的混合语音相位作为目标语音相位,结合目标语音对数功率谱进行逆短时傅里叶变换。
83.在另一些实施方式中,还可以对目标语音功率谱对应的相位进行预测。例如,在步骤s1333之前还可以包括:利用相位预测网络对混合语音相位和目标语音对数功率谱进行预设处理,得到目标语音相位,其中,混合语音相位由原始音频数据经过短时傅里叶变换得到。具体地,将混合语音相位和目标语音对数功率谱在在通道维叠加,然后作为相位预测网络的输入,从而可以得到目标语音相位与混合语音相位的偏差,进一步,将该偏差与混合语音相位相加即可得到目标语音相位。由此,根据该目标语音相位能够进一步提升语音增强
效果。
84.在一些实施方式中,为了更好的预测目标语音相位,还可以在相位预测网络的训练过程中,添加相位相关的损失函数。具体地,可以利用相位损失函数对相位预测网络进行训练,然后调高目标语音对数功率谱中的目标点在相位损失函数中对应的权重值,其中,目标点在目标语音对数功率谱中的数值大于预设阈值。预设阈值可以根据实际情况进行设置。其中,通过加大功率谱中数值较大点的相位权重,可以使重要点的相位预测更加准确。
85.在一些实施方式中,相位损失函数的公式如下:
[0086][0087]
上述公式(1)中,l
phase
为相位损失值,为目标语音对数功率谱,为目标语音相位,φ
tf
为预测语音相位,其中,功率谱可以看作一张图片,维度是t*f,tf代表功率谱索引。目标语音对数功率谱中每个采样点都可以设置对应的相位权重,通过调整tf对应的数值较大的采样点的相位权重,可以使重要点的相位预测更加准确。
[0088]
若损失值不满足模型的训练停止条件,则选择新的样本继续对模型进行训练,若损失值满足模型的训练停止条件,则可以将当前训练后的网络作为所相位预测网络,以用于相应的业务场景中。
[0089]
请参阅图8,图8是本技术语音增强方法另一实施例的流程示意图。
[0090]
(1)获取目标的视频数据和原始音频数据,其中,视频数据是获取原始音频数据时对目标拍摄得到的。
[0091]
(2)利用视频数据提取视觉特征,以及利用原始音频数据提取语义特征和语音特征。
[0092]
其中,提取视觉特征包括:对视频数据进行处理,得到关键点掩膜图像和关注区域图像,然后将关键点掩膜图像和关注区域图像输入三维卷积残差网络(包括conv3d+resnet18),然后得到视觉特征。
[0093]
其中,提取语义特征包括:利用音频数据提取频域特征,然后将其输入至语义提取网络,输出语义特征。
[0094]
其中,提取语音特征包括:将音频数据进行短时傅里叶变换得到混合语音功率谱和混合语音相位,然后将混合语音功率谱输入增强网络,得到语音特征。
[0095]
(3)基于视觉特征、语义特征和语音特征进行语音增强处理,得到增强音频数据。
[0096]
其中,先在时间维度上将视觉特征、语义特征合并,得到辅助特征,然后将辅助特征和语音特征输入特征融合模块利用transformer进行融合,得到增强特征。在一些实施方式中,增强特征已经去除噪声,可以将其作为增强音频数据输出。
[0097]
在另一些实施方式中,还可以对增强特征进行后处理,以加强相邻帧之间的联系,避免语音失真问题。其中包括:将增强特征输入bilstm,得到目标语音功率谱(图未示),然后将目标语音功率谱和混合语音功率谱输入mask(掩膜)进行点乘计算,从而得到目标语音对数功率谱。进一步,可以将目标语音对数功率谱和混合语音相位输入相位预测网络,以得到目标语音相位,最后将目标语音对数功率谱和目标语音相位通过逆短时傅里叶变换,得到增强音频数据。
[0098]
在此基础上,本实施例还提供了一种训练方法,首先,可以对视觉提取网路(三维卷积残差网络)和语义提取网络进行预训练,然后在整体训练过程中,通过固定语义特征提取网络的参数,由于模态之间的差异性可以将视觉提取网络的参数先固定,待整个模型收敛后再统一优化更新,即模型收敛后再对视觉提取网络的参数进行更新,效果会更加稳定。需要注意的是,这里语音提取网络(增强网络)无需预训练,是在整个模型进行训练时进行训练。最后,通过计算增强语音数据和对应的干净音频数据之间的损失值(例如l2-loss),根据损失值对整个模型的参数进行更新。
[0099]
请参阅图9,图9是本技术语音增强装置一实施例的结构示意框图。
[0100]
在本实施例中,语音增强装置100可以包括获取模块110、特征提取模块120和语音增强模块130,其中,获取模块110用于获取目标的视频数据和原始音频数据,其中,视频数据是获取原始音频数据时对目标拍摄得到的;特征提取模块120用于利用视频数据提取视觉特征,以及利用原始音频数据提取语义特征和语音特征;语音增强模块130用于基于视觉特征、语义特征和语音特征进行语音增强处理,得到增强音频数据。
[0101]
在一些实施方式中,语音增强模块130还用于将视觉特征和语义特征合并,得到辅助特征;融合辅助特征和语音特征,得到增强特征;基于增强特征,得到增强音频数据。
[0102]
在一些实施方式中,语音增强模块130还用于利用注意力机制融合辅助特征和语音特征,得到增强特征,以及基于增强特征,提取得到目标语音功率谱;将目标语音功率谱和混合语音功率谱进行预设运算,得到目标语音对数功率谱,其中,混合语音功率谱由原始音频数据经过短时傅里叶变换得到;基于目标语音相位,对目标语音对数功率谱进行预设变换,得到增强音频数据。
[0103]
在一些实施方式中,预设运算为点乘,和/或,语音增强模块130还用于利用长短期记忆神经网络对增强特征进行处理,得到目标语音功率谱。
[0104]
在一些实施方式中,预设变换为逆短时傅里叶变换,和/或,语音增强模块130还用于利用相位预测网络对混合语音相位和目标语音对数功率谱进行预设处理,得到目标语音相位,其中,混合语音相位由原始音频数据经过短时傅里叶变换得到。
[0105]
在一些实施方式中,在对相位预测网络进行训练时,还包括利用相位损失函数对相位预测网络进行训练;调高目标语音对数功率谱中的目标点在相位损失函数中对应的权重值,其中,目标点在目标语音对数功率谱中的数值大于预设阈值。
[0106]
在一些实施方式中,特征提取模块120还用于利用视频数据截取目标的关注区域图像,关注区域中包括目标的唇形;根据唇形的关键点生成关键点掩膜图像;基于关键点掩膜图像和关注区域图像,提取视觉特征。
[0107]
在一些实施方式中,特征提取模块120还用于利用三维卷积残差网络对关键点掩膜图像和关注区域图像进行预设预测,得到视觉特征。
[0108]
在一些实施方式中,特征提取模块120还用于利用音频数据提取频域特征,以及将音频数据进行短时傅里叶变换得到混合语音功率谱;利用语义提取网络对频域特征进行处理,得到语义特征;利用增强网络对混合语音功率谱进行处理,得到语音特征。
[0109]
在一些实施方式中,获取模块110还用于在利用视频数据提取视觉特征,以及利用原始音频数据提取语义特征和语音特征之前,基于人脸关键点信息,将视频数据中未包含关注区域的图像帧去除,关注区域中包括目标的唇形;和/或去除音频数据和视频数据中不
同步的数据。
[0110]
本实施例中,语音增强装置用于实现上述实施例中的语音增强方法,故对于上述步骤的描述可以对应参见方法实施例,此处不再赘述。
[0111]
请参阅图10,图10是本技术电子设备一实施例的结构示意框图。
[0112]
在本实施例中,电子设备200可以包括相互耦接的存储器210和处理器220,存储器210用于存储程序数据,处理器220用于执行程序数据以实现上述任一方法实施例中的步骤。具体地,电子设备200可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑等等,在此不做限定。
[0113]
具体而言,处理器220用于控制其自身以及存储器210以实现上述任一方法实施例中的步骤。处理器220还可以称为cpu(central processing unit,中央处理单元)。处理器220可能是一种集成电路芯片,具有信号的处理能力。处理器220还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器220可以由多个集成电路芯片共同实现。
[0114]
请参阅图11,图11是本技术计算机可读存储介质一实施例的结构示意框图。
[0115]
在本实施例中,计算机可读存储介质300存储有程序数据310,程序数据310被处理器执行时,用以实现上述任一方法实施例中的步骤。
[0116]
计算机可读存储介质300可以为u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等可以存储计算机程序的介质,也可以为存储有该计算机程序的服务器,该服务器可将存储的计算机程序发送给其他设备运行,或者也可以自运行该存储的计算机程序。
[0117]
在本技术所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
[0118]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0119]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0120]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现
出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0121]
以上所述仅为本技术的实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。