一种超分辨率音频生成方法、计算机设备及存储介质与流程

文档序号:29814108发布日期:2022-04-27 09:19阅读:355来源:国知局
一种超分辨率音频生成方法、计算机设备及存储介质与流程

1.本技术涉及信号处理技术领域,尤其涉及一种超分辨率音频生成方法、超分辨率音频生成装置、计算机设备及存储介质。


背景技术:

2.音频超分辨率的目标是为给定低分辨率信号重建丢失的高频分量,扩大输入音频信号的频率范围,也称带宽扩展。高质量的音频数据需求随着智能音频设备以及生活品质的提升日益增长,以此来满足听觉输入的普遍性。但由于某些录音装置能够处理或者通过的频率范围有限等原因导致歌曲的频谱高度不高(例如:小于8k),导致歌曲对应的音质沉闷、不够明亮,因此常通过音频带宽扩展技术增强歌曲的高频带细节,使高频分量更丰富以提高歌曲的音质。
3.现有的超分辨率生成方案,由于生成对抗网络(generative adversarial network,gan),可逆流模型(generative flow,glow)的引入,超分辨率音频生成的效果有了大幅提升。但是,这些方案有些是针对原始音频信号的幅度谱做频带的扩展;有些是针对原始音频信号直接做的升采样,以上方案均会导致生成的超分辨率音频中原始音频信号的特征信息丢失,最终导致生成音频的质量较差。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种超分辨率音频生成方法,以解决现有的超分辨率音频生成方案中,生成的超分辨率音频质量较差的问题。
5.本技术实施例的第一方面提供了一种超分辨率音频生成方法,包括:
6.将低分辨率音频输入训练好的音频样本生成模型,得到超分辨率音频样本;所述音频样本生成模型包括生成器和判别器的生成对抗网络;
7.基于所述超分辨率音频样本的频谱特征集合和所述低分辨率音频的频谱特征集合,进行特征融合,得到目标全频带频谱;
8.对所述目标全频带频谱进行频域变换的逆变换,得到超分辨率音频。
9.本技术实施例的第二方面提供了一种超分辨率音频生成装置,包括:
10.输入模块:用于将低分辨率音频输入训练好的音频样本生成模型,得到超分辨率音频样本;所述音频样本生成模型包括生成器和判别器的生成对抗网络;
11.特征融合模块:用于基于所述超分辨率音频样本的频谱特征集合和所述低分辨率音频的频谱特征集合,进行特征融合,得到目标全频带频谱;
12.输出模块:用于对所述目标全频带频谱进行频域变换的逆变换,得到超分辨率音频。
13.本技术实施例的第三方面提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述超分辨率音频生成方法。
14.本技术实施例的第四方面提供了一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述超分辨率音频生成方法。
15.实施本技术实施例提供的一种超分辨率音频生成方法、超分辨率音频生成装置,计算机设备及存储介质,具有以下有益效果:
16.本技术实施例提供一种超分辨率音频生成方法,包括:将低分辨率音频输入包括生成器和判别器的生成对抗网络的音频样本生成模型,输出超分辨率音频样本,基于超分辨率音频的频谱特征集合和低分辨率音频的频谱特征集合,进行特征融合,得到目标全频带频谱,通过频域变换的逆变换,得到目标全频带频谱对应的音频,即为超分辨率音频,由于本方案中,将原始的低分辨率音频的频谱特征集合与通过音频样本生成模型生成的超分辨率音频样本的频谱特征集合进行融合,进而基于特征融合得到的目标全频带频谱得到超分辨率音频,避免了原始音频的特征信息丢失,提高了生成音频的质量。
附图说明
17.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
18.图1是本技术实施例中超分辨率音频生成方法的一应用环境示意图;
19.图2是本技术实施例中超分辨率音频生成方法的一实现流程示意图;
20.图3是本技术实施例中gan模型的整体架构示意图;
21.图4是本技术实施例中生成器模型的整体架构示意图;
22.图5是本技术实施例中判别器模型的整体架构示意图;
23.图6是本技术实施例中生成器模型次像素和超像素层的整体架构示意图;
24.图7是本技术另一实施例中超分辨率音频生成方法的实现流程示意图;
25.图8是本技术又一实施例中超分辨率音频生成方法的实现流程示意图;
26.图9是本技术实施例中实现超分辨率音频生成方法的一整体架构示意图;
27.图10是本技术再一实施例中超分辨率音频生成方法的实现流程示意图;
28.图11是本技术实施例中超分辨率音频生成装置的结构示意图;
29.图12是本技术实施例中计算机设备的一示意图。
具体实施方式
30.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
31.请参阅图1,图1示出了本技术实施例中超分辨率音频生成方法的一种应用环境示意图,如图1所示,本技术实施例提供的超分辨率音频生成方法,可应用在如图1的应用环境中,可以是由用户终端将低分辨率音频上传到服务器,由服务器接收低分辨率音频进行存
储,若接收到用户终端发送的超分辨率音频播放请求,服务器则将低分辨率音频转换为超分辨率音频并发送给用户终端,也可以是服务器接收到用户终端发送的音频播放请求,自动将低分辨率音频转换为超分辨率音频并发送给用户终端,通过用户终端对该超分辨率音频进行播放,本技术对触发使将低分辨率音频转换为超分辨率音频的方式不作限定。其中,用户终端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
32.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
33.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
34.在一种具体实现方式中,以服务器为执行主体,服务器可以是应用服务器,用于将低分辨率音频输入训练好的音频样本生成模型,得到超分辨率音频样本,基于超分辨率音频样本的频谱特征集合和低分辨率音频的频谱特征集合,进行特征融合,得到目标全频带频谱,对目标全频带频谱进行所述频域变换的逆变换,得到超分辨率音频,实现低频率音频向高频率音频的转换。服务器也可以是训练服务器,用于对音频样本生成模型进行预训练,使其能够在输入低分辨率音频的情况下,输出超分辨率音频样本,在其他实现方式中,执行主体还可以是同时具有应用和训练功能的设备,这里不做具体限定。
35.请参阅图2,图2所示为本技术实施例中超分辨率音频生成方法的实现流程图,以该方法应用在图1中的服务端的服务器为例进行说明,包括如下步骤:
36.s11:将低分辨率音频输入训练好的音频样本生成模型,得到超分辨率音频样本。
37.在步骤s11中,低分辨率音频是指高频信息较少甚至丢失,即表现为音频的频谱高度不高的音频,由于低分辨率音频本身的特点,导致其音质不佳,听感较为沉闷。举例来说,对于16khz采样率的音频的频谱高度最高可为8k,但实际应用中,观察16khz采样率的音频频域变换后的频谱图,一发现,音频的频率分量多集中在0-4k的频带范围内,4k-8k的频带范围内的频率分布较少,即说明该音频的频谱高度不高,该音频即为低分辨率的音频。音频样本生成模型包括生成器和判别器的生成对抗网络(generative adversarial network,gan),超分辨率音频样本具有让判别器无法区分超分辨率音频样本是否由所述生成器生成的性质。需要说明的是,低分辨率音频可以是用于终端本地的音频,也可以是服务器中的音频,本技术对低分辨率音频的具体来源不做具体限定。可以理解第一音频可以是音乐歌曲,也可以是用户在录音软件或者k歌场景下录制的歌曲。
38.其中,gan模型是依据博弈论中的博弈的思想提出来的,其包含两大模块,一个生成器(generator),另一个是判别器(discriminator),生成器的目的是尽量去学习真实的数据分布生成类似真实数据的数据分布,而判别器的目的是尽量正确判别输入数据是来自
真实数据还是来自生成器;为了达到各自的目的,这两个模块需要不断优化,生成器提高自身的生成能力,判别器提高自身的判别能力,这个学习优化过程就是寻找二者之间的一个纳什均衡。可以使用可微分函数d和g分别来表示判别器和生成器。
39.在本实施例中,将低分辨率音频输入训练好的音频样本生成模型中的生成对抗网络模型,若通过生成器生成的高分辨率音频以及数据库中的真实高分辨率音频,通过几次下采样的波形被波形判别器判别为真,且经过频域变换得到的频谱特征也被频谱判别器判别为真,则可将生成器生成的高分辨率音频作为超分辨率音频样本输出。通过波形判别器和频谱判别器,使用gan模型对多个采样率的信号及频域信息分别进行判别,全方位的检查生成的效果,使得输出的超分辨率音频样本更接近真实的高分辨率样本,有效的提高输出音频的质量。
40.作为一个示例,请参阅图3,图3所示为本技术实施例中gan模型的整体架构示意图,包括生成器、波形判别器和频谱判别器,低分辨率音频首先通过生成器,得到高分辨率音频,对通过生成器生成的虚拟的音频和数据库中真实的高分辨率音频,通过对应的波形判别器(discriminator waveform,dw)判别真假,同时对通过生成器生成的虚拟的音频和数据库中真实的高分辨率音频进行不同层级的下采样,其中不同层级的下采样相互连接,对每一层级经过下采样得到的音频通过对应的波形判别器来判断真假。同时,生成的高分辨率音频和数据库中真实高分辨率音频通过短时傅里叶变换(short-time fourier transform,stft),然后通过梅尔滤波器组(mel-filter banks,fbank),分别得到它们各自的fbank特征,然后将这些特征输入至频谱判别器(discriminator spectrogram,ds)中判断真假。综合所有波形判别器的判别结果以及频谱判别器的判别结果来判断输入音频的真假,根据综合的判别结果反作用于生成器,对生成器进行改进,使得生成器生成的音频不断接近真实高分辨率音频,判别器则不断地提高区分生成的高分辨率音频和数据库中真实高分辨率音频的能力。
41.作为一示例,请参阅图4,图4所示为本技术实施例中生成器模型的整体架构示意图,该生成器模型包括下采样阶段和上采样阶段,其中下采样阶段由多个卷积层以及池化层组成,该下采样阶段用于对输入到生成器模型的低分辨率音频进行特征提取,其中的上采样阶段由多个反卷积层组成,该上采样阶段用于逐步恢复生成超分辨率音频的细节,与此同时,在相同分辨率特征层之间添加相加跳跃连接结构,从而输出完整的超分辨率音频。其中,图4中字母d表示下采样(down-sampling),u表示上采样(upsampling),conv是指向量卷积运算,relu是指激活函数。输入的低频带音频或低分辨率音频的波形首先通过3次差值函数进行初步升采样,然后通过含有残差结构,次像素(subpixel)和超像素(superpixel)结构的生成起来合成高频带音频或高分辨率音频。可参阅图5所示的本技术实施例中生成器模型次像素与超像素层的整体架构示意图,图中示出了超像素和次像素层实现将生成器模型中通道数和特征数之间置换的过程。需要说明的是,本技术对生成器模型中卷积层和反卷积层的层数不做限定,可根据实际需要调整生成器的输出数据的维度。
42.作为一示例,请参阅图6,图6所示为本技术实施例中判别器模型的整体架构示意图,包括波形判别器dw模型和频谱判别器ds模型的架构示意图。其中,波形判别器dw模型中,前面6层为1d(dimension,维度)分组卷积,参数配置为:卷积核大小分别为15、41、41、41、41、5、3;步长(stride size)分别为1、4、4、4、4、1、1;通道数分别为16、64、256、1024、
1024、1024、1;卷积分组数分别为1、4、16、64、256、1、1;激活函数都为leaky relu。然后接了一个1x1的卷积核的1d卷积将通道降为1.然后整体做一次平均1d池化(mean pooling 1d),得到一个数值。若得到的数值小于0,判别输入判别器的信号的波形为生成器生成的假波形,若得到的值大于0,则判断输入判别器的信号的波形为真波形。频谱判别器ds模型中,前面重复的四个模块的结构包含一个2d卷积,一个batch normalization(批标准化,bn)和一个gated linear units(门控线性单元,glu)。它们的卷积核大小分别为(3,9)、(3,8)、(3,8)、(3,6),步长分别为(1,2)、(1,2)、(1,2)、(1,2),通道数都为32。然后接了一个1x1的卷积核的2d卷积将通道数降为1。然后整体做一次平均2d池化(mean pooling 2d),得到一个值,通过频谱判别器对输入的生成器生成的音频信号和数据库中真实的音频信号的频谱进行判别,若输出数值小于0,则判定生成器生成的音频信号频谱为假,若输出数值大于0,则判定生成器生成的音频信号频谱为真。当波形判别器和频谱判别器均输出大于0的数值时,则判定生成器生成的为真数据,可以作为超分辨率样本输出。需要说明的是,本技术对卷积层/池化层的层数不做具体限定。
43.其中,批标准化又叫批量归一化,batch是批数据,把数据分成小批进行随机梯度下降(stochastic gradient descent),且每批数据进行前向传递的时候,对每一层进行标准化(normalization)处理。批标准化处理一般用在非线映射(激活函数)之前,用户规范化某些层或者所有层的输入,从而固定输入数据的均值为0和方差为1,其作用可以加快神经网络的收敛速度并提高魔性的泛化能力,使得每一层的输入有一个稳定的分布利于网络的训练。带泄露线性整流函数leaky relu是非线性激活函数的一种,是线性整流函数relu的变体,相较于relu将所有的负值都设为0,leaky relu是给所有负值赋予一个非零斜率。leakyrelu的定义如下述公式:
[0044][0045]
其中,α∈(0,1),是一个很小的常数,可以修正数据分布。
[0046]
s12:基于所述超分辨率音频样本的频谱特征集合和所述低分辨率音频的频谱特征集合,进行特征融合,得到目标全频带频谱。
[0047]
在步骤s12中,频谱特征集合包括但不限于音频信号的幅度特征和相位特征,特征融合是将相同特征对应的数据进行叠加。需要说明的是,在实际应用场景中,还可以是根据超分辨率音频样本或低分辨率音频的频谱,提取频谱中各频点的模长,该模长为对应频点的频率值下的幅度特征,对各频点的模长进行对数运算获得的结果称作幅度对数值,将幅度对数值作为频谱特征之一进行特征融合计算,还可以是将各种倒谱特征,例如,梅尔频率倒谱系数,作为频谱特征,进行特征融合计算,将频谱图中各频点对应的相位作为相位特征,参与特征融合计算,本技术对频谱特征集合不做限定。
[0048]
在本实施例中,基于音频生成模型生成的超分辨率音频样本的频谱特征集合和输入的低分辨率音频的频谱特征集合,将超分辨率音频样本中对应的高频的频谱特征集合,与低分辨率音频对应的低频的频谱特征集合,进行特征拼接融合,可以得到全频带的频谱特征,根据全频带的频谱特征可以得到全频带频谱,将拼接得到的全频带频谱作为目标全频带频谱。需要说明的是,若参与特征融合计算的频谱特征集合包括各频点的幅度对数值,
则在特征融合得到全频带特征之后,还需要将全频带特征进行对数的逆运算,将运算后的结果作为全频带特征进行后续步骤。
[0049]
s13:对所述目标全频带频谱进行频域变换的逆变换,得到超分辨率音频。
[0050]
在步骤s13中,得到的超分辨率音频相对于低分辨率音频,高频分量更丰富,音频的音质和听感得到了较大的改善。
[0051]
在本实施例中,在得到目标全频带频谱,对其进行频域边换的逆变换,得到在时域中的超分辨率音频信号,例如,若采用短时傅里叶变换将低分辨率音频与超分辨率音频样本从时域转换为频域,那么经过特征拼接之后得到的目标全频带频谱可采用逆短时傅里叶变换,转化为时域中的超分辨率音频信号。
[0052]
本技术实施例提供一种超分辨率音频生成方法,包括:将低分辨率音频输入包括生成器和判别器的生成对抗网络的音频样本生成模型,输出超分辨率音频样本,基于超分辨率音频的频谱特征集合和低分辨率音频的频谱特征集合,进行特征融合,得到目标全频带频谱,根据频域变换的逆变换公式,计算得到目标全频带频谱对应的音频,即为超分辨率音频,由于本方案中,将原始的低分辨率音频的频谱特征集合与通过音频样本生成模型生成的超分辨率音频样本的频谱特征集合进行融合,进而基于特征融合得到的目标全频带频谱得到超分辨率音频,避免了原始音频的特征信息丢失,提高了生成音频的质量。
[0053]
请参阅图7,图7所示为本技术另一实施例中超分辨率音频生成方法的实现流程示意图,相比于图2所示的超分辨率音频生成方法,本实施例在步骤s11之前,还包括步骤s21,具体内容如下:
[0054]
s21:基于预设数据库中的低分辨率音频训练样本和超分辨率音频训练样本对所述音频样本生成模型中的生成器和判别器进行样本生成与样本真伪识别的对抗训练,得到训练好的音频样本生成模型。
[0055]
在步骤s21中,低分辨率音频训练样本与超分辨率音频训练样本是数据库中预存的训练数据,其中,低分辨率训练样本表现为音频的高频分量较少甚至丢失,对应的频谱高度不高,音频的音质不佳,听感较为沉闷,超分辨率音频训练样本的全频带频谱中低频分量和高频分量比较丰富,音频的音质良好,可作为真实的高分辨率音频样本。音频样本生成模型用于描述以低分辨率音频训练样本作为输入时,输出超分辨率音频训练样本的音频样本生成策略。
[0056]
在本实施例中,由于音频样本生成模型是包括生成器和判别器的生成对抗网络,因此对音频样本生成模型的训练主要对gan模型中生成器和判别器的训练。作为一示例,首先随机初始化几个波形判别器和频谱判别器的权重,然后训练gan模型50k步。训练参数及细节如下:使用10-5
的学习率训练生成器;使用10-3
的学习率训练判别器;在训练判别器时,几个不同采样的波形均为生成器生成的高分辨率音频与超分辨率音频训练样本的波形通过降采样得出;gan模型中生成器g的损失函数lg,针对特定判别器dk的损失函数l
dk
,计算公式如下:
[0057][0058]
[0059]
其中,x表示低分辨率音频训练样本,x’表示超分辨率音频训练样本,dk代表频谱判别器或波形判别器,g(x)表示生成器生成的尽量服从真实数据的样本,dk(g(x))是指生成器生成的伪数据样本g(x)在d上的表现,dk(x’)是指超分辨率音频训练样本x’在d上的表现。
[0060]
假设若判别器的输入来自真实的高分辨率音频样本,即数据库中的超分辨率音频训练样本x’,标注为1,若判别器的输入样本为g(x),则标注为0。这里d的训练目标是实现数据来源的二分类判别:真(来源于真实数据x’)的分布或者伪(来源于生成器的伪数据g(x)),而g的训练目标是使g生成的伪数据g(x)在d上的表现dk(g(x))与真实数据x’在d上的表现dk(x’)一致,不断地优化损失函数,通过两个相互对抗并迭代优化的过程使得d和g的性能不断提升,当最终d的判别能力提升到一定程度,并且无法正确判断数据来源时,可以认为这个生成器g已经学到了真实数据的分布,即使得判别器输出dk(g(x))趋向1。需要说明的是对音频样本模型训练的训练模块可以独立于步骤s11-s13所述的执行模块存在,也可以集成于该执行模块存在,这里不做限定。
[0061]
请参阅图8,图8所示为本技术又一实施例中超分辨率音频生成方法的实现流程示意图,相比于图7所示的超分辨率音频生成方法,本实施例在步骤s21之前,还包括步骤s31-s32,具体内容如下:
[0062]
s31:基于预设数据库中的低分辨率音频训练样本和超分辨率音频训练样本对生成器进行预训练,得到预先训练好的生成器模型。
[0063]
在步骤s31中,为了更好地训练音频样本模型,首先对生成器进行预训练,对生成器进行优化。
[0064]
在本实施例中,首先在生成器上针对频谱和波形信号进行优化,作为一示例,假设生成器生成的音频波形信号为x,数据库中真实的超分辨率音频信号为两者通过stft和fbank变换后得到的频谱图分别为x和其中,频谱图变换具体参数如表2所示:
[0065] 数值fft计算点1024帧长0.025s帧移0.01s提取帧数32采样率44.1khz
[0066]
表2
[0067]
对波形信号,计算波形信号距离损失l
signal
,公式如下:
[0068][0069]
其中,t表示波形信号采样数,t表示时间,x
t
表示在t时刻下生成器生成的音频波形信号,表示在t时刻下数据库中真实的超分辨率音频信号。
[0070]
对频谱计算频谱差异l
spectral
,形成spectrogram loss,公式如下:
[0071]
[0072]
其中,t

表示fbank帧数,f表示频率,n表示stft变换后频率的总数,x
t,f
表示t时刻生成器生成的音频波形信号的频谱,表示t时刻真实的超分辨率音频信号的频谱。
[0073]
然后将l
spectral
和l
signal
进行加权求和,得到联合损失函数l,公式如下:
[0074]
l=l
signal

·
l
spectral

[0075]
其中,β是指加权参数。训练时,将学习率调至10-3
,学习率衰减调至10-3
,β设为1,训练300k步,在实际应用场景中,可根据需要调整参数值,这里不做限定。
[0076]
s32:将预先训练好的生成器模型配置在生成对抗网络模型中,得到音频样本生成模型。
[0077]
在本实施例中,对生成器模型预先训练好后,将其配置在gan模型中,以便进行进一步地对gan模型的训练,最终得到训练好音频样本生成模型,当输入低分辨率音频时,能够输出与真实数据尽可能接近的超分辨率音频样本。
[0078]
请参阅图9,图9所示为本技术再一实施例中超分辨率音频生成方法的实现流程示意图,相比于图8所示的超分辨率音频生成方法,本实施例在步骤s12之前,还包括步骤s41,具体内容如下:
[0079]
s41:对所述超分辨率音频样本进行频域变换,得到高频带频谱;同时,对所述低分辨率音频进行频域变换,得到低频带频谱。
[0080]
在步骤s41中,对超分辨率音频样本和低分辨率音频样本进行频域变换,将信号从时域转换为频域,可采用stft(stft,short-time fourier transform,或short-term fourier transform)对其进行频域变换,获取音频信号对饮的频谱,在实际应用场景中,也可采用其它方式,例如通过梅尔频率滤波器组,这里不做限定。
[0081]
其中,短时傅里叶变换是和傅里叶变换相关的一种数学变换,用以确定时变信号其局部区域正弦波的频率与相位。短时傅里叶变换的基本思想是局部平稳化,即将长的非平稳随机过程看作是一系列短时随机平稳信号的叠加,换句话说,就是对音频信号进行分帧处理,短时性可通过在时间上进行加窗操作实现。由于音频信号在短时间内是局部平稳的,所以对音频信号通过加窗操作进行分帧处理后,再对每一帧音频信号进行快速傅里叶变换。
[0082]
在本实施例中,对超分辨率音频样本和低分辨率音频进行频域变换,分别得到高频带频谱和低频带频谱,根据高频带频谱和低频带频谱可以得到目标全频带频谱。
[0083]
作为本技术一实施例,所述对所述超分辨率音频样本进行频域变换,得到高频带频谱,包括:对所述超分辨率音频样本进行频域变换,得到所述超分辨率音频样本的全频带频谱;从所述全频带频谱中提取所述高频带频谱。在本实施例中,采用短时傅里叶变换stft对超分辨率音频样本进行频域变换操作获得超分辨率音频样本对应的的全频带频谱,对该全频带频谱进行裁剪获得超分辨率音频样本的高频带频谱,从而实现了将超分辨率音频样本从时域到频域进行处理。可以理解地,stft主要包括分帧、加窗以及快速傅里叶变换fft三个步骤,stft在信号处理领域已经发展的较为成熟且得到广泛应用。需要说明的是,低频带频谱和高频带频谱是一个相对的概念,在一音频经频域变换后的全频带频谱中,将小于等于预设频率阈值的频带范围称为低频带频谱,大于预设频域阈值的频带范围称为高频带频谱,且低频带频谱与高频带频谱拼接即可得到全频带频谱。
[0084]
作为本技术一实施例,所述基于所述超分辨率音频样本的频谱特征集合和所述低
分辨率音频的频谱特征集合,进行特征融合,得到目标全频带频谱,包括:分别提取所述高频带频谱的高频带幅度和高频带相位,与所述低频带频谱的低频带幅度和低频带相位;基于所述高频带幅度、所述低频带幅度、高频带相位以及所述低频带相位,进行特征融合,得到目标全频带频谱。
[0085]
在本实施例中,通过上述步骤得到的低频带频谱和高频带频谱用于合成目标全频带频谱,首先分别提取出高频带频谱的高频带幅度和高频带相位与低频带频谱的低频带幅度和低频带相位,将相同的频谱特征进行特征融合,融合后得到全频带频谱,将该全频带频谱作为输出超分辨率音频的目标全频带频谱。在其他应用场景中,还可以提取其它频谱特征,例如幅度值的对数值,本技术中对频谱特征集合中的频谱特征不做限定。
[0086]
作为本技术一实施例,所述基于所述高频带幅度、所述低频带幅度、高频带相位以及所述低频带相位,进行特征融合,得到目标全频带频谱,包括:将所述高频带幅度和所述低频带幅度进行叠加,且将所述高频带相位和所述低频带相位进行叠加,分别得到超分辨率音频的全频带幅度和全频带相位;对所述全频带幅度和所述全频带相位进行欧拉变换得到目标全频带频谱。
[0087]
在本实施例中,高频带幅度与高频带相位是一一对应的,同样的低频带幅度与低频带相位是一一对应的,然后分别将高频带幅度与低频带幅度、高频带相位与低频带相位进行拼接,从而得到全频带幅度以及全频带幅度对应的全频带相位,最后根据全频带幅度和全频带相位进行欧拉变换获得目标全频带频谱。在其他应用场景中,还可以提取其它频谱特征,例如幅度值的对数值,这样在拼接得到全频带的频谱特征之后,还需要对其进行对数的逆运算,根据运算后的结果以及全频带相位获得全频带频谱,本技术对频谱特征集合中的频谱特征不做限定。
[0088]
为了更清楚的叙述由低分辨率音频生成对应的超分辨率音频的过程,请参阅图10,图10所示为本技术实施例实现超分辨率音频生成方法的一整体架构示意图,如图10所示,将低分辨率音频信号,输入音频样本生成模型,输出超分辨率音频样本,分别对低分辨率音频和超分辨率音频样本进行短时傅里叶变换,提取超分辨率音频样本高频带的频谱特征,与低分辨率音频的频谱特征进行特征拼接,低频带幅度与高频带幅度拼接得到全频带幅度,低频带相位与高频带相位拼接得到全频带相位,将全频带幅度与全频带相位进行欧拉变换得到目标全频带频谱,其中目标全频带频谱是以复数形式存在的,这也是欧拉变换的目的,然后对目标全频带频谱进行频域变换的逆变换,即逆短时傅里叶变换得到超分辨率音频。
[0089]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
[0090]
在一个实施例中,提供一种超分辨率音频生成装置1100,该超分辨率音频生成装置与上述实施例中超分辨率音频生成方法一一对应。如图11所示,该超分辨率音频生成装置包括输入模块1101、特征融合模块1102以及输出模块1103。各功能模块详细说明如下:
[0091]
输入模块1101:用于将低分辨率音频输入训练好的音频样本生成模型,得到超分辨率音频样本;所述音频样本生成模型包括生成器和判别器的生成对抗网络;
[0092]
特征融合模块1102:用于基于所述超分辨率音频样本的频谱特征集合和所述低分
辨率音频的频谱特征集合,进行特征融合,得到目标全频带频谱;
[0093]
输出模块1103:用于对所述目标全频带频谱进行频域变换的逆变换,得到超分辨率音频。
[0094]
关于超分辨率音频生成装置的具体限定可以参见上文中对于超分辨率音频生成方法的限定,在此不再赘述。上述超分辨率音频生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0095]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储超分辨率音频生成方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种超分辨率音频生成方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
[0096]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机可读指令被处理器执行时以实现一种超分辨率音频生成方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
[0097]
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现以下步骤:
[0098]
将低分辨率音频输入训练好的音频样本生成模型,得到超分辨率音频样本;所述音频样本生成模型包括生成器和判别器的生成对抗网络;
[0099]
基于所述超分辨率音频样本的频谱特征集合和所述低分辨率音频的频谱特征集合,进行特征融合,得到目标全频带频谱;
[0100]
对所述目标全频带频谱进行频域变换的逆变换,得到超分辨率音频。
[0101]
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现以下步骤:
[0102]
将低分辨率音频输入训练好的音频样本生成模型,得到超分辨率音频样本;所述音频样本生成模型包括生成器和判别器的生成对抗网络;
[0103]
基于所述超分辨率音频样本的频谱特征集合和所述低分辨率音频的频谱特征集
合,进行特征融合,得到目标全频带频谱;
[0104]
对所述目标全频带频谱进行频域变换的逆变换,得到超分辨率音频。
[0105]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0106]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
[0107]
以上所述实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1