音质控制方法、装置、设备及存储介质与流程

文档序号：31340306发布日期：2022-08-31 09:58阅读：78来源：国知局

1.本技术涉及语音处理技术领域，尤其涉及一种音质控制方法、装置、设备及存储介质。

背景技术：

2.在音源和采集设备距离较远的情况下，噪声的能量接近甚至超过目标音频的能量，基于传统语音降噪方法无法判断目标音频和噪声，导致降噪效果不佳；基于传统自动增益控制算法无法区分目标音频和噪声，无法对目标音频进行放大，影响目标音频的主观听感质量。也就是说，基于传统语音降噪方法和传统自动增益控制算法无法改善远场音频的音质质量，导致远场音频的音质质量较差。

技术实现要素：

3.本技术的主要目的在于提供一种音质控制方法、装置、设备及存储介质，旨在解决基于传统语音降噪方法和传统自动增益控制算法无法改善远场音频的音质质量，导致远场音频的音质质量较差的技术问题。
4.为实现上述目的，本技术提供一种音质控制方法，包括以下步骤：
5.基于实时语音降噪模型，对音频数据进行降噪处理，所述实时语音降噪模型用于根据降噪参数对所述音频数据进行降噪处理；
6.对降噪处理后的音频数据进行双层自动增益控制。
7.可选地，所述基于实时语音降噪模型，对音频数据进行降噪处理的步骤，包括：
8.对音频数据进行噪声场景判定，确定所述音频数据对应的噪声场景；
9.根据所述噪声场景获取与所述噪声场景匹配的降噪参数；
10.基于所述降噪参数的实时语音降噪模型，对所述音频数据进行降噪处理。
11.可选地，所述基于实时语音降噪模型，对音频数据进行降噪处理的步骤之前，还包括：
12.获取预设噪声场景对应的音频训练数据；
13.提取所述音频训练数据的时域特征值和目标值。
14.基于语音活动检测、噪声谱估计和谱减构建的深度学习降噪模型，对所述时域特征值和所述目标值进行训练，得到降噪参数；
15.使用所述降噪参数对实时语音降噪模型的参数进行更新。
16.可选地，所述对音频数据进行噪声场景判定，确定所述音频数据对应的噪声场景的步骤，包括：
17.对音频数据对应的噪声数据进行计算，根据计算得到的结果对噪声的频谱特性进行估计，得到噪声谱估计值；
18.将所述噪声谱估计值与噪声场景各自对应的标准噪声谱估计值进行比对，将比对结果最小值对应的噪声场景确定为所述音频数据对应的噪声场景。
19.可选地，所述对降噪处理后的音频数据进行双层自动增益控制的步骤，包括：
20.对降噪处理后的音频数据进行分帧处理，得到音频帧；
21.若所述音频帧为语音帧，则进行数字自动增益控制，获取数字自动增益值；
22.若所述数字自动增益值大于或等于增益阈值，则进行模拟自动增益控制，获取模拟自动增益步长，并将所述模拟自动增益步长反馈至音频数据采集设备；
23.若所述数字自动增益值小于增益阈值，则输出所述语音帧。
24.可选地，所述对降噪处理后的音频数据进行双层自动增益控制的步骤，还包括：
25.若所述音频帧为噪声帧，则判断所述噪声帧中的噪声场景是否为预设噪声场景；
26.若所述噪声帧中的噪声场景是预设噪声场景，则产生并输出舒适噪声；
27.若所述噪声帧中的噪声场景不是预设噪声场景，则对所述音频帧进行降噪处理，产生并输出舒适噪声。
28.可选地，所述对降噪处理后的音频数据进行分帧处理，得到音频帧的步骤之后，还包括：
29.基于语音活动检测算法，确定所述音频帧的语音活动检测值；
30.基于所述语音活动检测值，确定所述音频帧的类型，所述类型包括语音帧和噪声帧。
31.此外，为实现上述目的，本技术还提供一种音质控制装置，包括：
32.实时语音降噪模块，用于基于实时语音降噪模型，对音频数据进行降噪处理，所述实时语音降噪模型用于根据降噪参数对所述音频数据进行降噪处理；
33.音量自动增益模块，用于对降噪处理后的音频数据进行双层自动增益控制。
34.此外，为实现上述目的，本技术还提供一种音质控制设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音质控制程序，所述音质控制程序程序配置为实现如上所述的音质控制方法的步骤。
35.此外，为实现上述目的，本技术还提供一种存储介质，所述存储介质上存储有音质控制程序，所述音质控制程序被处理器执行时实现如上所述的音质控制方法的步骤。
36.本技术公开了音质控制方法、装置、设备及存储介质，与现有技术中，基于传统语音降噪方法和传统自动增益控制算法无法改善远场音频的音质质量，导致远场音频的音质质量较差相比，本技术通过基于实时语音降噪模型，对音频数据进行降噪处理，所述实时语音降噪模型用于根据降噪参数对所述音频数据进行降噪处理；对降噪处理后的音频数据进行双层自动增益控制。也就是说，在本技术中，实时语音降噪模型根据降噪参数对音频数据进行降噪处理，提高了对音频数据的降噪效果，并对降噪处理后的音频数据进行双层自动增益控制，扩大音量自动增益范围，提高了音频数据的音质质量。
附图说明
37.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
38.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
39.图1是本技术实施例方案涉及的硬件运行环境的音质控制设备的结构示意图；
40.图2为本技术音质控制方法第一实施例的流程示意图；
41.图3为本技术步骤s20的细化流程示意图；
42.图4为本技术音质控制装置第一实施例的功能模块示意图。
43.本技术目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
44.应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
45.参照图1，图1为本技术实施例方案涉及的硬件运行环境的音质控制设备结构示意图。
46.如图1所示，该音质控制设备可以包括：处理器1001，例如中央处理器(central processing unit，cpu)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity，wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory，ram)存储器，也可以是稳定的非易失性存储器(non-volatile memory，nvm)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
47.本领域技术人员可以理解，图1中示出的结构并不构成对音质控制设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
48.如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及音质控制程序。
49.在图1所示的音质控制设备中，网络接口1004主要用于与其他设备进行数据通信；用户接口1003主要用于与用户进行数据交互；本技术音质控制设备中的处理器1001、存储器1005可以设置在音质控制设备中，所述音质控制设备通过处理器1001调用存储器1005中存储的音质控制程序，并执行本技术实施例提供的音质控制方法。
50.本技术实施例提供了一种音质控制方法，参照图2，图2为本技术音质控制方法第一实施例的流程示意图。
51.在本实施例中，所述音质控制方法包括：
52.步骤s10、基于实时语音降噪模型，对音频数据进行降噪处理，所述实时语音降噪模型用于根据降噪参数对所述音频数据进行降噪处理；
53.步骤s20、对降噪处理后的音频数据进行双层自动增益控制。
54.具体步骤如下：
55.步骤s10、基于实时语音降噪模型，对音频数据进行降噪处理，所述实时语音降噪模型用于根据降噪参数对所述音频数据进行降噪处理。
56.更进一步地，所述基于实时语音降噪模型，对音频数据进行降噪处理的步骤，包括：
57.步骤s11、对音频数据进行噪声场景判定，确定所述音频数据对应的噪声场景。
58.需要说明的是，噪声场景可以为会议噪声场景、交通噪声场景、人群噪声场景等，
其中，交通噪声场景又可以分为车辆噪声场景和列车噪声场景。
59.具体地，对音频数据进行噪声场景判定，确定所述音频数据对应的噪声场景，包括：
60.步骤s111、对音频数据对应的噪声数据进行计算，根据计算得到的结果对噪声的频谱特性进行估计，得到噪声谱估计值；
61.步骤s112、将所述噪声谱估计值与噪声场景各自对应的标准噪声谱估计值进行比对，将比对结果最小值对应的噪声场景确定为所述音频数据对应的噪声场景。
62.步骤s12、根据所述噪声场景获取与所述噪声场景匹配的降噪参数。
63.在实时语音降噪模型中，存在多组降噪参数，每一组降噪参数各自对应不同的噪声场景。
64.步骤s13、基于所述降噪参数的实时语音降噪模型，对所述音频数据进行降噪处理。
65.在本实施例中，不同的噪声场景对应不同的降噪参数，因此，在本实施例中需要根据音频数据对应的噪声场景来使用不同降噪参数的实时语音降噪模型对音频数据进行降噪处理，提高了对音频数据的降噪效果。
66.更进一步地，所述基于实时语音降噪模型，对音频数据进行降噪处理的步骤之前，还包括：
67.步骤a1、获取预设噪声场景对应的音频训练数据。
68.音频训练数据包含干净音频数据和预设噪声场景的噪声数据。
69.在本实施例中，音频训练数据的获取方式可以有多种，在一种可能的实现方式中，测试人员携带音频采集设置在没有噪声的环境中采集干净音频数据，在预设噪声场景的环境中采集噪声数据。比如，测试人员携带音频采集设置在录音棚中采集用户a说的“噪声采集”，则“噪声采集”即为干净音频数据，测试人员携带音频采集设置在早晚高峰期的马路边上采集环境中的声音作为预设噪声场景的噪声数据。
70.步骤a2、提取所述音频训练数据的时域特征值和目标值。
71.在本实施例中，音频训练数据的时域特征值用于指示音频训练数据在时间域上的特征，在一种可能的实现方式中，音频训练数据的时域特征值可以包括噪声阈值，长时能量值，短时能量值，噪声包络跟踪值中的一种或多种。可以理解的，音频训练数据的时域特征值还可以包括其他的信息，本实施例在此不作具体限定。
72.具体的，噪声阈值用于指示噪声的幅值范围，长时能量值和短时能量值用于指示音频数据在预设时间段内的能量信息，噪声包络跟踪值用于对噪声的幅值进行估计。
73.在本实施例中，音频训练数据的目标值可以包括干净音频数据的语音活动检测值和预设噪声场景的噪声数据的全带信噪比值中的一种或多种。
74.其中，干净音频数据的语音活动检测值可以用于指示检测到的是语音还是噪声。例如，可以用“1”指示当前检测到的是语音，用“0”指示当前检测到的是噪声；或者可以用“0”指示当前检测到的是语音，用“1”指示当前检测到的是噪声，本实施例不作具体限定。预设噪声场景的噪声数据的全带信噪比值可以用于指示语音与噪声的对应关系。
75.步骤a3、基于语音活动检测、噪声谱估计和谱减构建的深度学习降噪模型，对所述时域特征值和所述目标值进行训练，得到降噪参数。
76.在本实施例中，深度学习降噪模型的构建方法可以有多种，在一种可能的实现方式中，可以基于keras构建深度学习降噪模型。具体地说，keras是一个基于theano的高度模块化的神经网络库，比如，keras可以基于torch并可以采用python语言进行编写，且keras可以支持图形处理器(graphics processing unit，gpu)和中央处理器(central processing unit，cpu)。
77.在本实施例中，深度学习降噪模型可以包括语音活动检测模块、噪声谱估计模块和谱减模块。其中，语音活动检测模块可以通过检测干净音频数据和预设噪声场景的噪声数据，并根据检测到的干净音频数据和预设噪声场景的噪声数据的活动标志(比如，幅值范围等)来区分语音和幅值。噪声谱估计模块可以用于对预设噪声场景的噪声数据进行计算，并可以根据计算得到的结果对噪声的频谱特性进行估计。谱减模块可以用于根据语音活动检测模块和噪声谱估计模块得到的计算结果，确定增益值，该增益值可以用于对语音信息中的噪声进行抑制。
78.具体实施中，将音频训练数据的时域特征值作为深度学习降噪模型的输入信息，将音频训练数据的目标值作为深度学习降噪模型的输出信息，进而控制深度学习训练模型根据输入信息和输出信息进行模型训练，得到降噪参数。例如，将时域特征值输入语音活动检测模块，可以得到第一模型参数；将第一模型参数输入噪声谱估计模块，可以得到第二模型参数，同时，将第一模型参数输入谱减模块，可以得到第三模型参数；最后，将第一模型参数、第二模型参数和第三模型参数共同输入谱减模块，可以得到训练数据经过深度学习降噪模型训练后的模型参数，该模型参数即为降噪参数。需要说明的是，本实施例中，深度学习降噪模型中的各个模块可以为通过keras构建的功能模块，也就是说，语音活动检测模块、噪声谱估计模块和谱减模块仅为对确定模型参数的过程进行描述而引入的，具体实施中，还可以包括其它模块，具体不做限定。
79.步骤a4、使用所述降噪参数对实时语音降噪模型的参数进行更新。
80.在本实施例中，通过获取音频训练数据的时域特征值和目标值，并采用基于语音活动检测、噪声谱估计和谱减构建的深度学习训练模型对训练数据的时域特征值和目标值进行训练，可以在训练模型的过程中将音频数据的时域特征和频域特征进行结合，进而提升深度学习降噪模型的训练性能，加快深度学习降噪模型的训练速度。同时，由于音频训练数据包括不同噪声场景下的音频数据，采用不同的音频训练数据对深度学习降噪模型进行训练，得到不同噪声场景对应的降噪参数，通过不同噪声场景对应的降噪参数对实时语音降噪模型进行更新，根据音频数据对应的噪声场景来使用不同降噪参数的实时语音降噪模型对音频数据进行降噪处理，进而提高了对音频数据的降噪效果。
81.参见图3，图3为本技术步骤s20的细化流程示意图。
82.步骤s20、对降噪处理后的音频数据进行双层自动增益控制。
83.更进一步地，所述对降噪处理后的音频数据进行双层自动增益控制的步骤，包括：
84.步骤s21、对降噪处理后的音频数据进行分帧处理，得到音频帧。
85.在本实施例中，可以根据预设长度来对降噪处理后的音频数据进行分帧处理，预设长度在此不作具体限定。
86.步骤s22、若所述音频帧为语音帧，则进行数字自动增益控制，获取数字自动增益值。
87.在本实施例中，数字自动增益值的获取方式可以有多种，在一种可能的实现方式中，可以通过自动增益控制算法agc来进行数字自动增益控制，以此获取数字自动增益值。
88.步骤s23、若所述数字自动增益值大于或等于增益阈值，则进行模拟自动增益控制，获取模拟自动增益步长，并将所述模拟自动增益步长反馈至音频数据采集设备。
89.在本实施例中，模拟自动增益步长的获取方式可以有多种，在一种可能的实现方式中，计算数字自动增益值与增益阈值的差值，基于数字自动增益值与增益阈值的差值与模拟自动增益步长之间的映射关系，确定模拟自动增益步长。其中，数字自动增益值与增益阈值的差值与模拟自动增益步长之间的映射关系可以通过多次实验获取得到。
90.步骤s24、若所述数字自动增益值小于增益阈值，则输出所述语音帧。
91.更进一步地，所述对降噪处理后的音频数据进行双层自动增益控制的步骤，还包括：
92.步骤s25、若所述音频帧为噪声帧，则判断所述噪声帧中的噪声场景是否为预设噪声场景；
93.步骤s26、若所述噪声帧中的噪声场景是预设噪声场景，则产生并输出舒适噪声；
94.步骤s27、若所述噪声帧中的噪声场景不是预设噪声场景，则对所述音频帧进行降噪处理，产生并输出舒适噪声。
95.在本实施例中，判断所述噪声帧中的噪声场景是否为预设噪声场景的具体过程如下：
96.对噪声帧对应的噪声数据进行计算，根据计算得到的结果对噪声的频谱特性进行估计，得到噪声谱估计值；
97.将噪声谱估计值与噪声场景各自对应的标准噪声谱估计值进行比对；
98.若噪声谱估计值与所有的噪声场景对应的标准噪声谱估计值的比对结果均大于预设比对阈值，则判定噪声帧中的噪声场景不是预设噪声场景；
99.反之，若噪声谱估计值与其中之一的噪声场景对应的标准噪声谱估计值的比对结果小于预设比对阈值，则判定噪声帧中的噪声场景是预设噪声场景。
100.在本实施例中，舒适噪声通过cng(comfort noise generator，舒适噪音生成)程序生成，cng程序生成是一个在通话过程中出现短暂静音时用来为电话通信产生背景噪声的程序。
101.更进一步地，所述对降噪处理后的音频数据进行分帧处理，得到音频帧的步骤之后，还包括：
102.基于语音活动检测算法，确定所述音频帧的语音活动检测值；
103.基于所述语音活动检测值，确定所述音频帧的类型，所述类型包括语音帧和噪声帧。
104.在一种可能的实现方式中，语音活动检测算法可以通过特征提取模块、门限计算模块和门限判决模块等模块，判断音频数据中是否包含语音数据存在，即对输入信号进行判断，将语音数据与噪声数据进行区分。
105.在另一种可能的实现方式中，可以通过预先训练好的声学模型对声音样本进行逐帧(其中，每一音频帧可以为预设长度)识别，确定该声学模型输出的识别结果。其中，该识别结果可以通过0或1表示(例如，0可以用于表征对应音频帧中不包括非噪声信号，1可以用
于表征对应音频帧中包括非噪声信号)。
106.然后，可以将上述声音样本以及声学模型输出的识别结果作为训练集，训练语音活动检测模型，以使得训练后的语音活动检测可以将语音数据与噪声数据进行区分。
107.在本实施例中，运用数字自动增益反馈音频数据采集设备下一次音频数据采集时的模拟自动增益，扩大音量自动增益的范围，提高音频数据的音质质量。
108.本技术实施例还提供了一种音质控制装置，参照图4，图4为本技术音质控制装置第一实施例的功能模块示意图。
109.在本实施例中，所述音质控制装置包括：
110.实时语音降噪模块10，用于基于实时语音降噪模型，对音频数据进行降噪处理，所述实时语音降噪模型用于根据降噪参数对所述音频数据进行降噪处理；
111.音量自动增益模块20，用于对降噪处理后的音频数据进行双层自动增益控制。
112.可选地，所述实时语音降噪模块包括：
113.噪声场景判定单元，用于对音频数据进行噪声场景判定，确定所述音频数据对应的噪声场景；
114.降噪参数匹配单元，用于根据所述噪声场景获取与所述噪声场景匹配的降噪参数；
115.降噪处理单元，用于基于所述降噪参数的实时语音降噪模型，对所述音频数据进行降噪处理。
116.可选地，所述音质控制装置还包括：
117.获取模块，用于获取预设噪声场景对应的音频训练数据；
118.训练数据提取模块，用于提取所述音频训练数据的时域特征值和目标值。
119.模型训练模块，用于基于语音活动检测、噪声谱估计和谱减构建的深度学习降噪模型，对所述时域特征值和所述目标值进行训练，得到降噪参数；
120.更新模块，用于使用所述降噪参数对实时语音降噪模型的参数进行更新。
121.可选地，所述噪声场景判定单元用于实现：
122.对音频数据对应的噪声数据进行计算，根据计算得到的结果对噪声的频谱特性进行估计，得到噪声谱估计值；
123.将所述噪声谱估计值与噪声场景各自对应的标准噪声谱估计值进行比对，将比对结果最小值对应的噪声场景确定为所述音频数据对应的噪声场景。
124.可选地，所述音量自动增益模块包括：
125.分帧单元，用于对降噪处理后的音频数据进行分帧处理，得到音频帧；
126.数字自动增益单元，用于若所述音频帧为语音帧，则进行数字自动增益控制，获取数字自动增益值；
127.模拟自动增益单元，用于若所述数字自动增益值大于或等于增益阈值，则进行模拟自动增益控制，获取模拟自动增益步长，并将所述模拟自动增益步长反馈至音频数据采集设备；
128.输出单元，用于若所述数字自动增益值小于增益阈值，则输出所述语音帧。
129.可选地，所述音量自动增益模块还包括：
130.舒适噪声生成单元，用于实现：
131.若所述音频帧为噪声帧，则判断所述噪声帧中的噪声场景是否为预设噪声场景；
132.若所述噪声帧中的噪声场景是预设噪声场景，则产生并输出舒适噪声；
133.若所述噪声帧中的噪声场景不是预设噪声场景，则对所述音频帧进行降噪处理，产生并输出舒适噪声。
134.可选地，所述音量自动增益模块还包括：
135.类型判断单元，用于实现：基于语音活动检测算法，确定所述音频帧的语音活动检测值；
136.基于所述语音活动检测值，确定所述音频帧的类型，所述类型包括语音帧和噪声帧。
137.本技术音质控制装置具体实施方式与上述音质控制方法各实施例基本相同，在此不再赘述。
138.本技术实施例还提提供了一种存储介质，所述存储介质上存储有音质控制程序，所述音质控制程序被处理器执行时实现如上所述的音质控制方法的步骤。
139.本技术存储介质具体实施方式与上述音质控制方法各实施例基本相同，在此不再赘述。
140.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
141.上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。
142.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本技术各个实施例所述的方法。
143.以上仅为本技术的优选实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：盛剑锋周骏华程宝平
技术所有人：中国移动通信集团有限公司
我是此专利的发明人

上一篇：一种多支点转体系统拼装试验方法与流程
上一篇：鱿鱼掏黄设备