一种语音信号处理方法、装置、设备及存储介质与流程

文档序号：20571516发布日期：2020-04-29 00:49阅读：144来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本申请涉及通信技术领域，具体而言，涉及一种语音信号处理方法、装置、设备及存储介质。

背景技术：

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。广泛应用在生活中的各个方面，只需用户口述即可将语音转换为文字，使得生活变得更加便捷。

现有技术中，应用于语音识别领域的语音编码技术主要包括差分脉冲编码调制(dpcm)和自适应差分脉冲编码调制(adpcm)。

但是adpcm和dpcm各有优点和不足，市面上出现的智能设备大部分在语音处理时，只采用了一种语音编码技术，因此可能出现语音输入效果差、识别率低下甚至不能识别的问题，极大地影响了智能设备的使用效果以及用户的体验。

技术实现要素：

本申请的目的在于，针对上述现有技术中的不足，提供一种语音信号处理方法、装置、设备及存储介质，以解决的问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种语音信号处理方法，包括：

检测输入的模拟音频信号的语音质量；

根据所述语音质量，确定差分脉冲编码调制dpcm和自适应差分脉冲编码调制adpcm的权重；

分别对所述模拟音频信号进行dpcm处理和adpcm处理，得到第一调制信号和第二调制信号；

根据所述dpcm和所述adpcm的权重、对所述第一调制信号和所述第二调制信号的预设类型参数进行加权，得到目标调制信号。

可选地，所述根据所述语音质量，确定差分脉冲编码调制dpcm和自适应差分脉冲编码调制adpcm的权重，包括：

判断所述语音质量是否满足预设的质量要求；

根据所述语音质量的判断结果，确定所述dpcm和所述adpcm的权重。

可选地，所述根据所述语音质量的判断结果，确定所述dpcm和所述adpcm的权重，包括：

若所述语音质量不满足所述质量要求，则确定第一加权调制方式，所述第一加权调制是中所述dpcm的权重大于所述adpcm的权重。

可选地，所述根据所述语音质量的判断结果，确定所述dpcm和所述adpcm的权重，包括：

若所述语音质量满足所述质量要求，则确定第二加权调制方式，所述第二加权调制方式中所述adpcm的权重大于所述dpcm的权重。

可选地，所述语音质量包括：所述模拟音频信号中相邻采样点的信号相关性；所述判断所述语音质量是否满足预设的质量要求，包括：

判断所述信号相关性是否大于或等于预设的相关性阈值；

若所述信号相关性小于所述相关性阈值，则确定所述语音质量不满足所述质量要求；

若所述信号相关性大于或等于所述相关性阈值，则确定所述语音质量满足所述质量要求。

可选地，所述方法还包括：

对所述目标调制信号进行模数转换，生成音频文件；

生成所述音频文件对应的海明窗图像；

根据所述海明窗图像生成目标语谱图，并采用所述目标语谱图，在预设的音频识别库中进行音频匹配。

可选地，所述预设类型参数为下述任一类型的参数：峰值、共峰值、频率、塞音、摩擦音。

第二方面，本申请实施例还提供一种语音信号处理装置，包括：检测模块、确定模块、处理模块和加权模块，其中：

所述检测模块，用于检测输入的模拟音频信号的语音质量；

所述确定模块，用于根据所述语音质量，确定差分脉冲编码调制dpcm和自适应差分脉冲编码调制adpcm的权重；

所述处理模块，用于分别对所述模拟音频信号进行dpcm处理和adpcm处理，得到第一调制信号和第二调制信号；

所述加权模块，用于根据所述dpcm和所述adpcm的权重、对所述第一调制信号和所述第二调制信号的预设类型参数进行加权，得到目标调制信号。

可选地，所述装置还包括：判断模块，用于判断所述语音质量是否满足预设的质量要求；

所述确定模块，还用于根据所述语音质量的判断结果，确定所述dpcm和所述adpcm的权重。

可选地，所述确定模块，还用于若所述语音质量不满足所述质量要求，则确定第一加权调制方式，所述第一加权调制是中所述dpcm的权重大于所述adpcm的权重。

可选地，所述确定模块，还用于若所述语音质量满足所述质量要求，则确定第二加权调制方式，所述第二加权调制方式中所述adpcm的权重大于所述dpcm的权重。

可选地，所述判断模块，还用于判断所述信号相关性是否大于或等于预设的相关性阈值；

所述确定模块，还用于若所述信号相关性小于所述相关性阈值，则确定所述语音质量不满足所述质量要求；

所述确定模块，还用于若所述信号相关性大于或等于所述相关性阈值，则确定所述语音质量满足所述质量要求。

可选地，所述装置还包括生成模块和匹配模块，其中：

所述生成模块，用于对所述目标调制信号进行模数转换，生成音频文件；生成所述音频文件对应的海明窗图像；

所述匹配模块，用于根据所述海明窗图像生成目标语谱图，并采用所述目标语谱图，在预设的音频识别库中进行音频匹配。

第三方面，本申请实施例还提供一种语音信号处理设备，包括：存储器和处理器，所述存储器存储有所述处理器可执行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所提供的任一方法。

第四方面，本申请实施例还提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被读取并执行时，实现上述第一方面所提供的任一方法。

本申请的有益效果是：采用本申请提供的语音信号处理方法，可以采用差分脉冲编码调制dpcm和自适应差分脉冲编码调制adpcm分别对模拟音频信号进行处理，得到对应的第一调制信号和第二调制信号，并根据输入模拟音频信号的语音质量确定dpcm和adpcm的权重，并根据确定的权重对第一调制信号和第二调制信号进行加权处理，得到目标调制信号。这样的处理方式会根据不同的语音质量确定dpcm和adpcm的权重，并根据权重对第一调制信号和第二调制信号进行加权处理得到目标调制信号，这样得到的目标调制信号可以有效地解决语音识别效率低下的问题，提高语音识别率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例提供的语音信号处理方法的流程示意图；

图2为本申请另一实施例提供的语音信号处理方法的流程示意图；

图3为本申请另一实施例提供的语音信号处理方法的流程示意图；

图4为本申请一实施例提供的语音信号处理装置的结构示意图；

图5为本申请另一实施例提供的语音信号处理装置的结构示意图；

图6为本申请另一实施例提供的语音信号处理装置的结构示意图；

图7为本申请一实施例提供的语音信号处理设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

图1为本申请一实施例提供的语音信号处理方法的流程示意图，该语音信号处理方法可以由手机、平板电脑、穿戴设备等任一具有语音识别和语音处理功能的电子设备执行，也可由电子设备中语音应用程序对应的应用服务器执行，如下以电子设备的执行过程进行实例说明，针对服务器执行的方法其相似之处，本申请不再赘述。如图1所示，该方法可包括：

s101：检测输入的模拟音频信号的语音质量。

可选地，输入的模拟音频信号可以为电子设备实时采集的用户音频信号，也可以为电子设备从预设音频信号集中选择的音频信号，具体音频信号的上传方式可以根据用户需要确定，本申请在此不做任何限制。

可选地，模拟音频信号的语音质量可以将语音信号的波形图作为采样数据，通过对采样数据的分析来确定模拟音频信号的语音质量，分析方法可以为下述方法的任一种：通过采样数据中的幅度是否均匀分布来判断；通过采样数据中邻近样本之间的相关性来判断；通过采样数据的周期之间的相关性来判断；通过采样数据基音之间的相关性来判断。

s102：根据语音质量，确定差分脉冲编码调制dpcm和自适应差分脉冲编码调制adpcm的权重。

其中，dpcm是对相邻样本之差编码用前面的n个样本根据一定的规律来预测当前的样本，然后将预测值与实际值的误差进行量化后传输，再根据误差信号，采用和发送端相同的预测方法恢复出原始信号。经过dpcm调制后的信号，减小了相应要求的系统传输带宽，能够改善信噪比；这样的判断方式使用前面的n个样本值估算当前样本的预测值，使实际样本值和预测值之间的差值总是最小。

adpcm是性能比较好的波形编码，是获得低空间消耗,高质量声音的好途径，对于其他语音技术而言，编解码延时最短，算法复杂度低，压缩比小。

dpcm在语音质量较高的情况下，处理效果较好；apcm在语音质量较低的情况下，处理效果较差，本申请中，根据语音质量确定两种算法的权重，可以使得不管模拟音频信号的语音质量是高还是低，通过两种算法加权处理的方案，都可以提高语音的识别率。

s103：分别对模拟音频信号进行dpcm处理和adpcm处理，得到第一调制信号和第二调制信号。

其中，第一调制信号是根据dpcm对音频信号进行处理后得到的，第二调制信号是根据adpcm对音频信号进行处理后得到的。

s104：根据dpcm和adpcm的权重、对第一调制信号和第二调制信号的预设类型参数进行加权，得到目标调制信号。

可选地，预设类型参数可能包括下述任一类型的参数：峰值、共峰值、频率、塞音、摩擦音等。

通过对预设类型的每项参数按照预设权重进行加权后，得到目标调制信号。

采用本申请提供的语音信号处理方法，可以采用差分脉冲编码调制dpcm和自适应差分脉冲编码调制adpcm分别对模拟音频信号进行处理，得到对应的第一调制信号和第二调制信号，并根据输入模拟音频信号的语音质量确定dpcm和adpcm的权重，并根据确定的权重对第一调制信号和第二调制信号进行加权处理，得到目标调制信号。这样的处理方式会根据不同的语音质量确定dpcm和adpcm的权重，并根据权重对第一调制信号和第二调制信号进行加权处理得到目标调制信号，这样得到的目标调制信号可以有效地解决语音识别效率低下的问题，提高语音识别率。

图2为本申请一实施例提供的语音信号处理方法的流程示意图，如图2所示，s102包括：

s105：判断语音质量是否满足预设的质量要求。

随后根据语音质量的判断结果，确定dpcm和adpcm的权重。

在本申请的一个实施例中，语音质量包括：模拟音频信号中相邻采样点的信号相关性。则判断语音质量是否满足预设的质量要求可以为：判断信号相关性是否大于或等于预设的相关性阈值；若信号相关性小于相关性阈值，则确定语音质量不满足质量要求；若信号相关性大于或等于相关性阈值，则确定语音质量满足质量要求。

举例说明：在本申请的一个实施例中，预设的相关性阈值设置为0.04，即语音质量的判断方式可以为：通过采样数据中邻近信号之间的相关性来判断，具体判断方法为：根据48khz的采样频率，对采样数据中邻近信号之间的相关性进行采集，并判断邻近信号之间的相关性，若邻近信号之间的相关性大于或等于0.04，则认为该音频信号的语音质量为高质量语音；若邻近信号之间的相关性小于0.04，则认为该音频信号的语音质量为低质量语音，但是具体预设的相关性阈值可以根据用户需要设计，并不以上述实施例给出的阈值为限。

其中，按照预设采样频率对采样数据的邻近信号之间的相关性进行采集，采样数据被分为很多帧，每帧采样数据都对应于一个频谱(通过短时fft计算)，频谱表示频率与能量的关系。

可选地，若语音质量未达到预设标准，则认为当前语音质量不满足质量要求，则执行s106a：确定第一加权调制方式。

其中，第一加权调制中dpcm的权重大于adpcm的权重，即以dpcm算法为主，进行音频的加权调制。这样的调制方式可以提高语音识别率，避免在采集到的语音质量较差时，仅采用adpcm算法进行调制，导致识别率低的问题。

若语音质量达到预设标准，则认为当前语音质量满足质量要求，则执行s106b：确定第二加权调制方式。

其中，第二加权调制方式中adpcm的权重大于dpcm的权重，即以adpcm算法为主对音频进行加权调制，这样的调制方式可以使得后续语音进行a/d转化后，得到的音频文件在不损害音质前提下进行压缩，从而减小文件大小，提高语音识别率，避免了音频调制过程中仅采用dpcm算法导致的后续压缩困难的问题。

可选地，在本申请的一个实施例中，第一加权调制中：dpcm的权重为60％，adpcm的权重为40％；在第二加权调制方式中，adpcm的权重为60％，dpcm的权重为40％；但具体权重的设置可以根据用户需要调整，并不以上述实施例为限制。

图3为本申请另一实施例提供的语音信号处理方法的流程示意图，如图3所示，该方法还包括：

s107：对目标调制信号进行模数转换，生成音频文件。

其中，该音频文件是根据加权处理后的目标调制信号得到的，相对于传统技术中仅通过一种算法处理得到的音频文件，语音识别率更高。

s108：生成音频文件对应的海明窗图像。

其中，在得到音频文件后，还需要对该音频文件进行格式的转换、重采样、预加重、分帧后，构造出该音频对应的海明窗图像。

s109：根据海明窗图像生成目标语谱图，并采用目标语谱图，在预设的音频识别库中进行音频匹配。

其中，对海明窗图像进行傅里叶变换后，生成输入的模拟音频信号对应的目标语谱图，并根据语谱图在预设音频识别库中进行音频匹配，得到该目标语谱图对应的文字信息。

其中，对海明窗图像进行傅里叶变换，可以将非线性问题转换为线性问题，从而使得匹配的方式变得更加直观。

本实施例所提供的方法中，由于目标调制信号是对输入模拟音频信号通过两种算法加权处理后得到的，并且使用处理后的目标调制信号进行数模转换后生成对应的海明窗，并根据海明窗生成目标语谱图，相对于传统技术中，仅采用一种算法对模拟音频信号进行处理的方式，本申请的处理方式可以使得处理后的目标调制信号的传输比特率较低；系统传输带宽减小；在相同比特速率的条件下，信噪比也会得到改善；增多了量化级，改善量化噪声。

图4为本申请一实施例提供的语音信号处理装置，如图4所示，该装置包括：检测模块201、确定模块202、处理模块203和加权模块204，其中：

检测模块201，用于检测输入的模拟音频信号的语音质量。

确定模块202，用于根据语音质量，确定差分脉冲编码调制dpcm和自适应差分脉冲编码调制adpcm的权重。

处理模块203，用于分别对模拟音频信号进行dpcm处理和adpcm处理，得到第一调制信号和第二调制信号。

加权模块204，用于根据dpcm和adpcm的权重、对第一调制信号和第二调制信号的预设类型参数进行加权，得到目标调制信号。

图5为本申请另一实施例提供的语音信号处理装置，如图5所示，该装置还包括：判断模块205，用于判断语音质量是否满足预设的质量要求。

确定模块202，还用于根据语音质量的判断结果，确定dpcm和adpcm的权重。

可选地，确定模块202，还用于若语音质量不满足质量要求，则确定第一加权调制方式，第一加权调制是中dpcm的权重大于adpcm的权重。

可选地，确定模块202，还用于若语音质量满足质量要求，则确定第二加权调制方式，第二加权调制方式中adpcm的权重大于dpcm的权重。

可选地，判断模块205，还用于判断信号相关性是否大于或等于预设的相关性阈值。

确定模块202，还用于若信号相关性小于相关性阈值，则确定语音质量不满足质量要求。

确定模块202，还用于若信号相关性大于或等于相关性阈值，则确定语音质量满足质量要求。

图6为本申请另一实施例提供的语音信号处理装置，如图6所示，该装置还包括生成模块206和匹配模块207，其中：

生成模块206，用于对目标调制信号进行模数转换，生成音频文件；生成音频文件对应的海明窗图像。

匹配模块207，用于根据海明窗图像生成目标语谱图，并采用目标语谱图，在预设的音频识别库中进行音频匹配。

下述对用以执行的本申请所提供的方法的装置、设备及存储介质等进行说明，其具体的实现过程以及技术效果参见上述，下述不再赘述。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(applicationspecificintegratedcircuit，简称asic)，或，一个或多个微处理器(digitalsingnalprocessor，简称dsp)，或，一个或者多个现场可编程门阵列(fieldprogrammablegatearray，简称fpga)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(centralprocessingunit，简称cpu)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称soc)的形式实现。

图7为本申请一实施例提供的游戏场景的性能测试设备的结构示意图，该游戏场景的性能测试设备可以集成于终端设备或者终端设备的芯片。

该游戏场景的性能测试设备包括：处理器501、存储介质502和总线503。

处理器501用于存储程序，处理器501调用存储介质502存储的程序，以执行上述图1-图3对应的方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本申请还提供一种程序产品，例如存储介质，该存储介质上存储有计算机程序，包括程序，该程序在被处理器运行时执行上述方法对应的实施例。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(英文：read-onlymemory，简称：rom)、随机存取存储器(英文：randomaccessmemory，简称：ram)、磁碟或者光盘等各种可以存储程序代码的介质。

上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谭志鹏;谭北平
技术所有人：北京明略软件系统有限公司;清华大学
我是此专利的发明人

上一篇：一种自整定模糊PID控制方法与流程
上一篇：镍铈共掺杂铁酸铋薄膜材料及其制备方法与流程