音频信号的动态特征提取的方法及系统与流程

文档序号:33695759发布日期:2023-03-31 15:44阅读:99来源:国知局
音频信号的动态特征提取的方法及系统与流程

1.本公开一般涉及语音识别领域,具体来说,本公开涉及音频信号的动态特征提取的方法及系统。


背景技术:

2.典型的自动语音识别系统包括特征提取和识别引擎两个主要部分。特征提取是进行语音识别的第一步,其主要目的是把音频信号中具有辨识性的成分提取出来,把例如背景噪声情绪等其他部分去除掉,以供识别引擎进行训练和语音识别。
3.人工智能物联网(artificial intelligence of things (aiot))的应用市场正在持续增长,预计在2024年将达到16.2b。边缘人工智能(edge ai)成为aiot未来的发展重点,而高效能、低功耗、高云端整合成为发展趋势。低硬件资源二进制神经网络(bnn)架构对于物联网应用至关重要。对于语音活动检测voice-activity-detection(vad)和关键词检测keyword spotting(kws)等aiot应用,已经在识别引擎中使用低复杂度的神经网络。因此相较而言,特征提取部分占用了整个系统计算资源的很大一部分。
4.由于通过使用低复杂度的神经网络处理已经使得自动语音识别系统中的识别引擎部分的计算得到简化,因此本公开旨在降低特征提取部分的计算复杂度以实现进一步降低自动语音识别系统对计算资源和功耗的需求。
5.本公开着重于时频的特征提取,包括短时傅立叶变换(包括 gabor 变换)、离散余弦变换 (dct)、小波变换、双线性时频分布函数(wigner 分布函数,或 wdf)、修正的 wigner 分布函数、gabor-wigner 分布函数等(参见 gabor-wigner 变换)、希尔伯特-黄变换、沃尔什-哈达玛变换 (wht)、调制复重叠变换 (mclt)等多种方法。
6.mel频率倒谱系数mel frequency cepstral coefficents)mfccs是迄今为止广泛用于自动语音识别的特征提取方法。图10示出了常规mfcc的功能模块。常规的mfcc特征提取过程包括预处理模块1001,对输入的语音信号进行预处理,包括预加重、分帧和加窗等;fft模块1002对每一个短时分析窗,通过快速傅立叶变换fft得到对应的频谱;mel滤波器1003将得到的频谱通过mel滤波器组得到mel频谱;log模块1004,在mel频谱取对数,dct 1005,做离散余弦变换dct以实现逆变换进行倒谱分析,由此获得mel频率倒谱系数mfcc。该得到mel频率倒谱系数mfcc即为该帧语音的特征向量。输入的语音信号可以通过一系列的倒谱向量来描述。每个向量就是每帧的mfcc特征向量。在获得特征向量之后可以使用识别引擎对这些特征向量进行训练和语音识别。
7.如图10所示的mfcc特征提取过程用到的fft、mel滤波器和 dct功能模块需要占用很大的计算量。对于语音识别而言,mfcc 的计算复杂度几乎与卷积神经网络(convolutional neural networks,cnn)的计算复杂度相当。
8.针对相对简单的语音识别应用,已经有很多研究来简化例如mfcc提取特征过程以降低计算复杂度。例如,通过简化如图10所示的mfcc语音特征提取中的某些功能模块,或去除特征提取路径上的一个或多个功能模块来简化mfcc特征提取降低计算复杂度。
9.cn102332262b公开了一种基于音频特征的歌曲智能识别方法,其公开了针对输入语音信号的所有帧使用简化mfcc特征提取以减少计算复杂度。具体而言,cn102332262b在对音频数据流进行采样分帧,对每一帧的采样点进行快速傅立叶变换fft后的n个频域幅值,按照所在频带平均分成y+1等份,计算每等份频带内各个频域值的绝对值的和s,并提取每个音频信号帧的y个特征值。与常规的mfcc提取特征向量的过程相比,该专利cn102332262b省略了预处理模块中的加窗,mel滤波器和 dct模块,而仅对每一帧的采样点fft后求频域幅值的和值(绝对值)作为音频信号的特征向量。
10.cn107742524a公开了一种有利于节省时间的信号分析系统。cn107742524a同时对同一帧用两条路径进行处理。对初始音频信号进行预处理,以生成两个与预处理后的初始音频信号相同的音频信号的生成模块:两个与预处理后的初始音频信号相同的音频信号包括第一音频信号和第二音频信号;用于将第一音频信号进行频率初选的初选模块;用于对第二音频信号提取特征的特征模块;用于对特征模块提取的特征进行标准化的标准化模块;用于将标准化的特征和初选的频率进行加权得出初始音频信号的基频估算值基频模块。通过设置上述模块,将频率初选和提取特征分开同时进行,并通过加权的方式得到音频信号得到基频估算值。
11.us20110029306a1公开了一种音频信号识别装置及方法。使用多个可选阶段来处理一帧。通过使用至少一个特征参数将输入的音频信号识别为语音信号或非语音信号,并根据音频识别器的识别结果确定是否驱动与相应音频鉴别器相邻的音频鉴别器。该专利申请提出一些方案来提高识别器的准确度,或者节省时间或节省功耗。首先使用简单的特征确定器。如果特征确定器的结果是肯定的,则使用更复杂的特征确定器。如果简单的特征确定器肯定的结果概率很低,则该方案很有用。
12.us20180108345a1公开了一种用于音频信号帧处理的设备和方法。该专利申请对所有帧使用通用处理,而在需要的情况下对一些帧进行额外处理。针对一阶散射特征计算一阶散射特征是否包含用于精确音频信号识别的足够信息的估计。仅在一阶散射特征不包含用于准确音频信号识别的足够信息的情况下,才根据一阶散射特征计算二阶散射特征。us20180108345a1的方案与us20110029306a1是类似的。
13.然而还没有现有技术考虑到基于输入的音频信号对语音识别结果的精确度的影响程度来区分音频信号的重要性。如果能够根据音频信号对识别结果的重要性来对音频信号进行区分,并进而针对重要的音频信号进行更加全面和复杂的处理,而对不太重要的音频信号进行简化处理,这种方式可能在降低特征提取处理的计算量的情况下同时保证基于所提取的特征得到的识别结果的精确度。


技术实现要素:

14.为了实现上述目的,除了在现有技术中简化特征提取路径的方式之外,本公开的实施例提出基于估计的时间序列中的音频信号帧的显着性值来区分音频信号的重要性,接着根据音频信号的不同的重要性来动态的选择不同的特征提取过程来区别处理相应的音频信号以获得特征向量供识别引擎进行训练和语音识别。
15.根据本公开的第一方面,提供了一种处理音频信号的方法,包括:对输入的一时间段内的音频序列信号进行预处理,包括将该时间段内的音频序列信号划分为多个音频信号
帧;至少基于多个音频信号帧的显着性值,将所述多个音频信号帧至少分类为重要帧或非重要帧;使用高级别特征提取过程对每个重要帧中第一比例的音频信号执行特征提取;使用低级别特征提取过程对每个非重要帧中第二比例的采样音频信号执行特征提取, 其中第二比例小于第一比例且第二比例大于零;至少将从重要帧提取的特征和从非重要帧提取的特征进行匹配整合以为该时间段内的音频序列信号生成特征向量。
16.根据本公开的第二方面,一种音频信号处理系统,包括:预处理单元,将输入的一时间段内的音频序列信号划分为多个音频信号帧;显着性分类单元,至少基于多个音频信号帧的显着性值,将多个音频信号帧至少分类为重要帧或非重要帧;高级别特征提取单元,对每个重要帧中第一比例的音频信号执行特征提取;低级别特征提取单元,对每个非重要帧中第二比例的音频信号执行特征提取, 其中第二比例小于第一比例且第二比例大于零;特征整合单元,至少将从重要帧提取的特征和从非重要帧提取的特征进行匹配整合以为该时间段内的音频序列信号生成特征向量。
17.根据本公开的第三方面,提供了一种计算机可读存储介质, 其上存储有计算机程序,当该计算机程序在计算装置上运行时,使该计算装置执行本公开的根据处理音频信号的方法。
18.根据在下文中所描述的实施例,本公开的这些和其它方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。
附图说明
19.在下面结合附图对于示例性实施例的描述中,公开了本公开的更多细节、特征和优点,在附图中:图1示意性示出了根据本公开实施例的示例性的提取音频信号特征的系统100;图2示意性示出了根据本公开实施例的示例性的用于基于音频信号帧的重要性动态选择不同时频转换方法的基本流程图200;图3示意性示出了根据本公开实施例的示例性的用于基于音频信号帧的重要性动态选择不同时频转换方法的具体流程图300;图4示意性示出了根据本公开实施例的实例性的三种不同复杂级别的特征提取过程中的时频转换方法的框图400;图5示意性示出了根据本公开实施例的实例性在不同级别时频转换之后的进行特征匹配处理的两种方法;图6示意性示出了优化阈值估计方法的框图600;图7示意性示出了根据本公开的第一具体实施例的实例性的框图700;图7a示意性示出了根据本公开的第一具体实施例实现的从一段音频信号到时频特征频谱的转换;图7b示意性示出了根据本公开的第一具体实施例的实例性的高显着区域分析过程的流程图;图8示意性示出了根据本公开第二具体实施例的实例性的流程图800;图8a示意性示出了根据本公开第二具体实施例的方法得到的特征向量图;图9示出了根据本公开的第一具体实施例和第二具体实施例采用不同预设阈值获
得特征向量的计算复杂度和基于该特征向量得到的识别结果的精确度和的测试结果;图10示出了现有技术mfcc的功能模块;图11示意性示出了根据本公开实施例的计算设备1100的框图。
具体实施方式
20.在详细介绍本公开的实施例之前,首先对一些相关的概念进行解释。如前所述,本公开的一些实施例提出基于输入音频信号对语音识别结果的精确度的影响程度来区分音频信号的重要性,并根据音频信号的重要性动态地采取不同的处理方式来分别采用不同的处理过程来针对相应的音频信号进行特征提取。对于如何判断音频信号的重要性,本公开的实施例提出基于估计的音频信号帧的显着性值来估计音频信号的重要性。音频信号帧的显着性值的估计可以通过计算多种音频信号的特性来实现。例如,可以通过计算音频信号的幅度、功率、时域中的过零率、stft、小波、mfcc、信噪比等特性来估计每个音频信号帧的显着性值。
21.本公开的实施例提供了根据音频信号的重要性动态地采用不同的处理过程进行特征提取的方案,具体通过如下实施例进行说明。
22.图1示意性示出了根据本公开实施例的示例性的根据音频信号帧的重要性来动态提取音频信号特征的系统100,可以在该系统100中实施本文描述的各种方法。如图1所示,动态提取音频信号特征的系统100包括预处理单元101、重要性分类单元102、高级别特征提取单元103-1、低级别特征提取单元103-2,特征匹配单元104,显着性值估计单元106以及阈值估计单元107。系统100可选地还可以包括多个处理单元,例如log单元108、合并和差分处理单元109等。
23.图2示意性示出了根据本公开实施例的示例性的用于基于音频信号帧的重要性动态选择不同时频转换的基本方法的流程图200。
24.在步骤201处,对输入语音文件进行预处理,该语音文件包括一时间段的音频序列信号。对输入的音频序列信号的预处理可以包括噪声过滤、预加重、分帧、加窗、vad等。在这里分帧指的是将该时间段内的音频序列信号划分为多个音频信号子帧。根据需要,每个子帧的时长可以为20-40ms。每帧音频信号应该相对平稳,并且能够有足够的样本来进行评估。在一些实施例中,可以允许多个音频信号帧的各帧之间有所重叠。
25.在步骤202处,对预处理之后的音频信号进行显着区域分析。可以通过计算音频信号的幅度、功率、时域过零率、stft、小波、mfcc、信噪比等估计每个音频信号帧的显着性值。
26.在步骤203处,根据估计的一个或多个音频信号帧的显着性值来判断当前帧的重要性,并相应地动态选择不同级别的特征提取过程来对当前帧进行特征提取。例如,可以使用高级别的特征提取过程来对判断为属于重要帧的当前帧进行处理,而使用低级别的特征提取过程来对判断为属于非重要帧的当前帧进行处理。在一些实施例中,在高级别的特征提取过程中,可以在时频转换时,根据需要选取较高比例的音频信号进行fft处理,并相应地对较高比例的音频信号进行后续的特征提取。相应地,在低级别的特征提取过程中,选取较低比例的音频信号进行fft处理,并相应地对较低比例的音频信号进行后续特征提取。
27.在步骤204处,在对重要帧和非重要帧选用不同比例的音频信号进行时频转换之后,可以根据需要对频域信号采用多种不同的方法来对频域信号进行处理以得到特征向
量。由于特征提取,例如mfcc实质上是求频域信号的能量,对于相对简单的应用,可以直接基于频域信号幅值或者频域信号能量来获取特征向量。在另外的实施例中,可以根据不同应用的需要,选用如前所述的常规mfcc特征提取过程中fft模块1002 之后的一个或多个不同模块进行处理以后获取特征向量,例如,可以通过mel滤波器组得到mel频谱和/或用log模块取对数。此外,还可以根据需要加delta将一个时频特征向量变成多个特征向量,等等。
28.除了在步骤203处针对重要帧和非重要帧在时频转换时选取不同比例的音频信号进行fft处理之外,在一些实施例中,还可以在预处理步骤201以及时频转换后的步骤204处针对重要帧和非重要帧采用不同的处理。
29.在一个实施例中,在预处理步骤201,可以对重要帧和非重要帧采用不同的加窗处理。例如,对于在时频转换时选取较少比例音频信号进行处理的非重要帧,还选用与重要帧不同的,例如更短的窗函数进行加窗处理。由于加窗处理的目的是减少时频变换时的频谱能量泄露,采用更短的窗函数对非重要帧进行加窗处理能够更好地减少对非重要帧进行时频变换时的频谱能量泄露。在另一个实施例中,也可以对重要帧和非重要帧进行相同的加窗处理,即对重要帧和非重要帧用相同的窗函数,这样会相应地增加对非重要帧进行时频变换时的频谱能量泄露。
30.图3示出了根据本公开实施例的示例性的用于基于音频信号帧的重要性动态选择不同时频转换方法的具体流程图300。图3示出的实施例是在对输入的语音信号进行预处理之后,针对经分帧的多个音频信号帧进行的。
31.在步骤302处,对一个或多个音频信号帧的显着性值进行估计以评估当前帧的重要性。显着性值的判断可以基于时域特征,例如时域幅值、功率/能量、过零率、信噪比等;也可以基于频域特征,例如频域幅值、功率/能量、频带中的功率/能量、mfsc、mfcc结果等。在一个实施例中,可以在进行特征提取之前将图2中预处理201之后的音频信号帧的各帧的显着性值全部进行估计并存储估计的各帧的显着性值。因此在进行特征提取过程中可以随时提取任意一个或多个音频信号帧进行处理。
32.在步骤303处,对当前帧的重要性进行判断。可以使用输入的语音信号中不同的音频信号帧的特性来判断当前帧的重要性。例如,可以使用在步骤302估计的当前帧的显着性值来判断,可以使用前一个或多个音频信号帧的显着性值预测,也可以使用后续的一个或多个音频信号帧来判断。使用先前或后续的音频信号帧来判断当前帧的显着性级别可以消除因当前帧的功率/能量过小而可能错误判断当前帧的显着性级别的问题。在一个实例中,可以通过将当前帧的显着性值与一个或多个阈值的比较,先前一个或多个音频信号帧的显着性值与一个或多个阈值的比较或者后续一个或多个音频信号帧的显着性值与一个或多个阈值的比较来将当前帧至少分类为重要帧或非重要帧以在后续步骤进行不同的处理。
33.在步骤304、305处,对具有不同重要性的音频信号帧分别执行不同级别的时频特征提取过程。在一个实施例中,可以将当前帧分类为重要帧或非重要帧,对重要帧采用高级别的特征提取过程,对非重要帧采用低级别的特征提取过程。总的来说,高级别的特征提取过程可以获得更精确的特征向量,但过程更复杂,涉及的计算量更大。
34.图4示出了根据本公开实施例的实例性的三种不同复杂级别的特征提取过程中的时频转换方法400。在该实施例中,对基于当前、先前或后续的音频信号帧的显着性值的三个不同范围,在对当前帧进行fft变换时,分别采用三种不同级别的处理方式。对于具有最
高显着性值范围1的音频信号帧401,采用当前帧完整的帧信息进行fft处理,例如,对全部256个采样点进行fft处理。对于不同的应用,可以根据需要选用不同比例的采样点信息来对具有最高显着性值范围1的音频信号帧进行fft处理,例如可以选用全部采样点的1/2的信息至全部的信息进行fft处理。
35.对于具有中等显着性值范围2的音频信号帧402,可以选用当前帧1/2的帧信息,即选用128个采样点进行fft处理。对于不同的应用,可以根据需要对具有中等显着性值范围2的音频信号帧选用例如1/4至1/2的采样点信息进行fft处理。
36.对于低显着性值范围3的音频信号帧403,可以仅选用1/4的采样点,即64个采样点进行fft处理。由于fft处理需要占用很大的计算量,因此就计算复杂度而言,对64个采样点进行fft处理,比对256个点fft简单很多。对于低显着性值范围3的音频信号帧,例如可以选用1/8-1/4的采样点信息进行fft处理。在进行fft处理之后,可以对时频转换后得到的对应频谱继续进行例如mel滤波,倒谱分析等处理以获得特征向量。
37.本技术的发明人发现,基于获得的特征向量通过识别引擎的处理分析得到的识别结果的精确度并不是与处理的音频信号帧采样点的信号量或计算复杂度成正相关。也就是说,如果将音频信号所有音频信号帧都采用最高级别最复杂的方式来处理,基于由此获得的特征向量进行识别处理并不能得到具有最高精确度的识别结果。例如,如果将输入的语音信号的全部音频信号帧都采用每个帧完整的帧信息进行fft,并基于由此获得的特征向量得到的识别结果的精确度反而比基于图4所示的针对三种显着性范围401,402和403的音频信号帧分别选用1,1/2和1/4的采样点的信息进行fft获得的特征向量得到的识别结果的精确度低。其中的一个原因是可能由于具有低显着性范围的音频信号帧,也就是最不重要的帧包含的环境噪声相对更高,因此,处理较少比例的非重要帧的信息减少了引入获得的特征向量中的噪声的比例。发明人还发现,即使是具有最低显着性范围的音频信号帧,也就是最不重要的帧,在进行特征提取时也需要选取一定比例的采样点信号进行处理,而不能全部丢弃。如果将一部分被分类为不重要的帧全部丢弃不进行处理,与选取低比例的采样点进行处理获得的特征向量相比,也会降低最终得到的识别结果的精确度。本技术的发明人通过多次试验验证,采用本公开提出的根据音频信号帧的重要性选取不同比例的音频信息处理而获得的特征向量能够导致具有最高的精确度的识别结果。
38.接下来在步骤306处进行对时频变换后的特征进行匹配整合。由于在时频转换中使用了如前所述的不同级别的时频转换处理,因此不同级别时频转换处理之后获得的频域的信息量是不匹配的,例如图4的实施例中的三种不同级别的fft处理后输出的频率窗口(frequency bin)的数量是不同的。因此需要对获得的频域信息进行匹配处理。图5示出了根据本公开实施例的实例性在不同级别时频转换之后的两种特征匹配处理。一种方法是将具有更多频域信息的重要帧进行合并,把一些频段的信息合并到一起,使得经过处理后的重要帧的信息量与非重要帧的信息量保持相同。图5a示出了通过滤波器组将具有更多bin数的重要帧的一些频段的信息合并到一起,以便与具有较少bin数的非重要帧的频域信息数量保持一致。图5b示出的另一种方法是在具有较少bin数的非重要帧中进行插值,使得插值后的非重要帧的bin的数量与重要帧的bin的数量保持一致。例如,非重要帧的bin的数量为32,通过插值,可以达到与重要帧同样的128的bin的数量。
39.在步骤307处,在将采用不同级别的特征提取过程获得的信息进行匹配之后,就可
以生成输入的语音信号段的特征向量。
40.在步骤 308处为步骤303的帧的重要性判断确定一个和多个阈值估计。阈值的估计可以采用如图6所示的实验的方法来找到判断帧的重要性的最优阈值。例如,可以设置多个不同阈值601对语音识别的数学模型进行训练602,并将指示辨识能力的指标frr(false rejection rate)和far(false acceptance rate )分别作为纵坐标和横坐标来生成指示辨识精确度的曲线,并基于辨识精确度和计算复杂度的比较603,选择出最优阈值604。在这里frr指的是错误拒绝率,即应该辨识通过的却没通过的比率,而far指的是错误接受率,指的是应该不能通过辨识的却通过了的比率。
41.关于如何设定判断帧重要性的阈值,本技术的发明人发现,提取特征的计算复杂度与显着性阈值大致呈正相关关系,计算复杂度随显着性阈值增加而增加。然而,基于提取的特征得到的最终识别结果的精确度与在提取该特征过程所使用的显着性阈值并不一定一直呈现正相关关系。本技术的发明人发现,随着用于提取特征的显着性阈值的增加,基于提取的特征得到的识别结果的精确度会出现一个峰值,在出现该峰值后,随着用于提取特征的显着性阈值增加,基于提取的特征得到的识别结果的精确度反而会出现下降,因此,优化阈值是与基于提取的特征得到的识别结果的精确度的峰值对应的预设阈值来选取的。在后面的具体实施例中,给出了如何根据基于提取的特征得到的识别结果的精确度的峰值来选取优化阈值的试验结果。
42.以下提供了根据本公开发明理念的实例性的第一具体实施例。
43.该第一具体实施例是基于音频信号帧时域的功率/能量来区分重要帧和非重要帧。
44.图7示出了根据本公开第一具体实施例的实例性的流程图。该实施例基于帧功率的短时傅里叶变换stft,没有进行加窗和mel滤波器处理。在对输入的语音信号进行预处理701以及分帧702之后,估计每个音频信号帧的显着性值703。图7中进一步示出了进行分帧之后的第一帧和第二帧711,第一帧和第二帧之间可以包括重叠的部分。
45.在该实施例中,根据当前帧的显着性值将音频信号帧按重要性分成重要帧和非重要帧两个级别。在该实施例中,对于重要帧,使用高级特征提取过程700a来进行特征提取,在高级别特征提取过程中的fft处理步骤704a中,对该重要帧中的全部256采样点的信息进行fft处理,然后在步骤705a对fft转换后的结果求功率/能量,例如,通过基于频域信号幅值或者频域信号能量来求功率/能量。在步骤706a中,使用例如mel滤波器组的滤波器组进行滤波以将时域中256个采样点的信息转换成频域的32个特征信号。在步骤706a中,对每个等频带中的每个频率bin的功率取平均。而对于非重要帧,使用低级别特征提取过程700b来进行特征提取,在低级别特征提取过程中的fft处理步骤704b,只选用该非重要帧中1/4的采样信息,而丢弃非重要帧中其余的采样信息,也就是说选用64个采样点的信息进行fft处理,然后在步骤705b对fft转换后的结果求功率/能量,并同样得到频域的32个特征信号。然后在步骤707处对重要帧和非重要帧时频转换后的信息进行log处理。由于在后续进行语音识别时,需要用到多帧的信息,在步骤708处,需要将多帧的每帧的32个频域信息合并起来,例如将32帧的频域信息合并起来构成32特征信息

32帧的特征图710。在该实例性的特征图710中,横坐标表示的是时域,而纵坐标表示的是频域,时域的某个时间点具有对应的32个频域信号。其中的浅色部分主要由对每帧进行256采样点的fft处理的重要帧的32个频域
信号构成,而较深色的部分主要由对每帧进行64采样点的fft处理的非重要帧生成的32个频域信号构成。在步骤709处,加delta将一个时频特征向量变成多个特征向量。可以理解的是,在不同的应用中,在步骤704a和704b分别对重要帧和非重要帧进行时频转换之后,可以根据需要对频域信号进行多种不同的处理以得到时频特征向量。例如前面描述的在图2步骤204处进行的获取特征向量的各种不同方法。
46.图7a示意性示出了根据本公开的第一具体实施例实现的从一段音频信号到时频特征频谱的转换。图7a中清楚地示出了对音频信号中的重点帧和非重点帧分别使用高级别特征提取过程和低级别特征提取过程后,与得到的特征频谱的对应关系。
47.可选地,估计每个音频信号帧的显着性值703的步骤可以包括对高显着区域的分析过程,在该分析过程中,可以通过max滤波器来使用多个音频信号帧来进行重要性帧的判断。图7b示出了高显着区域的分析过程的流程图。图7b中的音频信号图7036示出了具有高显着区域和低显着区域的一段音频信号。在步骤7031处,计算多个时域帧的功率,在步骤7032处,使用max滤波器来对高显着区域中的低功率帧重新赋值。max滤波器的使用可以消除由于当前帧的能量过小而可能错误估计当前帧的重要性的情形。如图7b中的7035所示,有可能出现当前帧前后两帧幅值都很高,但当前帧幅值低的情况,这时候使用max滤波器能够将位于中间的当前帧参照前后的幅值重新赋值。在这种情况下,当前帧的幅值即使没有超过阈值,也不能视为非重要帧。经过max滤波之后,在步骤7033处,根据与阈值的比较来判断当前帧为重要帧还是非重要帧。
48.图8示出了根据本公开第二具体实施例的实例性的流程图800。
49.在该第二具体实施例是基于音频信号的频域特征来进行显着性分析以区分重要帧和非重要帧。在该实施例中,前一帧的特征被用于来判断当前帧的重要性。在步骤801和802处对输入的语音信号进行预加重和分帧处理之后,第一帧默认为非重要帧,在步骤804a处选用第一帧中采样点1/4的采样信息,即选用64个采样点的信息进行fft处理,然后在步骤805a处,对fft转换后的结果求功率/能量,并在步骤806处计算第一帧的低频功率。接着回到步骤803处,如果第一帧的低频功率/能量大于预设的阈值,就将下一帧判断为重要帧,然后在步骤804b处,对该帧中的全部256采样点的信息进行fft处理,接着在步骤805b对fft转换后的结果求功率/能量,并用滤波器组进行滤波,在步骤806处计算低频功率后在步骤807处对频域的音频信号能量谱取对数log得到每帧的频域特征信息,将每个帧的频域特征信息合并起来以构成特征向量图,以及在步骤808处对特征向量图进行一次或多次差分处理,并将该特征向量图以及差分处理的结果一并作为识别引擎的输入以进行后续处理。
50.在该实施例中,由于低频信息更重要,因此利用低频信息进行帧的重要性分析。此外由于利用频域中计算的前一帧的低频功率来判断当前帧的重要性,因此无需计算时域功率,这样进一步减少了计算量。图8a示出了根据本公开第二具体实施例的方法得到的特征向量图中的低频部分。
51.图9示出了根据本公开的第一具体实施例和第二具体实施例在采用不同显着性阈值获得特征向量的计算复杂度(complexity)和基于该特征向量得到的识别结果的精确度(accuracy)的测试结果。图a是根据第一具体实施例采用不同阈值获得特征向量的计算复杂度和基于该特征向量得到的识别结果的精确度的测试结果。这里使用了五个关键字(sheila,marvin,bird,dog,cat)进行测试。图b是根据第二具体实施例采用不同阈值获得
特征向量的计算复杂度和基于该特征向量得到的识别结果的精确度的测试结果。这里使用了五个关键字(1,2,3,4,5)进行测试。从图a和图b的测试结果可以看出,获得特征向量的计算复杂度与显着性阈值大致呈正相关关系,计算复杂度随显着性阈值增加而递增。然而,识别结果的的精确度与显着性阈值并不一定一直呈现正相关的关系。随着显着性阈值的增加,识别结果的精确度会出现一个峰值,在出现峰值后,显着性阈值增加,识别结果的精确度反而会出现下降。在图a的示例中,当显着性阈值设定为1e6时,识别结果的精确度达到峰值,因此可以将显着性阈值1e6设定为优选阈值。在图b的示例中,当显着性阈值设定为1e8时,识别结果的精确度达到峰值,因此可以将该显着性阈值1e8设定为优选阈值。
52.尽管本公开的两个实施例中的特征提取都是针对数字信号,在数字域中执行的,然而,特征提取也可以在模拟域中执行,例如模拟特征提取的传统方法是使用一组带通滤波器分解频域中的信号。本领域的技术人员能够理解,本公开基于的音频信号帧的显着性值来区分音频信号的重要程度,接着根据音频信号的不同的重要程度来动态的选择不同的特征提取的基本发明理念同样适用于模拟域的特征提取。
53.图11示意性示出了根据本公开实施例的计算设备1100的框图。该计算设备1100代表图1的动态提取音频信号特征的系统100所包括的预处理单元101、重要性分类单元102、高级别特征提取单元103-1、低级别特征提取单元103-2,特征匹配单元104,显着性值估计单元106以及阈值估计单元107。系统100可选地还可以包括多个处理单元,例如log单元108、合并和差分处理单元109一个或多个。
54.计算设备1100可以是各种不同类型的设备,例如服务器计算机、与客户端(例如,客户端设备)相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。
55.计算设备1100可以包括能够诸如通过系统总线1114或其他适当的方式连接彼此通信的至少一个处理器1102、存储器1104、(至少两个)通信接口1106、显示设备1108、其他输入/输出(i/o)设备1110以及一个或多个大容量存储装置1112。
56.处理器1102可以是单个处理单元或至少两个处理单元,所有处理单元可以包括单个或至少两个计算单元或者至少两个核。处理器1102可以被实施成一个或多个微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。除了其他能力之外,处理器1102可以被配置成获取并且执行存储在存储器1104、大容量存储装置1112或者其他计算机可读介质中的计算机可读指令,诸如操作系统1116的程序代码、应用程序1118的程序代码、其他程序1120的程序代码等,以实现本公开实施例提供的处理音频信号的方法。
57.存储器1104和大容量存储设备1112是用于存储指令的计算机存储介质的示例,这些指令由处理器1102执行来实施前面所描述的各种功能。举例来说,存储器1104一般可以包括易失性存储器和非易失性存储器二者(例如ram、rom等等)。此外,大容量存储设备1112一般可以包括硬盘驱动器、固态驱动器、可移除介质(包括外部和可移除驱动器)、存储器卡、闪存、软盘、光盘(例如cd、dvd)、存储阵列、网络存储、存储区域网等等。存储器1104和大容量存储设备1112在本文中都可以被统称为存储器或计算机存储介质,并且可以是能够把计算机可读、处理器可执行程序指令存储为计算机程序代码的非暂时性介质,这些计算机程序代码可以由处理器1102作为被配置成实施在本文的示例中所描述的操作和功能的特定机器来执行。
58.至少两个程序模块可以存储在大容量存储设备1112上。这些程序包括操作系统1116、一个或多个应用程序1118、其他程序1120和程序数据1122,并且它们可以被加载到存储器1104以供执行。这样的应用程序或程序模块的示例可以包括例如用于实现本公开各个处理单元的计算机程序逻辑(例如,计算机程序代码或指令)。
59.虽然在图11中被图示成存储在计算设备1100的存储器1104中,但是模块1116、1118、1120和1122或者其部分可以使用可由计算设备1100访问的任何形式的计算机可读介质来实施。如本文所使用的,“计算机可读介质”可以包括一种或多种类型的计算机可读介质,例如可以包括计算机存储介质和/或通信介质。
60.计算机存储介质包括通过用于存储信息的任何方法或技术实施的易失性和非易失性、可移除和不可移除介质,这样的信息诸如是计算机可读指令、数据结构、程序模块或者其他数据。计算机存储介质包括而不限于ram、rom、eeprom、闪存或其他存储器技术,cd-rom、数字通用盘(dvd)、或其他光学存储装置,磁盒、磁带、磁盘存储装置或其他磁性存储设备,或者可以被用来存储信息以供计算设备访问的任何其他非传送介质。
61.与此相对,通信介质可以在诸如载波或其他传送机制之类的已调数据信号中具体实现计算机可读指令、数据结构、程序模块或其他数据。本文所定义的计算机存储介质不包括通信介质。
62.计算设备1100还可以包括一个或更多通信接口1106,以用于诸如通过网络、直接连接等等与其他设备交换数据。通信接口1106可以促进在多种网络和协议类型内的通信,其中包括有线网络(例如lan、电缆等等)和无线网络(例如wlan、蜂窝、卫星等等)、因特网等等。通信接口1106还可以提供与诸如存储阵列、网络存储、存储区域网等等中的外部存储装置(未示出)的通信。
63.在一些示例中,可以包括诸如监视器之类的显示设备1108,以用于显示信息和图像。其他i/o设备1110可以是接收来自用户的各种输入并且向用户提供各种输出的设备,并且可以包括触摸输入设备、手势输入设备、摄影机、键盘、遥控器、鼠标、打印机、音频输入/输出设备等等。
64.本领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、功能单元、和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
65.通过研究附图、公开内容和所附的权利要求书,本领域技术人员在实践所要求保护的主题时,能够理解和实现对于所公开的实施例的变型。在权利要求书中,词语“a和/或b”是指a、b、或a和b,词语“包括”不排除其他元件或步骤,并且不定冠词“一”或“一个”不排除多个;词语“第一”、“第二”、“第三”、“第四”仅仅用于区分元件或步骤,并不表示元件或步骤的顺序。在相互不同的从属权利要求中记载了某些措施的仅有事实并不表明这些措施的组合不能用来获益。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1