特征矢量补偿设备和特征矢量补偿方法

文档序号:2837227阅读:311来源:国知局
专利名称:特征矢量补偿设备和特征矢量补偿方法
技术领域
本发明一般涉及语音处理技术,尤其涉及在背景噪声环境下的语音处理。
背景技术
在噪声环境下的语音识别中,由于学习时的噪声环境和识别时的噪声环境之间的差别,语音模型的失配将产生识别性能降低的问题。克服此问题的有效方法之一是在Li Deng,Alex Acero,Li Jiang,JashaDroppo和Xuedong Huang的“High-performance robust speechrecognition using stereo training data”(Proceedings of 2001International conference on Acoustics,Speech,and signal Processing,pp 301-304页)中推荐的用于环境的基于立体声的分段线性补偿(SPLICE)方法。
SPLICE方法预先根据一对干净语音数据和其中将噪声叠加在该干净语音数据上的有噪声语音数据获得补偿矢量,并通过使用该补偿矢量在语音识别时将特征矢量接近于干净语音的特征矢量。也可以将SPLICE方法视为噪声降低方法。
使用这样一种补偿处理,据报告即使在训练条件和识别条件之间失配的情况下也可以实现很高的识别率。
然而,因为常规的SPLICE方法在短至10至20毫秒的每帧内执行噪声环境选择,即使当同一环境持续某一时间段时也可能为每帧选择不同的环境,导致识别性能降低。
此外,常规的SPLICE方法仅为逐帧地从多个预先设计的噪声环境中选择的单个噪声环境补偿特征矢量,预先设计的噪声环境并不必然匹配语音识别时的噪声环境。因而,因为声音模型的失配可能导致识别性能降低。

发明内容
根据本发明的一个方面,一种在背景噪声环境下补偿语音处理中使用的语音的特征矢量的特征矢量补偿设备,包括第一存储单元,在其中存储用于针对多个噪声环境的每个噪声环境补偿语音的特征矢量的补偿矢量;特征提取单元,在输入语音的多个帧中的每个帧中提取语音的特征矢量;估计单元,根据特征矢量序列和相似性程度估计噪声环境序列,所述噪声环境序列是生成作为针对多个帧的一系列多个提取的特征矢量的特征矢量序列的一系列多个噪声环境,所述相似性程度表示在当前帧以及当前帧的紧前一帧和紧后一帧中至少一个的每一个中在噪声环境下生成特征矢量的确定性;计算单元,根据在第一存储单元内存在的补偿矢量,获得与在估计的噪声环境序列中的每个噪声环境对应的补偿矢量;和补偿单元,根据获得的补偿矢量补偿语音的提取的特征矢量。
根据本发明的另一个方面,一种在背景噪声环境下补偿语音处理中使用的语音特征矢量的方法,该方法包括在输入语音的多个帧的每个帧中提取语音的特征矢量;根据特征矢量序列和相似性程度估计噪声环境序列,所述噪声环境序列是生成作为针对多个帧的一系列多个提取的特征矢量的特征矢量序列的一系列多个噪声环境,所述相似性程度表示在当前帧以及当前帧的紧前一帧和紧后一帧中至少一个的每一个中在噪声环境下生成特征矢量的确定性;根据先前计算的补偿矢量,获得与在估计的噪声环境序列中的每个噪声环境对应的补偿矢量;和根据获得的补偿矢量补偿语音的提取的特征矢量。


图1是根据本发明第一实施例的特征矢量补偿设备的功能方框图;图2是用于解释噪声环境的示意图;
图3是用于解释噪声环境序列估计和补偿矢量的例子的示意图;图4是根据第一实施例的特征矢量补偿处理的流程图;图5是根据本发明第二实施例的特征矢量补偿处理的流程图;图6是根据本发明第三实施例的特征矢量补偿处理的流程图;和图7是用于解释根据第一至第三实施例的特征矢量补偿设备的硬件配置的示意图。
具体实施例方式
下面将参考附图详细解释根据本发明的示例性实施例。
图1是根据本发明第一实施例的特征矢量补偿设备100的功能方框图。该特征矢量补偿设备100包括噪声环境存储单元120、输入接收单元101、特征矢量提取单元102、噪声环境序列估计单元103、补偿矢量计算单元104、特征矢量补偿单元105和噪声环境HMM存储单元130。
噪声环境存储单元120在其中存储在通过GMM模型化多个噪声环境时的高斯混合模型(GMM)参数和作为用于对应于每个噪声环境的特征矢量的补偿矢量预先计算的补偿矢量。使用等式(5)和(6)计算在噪声环境存储单元120内存在的补偿矢量。
在第一实施例中,假设预先计算包括噪声环境1的参数121、噪声环境2的参数122和噪声环境3的参数123的三个噪声环境的参数,并存储在噪声环境存储单元120内。噪声环境的个数并不限制于三个,换句话说,可以采用任意期望数量的噪声环境作为参考数据。
可以使用诸如硬盘驱动器(HDD)、光盘、存储卡和随机访问存储器(RAM)等通常使用的任意记录介质配置噪声环境存储单元120。
输入接收单元101将来自诸如麦克风等输入单元(未图示)的语音输入转换成电信号(语音数据),根据诸如脉码调制(PCM)对语音数据执行模数(A/D)转换以将模拟数据转换成数字数据,并输出数字语音数据。由输入接收单元101执行的处理可以根据常规技术通过使用与语音信号数字处理相同的方法来实现。
特征矢量提取单元102将从输入接收单元101接收的语音数据划分成分别具有预定帧长度的多个帧,和提取用于每个所划分帧的语音的特征矢量。帧长度可以是10毫秒至20毫秒。根据第一实施例,特征矢量提取单元102提取用于每一帧的语音特征矢量,其中包括Mel频率倒谱系数(MFCC)的静态、Δ和ΔΔ参数。
换句话说,特征矢量提取单元102通过使用对Mel-标度滤波器组分析的输出的功率进行离散余弦变换的方法,计算总共39维特征矢量(包括13维MFCC和MFCC的Δ和ΔΔ)作为用于每个划分帧的特征矢量,并输出为相应帧计算的多个特征矢量的时间序列作为特征矢量序列。
特征矢量并不限制于上述一个特征矢量。换句话说,可以使用任意参数作为特征矢量,只要它表示输入语音的特征。
噪声环境序列估计单元103采用由特征矢量提取单元102提取的特征矢量序列和在噪声环境HMM存储单元130内存在的噪声环境隐性马尔可夫模型(HMM)作为输入,根据表示在每个噪声环境1至3下生成每个特征矢量的确定性的用于每个噪声环境1至3的相似性程度和在噪声环境1至3之间的状态转移概率,估计作为一系列噪声环境1至3的噪声环境序列(其生成在特征矢量序列内的每个特征矢量)。
噪声环境HMM存储单元130是诸如HDD、光盘、存储卡和RAM等记录介质,它在其上存储作为通过模型化噪声环境获得的隐性马尔可夫模型的噪声环境HMM。
噪声环境HMM保持每个噪声环境1至3作为状态,并通过模型化作为每个噪声环境1至3的特征矢量的概率模型的GMM的参数和在执行噪声环境1至3之间的转移时的状态转移概率而获得。根据第一实施例,使用其中每个状态能够执行噪声环境1至3之间自由转移的各态历经HMM作为噪声环境HMM,且每个状态对应于噪声环境之一。
每个状态包括表示特征矢量的事件概率的GMM的参数,其为在每个噪声环境下监视的语音信号的特征矢量概率模型,并通过采用状态转移概率作为单元的状态转移矩阵模型化状态之间的转移。图2是用于解释噪声环境HMM的示意图。在噪声环境HMM中,将噪声环境1至3的每个状态设置为状态1至3,并将执行状态之间转移的状态转移概率定义为Pij。状态转移概率Pij表示执行从状态i到状态j的转移的状态转移概率。例如,P12是执行从状态1至状态2的转移的概率,和P11是停留在状态1中的概率。
在补偿特征矢量的处理之前,通过准备为每帧授予噪声环境1至3的类型标签(lable)的特征矢量作为学习数据,使用现在在语音识别技术领域中公知的前向-后向算法和期望值最大化(EM)算法,学习并确定GMM的参数(平均矢量μ和协方差矩阵∑)和状态转移矩阵。换句话说,通过使用HMM学习工具,作为语音识别领域内的标准的“隐性马尔可夫模型工具包(HTK)”,可以获得噪声环境HMM。
随着噪声环境HMM的状态转移推测地输出所监视的特征矢量序列。噪声环境序列估计单元103从通过使用维特比算法可输出输入特征矢量序列的噪声环境HMM的状态序列之中获取最大化特征矢量序列的事件概率的状态序列,并获取最大化特征矢量序列的事件概率的状态序列(即,每个均对应于一状态的噪声环境序列)作为噪声环境序列。
例如,当如图3所示将输入语音划分成20帧时,噪声环境序列估计单元103通过将状态转移概率乘以在特征矢量序列内每个特征序列帧相对于使用状态1至3的20帧所有组合的状态序列的相似性程度来获得特征矢量序列的事件概率,并估计与状态序列对应的噪声环境序列,其中将事件概率最大化为噪声环境序列。在图3所示的例子中,估计噪声环境1→噪声环境1→噪声环境3→噪声环境2→…→噪声环境2的噪声环境序列。
以这种方式,在噪声环境序列估计单元103中,噪声环境HMM的每个状态对应于噪声环境之一,并且当通过维特比算法估计噪声环境时,为每帧考虑噪声环境HMM的状态概率和状态转移概率。
换句话说,除了当前帧的相似性程度之外,在很多帧中,通过考虑包括紧前一帧(在下文中,“上一帧”)的先前多帧和包括紧后一帧(在下文中,“下一帧”)的随后多帧的属性程度,噪声环境序列估计单元103使用噪声环境HMM的状态概率和状态转移概率估计就概率而言最可能的噪声环境序列,而不是仅通过为每帧计算噪声环境的相似性程度从每帧的相似性程度获取特征矢量的噪声环境。
如下计算与每个噪声环境1至3对应的一帧语音的相似性程度。当由特征矢量提取单元102提取的特征矢量是yt,噪声环境模型是e,如等式1,将相似性程度计算为噪声环境e在时间t相对于特征矢量yt的可能性p(e|yt)p(e|yt)=p(yt|e)p(e)p(yt)---(1)]]>其中p(yt|e)是在噪声环境e内出现的特征矢量yt的概率,p(e)和p(yt)分别是噪声环境e和特征矢量yt的事件的频率。
当假设p(yt)独立于噪声环境,且每个噪声环境的事件的概率相同时,可以使用等式(2)计算可能性p(e|yt)p(e|yt)=αp(yt|e) (2)其中分别使用等式(3)和(4)计算p(yt|e)和αp(yt|e)=ΣsN(yt;μse,Σse)p(s)---(3)]]> 其中N是高斯分布,p(s)是GMM每个分量的先验概率,特征矢量yt用GMM来模拟。可通过使用EM算法计算GMM的参数、平均矢量μ和协方差矩阵∑。
通过从在噪声环境内收集的语音数据计算大量特征矢量,并将所计算的特征矢量作为学习数据使用作为语音识别的标准HMM学习工具的HTK,可以获得GMM的参数。
补偿矢量计算单元104从噪声环境存储单元120选择性地获取与由噪声环境序列估计单元103估计的噪声环境序列内的每个噪声环境(即为每帧估计的每个噪声环境)相对应的补偿矢量。
通过与常规SPLICE方法相同的方法可以计算在每个噪声环境e内的补偿矢量rs。通过准备多组(xn,yn),其中n是正整数,xn是未添加噪声的干净语音数据的特征矢量,yn是在每个噪声环境内添加噪声的有噪声语音数据的特征矢量;可以使用等式(5)计算补偿矢量rSe,其中省略了表示噪声环境的上标“e”rs=Σnp(s|yn)(xn-yn)Σnp(s|yn)---(5)]]>其中使用等式(6)计算p(s|yn)p(s|yn)=p(yn|s)p(s)Σsp(yn|s)p(s)---(6)]]>以上述方式预先计算GMM参数和补偿矢量并存储在噪声环境存储单元120内。因此,补偿矢量计算单元104获取与在噪声环境存储单元120内存在的噪声环境1至3之中为每帧估计的噪声环境对应的补偿矢量rei。在图3所示的例子中,获取分别与每帧内的噪声环境序列“噪声环境1→噪声环境1→噪声环境3→噪声环境2→…→噪声环境2”内的每个噪声环境对应的补偿矢量1,补偿矢量1,补偿矢量3,补偿矢量2,…,补偿矢量2。使用GMM参数、每个噪声环境的补偿矢量和每帧的特征矢量y利用等式(8)计算补偿矢量rei。
通过使用由补偿矢量计算单元104获得的补偿矢量,特征矢量补偿单元105补偿输入语音的特征矢量。通过将补偿矢量添加给特征矢量,特征矢量补偿单元105补偿特征矢量。
图4是根据第一实施例的特征矢量补偿处理的流程图。
首先,输入接收单元101接收用户发出的语音输入(步骤S11)。随后,由输入接收单元101将该输入语音转换成数字语音信号。
特征矢量提取单元102将语音信号划分成预定帧长度,例如10毫秒,提取每帧的特征矢量,并将所提取帧的一系列特征矢量设置为特征矢量序列(步骤S12)。特征矢量提取单元102通过如上文所述地计算MFCC的特征矢量yt来提取特征矢量。
噪声环境序列估计单元103根据在噪声环境HMM存储单元130内存在的噪声环境HMM和由特征矢量提取单元102获得的特征矢量序列估计噪声环境序列(步骤S13)。如上文所述,除了当前帧的相似性程度之外,在多帧之中,使用维特比算法,考虑包括上一帧的先前帧和包括下一帧的随后帧的属性的程度,通过使用噪声环境HMM的状态概率和状态转移概率,估计就概率而言最可能的噪声环境序列。
随后,由补偿矢量计算单元104从噪声环境存储单元120获取由噪声环境序列估计单元103估计的用于噪声环境序列内每个噪声环境的补偿矢量(步骤14)。最后,通过将由补偿矢量计算单元104获取的补偿矢量添加给特征矢量,特征矢量补偿单元105执行特征矢量补偿(步骤S15)。
因而,根据第一实施例,选定的噪声环境对于每帧没有突然改变,这使得特征矢量补偿设备100能够执行接近于实际噪声环境改变的平滑选择。因此,减轻了在选择噪声环境时的错误,并能够以很高的精确度获取语音的特征矢量。
此外,当将特征矢量补偿设备100应用于语音识别处理时,即使在执行语音识别时的噪声环境并不匹配设计时的噪声环境,也能够计算高精确度的特征矢量,这使得能够实现很高的语音识别性能。
在特征矢量补偿单元100中,通过使用从噪声环境存储单元120获得的与所估计噪声环境序列内的每个噪声环境对应的补偿矢量,补偿特征矢量。相反地,根据本发明第二实施例的特征矢量补偿设备通过执行多个噪声环境的补偿矢量的加权相加来计算补偿矢量。
根据第二实施例的特征矢量补偿设备的结构与图1所示的根据第一实施例的特征矢量补偿设备相同。在根据第二实施例的特征矢量补偿设备内,补偿矢量计算单元104的功能不同于第一实施例,而其它单元具有与第一实施例相同的功能。
通过从噪声环境存储单元120获取每个噪声环境的补偿矢量rei,和通过将加权矢量p(i)添加给每个补偿矢量rei执行所获取补偿矢量rei的加权相加,根据第二实施例的补偿矢量计算单元104计算与输入语音对应的特征矢量的补偿矢量r。
换句话说,补偿矢量计算单元104根据前向概率和后向概率为多帧中的每帧计算噪声环境HMM的每个状态的占有概率p(i),和执行每个噪声环境的补偿矢量rei与每个状态的占有概率p(i)的加权相加,从而获得补偿矢量r,其中r是表示噪声环境相应编号i(i=1,2,3)的正整数。使用等式(7)计算补偿矢量rr=Σip(i)rei---(7)]]>其中使用等式(8)计算reirei=Σsp(s|y)rsei---(7)]]>图5是根据本发明第二实施例的特征矢量补偿处理的流程图。
以与第一实施例相同的方式执行从接收用户的语音输入到噪声环境序列估计的处理(步骤S21至S23)。
在步骤S23估计噪声环境序列之后,补偿矢量计算单元104计算噪声环境HMM的每个状态的占有概率p(i),并通过使用占有概率p(i)作为加权系数对每个噪声环境执行在噪声环境存储单元120内存在的补偿矢量rse的加权相加,计算用于输入语音的特征矢量的补偿矢量rt(步骤S24)。最后,以与第一实施例相同的方式,特征矢量补偿单元105通过将由补偿矢量计算单元104获得的补偿矢量添加给特征矢量来补偿该特征矢量(步骤S25)。
以这种方式,在根据第二实施例的特征矢量补偿设备内,能够以更高的精确度补偿特征矢量,这使得能够即使当执行语音识别时的噪声环境并不匹配进行设计时的噪声环境时也能够实现很高的语音识别性能。
在根据第一实施例的特征矢量补偿设备内,为输入语音的多帧估计噪声环境序列。相反地,在根据本发明第三实施例的特征矢量补偿设备内,顺序地为每个单帧估计噪声环境序列。
根据第三实施例的特征矢量补偿设备的结构与图1所示的根据第一实施例的特征矢量补偿设备相同。在根据第三实施例的特征矢量补偿设备内,噪声环境序列估计单元103的功能与第一实施例不同,而其它单元具有与第一实施例相同的功能。
根据第三实施例的噪声环境序列估计单元103根据第一输入帧t至当前帧t+a(其中a是正整数)的多帧的特征矢量序列和噪声环境HMM为每个单帧估计噪声环境序列。换句话说,基于与第一实施例相同的方法,通过使用维特比算法相对于从第一输入帧t至当前帧t+a的特征矢量序列来获得每帧的噪声环境。
图6是根据第三实施例的特征矢量补偿处理的流程图。
首先,以与第一实施例相同的方式,输入接收单元101接收用户发出的语音输入(步骤S31)。特征矢量提取单元102通过将在预定时间内接收到的语音视为一帧来获得用于每帧的特征矢量序列(步骤S32)。
噪声环境序列估计单元103为从第一输入帧t到当前帧t+a的多帧从在噪声环境HMM存储单元130内存在的噪声环境HMM和由特征矢量提取单元102获得的特征矢量序列估计用于每个单帧的噪声环境序列(步骤S33)。随后,为输入语音的所有帧重复地执行步骤S32和S33(步骤S34)。随后,以与第一实施例相同的方式,由补偿矢量计算单元104从噪声环境存储单元120获得用于由噪声环境序列估计单元103估计的噪声环境序列内的每个噪声环境的补偿矢量(步骤S35)。最后,特征矢量补偿单元105通过将由补偿矢量计算单元104获得的补偿矢量添加给特征矢量执行特征矢量的补偿(步骤S36)。
以这种方式,在根据第三实施例的特征矢量补偿设备中,能够以更高的精确度以稳定的方式补偿特征矢量,这使得能够实现很高的语音识别性能。此外,还可以将在特征矢量输入和补偿特征矢量输出之间的延迟抑制得低于恒定水平。
此外,在如在根据第二实施例的特征矢量补偿设备内使用加权添加来获得补偿矢量时,可以为从第一输入帧t至当前帧t+a的多帧计算占有概率p(i)。在这种情况下,为从第一输入帧t到当前帧t+a的多帧获取前向概率和后向概率,从而计算出每个状态的占有概率p(i)。
图7是用于解释根据第一至第三实施例中任一实施例的特征矢量补偿设备的硬件结构的示意图。
特征矢量补偿设备包括诸如中央处理单元(CPU)51的控制设备、诸如只读存储器(ROM)52和随机访问存储器(RAM)53的存储设备、用于执行经网络通信的通信接口(I/F)54和连接上述组件的总线61。
由诸如在其中预先安装的ROM 52等存储设备提供在特征矢量补偿设备内执行的计算机程序(在下文中“特征矢量补偿程序”)。
相反地,通过将其存储为在诸如光盘只读存储器(CD-ROM)、软盘(FD)、可记录光盘(CD-R)和数字通用盘(DVD)等计算机可读记录介质内的可安装格式或可执行格式的文件,能够提供特征矢量补偿程序。
作为另一种替代方式,可以将特征矢量补偿程序存储在连接到诸如因特网等网络的计算机内,从而可通过网络下载程序。如又一种替代方式,可以通过诸如因特网等网络提供或分配特征矢量补偿程序。
将特征矢量补偿程序配置为包括上述功能单元(输入接收单元、特征矢量提取单元、噪声环境序列估计单元、补偿矢量计算单元和特征矢量补偿单元)的模块结构。因此,作为实际的硬件,CPU 51从ROM 52中读出特征矢量补偿程序以执行该程序,从而将上述功能单元装载到计算机的主存储器上,并和在主存储器上建立。
如上所述,根据本发明实施例的特征矢量补偿设备、特征矢量补偿方法和特征矢量补偿程序适合于执行使用语音特征矢量的语音识别和讲话者(speaker)验证。
其它的优点和修改对于本领域的技术人员来说将是显而易见的。因此,在其较宽方面的发明并不限制于在此图示和描述的具体细节和代表性实施例。因此,在不脱离由权利要求书及其等同物定义的普通创造性概念的精神或范围的情况下,可以进行各种修改。
权利要求
1.一种在背景噪声环境下补偿语音处理中使用的语音的特征矢量的特征矢量补偿设备,包括第一存储单元,在其中存储用于针对多个噪声环境的每个噪声环境补偿语音的特征矢量的补偿矢量;特征提取单元,在输入语音的多个帧中的每个帧中提取语音的特征矢量;估计单元,根据特征矢量序列和相似性程度估计噪声环境序列,所述特征矢量序列是各帧的一系列多个提取的特征矢量,所述相似性程度表示在当前帧以及当前帧的紧前一帧和紧后一帧中至少一个的每一个中在噪声环境下生成特征矢量的确定性;计算单元,根据在第一存储单元内存在的补偿矢量,获得与在估计的噪声环境序列中的每个噪声环境对应的补偿矢量;和补偿单元,根据获得的补偿矢量补偿语音的提取的特征矢量。
2.根据权利要求1的设备,还包括第二存储单元,保存每个噪声环境作为状态,并在其中存储通过模型化高斯混合模型的参数和状态之间的状态转移概率获得的噪声环境隐性马尔可夫模型,所述高斯混合模型是在每个噪声环境中的特征矢量的概率模型,其中估计单元根据特征矢量序列和噪声环境隐性马尔可夫模型估计噪声环境序列。
3.根据权利要求1的设备,其中提取单元将输入语音划分成多个帧,并提取每个帧中语音的特征矢量;和估计单元根据各帧的特征矢量序列和各帧中特征矢量的相似性程度估计噪声环境序列。
4.根据权利要求2的设备,其中计算单元从在第一存储单元中存在的补偿矢量获得第一补偿矢量,并通过以从噪声环境隐性马尔可夫模型获得的每个状态的占用概率作为加权系数,对获得的第一补偿矢量执行加权相加来计算第二补偿矢量;和补偿单元根据第二补偿矢量补偿语音的提取的特征矢量。
5.根据权利要求1的设备,其中估计单元根据从预定帧到当前帧的多个帧的特征矢量序列和从预定帧到当前帧的多个帧中特征矢量的相似性程度,顺序地估计噪声环境序列。
6.根据权利要求1的设备,其中补偿单元通过执行补偿矢量与特征矢量的相加,补偿提取的语音的特征矢量。
7.根据权利要求1的设备,其中第一存储单元为每个噪声环境存储从作为在噪声环境下的语音的有噪声语音和作为在无噪声环境下的语音的干净语音计算的补偿矢量。
8.根据权利要求1的设备,其中提取单元提取输入语音的Mel频率倒谱系数作为特征矢量。
9.一种在背景噪声环境下补偿语音处理中使用的语音的特征矢量的方法,该方法包括在输入语音的多个帧的每个帧中提取语音的特征矢量;根据特征矢量序列和相似性程度估计噪声环境序列,所述特征矢量序列是各帧的一系列多个提取的特征矢量,所述相似性程度表示在当前帧以及当前帧的紧前一帧和紧后一帧中至少一个的每一个中在噪声环境下生成特征矢量的确定性;根据先前计算的补偿矢量,获得与在估计的噪声环境序列中的每个噪声环境对应的补偿矢量;和根据获得的补偿矢量补偿语音的提取的特征矢量。
全文摘要
噪声环境存储单元,在其中存储用于补偿语音的特征矢量的补偿矢量。特征提取单元,在多个帧中的每个帧中提取语音的特征矢量。噪声环境序列估计单元,根据特征矢量序列和相似性程度估计噪声环境序列。计算单元,根据在噪声环境存储单元内存在的补偿矢量获得与在估计的噪声环境序列内的每个噪声环境对应的补偿矢量。补偿单元根据所获得的补偿矢量补偿语音的所提取特征矢量。
文档编号G10L15/14GK101051462SQ20071009147
公开日2007年10月10日 申请日期2007年3月30日 优先权日2006年4月7日
发明者赤岭政巳, 益子贵史, 丹尼尔·巴雷达, 雷姆科·特尤南 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1