标准模型制作装置和标准模型制作方法

文档序号:6422471阅读:198来源:国知局
专利名称:标准模型制作装置和标准模型制作方法
技术领域
本发明涉及一种标准模型的制作装置及其方法,用于基于隐马尔科夫模型、贝叶斯逻辑、线性判断等概率模型的声音识别、字符识别、图像识别等模式识别、基于贝叶斯网络等概率模型的意图理解(意图的识别)、基于概率模型的数据采集(数据特性的识别)、基于概率模型的人物检测、指纹认证、面部认证、虹彩认证(识别对象,判断是否是特定对象)、股票预测、天气预测等预测(识别状况后进行判断)、多个说话者语音的合成、多个面部图像等的合成(人有趣地识别合成后的模型)等。
背景技术
近年来,随着因特网等的普及,推进了网络的大容量化、通信成本的低价格化。因此,通过利用网络,可收集大量的识别用模型(参照模型)。例如,就语音识别而言,可利用因特网来下载由各种各样的研究机构发布的众多的语音识别用模型(儿童用模型、成人用模型、老年人用模型、汽车内用模型、便携式电话机用模型等)。另外,利用基于网络的设备之间的联系,可将由汽车导航系统等利用的语音识别用模型下载到电视机或电脑等中。另外,就意图理解而言,可通过网络来收集学习了各地的各种各样人的经验的识别用模型。
另外,随着识别技术的发展,识别用模型可被用于电脑、电视机的摇控器、便携式电话机、汽车导航系统等CPU功率、存储器量等规格各不相同的大量设备中。另外,可用于安全系统等要求识别精度的应用程序、或如电视机的摇控器操作等要求输出识别结果之前的时间短的应用程序等要求规格各不相同的众多应用程序中。
另外,可在识别对象不同的很多环境下利用识别技术。例如,就语音识别而言,用于识别儿童的声音、成人的声音、老年人的声音、或者识别汽车内的声音、便携式电话机的声音等多种环境下。
鉴于这些社会环境的变化,认为通过有效活用大量的识别用模型(参照模型),能够在短时间内制作适合于设备或应用程序的规格、利用环境的高精度识别用模型(标准模型),提供给利用者。
在语音识别等模式识别领域中,使用概率模型来作为识别用的标准模型之方法近年来备受关注,尤其是广泛应用了隐马尔科夫模型(下面称为HMM)或混合高斯分布模型(下面称为GMM)。另外,就意图理解而言,使用概率模型来作为表示意图、知识、嗜好等的标准模型之方法近年来备受关注,尤其是广泛应用着贝叶斯网络等。另外,在数据采集领域,为了分类数据而使用概率模型来作为各分类的代表模型之方法近年来备受关注,广泛应用着GMM等。另外,在语音识别、指纹认证、面部认证、彩虹认证等认证领域,使用概率模型来作为认证用的标准模型之方法备受关注,应用着GMM等。作为由HMM表现的标准模型的学习算法,广泛使用着鲍姆-韦尔奇(Baum-Welch)的再推定方法,(例如参照今井圣著,“语音识别”,pp.150-152,日本共立出版株式会社,1995年11月25日发行)。另外,作为由GMM表现的标准模型的学习算法,广泛使用着EM(Expectation-Maximization)算法(例如参照古井贞▲ひろ等著,“语音信息处理”,pp.100-104,森北出版株式会社,1998年6月30日发行)。在EM算法中,将在(式1)Σm=1Mfωf(m)f(x;μf(m),σf(m)2)]]>其中,(式2)f(x;μf(m),σf(m)2)--(m=1,2,...,Mf)]]>表示高斯分布,(式3)
x=(x(1),x(2),...,x(J))∈RJ表示J(≥1)维的输入数据)中作为统计量的混合加权系数(式4)ωf(m)(m=1,2,...,Mf),J(≥1)维的平均值(式5)μf(m)=(μf(m,1),μf(m,2),...,μf(m,J))∈RJ(m=1,2,...,Mf,j=1,2,...,J)和J(≥1)维的方差值(共分散矩阵的J个对角分量)(式6)σf(m)2=(σf(m,1)2,σf(m,2)2,...,σf(m,J)2)∈RJ]]>(m=1,2,...,Mf,j=1,2,...,J),用(式7)x[i]=(x(1)[i],x(2)[i],...,x(J)[i])∈RJ(i=1,2,...,N)使与学习数据对应的似然(式8)logP=Σi=1Nlog[Σm=1Mfωf(m)f(x[i];μf(m),σf(m)2)]]]>最大化或极大化,
利用(式9)ωf(m)=Σi=1Nγ(x[i],m)Σk=1MfΣi=1Nγ(x[i],k)]]>(m=1,2,...,Mf)(式10)μf(m,j)=Σi=1Nγ(x[i],m)x(j)Σi=1Nγ(x[i],m)]]>(m=1,2,...,Mf,j=1,2,...,J)(式11)σf(m,j)2=Σi=1Nγ(x[i],m)(x(j)-μf(m,j))2Σi=1Nγ(x[i],m)]]>(m=1,2,...,Mf,j=1,2,...,J)(其中,(式12)是γ(x[i],m)=ωf(m)f(x[i];μf(m),σf(m)2)Σk=1Mfωf(k)f(x[i];μf(k),σf(k)2)--(m=1,2,...,Mf)]]>)重复计算1次上以上,进行学习。
另外,还提出了贝叶斯推定法(例如参照繁桝算男著,“贝叶斯统计入门”,pp.42-53,东京大学出版社,1985年4月30日发行)等方法。鲍姆-韦尔奇的再推定方法、EM算法、贝叶斯推定法等任一个学习算法都计算标准模型的参数(统计量)来制作标准模型,以便最大化或极大化学习数据的概率(似然)。在这些学习方法中,实现了使概率(似然)最大化或极大化的数学上的最佳化。
在将上述学习方法用于语音识别的标准模型的制作中的情况下,为了对应各种各样说话者或噪声等的声音特征量的变动,期望用多个声音数据来学习标准模型。另外,在用于意图理解的情况下,为了对应多种说话者或状况等的变动,期望用多个数据来学习标准模型。另外,在用于彩虹认证的情况下,为了对应太阳光、摄像机位置、旋转等的变动,期望用多个彩虹图像数据来学习标准模型。但是,在处理这种大量数据的情况下,因为学习花费很多时间,所以不能在短时间内向利用者提供标准模型。另外,用于存储大量数据的成本变得很大。另外,在利用网络收集数据的情况下,通信成本变得很大。
另一方面,提出了通过合成多个模型(下面,将为了制作标准模型而作为参照用来准备的模型称为‘参照模型’)来制作标准模型的方法。参照模型是用概率分布的总体参数(平均、分散等)来表现多个学习数据的概率分布模型,用少数的参数(总体参数)来集约多个学习数据的特征。以下所示的现有技术中,模型用高斯分布来表现。
在第1现有方法中,参照模型由GMM表现,通过加权来合成多个参照模型的GMM,制作标准模型(例如特开平4-125599号公报中公开的技术)。
另外,在第2现有方法中,是在第1现有方式基础上,还通过对学习数据的概率(似然)进行最大化或极大化,学习被线性结合的混合加权,由此来制作标准模型(例如特开平10-268893号公报中公开的技术)。
另外,在第3现有方法中,通过用参照模型的平均值线性结合来表现标准模型的平均值,最大化或极大化对输入数据的概率(似然),学习线性结合系数,由此制作标准模型。这里,使用特定说话者的语音数据作为学习数据,使用标准模型作为语音识别用的说话者适应模型(例如M.J.F.Gales,”ClusterAdaptive Training For Speech Recognition”,1998年,ICSLP98予稿集,pp.1783-1786)。
另外,在第4现有方法中,用单一高斯分布来表现参照模型,在合成多个参照模型的高斯分布中,通过群集(clustering)来统一属于同一类的高斯分布,制作标准模型(例如特开平9-81178号公报中公开的技术)。
另外,在第5现有方法中,多个参照模型由同数量的混合数之混合高斯分布来表现,向各高斯分布赋予一对一对应的连续序号。通过合成具有同一连续序号的高斯分布,制作标准模型。合成的多个参照模型是由音响上接近利用者的说话者制作的模型,制作的标准模型是说话者适应模型(例如,芳泽等6人,“使用充分统计量与说话者距离的音韵模型的无教师学习法”,2002年3月1日,电子信息通信学会,Vol.J85-D-II,No.3,pp.382-389)。
但是,在第1现有方法中,在合成的参照模型数量增加的同时,标准模型的混合数也增加,标准模型用的存储容量、识别处理量变庞大,不实用。另外,不能对应规格来控制标准模型的混合数。该课题被认为伴随合成的参照模型数量的增加而变显著。
在第2现有方法中,在合成的参照模型数量增加的同时,标准模型的混合数也增加,标准模型用的存储容量、识别处理量变庞大,不实用。另外,不能对应规格来控制标准模型的混合数。另外,因为标准模型是参照模型的单纯混合和,学习的参数被限定于混合加权,所以不能制作高精度的标准模型。另外,就标准模型的制作而言,由于使用多个学习数据来进行学习,所以花费学习时间。这些课题被认为伴随合成的参照模型数量的增加而变显著。
在第3现有方法中,因为学习的参数被限定于参照模型的平均值的线性结合系数,所以不能制作高精度的标准模型。另外,就标准模型的制作而言,由于使用多个学习数据来进行学习,所以花费学习时间。
在第4现有方法中,因为探索地执行群集,所以难以制作高精度的标准模型。另外,由于参照模型是单一的高斯分布,所以精度低,统一它们的标准模型的精度低。涉及识别精度的课题被认为伴随合成的参照模型数量的增加而变显著。
在第5现有方法中,虽然通过合成具有同一连续序号的高斯分布来制作标准模型,但为了制作最佳的标准模型,一般合成的高斯分布不限于一对一对应,所以识别精度低。另外,在多个参照模型具有不同的混合数的情况下,不能制作标准模型。另外,一般不向参照模型中的高斯分布赋予连续序号,此时不能制作标准模型。另外,不能对应规格来控制标准模型的混合数。

发明内容
因此,本发明是鉴于这样的问题而作出,其目的在于提供一种制作高精度标准模型的标准模型制作装置等,该标准模型用于基于隐马尔科夫模型、贝叶斯逻辑、线性判断分析等概率模型的声音识别、字符识别、图像识别等模式识别,基于贝叶斯网络等概率模型的意图理解(意图的识别),基于概率模型的数据采集(数据特性的识别),以及股票预测、天气预测等预测(识别状况后进行判断)等。
另外,本发明的目的还在于提供一种标准模型制作装置等,不需要学习用的数据或教师数据,可简易地制作标准模型。
并且,本发明的目的还在于提供一种通用性和弹性好的标准模型制作装置,制作对利用标准模型的识别对象适应的标准模型,或制作对使用标准模型来执行识别处理的装置的规格或环境适应的标准模型。
本发明中使用的所谓‘识别’不仅是语音识别等狭义含义下的识别,还指参数匹配、辨认、认证、贝叶斯推定或预测等利用由概率表现的标准模型的全部识别。
为了实现上述目的,本发明的标准模型制作装置是制作如下标准模型的装置,该标准模型是通过事件的集合与事件或事件间的转变之输出概率所定义的识别用模型,其特征在于具备参照模型存储单元,存储作为用于识别特定对象而事先制作的模式之一个以上的参照模型;和标准模型制作单元,通过计算标准模型的统计量,制作标准模型,以最大化或极大化标准模型相对存储在所述参照模型存储单元中的一个以上的参照模型之概率或似然。
例如,作为语音识别用标准模型制作装置,是一种标准模型制作装置,使用由输出概率来表现表示语音特征的频率参照之概率模型,制作表示具有特定属性的语音特征之语音识别用标准模型,其特征在于具备参照模型存储单元,存储作为表示具有一定属性的语音特征之概率模型的一个以上参照模型;和标准模型制作单元,通过使用存储在所述参照模型存储单元中的一个以上的参照模型之统计量,计算所述标准模型的统计量,制作标准模型,所述标准模型制作单元具有标准模型构造确定部,确定制作的标准模型的构造;初始标准模型制作部,确定特定确定了构造的标准模型之统计量初始值;和统计量推定部,推定计算所述标准模型的统计量,以最大化或极大化确定了初始值的标准模型对所述参照模型的概率或似然。
由此,因为计算标准模型的统计量,制作标准模型,以最大化或极大化标准模型相对一个以上的参照模型之概率或似然,所以不必语音数据等学习数据或教师数据,可简易地制作标准模型,同时,可制作统一勘察已制作的多个参照模型之高精度标准模型。
这里,最好所述标准模型制作单元还具备参照模型准备单元,执行从外部取得参照模型后存储在所述参照模型存储单元中、和制作参照模型后存储在所述参照模型存储单元中至少之一。例如,一种标准模型制作装置,只要在适用于语音识别用的情况下,则使用由输出概率来表现表示语音特征的频率参照之概率模型,制作表示具有特定属性的语音特征之语音识别用标准模型,其特征在于具备参照模型存储单元,存储作为表示具有一定属性的语音特征之概率模型的一个以上参照模型;参照模型准备单元,执行从外部取得参照模型后存储在所述参照模型存储单元中、和制作新的参照模型后存储在所述参照模型存储单元中至少之一;和标准模型制作单元,通过准备具有规定构造的对应标准模型的统计量初始值,并使用所述参照模型的统计量,计算该标准模型的统计量,由此来制作标准模型,以最大化或极大化标准模型相对存储在所述参照模型存储单元中的一个以上的参照模型之概率或似然。
由此,因为可从标准模型制作装置的外部取得新的参照模型,根据取得的参照模型来制作标准模型,所以可实现对应于各种识别对象的通用性高的标准模型制作装置。
另外,所述标准模型制作装置还具备制作作为涉及识别对象之信息的利用信息的利用信息制作单元;和参照模型选择单元,根据制作的所述利用信息,从存储在所述参照模型存储单元中的参照模型中,选择一个以上的参照模型,所述标准模型制作单元计算所述标准模型的统计量,以最大化或极大化所述标准模型相对于所述参照模型选择单元选择的参照模型的概率或似然。
由此,根据利用者的特征、利用者的年龄、性别、利用环境等利用信息,从准备的多个参照模型中仅选择适于识别对象的参照模型,制作统一这些参照模型的标准模型,所以可制作由识别对象特定化的精度高的标准模型。
这里,所述标准模型制作装置还具备类似度判断单元,算出所述利用信息与涉及选择的参照模型的信息之类似度,判断所述类似度是否为规定阈值以上,制作判断信号。
由此,在接近(靠近)利用信息的参照模型不存在于参照模型存储单元中的情况下,可执行参照模型的准备请求。
另外,在所述标准模型制作装置上,经通信路径连接终端装置,所述标准模型制作装置还具备从所述终端装置接收作为涉及识别对象之信息的利用信息的利用信息接收单元;和参照模型选择单元,根据接收到的所述利用信息,从存储在所述参照模型存储单元中的参照模型中,选择一个以上的参照模型,所述标准模型制作单元计算所述标准模型的统计量,以最大化或极大化所述标准模型相对于所述参照模型选择单元选择的参照模型的概率或似然。
由此,因为根据可经通信路径发送的利用信息来制作标准模型,所以可通过远距离控制来生成标准模型,同时,可实现以通信系统为基础的识别系统的构筑。
另外,所述标准模型制作装置还具备规格信息制作单元,制作作为涉及制作的标准模型之规格的信息的规格信息,所述标准模型制作单元根据所述规格信息制作单元制作的规格信息,计算所述标准模型的统计量,以最大化或极大化所述标准模型相对于所述参照模型的概率或似然。
由此,因为根据使用标准模型的装置的CPU功率、存储容量、要求的识别精度、要求的识别处理时间等规格信息来制作标准模型,所以可生成满足特定规格条件的标准模型,实现适合于计算引擎等识别处理所需的资源环境的标准模型之生成。
这里,所述规格信息例如可以是表示对应于使用标准模型的应用程序种类之规格的信息。另外,所述标准模型制作装置还具备规格信息保持单元,保持表示使用标准模型的应用程序与标准模型的规格之对应的应用程序规格对应数据库,作为所述规格信息,所述标准模型构造确定部从保持在所述规格信息保持单元中的应用程序规格对应数据库中,读出对应于起动的应用程序之规格,并根据读出的规格,计算所述标准模型的统计量,以最大化或极大化所述标准模型相对于所述参照模型的概率或似然。
由此,因为根据对应于每个应用程序的规格来制作标准模型,所以可制作最适于每个应用程序的标准模型,提高使用标准模型的识别系统等的识别精度。
另外,在所述标准模型制作装置上,经通信路径连接终端装置,所述标准模型制作装置还具备从所述终端装置接收作为涉及制作的标准模型规格之信息的规格信息的规格信息接收单元,所述标准模型制作单元根据所述规格信息接收单元接收到的规格信息,计算所述标准模型的统计量,以最大化或极大化所述标准模型相对于所述参照模型的概率或似然。
由此,因为根据可经通信路径发送的规格信息来制作标准模型,所以可通过远距离控制来生成标准模型,同时,可实现以通信系统为基础的识别系统的构筑。
例如,也可用1一个以上的高斯分布来表现所述参照模型和所述标准模型,所述标准模型制作单元根据所述规格信息,确定所述标准模型的混合分布数(高斯分布的数量)。
由此,动态确定包含于制作的标准模型中之高斯分布的混合分布数,可对应于执行识别处理的环境或要求规格等来控制标准模型的构造。作为实例,在使用标准模型的识别装置的CPU功率小的情况下,在存储容量小的情况下,在要求的识别处理时间短的情况下等,可将标准模型的混合分布数设定得少,以符合规格,另一方面,在要求的识别精度高的情况等下,可将混合分布数设定得多,提高识别精度。
另外,在使用上述利用信息或规格信息来制作标准模型的情况下,未必需要参照模型准备单元。这是因为例如,根据利用者的请求,或与利用者的请求无关,在事先将参照模型存储在标准模型制作装置内的状态下,可使标准模型制作装置出厂,使用利用信息或规格信息来制作标准模型。
另外,所述参照模型和所述标准模型使用一个以上的高斯分布来表现,所述参照模型存储单元存储至少一对参照模型的混合分布数(高斯分布数)不同的参照模型,所述标准模型制作单元计算所述标准模型的统计量,以最大化或极大化所述标准模型相对于至少一对参照模型的混合分布数(高斯分布数)不同的参照模型之概率或似然。
由此,因为根据混合分布数不同的参照模型来制作标准模型,所以可根据事先准备的各种各样构造的参照模型来制作标准模型,实现更适合于识别对象的高精度标准模型的制作。
另外,所述标准模型制作装置还具备标准模型存储单元,存储所述标准模型制作单元制作的标准模型。
由此,暂时缓冲制作的标准模型,可针对发送请求马上输出,可实现作为向其它装置提供的数据服务器的作用。
另外,在所述标准模型制作装置上,经通信路径连接终端装置,所述标准模型制作装置还具备向所述终端装置发送所述标准模型制作单元制作的标准模型之标准模型发送单元。
由此,因为将制作的标准模型发送到设置于空间上分离部位的外部装置,所以可使该标准模型制作装置独立,作为标准模型制作引擎,或使标准模型制作装置用作通信系统中的服务器。
另外,在所述标准模型制作装置上,经通信路径连接终端装置,所述标准模型制作装置还具备接收从所述终端装置发送的参照模型的参照模型接收单元,所述标准模型制作单元计算所述标准模型的统计量,以最大化或极大化所述标准模型相对于至少所述参照模型接收单元接收到的参照模型的概率或似然。
由此,因为可经通信路径发送接近终端装置保持的利用环境之参照模型,使用发送的参照模型来制作标准模型,所以可实现进一步适合于识别对象的高精度标准模型的制作。作为实例,在将利用者A在环境A下利用的参照模型A保持在终端装置中、利用者A想在环境B下利用的情况下,通过利用参照模型A来制作标准模型,可制作反映利用者A特征的高精度标准模型。
另外,所述参照模型准备单元还执行所述参照模型存储单元存储的参照模型的更新和追加至少之一。例如,在所述标准模型制作装置上,经通信路径连接终端装置,所述标准模型制作装置还具备接收从所述终端装置发送的参照模型的参照模型接收单元,所述参照模型准备单元使用所述参照模型接收单元接收到的参照模型,执行所述参照模型存储单元存储的参照模型的更新和追加至少之一。
由此,因为执行准备的参照模型的追加、更新等,所以可将各种识别对象用的模型追加为参照模型,或置换成更高精度的参照模型,可执行根据更新后的参照模型来再生成标准模型,或将生成的标准模型作为参照模型、再制作标准模型等基于反馈的学习等。
另外,所述标准模型制作单元也可构成为具有确定制作的标准模型构造之标准模型构造确定部;初始标准模型制作部,确定特定确定了构造的所述标准模型之统计量初始值;和统计量推定部,推定并计算所述标准模型的统计量,以最大化或极大化所述标准模型相对于所述参照模型的概率或似然。此时,所述初始标准模型制作部也可使用所述统计量推定部用于计算标准模型统计量的、一个以上的所述参照模型,确定特定所述标准模型的统计量初始值。例如,所述初始标准模型制作部也可根据识别标准模型种类之分类ID,确定所述初始值。具体而言,所述初始标准模型制作部也可保持表示所述分类ID与所述初始值同所述参照模型的对应之对应表,根据所述对应表来确定所述初始值。
由此,通过向使用标准模型的识别对象的每个种类提供分类ID,可使用最终必需的标准模型与具有共同性质的初始标准模型,所以可制作高精度的标准模型。
如上所述,通过本发明,可提供一种高精度的标准模型,用于基于隐马尔科夫模型、贝叶斯逻辑、线性判断等概率模型的声音识别、字符识别、图像识别等模式识别、基于贝叶斯网络等概率模型的意图理解(意图的识别)、基于概率模型的数据采集(数据特性的识别)、基于概率模型的人物检测、指纹认证、面部认证、彩虹认证(识别对象,判断是否是特定对象)、股票预测、天气预测等预测(识别状况后进行判断)等,其实用价值极高。
另外,本发明不仅可作为这种标准模型制作装置来实现,也可作为将标准模型制作装置具备的特征构成要素设为步骤的标准模型制作方法来实现,可作为让计算机执行这些步骤的程序来实现。另外,不用说,也可经CD-ROM等记录媒体或因特网等传输媒体来配送该程序。


图1是表示本发明第1实施方式的标准模型制作装置的服务器整体构成的框图。
图2是表示该服务器的动作步骤的流程图。
图3是表示存储在图1的参照模型存储部中的参照模型实例的图。
图4是表示图2中的步骤S101(标准模型的制作)的详细步骤的流程图。
图5是说明图1的第1近似部104e执行的近似计算的图。
图6是表示选择参照模型时的画面显示例的图。
图7(a)是表示指定制作的标准模型构造(混合分布数)时的画面显示例的图,图7(b)是表示选择规格信息时的画面显示例的图。
图8是表示示出制作标准模型时的进展状况的画面显示例的图。
图9是表示本发明第2实施方式的标准模型制作装置的STB的整体构成的框图。
图10是表示该STB的动作步骤的流程图。
图11是表示图10的参照模型存储部中存储的参照模型实例的图。
图12是说明图10的第2近似部执行的近似计算的图。
图13是表示本发明第3实施方式的标准模型制作装置涉及的PDA整体构成的框图。
图14是表示该PDA的动作步骤的流程图。
图15是表示存储在图13的参照模型存储部中的参照模型实例的图。
图16表示该PDA的选择画面一例。
图17是表示图13中的统计量推定部的统计量推定步骤的原理图。
图18是说明图13中的第3近似部执行的近似计算的图。
图19是表示本发明第4实施方式的标准模型制作装置的服务器整体构成的框图。
图20是表示该服务器的动作步骤的流程图。
图21是表示说明该服务器的动作步骤用的参照模型和标准模型一例的图。
图22是表示输入作为利用信息的个人信息时的画面显示例的图。
图23是表示本发明第5实施方式的标准模型制作装置的服务器整体构成的框图。
图24是表示该服务器的动作步骤的流程图。
图25是表示说明该服务器的动作步骤用的参照模型和标准模型一例的图。
图26本发明第6实施方式的标准模型制作装置的服务器整体构成的框图。
图27是表示该服务器的动作步骤的流程图。
图28是表示说明该服务器的动作步骤用的参照模型和标准模型一例的图。
图29是表示本发明第7实施方式的标准模型制作装置的服务器整体构成的框图。
图30是表示该服务器的动作步骤的流程图。
图31是表示说明该服务器的动作步骤用的参照模型和标准模型一例的图。
图32是表示本发明第8实施方式的标准模型制作装置整体构成的框图。
图33是表示便携式电话机901的动作步骤的流程图。
图34是表示存储在参照模型存储部中的参照模型一例的图。
图35是表示重新存储在参照模型存储部中的参照模型一例的图。
图36是表示制作利用信息时的画面显示例的图。
图37是表示准备参照模型时的画面显示例的图。
图38是表示采用了使用第3近似部制作的标准模型的识别实验结果的曲线。
图39是表示由第3实施方式的第2近似部制作的标准模型的识别实验结果的曲线。
图40是表示本发明第9实施方式的标准模型制作装置整体构成的框图。
图41是表示应用程序、规格信息对应数据库的数据实例的图。
图42是表示PDA1001的动作步骤的流程图。
图43是表示存储在参照模型存储部中的参照模型一例的图。
图44是表示基于初始标准模型制作部的群集的初始值确定方法的流程图。
图45是表示图44的步骤S1004的具体例的图。
图46是表示图44的步骤S1005的具体例的图。
图47是表示图44的步骤S1006的具体例的图。
图48是表示图44的步骤S1008的具体例的图。
图49是表示本发明第10实施方式的标准模型制作装置的服务器整体构成的框图。
图50是表示该服务器的动作步骤的流程图。
图51是表示具体适用本发明的标准模型制作装置的系统实例的图。
图52是表示分类ID、初始标准模型、参照模型对应表的实例的图。
图53是表示图52的分类ID、初始标准模型、参照模型对应表的参照模型8AA-AZ实例的图。
图54是表示图52的分类ID、初始标准模型、参照模型对应表的参照模型64ZA-ZZ实例的图。
图55是表示图52的分类ID、初始标准模型、参照模型对应表的初始标准模型8A-64Z实例的图。
图56是表示分类ID、初始标准模型、参照模型对应表的制作方法的流程图。
图57是表示图56的步骤S1100的具体实例的图。
图58是表示图56的步骤S1102的具体实例的图。
图59是表示图56的步骤S1103的具体实例的图。
图60是表示图56的步骤S1104的具体实例的图。
图61是表示通过终端与服务器之间的通信来完成分类ID、初始标准模型、参照模型对应表的步骤的图。
图62是表示使用分类ID、初始标准模型、参照模型对应表的初始标准模型确定方法的流程图。
图63是表示图62中的步骤S1105的具体例的图。
图64是表示采用了使用第3近似部制作的标准模型的识别实验结果的曲线。
图65(a)-(j)是表示语音识别对象的属性与标准模型构造(高斯分布的混合数)的关系例的图。
具体实施例方式
下面,参照附图来详细说明本发明的实施方式。另外,向图中相同或相当部分附加相同符号,不重复说明。
(第1实施方式)图1是表示本发明第1实施方式的标准模型制作装置的整体构成的框图。这里,示出将本发明涉及的标准模型制作装置组装在计算机系统的服务器101中的实例。在本实施方式中,以制作表示具有特定属性的语音特征的语音识别用标准模型的情况为例进行说明。
服务器101是通信系统中的计算机装置等,作为制作由用事件的集合与事件或事件间的转移的输出概率表现的隐马尔科夫模型所定义的语音识别用标准模型的标准模型制作装置,具备读入部111、参照模型准备部102、参照模型存储部103、标准模型制作部104、和写入部112。
读入部111读入写入到CD-ROM等存储器件中的儿童用参照模型、成人用参照模型、老年人用参照模型。参照模型准备部102将读入的参照模型121发送给参照模型存储部103。参照模型存储部103存储3个参照模型121。这里,所谓参照模型是制作标准模型时被参照的事先制作的模型(这里是语音识别用模型,即表示具有规定属性的语音特征的概率模型)。
标准模型制作部104是制作标准模型122的处理部,使对于参照模型存储部103存储的3个(Ng=3)参照模型121的概率或似然最大化或极大化,该标准模型制作部104包括确定标准模型的构造(高斯分布的混合数等)的标准模型构造确定部104a;初始标准模型制作部104b,通过确定用于计算标准模型的统计量初始值,制作初始标准模型;存储确定的初始标准模型的统计量存储部104c;和统计量推定部104d,通过对存储在统计量存储部104c中的初始标准模型、使用第1近似部104e的近似计算等计算出统计量(生成最终的标准模型),该统计量使对于存储在参照模型存储部103中的3个(Ng=3)参照模型121的概率或似然最大化或极大化。另外,所谓统计量是指特定标准模型的参数,这里是混合加权系数、平均值、方差值。
写入部112将标准模型制作部104制作的标准模型122写入CD-ROM等存储器件中。
下面,说明上述构成的服务器101的动作。
图2是表示服务器101的动作步骤的流程图。
首先,在制作标准模型之前,准备成为其基准的参照模型(步骤S100)。即,读入部111读入写入到CD-ROM等存储器件中的儿童用参照模型、成人用参照模型、老年人用参照模型,参照模型准备部102将读入的参照模型121发送给参照模型存储部103,参照模型存储部103存储3个参照模型121。
参照模型121由各个音素的HMM构成。图3中示出参照模型121的一例。这里,示出儿童用参照模型、成人用参照模型、老年人用参照模型的示意图(另外,本图中,省略了老年人用参照模型的示意图)。这3个参照模型全部的状态数为3个,各状态下,由混合分布数为3个的混合高斯分布来构成HMM的输出分布。作为特征量,使用12维(J=12)的倒频谱(cepstrum)系数。
接着,标准模型制作部104制作使对于参照模型存储部103中存储的3个参照模型121的概率或似然最大化或极大化的标准模型122(步骤S101)。
最后,写入部112将标准模型制作部104制作的标准模型122写入CD-ROM等存储器件中(步骤S102)。写入CD-ROM等存储器件中的标准模型被用作考虑了儿童、成人、老年人的语音识别用标准模型。
图4是表示图2中的步骤S101(标准模型的制作)的详细步骤的流程图。
首先,标准模型构造确定部104a确定标准模型的构造(步骤S102a)。这里,作为标准模型的构造,由每个音素的HMM构成,为3个状态,将各状态的输出分布的混合数确定为3个(Mf=3)。
接着,初始标准模型制作部104b确定用于计算标准模型的统计量初始值(步骤S102b)。这里,将使用统计处理计算把存储在参照模型存储部103中的3个参照模型统合到一个高斯分布中的模型设为统计量初始值,将该初始值作为初始标准模型存储在统计量存储部104c中。
具体而言,初始标准模型制作部104b对上述3个状态I(I=1、2、3)分别生成下式13所示的输出分布。另外,式中的Mf(高斯分析的混合数)在这里为3。
(式13)Σm=1Mfωf(m)f(x;μf(m),σf(m)2)]]>其中,(式14)f(x;μf(m),σf(m)2)--(m=1,2,...,Mf)]]>表示高斯分布,(式15)x=(x(1),x(2),...,x(J))∈RJ
表示12维(J=12)的LPC倒频谱系数,(式16)ωf(m)(m=1,2,...,Mf)表示各高斯分布的混合加权系数,(式17)μf(m)=(μf(m,1),μf(m,2),...,μf(m,J))∈RJ(m=1,2,...,Mf)表示各高斯分布的平均值,(式18)σf(m)2=(σf(m,1)2,σf(m,2)2,...,σf(m,J)2)∈RJ--(m=1,2,...,Mf)]]>表示各高斯分布的方差值。
另外,统计量推定部104d使用存储在参照模型存储部103中的3个参照模型121,推定存储在统计量存储部104c中的标准模型的统计量(步骤S102c)。
具体而言,推定标准模型对于3个(Ng=3)参照模型121各状态(I=1、2、3)的输出分布、即下式19所示的输出分布的概率或似然(下式25所示的似然logP)极大化或最大化的标准模型的统计量(上式16所示的混合加权系数、上式17所示的平均值、和上式18所示的方差值)。
式(19)Σl=1Lg(i)υg(i,l)g(x;μg(i,l),σg(i,l)2)--(i=1,2,...,Ng)]]>其中,(式20)g(x;μg(i,l),σg(i,l)2)--(i=1,2,...,Ng,l=1,2,...,L(i))]]>
表示高斯分布,(式21)Lg(i)(i=1,2,...,Ng)表示各参照模型的混合分布数(这里为3),(式22)υg(i,l)(l=1,2,...,Lg(i))表示各高斯分布的混合加权系数,(式23)μg(i,l)(l=1,2,...,Lg(i))表示各高斯分布的平均值,(式24)σg(i,l)2--(l=1,2,...,Lg(i))]]>表示各高斯分布的方差值。
(式25)logP=Σi=1Ng∫-∞∞log[Σm=1Mfωf(m)f(x;μf(m),σf(m)2)]{Σl=1Lg(i)υg(i,l)g(x;μg(i,l),σg(i,l)2)}dx]]>另外,根据下式26、式27和式28,分别算出标准模型的混合加权系数、平均值和方差值。
(式26)
ωf(m)=Σi=1Ng∫-∞∞γ(x,m){Σl=1Lg(i)υg(i,l)g(x;μg(i,l),σg(i,l)2)}dxΣk=1MfΣi=1Ng∫-∞∞γ(x,k){Σl=1Lg(i)υg(i,l)g(x;μg(i,l),σg(i,l)2)}dx]]>(m=1,2,...,Mf)(式27)μf(m,j)=Σi=1Ng∫-∞∞γ(x,m)x(j){Σl=1Lg(i)υg(i,l)g(x;μg(i,l),σg(i,l)2)}dxΣi=1Ng∫-∞∞γ(x,m){Σl=1Lg(i)υg(i,l)g(x;μg(i,l),σg(i,l)2)}dx]]>(m=1,2,...,Mf,j=1,2,...,J)(式28)σf(m,j)2=Σi=1Ng∫-∞∞γ(x,m)(x(j)-μf(m,j))2{Σl=1Lg(i)υg(i,l)g(x;μg(i,l),σg(i,l)2)}dxΣi=1Ng∫-∞∞γ(x,m){Σl=1Lg(i)υg(i,l)g(x;μg(i,l),σg(i,l)2)}dx]]>(m=1,2,...,Mf,j=1,2,...,J)此时,通过统计量推定部104d的第1近似部104e,使用下式29所示的近似式。
(式29)
γ(x,m)=ωf(m)f(x;μf(m),σf(m)2)Σk=1Mfωf(k)f(x;μf(k),σf(k)2)≈ωf(m)f(x;μf(m),σf(m)2)uh(m)h(x;μh(m),σh(m)2)]]>(m=1,2,...,Mf)其中,(式30)uh(m)h(x;μh(m),σh(m)2)--(m=1,2,...,Mf)]]>表示将(式31)uh(m)(m=1,2,...,Mf)(式32)μh(m)=(μh(m,1),μh(m,2),...,μh(m,J))∈RJ作为平均值,将(式33)σh(m)2=(σh(m,1)2,σh(m,2)2,...,σh(m,J)2)∈RJ]]>作为方差值的单一高斯分布。
另外,第1近似部104e分别根据下式34、式35和式36所示的公式,算出上式30所示的单一高斯分布的加权(式31)、平均值(式32)和方差值(式33)。
(式34)
uh(m)=Σp=1Mfωf(m,p)=Σp=1Mfωf(p)=1.0--(m=1,2,...,Mf)]]>(式35)μh(m,j)=Σp=1Mfωf(m,p)μf(m,p,j)Σp=1Mfωf(m,p)=Σp=1Mfωf(p)μf(p,j)Σp=1Mfωf(p)]]>(m=1,2,...,Mf,j=1,2,...,J)(式36)σh(m,j)2=Σp=1Mfωf(m,p)(σf(m,p,j)2+μf(m,p,j)2)Σp=1Mfωf(m,p)-μh(m,j)2]]>=Σp=1Mfωf(p)(σf(p,j)2+μf(p,j)2)Σp=1Mfωf(p)-μh(m,j)2]]>(m=1,2,...,Mf,j=1,2,...,J)图5是说明第1近似部104e的近似计算的图。第1近似部104e如图所示,使用构成标准模型的全部混合高斯分布,来确定上式29所示的近似式中的单一高斯分布(式30)。
若综合考虑以上的第1近似部104e的近似式,则统计量推定部104d的计算式如下所示。即,统计量推定部104d根据下式37、式38和式39,分别算出混合加权系数、平均值和方差值,存储在统计量存储部104c中。之后,这种统计量的推定与向统计量存储部104c的存储重复R(≥1)次。其结果,将得到的统计量作为最终生成的标准模型122的统计量来输出。
(式37)ωf(m)=Σi=1NgΠj=1JΣl=1Lg(i)A(m,l,i,j)Σi=1NgΣk=1MfΠj=1JΣl=1Lg(i)A(k,l,i,j)--(m=1,2,...,Mf)]]>A(m,l,i,j)=ωf(m)υg(i,l)σh(m,j)2σf(m,j)2σh(m,j)2+σg(i,l,j)2σh(m,j)2-σf(m,j)2σg(i,l,j)2]]>×exp{12((σf(m,j)σg(i,l,j)σh(m,j)μh(m,j)-σf(m,j)σh(m,j)σg(i,l,j)μg(i,,,j)-σg(i,l,j)σh(m,j)σf(m,j)μf(m,j))2σf(m,j)2σh(m,j)2+σg(i,l,j)2σh(m,j)2-σf(m,j)2σg(i,l,j)2+μh(m,j)σh(m,j)2-μg(i,,,j)σg(i,l,j)2-μf(m,j)σf(m,j)2)}]]>(式38)μf(m,j)=Σi=1NgΣl=1Lg(i)B(m,l,i,j)Σi=1NgΠj=1JΣl=1Lg(i)A(m,l,i,j)--(m=1,2,...,Mf,j=1,2,...,J)]]>B(m,l,i,l)=σf(m,j)2σh(m,j)2μg(i,,,j)+σg(i,l,j)2σh(m,j)2μf(m,j)-σf(m,j)2σg(i,l,j)2μh(m,j)σf(m,j)2σh(m,j)2+σg(i,l,j)2σh(m,j)2-σf(m,j)2σg(i,l,j)2×A(m,l,i,j)]]>(式39)
σf(m,j)2=Σi=1NgΣl=1Lg(i)C(m,l,i,j)Σi=1NgΠj=1JΣl=1Lg(i)A(m,l,i,j)--(m=1,2,...,Mf)]]>C(m,l,i,l)={σf(m,j)2σg(i,l,j)2σh(m,j)2σf(m,i)2σh(m,i)2+σg(i,l,j)2σh(m,j)2-σf(m,j)2σg(i,l,j)2]]>+(μf(m,j)-σf(m,j)2σh(m,j)2μg(i,,,j)+σg(i,l,j)2σh(m,j)2μf(m,j)-σf(m,j)2σg(i,l,j)2μh(m,j)σf(m,j)2σh(m,j)2+σg(i,l,j)2σh(i,l,j)2-σf(m,j)2σg(i,l,j)2)2}×A(m,l,i,j)]]>另外,使用归一化的状态转移概率,使将HMM所对应的状态转变概率全部加到参照模型121上的的整体成为1。
下面,说明将本实施方式适用于电脑的语音识别的具体例。这里,设将电脑(PC)用作服务器101,将CD-ROM驱动装置用作读入部111,以标准模型的具体使用方法为中心来说明。
首先,利用者将存储了作为参照模型的多个声音模型的一个CD-ROM安装在PC(服务器101)的CD-ROM驱动装置(读入部111)中。在该CD-ROM中,存储例如‘婴儿’、‘儿童男’、‘儿童女’、‘大人男’、‘大人女’、‘老年人男’、‘老年人女’的各声音模型。
接着,如图6(a)和(b)所示的画面显示例所示,利用者使用连接于PC(服务器101)上的显示器,选择位于家庭构成(利用语音识别的人)中的声音模型。图6中示出在写有‘CD-ROM’的框内显示存储在CD-ROM中的声音模型,将从这些声音模型中选择的声音模型拷贝到写有‘利用者’的框内的样子。这里,设利用者的家庭构成为10岁的儿子、50岁的父亲、40岁的母亲3个人,利用者(父亲)将‘儿童男’、‘大人男’、‘大人女’3个模型托拽移动到写有‘利用者’的框内。通过这种操作,参照模型准备部102执行参照模型的准备。即,3个参照模型由读入部111读出,经参照模型准备部102,存储在参照模型存储部103中。
接着,如图7(a)所示的画面显示例所示,利用者指定制作的标准模型的构造(混合分布数)。在图7(a)中,作为‘混合分布数’显示‘3个’、‘10个’、‘20个’,利用者从这些个数中选择期望的个数。通过该操作,由标准模型构造确定部104a来确定由此制作的标准模型的构造。
另外,混合分布数的确定方式,不限于这种直接指定,例如,如图7(b)所示的画面显示例所示,也可以根据利用者选择的规格信息来确定混合分布数。图7(b)中,示出作为使用标准模型来执行语音识别的对象设备,从3种‘利用设备’、即‘电视机用’、‘汽车导航仪用’、‘便携式电话机用’中选择利用设备的状态。此时,根据事先存储的对应表,例如在选择‘电视机用’的情况下,将混合分布数确定为3个,在选择‘汽车导航仪用’的情况下,将混合分布数确定为20个,在选择‘便携式电话机用’的情况下,将混合分布数确定为10个。
另外,混合分布数的确定方式,也可以通过从识别速度或精度、即‘尽早识别’、‘通常’、‘高精度识别’中选择,将对应于各个选择项目的值(‘尽早识别’=3个、‘通常’=10个、‘高精度识别’=20个)确定为混合分布数。
若这种输入操作结束,则在由初始标准模型制作部104b制作初始标准模型之后,统计量推定部104d执行反复计算(学习),制作标准模型。此时,如图8的画面显示例所示,标准模型构造确定部104a显示学习的进展状况。利用者可了解学习的进度状况、学习结束时间等,可安心等待,直至完成标准模型为止。另外,作为进度状况的显示,例如有图8(a)所示的学习程度的条显示、图8(b)所示的学习次数显示、以及其他似然基准的显示等。另外,也可以是,在未学习时显示一般的脸图像,随着接近学习结束,变更为利用者的脸图像等进度显示。同样,也可是未学习时显示小孩脸,随着接近学习结束,显示仙人等的进度显示。
若如此完成标准模型的制作,则制作的标准模型被标准模型制作部104记录在存储卡(写入部112)中。利用者从PC(服务器101的写入部112)中拔出该存储卡后,插入到利用设备、例如电视机的存储卡用插槽中。由此,将制作的标准模型从PC(服务器101)移动到利用设备(电视机)。电视机利用记录在被安装的存储卡中的标准模型,执行将利用者(这里为利用电视机的家人)作为对象的语音识别。例如,通过识别输入到附属于电视机上的麦克风的语音,判断电视机操作用的指令,并执行该指令(例如频道的切换、EPG等的节目检索)。由此,实现使用由本实施方式的标准模型制作装置制作的标准模型的、基于语音的电视机操作。
如上所述,根据本发明的第1实施方式,因为计算标准模型的统计量来制作标准模型,使对事先准备的参照模型的概率或似然最大化或极大化,所以不需要学习用的数据或教师数据,能够简易地制作标准模型,并且,可以制作综合考察已制作的多个参照模型后的高精度标准模型。
另外,标准模型122不限于对每个音素构成HMM,也可由上下文有关的HMM构成。
另外,标准模型制作部104也可对部分音素的、部分状态下的事件输出概率执行模型制作。
另外,构成标准模型122的HMM也可由对每个音素不同的状态数来构成,也可由对每个状态不同的分布数的混合高斯分布来构成。
另外,参照模型121就儿童用参照模型、成人用参照模型、老年人用参照模型而言,可由不同的状态数构成,也可由不同的混合数的混合高斯分布来构成。
另外,也可使用标准模型122在服务器101中执行语音识别。
另外,也可代替从CD-ROM、DVD-RAM等存储器件中读入参照模型121,而由服务器101根据语音数据来制作参照模型121。
另外,参照模型准备部102也可在必要时将从CD-ROM、DVD-RAM等存储器件中读入的新的参照模型追加、更新到参照模型存储部103中。即,参照模型准备部102不仅将新的参照模型存储在参照模型存储部103中,在对相同识别对象的参照模型被存储在参照模型存储部103中的情况下,可以通过与该参照模型置换来更新参照模型,或者也可以删除存储在参照模型存储部103中的无用的参照模型。
另外,在必要时,参照模型准备部102也可经通信路线将新的参照模型追加、更新到参照模型存储部103中。
另外,在制作标准模型后,还可利用语音数据进行学习。
另外,标准模型构造确定部也可确定送受话器、三方电话(triphone)、状态共享型等HMM构造、或状态数等。
(第2实施方式)图9是表示本发明第2实施方式的标准模型制作装置整体构成的框图。这里,示出将本发明的标准模型制作装置组装在机顶盒201(下面称为STB)中的实例。在本实施方式中,以制作语音识别用标准模型(说话者适应模型)的情况为例来进行说明。具体而言,以通过STB的语音识别功能执行电视机的EPG检索或节目切换、录像预约等的情况为例进行说明。
STB201是识别用户的发话后执行TV节目的自动切换等的数字广播用接收机,作为制作由事件的集合、和事件或事件间的转移的输出概率定义的语音识别用标准模型的标准模型制作装置,具备麦克风211、语音数据存储部212、参照模型准备部202、参照模型存储部203、利用信息制作部204、参照模型选择部205、标准模型制作部206、和语音识别部213。
将麦克风211收集到的语音数据存储在语音数据存储部212中。参照模型准备部202使用语音数据存储部212存储的语音数据,对每个说话者制作参照模型221,并存储在参照模型存储部203中。
利用信息制作部204利用麦克风211来收集作为利用信息224的利用者的语音。这里,所谓利用信息是与识别(狭义上的识别、辨别、认证等)对象(人、物)有关的信息,这里,是构成语音识别对象的利用者的语音。参照模型选择部205根据利用信息制作部204制作的利用信息224,从参照模型存储部203存储的参照模型221中,选择音频上接近利用信息224所示的利用者语音的参照模型223。
标准模型制作部206是制作标准模型222的处理部,使对参照模型选择部205所选择的说话者的参照模型223的概率或似然最大化或极大化,该标准模型制作部206包括确定标准模型的构造(高斯分布的混合分布数等)的标准模型构造确定部206a;初始标准模型制作部206b,通过确定用于计算标准模型的统计量初始值,制作初始标准模型;存储确定的初始标准模型的统计量存储部206c;和统计量推定部206d,通过使用一般近似部206e的近似计算等,对存储在统计量存储部206c中的初始标准模型计算出统计量(生成最终的标准模型),该统计量使对于参照模型选择部205所选择的参照模型223的概率或似然最大化或极大化。
语音识别部213使用由标准模型制作部206制作的标准模型222来识别利用者的语音。
下面,说明上述构成的STB201的动作。
图10是表示STB201的动作步骤的流程图。
首先,在制作标准模型之前,准备成为其基准的参照模型(步骤S200)。即,由麦克风211收集从小A至小Z的语音数据,存储在语音数据存储部212中。例如,将设置在屋内的多个麦克风、内置于电视机摇控器中的麦克风、电话机等与STB201的语音数据存储部212连接,将从麦克风或电话机输入的语音数据存储在语音数据存储部212中。例如,存储哥哥、妹妹、父亲、母亲、爷爷、邻居、朋友的语音。
参照模型准备部202使用语音数据存储部2 12存储的语音数据,通过鲍姆-韦尔奇的再推定方法,对每个说话者制作参照模型221。该处理在请求制作标准模型之前进行。
参照模型存储部203存储参照模型准备部202制作的参照模型221。参照模型221由每个音素的HMM构成。图11示出参照模型221的一例。这里,从小A至小Z的全部参照模型的状态数为3个,各状态下,由混合分布数为5个的混合高斯分布来构成HMM的输出分布。作为特征量,使用25维(J=25)的倒频谱系数。
这里,请求标准模型的制作。例如,利用者通过按下‘利用者的确认’按钮,请求标准模型的制作。关于‘利用者确认’键,可考虑显示在电视机画面上并选择的方法,或在电视机的摇控器上设置‘利用者的确认’开关进行选择的方法。作为按下按钮的定时,可考虑起动电视机的定时,在使用语音识别执行指令操作时、认为需要适应于利用者的标准模型的定时等。
接着,信息制作部204通过麦克风211收集作为利用信息224的利用者的语音(步骤S201)。例如,若请求制作标准模型,则在画面上显示为‘请输入姓名’。利用者通过内置于电视机摇控器中的麦克风,输入姓名(利用者的语音)。该利用者的语音是利用信息。另外,输入的语音不限于姓名。例如,也可以显示‘请发出‘适应’的声’,利用者发声为‘适应’。
参照模型选择部205从参照模型存储部203存储的参照模型22 1中,选择声音上接近该利用者语音的参照模型223(步骤S202)。具体而言,将利用者的语音输入到从小A至小Z的参照模型中,选择对发声单词的似然大的10人(Ng=10)发话者的参照模型。
另外,标准模型制作部206制作标准模型222,使对参照模型选择部205选择的10个参照模型223的概率或似然最大化或极大化(步骤S203)。此时,如第1实施方式所示,也可显示学习的进度状况。由此,利用者可判断学习的进度状况、学习结束时期等,可安心制作标准模型。另外,也可设置使学习的进度状况变为非显示的进度状况非显示部。通过该功能,可有效使用画面。另外,通过对习惯的人执行非显示,可避免感到麻烦。
最后,语音识别部213将经麦克风211发送来的利用者的语音作为输入,使用由标准模型制作部206制作的标准模型222来执行语音识别(S204)。例如,通过对利用者发出的语音进行音频分析等,计算出25维倒频谱系数,并输入到每个音素的标准模型222,由此特定具有高似然的音素联系。之后,比较该音素联系与事先接收的电子节目数据中的节目名,在检测出规定值以上的似然的情况下,执行切换到该节目的自动节目切换的控制。
下面,说明图10中的步骤S203(标准模型的制作)的详细步骤。步骤流程与图4所示的流程图一样。但是,采用的标准模型的构造或具体的近似计算等不同。
首先,标准模型构造确定部206a确定标准模型的构造(图4的步骤S102a)。这里,作为标准模型的构造,由每个音素的HMM构成,为3个状态,将各状态的输出分布的混合分布数确定为16个(Mf=16)。
接着,初始标准模型制作部206b确定计用于算标准模型的统计量初始值(图4的步骤S102b)。这里,将使用统计处理计算将参照模型选择部205选择的10个参照模型223统合到一个高斯分布中的模型设为统计量初始值,将该初始值作为初始标准模型存储在统计量存储部206c中。这里,使用对每个说话者学习的混合分布数为5个的参照模型,制作高精度的混合分布数为16个(16混合)的标准模型(说话者适应模型)。
具体而言,初始标准模型制作部206b对上述3个状态I(I=1、2、3)分别生成上式13所示的输出分布。
但是,在本实施方式中,上式13所示的输出分布中的(式40)x=(x(1),x(2),...,x(J))∈RJ表示25维(J=25)的倒频谱系数。
然后,统计量推定部206d使用参照模型选择部205选择的10个参照模型223,推定存储在统计量存储部206c中的标准模型的统计量(图4的步骤S102c)。
即,推定标准模型对于10个(Ng=10)参照模型223各状态(I=1、2、3)下的输出分布、即上式19所示的输出分布的概率(这里为上式25所示的似然logP)极大化或最大化的标准模型的统计量(上式16所示的混合加权系数、上式17所示的平均值、和上式18所示的方差值)。
但是,在本实施方式中,上式19所示的输出分布中的(式41)Lg(i)(i=1,2,...,Ng)是5(各参照模型的混合分布数)。
具体而言,根据上式26、式27和式28,分别算出标准模型的混合加权系数、平均值和方差值。
此时,由统计量推定部206d的一般近似部206e,使用上式29所示的近似式。
这里,一般近似部206e与第1实施方式不同,从上式29的近似式的分母所示的输出分布(式42)ωf(k)f(x;μf(k),σf(k)2)--(k=1,2,...,Mf)]]>中,选择距离上接近上式29的近似式的分子所示的输出分布(式43)ωf(m)f(x;μf(m),σf(m)2)]]>近的3个(Ph(m)=3)输出分布,(式44)ωf(m,p)f(x;μf(m,p),σf(m,p)2)--(m=1,2,...,Mf,p=1,2,...,Ph(m))]]>并使用选择的3个输出分布,分别根据下式45、式46和式47所示的公式,来计算出上述式30所示的单一高斯分布的加权(式31)、平均值(式32)和方差值(式33)。
式(45)uh(m)=Σp=1Ph(m)ωf(m,p)--(m=1,2,...,Mf)]]>(式46)
μh(m,j)=Σp=1Ph(m)ωf(m,p)μf(m,p,j)Σp=1Ph(m)ωf(m,p)--(m=1,2,...,Mf,j=1,2,...,J)]]>(式47)σh(m,j)2=Σp=1Ph(m)ωf(m,p)(σf(m,p,j)2+μf(m,p,j)2)Σp=1Ph(m)ωf(m,p)-μh(m,j)2]]>(m=1,2,...,Mf,j=1,2,...,J)图12是说明一般近似部206e的近似计算的图。一般近似部206e如图所示,从构成标准模型的Mf个混合高斯分布中,仅使用与成为计算对象的混合高斯分布接近的一部分(Ph(m)个)混合高斯分布,来确定上式29所示的近似式中的单一高斯分布(式30)。因此,与使用全部(Mf个)混合高斯分布的第1实施方式相比,削减了近似计算中的计算量。
若综合考虑以上的一般近似部206e的近似式,则统计量推定部206d的计算式如下所示。即,统计量推定部206d根据下式48、式49和式50,分别算出混合加权系数、平均值和方差值,并存储在统计量存储部206c中。之后,这种统计量的推定与向统计量存储部206c的存储重复R(≥1)次。将得到结果的统计量作为最终生成的标准模型222的统计量来输出。另外,就重复计算而言,对应于该次数,减小上述近似计算中的输出分布的选择个数Ph(m),最终执行满足Ph(m)=1的计算。
(式48)
ωf(m)=Σi=1NgΣl=1Lg(i)α(m,l,i)Σk=1Mfωf(k)(Σi=1NgΣl=1Lg(i)α(k,l,i))--(m=1,2,...,Mf)]]>α(m,l,i)=υg(i,l)Πj=1JD(m,l,i,j)]]>D(m,l,i,j)=σh(m,j)2σf(m,j)2σh(m,j)2+σg(i,l,j)2σh(m,j)2-σf(m,j)2σg(i,l,j)2]]>×exp{12((σf(m,j)σg(i,l,j)σh(m,j)μh(m,j)-σf(m,j)σh(m,j)σg(i,l,j)μg(i,,,j)-σg(i,l,j)σh(m,j)σf(m,j)μf(m,j))2σf(m,j)2σh(m,j)2+σg(i,l,j)2σh(m,j)2-σf(m,j)2σg(i,l,j)2+μh(m,j)σh(m,j)2-μg(i,,,j)σg(i,l,j)2-μf(m,j)σf(m,j)2)}]]>(式49)μf(m,j)=Σi=1NgΣl=1Lg(i)β(m,l,i,j)α(m,l,i)Σi=1NgΣl=1Lg(i)α(m,l,i)--(m=1,2,...,Mf,j=1,2,...,J)]]>β(m,l,i,j)=σf(m,j)2σh(m,j)2μg(i,,,j)+σg(i,l,j)2σh(m,j)2μf(m,j)-σf(m,j)2σg(i,l,j)2μh(m,j)σf(m,j)2σh(m,j)2+σg(i,l,j)2σh(m,j)2-σf(m,j)2σg(i,l,j)2]]>(式50)
σf(m,j)2=Σi=1NgΣl=1Lg(i)γ(m,l,i,j)α(m,l,i)Σi=1NgΣl=1Lg(i)α(m,l,i)--(m=1,2,...,Mf,j=1,2,...,J)]]>γ(m,l,i,l)={σf(m,j)2σg(i,l,j)2σh(m,j)2σf(m,j)2σh(m,j)2+σg(i,l,j)2σh(m,j)2-σf(m,j)2σg(i,l,j)2]]>+(μf(m,j)σf(m,j)2σh(m,j)2μg(i,,,j)+σg(i,l,j)2σh(m,j)2μf(m,j)-σf(m,j)2σg(i,l,j)2μh(m,j)σf(m,j)2σh(m,j)2+σg(i,l,j)2σh(m,j)2-σf(m,j)2σg(i,l,j)2)2}]]>另外,使用归一化的状态转移概率,使将HMM所对应的状态转变概率全部加到参照模型223上的整体变为1。
如上所述,根据本发明的第2实施方式,因为计算标准模型的统计量来制作标准模型,并且使对根据利用信息选择的多个参照模型的概率或似然最大化或极大化,所以可通过利用状况来提供适合的高精度标准模型。
另外,制作标准模型的定时,不仅限于本实施方式的利用者的明示指示,也可以在其它定时制作标准模型。例如,在STB201中还设置自动判断利用者是否变更的利用者变更判断部。该利用者变更判断部使用输入到电视机摇控器中的识别用语音,判断利用者是否变更、即现在的利用者与此前识别的利用者是否是同一人。在判断为利用者变更的情况下,将该语音作为利用信息,制作标准模型。由此,利用者可无意识地执行使用了适于利用者的标准模型的语音识别。
另外,标准模型222不限于对每个音素构成HMM,也可由上下文有关的HMM构成。
另外,标准模型制作部206也可对部分音素的、部分状态下的事件的输出概率执行模型制作。
另外,构成标准模型222的HMM也可由对每个音素不同的状态数来构成,也可由对每个状态不同的分布数的混合高斯分布来构成。
另外,参照模型221就每个说话者的HMM而言,可由不同的状态数构成,也可由不同的混合数的混合高斯分布来构成。
另外,参照模型221不限于每个说话者的HMM,也可对每个说话者、噪声、声调来制作。
另外,也可将标准模型222记录在CD-ROM、硬盘、DVD-RAM等存储器件中。
另外,也可代替参照模型221的制作,而从CD-ROM、DVD-RAM等存储器件中读入。
另外,参照模型选择部205也可根据利用信息224,改变对每个利用者选择的参照模型的数量。
另外,参照模型准备部202也可在必要时制作新的参照模型后,追加、更新到参照模型存储部203中,并删除存储在参照模型存储部203中的无用的参照模型。
另外,参照模型准备部202在必要时也可经通信路径将新的参照模型追加、更新到参照模型存储部203中。
另外,上述近似计算中选择的输出分布的个数Ph(m)也可因成为对象的事件或标准模型的输出分布不同而不同,也可根据分布间距离来确定。
另外,在制作标准模型后,还可以利用语音数据进行学习。
另外,标准模型构造确定部也可以确定送受话器、三方电话(triphone)、状态共享型等HMM构造、或状态数等。
另外,就混合分布数而言,可以在出厂时将本实施方式中的STB设定成规定值,或者,可以根据考虑了使用网络的设备的CPU功率等规格、起动的应用程序的规格等来确定混合分布数。
(第3实施方式)图13是表示本发明第3实施方式的标准模型制作装置的整体构成框图。这里,示出将本发明的标准模型制作装置组装在PDA(个人数字助理PersonalDigital Assistant)301中的实例。在本实施方式中,以制作噪声识别用标准模型(噪声模型)的情况为例进行说明。
PDA301是便携信息终端,作为制作利用事件的输出概率来定义的噪声识别用标准模型的标准模型制作装置,具备读入部311、参照模型准备部302、参照模型存储部303、利用信息制作部304、参照模型选择部305、标准模型制作部306、规格信息制作部307、麦克风312和噪声识别部313。
读入部311读入写入在CD-ROM等存储器件中的轿车A的参照模型、轿车B的参照模型、巴士A的参照模型、小雨的参照模型、大雨的参照模型等噪声的参照模型。参照模型准备部302将读入的参照模型321发送到参照模型存储部303。参照模型存储部303存储参照模型321。
利用信息制作部304利用PDA301的画面与键来制作作为利用信息的噪声种类。参照模型选择部305从参照模型存储部303所存储的参照模型321中选择音频上与作为利用信息324的噪声种类接近的参照模型。规格信息制作部307根据PDA301的规格来制作规格信息325。这里,所谓规格信息是涉及制作的标准模型的规格的信息,这里是与PDA301具备的CPU的处理能力有关的信息。
标准模型制作部306是如下处理部,根据由规格信息制作部307制作的规格信息325,制作标准模型322,以最大化或极大化针对参照模型选择部305选择的噪声之参照模型的概率或似然,包括确定标准模型构造(高斯分布的混合分布数等)的标准模型构造确定部306a;初始标准模型制作部306b,通过确定计算标准模型用的统计量之初始值,制作初始标准模型;存储确定的初始标准模型的统计量存储部306c;和统计量推定部306d,通过对存储在统计量存储部306c中的初始标准模型使用第2近似部306e的近似计算等,算出最大化或极大化对参照模型选择部305选择的参照模型323之概率或似然的统计量(生成最终的标准模型)。
噪声识别部313使用由标准模型制作部306制作的标准模型322,识别从麦克风312输入的噪声种类。
下面,说明上述构成的PDA301的动作。
图14是表示PDA301的动作步骤的流程图。
首先,在制作标准模型之前,准备成为其基准的参照模型(步骤S300)。即,读入部311读入写入在存储器件中的噪声的参照模型,参照模型准备部302将读入的参照模型321发送给参照模型存储部303,参照模型存储部303存储参照模型321。
参照模型321由GMM构成。图15中示出参照模型321的一例。这里,各噪声模型由混合分布数为3个的GMM构成。作为特征量,使用5维(J=5)的LPC倒频谱系数。
接着,利用信息制作部304制作作为要识别的噪声种类的利用信息324(步骤S301)。图16中示出PDA301的选择画面一例。这里,选择了轿车的噪声。参照模型选择部305从参照模型存储部303存储的参照模型321中,选择音频上与被选择的利用信息324即轿车的噪声接近的参照模型即轿车A的参照模型与轿车B的参照模型(步骤S302)。
之后,规格信息制作部307根据PDA301的规格,制作规格信息325(步骤S303)。这里,根据PDA301的CPU规格,制作CPU功率小这样的规格信息325。标准模型制作部306根据制作的规格信息325,制作标准模型322,使对参照模型选择部305所选择的参照模型323的概率或似然最大化或极大化(步骤S304)。
最后,噪声识别部313使用标准模型322,对利用者从麦克风312输入的噪声执行噪声识别(步骤S305)。
下面,说明图14中的步骤S304(标准模型的制作)的详细步骤。步骤流程与图4所示的流程图一样。但是,采用的标准模型的构造和具体的近似计算等不同。
首先,标准模型构造确定部306a确定标准模型的构造(图4的步骤S102a)。这里,作为标准模型的构造,确定为根据作为规格信息325的CPU功率小的信息,由一混合(Mf=1)的GMM来构成标准模型322。
接着,初始标准模型制作部306b确定用于计算标准模型的统计量初始值(图4的步骤S102b)。这里,将使用统计处理计算、把选择的参照模型323即轿车A的三混合的参照模型统合到一个高斯分布中的模型作为统计量初始值,存储在统计量存储部306c中。
具体而言,初始标准模型制作部306b生成上述式13所示的输出分布。
其中,在本实施方式中,上述式13所示的输出分布中的(式51)x=(x(1),x(2),...,x(J))∈RJ表示5维(J=5)的LPC倒频谱系数。
然后,统计量推定部306d使用参照模型选择部305选择的2个参照模型323,推定存储在统计量存储部306c中的标准模型的统计量(图4的步骤S102c)。
即,推定标准模型的统计量(上式16所示的混合加权系数、上式17所示的平均值、和上式1 8所示的方差值),该标准模型使标准模型对于2个(Ng=2)参照模型322中的输出分布、即上式19所示的输出分布的概率(这里是上式25所示的似然logP)极大化或最大化。
其中,在本实施方式中,上述式19所示的输出分布中的(式52)Lg(i)(i=1,2,...,Ng)为3(各参照模型的混合分布数)。
具体而言,根据上式26、式27和式28,分别算出标准模型的混合加权系数、平均值和方差值。
此时,统计量推定部306d的第2近似部306e假设为标准模型的各高斯分布彼此不影响,使用以下的近似式。
(式53)γ(x,m)≈ωf(m)f(x;μf(m),σf(m)2)uh(m)h(x;μh(m),σh(m)2)≈1.0]]>(m=1,2,...,Mf)
另外,标准模型的高斯分布式(54)ωf(m,p)f(x;μf(m,p),σf(m,p)2)--(m=1,2,...,Mf,p=1,2,...,Ph(m))]]>附近的(式55)X是与上式54所示的输出分布的平均值的欧几里德距离、马哈拉诺比斯距离、KL(Kullback-Leibler库尔贝克-莱布勒)距离等分布间距离近的Qg(m,I)个参照模型323的高斯分布(式56)g(x;μg(i,l),σg(i,l)2)--(i=1,2,...,Ng,l=1,2,...,L(i))]]>存在的空间,与式(57)ωf(m,p)f(x;μf(m,p),σf(m,p)2)--(m=1,2,...,Mf,p=1,2,...,Ph(m))]]>的分布间距离近的Qg(m,I)个(1≤Qg(m,I)≤Lg(I))的所述参照矢量的输出分布近似为所述参照模型的高斯分布(58)υg(i,l)g(x;μg(l),σg(l)2)--(i=1,2,...,Ng,l=1,2,...,Lg(i))]]>中分布间距离最近的(附近指示参数G=1)的所述标准模型的输出分布为所述式57之所述参照矢量的输出分布。
图17是表示该统计量推定部306d的统计量推定步骤的原理图。示出使用如下的高斯分布对各参照模型的各高斯分布进行统计量的推定,该高斯分布中,平均值的欧几里德距离、马哈拉诺比斯距离等分布间距离最近的是标准模型的高斯分布m,。
图18是说明第2近似部306e的近似计算的图。如图所示,第2近似部306e通过对各参照模型的各高斯分布,确定距离最近的标准模型的高斯分布m,由此使用上式53所示的近似式。
若综合考虑以上第2近似部306e的近似式,则统计量推定部306d的计算式如下所示。即,统计量推定部306d根据下式59、式60和式61,分别算出混合加权系数、平均值和方差值,并生成由这些参数特定的标准模型,作为最终的标准模型322。
(式59)ωf(m)=Σi=1NgΣl=1Qg(m,i)υg(i,l)Σk=1MfΣi=1NgΣl=1Qg(m,i)υg(i,l)]]>(m=1,2,...,Mf)(其中,分母、分子之和意味着与各参照模型的各高斯分布中的、平均值的欧几里德距离、马哈拉诺比斯距离等分布间距离最近的成为标准模型的高斯分布m的高斯分布有关的和。)(式60)μf(m,j)=Σi=1NgΣl=1Qg(m,i)υg(i,l)μg(i,l,j)Σi=1NgΣl=1Qg(m,i)υg(i,l)]]>(m=1,2,...,Mf,j=1,2,...,J)
(其中,分母、分子之和意味着与各参照模型的各高斯分布中的、平均值的欧几里德距离、马哈拉诺比斯距离等分布间距离最近的成为标准模型的高斯分布m的高斯分布有关的和。)(式61)σf(m,j)2=Σi=1NgΣl=1Qg(m,i)υg(i,l)(σg(i,l)2+μg(i,l,j)2)Σi=1NgΣl=1Qg(m,i)υg(i,l)-μf(m,j)2]]>(m=1,2,...,Mf,j=1,2,...,J)(其中,分母、分子之和意味着与各参照模型的各高斯分布中的、平均值的欧几里德距离、马哈拉诺比斯距离等分布间距离最近的成为标准模型的高斯分布m的高斯分布有关的和。)但是,在(式62)Σi=1NgQg(m,i)=0--(m=1,2,...,Mf)]]>的情况下,(第1方法)不更新混合加权系数、平均值、方差值。
(第2方法)将混合加权系数的值设为零,将平均值、方差值设为规定值。
(第3方法)将混合加权系数的值设为规定值,将平均值、方差值设为将标准模型的输出分布表现成一个分布时的平均值、方差值。
利用任一方法来确定统计量的值。另外,利用的方法,也可对每个重复次数R、HMM、HMM的状态而不同。这里,使用第1方法。
统计量推定部306d将如此推定的标准模型的统计量存储在统计量存储部306c中。之后,这种统计量的推定与向统计量存储部306c的存储重复R(≥1)次。其结果,将得到的统计量作为最终生成的标准模型322的统计量来输出。
下面,说明将本实施方式适用于PDA的环境音识别中的具体例。
首先,参照模型准备部302从CD-ROM中读出环境音识别所需的参照模型。利用者考虑执行识别的环境(利用信息),从画面上选择想识别的环境音。例如,选择‘轿车’,并接着选择‘警报声’、‘婴儿声音’、‘电车的声音’等。根据该选择,参照模型选择部305从存储在参照模型存储部303中的参照模型中,选择对应的参照模型。之后,一个个地使用选择到的参照模型323,标准模型制作部306分别对其制作标准模型。
接着,利用者对PDA301起动‘提供信息’(通过基于环境音的状况判断来提供信息)等应用程序。该应用程序是根据环境音来执行状况判断,向利用者提供适当信息的程序。一旦起动,则在PDA301的显示画面中执行‘准确判断’、‘快速判断’等显示。与之相对,利用者选择其中一个。
之后,规格信息制作部307根据该选择结果,制作规格信息。例如,在选择‘准确判断’的情况下,为了提高精度,制作将混合分布数设为10个的规格信息。另一方面,在选择‘快速判断’的情况下,为了高速处理,制作将混合分布数设为1个的规格信息。另外,在多个PDA可联动处理的情况下,也可判断当前可利用的CPU功率,并利用该CPU功率来制作规格信息。
根据这种规格信息,制作‘轿车’、‘警报音’、‘婴儿的声音’、‘电车的声音’等单混合的标准模型。之后,PDA301利用制作的标准模型来进行环境识别,根据该识别结果,在PDA画面中显示各种信息。例如,在识别为在附近有‘轿车’的情况下,显示道路地图,或在识别出‘婴儿的声音’的情况下,显示玩具店的广告。这样,实现使用了由本实施方式的标准模型制作装置制作的标准模型的、基于环境音识别的信息提供。另外,可对应于应用程序的规格,来调节标准模型的复杂度。
如上所述,根据本发明的第3实施方式,因为计算标准模型的统计量来制作标准模型,使对于根据利用信息选择的多个参照模型的概率或似然最大化或极大化,所以可通过利用状况来提供适合的高精度标准模型。
另外,因为根据规格信息来制作标准模型,所以可准备适合于利用标准模型的设备之标准模型。
另外,统计量推定部306d的处理重复次数也可以是,使上述式25所示的似然大小直到成为某个规定阈值以上的次数。
另外,构成标准模型322的GMM也可由对每个噪声的种类不同的混合分布数的混合高斯分布来构成。
另外,识别模型不限于噪声模型,也可识别说话者,或识别年龄等。
另外,也可将标准模型322记录在CD-ROM、DVD-RAM、硬盘等存储器件中。
另外,也可由PDA301根据噪声数据来制作参照模型321,以此代替从CD-ROM等存储器件中读入参照模型321。
另外,参照模型准备部302也可在必要时将从CD-ROM等存储器件中读入的新的参照模型追加、更新到参照模型存储部303中,并删除存储在参照模型存储部303中的无用的参照模型。
另外,参照模型准备部302在必要时也可经通信路径将新的参照模型追加、更新到参照模型存储部303中。
另外,在制作标准模型后,还可进一步利用数据进行学习。
另外,标准模型构造确定部也可确定标准模型的构造、或状态数等。
另外,附近指示参照G也可因成为对象的事件或标准模型的输出分布不同而不同,或由重复次数R来使之变化。
(第4实施方式)图19是表示本发明第4实施方式的标准模型制作装置的整体构成的框图。这里,示出将本发明的标准模型制作装置组装在计算机系统的服务器401中的实例。在本实施方式中,以制作脸识别用的标准模型的情况为例来进行说明。
服务器401是通信系统中的计算机装置等,作为制作由事件的输出概率来定义的脸识别用标准模型的标准模型制作装置,配备摄像机411、图像数据存储部412、参照模型准备部402、参照模型存储部412、利用信息接收部404、参照模型选择部405、标准模型制作部406和写入部413。
通过摄像机411来收集脸的图像数据,将脸图像数据存储在图像数据存储部412中。参照模型准备部402使用图像数据存储部412存储的脸图像数据,对每个说话者制作参照模型421,存储在参照模型存储部403中。
利用信息接收部404利用电话414来接收成为利用者期望的脸识别对象的人的年龄年代与性别的信息,作为利用信息424。参照模型选择部405根据利用信息接收部404接收到的利用信息424,从参照模型存储部403存储的参照模型421中,选择与利用信息424表示的年代与性别的说话者对应的参照模型423。
标准模型制作部406是制作标准模型422、使对于参照模型选择部405所选择的说话者脸图像的参照模型423的概率或似然最大化或极大化的处理部,具有与第2实施方式的标准模型制作部206相同的功能,并且,具有第1实施方式中的第1近似部104e与第3实施方式中的第2近似部306e的功能。即,执行组合了第1-第3实施方式所示的3种近似计算的计算。
写入部413将标准模型制作部406制作的标准模型422写入CD-ROM等存储器件中。
下面,说明上述构成的服务器401的动作。
图20是表示服务器401的动作步骤的流程图。图21是表示说明服务器401的动作步骤用的参照模型和标准模型的一例的图。
首先,在制作标准模型之前,准备成为其基准的参照模型(图20的步骤S400)。即,利用摄像机411来收集从小A至小Z的脸图像数据,存储在图像数据存储部412中。参照模型准备部402使用图像数据存储部412存储的脸图像数据,利用EM算法来制作每个说话者的参照模型421。这里,参照模型421由GMM构成。
参照模型存储部403存储参照模型准备部402制作的参照模型421。这里,如图21的参照模型421所示,从小A至小Z的全部参照模型由混合分布数为5个的G删构成。作为特征量,使用100维(J=100)的象素的浓度值。
接着,利用信息接收部404利用电话414来接收作为利用信息424的年代与性别的信息(图20的步骤S401)。这里,作为利用信息424,是从11岁至15岁的男性与从22岁至26岁的女性。参照模型选择部405根据该利用信息424,从参照模型存储部403存储的参照模型421中,选择对应于利用信息424的参照模型423(图20的步骤S402)。具体而言,如图21的‘选择的参照模型423’所示,这里,选择从11岁至15岁的男性与从22岁至26岁的女性的参照模型。
然后,标准模型制作部406制作标准模型422,使对于参照模型选择部405所选择的说话者的参照模型421的概率或似然最大化或极大化(图20的步骤S403)。这里,如图21的标准模型422所示,由混合分布数为3个的GMM来构成两个标准模型422的每个。
标准模型422的制作方法基本上与第2实施方式一样。但是,具体而言,标准模型422的统计量推定中的近似计算如下进行。即,标准模型制作部406通过经内置的存储部等,将通过与第1实施方式中的第1近似部104e执行的近似计算一样的近似计算所制作的模型作为初始值,执行基于与第2实施方式中的一般近似部206e执行的近似计算一样的近似计算的计算,将其结果作为初始值,执行与第3实施方式中的第2近似部306e执行的近似计算一样的近似计算。
写入部413将标准模型制作部406制作的两个标准模型422写入CD-ROM等存储器件中(图20的步骤S404)。
利用者通过邮寄来接收写入了从11岁至15岁的男性之标准模型与从22岁至26岁的女性之标准模型的存储器件。
下面,说明将本实施方式适用于根据行动预测来介绍商店等的信息提供系统中的具体例。该信息提供系统由利用通信网络连接的汽车导航装置与信息提供服务器装置构成。汽车导航装置具备如下功能通过将由本实施方式的标准模型制作装置401事先制作的标准模型用作行动预测模型,预测人的行动(即车的目的地等),提供与该行动关联的信息(位于目的地附近的餐厅等店铺信息等)。
首先,利用者使用汽车导航装置,委托由电话线路414连接的服务器401制作自己用的行动预测模型。
具体而言,利用者在汽车导航装置显示的项目选择画面中,按下‘推荐功能’的按钮。此时,变为输入利用者的住所(利用场所)、年龄、性别、兴趣等的画面。
这里,利用者设为父亲与母亲。首先,一边与汽车导航装置的画面对话,一边输入父亲的个人信息。就住所而言,通过输入电话号码来自动变换。或者,通过在汽车导航装置中显示当前位置时按下‘利用场所’的按钮,将当前位置作为利用场所输入。这里,将住所的信息设为住所A。就年龄与性别而言,选择并输入‘50多岁’、‘男’。就兴趣而言,因为有事先显示的可选项目,所以利用者选择该项目。这里,将父亲的兴趣信息设为兴趣信息A。
接着,同样输入母亲的个人信息。制作由住所B、40多岁、女、兴趣信息B构成的个人信息。这种输入结果如图22的画面显示例所示。
最后,汽车导航装置将如此制作的个人信息作为利用信息,使用附带的电话线路414,传输给作为信息提供服务器装置的服务器401。
接着,服务器401根据传输来的个人信息(利用信息),制作父亲与母亲的两个行动预测模型。这里,行动预测模型由概率模型来表现,其输入的是星期、时刻、当前地等,输出的是提示商店A信息的概率、提示商店B信息的概率、提示商店C信息的概率、提示停车场信息的概率等。
存储在服务器401的参照模型存储部403中的多个参照模型是由年代、性别、代表性住所和兴趣倾向制作的行动预测模型。服务器401事先使用汽车导航装置的输入按钮等来代替摄像机411,输入各种个人信息(上述输入和输出的信息),从而在图像数据存储部412存储各种个人信息,由此参照模型准备部402根据存储在图像数据存储部412中的个人信息,制作多种典型利用者每个的参照模型421,存储在参照模型存储部403中。
参照模型选择部405使用个人信息(利用信息),选择适合于个人信息的参照模型。例如,选择同一街道的、年代与性别相同、兴趣的选择项目八成以上一致的参照模型。服务器401的标准模型制作部406制作综合了所选择参照模型的标准模型。写入部413将制作成的标准模型存储在存储卡中。这里,存储父亲与母亲两个人的标准模型。通过邮寄将存储卡送达到利用者。
利用者通过将接收到的存储卡插入汽车导航装置,选择显示于画面中的‘父亲’与‘母亲’,设定利用者。由此,汽车导航装置通过将存储在安装的存储卡中的标准模型用作行动预测模型,根据当前的星期、时刻、场所等,在必要的定时提示店铺信息等。这样,实现通过将由本实施方式的标准模型制作装置制作的标准模型用作行动预测模型,预测人的行动(即车的目的地)、并提供与该行动关联的信息的信息提供系统。
如上所述,根据本发明的第4实施方式,因为计算标准模型的统计量后制作标准模型,使对于根据利用信息选择到的多个参照模型的概率或似然最大化或极大化,所以可根据利用状况来提供适合的高精度标准模型。
另外,构成标准模型422的GMM也可以由对每个说话者具有不同的分布数的混合高斯分布来构成。
另外,参照模型准备部402也可在必要时制作新的参照模型后追加、更新到参照模型存储部403中,并删除存储在参照模型存储部403中的无用的参照模型。
另外,在制作标准模型后,还可进一步利用数据进行学习。
另外,标准模型构造确定部也可确定标准模型的构造、或状态数等。
(第5实施方式)图23是表示本发明第5实施方式的标准模型制作装置的整体构成的框图。这里,示出将本发明的标准模型制作装置组装在计算机系统中的服务器501中的实例。在本实施方式中,以制作语音识别用的标准模型(适应模型)的情况为例来进行说明。
服务器501是通信系统中的计算机装置等,作为制作由事件的集合与事件或事件间迁移的输出概率来定义的语音识别用标准模型的标准模型制作装置,配备读入部511、语音数据存储部512、参照模型准备部502、参照模型存储部503、利用信息接收部504、参照模型选择部505、标准模型制作部506、规格信息接收部507和写入部513。
读入部511读入在CD-ROM等存储器件中写入的儿童、成人、老年人的语音数据,存储在语音数据存储部512中。参照模型准备部502使用语音数据存储部512存储的语音数据,对每个说话者制作参照模型521。参照模型存储部503存储参照模型准备部502制作的参照模型521。
规格信息接收部507接收规格信息525。利用信息接收部504接收作为利用信息524的利用者的语音。参照模型选择部505从参照模型存储部503存储的参照模型521中,选择音频上与利用信息524即利用者语音接近的说话者的参照模型。
标准模型制作部506是根据规格信息525制作标准模型522、使对于参照模型选择部505所选择的说话者参照模型523的概率或似然最大化或极大化的处理部,具有与第1实施方式的标准模型制作部104相同的功能。写入部513将标准模型制作部506制作的标准模型522写入CD-ROM等存储器件中。
下面,说明上述构成的服务器501的动作。
图24是表示服务器501的动作步骤的流程图。图25是表示说明服务器501的动作步骤用的参照模型和标准模型一例的图。
首先,在制作标准模型之前,准备成为其基准的参照模型(图24的步骤S500)。即,读入部511读入在CD-ROM等存储器件中写入的语音数据,存储在语音数据存储部512中。参照模型准备部502使用语音数据存储部512存储的语音数据,利用鲍姆—韦尔奇的再推定方法对每个说话者制作参照模型521。参照模型存储部503存储参照模型准备部502制作的参照模型521。
参照模型521由每个音素的HMM构成。这里,如图25的参照模型521所示,儿童的各说话者的参照模型,利用状态数为3个、各状态下混合分布数为3个的混合高斯分布来构成HMM的输出分布;成人的各说话者的参照模型,利用状态数为3个、各状态下混合分布数为64个的混合高斯分布来构成HMM的输出分布;老年人的各说话者的参照模型,利用状态数为3个、各状态下混合分布数为16个的混合高斯分布来构成HMM的输出分布。这是因为儿童的语音数据较少,成人的语音数据多。作为特征量,使用25维(J=25)的梅尔倒频谱(Mel-frequencyceptral coefficient)系数。
接着,利用信息接收部504从终端装置514接收利用者的语音,作为利用信息524(图24的步骤S501)。参照模型选择部505从参照模型存储部503存储的参照模型521中,选择音频上与作为利用信息524的利用者语音接近的参照模型523(图24的步骤S502)。具体而言,如图25的‘选择的参照模型523’所示,这里,选择接近的说话者10人(Ng=10)的参照模型。
之后,规格信息接收部507根据利用者的请求,从终端装置514接收规格信息525(图24的步骤S503)。这里,接收称为快速识别处理的规格信息525。标准模型制作部506根据规格信息接收部507接收的规格信息525,制作标准模型522,使对于参照模型选择部505选择的说话者的参照模型523的概率或似然最大化或极大化(图24的步骤S504)。具体而言,标准模型522如图25的标准模型522所示,根据所谓作为规格信息525的快速识别处理的信息,由2混合(Mf=2)、3状态的HMM构成。HMM按每个音素构成。
标准模型522的制作方法与第1实施方式一样进行。
写入部513将标准模型制作部506制作的标准模型522写入CD-ROM等存储器件中(图24的步骤S505)。
下面,说明将本实施方式适用于基于使用通信网络的语音识别之游戏中的具体例。这里,设服务器501具备使用制作的标准模型来进行语音识别的语音识别部。
另外,将PDA作为终端装置514。它们由通信网络来连接。
服务器501通过读入部511、语音数据存储部512和参照模型准备部502,在由CD或DVD等获得语音数据的定时,依次准备参照模型。
利用者在PDA(终端装置514)中起动利用了语音识别的游戏程序,这里为‘动作游戏’。此时,显示‘请用声音发出‘动作”,所以利用者发声为‘动作’。该语音作为利用信息,从PDA(终端装置514)发送到服务器501,由服务器501的利用信息接收部504和参照模型选择部505,从存储在参照模型存储部503中的多个参照模型中,选择与利用者一致的参照模型。
另外,由于利用者希望快速反应,所以在PDA(终端装置514)的设定画面中设定‘高速识别’。将该设定内容作为规格信息,从PDA(终端装置514)发送到服务器501,服务器501根据这种规格信息和所选择的参照模型,由标准模型制作部506制作2混合的标准模型。
利用者在动作游戏中,对PDA的麦克风用声音发出‘向右移动’、‘向左移动’等指令。将输入的语音发送给服务器,执行利用了已制作的标准模型的语音识别。将该识别结果从服务器501发送到PDA(终端装置514),PDA(终端装置514)中,根据发送的识别结果,动作游戏中的角色动作。这样,通过将由本实施方式的标准模型制作装置制作的标准模型用于语音识别,实现基于语音的动作游戏。
另外,同样,也可将本实施方式适用于其它应用程序、例如使用通信网络的翻译系统。例如,利用者在PDA(终端装置514)中起动称为‘语音翻译’的应用程序。此时,显示‘请用声音发出‘翻译”。利用者发出‘翻译’的声音。将该语音作为利用信息,从PDA(终端装置514)发送到服务器501。另外,利用者由于希望准确识别,所以该应用程序中指示‘希望准确识别’的内容。将该指示作为规格信息,从PDA(终端装置514)发送到服务器501。服务器501根据发送来的利用信息和规格信息,制作例如100混合的标准模型。
利用者向PDA(终端装置514)的麦克风发出‘早安’的声音。将输入的语音从PDA(终端装置514)发送给服务器501,在服务器501识别为‘早安’之后,将该识别结果返回给PDA(终端装置514)。PDA(终端装置514)将从服务器501接收到的识别结果翻译成英语,将其结果‘GOOD MORNING’显示于画面中。这样,通过将由本实施方式的标准模型制作装置制作的标准模型用于语音识别,可实现基于语音的翻译装置。
如上所述,根据本发明的第5实施方式,计算标准模型的统计量来制作标准模型,使对于根据利用信息选择到的多个参照模型的概率或似然最大化或极大化,所以可根据利用状况来提供适合的高精度标准模型。
另外,因为根据规格信息来制作标准模型,所以准备适用于利用标准模型的设备的标准模型。
另外,参照模型准备部502可对每个参照模型准备适应于数据数的混合分布数的高精度参照模型,可使用高精度参照模型来制作标准模型。因此,可利用高精度标准模型。
另外,标准模型522不限于对每个音素构成HMM,也可由依赖于上下文的HMM构成。
另外,构成标准模型522的HMM也可由对每个状态具有不同的分布数的混合高斯分布来构成。
另外,服务器501也可使用标准模型522来执行语音识别。
另外,参照模型准备部502也可在必要时制作新的参照模型后追加、更新到参照模型存储部503中,并删除存储在参照模型存储部503中的无用的参照模型。
另外,在制作标准模型后,还可进一步利用数据进行学习。
另外,标准模型构造确定部也可以确定标准模型的构造、或状态数等。
(第6实施方式)图26是表示本发明第6实施方式的标准模型制作装置的整体构成的框图。这里,示出将本发明的标准模型制作装置组装在计算机系统中的服务器601内的实例。在本实施方式中,以制作意图理解用的标准模型(嗜好模型)的情况为例来进行说明。
服务器601是通信系统中的计算机装置等,作为制作由事件的输出概率来定义的意图识别用标准模型的标准模型制作装置,具备读入部611、参照模型准备部602、参照模型存储部603、利用信息接收部604、参照模型选择部605、标准模型制作部606和规格信息制作部607。
读入部611读入在CD-ROM等存储器件中写入的不同年龄的说话者小A至说话者小Z的嗜好模型,参照模型准备部602将读入的参照模型621发送给参照模型存储部603,参照模型存储部603存储参照模型621。
规格信息制作部607对应正在普及的计算机的CPU功率,制作规格信息625。利用信息接收部604从终端装置614接收利用信息624。参照模型选择部605根据利用信息接收部604接收到的利用信息624,从参照模型存储部603存储的参照模型621中,选择对应于利用信息624的参照模型623。
标准模型制作部606是根据规格信息制作部607制作的规格信息625,制作标准模型622,使对于参照模型选择部605选择的参照模型623的概率或似然最大化或极大化的处理部,具有与第2实施方式中的标准模型制作部206相同的功能,同时,还具有第3实施方式的第2近似部306e的功能。即,组合第2和第3实施方式所示的两种近似计算,进行计算。
下面,说明上述构成的服务器601的动作。
图27是表示服务器601的动作步骤的流程图。图28是表示说明服务器601的动作步骤用的参照模型和标准模型一例的图。
首先,在制作标准模型之前,准备成为其基准的参照模型(图27的步骤S600)。即,读入部611读入在CD-ROM等存储器件中写入的不同年龄的从说话者小A至说话者小Z的嗜好模型,参照模型准备部602将读入的参照模型621发送给参照模型存储部603,参照模型存储部603存储参照模型621。
参照模型621由GMM构成。这里,如图28的参照模型621所示,由混合分布数为3个的GMM来构成。作为学习数据,使用将兴趣、性格等数值化的5维(J=5)的特征量。在请求制作标准模型之前,执行参照模型的准备。
接着,利用信息接收部604接收想制作嗜好模型的年龄层的利用信息624(图27的步骤S601)。这里,是利用20多岁、30多岁、40多岁等不同年龄带的嗜好模型的利用信息624。参照模型选择部605如图28的‘选择的参照模型623’所示,从参照模型存储部603存储的参照模型621中,选择利用信息接收部604接收的利用信息624所表示的年龄带说话者的嗜好模型(图27的步骤S602)。
之后,规格信息制作部607根据正在普及的计算机的CPU功率、存储容量等,制作规格信息625(图27的步骤S603)。这里,制作所谓通常速度识别处理的规格信息625。
标准模型制作部606根据规格信息制作部607制作的规格信息625,制作标准模型622,使对于参照模型选择部605选择的说话者的参照模型623的概率或似然最大化或极大化(图27的步骤S604)。这里,标准模型622如图28的标准模型622所示,根据作为规格信息625的通常速度识别处理等信息,由3混合(Mf=3)的GMM构成。
标准模型622的制作方法基本上与第2实施方式一样进行。但是,就标准模型622的统计量推定中的近似计算而言,具体如下执行。即,标准模型制作部606通过内置的存储部等,进行利用与第2实施方式中的一般近似部206e执行的近似计算一样的近似计算的计算,将其结果作为初始值,进行与第3实施方式中的第2近似部306e的近似计算一样的近似计算。
下面,说明将本实施方式适用于信息检索装置中的具体例。这里,参照模型的输入检索关键字,输出利用检索路径A、检索路径B等的概率。若使用不同的检索路径,则显示的检索结果不同。另外,设服务器601的参照模型存储部603中准备的参照模型,是具有代表性特征的说话者的模型。
首先,利用者使用附带于服务器601的摇控器(终端装置614),输入利用信息。利用信息是年龄、性格、性别、兴趣等。另外,也可以是识别‘儿童’、‘演员’、‘高校生’等规定群体的信息。
接着,利用者通过选择画面,从‘汽车导航装置用’、‘便携式电话机用’、‘电脑用’、‘电视机用’等中选择一个利用设备。服务器601的规格信息制作部607根据利用设备的CPU功率、存储容量来制作规格信息。这里,设选择了‘电视机用’,制作内容为CPU功率与存储容量小的规格信息625,根据该规格信息625,标准模型制作部606制作即便是小的CPU功率下也动作的3混合标准模型。将制作的标准模型存储在存储卡中,利用者将该存储卡插入电视机中。
利用者利用显示于电视机中的EPG等,为了检索推荐节目,输入检索关键字。此时,电视机使用记录在存储卡中的标准模型,确定符合检索关键字的检索路径,沿该检索路径来检索节目,作为符合利用者嗜好的节目而显示。这样,实现使用了由本实施方式的标准模型制作装置制作的标准模型的方便的检索装置。
如上所述,根据本发明的第6实施方式,因为计算标准模型的统计量后制作标准模型,使对于根据利用信息选择到的多个参照模型的概率或似然最大化或极大化,所以可根据利用状况来提供适合的高精度标准模型。
另外,因为根据规格信息来制作标准模型,所以准备适合于利用标准模型的设备的标准模型。
另外,构成标准模型622的GMM也可由对每个说话者具有不同的分布数的混合高斯分布来构成。
另外,参照模型准备部602也可在必要时将从CD-ROM等存储器件中读入的新的参照模型追加、更新到参照模型存储部603中,并删除存储在参照模型存储部603中的无用的参照模型。
另外,参照模型和标准模型的GMM也可表现网络呼叫(贝叶斯网络)的一部分。
另外,在制作标准模型后,还可进一步利用数据进行学习。
另外,标准模型构造确定部也可确定送受话器、三方电话、状态共享型等HMM构造、或状态数等。
(第7实施方式)图29是表示本发明第7实施方式的标准模型制作装置的整体构成的框图。这里,示出将本发明的标准模型制作装置组装在计算机系统中的服务器701中的实例。在本实施方式中,以制作语音识别用的标准模型(适应模型)的情况为例来进行说明。
服务器701是通信系统中的计算机装置等,作为制作由事件的集合和事件或事件间转变的输出概率来定义的语音识别用标准模型的标准模型制作装置,配备读入部711、参照模型准备部702、参照模型存储部703、利用信息接收部704、参照模型选择部705、标准模型制作部706、规格信息接收部707、标准模型存储部708和标准模型发送部709。
参照模型准备部702将按读入部711读入的、写入在CD-ROM等存储器件中的说话者、噪声、声调分类的语音识别用参照模型发送到参照模型存储部703,参照模型存储部703存储发送来的参照模型721。
规格信息接收部707从终端装置712接收规格信息725。利用信息接收部704从终端装置712接收在某种噪声下发声的利用者的语音。参照模型选择部705从参照模型存储部703存储的参照模型721中,选择音频上与作为利用信息724的利用者语音接近的说话者、噪声、声调的参照模型723。
标准模型制作部706是根据规格信息接收部707接收的规格信息725制作标准模型722、使对于参照模型选择部705选择的参照模型723的概率或似然最大化或极大化的处理部,具有与第2实施方式的标准模型制作部206相同的功能。标准模型存储部708存储基于规格信息725的一个或多个标准模型。当标准模型发送部709从利用者的终端装置712接收规格信息与标准模型的请求信号时,向终端装置712发送适合于该规格信息的标准模型。
下面,说明上述构成的服务器701的动作。
图30是表示服务器701的动作步骤的流程图。图31是表示说明服务器701的动作步骤用的参照模型和标准模型一例的图。
首先,在制作标准模型之前,准备成为其基准的参照模型(图30的步骤S700)。即,参照模型准备部702将按读入部711读入的、写入在CD-ROM等存储器件中的说话者、噪声、声调分类的语音识别用参照模型发送到参照模型存储部703,参照模型存储部703存储发送来的参照模型721。这里,对每个说话者、噪声、声调,参照模型721由每个音素的HMM构成。另外,各参照模型如图31的参照模型721所示,利用状态数为3个、各状态下混合分布数为128个的混合高斯分布来构成HMM的输出分布。作为特征量,使用25维(J=25)的对数倒频谱系数。
接着,利用信息接收部704从终端装置712接收利用者A在噪声下的语音,作为利用信息724(图30的步骤S701)。参照模型选择部705从参照模型存储部703存储的参照模型721中,选择音频上与作为利用信息724的利用者A的语音接近的参照模型723(图30的步骤S702)。具体而言,如图31的‘选择的参照模型723’所示,这里,选择接近的说话者100人(Ng=100)的参照模型。
之后,规格信息接收部707根据利用者A的请求,从终端装置712接收规格信息725(图30的步骤S703)。这里,接收称为高识别精度的规格信息725。标准模型制作部706根据规格信息725制作标准模型722,使对于参照模型选择部705选择的参照模型723的概率或似然最大化或极大化(图30的步骤S704)。具体而言,标准模型722如图31的标准模型722所示,根据作为规格信息725的所谓高识别精度的信息,由64混合(Mf=64)、3状态的HMM构成。HMM按每个音素构成。
标准模型722的制作方法与第2实施方式一样。
标准模型存储部708存储基于规格信息725的一个或多个标准模型722。这里,已存储着以前制作的标准模型即利用者B的16混合的HMM,新存储利用者A的64混合的HMM。
利用者A从终端装置712向服务器701的标准模型发送部709发送作为规格信息的利用者A、噪声种类、和标准模型的请求信号(图30的步骤S706)。标准模型发送部709在接收到利用者A发送的规格信息与标准模型的请求信号时,向终端装置712发送适合于该规格的标准模型(图30的步骤S707)。这里,将先前制作的利用者A的标准模型722发送给终端装置712。
利用者A使用在终端装置712中接收到的标准模型722来进行语音识别(图30的步骤S708)。
下面,说明将本实施方式适用于由通过通信网络连接的汽车导航装置(终端装置712)与服务器装置(服务器701;标准模型制作装置)构成的语音识别系统中的具体例。
首先,利用者在汽车导航装置(终端装置712)的画面中,选择代表‘获得自己的语音模型’的按钮。此时,显示为‘请输入姓名’,所以通过按钮操作来输入自己的姓名。接着,显示为‘请用声音发出‘语音”,所以利用者向汽车导航装置附带的麦克风发出‘语音’的声音。将这些信息(利用者的姓名、噪声下的语音)作为利用信息,从汽车导航装置(终端装置712)发送到服务器701。
同样,利用者在汽车导航装置(终端装置712)的画面,选择‘高精度的语音识别’的按钮。此时,将该选择信息作为规格信息,从汽车导航装置(终端装置712)发送到服务器701。
服务器701根据这些利用信息和规格信息,制作适合于利用者的语音识别用的标准模型,并将制作的标准模型与利用者的姓名相对应后,存储在标准模型存储部708中。
当下次起动汽车导航装置(终端装置712)时,因为显示‘请输入姓名’,所以利用者输入姓名。此时,将该姓名发送给服务器701,由标准模型发送部709将存储在标准模型722中的对应的标准模型从服务器701发送给终端装置712。从服务器701下载对应于姓名(利用者)的标准模型的终端装置712,使用该标准模型执行对利用者的语音识别,执行基于语音的目的地设定等。这样,通过将由本实施方式的标准模型制作装置制作的标准模型用于语音识别,可通过语音来操作汽车导航装置。
如上所述,根据本发明的第7实施方式,因为计算标准模型的统计量后制作标准模型,使对于根据利用信息选择到的多个参照模型的概率或似然最大化或极大化,所以可根据利用状况来提供适合的高精度标准模型。
另外,因为根据规格信息来制作标准模型,所以准备适用于利用标准模型的设备的标准模型。
另外,因为标准模型存储部708可存储多个标准模型,所以必要时可马上提供标准模型。
另外,因为利用标准模型发送部709向终端装置712发送标准模型,所以当终端装置712与服务器设置在空间上远离的场所的情况下,终端装置712可容易利用服务器701制作的标准模型。
另外,标准模型722不限于对每个音素构成HMM,也可由依赖上下文的HMM构成。
另外,构成标准模型722的HMM也可由对每个状态具有不同的混合数的混合高斯分布来构成。
另外,也可使用标准模型722在服务器701中执行语音识别,将识别结果发送到终端装置712。
另外,参照模型准备部702也可在必要时制作新的参照模型后追加、更新到参照模型存储部703中,并删除存储在参照模型存储部703中的无用的参照模型。
另外,参照模型准备部702也可在必要时经通信路径将新的参照模型追加、更新到参照模型存储部703中。
另外,在制作标准模型后,还可进一步利用数据进行学习。
另外,标准模型构造确定部也可确定送受话器、三方电话(triphone)、状态共享型等HMM构造、或状态数等。
(第8实施方式)图32是表示本发明第8实施方式的标准模型制作装置整体构成的框图。这里,示出将本发明的标准模型制作装置组装在便携式电话机901中的实例。在本实施方式中,以制作语音识别用标准模型的情况为例进行说明。
便携式电话机901是便携信息终端,作为制作由用事件的集合和事件或事件间转变的输出概率来表现的隐马尔科夫模型所定义的语音识别用标准模型的标准模型制作装置,具备参照模型接收部909、参照模型准备部902、参照模型存储部903、标准模型制作部904、参照模型选择部905、类似度信息制作部908、标准模型制作部906、规格信息制作部907、麦克风912和语音识别部913。
利用信息制作部904利用便携式电话机901的画面与键,制作利用信息924。
规格信息制作部907根据便携式电话机901的规格,制作规格信息925。这里,所谓规格信息是与制作的标准模型的规格有关的信息,这里是与便携式电话机90 1配备的CPU处理能力有关的信息。
类似度信息制作部908根据利用信息924、规格信息925、和参照模型存储部903存储的参照模型921,制作类似度信息926,发送给参照模型准备部。
参照模型准备部902根据类似度信息926,确定是否准备参照模型。参照模型准备部902在确定为准备参照模型的情况下,将利用信息924与规格信息925发送给参照模型接收部909。
参照模型接收部909从服务器装置910接收与利用信息924和规格信息925对应的参照模型,发送给参照模型准备部902。
参照模型准备部902将参照模型接收部909发送的参照模型存储在参照模型存储部903中。
参照模型选择部905从参照模型存储部903存储的参照模型92 1中,选择对应于利用信息924的参照模型923。
标准模型制作部906是根据规格信息制作部907制作的规格信息925制作标准模型922、使对于参照模型选择部905所选择的参照模型923的概率或似然最大化或极大化的处理部,包括确定标准模型的构造(高斯分布的混合分布数等)的标准模型构造确定部906a;初始标准模型制作部906b,通过确定计算标准模型用的统计量初始值,制作初始标准模型;存储确定的初始标准模型的统计量存储部906c;和统计量推定部906d,通过对存储在统计量存储部906c中的初始标准模型使用第3近似部906e的近似计算等,算出使对于参照模型选择部905选择的参照模型923的概率或似然最大化或极大化的统计量(生成最终的标准模型)。
语音识别部913使用由标准模型制作部906制作的标准模型922,识别从麦克风912输入的利用者的语音。
下面,说明上述构成的便携式电话机901的动作。
图33是表示便携式电话机901的动作步骤的流程图。
现在,设在参照模型存储部903中事先存储儿童用模型,作为参照模型921。该参照模型921由每个音素的HMM构成。图34示出参照模型921的一例。这里,示出儿童用参照模型的模式图。这些参照模型由状态数为3个、各状态下分布数为16个的混合高斯分布来构成HMM的输出分布。作为特征量,使用12维的梅尔倒频谱系数、12维的δ梅尔倒频谱系数、δ功率的共计25维(J=25)特征量。
首先,利用信息制作部904制作作为利用者所属分类的利用信息924(步骤S900)。图36是表示利用信息924的制作例的图。图36(a)中示出便携式电话机901的选择画面的一例。这里,通过按下‘4成人’的按钮,选择该便携式电话机901用于成人女性与成人男性。图36(b)中示出另一例。这里,边按下‘菜单’按钮边输入语音。通过将该利用者的语音变换成特征量,制作作为利用信息924的‘利用者的语音数据’。
另一方面,规格信息制作部907根据便携式电话机901的规格,制作规格信息925(步骤S901)。这里,根据便携式电话机901的存储器容量的大小,制作‘混合分布数16’这样的规格信息925。
接着,类似度信息制作部908根据利用信息924、规格信息925和参照模型存储部903存储的参照模型921,制作类似度信息926(步骤S902),将类似度信息926发送给参照模型准备部902。这里,存在于参照模型存储部903中的参照模型921仅是混合分布数为3的儿童用模型(参照34),由于在参照模型存储部903中不存在与作为利用信息924的‘成人’(对应图36(a))和作为规格信息925的‘混合分布数16’对应的参照模型,所以制作‘类似的参照模型不存在’这样的类似度信息926,将类似度信息926发送给参照模型准备部902。在另一例中,利用信息924是“利用者的语音数据”(对应于图36(b)),将利用者的语音数据输入到参照模型存储部903存储的儿童用模型中,制作类似度信息926。这里,因为对儿童用模型的似然在规定阈值以下,所以制作‘不存在类似的参照模型’这样的类似度信息926,发送给参照模型准备部902。
接着,参照模型准备部902根据类似度信息926,确定是否准备参照模型(步骤S903)。这里,因为‘不存在类似的参照模型’,所以如图37(a)的便携式电话机901的画面显示例所示,督促利用者准备参照模型。这里,在利用者按下‘备忘录’按钮以请求准备参照模型的情况下,参照模型准备部902确定为准备参照模型,将利用信息924与规格信息925发送给参照模型接收部909。在另一例中,因为‘不存在类似的参照模型’,所以参照模型准备部902确定为自动准备参照模型,将利用信息924与规格信息925发送给参照模型接收部909。图37(b)示出此时的便携式电话机901的画面一例。
与之相对,参照模型接收部909从眼务器装置910接收与利用信息924和规格信息925对应的参照模型后,发送给参照模型准备部902。这里,参照模型接收部909从服务器装置910接收作为与利用信息924的‘成人’(对应图36(a))与规格信息925的‘混合分布数16’对应的参照模型的、“混合分布数16的成人女性用模型”与“混合分布数16的成人男性用模型”等两个参照模型。
之后,参照模型准备部902通过将参照模型接收部909发送的参照模型存储在参照模型存储部903中,准备参照模型(步骤S904)。图35中示出该参照模型的一例。这里,示出成人男性用、成人女性用、儿童用参照模型的图象图。
接着,参照模型选择部905从参照模型存储部903存储的参照模型921中,选择属于与利用信息924的‘成人’对应的相同分类的“混合分布数16的成人女性用模型”与“混合分布数16的成人男性用模型”等两个参照模型(步骤S905)。在另一例中,参照模型选择部905从参照模型存储部903存储着的参照模型921中,选择音频上与作为利用信息924的“利用者的语音数据(似然大)接近的“混合分布数16的成人女性用模型”和“混合分布数16的成人男性用模型”等两个参照模型。
接着,标准模型制作部906根据制作的规格信息925,制作标准模型922,使对于参照模型选择部905选择的参照模型923的概率或似然最大化或极大化(步骤S906)。
最后,语音识别部913根据由标准模型制作部906制作的标准模型922,识别从麦克风912输入的利用者的语音(步骤S907)。
下面,说明图33中的步骤S906(标准模型的制作)的详细步骤。步骤流程与图4所示的流程图一样。但是,采用的标准模型的构造或具体的近似计算等不同。
首先,标准模型构造确定部906a确定标准模型的构造(图4的步骤S102a)。这里,作为标准模型的构造,根据作为规格信息925的‘混合分布数16’,由每个音素的HMM构成,将状态数设为3,将各状态的输出分布的混合分布数确定为16个(Mf=16)。
接着,初始标准模型制作部906b确定计算标准模型用的统计量初始值(图4的步骤S102b)。这里,将被选择的参照模型923即“混合分布数16的成人女性用模型”作为统计量的初始值存储在统计量存储部906c中。在另一例中,将被选择的参照模型923即“混合分布数16的成人男性用模型”作为统计量的初始值存储在统计量存储部906c中。具体而言,初始标准模型制作部906b生成上述式13所示的输出分布。
之后,统计量推定部906d使用参照模型选择部905选择的2个参照模型923,推定存储在统计量存储部906c中的标准模型的统计量(图4的步骤S102c)。即,推定使标准模型对于2个(Ng=2)参照模型923的输出分布、即上式19所示的输出分布的概率(这里为上式25所示的似然logP)极大化或最大化的标准模型的统计量(上式16所示的混合加权系数、上式17所示的平均值、和上式18所示的方差值)。但是,在本实施方式中,上式19所示的输出分布中的式21是16(各参照模型的混合分布数)。
具体而言,根据上式26、式27和式28,分别算出标准模型的混合加权系数、平均值和方差值。
此时,统计量推定部906d的第3近似部906e假设标准模型的各高斯分布彼此不产生影响,使用式53的近似式。另外,在重复次数R为第1次的情况下,所谓式54所示的标准模型的高斯分布附近的式55,近似成与式54所示的输出分布之马哈拉诺比斯距离、KL(KL)距离等分布间距离近的与第2近的两个(附近指示参数G=2)的式56所示的参照模型923的高斯分布存在的空间。另一方面,在重复次数R为第2次以上的情况下,所谓式54所示的标准模型的高斯分布附近的式55,近似成与式54所示的输出分布的马哈拉诺比斯距离、KL(KL)距离等分布间距离近的一个(附近指示参数G=1)的式56所示的参照模型923的高斯分布存在的空间。
若综合考虑以上第3近似部906e的近似式,则统计量推定部906d的计算式如下所示。即,统计量推定部906d根据式59、式60和式61,分别算出混合加权系数、平均值和方差值,并生成由这些参数特定的标准模型,作为最终的标准模型922。其中,使用作为第3实施方式中的第2方法的、将混合加权系数的值设为零、将平均值设为零、将方差值设为1的方法。另外,对应于重复次数,附近指示参数G的值不同。另外,也可依赖于附近指示参数G的值,将上述方法确定为第3实施方式中的第1至第3方法之一。
统计量推定部906d将如此推定的标准模型的统计量存储在统计量存储部906c中。之后,重复R(≥1)次这种统计量的推定与向统计量存储部906c的存储。其结果,将得到的统计量作为最终生成的标准模型922的统计量来输出。
图38示出利用了使用第3近似部906e制作的标准模型922的识别实验的结果。纵轴示出成人(男性与女性)的识别率(%),横轴示出重复次数R。所谓重复次数R=0是指,进行学习之前由初始标准模型制作部906b制作的初始模型所识别的结果。另外,当重复次数R=1时,设为附近指示参数G=2,当重复次数R=2~5时,设为附近指示参数G=1。
曲线‘数据’,表示几天期间利用语音数据学习时的结果,曲线‘女性’、曲线‘男性’分别表示将初始模型设为成人女性、成人男性时的结果。基于参照模型的本发明的学习时间为数十秒级。从实验结果可知,可在短时间内制作高精度的标准模型。
这里,为了参考,图39中示出基于由第3实施方式中的第2近似部306E制作的标准模型的识别率。与本实施方式中的第3近似部906e的不同之处在于,无论重复次数R如何,均为附近指示参数G=1。从实验结果可知,若作为初始模型选择成人女性,可知能得到良好的结果。另外,若作为初始模型选择成人男性,可知精度稍恶化。若结合图38的结果,则可知基于第3近似部906e的标准模型与初始模型无关,可制作高精度的标准模型。
如上所述,根据本发明的第8实施方式,因为根据类似度信息来准备参照模型,所以可以在必要的定时准备适合于利用信息和规格信息的参照模型。另外,通过由重复次数R来变化附近指示参数G,可与初始模型无关地提供高精度的标准模型。
另外,统计量推定部906e处理的重复次数也可以是上式25所示的似然之大小变为某个规定阈值以上之前的次数。
另外,标准模型922不限于对每个音素构成HMM,也可由依赖上下文的HMM构成。
另外,标准模型制作部906也可对部分音素的、部分状态下的事件输出概率来执行模型制作。
另外,构成标准模型922的HMM也可对每个音素由不同的状态数来构成,也可由对每个状态具有不同分布数的混合高斯分布来构成。
另外,在制作标准模型后,还可利用语音数据进行学习。
另外,标准模型构造确定部也可确定送受话器、三方电话、状态共享型等HMM构造、或状态数等。
(第9实施方式)图40是表示本发明第9实施方式的标准模型制作装置整体构成的框图。这里,示出将本发明的标准模型制作装置组装在PDA(Personal DigitalAssistant个人数字助理)1001中的实例。下面,在本实施方式中,以制作语音识别用标准模型的情况为例进行说明。
PDA1001是便携式信息终端,作为制作用事件的集合和事件或事件间转变的输出概率来表现的隐马尔科夫模型所定义的语音识别用标准模型的标准模型制作装置,具备参照模型存储部1003、标准模型制作部1006、应用程序及规格信息对应数据库1014、麦克风1012、和语音识别部1013。标准模型制作部1006配备标准模型构造确定部1006a、初始标准模型制作部1006b、统计量存储部306c、和统计量推定部306d。
标准模型制作部1006根据发送来的应用程序起动信息1027(这里为起动的应用程序的ID号),使用应用程序及规格信息对应数据库1014,取得规格信息1025。图41示出规格信息对应数据库1014的数据例。在规格信息对应数据库1014中登录对应于应用程序(ID号和姓名)的规格信息(这里为混合分布数)。
标准模型制作部1006是根据取得的规格信息1025制作标准模型1022、使对于参照模型存储部1003存储的一个参照模型1021的概率或似然最大化或极大化的处理部,具有第3实施方式的第2近似部306e的功能。
语音识别部1013使用由标准模型制作部1006制作的标准模型1022,识别从麦克风1012输入的利用者的语音。
下面,说明上述构成的PDA1001的动作。
图42是表示PDA1001的动作步骤的流程图。
这里,设在参照模型存储部1003中事先存储一个具有很多混合分布数的利用者用模型,作为参照模型1021。参照模型1021由每个音素的HMM构成。图43示出参照模型1021的一例。该参照模型由状态数为3个、各状态下分布数为300个的混合高斯分布来构成HMM的输出分布。作为特征量,使用12维的梅尔倒频谱系数、12维的δ梅尔倒频谱系数、δ功率的共计25维(J=25)的特征量。
首先,利用者起动例如所谓‘股票交易’的应用程序(步骤S1000)。
与之相对,标准模型制作部1006接收起动的应用程序的ID‘3’,作为应用程序起动信息(步骤S1001)。之后,使用应用程序及规格信息对应数据库1014,根据作为对应于ID‘3’的规格信息1025的‘混合分布数126’,制作标准模型1022(步骤S1002)。具体而言,作为标准模型1022,由混合分布数126(Mf=126)、3状态的上下文依赖型的HMM构成。
接着,标准模型制作部1006接收规格信息1025(步骤S1001),根据规格信息1025来制作标准模型(步骤S1002)。
最后,语音识别部1013根据由标准模型制作部1006制作的标准模型1022,识别从麦克风1012输入的利用者的语音(步骤S1003)。
下面,说明图42中的步骤S1002(标准模型的制作)的详细步骤。步骤流程与图4所示的流程图一样。但是,采用的标准模型的构造或具体的近似计算等不同。
首先,标准模型构造确定部1006a在接收应用程序ID‘3’作为应用程序起动信息1027之后,通过使用应用程序及规格信息对应数据库1014来对照对应于ID‘3’的规格信息1025(‘混合分布数126’),将标准模型的构造确定为混合分布数126(Mf=126)、3状态的上下文依赖型HMM(图4的步骤S102a)。
接着,初始标准模型制作部1006b根据标准模型构造确定部1006a确定的标准模型的构造,确定计算标准模型用的统计量初始值(图4的步骤S102b)。这里,将通过k-means法与使用马哈拉诺比斯距离的方法进行了后述的群集(clustering)的值,作为统计量的初始值,存储在统计量存储部306c中。
之后,统计量推定部306d使用存储在参照模型存储部1003中的参照模型1021,推定存储在统计量存储部306c中的标准模型的统计量(图4的步骤S102c)。另外,该统计量推定部306d的推定处理与第3实施方式一样。
下面,说明基于初始标准模型制作部1006b的初始值确定方法,即利用k-means法与使用了马哈拉诺比斯距离的方法的群集。图44示出群集的流程图。另外,图45-图48中示出群集的模式图。
首先,在图44的步骤S1004中,准备作为标准模型混合分布数的126个代表点(图45)。这里,从参照模型的300个输出分布中,选择126个输出分布,将选择到的分布的平均值设为代表点。
之后,在图44的步骤S1005中,对各代表点确定马哈拉诺比斯距离近的参照模型的输出矢量(图46)。之后,在图44的步骤S1006中,用一个高斯分布来表现由步骤S1005确定的近的分布,将平均值设为新的代表点(图47)。
之后,在图44的步骤S1007中,确定是否停止群集操作。这里,在各代表点与参照矢量的分布的马哈拉诺比斯距离变化率(同与前1次代表点的距离之间的差)为阈值以下的情况下停止。在不满足停止条件的情况下,返回图44的步骤S1005,确定近的分布,重复同样的操作。
另一方面,在满足停止条件的情况下,前进到图44的步骤S1008,确定统计量的初始值后,存储在统计量存储部306c中。这样,执行基于群集的初始值确定。
如上所述,根据本发明的第9实施方式,可与应用程序联动来自动获得适合于规格信息的标准模型。
另外,标准模型1022也可以按每个音素构成HMM。
另外,标准模型制作部1006也可以对部分音素的、部分状态下的事件输出概率进行模型制作。
另外,构成标准模型1022的HMM也可由对每个音素不同的状态数来构成,也可由对每个状态具有不同分布数的混合高斯分布来构成。
另外,在制作标准模型后,还可利用语音数据进行学习。
另外,标准模型构造确定部也可确定送受话器、三方电话、状态共享型等HMM构造、或状态数等。
(第10实施方式)图49是表示本发明第10实施方式的标准模型制作装置整体构成的框图。这里,示出将本发明的标准模型制作装置组装在计算机系统中的服务器801中的实例。在本实施方式中,以制作语音识别用的标准模型(适应模型)的情况为例来进行说明。
服务器801是通信系统中的计算机装置等,作为制作由事件的集合与事件或事件间转变的输出概率来定义的语音识别用标准模型的标准模型制作装置,具有读入部711、参照模型准备部702、参照模型存储部703、利用信息接收部704、参照模型选择部705、标准模型制作部706、规格信息接收部707、标准模型存储部708、标准模型发送部709和参照模型接收部810。
参照模型准备部702将按读入部711读入且在CD-ROM等存储器件中写入的说话者、噪声、声调分类的语音识别用参照模型发送到参照模型存储部703。参照模型存储部703存储发送来的参照模型721。另外,参照模型准备部702针对来自终端装置712的发送,向参照模型存储部703发送参照模型接收部810接收到的语音识别用参照模型。参照模型存储部703存储发送的参照模型721。
规格信息接收部707从终端装置712接收规格信息725。利用信息接收部704从终端装置712接收在作为利用信息724的噪声下发声的利用者的语音。参照模型选择部705从参照模型存储部703存储的参照模型721中,选择音频上与作为利用信息接收部704接收的利用信息724的利用者语音接近的说话者、噪声、声调的参照模型723。
标准模型制作部706是根据规格信息725制作标准模型722、使对于参照模型选择部705选择的参照模型723的概率或似然最大化或极大化的处理部,具有与第2实施方式的标准模型制作部206相同的功能。标准模型存储部708存储基于规格信息725的一个或多个标准模型。标准模型发送部709当从利用者的终端装置712接收规格信息725与标准模型的请求信号时,向终端装置712发送适合于规格的标准模型。
下面,说明上述构成的服务器801的动作。
图50是表示服务器801的动作步骤的流程图。另外,说明该服务器801的动作步骤用的参照模型和标准模型一例与第7实施方式中的图31一样。
首先,在制作标准模型之前,准备成为其基准的参照模型(图50的步骤S800、S801)。即,参照模型准备部702将按读入部711读入且写入在CD-ROM等存储器件中的说话者、噪声、声调分类的语音识别用参照模型发送到参照模型存储部703,参照模型存储部703存储发送来的参照模型721(图50的步骤S800)。这里,对每个说话者、噪声、声调,参照模型721由每个音素的HMM构成。另外,参照模型准备部702将终端装置712发送后由参照模型接收部810接收的、适合于利用者与终端装置712的语音识别用参照模型发送给参照模型存储部703,参照模型存储部703存储发送来的参照模型721(图50的步骤S801)。这里,各参照模型如图31的参照模型721所示,利用状态数为3个、各状态下混合分布数为128个的混合高斯分布来构成HMM的输出分布。作为特征量,使用25维(J=25)的梅尔倒频谱系数。
下面,使用了这些参照模型721的标准模型722的制作和向终端装置712的发送(的步骤S802-S809)与第7实施方式中的步骤(图30的步骤S701-S708)一样。
这样,因为可将存储在终端装置712中的自己用模型上载到服务器并构成制作标准模型的材料,所以例如服务器801可综合被上载的参照模型与已保持的其它参照模型,制作混合数更多的高精度标准模型,并下载到终端装置712后利用。因此,可向终端装置712附带简易的适应功能,简易地上载适应的模型,制作更高精度的标准模型。
图51是示出具体适用于本实施方式的标准模型制作装置的系统实例的图。这里,示出经因特网或无线通信等来通信的服务器701与终端装置712(便携式电话机712a、汽车导航装置712b)。
例如,便携式电话机712a将利用者的语音设为利用信息,将表示在便携式电话中机利用的意思(CPU的处理能力低)设为规格信息,将事先存储的采样模型设为参照模型,并将这些利用信息、规格信息和参照模型发送给服务器701,从而请求制作标准模型。若服务器701针对该请求制作标准模型,则便携式电话机712a下载该标准模型,使用该标准模型来识别利用者的语音。例如,在利用者的语音与内部保持的地址簿的姓名一致的情况下,自动呼叫对应于该姓名的电话号码。
另外,汽车导航装置712b将利用者的语音设为利用信息,将在汽车导航装置中利用的意思(CPU的处理能力一般)设为规格信息,将事先存储的采样模型设为参照模型,并将这些利用信息、规格信息和参照模型发送给服务器701,从而请求制作标准模型。若服务器701针对该请求制作标准模型,则汽车导航装置712b下载该标准模型,使用该标准模型来识别利用者的语音。例如,在利用者的语音与内部保持的地名一致的情况下,在画面中自动显示表示、从当前地点开始到将该地名作为为目标点的目的地之间的道路的地图。
这样,便携式电话机712a和汽车导航装置712b通过委托服务器701制作适合于本装置的标准模型,不必在本装置内安装制作标准模型所需的电路或处理程序,同时,可在必要的定时获得各种识别对象的标准模型。
如上所述,根据本发明的第10实施方式,因为利用参照模型接收部810接收的参照模型来制作标准模型,所以可提供高精度的标准模型。即,通过由来自终端装置712的上载来追加参照模型,在服务器801侧保持的参照模型的变更增加,当其他人利用时,可提供更高精度的标准模型。
另外,因为根据规格信息来制作标准模型,所以准备适用于利用标准模型的设备之标准模型。
另外,参照模型接收部810也可从终端装置712之外的其它终端装置接收参照模型。
另外,图51所示的应用例不限于本实施方式,也可适用于其它实施方式。即,通过经各种记录媒体或通信向各种电子设备配送由第1至第9实施方式制作的标准模型,这些电子设备可执行精度高的语音识别、图像识别、意图理解等。并且,通过将上述实施方式中的标准模型制作装置内置于各种电子设备中,还可实现配备语音识别、图像识别、意图理解等识别、认证功能的独立的电子设备。
上面根据实施方式来说明了本发明的标准模型制作装置,但本发明不限于这些实施方式。
例如,就第1-第10实施方式中的标准模型的统计量近似计算而言,不仅仅限于各实施方式中的近似计算,也可使用第1-第4实施方式中的共计4种近似计算中的至少之一。即,可以是4种近似计算的任一种,也可以是两种以上的近似计算的组合。
另外,在第2实施方式中,统计量推定部206d的一般近以部206e分别根据式45、式46和式47所示的近似式来算出标准模型的混合加权系数、平均值和方差值,但也可使用下式63、式64和式65所示的近似式来代替这些近似式进行计算。
(式63)
ωf(m)≈Σi=1Ng∫-∞∞{Σl=1Lg(i)γ(μg(i,l),m)υg(i,l)g(x;μg(i,l),σg(i,l)2)}dxΣk=1MfΣi=1Ng∫-∞∞{Σl=1Lg(i)γ(μg(i,l),k)υg(i,l)g(x;μg(i,l),σg(i,l)2)}dx]]>(m=1,2,...,Mf)(式64)μf(m,j)≈Σi=1Ng∫-∞∞x(j){Σl=1Lg(i)γ(μg(i,l),m)υg(i,l)g(x;μg(i,l),σg(i,l)2)}dxΣi=1Ng∫-∞∞{Σl=1Lg(i)γ(μg(i,l),m)υg(i,l)g(x;μg(i,l),σg(i,l)2)}dx]]>(m=1,2,...,Mf,j=1,2,...,J)(式65)σf(m,j)2≈Σi=1Ng∫-∞∞(x(j)-μf(m,j))2{Σl=1Lg(i)γ(μg(i,l),m)υg(i,l)g(x;μg(i,l),σg(i,l)2)}dxΣi=1Ng∫-∞∞{Σl=1Lg(i)γ(μg(i,l),m)υg(i,l)g(x;μg(i,l),σg(i,l)2)}dx]]>(m=1,2,...,Mf,j=1,2,...,J)根据使用这种近似式制作的标准模型,发明者们确认了能得到高的识别性能。例如,将参照模型与标准模型各自的混合数设为16时的识别结果,在适应前为82.2%,而在上述非专利文献2所示的基于充分统计量的方法中,为85.0%,在基于上述近似式的方法中,改善至85.5%。即,与基于充分统计量的方法相比,可知可获得高的识别性能。另外,将参照模型的混合数设为64、将标准模型的混合数设为16时的识别结果,在基于上述近似式的方法中,可获得高达85.7%的识别率。
另外,就初始标准模型制作部制作初始标准模型而言,也可事先准备图52所示的分类ID-初始标准模型-参照模型对应表,根据该表来确定初始标准模型。下面,说明使用这种分类ID-初始标准模型-参照模型对应表的初始标准模型的确定方法。另外,所谓分类ID是对使用了标准模型的识别对象种类进行识别的ID,对应于标准模型的种类。
图52所示的分类ID-初始标准模型-参照模型对应表是针对具有规定共同性质的多个参照模型、对应识别它们的一个分类ID,同时对应具有与这些参照模型共同的性质的事先制作的初始标准模型的表。在该表中,对参照模型8AA-8AZ,对应分类ID和初始标准模型8A,对参照模型64ZA-ZZ,对应分类ID和初始标准模型64Z。标准模型制作部通过使用与所用的参照模型性质相同的初始标准模型,可生成高精度的标准模型。
这里,分类ID、初始标准模型和参照模型的附加记号8A、8AA中的第一个记号‘8’等表示混合分布数,第2个记号‘A’等表示大分类,例如在噪音下的语音识别的情况下,代表噪音环境的种类(设家庭内噪音下为A,设电车内噪音下为B等),第3个记号‘A’等表示小分类,例如成为语音识别对象的人的属性(将低学年的小学生设为A,将高学年的小学生设为B等)。因此,图52的分类ID-初始标准模型-参照模型对应表中的参照模型8AA-AZ是图53所示的混合分布数为8的模型,参照模型64ZA-ZZ是图54所示的混合分布数为64的模型,初始标准模型8A-64Z是图55所示的混合分布数为8-16的模型。
下面,说明这种分类ID-初始标准模型-参照模型对应表的制作方法。图56是表示其步骤的流程图,图57-图60是表示各步骤的具体实例的图。这里,以噪音环境下的语音识别为例,说明不仅说明表,还说明包含分类ID、初始标准模型、参照模型来重新制作时的步骤。、首先,将语音数据分类成音频上接近的组(图56的步骤S1100)。例如图57所示,按作为利用信息的噪音环境来分类语音数据。分类成,在环境A(家庭内噪音下的语音数据)中,包含在家庭内噪音下收录的小学生低学年的语音、小学生高学年的语音、成人女性的语音等,在环境B(电车内的语音数据)中,包含在电车内收录的小学生低学年的语音、小学生高学年的语音、成人女性的语音等。另外,也可按作为利用信息的说话者的性别、年龄层、笑声、怒声等声音的性质、朗读调、会话调等声调、英语及汉语等语言等来分类。
接着,根据规格信息等,确定准备的参照模型的一个以上的模型构造(图56的步骤S1101)。例如,确定将8混合、16混合、32混合和64混合设为对象。在模型构造的确定中,不限于确定混合分布数,也可确定HMM的状态数、送受话器、三方电话等HMM的种类等。
接着,制作初始标准模型(图56的步骤S1102)。即,按每个上述语音数据的分类(步骤S1100)中确定的分类(环境A、环境B、...),制作步骤S1101中确定的每个模型构造的初始标准模型。例如图58所示,若是初始标准模型8A,则使用家庭内噪音下(环境A)的语音数据(低学年的小学生、高学年的小学生、成人男、成人女等语音数据),通过鲍姆-韦尔奇算法等来学习并制作8混合的初始标准模型。
接着,制作参照模型(图56的步骤S1103)。即,使用上述步骤S1102制作的初始标准模型来制作参照模型。具体而言,使用在与学习参照模型的语音数据的噪音环境相同的噪音环境下学习的、具有相同混合分布数的初始标准模型,学习参照模型。例如图59所示,参照模型8AA是利用混合分布数为8的家庭内噪音下的小学生低学年的语音数据学习的模型,作为进行学习时的初始值,使用由在作为相同环境的家庭内噪音下的语音数据(包含小学生低学年、小学生高学年、成人女性、成人男性的语音)学习的初始标准模型。作为学习方法,使用鲍姆-韦尔奇算法。
最后,赋予分类ID9(图56的步骤S1104))))。例如,通过在每个噪音环境下赋予一个分类ID,可制作图61所示的分类ID-初始标准模型-参照模型对应表,即“带分类ID的初始标准模型”和“带分类ID的参照模型”。
另外,这种分类ID-初始标准模型-参照模型对应表作为已完成的表,终端(标准模型制作装置)不必事先保持。终端(标准模型制作装置)如图61所示,也可通过与其它装置(服务器)通信来完成表。即,标准模型制作装置(终端)可经通信网等,取得“带分类ID的初始标准模型”和“带分类ID的参照模型”。不过,终端不一定必须要取得“带分类ID的初始标准模型”和“带分类ID的参照模型”,也可事先存储后出厂。
如图61所示,终端可通过以下方法来取得“带分类ID的初始标准模型”和“带分类ID的参照模型”。作为第1方法,是如下情况,即终端存储“带分类ID的初始标准模型”(例如遵守由标准化协会等事先定义的分类ID赋予方法的初始标准模型)。此时,终端从一个以上服务器下载“带分类ID的参照模型”(例如遵守了由标准化协会等事先定义的分类ID赋予方法的参照模型)。另外,也可在出厂时让终端存储“带分类ID的参照模型”。
另外,作为第2方法,是终端不存储“带分类ID的初始标准模型”的情况。此时,终端从服务器(图61的服务器1)下载“带分类ID的初始标准模型”。之后,终端从一个以上服务器(图61的服务器2)下载“带分类ID的参照模型”。必要时可依次追加、变更分类ID的定义。另外,也可节约终端的存储器。
并且,作为第3方法,是终端存储了明记有分类ID与初始标准模型及参照模型的对应关系的“分类ID-初始标准模型-参照模型对应表”的情况。此时,终端将“对应表”上载到未存储“对应表”的服务器(图61的服务器3)。服务器根据发送来的“对应表”,准备“带分类ID的参照模型”。终端下载准备的“带分类ID的参照模型”。
接着,说明由使用这种分类ID-初始标准模型-参照模型对应表的初始标准模型制作部进行的初始标准模型的确定方法。图62是表示其步骤的流程图。图63和图64是表示各步骤的具体例的图。
首先,从制作标准模型所用的参照模型中抽取分类ID(图62的步骤S1105)。例如,根据图63所示的表格,从选择的参照模型中抽取对应的分类ID。这里,作为抽取的分类ID,设8A为1个,16A为3个,16B为1个,64B为1个。
下面,使用抽取的分类ID来确定用于制作标准模型的初始标准模型(图62的步骤S1106)。具体而言,根据如下步骤来确定初始标准模型。
(1)着眼于从具有与制作的标准模型的混合分布数(16混合)相同分类ID(16*)的参照模型中抽取的分类ID(16A、16B),将与从中抽取最多的分类ID对应于的初始标准模型确定为最终的初始标准模型。例如,在标准模型的构造为16混合的情况下,作为涉及16混合的分类ID,抽取3个16A,抽取1个16B,所以采用分类ID为16A的初始标准模型。
(2)着眼于从具有与制作的标准模型的混合分布数(8混合)相同分类ID(8*)的参照模型中抽取的分类ID(8A),将具有相同分类ID的初始标准模型确定为最终的初始标准模型。例如,在标准模型的构造为8混合的情况下,抽取1个8A,作为涉及8混合的分类ID,所以采样分类ID为8A的初始标准模型。
(3)着眼于从具有与制作的标准模型的混合分布数(32混合)相同分类ID(3*)的参照模型中抽取的分类ID,在不存在的情况下,着眼于规格信息,使用具有从规格信息中抽取最多的分类ID(*A)的初始标准模型(8A、16A),通过群集,变为32混合后,设为最终的初始标准模型(参照图44)。例如,在标准模型的构造为32混合的情况下,因为不抽取涉及32混合的分类ID,所以使用抽取最多的分类ID(16A),通过群集,变为32混合后,设为初始标准模型。
另外,也可以不着眼于事先制作的标准模型的规格信息(混合分布数等),而着眼于利用信息(噪音的种类等)来确定初始值。
图64中示出采用了使用第3近似部制作的混合分布数为64的标准模型的识别实验结果。纵轴表示成人(男性与女性)的识别率(%),横轴表示重复次数R。所谓重复次数R=0是,通过在进行学习前的初始标准模型制作部制作的初始模型识别的结果。另外,对于重复次数R=1~5,设为附近指示参数G=1。
曲线‘数据’表示几天期间利用语音数据学习时的结果,曲线‘女性’、曲线‘男性’分别表示将初始模型设为成人女性、成人男性时的结果。基于参照模型的本发明的学习时间为数分钟级。从该实验结果可知,在将成人女性的参照模型确定为初始标准模型的情况下,可制作精度比利用语音数据学习的结果高的标准模型。
这表示分割语音数据、并将分割后的语音数据作为各自的参照模型严格学习后进行综合,具有能够解决基于语音数据的学习的课题即陷于局部解这样的问题的可能性(与基于语音数据的学习进行识别精度上的比较)。
另外,对于语音数据收录困难的儿童之语音数据,利用对数据数适当的混合分布数少的参照模型来严格学习,对于可收录大量语音数据的成人的语音数据,利用混合分布数多的参照模型来严格学习,因此,若通过本发明综合后制作标准模型,则可期待能够制作出精度极高的标准模型。
另外,在标准模型的混合分布数为16时的识别实验(图39)中,本发明的方法未超过由语音数据学习的标准模型的识别率。认为这是由于当将语音数据变为16混合的参照模型形式时,语音数据的信息缺乏。若通过64混合制作参照模型并充分保持语音数据的特征,则可制作更高精度的标准模型。由此,第9实施方式中,将参照模型的混合分布数设定为较大的300。
另外,根据图39和图64所示的识别实验,示出初始标准模型对识别精度造成的影响,强调了初始标准模型的确定方法的重要性(图64中,示出在将成人女性的参照模型用作初始标准模型的情况下,可制作精度比利用成人男性的参照模型时高的标准模型)。
如上所述,通过根据分类ID-初始标准模型-参照模型对应表,使用与参照模型共同性质的初始标准模型,可制作精度高的标准模型。
另外,使用了这种分类ID-初始标准模型-参照模型对应表的初始标准模型的确定也可用于上述实施方式1-10之一中。
另外,在上述实施方式中,当推定标准模型的统计量时,使用式25作为标准模型相对于参照模型的似然,但本发明不限于这种似然函数,例如,也可使用下式66所示的似然函数。
(式66)logL=Σi=1N∫-∞∞log[Σm=1Mω(m)f(x;μ(m),σ(m)2)]α(i){Σl=1Liυ(l)gi(x;μ(l),σ(l)2)}dx]]>这里,α(i)是表示与综合的各参照模型i对应的重要性的加权。例如,若是适用语音识别中的说话者,则通过利用者的语音与制作综合模型的语音的相近性来确定重要性。即,在参照模型接近利用者的语音(重要性大)的情况下,将α(i)设定成大的值(加权大)。最好利用将利用者的语音输入到综合模型时的似然大小来确定综合模型与利用者语音的相近性。由此,在综合多个参照模型来制作标准模型时,越是接近利用者语音的参照模型,则以越大的加权对标准模型的统计量造成影响,可制作进一步反映利用者特性的高精度标准模型。
另外,各实施方式中的标准模型构造确定部根据利用信息或规格信息等各种因素来确定标准模型的构造,但本发明不限于此,例如,在语音识别的情况下,也可依靠成为识别对象的人的年龄、性别、声质的说话者性质、基于感情或健康状态的声调、说话速度、说话的尊敬语气、方言、背景噪声的种类、背景噪音的大小、语音与背景噪声的信噪比、麦克风特性和识别词汇的复杂性等各种属性来确定标准模型的构造。
具体而言,如图65(a)-(j)所示,成为语音识别对象的人的年龄越高,则将构成标准模型的高斯分布数(混合数)设得越大(图65(a)),或者在构成语音识别对象的人为男性的情况下,设为比女性的大的混合数(图65(b)),或者成为语音识别对象的人的音质比‘通常’还‘嘶哑’、进而变为‘沙哑音’,则增大混合数(图65(c)),或者基于成为语音识别对象的声音感情的调子变为比‘通常’还‘生气的声’、进而变为‘哭泣或笑声’,则增大混合数(图65(d)),或者成为语音识别对象的人的发话速度越快或越慢,则增大混合数(图65(e)),或者成为语音识别对象的人的尊敬语气变得比‘朗读调’更象‘演讲调’、进而变为‘会话调’,则增大混合数(图65(f)),或者成为语音识别对象的人的方言比‘标准语’更象‘大阪口音’、进而更象‘鹿儿岛口音’,则增大混合数(图65(g)),或者语音识别的背景噪声变大,则减小混合数(图65(h)),或者用于语音识别的麦克风的性能提高,则增大混合数(图65(I)),或者成为语音识别对象的词汇增加,则增大混合数(图65(j))。这些实例多数从识别对象的语音差异越大、则增大混合数以确保精度的观点来确定混合数。
产业上的可利用性本发明的标准模型制作装置可用作使用概率模型等的识别语音、文字、图像等对象物的装置等,例如,可用作利用语音来执行各种处理的电视机接收装置、汽车导航装置、将语音翻译成其它语言的翻译装置、由语音操作的游戏装置、由基于语音的检索关键字来检索信息的检索装置、执行人物检测、指纹认证、脸认证、虹彩认证等的认证装置、执行股票预测、天气预报等预测的信息处理装置等。
权利要求
1.一种标准模型制作装置,使用由输出概率来表现表示语音特征的频率参数的概率模型,制作表示具有特定属性的语音特征的语音识别用标准模型,其特征在于具备参照模型存储单元,存储作为表示具有一定属性的语音特征的概率模型的一个以上参照模型;和标准模型制作单元,使用存储在所述参照模型存储单元中的一个以上的参照模型的统计量,来计算所述标准模型的统计量,由此制作标准模型;所述标准模型制作单元具有标准模型构造确定部,确定制作的标准模型的构造;初始标准模型制作部,对特定标准模型的统计量初始值进行确定,该标准模型已确定了构造;和统计量推定部,推定并计算所述标准模型的统计量,以使确定了初始值的标准模型对所述参照模型的概率或似然最大化或极大化。
2.根据权利要求1所述的标准模型制作装置,其特征在于所述标准模型制作装置还具备参照模型选择单元,根据与成为语音识别对象的属性有关的信息、即利用信息,从存储在所述参照模型存储单元中的参照模型中,选择一个以上的参照模型;所述标准模型制作单元使用所述参照模型选择单元选择的参照模型的统计量,制作标准模型。
3.根据权利要求2所述的标准模型制作装置,其特征在于所述标准模型制作装置还具备制作所述利用信息的利用信息制作单元;所述参照模型选择单元根据制作的利用信息,从存储在所述参照模型存储单元中的参照模型中,选择一个以上的参照模型。
4.根据权利要求2所述的标准模型制作装置,其特征在于在所述标准模型制作装置上,经通信路径连接着终端装置,所述标准模型制作装置还具备从所述终端装置接收所述利用信息的利用信息接收单元;所述参照模型选择单元根据接收的利用信息,从存储在所述参照模型存储单元中的参照模型中,选择一个以上的参照模型。
5.根据权利要求1所述的语音识别用标准模型制作装置,其特征在于所述标准模型构造确定部根据与制作的标准模型的规格有关的信息即规格信息、和与成为语音识别对象的属性有关的信息即利用信息中的至少一个,确定所述标准模型的构造。
6.根据权利要求5所述的语音识别用标准模型制作装置,其特征在于所述规格信息表示使用标准模型的应用程序的种类、和使用标准模型的设备的规格中的至少一个规格。
7.根据权利要求5所述的语音识别用标准模型制作装置,其特征在于所述属性包含与年龄、性别、音质的说话者性质、基于感情或健康状态的声调、说话速度、说话的亲切性、方言、背景噪声的种类、背景噪声的大小、语音与背景噪声的信噪比、麦克风特性和识别词汇的复杂性中的至少一个有关的信息。
8.根据权利要求5所述的标准模型制作装置,其特征在于所述标准模型制作装置还具备规格信息保持单元,保持表示使用标准模型的应用程序与标准模型的规格之间的对应的应用程序规格对应数据库,作为所述规格信息;所述标准模型构造确定部从保持在所述规格信息保持单元中的应用程序规格对应数据库中,读取与被启动的应用程序对应的规格,并根据读取的规格,确定所述标准模型的构造。
9.根据权利要求5所述的标准模型制作装置,其特征在于所述标准模型制作装置还具备制作所述规格信息的规格信息制作单元,所述标准模型构造确定部根据制作的规格信息,确定所述标准模型的构造。
10.根据权利要求5所述的标准模型制作装置,其特征在于在所述标准模型制作装置上,经通信路径连接着终端装置,所述标准模型制作装置还具备从所述终端装置接收所述规格信息的规格信息接收单元,所述标准模型构造确定部根据接收到的规格信息,确定所述标准模型的构造。
11.根据权利要求5所述的标准模型制作装置,其特征在于用一个以上的高斯分布来表现所述参照模型和所述标准模型;作为所述标准模拟的构造,所述标准模型构造确定部至少确定高斯分布的混合数。
12.根据权利要求1所述的标准模型制作装置,其特征在于在所述标准模型制作装置上,经通信路径连接着终端装置;所述标准模型制作装置还具备标准模型发送单元,向所述终端装置发送所述标准模型制作单元制造的标准模型。
13.根据权利要求1所述的标准模型制作装置,其特征在于用一个以上的高斯分布来表现所述参照模型和所述标准模型;所述参照模型存储单元至少存储高斯分布的混合数不同的一对参照模型;所述统计量推定部计算所述标准模型的统计量,以使对所述一对参照模型的所述标准模型的概率或似然最大化或极大化。
14.根据权利要求1所述的标准模型制作装置,其特征在于所述标准模型制作单元还具备参照模型准备单元,执行从外部取得参照模型后存储在所述参照模型存储单元中的工作、和制作新的参照模型后存储在所述参照模型存储单元中的工作的至少一个。
15.根据权利要求14所述的标准模型制作装置,其特征在于所述参照模型准备单元还执行所述参照模型存储单元存储的参照模型的更新和追加中的至少一个。
16.根据权利要求15所述的标准模型制作装置,其特征在于所述参照模型准备单元根据与识别对象有关的信息即利用信息、和与制作的标准模型的规格有关的信息即规格信息中的至少一个,执行所述参照模型存储单元存储的参照模型的更新和追加中的至少一个。
17.根据权利要求15所述的标准模型制作装置,其特征在于所述标准模型制作装置还具备类似度信息制作单元,根据与制作的标准模型的规格有关的信息即规格信息和与成为语音识别对象的属性有关的信息即利用信息中的至少一个、以及存储在所述参照模型存储单元中的参照模型,制作表示所述利用信息与所述规格信息中的至少一个、和所述参照模型间的类似度的类似度信息;所述参照模型准备单元根据所述类似度信息制作单元制作的类似度信息,确定是否执行所述参照模型存储单元所存储的参照模型的更新和追加中的至少一个。
18.根据权利要求1所述的标准模型制作装置,其特征在于所述初始标准模型制作部利用所述统计量推定部在计算标准模型的统计量时使用的一个以上的所述参照模型,确定特定所述标准模型的统计量初始值。
19.根据权利要求1所述的标准模型制作装置,其特征在于所述初始标准模型制作部根据识别标准模型种类的分类ID,确定所述初始值。
20.根据权利要求19所述的标准模型制作装置,其特征在于所述初始标准模型制作部根据所述参照模型来特定所述分类ID,将与被特定的分类ID对应起来的初始值确定为所述初始值。
21.根据权利要求20所述的标准模型制作装置,其特征在于所述初始标准模型制作部保持表示所述分类ID、所述初始值和所述参照模型间的对应的对应表,根据所述对应表,确定所述初始值。
22.根据权利要求21所述的标准模型制作装置,其特征在于所述初始标准模型制作部制作或从外部取得对应了所述分类ID的初始值即带分类ID的初始标准模型、或对应了所述分类ID的参照模型即带分类ID的参照模型,由此生成所述对应表。
23.根据权利要求1所述的标准模型制作装置,其特征在于所述参照模型存储单元存储多个参照模型;所述统计量推定部计算所述统计量,以使对存储在所述参照模型存储单元中的多个参照模型加权的所述概率或似然最大化或极大化。
24.一种标准模型制作方法,使用由输出概率来表现表示语音特征的频率参数的概率模型,制作表示具有特定属性的语音特征的语音识别用标准模型,其特征在于包括参照模型读取步骤,从存储表示具有一定属性的语音特征的概率模型即一个以上参照模型的参照模型存储单元中,读取一个以上的参照模型;和标准模型制作步骤,使用读取的参照模型的统计量,来计算所述标准模型的统计量,由此制作标准模型;所述标准模型制作步骤具有标准模型构造确定子步骤,确定制作的标准模型的构造;初始标准模型制作子步骤,对特定标准模型的统计量初始值进行确定,该标准模型已确定了构造之;和统计量推定子步骤,推定并计算所述标准模型的统计量,以使确定了初始值的标准模型对所述参照模型的概率或似然最大化或极大化。
25.一种程序,用于如下装置,即该装置使用由输出概率来表现表示语音特征的频率参数的概率模型,来制作表示具有特定属性的语音特征的语音识别用标准模型,其特征在于包括参照模型读取步骤,从存储表示具有一定属性的语音特征的概率模型即一个以上参照模型的参照模型存储单元中,读取一个以上的参照模型;和标准模型制作步骤,使用读取的参照模型的统计量,来计算所述标准模型的统计量,由此制作标准模型;所述标准模型制作步骤具有标准模型构造确定子步骤,确定制作的标准模型的构造;初始标准模型制作子步骤,对特定标准模型的统计量初始值进行确定,该标准模型已确定了构造之;和统计量推定子步骤,推定并计算所述标准模型的统计量,以使确定了初始值的标准模型对所述参照模型的概率或似然最大化或极大化。
全文摘要
一种提供高精度的标准模型的标准模型制作装置,该标准模型用于基于马尔科夫模型、贝叶斯逻辑、线性判断等概率模型的声音识别、字符识别、图像识别等模式识别,基于贝叶斯网络等概率模型的意图理解,基于概率模型的数据采集等。该标准模型制作装置具备准备一个以上参照模型的参照模型准备部(102);存储参照模型准备部(102)准备的参照模型(121)的参照模型存储部(103);以及标准模型制作部(104),计算标准模型的统计量来制作标准模型(122),以使对于参照模型存储部(103)存储的一个以上参照模型的概率或似然最大化或极大化。
文档编号G06K9/68GK1735924SQ20038010386
公开日2006年2月15日 申请日期2003年11月18日 优先权日2002年11月21日
发明者芳泽伸一 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1