本发明涉及计算机应用技术领域,具体涉及一种获得唇形动画的方法及装置。
背景技术:
VR(Virtual Reality,即虚拟现实,简称VR),是由美国VPL公司创建人拉尼尔(Jaron Lanier)在20世纪80年代初提出的。其具体内涵是:综合利用计算机图形系统和各种现实及控制等接口设备,在计算机上生成的、可交互的三维环境中提供沉浸感觉的技术。其中,计算机生成的、可交互的三维环境称为虚拟环境(即Virtual Environment,简称VE)。虚拟现实技术是一种可以创建和体验虚拟世界的计算机仿真系统的技术。它利用计算机生成一种模拟环境,利用多源信息融合的交互式三维动态视景和实体行为的系统仿真使用户沉浸到该环境中。
在VR场景中需要获得更真实的交互式体验,需要拥有和现实世界相同的交互方式,所以,现实世界中最常见的对话交互的方式在VR场景中将会得到大量运用。在进行VR游戏时,如果仅能清晰的听到对方在讲话,但是显示中的虚拟角色的口型和当前所听见的语音对不上号,在很大程度上破坏了用户的沉浸感。
在现有的VR社交游戏中,唇形模拟只是在角色说话时对预先设置的几个唇形进行简单地变化,不能对人的唇形进行更逼真的模拟。即使用户说话的音量有变化,在唇形显示上也看不到差别。
在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现要素:
有鉴于此,本发明提供一种获得唇形动画的方法及装置,能够逼真模拟VR中虚拟人物说话时的唇形。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的一方面,提供一种获得唇形动画的方法,包括:获取音频数据;提取音频数据的频域特征值;根据频域特征值与预设的匹配度阈值,选取至少一个唇形动画模型;以及根据至少一个唇形动画模型,生成唇形动画。
根据本发明的一实施方式,在提取音频数据的频域特征值之前还包括:对音频数据进行静音切除处理。
根据本发明的一实施方式,音频数据为时域信号,提取音频数据的频域特征值包括:使用窗函数将音频数据分为多帧音频数据;通过傅里叶变换,分别将每帧音频数据转化为频域音频数据;以及通过MFCC算法,分别提取每帧频域音频数据的频域特征值。
根据本发明的一实施方式,通过MFCC算法,分别提取每帧频域音频数据的频域特征值包括:通过Mel滤波器组,分别对每帧频域音频数据进行滤波,得到第一中间结果:对第一中间结果进行对数运算,得到第二中间结果;以及对第二中间结果进行离散余弦变换,得到每帧频域音频数据的频域特征值。
根据本发明的一实施方式,根据所述频域特征值与预设的匹配度阈值,选取至少一个唇形动画模型包括:通过调整余弦相似度,分别计算所述频域特征值与预存的唇形动画模型的特征向量的匹配度;以及选取所述匹配度大于所述匹配度阈值的所述至少一个唇形动画模型。
根据本发明的一实施方式,根据至少一个唇形动画模型,生成唇形动画包括:对至少一个唇形动画模型进行加权叠加,以生成唇形动画;其中每个唇形动画模型的加权值为唇形动画与频域特征值的匹配度。
根据本发明的一实施方式,唇形动画模型包括:唇部特征点对应的位置信息。
根据本发明的另一个方面,提供一种获得唇形动画的装置,包括:数据获取模块,用于获取音频数据;特征值提取模块,用于提取音频数据的频域特征值;唇形提取模块,用于根据频域特征值与预设的匹配度阈值,选取至少一个唇形动画模型;以及唇形生成模块,用于根据至少一个唇形动画模型,生成唇形动画。
根据本发明的一实施方式,上述装置还包括:静音处理模块,用于在提取音频数据的频域特征值之前,对音频数据进行静音切除处理。
根据本发明的一实施方式,音频数据为时域信号,特征值提取模块包括:分帧子模块,用于通过窗函数将音频数据分为多帧音频数据;傅里叶变换子模块,用于通过傅里叶变换,分别将每帧音频数据转化为频域音频数据;以及MFCC算法子模块,用于分别提取每帧频域音频数据的频域特征值。
根据本发明的一实施方式,MFCC算法模块包括:滤波单元,用于通过Mel滤波器组,分别对每帧频域音频数据进行滤波,得到第一中间结果:对数运算单元,用于对第一中间结果进行对数运算,得到第二中间结果;离散余弦变换单元,用于对第二中间结果进行离散余弦变换,得到每帧频域音频数据的频域特征值。
根据本发明的一实施方式,所述唇形提取模块包括:匹配度计算子模块,用于通过调整余弦相似度,分别计算所述频域特征值与预存的唇形动画模型的特征向量的匹配度;以及唇形动画模型选取子模块,用于选取所述匹配度大于所述匹配度阈值的所述至少一个唇形动画模型。
根据本发明的一实施方式,唇形生成模块包括:匹配度计算子模块,用于通过调整余弦相似度方法计算每个唇形动画模型与所述频域特征值的匹配度;加权叠加子模块,用于对至少一个唇形动画模型进行加权叠加,以生成唇形动画;其中每个唇形动画模型的加权值为唇形动画与频域特征值的匹配度。
根据本发明的一实施方式,唇形动画模型包括:唇部特征点对应的位置信息。
根据本发明的获得唇形动画的方法,通过使用从音频信号中所提取 的频域特征值与存储的唇形动画模型进行比较,选出满足匹配度要求的唇形动画模型,再通过将选出的唇形动画模型进行加权叠加可以提升匹配的准确性,提升所显示唇形动画的逼真度。此外,由于上述比较是在频域进行,大大提升了计算速度及对特征值比较的准确性。并且在频域对声波进行处理可以提升采样幅度,即使在语速较快时,也可以快速做出反应。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
通过参照附图详细描述其示例实施例,本发明的上述和其它目标、特征及优点将变得更加显而易见。
图1是根据一示例性实施方式示出的一种获得唇形动画的方法的流程图。
图2是根据一示例性实施方式示出的另一种获得唇形动画的方法的流程图。
图3是根据一示例性实施方式示出的另一种获得唇形动画的方法的流程图。
图4是根据一示例性实施方式示出的再一种获得唇形动画的方法的流程图。
图5是根据一示例性实施方式示出的一种获得唇形动画的装置的框图。
图6是根据一示例性实施方式示出的另一种获得唇形动画的装置的框图。
图7是根据一示例性实施方式示出的再一种获得唇形动画的装置的框图。
图8是根据一示例性实施方式示出的另一种获得唇形动画的装置的框图。
图9是根据一示例性实施方式示出的再一种获得唇形动画的装置的 框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免喧宾夺主而使得本发明的各方面变得模糊。
图1是根据一示例性实施方式示出的一种获得唇形动画的方法的流程图。如图1所示,该计算方法10包括:
在步骤S102中,获取音频数据。
获取输入的音频数据,例如可以为虚拟角色玩家的人声等。
在步骤S104中,提取音频数据的频域特征值。
根据上一步骤中输入的音频数据,进行数据处理,提取出特征值信息。
在步骤S106中,根据频域特征值与预设的匹配度阈值,选取至少一个唇形动画模型。
例如,根据提取的频率特征值,计算与存储的各唇形动画模型之间的匹配度,从中选取出大于匹配度阈值的至少一个唇形动画模型。这些唇形动画模型例如可以被存储在唇形动画模型数据库中。唇形动画模型例如可以包括唇部特征点对应的位置信息。
在实际应用中,匹配度阈值可根据实际需求而进行设置,本发明不以此为限。
在步骤S108中,根据至少一个唇形动画模型,生成唇形动画。
根据上一步骤中选取出来的至少一个唇形动画模型,生成唇形动画。例如,对至少一个唇形动画模型进行加权叠加,以生成唇形动画。其中每个唇形动画模型的加权值为该唇形动画模型与频域特征值的匹配度。
本发明实施方式提供的获得唇形动画的方法,通过使用从音频信号中所提取的频域特征值与存储的唇形动画模型进行比较,选出满足匹配度要求的唇形动画模型,再通过将选出的唇形动画模型进行加权叠加可以提升匹配的准确性,提升所显示唇形动画的逼真度。此外,由于上述比较是在频域进行,大大提升了计算速度及对特征值比较的准确性。并且在频域对声波进行处理可以提升采样幅度,即使在语速较快时,也可以快速做出反应。
应清楚地理解,本发明描述了如何形成和使用特定示例,但本发明的原理不限于这些示例的任何细节。相反,基于本发明公开的内容的教导,这些原理能够应用于许多其它实施方式。
图2是根据一示例性实施方式示出的另一种获得唇形动画的方法的流程图。该计算方法20与图1所示计算方法10不同之处在于,在计算方法10的步骤S104提取频域特征值之前还包括:
在步骤S202中,对音频数据进行静音切除处理。
在对声波或者声波文件特征值提取之前,首先需要把语音信号首尾端的静音切除,降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD(Voice Activity Detection),也就是语音端点检测技术。这个技术主要是从带有噪声的语音中准确的定位出语音的开始和结束点,因为语音中含有很长的静音,也就是把静音和实际语音分离开来,把静音和噪声作为干扰信号从原始数据中去除,VAD技术是对语音数据的原始处理。
本发明实施方式提供的获得唇形动画的方法,通过采用语音端点检测技术,可以从音频信号流里识别和消除长时间的静音期,去掉噪声信 号,在不降低语音信号质量的情况下节省系统资源。
图3是根据一示例性实施方式示出的另一种获得唇形动画的方法的流程图。该计算方法30应用于所获得的音频数据为时域信号的情况,并提供了图1所示计算方法10中步骤S104的进一步实施方法。如图3所示,该计算方法30包括:
在步骤S302中,获取音频数据。
获取输入的音频数据,例如可以为当前控制虚拟角色的玩家发出的语音,或者系统中已录制好的音频等。
在步骤S304中,使用窗函数将音频数据分为多帧音频数据。
由于声音信号只在较短的时间内呈现平稳性(一般认为10-30ms),因此在进行音频特征值提取之前,首先将语音信号划分为一个一个的短时段即一帧。在信号处理中,窗函数是一种除在给定区间之外取值均为0的实函数。譬如:在给定区间内为常数而在区间外为0的窗函数被形象地称为矩形窗。一个函数进过窗函数运算后,在窗函数限定的范围内不改变原始函数的数值,在窗函数限定范围之外,原函数数值为0。任何函数经过窗函数运算仍为窗函数,所以相乘的结果就像透过窗口“看”其他函数一样,窗函数例如可以为hamming窗函数。通过hanmming窗函数将原始声音信号进行分帧处理,将原始声音信号分成多个小段语音,即为得到多帧音频数据。
在步骤S306中,通过傅里叶变换,分别将每帧音频数据转化为频域音频数据。
根据傅里叶变换公式,分别将每帧音频数据转化为频域音频数据。傅里叶变换公式为:
其中,公式中F(w)为f(t)的像函数,f(t)为F(w)的像原函数。在本实施例中,f(t)为上面步骤S302分帧后的每一帧时域音频信号,F(w)为转换后的时域音频信号。由于声音在时域上的变化通常很难看出信号的特性,而将它转换成频域上的能量分布来观察,不同的能量谱分布代表不 同语音的特性。
在步骤S308中,通过MFCC算法,分别提取每帧频域音频数据的频域特征值。
MFCC是Mel频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)的缩写。此算法考虑到人耳对不同频率的感受程度,因此常用在在语音辨识领域。利用MFCC算法,分别计算上文所述的每帧音频数据的频域特征值。
在步骤S310中,通过调整余弦相似度(Adjusted Cosine Similarity),分别计算每帧频域音频数据的频域特征值与预存的各唇形动画模型的特征向量的匹配度。
例如某个音频的特征向量是x[x1,y1,z1,w1]为[0,1,-5,4],在预设的数据库中,某个唇形动画的特征向量y[x2,y2,z2,w2]为[1,5,-8,3]。
首先,求取向量均值:
a=(x1+y1+z1+w1+x2+y2+z2+w2)=(0+1-5+4+5-8+3)/8=1
然后,在特征向量的所有维度上减去该均值a,得到调整后的某个音频的特征向量是x[x3,y3,z3,w3]为[-1,0,-6,3],某个唇形动画的特征向量是y[x4,y4,z4,w4]为[0,4,-9,2]。
最后,计算匹配度:
其中,
在步骤S312中,为每帧频域音频数据的频域特征值选取匹配度大于预设的匹配度阈值的至少一个唇形动画模型。
匹配度阈值可根据实际需求而设定,本发明不以此为限。
在步骤S314中,对至少一个唇形动画模型进行加权叠加,以生成唇形动画。
其中每个唇形动画模型的加权值为唇形动画与所述频域特征值的匹配度。
权重计算公式例如可以为:QA1=Pn/P,其中,n为大于等于1的正 整数,其中A1、A2……An为预设唇形动画模型,QA1为预设唇形动画模型A1的权重,QA2为预设唇形动画模型A2的权重,以此类推,QAn为预设唇形动画模型An的权重;P1为提取的频域特征值与预设唇形动画模型A1的匹配度,P2为提取的频域特征值与预设唇形动画模型A2的匹配度,以此类推,Pn为提取的频域特征值与预设唇形动画模型An的匹配度;P为总匹配度,P=P1+P2+……+Pn。
唇形动画计算公式为:A=A1*QA1+A2*QA2+……+An*QAn;其中A为唇形动画,A1、A2……An为预设的唇形动画模型。
图4是根据一示例性实施方式示出的再一种获得唇形动画的方法的流程图。该计算方法40提供了图3所示计算方法30中步骤S306的进一步实施方法。如图4所示,该计算方法40包括:
在步骤S402中,通过Mel滤波器组,分别对每帧频域音频数据进行滤波,得到第一中间结果。
根据Mel滤波器公式,别对每帧所述频域音频数据进行滤波。Mel滤波器公式为:
其中,fmel(F(w))为滤波后信号,即该第一中间结果,F(w)待滤波频率信号,也即为在步骤S304中,进行傅里叶变换之后的频域音频信号F(w)。
在步骤S404中,对第一中间结果进行对数运算,得到第二中间结果。
对上文中的第一中间结果数据进行对数运算,运算结果为第二中间结果。
在步骤S406中,对第二中间结果进行离散余弦变换,得到每帧频域音频数据的频域特征值。
利用离散余弦变换公式,对上文中的第二中间结果数据进行离散余弦变换,离散余弦变换公式为:
其中,Ci=1,k,m,i,j均为正整数。xij代表上文所述的第二中间结果,即经过滤波以及对数运算的的二维频谱信号,ykm代表离散余弦变换后的得到的频域特征值,也即原始一帧音频信号的频域音频数据的特征值数据。
本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本发明示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本发明装置实施例,可以用于执行本发明的方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图5是根据一示例性实施方式示出的一种获得唇形动画的装置的框图。如图5所示,该计算装置50包括:数据获取模块502,特征值提取模块504,唇形提取模块506以及唇形生成模块508,
其中,数据获取模块502用于获取音频数据。
特征值提取模块504用于提取音频数据的频域特征值。
唇形提取模块506用于根据所述频域特征值与预设的匹配度阈值,选取至少一个唇形动画模型;以及
唇形生成模块508用于根据所述至少一个唇形动画模型,生成唇形动画。
本发明实施方式提供的获得唇形动画的装置,通过使用从音频信号中所提取的频域特征值与存储的唇形动画模型进行比较,选出满足匹配度要求的唇形动画模型,再通过将选出的唇形动画模型进行加权叠加可 以提升匹配的准确性,提升所显示唇形动画的逼真度。此外,由于上述比较是在频域进行,大大提升了计算速度及对特征值比较的准确性。并且在频域对声波进行处理可以提升采样幅度,即使在语速较快时,也可以快速做出反应。
图6是根据一示例性实施方式示出的另一种获得唇形动画的装置的框图。如图6所示,与图5所示的计算装置50不同之处在于,该计算装置60还包括:静音处理模块600。
静音处理模块600用于在提取所述音频数据的频域特征值之前,对所述音频数据进行静音切除处理。
本发明实施方式提供的获得唇形动画的装置,通过采用语音端点检测技术,可以从音频信号流里识别和消除长时间的静音期,去掉噪声信号,在不降低语音信号质量的情况下节省系统资源。
图7是根据一示例性实施方式示出的再一种获得唇形动画的装置的框图。如图7所示,与图5所示的计算装置50不同之处在于,该计算装置70的特征值提取模块704包括:分帧子模块7042,傅里叶变换子模块7044以及MFCC算法子模块7046
分帧子模块7042用于通过窗函数将所述音频数据分为多帧音频数据。
傅里叶变换子模块7044用于通过傅里叶变换,分别将每帧音频数据转化为频域音频数据。
MFCC算法子模块7046用于分别提取每帧所述频域音频数据的频域特征值。
在一些实施例中,MFCC算法子模块7046包括:滤波单元、对数运算单元及离散余弦变换单元(图中均未示出)。其中滤波单元用于通过Mel滤波器组,分别对每帧所述频域音频数据进行滤波,得到第一中间结果。对数运算单元用于对所述第一中间结果进行对数运算,得到第二中间结果。离散余弦变换单元用于对所述第二中间结果进行离散余弦变换,得到每帧所述频域音频数据的频域特征值。
图8是根据一示例性实施方式示出的再一种获得唇形动画的装置的 框图。如图8所示,与图7所示的装置70的不同之处在于,该装置80唇形提取模块806包括:
匹配度计算子模块8062用于通过调整余弦相似度,分别计算所述频域特征值与预存的唇形动画模型的特征向量的匹配度。
唇形动画模型选取子模块8064用于选取所述匹配度大于所述匹配度阈值的所述至少一个唇形动画模型。
图9是根据一示例性实施方式示出的再一种获得唇形动画的装置的框图。如图9所示的装置,与图8所示的计算装置80不同之处在于,该计算装置90的唇形生成模块908包括:
加权叠加子模块9082,用于对至少一个唇形动画模型进行加权叠加,以生成唇形动画;其中每个唇形动画模型的加权值为唇形动画与频域特征值的匹配度。
需要注意的是,上述附图中所示的框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施方式的方法。
以上具体地示出和描述了本发明的示例性实施方式。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。