唇语识别方法、计算机设备及存储介质与流程

文档序号：31698778发布日期：2022-10-01 06:59阅读：224来源：国知局

1.本技术涉及计算机技术领域，尤其涉及一种唇语识别方法、计算机设备及存储介质。

背景技术：

2.在音频领域中，音频识别的应用广泛且意义重大，现有的音频识别方法主要是基于模型预测的方法来实现，而现有的基于模型预测的音频识别方法是对单一语种的音频识别，且在预训练模型时通常需要采用大量的标签数据进行训练，操作复杂，模型预测的效果不理想。因此，如何提高音频识别的效率非常重要。

技术实现要素：

3.本发明实施例提供了一种唇语识别方法、计算机设备及存储介质，可以提高唇语识别的有效性、灵活性和准确性。
4.第一方面，本发明实施例提供了一种唇语识别方法，包括：
5.获取音频数据以及所述音频数据对应的人脸画面数据；
6.对所述音频数据进行均衡化处理，得到目标音频数据，并对所述人脸画面数据进行预处理，得到目标嘴唇数据；
7.将所述目标音频数据输入预训练的音频特征提取模型，得到所述目标音频数据对应的音频特征向量；
8.将所述音频特征向量和所述目标嘴唇数据输入预训练的唇语识别模型，得到与所述音频数据和所述目标嘴唇数据对应的唇语数据，所述唇语数据包括所述人脸画面数据中每一帧图像上嘴唇的位置数据。
9.第二方面，本发明实施例提供了一种唇语识别设备，包括：
10.获取单元，用于获取音频数据以及所述音频数据对应的人脸画面数据；
11.处理单元，用于对所述音频数据进行均衡化处理，得到目标音频数据，并对所述人脸画面数据进行预处理，得到目标嘴唇数据；
12.提取单元，用于将所述目标音频数据输入预训练的音频特征提取模型，得到所述目标音频数据对应的音频特征向量；
13.识别单元，用于将所述音频特征向量和所述目标嘴唇数据输入预训练的唇语识别模型，得到与所述音频数据和所述目标嘴唇数据对应的唇语数据，所述唇语数据包括所述人脸画面数据中每一帧图像上嘴唇的位置数据。
14.第三方面，本发明实施例提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述处理器用于执行：
15.获取音频数据以及所述音频数据对应的人脸画面数据；
16.对所述音频数据进行均衡化处理，得到目标音频数据，并对所述人脸画面数据进行预处理，得到目标嘴唇数据；
17.将所述目标音频数据输入预训练的音频特征提取模型，得到所述目标音频数据对应的音频特征向量；
18.将所述音频特征向量和所述目标嘴唇数据输入预训练的唇语识别模型，得到与所述音频数据和所述目标嘴唇数据对应的唇语数据，所述唇语数据包括所述人脸画面数据中每一帧图像上嘴唇的位置数据。
19.第四方面，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有程序指令，该程序指令被执行时，用于实现上述第一方面所述的方法。
20.本发明实施例通过获取音频数据以及音频数据对应的人脸画面数据；对音频数据进行均衡化处理，得到目标音频数据，并对人脸画面数据进行预处理，得到目标嘴唇数据；将目标音频数据输入预训练的音频特征提取模型，得到目标音频数据对应的音频特征向量；将音频特征向量和目标嘴唇数据输入预训练的唇语识别模型，得到与音频数据和目标嘴唇数据对应的唇语数据，可以提高唇语识别的有效性、灵活性和准确性。
附图说明
21.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
22.图1是本发明实施例提供的一种唇语识别系统的结构示意图；
23.图2是本发明实施例提供的一种唇语识别方法的流程示意图；
24.图3是本发明实施例提供的一种人脸标定点的示意图；
25.图4是本发明实施例提供的三种嘴唇的标定点的示意图；
26.图5是本发明实施例提供的一种音频特征提取模型的示意图；
27.图6是本发明实施例提供的一种唇语识别模型的示意图；
28.图7是本发明实施例提供的一种唇语识别设备的结构示意图；
29.图8是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
30.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
31.本发明实施例提供的唇语识别方法可以应用于一种唇语识别系统，该唇语识别系统包括唇语识别设备和计算机设备，所述唇语识别设备可以设置在终端中，在某些实施例中，所述终端可以包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑、车载智能终端、智能手表等智能终端设备。在某些实施例中，所述计算机设备中包括一个或多个数据库，所述数据库可以用于存储音频数据和人脸画面数据，如歌曲和歌曲的人脸画面等内容。在某些实施例中，本发明实施例提供的唇语识别方法可以应用于识别多种语种和/或多种音色的唇语的场景：例如识别任意语种，任意音色的语音数据、歌声数据等。当然，以上应用
场景仅仅是示例说明，本发明实施例的唇语识别可以应用到任意与唇语识别相关联的场景中。
32.下面结合附图1对本发明实施例提供的唇语识别系统进行示意性说明。
33.请参见图1，图1是本发明实施例提供的一种唇语识别系统的结构示意图，该系统包括终端11和计算机设备12，在某些实施例中，终端11与计算机设备12可以通过无线通信方式建立通信连接；其中，在某些场景下，所述终端11与计算机设备12之间也可以通过有线通信方式建立通信连接。在某些实施例中，所述终端11可以包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑、车载智能终端、智能手表等智能终端设备。
34.本发明实施例中，终端11可以采集音频数据以及所述音频数据对应的人脸画面数据，并将采集到的音频数据和人脸画面数据发送给计算机设备12，计算机设备12可以对获取到的音频数据进行均衡化处理，得到目标音频数据，并对人脸画面数据进行预处理，得到目标嘴唇数据；将目标音频数据输入预训练的音频特征提取模型，得到目标音频数据对应的音频特征向量；将音频特征向量和目标嘴唇数据输入预训练的唇语识别模型，得到与音频数据和目标嘴唇数据对应的唇语数据。或者，计算机设备12或终端11执行的动作也可以由对方执行，即终端11一侧或计算机设备12一侧单独执行唇语识别方法。
35.下面结合附图2对本发明实施例提供的唇语识别方法进行示意性说明。
36.具体请参见图2，图2是本发明实施例提供的一种唇语识别方法的流程示意图，本发明实施例的唇语识别方法可以由唇语识别设备执行，其中，唇语识别设备设置于终端或计算机设备中，其中，终端或计算机设备的具体解释如前。具体地，本发明实施例的方法包括如下步骤。
37.s201：获取音频数据以及音频数据对应的人脸画面数据。
38.本发明实施例中，唇语识别设备可以获取音频数据以及音频数据对应的人脸画面数据。在某些实施例中，音频数据可以包括但不限于多个语种和/或多种音色。在某些实施例中，人脸画面数据可以为无声的视频数据。在某些实施例中，该音频数据对应的人脸画面数据可以指人脸画面数据与该音频数据的时间点对应。在某些实施例中，音频数据的频率在60hz-1200hz之间，因为人的发声频率在60hz-1200hz之间，通过将音频数据的频率选择在这个区间，避免由于音频数据的频率不在人的发声频率范围而无法识别出唇语数据的情况，有助于后续有效地从音频数据中识别出唇语数据。
39.在一个实施例中，唇语识别设备在获取音频数据以及音频数据对应的人脸画面数据时，可以利用在预训练的音频特征提取模型训练过程中计算得到的每个音频训练数据对应的音频片段的采样概率从指定平台采集有声视频数据，并从该有声视频数据中提取音频数据和人脸画面数据(即无声视频数据)。
40.在一个实施例中，唇语识别设备在获取音频数据以及音频数据对应的人脸画面数据时，可以利用在预训练的音频特征提取模型训练过程中计算得到的每个音频训练数据对应的音频片段的采样概率从指定平台采集音频数据，在采集到音频数据后，获取该音频数据的时间点信息，并根据该音频数据的时间点信息获取与该时间点信息对应的人脸画面数据。
41.在一个实施例中，在获取与该时间点信息对应的人脸画面数据时，可以获取音频数据的起始时间点和结束时间点，并从指定平台获取与该起始时间点和结束时间点对应的
人脸画面数据。
42.例如，假设在预训练的音频特征提取模型训练过程中计算得到的每个音频训练数据对应的音频片段的采样概率为p，指定平台为口语考试平台，该口语考试平台包括用户的口语考试的音频数据和人脸画面数据，则可以根据采样频率p从该口语考试平台采集口语音频数据，其中，该口语音频数据的起始时间点为t，结束时间点为t+z，z大于0，则可以从该口语开始平台获取t至t+z时间段的人脸画面数据。
43.s202：对音频数据进行均衡化处理，得到目标音频数据，并对人脸画面数据进行预处理，得到目标嘴唇数据。
44.本发明实施例中，唇语识别设备可以对音频数据进行均衡化处理，得到目标音频数据，并对人脸画面数据进行预处理，得到目标嘴唇数据。
45.在一个实施例中，唇语识别设备在对音频数据进行均衡化处理，得到目标音频数据时，可以从音频数据中提取一个或多个音频片段，并对每个音频片段进行分析，得到每个音频片段对应的音高分布向量；根据每个音频片段对应的音高分布向量确定音高数据，并对音高数据进行均衡化处理，得到均衡化处理后的目标音频数据。
46.在一个实施例中，唇语识别设备在对音高数据进行均衡化处理时，可以通过将音频片段组成音高分布矩阵来实现对音高数据的均衡化处理。在一个实施例中，假设从音频数据中提取到有m个音频片段，则组成一个维度为m*n的音高分布矩阵a，为了实现音高分布均衡，需要求解m个音频片段分别对应的权重，如下公式(1)所示：
47.a
t
x＝b，s.t.xi＞0
48.bi＝sum(a)/m
ꢀꢀꢀ
(1)
49.其中，a的维度为m*n，x的维度为m*1，b的维度为n*1，b向量的每个元素都相等。
50.通过公式(1)可以计算得到每个音频片段的权重b，该权重b可以作为预训练的音频特征提取模型训练过程中的每个音频训练数据对应的音频片段的采样概率，有助于后续在唇语识别的过程中利用该采样概率采集待识别的音频数据。
51.在一个实施例中，唇语识别设备在对人脸画面数据进行预处理，得到目标嘴唇数据时，可以对人脸画面数据进行插帧处理，得到目标人脸画面数据，并从目标人脸画面数据中提取嘴唇数据；对嘴唇数据进行校正处理，得到目标嘴唇数据。
52.在一个实施例中，唇语识别设备在对人脸画面数据进行插帧处理时，可以按照预设插值进行插帧处理，在某些实施例中，插值可以为预设的帧率，如每秒50帧。
53.在一个实施例中，唇语识别设备在从目标人脸画面数据中提取嘴唇数据时，可以从目标人脸画面数据中提取人脸画面数据中的嘴唇标定数据，嘴唇标定数据包括多个标定点。
54.在一个实施例中，唇语识别设备在对嘴唇数据进行校正处理，得到目标嘴唇数据时，可以获取多个标定点的中心位置，并将多个标定点的中心位置平移到指定位置；对平移后的多个标定点进行水平校正，并按照指定尺寸对校正后的人脸画面数据中的嘴唇进行缩放处理，得到指定尺寸的目标嘴唇数据。在某些实施例中，唇语识别设备可以使用开源的mmpose工具提取人脸画面数据中的多个标定点，如20个标定点。在某些实施例中，多个标定点的中心位置可以为多个标定点连接图形的对称中心(如圆形的圆心)。
55.在一个实施例中，唇语识别设备在从目标人脸画面数据中提取嘴唇标定数据时，
可以从目标人脸画面数据中提取多个人脸标定点，并从多个人脸标定点中提取嘴唇对应的多个标定点。
56.具体如图3所示，图3是本发明实施例提供的一种人脸标定点的示意图，唇语识别设备可以从如图3所示的人脸标定点中提取49至68对应的标定点为嘴唇对应的标定点。在某些实施例中，不同嘴型的嘴唇对应的标定点的位置不相同，如图4所示，图4是本发明实施例提供的三种嘴唇的标定点的示意图，其中包括三种形状的嘴唇，分别为：嘴唇a、嘴唇b和嘴唇c。
57.在一种实施方式中，每个标定点包含了x和y两个维度，标定点数据是一个n(如40)维的数据。由于不同的人脸画面数据中人脸的大小和位置不是固定的，因此需要进一步对平移后的多个标定点进行水平校正，并按照指定尺寸对校正后的人脸画面数据中的嘴唇进行缩放处理，得到指定尺寸的嘴唇数据。具体做法可以40维的标定数据为例进行说明：平移嘴唇的20个标定点，将20个标定点的中心位置平移到指定位置，然后以嘴角左右两点(如图3中的49与55两个点)进行连线，计算连线与x轴夹角θ，根据夹角θ对嘴型向x轴方向反方向旋转角度θ实现水平校正，然后以嘴巴闭合时的连线长度作为嘴型大小度量，将所有画面的嘴型大小缩放到指定尺寸。
58.s203：将目标音频数据输入预训练的音频特征提取模型，得到目标音频数据对应的音频特征向量。
59.本发明实施例中，唇语识别设备可以将目标音频数据输入预训练的音频特征提取模型，得到目标音频数据对应的音频特征向量。
60.在一个实施例中，唇语识别设备在将目标音频数据输入预训练的音频特征提取模型，得到目标音频数据对应的音频特征向量时，可以从目标音频数据中提取对应的频谱包络特征，并对频谱包络特征进行降维处理；将降维处理得到的频谱包络特征输入音频特征提取模型，得到目标音频数据对应的音频特征向量。
61.在一个实施例中，唇语识别设备在从目标音频数据中提取对应的频谱包络特征时，可以使用指定工具(如world声码器)来提取频谱包络特征。例如，在对频谱包络特征进行降维处理时，可以将60维的频谱包络特征降维到40维。
62.在一个实施例中，唇语识别设备在将降维处理得到的频谱包络特征输入音频特征提取模型，得到目标音频数据对应的音频特征向量之前，可以获取训练数据集，训练数据集包括多个音频训练数据；对多个音频训练数据进行均衡化处理，得到多个目标音频训练数据；将多个目标音频训练数据输入预设的残差神经网络模型进行训练，得到第一损失函数值；根据第一损失函数值调整残差神经网络模型的第一模型参数，并将多个目标音频训练数据输入调整第一模型参数后的残差神经网络模型进行重新训练；当重新训练得到的第一损失函数值满足第一预设阈值时，确定得到的残差神经网络模型为音频特征提取模型。
63.在一个实施例中，唇语识别设备在将目标音频训练数据输入预设的残差神经网络模型进行训练时，可以利用world声码器从目标音频训练数据中提取出对应的频谱包络训练特征，并将频谱包络训练特征输入预设的残差神经网络模型进行训练。
64.具体可以图5为例，图5是本发明实施例提供的一种音频特征提取模型的示意图，如图5所示，残差神经网络模型包括线性层(linear)，泄露修正线性单元(leakyrelu)，空洞卷积层(dilated conv)，由leakyrelu和dilated conv组成的基础模块共重复了5次。频谱
包络训练特征经过第一个线性层，维度由[t,60]变成[t,128]，五个基础模块中空洞卷积层的卷积核大小均为3，通道数均为128，膨胀系数分别为[2,4,8,2,4]，由此来增大模型的感受野，最后同样经过一个线性层，得到的音频特征训练向量，维度由[t,128]变成[t,64]。该模型的第一损失函数值为对比损失(contrastive loss function)函数值，其基本思想是相同音素得到的音频特征向量(即对应模型训练过程中的音频特征训练向量)之间的距离越小越好，不同音素得到的音频特征向量之间的距离越大越好。其中，第一损失函数值的计算如下公式(2)所示。
[0065][0066]
这里zi表示第i帧音频特征向量，sim(x,y)表示x和y的余弦相似距离。通过训练，最终可以使得相邻的音频特征向量之间相似度很高，即相同的音素的音频特征有聚类效果，而不同的音素的音频特征更具有区分度。
[0067]
通过这种方式训练得到的音频特征提取模型，有助于提取鲁棒性更强的特征向量。
[0068]
s204：将音频特征向量和目标嘴唇数据输入预训练的唇语识别模型，得到与音频数据和目标嘴唇数据对应的唇语数据。
[0069]
本发明实施例中，唇语识别设备可以将音频特征向量和目标嘴唇数据输入预训练的唇语识别模型，得到与音频数据和目标嘴唇数据对应的唇语数据，所述唇语数据包括所述人脸画面数据中每一帧图像上嘴唇的位置数据。在某些实施例中，所述唇语识别模型包括卷积神经网络模型和双向循环神经网络模型。
[0070]
在某些实施例中，唇语数据包括位置数据和运动数据，位置数据包括嘴唇上各个标定点的位置数据(如位置坐标)，运动数据包括嘴唇上各个标定点的运动数据(如运动方向、运动距离等)。在某些实施例中，所述运动数据可以根据多帧嘴唇图像中各个标定点的位置数据确定得到，可选的，可以根据多帧嘴唇图像中各个标定点的位置坐标，确定该嘴唇的运动方向和运动距离。
[0071]
以图4为例，假设音频数据的起始时间点为t，结束时间点为t+z，z大于0，人脸画面数据为t至t+z时间段的人脸画面数据，通过预训练的唇语识别模型得到图4中嘴唇a的位置数据和运动数据，该位置数据包括嘴唇a对应的每一帧嘴唇图像上各个标定点的位置坐标，该运动数据是根据每一帧嘴唇图像上各个标定点的位置坐标确定的，其中，该运动数据包括嘴唇a上各个标定点的运动方向和运动距离。
[0072]
在一个实施例中，所述唇语识别模型包括卷积神经网络模型和双向循环神经网络模型；唇语识别设备在将所述音频特征向量和所述目标嘴唇数据输入预训练的唇语识别模型，得到与所述音频数据和所述目标嘴唇数据对应的唇语数据时，可以从所述目标嘴唇数据中提取目标嘴唇特征向量；并将所述音频特征向量和目标嘴唇特征向量输入所述卷积神经网络模型进行降维处理，得到降维特征向量；以及将所述降维特征向量输入所述双向循环神经网络模型，预测得到与所述音频数据和所述目标嘴唇数据对应的唇语数据。在某些实施例中，提取目标嘴唇特征向量可以采用预设的特征提取算法提取，本发明对目标嘴唇特征向量的提取方式不做具体限定。
[0073]
在一个实施例中，唇语识别设备在将所述音频特征向量和目标嘴唇特征向量输入所述卷积神经网络模型进行降维处理，得到降维特征向量时，可以将所述音频特征向量和目标嘴唇特征向量输入所述卷积神经网络模型的多个卷积模块，得到多个卷积计算结果；并对所述多个卷积计算结果进行拼接处理，得到拼接特征向量；以及将所述拼接特征向量输入所述卷积神经网络模型的线性层和线性整流单元进行降维处理，得到所述降维特征向量。
[0074]
在一个实施例中，唇语识别设备在将所述音频特征向量和所述目标嘴唇数据输入预训练的唇语识别模型，得到与所述音频数据和所述目标嘴唇数据对应的唇语数据之后，可以根据所述唇语数据驱动预设的可视化引擎，以使得所述可视化引擎基于虚拟用户对所述唇语数据进行可视化，得到多个虚拟唇语图像；并根据所述多个虚拟唇语图像确定虚拟唇语动画视频。
[0075]
本发明实施例通过计算得到唇语数据，有助于准确有效地将音频数据和唇语数据渲染生成生动的唇语合成数据，有助于更有效地实现唇语可视化。
[0076]
在一个实施例中，唇语识别设备在将音频特征向量和目标嘴唇数据输入预训练的唇语识别模型，得到与音频数据和目标嘴唇数据对应的唇语数据之前，可以将训练数据集输入音频特征提取模型，得到与训练数据集对应的音频特征训练向量集；将音频特征训练向量集和嘴唇训练数据输入预设的卷积神经网络模型中，得到第一特征向量；将第一特征向量输入预设的双向循环神经网络模型进行训练，得到第二损失函数值；根据第二损失函数值调整卷积神经网络模型的第二模型参数以及双向循环神经网络模型的第三模型参数；将音频特征训练向量集输入调整第二模型参数后的卷积神经网络模型和调整第三模型参数后的双向循环神经网络模型进行重新训练；当重新训练得到的第二损失函数值满足第二预设阈值时，确定得到的卷积神经网络模型和双向循环神经网络模型组成唇语识别模型。
[0077]
在一个实施例中，唇语识别设备在将音频特征训练向量集和嘴唇训练数据输入预设的卷积神经网络模型中，得到第一特征向量时，可以将音频特征训练向量集和嘴唇训练数据输入卷积神经网络模型中的多个卷积模块，得到多个卷积计算结果；对多个卷积计算结果进行拼接处理，得到第二特征向量；将第二特征向量输入卷积神经网络模型中的多个线性模块进行降维处理，得到第一特征向量。
[0078]
在一个实施例中，在将音频特征训练向量集和嘴唇训练数据输入卷积神经网络模型中的多个卷积模块时，可以提取嘴唇训练数据对应的嘴唇特征训练向量，并将音频特征训练向量和嘴唇特征训练向量输入卷积神经网络模型中的多个卷积模块。在某些实施例中，嘴唇特征训练向量可以采用预设的特征提取算法提取，本发明对嘴唇特征训练向量的提取方式不做具体限定。在某些实施例中，音频特征训练向量的维度与嘴唇特征训练向量的维度可相同。
[0079]
具体可以图6为例进行说明，图6是本发明实施例提供的一种唇语识别模型的示意图，假设通过音频特征提取模型提取到的音频特征训练向量的维度和嘴唇特征训练向量的维度为[t，64]，将该音频特征训练向量和嘴唇特征训练向量输入到预设的卷积神经网络模型中多个不同的卷积模块(卷积核大小分别为1，3，5，7，9，通道数均为64)中，然后将卷积计算结果进行拼接处理，得到[t,64*5]的音频特征训练向量和嘴唇特征训练向量，通过预设的卷积神经网络模型中线性层(linear)和线性整流单元(relu)计算，进行降维处理得到
[t,64]的音频特征训练向量和嘴唇特征训练向量，最后使用双向循环神经网络(bi-gru)模型，并使用线性层(linear)转换，得到[t,40]的结果作为模型的预测结果。
[0080]
为了避免唇语识别模型计算结果都在均值附近，本发明将位置结果和运动结果(即相邻帧之间的差分结果)的误差都作为计算第二损失函数值的一部分，计算公式为如下公式(3)所示：
[0081][0082]
这里，y
t
表示第t帧的目标输出，表示第t帧的预测输出，w1和w2分别表示位置数据和运动数据的权重。唇语识别模型使用的优化器为adam，学习率为0.001。当第二损失函数值收敛时，模型训练结束，得到唇语识别模型。在利用唇语识别模型识别唇语的过程中，只需要输入任意一段语音或者歌声等包括音频数据和人脸画面数据的数据，便可以识别得到对应的唇语数据。
[0083]
通过这种方式可以克服语种和音色的限制，预测出更加准确的唇语数据(即包括位置数据和运动数据)，用来驱动图形渲染引擎(即可视化引擎)，有助于唇语数据的可视化。
[0084]
本发明实施例利用大量音频训练数据训练得到音频特征提取模型，减少了工作量，降低了模型训练的复杂度，通过音频特征提取模型有助于提取更准确的音频特征向量；以及通过音频特征提取模型得到的音频特征训练向量和唇语标注数据建立唇语识别模型，有助于更有效、准确、灵活地识别出任意语种和/或任意音色的音频数据和人脸画面数据对应的唇语数据。
[0085]
请参见图7，图7是本发明实施例提供的一种唇语识别设备的结构示意图。具体的，唇语识别设备设置于计算机设备中，设备包括：获取单元701、处理单元702、提取单元703、识别单元704；
[0086]
获取单元701，用于获取音频数据以及所述音频数据对应的人脸画面数据；
[0087]
处理单元702，用于对所述音频数据进行均衡化处理，得到目标音频数据，并对所述人脸画面数据进行预处理，得到目标嘴唇数据；
[0088]
提取单元703，用于将所述目标音频数据输入预训练的音频特征提取模型，得到所述目标音频数据对应的音频特征向量；
[0089]
识别单元704，用于将所述音频特征向量和所述目标嘴唇数据输入预训练的唇语识别模型，得到与所述音频数据和所述目标嘴唇数据对应的唇语数据，所述唇语数据包括所述人脸画面数据中每一帧图像上嘴唇的位置数据。
[0090]
进一步地，处理单元702对所述音频数据进行均衡化处理，得到目标音频数据时，具体用于：
[0091]
从音频数据中提取一个或多个音频片段，并对每个音频片段进行分析，得到每个音频片段对应的音高分布向量；
[0092]
根据每个音频片段对应的音高分布向量确定音高数据，并对音高数据进行均衡化处理，得到均衡化处理后的目标音频数据。
[0093]
进一步地，处理单元702对对所述人脸画面数据进行预处理，得到目标嘴唇数据时，具体用于：
[0094]
对所述人脸画面数据进行插帧处理，得到目标人脸画面数据，并从所述目标人脸画面数据中提取嘴唇数据；
[0095]
对所述嘴唇数据进行校正处理，得到目标嘴唇数据。
[0096]
进一步地，处理单元702从所述目标人脸画面数据中提取嘴唇数据时，具体用于：
[0097]
从所述目标人脸画面数据中提取所述目标人脸画面数据中的嘴唇标定数据，所述嘴唇标定数据包括多个标定点；
[0098]
处理单元702对嘴唇数据进行校正处理，得到目标嘴唇数据时，具体用于：
[0099]
获取多个标定点的中心位置，并将多个标定点的中心位置平移到指定位置；
[0100]
对平移后的多个标定点进行水平校正，并按照指定尺寸对校正后的人脸画面数据中的嘴唇进行缩放处理，得到指定尺寸的目标嘴唇数据。
[0101]
进一步地，提取单元703将所述目标音频数据输入预训练的音频特征提取模型，得到所述目标音频数据对应的音频特征向量时，具体用于：
[0102]
从所述目标音频数据中提取对应的频谱包络特征，并对所述频谱包络特征进行降维处理；
[0103]
将降维处理得到的频谱包络特征输入所述音频特征提取模型，得到所述目标音频数据对应的音频特征向量。
[0104]
进一步地，所述唇语识别模型包括卷积神经网络模型和双向循环神经网络模型；识别单元704将所述音频特征向量和所述目标嘴唇数据输入预训练的唇语识别模型，得到与所述音频数据和所述目标嘴唇数据对应的唇语数据时，用于：
[0105]
从所述目标嘴唇数据中提取目标嘴唇特征向量；
[0106]
将所述音频特征向量和目标嘴唇特征向量输入所述卷积神经网络模型进行降维处理，得到降维特征向量；
[0107]
将所述降维特征向量输入所述双向循环神经网络模型，预测得到与所述音频数据和所述目标嘴唇数据对应的唇语数据。
[0108]
进一步地，识别单元704将所述音频特征向量和目标嘴唇特征向量输入所述卷积神经网络模型进行降维处理，得到降维特征向量时，具体用于：
[0109]
将所述音频特征向量和目标嘴唇特征向量输入所述卷积神经网络模型的多个卷积模块，得到多个卷积计算结果；
[0110]
对所述多个卷积计算结果进行拼接处理，得到拼接特征向量；
[0111]
将所述拼接特征向量输入所述卷积神经网络模型的线性层和线性整流单元进行降维处理，得到所述降维特征向量。
[0112]
进一步地，识别单元704将所述音频特征向量和所述目标嘴唇数据输入预训练的唇语识别模型，得到与所述音频数据和所述目标嘴唇数据对应的唇语数据之后，还用于：
[0113]
根据所述唇语数据驱动预设的可视化引擎，以使得所述可视化引擎基于虚拟用户对所述唇语数据进行可视化，得到多个虚拟唇语图像；
[0114]
根据所述多个虚拟唇语图像确定虚拟唇语动画视频。
[0115]
本发明实施例通过获取音频数据以及音频数据对应的人脸画面数据；对音频数据进行均衡化处理，得到目标音频数据，并对人脸画面数据进行预处理，得到目标嘴唇数据；将目标音频数据输入预训练的音频特征提取模型，得到目标音频数据对应的音频特征向
量；将音频特征向量和目标嘴唇数据输入预训练的唇语识别模型，得到与音频数据和目标嘴唇数据对应的唇语数据，可以提高唇语识别的有效性、灵活性和准确性。
[0116]
请参见图8，图8是本发明实施例提供的一种计算机设备的结构示意图。具体的，所述计算机设备包括：存储器801、处理器802。
[0117]
在一种实施例中，所述计算机设备还包括数据接口803，所述数据接口803，用于传递计算机设备和其他设备之间的数据信息。
[0118]
所述存储器801可以包括易失性存储器(volatile memory)；存储器801也可以包括非易失性存储器(non-volatile memory)；存储器801还可以包括上述种类的存储器的组合。所述处理器802可以是中央处理器(central processing unit，cpu)。所述处理器802还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，asic)，可编程逻辑器件(programmable logic device，pld)或其组合。上述pld可以是复杂可编程逻辑器件(complex programmable logic device，cpld)，现场可编程逻辑门阵列(field-programmable gate array，fpga)或其任意组合。
[0119]
所述存储器801用于存储程序，所述处理器802可以调用存储器801中存储的程序，用于执行如下步骤：
[0120]
获取音频数据以及所述音频数据对应的人脸画面数据；
[0121]
对所述音频数据进行均衡化处理，得到目标音频数据，并对所述人脸画面数据进行预处理，得到目标嘴唇数据；
[0122]
将所述目标音频数据输入预训练的音频特征提取模型，得到所述目标音频数据对应的音频特征向量；
[0123]
将所述音频特征向量和所述目标嘴唇数据输入预训练的唇语识别模型，得到与所述音频数据和所述目标嘴唇数据对应的唇语数据，所述唇语数据包括所述人脸画面数据中每一帧图像上嘴唇的位置数据。
[0124]
进一步地，处理器802对所述音频数据进行均衡化处理，得到目标音频数据时，具体用于：
[0125]
从音频数据中提取一个或多个音频片段，并对每个音频片段进行分析，得到每个音频片段对应的音高分布向量；
[0126]
根据每个音频片段对应的音高分布向量确定音高数据，并对音高数据进行均衡化处理，得到均衡化处理后的目标音频数据。
[0127]
进一步地，处理器802对对所述人脸画面数据进行预处理，得到目标嘴唇数据时，具体用于：
[0128]
对所述人脸画面数据进行插帧处理，得到目标人脸画面数据，并从所述目标人脸画面数据中提取嘴唇数据；
[0129]
对所述嘴唇数据进行校正处理，得到目标嘴唇数据。
[0130]
进一步地，处理器802从所述目标人脸画面数据中提取嘴唇数据时，具体用于：
[0131]
从所述目标人脸画面数据中提取所述目标人脸画面数据中的嘴唇标定数据，所述嘴唇标定数据包括多个标定点；
[0132]
处理器802对嘴唇数据进行校正处理，得到目标嘴唇数据时，具体用于：
[0133]
获取多个标定点的中心位置，并将多个标定点的中心位置平移到指定位置；
digital,sd)卡，闪存卡(flash card)等。进一步地，所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及计算机设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
[0152]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)或随机存储记忆体(random access memory，ram)等。
[0153]
以上所揭露的仅为本发明的部分实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：庄晓滨
技术所有人：腾讯音乐娱乐科技（深圳）有限公司
我是此专利的发明人

上一篇：柔性屏设备的制作方法
上一篇：一种ZIF-8衍生碳-木材海绵复合蒸发材料及其制备方法和应用