一种词语级唇读方法及系统

文档序号:31861937发布日期:2022-10-19 05:32阅读:110来源:国知局
一种词语级唇读方法及系统

1.本发明实施例涉及唇语识别技术领域,特别涉及一种词语级唇读方法及系统。


背景技术:

2.自动唇读(automatic lip reading,alr),也被称为视觉语音识别(visual speech recognition,vsr),旨在从说话者的嘴唇动作解码语音。作为计算机视觉和自然语言处理交叉领域中一个新兴且具有挑战性的研究课题,近年来alr在许多应用中发挥着重要作用,受到了越来越多的关注。例如,唇动视觉信息可以作为音频的补充信息来提高语音识别的准确性和鲁棒性,特别是在噪声环境中。此外,alr还广泛应用于医疗保健、公共安全、人机交互、深度伪造检测等领域。最近,深度学习技术的进展和大规模视听语音数据集的出现极大地推动了alr的发展。
3.而尽管alr取得了很大进展,但仍有一些问题有待解决。最关键的问题之一是,在大多数现有唇读数据集的谈话视频中,与任务无关的帧级噪声普遍存在。现有的基于深度学习的唇读模型由于训练数据有限和广泛存在的帧级噪声,存在严重的过拟合问题。例如,与预测无关的信息(如超出实际单词边界的视频帧)会显著削弱模型预测的性能。为了解决这个问题,通常采用引入额外的单词边界标注来改善模型训练。然而,单词边界注释的获得代价昂贵,特别是对于更具挑战性的句子级别唇读任务来说更是需要高成本投入。此外,说话者意外的停顿、结巴、重复也会使识别更加困难。


技术实现要素:

4.为了解决上述技术问题,本发明实施例提供了一种词语级唇读方法,包括:
5.构建基于信息瓶颈的变分时域掩膜模块,以用于根据时域特征分析帧级特征的重要程度;
6.确定唇读基准模型;
7.将所述变分时域掩膜模块插入至所述唇读基准模型中形成用于识别词语的词语级唇读模型;
8.获得待处理数据,所述待处理数据包括多帧包含面部信息的图像;
9.对所述待处理数据进行处理得到每帧图像仅包含唇部区域的数据集;
10.将所述数据集输入至所述唇读模型中,得到对应所述数据集中各个唇部区域的唇读信息,所述唇读信息包括单词。
11.作为一可选实施例,所述构建基于信息瓶颈的变分时域掩膜模块,包括:
12.结合帧级独立性假设以及二值掩膜的伯努利分布先验数据构建基于信息瓶颈的变分时域掩膜模块。
13.作为一可选实施例,所述确定唇读基准模型,包括:
14.确定至少由视觉前端网络和序列后端网络组成的唇读基准模型。
15.作为一可选实施例,所述将所述变分时域掩膜模块插入至所述唇读基准模型中形
成用于识别词语的词语级唇读模型,包括:
16.将所述变分时域掩膜模块插入所述视觉前端网络与序列后端网络之间,形成用于识别词语的词语级唇读模型。
17.作为一可选实施例,对所述待处理数据进行处理得到每帧图像仅包含唇部区域的数据集,包括:
18.对所述待处理数据中的每帧图像进行人脸特征标记;
19.基于标记结果确定出唇部区域;
20.至少基于各所述唇部区域对每帧所述图像进行裁剪,得到所述数据集。
21.作为一可选实施例,还包括:
22.将裁剪后的多帧所述图像转换为灰度图像,并将所有灰度图像进行像素值归一化至[0,1],进而形成所述数据集。
[0023]
作为一可选实施例,所述数据集为视频格式;
[0024]
所述将所述数据集输入至所述唇读模型中,得到对应所述数据集中各个唇部区域的唇读信息,包括:
[0025]
将所述数据集输入至所述唇读模型中,使所述数据集通过所述视觉前端网络提取帧级特征;
[0026]
基于所述唇读模型中的变分时域掩膜模块分析所述帧级特征的重要程度,以基于所述重要程度进行所述帧级特征的掩膜采样;
[0027]
将掩膜采样前后的所述帧级特征均输入至所述序列后端网络,以基于所述序列后端网络中的线性分类器进行分类预测,得到所述唇读信息。
[0028]
本发明另一实施例同时提供一种词语级唇读系统,包括:
[0029]
构建模块,用于构建基于信息瓶颈的变分时域掩膜模块,以用于根据时域特征分析帧级特征的重要程度;
[0030]
确定模块,用于确定唇读基准模型;
[0031]
第一输入模块,用于将所述变分时域掩膜模块插入至所述唇读基准模型中形成用于识别词语的词语级唇读模型;
[0032]
获得模块,用于获得待处理数据,所述待处理数据包括多帧包含面部信息的图像;
[0033]
处理模块,用于对所述待处理数据进行处理得到每帧图像仅包含唇部区域的数据集;
[0034]
第二输入模块,用于将所述数据集输入至所述唇读模型中,得到对应所述数据集中各个唇部区域的唇读信息,所述唇读信息包括单词。
[0035]
作为一可选实施例,所述构建基于信息瓶颈的变分时域掩膜模块,包括:
[0036]
结合帧级独立性假设以及二值掩膜的伯努利分布先验数据构建基于信息瓶颈的变分时域掩膜模块。
[0037]
作为一可选实施例,所述确定唇读基准模型,包括:
[0038]
确定至少由视觉前端网络和序列后端网络组成的唇读基准模型。
[0039]
基于上述实施例的公开可以获知,本发明实施例具备的有益效果包括:
[0040]
构建基于信息瓶颈的变分时域掩模模块,通过变分时域掩模模块挖掘待处理数据的帧级特征的重要性,可以显著提高词语级唇读模型的可解释性和预测精度;而且,本实施
例中的变分时域掩模模块作为一个即插即用模块,可以集成到任意的唇读基础模型中以实现更好的性能,同时灵活方便。
[0041]
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0042]
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
[0043]
图1为本发明实施例中词语级唇读方法的流程图。
[0044]
图2为本发明实施例中词语级唇读方法的应用流程图。
[0045]
图3为本发明实施例中的变分时域掩膜模块的结构图。
[0046]
图4为本发明实施例中的词语级唇读系统的结构框图。
具体实施方式
[0047]
下面,结合附图对本发明的具体实施例进行详细的描述,但不作为本发明的限定。
[0048]
应理解的是,可以对此处公开的实施例做出各种修改。因此,下述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。
[0049]
包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。
[0050]
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本发明的这些和其它特性将会变得显而易见。
[0051]
还应当理解,尽管已经参照一些具体实例对本发明进行了描述,但本领域技术人员能够确定地实现本发明的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
[0052]
当结合附图时,鉴于以下详细说明,本公开的上述和其他方面、特征和优势将变得更为显而易见。
[0053]
此后参照附图描述本公开的具体实施例;然而,应当理解,所公开的实施例仅仅是本公开的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此,本文所公开的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。
[0054]
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本公开的相同或不同实施例中的一个或多个。
[0055]
下面,结合附图详细的说明本发明实施例。
[0056]
如图1所示,本发明实施例提供一种词语级唇读方法,包括:
[0057]
s100:构建基于信息瓶颈的变分时域掩膜模块,以用于根据时域特征分析帧级特征的重要程度;
[0058]
s200:确定唇读基准模型;
[0059]
s300:将变分时域掩膜模块插入至唇读基准模型中形成用于识别词语的词语级唇读模型;
[0060]
s400:获得待处理数据,待处理数据包括多帧包含面部信息的图像;
[0061]
s500:对待处理数据进行处理得到每帧图像仅包含唇部区域的数据集;
[0062]
s600:将数据集输入至唇读模型中,得到对应数据集中各个唇部区域的唇读信息,唇读信息包括单词。
[0063]
所述的信息瓶颈((information bottleneck,ib)作为一种表示压缩技术,其目的是学习一种隐藏编码,该编码在对原始输入进行最大压缩的同时,能最大限度地表达目标。
[0064]
基于上述实施例的公开可以获知,本实施例具备的有益效果包括构建基于信息瓶颈的变分时域掩模模块,通过变分时域掩模模块挖掘待处理数据的帧级特征的重要性,可以显著提高词语级唇读模型的可解释性和预测精度;而且,本实施例中的变分时域掩模模块作为一个即插即用模块,可以集成到任意的唇读基础模型中以实现更好的性能,同时灵活方便。
[0065]
具体地,构建基于信息瓶颈的变分时域掩膜模块,包括:
[0066]
s101:结合帧级独立性假设以及二值掩膜的伯努利分布先验数据构建基于信息瓶颈的变分时域掩膜模块。
[0067]
确定唇读基准模型,包括:
[0068]
s201:确定至少由视觉前端网络和序列后端网络组成的唇读基准模型。
[0069]
将变分时域掩膜模块插入至唇读基准模型中形成用于识别词语的词语级唇读模型,包括:
[0070]
s301:将变分时域掩膜模块插入视觉前端网络与序列后端网络之间,形成用于识别词语的词语级唇读模型。
[0071]
例如,如图2所示,图2中带有灰色阴影的上半部分是深度唇读模型的一般架构,由一个视觉前端网络ev、一个序列后端网络es、一个gap层和一个线性分类器组成。最后的线性分类器层的输出维数等于单词类的总数。
[0072]
为了更好地理解,本实施例在这里正式定义了唇读任务。具体为给出一个以嘴唇为中心的t帧的视频i
1:t
=[i1,i2,

,i
t
],其中i
t
∈rw×h×1是灰色图像。视觉前端网络ev旨在提取来自视频i
1:t
的帧级连续帧级视觉特征x=[x1,x2,...,x
t
]∈r
t
×c,其中c为特征维数。接下来,序列后端网络es聚合时间信息和输出全局时域聚合特征h=[h1,h2,...,h
t

]∈r
t
′×c最后,将池化后的全局时域聚合特征h传给线性分类器进行最终预测。
[0073]
在通用结构的基础上,本实施例提出了一个更优的训练框架,旨在提高基线模型的可解释性和泛化性。如图2所示,假设视觉前端网络ev经过了很好地预训练,本实施例引入vtm模块自动学习帧级特性的重要性。和vtm模块的输出为掩膜后的帧级特征z=[z1,z2,...,z
t
],即原始的帧级特征x的二进制掩码版本。vtm模块试图在不降低预测精度的情况下过滤掉与任务无关的帧级特征,使网络更具可解释性。
[0074]
除了可解释性之外,本实施例还希望网络能够更具泛化性。为了达到这个目标,本实施例引入了一个对比损失lm,使网络在原始的帧级特征x和掩膜特征z下做出类似的预测。本实施例使用kullback-leibler散度来度量预测差异,可以写成:
[0075][0076]
式中,y为真值标签,kl[
·

·
]为kullback-leibler散度,x为原始的帧级特征,p(y|x)为y在x下的条件概率,p(y|z)为y在z下的条件概率。该训练框架的核心思想是自动学习框架特征的重要性,并迫使网络基于重要特征进行决策。在推理阶段,只需要全局预测。也就是说,插入vtm模块只是为了辅助训练模型,本质上并没有增加任何额外的内存和计算成本,且该模块可以插入也可以抽出,使用灵活。
[0077]
进一步地,在本实施例中,设y和z分别表示真值标签和一个隐藏层的输出。为了使z在预测y时有足够的信息,同时不包含来自x的冗余信息,遵循信息瓶颈理论中的标准公式,目标函数为:
[0078][0079]
其中i(
·

·
)是互信息,β是一个控制预测标签y和压缩x的信息之间的权衡的超参数。公式2提供了一个在z上的直观的优化目标,其面临的主要挑战是计算i(x,z)和i(y,z)较为棘手。
[0080]
在计算上值时,本实施例不直接计算i(x,z)和i(y,z),而是结合变分信息瓶颈(vib)。具体地,基于马尔可夫假设的x,z,y,有:
[0081][0082]
公式(3)中,p(y,z)为y,z的联合概率;p(y|z)为y在z下的条件概率;p(y)为y的分布概率。
[0083]
而由于p(y|z)在这种情况下是难解的,设q(y|z)是p(y|z)的变分近似。基于kullback-leibler散度总是正的事实,构造i(y,z)的变分下界如下:
[0084][0085]
公式(4)中,q(y|z)为y在z下的变分条件概率;h(y)为真值标签y的熵;p
θ
(z|x)为参数θ表达的z在x下条件概率。其中θ和φ分别表示vtm网络参数和序列后端网络参数。h(y)为真值标签y的熵,与优化无关,可以忽略。
[0086]
同样,对于i(x,z),有:
[0087][0088]
其中,p(z)是难解的,所以使r(z)是p(z)的变分近似。接下来,可以构造i(x,z)的变分上界为:
[0089][0090]
公式(6)中,p(z)为z的分布概率;r(z)为z的变分分布概率;
[0091]
由上述公式2、4、6,可以得到l
ib
的变分上界如下:
[0092][0093]
其中,上式的e为期望值。
[0094]
在公式7中,前一项使z包含足够的信息来预测y,在分类任务中,这一项等价于交叉熵损失,定义为l
ce
。后一项试图尽可能地压缩x的信息。
[0095]
正如上文所解释的,vtm模块通过有选择地过滤掉帧级特性来压缩x。vtm模块根据信息瓶颈原理自动学习帧级特征的重要性。如图3所示,vtm模块基于读出操作获得特征h,并以x和h的串联为输入,生成一个二进制掩码m=[m1,m2,...,m
t
]∈{0,1}。z等于一个应用在x上的二进制掩码,即:
[0096]
z=x

m(8)
[0097]
其中

表示元素逐个相乘。
[0098]
如图3所示,根据公式8,变量z上的先验分布r(z)很难直接预定义。与以往在变量z上定义先验分布的信息瓶颈方法不同,本实施例在布尔变量m上引入先验分布r(m),为了使方程7中的第二项kl[p
θ
(z|x),r(z)]可解,故本实施例引入如下两个假设:
[0099]
1二进制掩码变量m在单个帧上是条件独立的。
[0100]
2为适应变量m的二元性,我们假设先验分布r(m)服从伯努利分布,即r(m)=bernoulli(π).其中π∈(0,1)是常数。
[0101]
在这两个假设下,z上的后验分布是一个单位脉冲混合分布:
[0102]
p
θ
(z|x)=(1-f
θ
(x))
·
δ(z)+f
θ
(x)
·
δ(z-x)(9)
[0103]fθ
表示vtm模块中使用的网络,δ(
·
)为标准单位脉冲函数。根据变量m的先验r(m),可以得到变量z的先验r(z)为:
[0104]
r(z|x)=(1-π)
·
δ(z)+π
·
δ(z-x)(10)
[0105]
接着,kl[p
θ
(z|x),r(z)]可推导为:
[0106][0107]
将方程11进一步简化为:
[0108]
kl[p
θ
(z|x),r(z)]=kl[p
θ
(m|x),r(m)]+π
·
h(x)(12)
[0109]
其中π
·
h(x)是优化的独立项,在过程中可以忽略。
[0110]
结合公式7和公式12,此时的信息瓶颈损失为:
[0111][0112]
由于来自伯努利分布的采样是不可微的,本实施例采用gumbel-softmax重参数化技巧来生成一个可微的近似m*.
[0113][0114]
其中σ(
·
)为sigmoid函数,τ为温度超参数,本实施例设τ=1.0。g是来自标准gumbel分布的随机样本。
[0115]
综上所述,本实施例的训练框架的最终目标函数(相当于唇读模型)为:
[0116][0117]
这里λ是控制两个损失项重要性的超参数。
[0118]
具体地,本实施例中的视觉前端网络ev,采用resnet18的一个简单变体,在本实施例中称为se-c3d-resnet18,作为视觉前端网络。该体系结构在词语级唇读任务中实现了sota性能。与标准的c3d-resnet18架构相比,引入了squeeze-and-extract模块来改进模型。
[0119]
序列后端网络es,可以采用三种常用的序列后端网络体系结构。即基于rnn的网络、基于tcn的网络和基于自注意机制的网络。对于基于rnn的网络,采用了在lrw-1000数据集上性能最好的3层bigru。作为lrw数据集上的sota模型,多尺度时间卷积网络(multi-scale temporal convolution network,mstcn)也能够被本实施例使用。对于基于自注意机制的网络,采用了标准transformer中的编码器子网络。
[0120]
上文所述的变分时间掩模f
θ
,由于独立坐标系的条件独立假设,f
θ
不需要捕捉时间信息。基于此,本实施例中采用了一个简单的、带有relu激活函数的三层线性网络来学习每一帧的重要性。
[0121]
在得到了唇读模型后,必然需要对其进行训练,才可投入使用。
[0122]
本实施例中,对待处理数据进行处理得到每帧图像仅包含唇部区域的数据集,包括:
[0123]
s501:对待处理数据中的每帧图像进行人脸特征标记;
[0124]
s502:基于标记结果确定出唇部区域;
[0125]
s503:至少基于各唇部区域对每帧图像进行裁剪,得到数据集。
[0126]
进一步地,所述方法还包括:
[0127]
s504:将裁剪后的多帧图像转换为灰度图像,并将所有灰度图像进行像素值归一化至[0,1],进而形成数据集。
[0128]
具体地,本实施例中,待处理数据通常由两种常用的大规模词语级唇读数据集实现,即lrw和lrw-1000,均为视频格式。
[0129]
lrw数据集通常用于词语级唇读分类任务。其由500个不同的英语单词组成,共计多达1000种表达,由数百个不同的人说出。每个视频的长度为1.16秒(29帧),目标单词在视频的中间出现。
[0130]
lrw-1000是一种自然分布的大规模汉语词语级唇读基准。其包含1000个类,718018个样本,来自2000多个不同的人说出。为了使所有视频具有相同的帧数,lrw-1000的实际设置是为每个单词连续选择40帧,并将目标单词放在中心,使其与lrw数据相似。
[0131]
本实施例中只使用这些数据集提供的词语标签,而不使用额外的注释(如单词边界注释)。
[0132]
进一步地,本实施例中对所有的数据集样本,基于检测到的人脸标记点裁剪出大小为96
×
96像素的以唇部区域为中心的视频。接着将所有视频输入转换为灰度视频数据,最后将所有灰度帧归一化为[0,1]。
[0133]
进一步地,本实施例对视觉输入使用了数据增强技术,如水平翻转和随机移动。在模型的训练阶段,可以唇部为中心的视频随机裁剪到88
×
88大小作为模型的输入。另外,adam被用作默认的优化器。初始学习速率可以设置为0.0003,权值衰减为10-4。同时可以将
epoch的总数设置为40个,并基于标准余弦调度器将学习速率降低到10-6。此外,所有基线模型的暂退率(dropout rate)都设置为0.2。
[0134]
对于超参数π、β和λ的选取,可以采用网格搜索算法寻找最优值。本实施例中对于各超参数的设置为π=0.5,β=0.1,λ=1.0。
[0135]
进一步地,本实施例中将数据集输入至唇读模型中,得到对应数据集中各个唇部区域的唇读信息,包括:
[0136]
s601:将数据集输入至唇读模型中,使数据集通过视觉前端网络提取帧级特征;
[0137]
s602:基于唇读模型中的变分时域掩膜模块分析帧级特征的重要程度,以基于重要程度进行帧级特征的掩膜采样;
[0138]
s603:将掩膜采样前后的帧级特征均输入至序列后端网络,以基于序列后端网络中的线性分类器进行分类预测,得到唇读信息。
[0139]
例如,将处理后的所有视频样本输入到词语级唇读模型中,先通过视觉前端网络提取视频的帧级特征。具体为利用变分时域掩膜模块学习帧级特征的重要性,根据重要性进行帧级特征的掩膜采样。接着将掩膜前和掩膜后的帧级特征分别输入到序列后端网络中,并通过该网络中的线性分类器进行最终预测。在模型训练过程中,还需要基于监督学习的交叉熵分类损失以及掩膜前后预测一致性约束进行网络训练。在非训练过程中,变分时域掩膜模块可删除,相较于基准唇读模型不增加任何额外计算量和内存消耗。而且,本实施例中的模型及方法引入全局信息和局部归因重要性采样信息的预测一致性约束,加强模型的泛化性能,同时本实施例中的模型的可解释性也得到了显著提高。
[0140]
如图4所示,本发明另一实施例同时提供一种词语级唇读系统,包括:
[0141]
构建模块,用于构建基于信息瓶颈的变分时域掩膜模块,以用于根据时域特征分析帧级特征的重要程度;
[0142]
确定模块,用于确定唇读基准模型;
[0143]
第一输入模块,用于将所述变分时域掩膜模块插入至所述唇读基准模型中形成用于识别词语的词语级唇读模型;
[0144]
获得模块,用于获得待处理数据,所述待处理数据包括多帧包含面部信息的图像;
[0145]
处理模块,用于对所述待处理数据进行处理得到每帧图像仅包含唇部区域的数据集;
[0146]
第二输入模块,用于将所述数据集输入至所述唇读模型中,得到对应所述数据集中各个唇部区域的唇读信息,所述唇读信息包括单词。
[0147]
作为一可选实施例,所述构建基于信息瓶颈的变分时域掩膜模块,包括:
[0148]
结合帧级独立性假设以及二值掩膜的伯努利分布先验数据构建基于信息瓶颈的变分时域掩膜模块。
[0149]
作为一可选实施例,所述确定唇读基准模型,包括:
[0150]
确定至少由视觉前端网络和序列后端网络组成的唇读基准模型。
[0151]
作为一可选实施例,所述将所述变分时域掩膜模块插入至所述唇读基准模型中形成用于识别词语的词语级唇读模型,包括:
[0152]
将所述变分时域掩膜模块插入所述视觉前端网络与序列后端网络之间,形成用于识别词语的词语级唇读模型。
[0153]
作为一可选实施例,对所述待处理数据进行处理得到每帧图像仅包含唇部区域的数据集,包括:
[0154]
对所述待处理数据中的每帧图像进行人脸特征标记;
[0155]
基于标记结果确定出唇部区域;
[0156]
至少基于各所述唇部区域对每帧所述图像进行裁剪,得到所述数据集。
[0157]
作为一可选实施例,还包括:
[0158]
将裁剪后的多帧所述图像转换为灰度图像,并将所有灰度图像进行像素值归一化至[0,1],进而形成所述数据集。
[0159]
作为一可选实施例,所述数据集为视频格式;
[0160]
所述将所述数据集输入至所述唇读模型中,得到对应所述数据集中各个唇部区域的唇读信息,包括:
[0161]
将所述数据集输入至所述唇读模型中,使所述数据集通过所述视觉前端网络提取帧级特征;
[0162]
基于所述唇读模型中的变分时域掩膜模块分析所述帧级特征的重要程度,以基于所述重要程度进行所述帧级特征的掩膜采样;
[0163]
将掩膜采样前后的所述帧级特征均输入至所述序列后端网络,以基于所述序列后端网络中的线性分类器进行分类预测,得到所述唇读信息。
[0164]
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1