基于视频流的人脸检测模型的训练方法、装置及计算设备与流程

文档序号：24334896发布日期：2021-03-19 12:14阅读：46来源：国知局

本发明涉及数据处理技术领域，具体涉及一种基于视频流的人脸检测模型的训练方法、装置、计算设备及存储介质。

背景技术：

近年来，人脸识别是一个研究热点，人脸识别被广泛应用于各个应用场景中，例如身份验证、门禁识别、海关监控等场景。由于迅速增长的人脸识别需求，使得人脸反欺骗技术受到了极大的关注，如何能够提供高安全级别的人脸识别技术以避免欺骗性攻击已成为了一个亟需解决的问题。

在现有技术中，常用的人脸反欺骗方式通常是通过在处理视频流的基础上结合红外、深度、热图形等额外的传感器提供的信息而实现的。然而，在实际生活中存在着许多因各种原因而不能结合使用额外的传感器的人脸识别场景，例如仅具有摄像机的场景，因此，现有技术中缺少仅通过处理视频流就能够实现人脸反欺骗的人脸检测方案。

技术实现要素：

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于视频流的人脸检测模型的训练方法、装置、计算设备及存储介质。

根据本发明的一个方面，提供了一种基于视频流的人脸检测模型的训练方法，该方法包括：

获取收集到的多个视频流，为多个视频流配置对应的样本标签，构建视频流样本集合；每个视频流中的帧图像包含有人脸图像；

针对视频流样本集合中的每个视频流，从该视频流中提取多个帧图像，对多个帧图像进行特征提取，得到该视频流的排序池化特征向量和光流特征向量；依据排序池化特征向量和光流特征向量，确定该视频流的特征向量；

根据视频流样本集合中的每个视频流的特征向量以及每个视频流对应的样本标签，训练得到人脸检测模型。

根据本发明的另一方面，提供了一种基于视频流的人脸检测模型的训练装置，该装置包括：

样本集合构建模块，适于获取收集到的多个视频流，为多个视频流配置对应的样本标签，构建视频流样本集合；每个视频流中的帧图像包含有人脸图像；

特征处理模块，适于针对视频流样本集合中的每个视频流，从该视频流中提取多个帧图像，对多个帧图像进行特征提取，得到该视频流的排序池化特征向量和光流特征向量；依据排序池化特征向量和光流特征向量，确定该视频流的特征向量；

训练模块，适于根据视频流样本集合中的每个视频流的特征向量以及每个视频流对应的样本标签，训练得到人脸检测模型。

根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行上述基于视频流的人脸检测模型的训练方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行如上述基于视频流的人脸检测模型的训练方法对应的操作。

根据本发明提供的技术方案，通过对视频流中的多个帧图像分别进行排序池化处理和光流处理，便捷地得到排序池化特征向量以及光流特征向量，进而得到能够精准地反映视频流的帧图像的动作信息和光流变化信息的特征向量；根据视频流样本集合中的各个视频流的特征向量以及各个视频流对应的样本标签进行训练，使得训练得到的人脸检测模型能够快速、精准地检测出视频流是否包含伪造的人脸图像，实现方式简单，成本低，无需结合红外、深度、热图形等额外的传感器，仅通过处理视频流就能够实现人脸反欺骗检测，有效地提高了人脸检测的精准度，优化了人脸检测方式。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的基于视频流的人脸检测模型的训练方法的流程示意图；

图2示出了根据本发明另一个实施例的基于视频流的人脸检测模型的训练方法的流程示意图；

图3示出了根据本发明一个实施例的基于视频流的人脸检测模型的训练装置的结构框图；

图4示出了根据本发明实施例的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的基于视频流的人脸检测模型的训练方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤s101，获取收集到的多个视频流，为多个视频流配置对应的样本标签，构建视频流样本集合。

其中，可收集大量的拍摄有人脸图像的视频流，获取收集到的多个视频流作为样本，并为多个视频流配置对应的样本标签，每个视频流中的帧图像都包含有人脸图像。通过为视频流配置对应的样本标签，得到对应有样本标签的视频流，这种对应有样本标签的视频流即可用于模型训练中，接着对所有的对应有样本标签的视频流进行汇总，构建得到视频流样本集合。

步骤s102，针对视频流样本集合中的每个视频流，从该视频流中提取多个帧图像，对多个帧图像进行特征提取，得到该视频流的排序池化特征向量和光流特征向量，并依据排序池化特征向量和光流特征向量，确定该视频流的特征向量。

其中，针对视频流样本集合中的每个视频流，从该视频流中提取多个帧图像，本领域技术人员可根据实际需要对帧图像的提取数量、提取方式等进行设置，此处不做限定。

在提取得到多个帧图像之后，可对多个帧图像进行排序池化处理得到该视频流的排序池化特征向量，对多个帧图像进行光流处理得到该视频流的光流特征向量，其中，排序池化特征向量能够反映视频流的帧图像的动作信息，光流特征向量能够反映视频流的帧图像的光流变化信息。在得到了排序池化特征向量和光流特征向量之后，可对排序池化特征向量和光流特征向量进行组合，例如将排序池化特征向量和光流特征向量拼接为一个整体，将最终所得到的特征向量作为该视频流的特征向量。

考虑到包含有真实的、活体的人脸图像的视频流的光流是变化的，而通过对人脸图像进行伪造所得到的视频流的光流几乎是不发生变化的，本发明对视频流分别进行了排序池化和光流两种处理，依据所得到的排序池化特征向量和光流特征向量综合来确定视频流最终的特征向量，使得最终所得到的视频流的特征向量能够充分反映帧图像的动作信息和光流变化信息，从而更为精准、全面地反映视频流所具有的特征，使得根据视频流的特征向量进行模型训练能够得到具有较高人脸检测精准度的人脸检测模型。

步骤s103，根据视频流样本集合中的每个视频流的特征向量以及每个视频流对应的样本标签，训练得到人脸检测模型。

具体地，可根据视频流样本集合中的每个视频流的特征向量以及每个视频流对应的样本标签进行模型训练，训练得到人脸检测模型。利用人脸检测模型，无需结合红外、深度、热图形等额外的传感器，仅通过处理视频流就能够实现人脸反欺骗检测，快速、精准地检测出视频流是否包含伪造的人脸图像。本领域技术人员可根据实际需要确定具体训练方式，此处不做限定。

根据本实施例提供的基于视频流的人脸检测模型的训练方法，通过对视频流中的多个帧图像分别进行排序池化处理和光流处理，便捷地得到排序池化特征向量以及光流特征向量，进而得到能够精准地反映视频流的帧图像的动作信息和光流变化信息的特征向量；根据视频流样本集合中的各个视频流的特征向量以及各个视频流对应的样本标签进行训练，使得训练得到的人脸检测模型能够快速、精准地检测出视频流是否包含伪造的人脸图像，实现方式简单，成本低，无需结合红外、深度、热图形等额外的传感器，仅通过处理视频流就能够实现人脸反欺骗检测，有效地提高了人脸检测的精准度，优化了人脸检测方式。

图2示出了根据本发明另一个实施例的基于视频流的人脸检测模型的训练方法的流程示意图，如图2所示，该方法包括如下步骤：

步骤s201，获取收集到的多个视频流，为多个视频流配置对应的样本标签，构建视频流样本集合。

其中，每个视频流中的帧图像包含有人脸图像。具体地，可将通过拍摄真实的、活体的人脸图像所得到的视频流作为正样本，为其配置用于表示正样本的样本标签；将通过人工或技术对人脸图像进行伪造所得到的视频流作为负样本，例如通过拍摄人脸照片或授权人脸部的其他替代品等方式所得到的视频流、通过将正样本中的所有帧图像替换为同一帧图像所得到的视频流等，为其配置用于表示负样本的样本标签。为所有的视频流配置对应的样本标签，并对视频流进行汇总，构建得到视频流样本集合，视频流样本集合可存储至数据库中，以便模型训练时使用。

步骤s202，针对视频流样本集合中的每个视频流，从该视频流中提取多个帧图像。

可按照预设帧图像提取规则，从该视频流中提取多个帧图像，例如预设帧图像提取规则可包括随机地从视频流中提取预设数量的帧图像或者按照预设提取间隔从视频流中提取预设数量的帧图像，其中，预设提取间隔可为固定间隔，也可为基于视频流的长度而确定的提取间隔，例如不同长度的视频流的提取间隔不同。本领域技术人员可根据实际需要对预设帧图像提取规则进行设置，此处不做限定。

在提取得到多个帧图像之后，可对多个帧图像进行特征提取得到该视频流的排序池化特征向量和光流特征向量。其中，对多个帧图像进行特征提取得到该视频流的排序池化特征向量，可通过步骤s203至步骤s205进行实现；对多个帧图像进行特征提取得到该视频流的光流特征向量，可通过步骤s206至步骤s208进行实现。

步骤s203，依据多个帧图像的帧序号，对多个帧图像进行排序，得到帧序列。

其中，每个帧图像都对应有帧序号，帧序号是按照时序进行设置的，具体地，帧序号可为0、1、2等。在步骤s203中，依据帧序号从小到大的顺序对多个帧图像进行排序，即按照时序顺序对多个帧图像进行排序，得到帧序列。

假设在步骤s202中针对某个视频流，从该视频流中提取得到n个帧图像，这n个帧图像分别为帧图像x1、帧图像x2、……、帧图像xn-1、帧图像xn，依据帧序号从小到大的顺序对n个帧图像进行排序，得到帧序列x＝[x1，x2，…，xn-1，xn]。

步骤s204，对帧序列进行平滑处理，得到帧序列对应的帧向量序列。

可利用现有的平滑(smooth)处理方式对帧序列进行平滑处理，得到帧序列对应的帧向量序列v＝[v1，v2，…，vn-1，vn]，其中，v1为帧图像x1的帧向量，v2为帧图像x2的帧向量，以此类推。并且，帧图像和该帧图像的帧向量具有相同的帧序号，即x1和v1具有相同的帧序号，x2和v2具有相同的帧序号。

步骤s205，循环利用排序函数计算帧向量序列中各个帧向量的排序分值，通过优化排序函数中的第一指定参数的参数值，直至满足帧序号越靠后的帧向量的排序分值越大的排序循环结束条件，得到第一指定参数最终的参数值，并将最终的参数值作为该视频流的排序池化特征向量。

考虑到视频流是由有序的帧图像组成的，帧序列决定了帧图像的演化，对于帧序列对应的帧向量序列，关注的是各个帧向量的先后顺序，若vt+1是vt的后续，则表示为vt+1＞vt，那么还可将帧向量序列表示为vn＞…＞vt＞…＞v1，那么可将帧图像的传递性转换为成对学习排序问题，即如果va＞vb且在本实施例中，构建排序函数w(v；u)＝u^t·vt计算帧向量序列中各个帧向量的排序分值，其中，u为第一指定参数，第一指定参数具体可为向量，u^t为第一指定参数的转置，vt为帧图像xt的帧向量。

在步骤s205中，循环利用排序函数w(v；u)计算帧向量序列中各个帧向量的排序分值，通过不断优化排序函数中的第一指定参数u的参数值，直至满足帧序号越靠后的帧向量的排序分值越大的排序循环结束条件。在满足排序循环结束条件下，所得到的第一指定参数最终的参数值能够用于反映帧向量序列中各个帧向量的先后顺序，表示帧图像随着时间的演化过程。在具体应用中，可采用ranksvm、svr(支持向量回归)等算法完成对第一指定参数u的优化处理，具体地，可使用结构风险最小化和最大间隔优化框架，构建目标优化函数，通过不断优化，使得各个帧向量的排序分值满足排序循环结束条件，得到第一指定参数最终的参数值。

步骤s206，从多个帧图像中提取两个帧图像形成帧图像组，由此得到多个帧图像组。

为了能够提取得到视频流的光流特征向量，在步骤s202提取得到某个视频流的多个帧图像之后，需要构建帧图像组。具体地，针对某个视频流，可从步骤s202提取得到的该视频流的多个帧图像中任意提取或者按照预设提取规则提取两个不同的帧图像形成一个帧图像组，按照这种方式进行多次处理，由此得到多个帧图像组。本领域技术人员可根据实际需要对帧图像组的数量进行设置，此处不做具体限定。

假设在步骤s202中针对某个视频流，从该视频流中提取得到n个帧图像，这n个帧图像分别为帧图像x1、帧图像x2、……、帧图像xn-1、帧图像xn，在步骤s206中需要形成2个帧图像组，若预设提取规则为提取多个帧图像中的第一个帧图像和最后一个帧图像形成一个帧图像组，提取多个帧图像中的第一个帧图像和第二个帧图像形成另一个帧图像组，那么在步骤s206中，从n个帧图像中提取帧图像x1和帧图像xn，利用帧图像x1和帧图像xn形成一个帧图像组，从n个帧图像中提取帧图像x1和帧图像x2，利用帧图像x1和帧图像x2形成另一个帧图像组。

所得到的每个帧图像组都包含有两个帧图像，为了便于后续进行描述，将帧图像组中的两个帧图像分别称为第一帧图像i1和第二帧图像i2，其中，第二帧图像i2的帧序号大于第一帧图像i1的帧序号，那么帧图像组可以表示为[i1，i2]。

步骤s207，计算多个帧图像组的组特征向量。

在本实施例中，可采用分层光流估计方式来计算帧图像组的组特征向量，具体地，针对每个帧图像组，为该帧图像组中的第一帧图像和第二帧图像分别配置对应的可见掩膜数据，其中，将第一帧图像对应的可见掩膜数据表示为m1，将第二帧图像对应的可见掩膜数据表示为m2；并设置从第一帧图像i1至第二帧图像i2的第一光流域(u′1，v′1)以及从第二帧图像i2至第一帧图像i1的第二光流域(u′2，v′2)。其中，u′1和v′1分别表示在从第一帧图像i1变化至第二帧图像i2的过程中，帧图像中的像素点光流沿x轴和y轴方向的速度矢量；u′2和v′2分别表示在从第二帧图像i2变化至第一帧图像i1的过程中，帧图像中的像素点光流沿x轴和y轴方向的速度矢量。接着根据可见掩膜数据m1、可见掩膜数据m2、第一光流域(u′1，v′1)以及第二光流域(u′2，v′2)，构建光流目标函数。

在具有应用中，光流目标函数可包括匹配m1和m2的数据项、光流平滑项以及对称匹配项，其中，数据项包括和光流平滑项包括和对称匹配项包括和具体地，和可分别通过下列公式1至公式3进行计算。

其中，上述各公式中的g表示高斯滤波参数，η为指数因子；对于和可采用类似对应的方式进行计算，此处不再赘述。

那么光流目标函数可通过下列公式4进行计算。

其中，公式4中的e(u′1，v′1，u′2，v′2)表示光流目标函数，α表示平滑项系数因子，β表示对称项系数因子。

在完成了光流目标函数的构建之后，可循环利用光流目标函数计算光流目标函数的输出值，通过不断优化光流目标函数中的第二指定参数的参数值，直至输出值满足光流循环结束条件，从而得到最终的第二指定参数的参数值。其中，第二指定参数包括上述的η、α和β，光流循环结束条件具体可为光流目标函数的输出值为最小值或者输出值小于预设阈值。在优化过程中，可在η、α和β各自对应的预设取值范围内进行遍历取值，通过不断优化η、α和β的参数值，使得光流目标函数的输出值满足光流循环结束条件，从而得到最终的η、α和β各自的参数值，进而得到第一光流域最终的域数据(即u′1和v′1的值)和第二光流域最终的域数据(即u′2和v′2的值)，然后利用第一光流域最终的域数据确定该帧图像组的组特征向量。可选地，可对u′1和v′1进行加权运算，将加权运算的结果作为该帧图像组的组特征向量，本领域技术人员可根据实际需要设置加权权重值，此处不做具体限定。

步骤s208，依据多个帧图像组的组特征向量，确定该视频流的光流特征向量。

在得到了每个帧图像组的组特征向量之后，可对多个帧图像组的组特征向量进行组合，例如将多个帧图像组的组特征向量拼接为一个整体或者进行加权融合，将最终所得到的特征向量作为该视频流的光流特征向量。

步骤s209，依据排序池化特征向量和光流特征向量，确定该视频流的特征向量。

在得到了排序池化特征向量和光流特征向量之后，可对排序池化特征向量和光流特征向量进行组合，例如将排序池化特征向量和光流特征向量拼接为一个整体，将最终所得到的特征向量作为该视频流的特征向量。

针对视频流样本集合中的每个视频流，均按照步骤s202至步骤s209进行处理，从而得到每个视频流的特征向量，以便用于模型训练。

步骤s210，根据视频流样本集合中的每个视频流的特征向量以及每个视频流对应的样本标签，训练得到人脸检测模型。

其中，人脸检测模型的训练过程通过多次迭代完成。在步骤s210中，从视频流样本集合中提取视频流的特征向量以及视频流对应的样本标签；将提取的视频流的特征向量输入至初始人脸检测模型中进行训练，得到视频流对应的初始检测结果；根据视频流对应的初始检测结果和样本标签，计算损失函数，根据损失函数更新初始人脸检测模型的权重参数；循环迭代执行上述步骤，直至满足迭代结束条件，得到人脸检测模型。具体地，计算初始检测结果和样本标签之间的损失，得到损失函数，根据损失函数，进行反向传播(backpropagation)运算，通过运算结果更新初始人脸检测模型的权重参数。其中，迭代结束条件可包括：迭代次数达到迭代次数阈值；和/或，损失函数的输出值小于损失阈值。那么可以通过判断迭代次数是否达到迭代次数阈值来判断是否满足迭代结束条件，也可以根据损失函数的输出值是否小于损失阈值来判断是否满足迭代结束条件。在满足迭代结束条件之后，停止迭代处理，从而得到人脸检测模型，该人脸检测模型即为经过训练的人脸检测模型。

具体地，将提取的视频流的特征向量输入至初始人脸检测模型中，利用初始人脸检测模型对提取的视频流的特征向量进行多种池化处理，其中，多种池化处理可包括：均值池化处理、最大池化处理、最小池化处理以及中值池化处理等，具体地，均值池化处理更关注于全局特征，最大池化处理更关注于重要的局部特征，中值池化处理具有学习边缘和纹理结构的特性，抗噪声能力强。通过组合多种池化处理的池化结果得到中间池化特征向量，例如将多种池化处理的池化结果拼接为一个整体或者进行加权融合，将所得到的特征向量作为中间池化特征向量，接着对中间池化特征向量进行训练，得到视频流对应的初始检测结果。本实施例在模型训练过程中，充分考虑了多种池化处理的池化结果，使得最终训练得到的人脸检测模型具有较强的鲁棒性和较高的检测精准度。利用人脸检测模型，能够快速、精准地检测出视频流是否包含伪造的人脸图像。

根据本实施例提供的基于视频流的人脸检测模型的训练方法，实现了对视频流的排序池化特征向量以及光流特征向量的精准计算，依据排序池化特征向量和光流特征向量综合来确定视频流最终的特征向量，使得最终所得到的视频流的特征向量能够更为精准、全面地反映视频流所具有的特征；根据视频流样本集合中的各个视频流的特征向量以及各个视频流对应的样本标签进行训练，并在训练过程中充分结合了多种池化处理的池化结果，使得最终训练得到的人脸检测模型具有较强的鲁棒性和较高的检测精准度，并且无需结合红外、深度、热图形等额外的传感器，仅通过处理视频流就能够实现人脸反欺骗检测，实现方式简单，优化了人脸检测方式。

图3示出了根据本发明一个实施例的基于视频流的人脸检测模型的训练装置的结构框图，如图3所示，该装置包括：样本集合构建模块310、特征处理模块320和训练模块330。

样本集合构建模块310适于：获取收集到的多个视频流，为多个视频流配置对应的样本标签，构建视频流样本集合。其中，每个视频流中的帧图像包含有人脸图像。

特征处理模块320适于：针对视频流样本集合中的每个视频流，从该视频流中提取多个帧图像，对多个帧图像进行特征提取，得到该视频流的排序池化特征向量和光流特征向量；依据排序池化特征向量和光流特征向量，确定该视频流的特征向量。

训练模块330适于：根据视频流样本集合中的每个视频流的特征向量以及每个视频流对应的样本标签，训练得到人脸检测模型。

可选地，特征处理模块320进一步适于：依据多个帧图像的帧序号，对多个帧图像进行排序，得到帧序列；对帧序列进行平滑处理，得到帧序列对应的帧向量序列；循环利用排序函数计算帧向量序列中各个帧向量的排序分值，通过优化排序函数中的第一指定参数的参数值，直至满足帧序号越靠后的帧向量的排序分值越大的排序循环结束条件；得到第一指定参数最终的参数值，并将最终的参数值作为该视频流的排序池化特征向量。

可选地，特征处理模块320进一步适于：从多个帧图像中提取两个帧图像形成帧图像组，由此得到多个帧图像组；计算多个帧图像组的组特征向量；依据多个帧图像组的组特征向量，确定该视频流的光流特征向量。

可选地，帧图像组包括第一帧图像和第二帧图像，第二帧图像的帧序号大于第一帧图像的帧序号；特征处理模块320进一步适于：针对每个帧图像组，为该帧图像组中的第一帧图像和第二帧图像分别配置对应的可见掩膜数据，并设置从第一帧图像至第二帧图像的第一光流域以及从第二帧图像至第一帧图像的第二光流域；根据可见掩膜数据、第一光流域以及第二光流域，构建光流目标函数；循环利用光流目标函数计算光流目标函数的输出值，通过优化光流目标函数中的第二指定参数的参数值，直至输出值满足光流循环结束条件；得到第一光流域最终的域数据，并利用最终的域数据确定该帧图像组的组特征向量。

可选地，训练模块330进一步适于：从视频流样本集合中提取视频流的特征向量以及视频流对应的样本标签；将提取的视频流的特征向量输入至初始人脸检测模型中进行训练，得到视频流对应的初始检测结果；根据视频流对应的初始检测结果和样本标签，计算损失函数，根据损失函数更新初始人脸检测模型的权重参数；循环迭代执行上述步骤，直至满足迭代结束条件，得到人脸检测模型。

可选地，训练模块330进一步适于：将提取的视频流的特征向量输入至初始人脸检测模型中，利用初始人脸检测模型对提取的视频流的特征向量进行多种池化处理，组合多种池化处理的池化结果得到中间池化特征向量，对中间池化特征向量进行训练，得到视频流对应的初始检测结果。

可选地，多种池化处理包括：均值池化处理、最大池化处理、最小池化处理以及中值池化处理。

根据本实施例提供的基于视频流的人脸检测模型的训练装置，实现了对视频流的排序池化特征向量以及光流特征向量的精准计算，依据排序池化特征向量和光流特征向量综合来确定视频流最终的特征向量，使得最终所得到的视频流的特征向量能够更为精准、全面地反映视频流所具有的特征；根据视频流样本集合中的各个视频流的特征向量以及各个视频流对应的样本标签进行训练，并在训练过程中充分结合了多种池化处理的池化结果，使得最终训练得到的人脸检测模型具有较强的鲁棒性和较高的检测精准度，并且无需结合红外、深度、热图形等额外的传感器，仅通过处理视频流就能够实现人脸反欺骗检测，实现方式简单，优化了人脸检测方式。

本发明还提供了一种非易失性计算机存储介质，计算机存储介质存储有至少一可执行指令，可执行指令可执行上述任意方法实施例中的基于视频流的人脸检测模型的训练方法。

图4示出了根据本发明实施例的一种计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图4所示，该计算设备可以包括：处理器(processor)402、通信接口(communicationsinterface)404、存储器(memory)406、以及通信总线408。

其中：

处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器402，用于执行程序410，具体可以执行上述基于视频流的人脸检测模型的训练方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是中央处理器cpu，或者是特定集成电路asic(applicationspecificintegratedcircuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个cpu；也可以是不同类型的处理器，如一个或多个cpu以及一个或多个asic。

存储器406，用于存放程序410。存储器406可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行上述任意方法实施例中的基于视频流的人脸检测模型的训练方法。程序410中各步骤的具体实现可以参见上述基于视频流的人脸检测模型的训练实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了：a1.一种基于视频流的人脸检测模型的训练方法，其特征在于，所述方法包括：

获取收集到的多个视频流，为多个视频流配置对应的样本标签，构建视频流样本集合；每个视频流中的帧图像包含有人脸图像；

针对所述视频流样本集合中的每个视频流，从该视频流中提取多个帧图像，对多个帧图像进行特征提取，得到该视频流的排序池化特征向量和光流特征向量；依据所述排序池化特征向量和所述光流特征向量，确定该视频流的特征向量；

根据所述视频流样本集合中的每个视频流的特征向量以及每个视频流对应的样本标签，训练得到人脸检测模型。

a2.根据a1所述的方法，其特征在于，对多个帧图像进行特征提取，得到该视频流的排序池化特征向量进一步包括：

依据多个帧图像的帧序号，对多个帧图像进行排序，得到帧序列；

对所述帧序列进行平滑处理，得到所述帧序列对应的帧向量序列；

循环利用排序函数计算所述帧向量序列中各个帧向量的排序分值，通过优化所述排序函数中的第一指定参数的参数值，直至满足帧序号越靠后的帧向量的排序分值越大的排序循环结束条件；

得到所述第一指定参数最终的参数值，并将所述最终的参数值作为该视频流的排序池化特征向量。

a3.根据a1所述的方法，其特征在于，对多个帧图像进行特征提取，得到该视频流的光流特征向量进一步包括：

从多个帧图像中提取两个帧图像形成帧图像组，由此得到多个帧图像组；

计算多个帧图像组的组特征向量；

依据多个帧图像组的组特征向量，确定该视频流的光流特征向量。

a4.根据a3所述的方法，其特征在于，帧图像组包括第一帧图像和第二帧图像，所述第二帧图像的帧序号大于所述第一帧图像的帧序号；

所述计算多个帧图像组的组特征向量进一步包括：

针对每个帧图像组，为该帧图像组中的第一帧图像和第二帧图像分别配置对应的可见掩膜数据，并设置从所述第一帧图像至所述第二帧图像的第一光流域以及从所述第二帧图像至所述第一帧图像的第二光流域；

根据所述可见掩膜数据、所述第一光流域以及所述第二光流域，构建光流目标函数；

循环利用所述光流目标函数计算所述光流目标函数的输出值，通过优化所述光流目标函数中的第二指定参数的参数值，直至所述输出值满足光流循环结束条件；

得到所述第一光流域最终的域数据，并利用所述最终的域数据确定该帧图像组的组特征向量。

a5.根据a1-a4任一项所述的方法，其特征在于，所述根据所述视频流样本集合中的每个视频流的特征向量以及每个视频流对应的样本标签，训练得到人脸检测模型进一步包括：

从所述视频流样本集合中提取视频流的特征向量以及所述视频流对应的样本标签；

将提取的视频流的特征向量输入至初始人脸检测模型中进行训练，得到所述视频流对应的初始检测结果；

根据所述视频流对应的初始检测结果和样本标签，计算损失函数，根据所述损失函数更新所述初始人脸检测模型的权重参数；

循环迭代执行上述步骤，直至满足迭代结束条件，得到人脸检测模型。

a6.根据a5所述的方法，其特征在于，所述将提取的视频流的特征向量输入至初始人脸检测模型中进行训练，得到所述视频流对应的初始检测结果进一步包括：

将提取的视频流的特征向量输入至初始人脸检测模型中，利用所述初始人脸检测模型对提取的视频流的特征向量进行多种池化处理，组合多种池化处理的池化结果得到中间池化特征向量，对中间池化特征向量进行训练，得到所述视频流对应的初始检测结果。

a7.根据a6所述的方法，其特征在于，所述多种池化处理包括：均值池化处理、最大池化处理、最小池化处理以及中值池化处理。

本发明还公开了：b8.一种基于视频流的人脸检测模型的训练装置，其特征在于，所述装置包括：

特征处理模块，适于针对所述视频流样本集合中的每个视频流，从该视频流中提取多个帧图像，对多个帧图像进行特征提取，得到该视频流的排序池化特征向量和光流特征向量；依据所述排序池化特征向量和所述光流特征向量，确定该视频流的特征向量；

训练模块，适于根据所述视频流样本集合中的每个视频流的特征向量以及每个视频流对应的样本标签，训练得到人脸检测模型。

b9.根据b8所述的装置，其特征在于，所述特征处理模块进一步适于：

依据多个帧图像的帧序号，对多个帧图像进行排序，得到帧序列；

对所述帧序列进行平滑处理，得到所述帧序列对应的帧向量序列；

得到所述第一指定参数最终的参数值，并将所述最终的参数值作为该视频流的排序池化特征向量。

b10.根据b8所述的装置，其特征在于，所述特征处理模块进一步适于：

从多个帧图像中提取两个帧图像形成帧图像组，由此得到多个帧图像组；

计算多个帧图像组的组特征向量；

依据多个帧图像组的组特征向量，确定该视频流的光流特征向量。

b11.根据b10所述的装置，其特征在于，帧图像组包括第一帧图像和第二帧图像，所述第二帧图像的帧序号大于所述第一帧图像的帧序号；

所述特征处理模块进一步适于：

根据所述可见掩膜数据、所述第一光流域以及所述第二光流域，构建光流目标函数；

得到所述第一光流域最终的域数据，并利用所述最终的域数据确定该帧图像组的组特征向量。

b12.根据b8-b11任一项所述的装置，其特征在于，所述训练模块进一步适于：

从所述视频流样本集合中提取视频流的特征向量以及所述视频流对应的样本标签；

将提取的视频流的特征向量输入至初始人脸检测模型中进行训练，得到所述视频流对应的初始检测结果；

根据所述视频流对应的初始检测结果和样本标签，计算损失函数，根据所述损失函数更新所述初始人脸检测模型的权重参数；

循环迭代执行上述步骤，直至满足迭代结束条件，得到人脸检测模型。

b13.根据b12所述的装置，其特征在于，所述训练模块进一步适于：

b14.根据b13所述的装置，其特征在于，所述多种池化处理包括：均值池化处理、最大池化处理、最小池化处理以及中值池化处理。

本发明还公开了：c15.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如a1-a7中任一项所述的基于视频流的人脸检测模型的训练方法对应的操作。

本发明还公开了：d16.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如a1-a7中任一项所述的基于视频流的人脸检测模型的训练方法对应的操作。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱永魁
技术所有人：中化资本数字科技有限公司
我是此专利的发明人

上一篇：一种防脚臭的安防鞋的制作方法
上一篇：用于厌氧发酵的密封装置及密封方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。