视频主体人物的识别方法、装置、设备及可读存储介质与流程

文档序号：20149351发布日期：2020-03-24 19:55阅读：412来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请实施例涉及多媒体技术领域，特别涉及一种视频主体人物的识别方法、装置、设备及可读存储介质。

背景技术：

人物识别是一种对图像中的人物进行识别的技术，通常该人物识别技术应用于对视频中的人物进行识别中。可选地，通过对视频中的关键帧进行人物识别，并结合所有关键帧的识别结果可以得到该视频的主体人物(也即在关键帧中出现次数最多的人物)。

相关技术中，在对关键帧进行获取后，对该关键帧进行人脸检测，确定人脸在该关键帧中的区域后，对该区域内的人脸特征进行提取并识别后，确定该人脸对应的身份。

然而，由于在关键帧中，通常会出现背影、侧脸等主体人物出现的方式，主体人物的人脸无法准确地被识别，从而实际主体人物在出现次数的统计上误差较大，主体人物的识别准确度较低。

技术实现要素：

本申请实施例提供了一种视频主体人物的识别方法、装置、设备及可读存储介质，可以解决实际主体人物在出现次数的统计上误差较大，主体人物的识别准确度较低的问题。所述技术方案如下：

一方面，提供了一种视频主体人物的识别方法，所述方法包括：

从目标视频中获取n帧视频图像帧，所述n帧视频图像帧用于对所述目标视频的所述视频主体人物进行确定，n≥2；

对所述n帧视频图像帧进行人脸识别，得到所述n帧视频图像帧中的人物身份信息；

对所述n帧视频图像帧进行行人检测，得到所述n帧视频图像帧中的人物形体特征，所述人物形体特征中包括匹配有所述人物身份信息的第一形体特征和未匹配有所述人物身份信息的第二形体特征；

根据所述第一形体特征对所述第二形体特征进行所述人物身份信息的再识别，并结合再识别结果确定所述目标视频的所述视频主体人物。

另一方面，提供了一种视频主体人物的识别装置，所述装置包括：

获取模块，用于从目标视频中获取n帧视频图像帧，所述n帧视频图像帧用于对所述目标视频的所述视频主体人物进行确定，n≥2；

识别模块，用于对所述n帧视频图像帧进行人脸识别，得到所述n帧视频图像帧中的人物身份信息；

提取模块，用于对所述n帧视频图像帧进行行人检测，得到所述n帧视频图像帧中的人物形体特征，所述人物形体特征中包括匹配有所述人物身份信息的第一形体特征和未匹配有所述人物身份信息的第二形体特征；

所述识别模块，还用于根据所述第一形体特征对所述第二形体特征进行所述人物身份信息的再识别；

确定模块，用于结合再识别结果确定所述目标视频的所述视频主体人物。

另一方面，提供了计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中所述的视频主体人物的识别方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中所述的视频主体人物的识别方法。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述本申请实施例中所述的视频主体人物的识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

在对视频中的视频图像帧进行人脸识别后，再对该视频图像帧进行行人检测，并通过匹配有人物身份信息的第一形体特征对未匹配有人物身份信息的第二形体特征进行再识别，避免由于视频图像帧中的视频主体人物在视频图像帧中所展示的身体区域为侧身、背影时，无法在视频图像帧中对视频主体人物进行准确识别，导致视频主体人物的识别准确度较低的问题，提高了视频主体人物的识别准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性的实施例提供的人脸关键点标识结果的示意图；

图2是本申请一个示例性实施例提供的视频主体人物的识别方法的流程图；

图3是基于图2示出的实施例提供的mtcnn模型的级联结构示意图；

图4是基于图2示出的实施例提供的根据图像构建图像金字塔的示意图；

图5是基于图2示出的实施例提供的对人脸区域进行校正的示意图；

图6是基于图2示出的实施例提供的对人脸识别模型进行训练测试的过程示意图；

图7是基于图2示出的实施例提供的csp检测器的整体结构示意图；

图8是本申请另一个示例性实施例提供的视频主体人物的识别方法的流程图；

图9是基于图8示出的实施例提供的hpm模型的结构示意图；

图10是基于图8示出的实施例提供的通过人脸识别和行人检测确定人物区域框对应的人物身份信息的过程示意图；

图11是本申请另一个示例性实施例提供的视频主体人物的识别方法的流程图；

图12是基于图11示出的实施例提供的视频推荐过程示意图；

图13是本申请一个示例性实施例提供的视频主体人物的识别方法中所应用的神经网络模型的整体架构图；

图14是本申请一个示例性实施例提供的视频主体人物的识别装置的结构框图；

图15是本申请另一个示例性实施例提供的视频主体人物的识别装置的结构框图；

图16是本申请一个示例性的实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行简单介绍：

人工智能(artificialintelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，计算机视觉技术(computervision，cv)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

人脸检测：是指对图像中的人脸位置进行检测的技术，可选地，在人脸检测的过程中，通过对图像进行人脸关键点识别，并根据识别得到的人脸关键点进行人脸区域切割，从而实现对图像进行人脸检测。其中，人脸关键点是指在人脸检测过程中，检测得到的关键部位的标识点，可选地，该关键部位包括人脸五官所在的部位，如：该人脸关键点包括5个关键点，双眼关键点、鼻子关键点和两侧嘴角的关键点，或，该人脸关键点的个数为68点标准、106点标准，分别标识于待检测图像中人脸整体轮廓周侧、眉眼周侧、鼻部周侧、以及唇部周侧，该人脸关键点的个数还可以由设计人员进行设置。可选地，该人脸关键点可以通过关键点检测算法进行检测，如：人脸特征点训练方法(superviseddescentmethod，sdm)、基于卷积神经网络(convolutionalneuralnetworks,cnn)的关键点回归方法等。可选地，该人脸关键点在实际应用中，可以用于人脸美颜、脸部挂件、三维重建、人脸区域确定等应用，示意性的，请参考图1，人脸图像100中包括人脸110，该人脸110中包括眼睛111、鼻子112以及嘴唇113，该眼睛111上、鼻子112上以及嘴唇113的嘴角两侧对应标识有检测得到的关键点120。

人脸识别：是指通过对人脸区域中的人脸的身份信息进行识别的功能，可选地，在人脸识别的过程中，对待识别的人脸区域进行特征提取，将提取得到的特征与预设人脸特征库中的特征进行比对后，确定该人脸区域中人脸的身份信息。可选地，确定人脸特征库中与该提取得到的特征之间的相似度达到相似度要求的特征，并将该特征对应的身份信息作为该人脸区域中人脸的身份信息。

行人检测：是指对图像中的人物区域框进行识别的技术，可选地，单个人物区域框对应图像中的一个人物，且该人物区域框中包括人物的完整身体部分，如：头部、躯干、四肢等。

行人再识别：是指在实现人脸识别和行人检测后，将人物区域框与人脸的身份信息进行匹配，并根据匹配有身份信息的人物区域框对未匹配有身份信息的人物区域框进行身份信息的再识别。可选地，对匹配有身份信息的第一人物区域框进行特征提取，得到第一形体特征，对未匹配有身份信息的第二人物区域框进行特征提取，得到第二形体特征，根据第一形体特征和第二形体特征之间的相似度对该第二形体特征的身份信息，以及第二人物区域框的身份信息进行再识别。

其次，本申请实施例涉及的应用场景包括如下场景：

在视频推荐场景下，对视频进行视频图像帧的提取后，对视频图像帧中的主体人物进行识别，可选地，首先对视频图像帧进行人脸识别，得到视频图像帧中人脸对应的人物身份信息，对该视频图像帧进行行人检测，得到人物区域框，将人物区域框与人物身份信息进行匹配，得到匹配有人物身份信息的第一人物区域框和未匹配有人物身份信息的第二人物区域框，对第一人物区域框进行特征提取，得到第一形体特征，对第二人物区域框进行特征提取，得到第二形体特征，根据第一形体特征和第二形体特征之间的相似度对第二形体特征对应的人物身份信息进行再识别，根据再识别结果中人物身份信息出现的次数，以及第一形体特征所对应的人物身份信息的出现次数，确定该视频的主体人物，并向帐号发送推荐消息，该推荐消息以该主体人物为推荐重点对该视频进行推荐。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、机器学习算法等技术，具体通过如下实施例进行说明：

结合上述名词简介和应用场景介绍，对本申请实施例提供的视频主体人物的识别方法进行说明，图2是本申请一个示例性实施例提供的视频主体人物的识别方法的流程图，以该方法应用于服务器中为例进行说明，如图2所示，该方法包括：

步骤201，从目标视频中获取n帧视频图像帧，该n帧视频图像帧用于对目标视频的视频主体人物进行确定，n≥2。

可选地，从目标视频中获取n帧视频图像帧的方式包括如下方式中的任意一种：

第一，从该目标视频中以预设时长间隔对视频图像帧进行获取，得到n帧视频图像帧；

示意性的，从目标视频的视频流中，每隔1秒从该视频流中获取一帧视频图像帧，最终获取得到n帧视频图像帧；可选地，上述举例中以1秒为例进行说明，该获取视频图像帧的获取密度可以由程序设计人员自行设置，本申请实施例对此不加以限定。

第二，从目标视频中对关键帧进行获取，得到n帧视频图像帧。

可选地，在对关键帧进行获取时，可以对每一帧关键帧进行获取，也可以以间隔的形式对关键帧进行获取，如：该视频流中依次包括关键帧1、关键帧2、关键帧3以及关键帧4，以一帧隔一帧的形式对关键帧进行获取，也即对关键帧1、关键帧3进行获取，而舍弃关键帧2和关键帧4。

步骤202，对n帧视频图像帧进行人脸识别，得到n帧视频图像帧中的人物身份信息。

可选地，在对该n帧视频图像帧进行人脸识别时，首先对该n帧视频图像帧进行人脸检测，得到该n帧视频图像帧中的人脸区域，对该人脸区域进行人脸识别后，得到该人脸区域所对应的人物身份信息。

也即，该人物身份信息的确认过程包括人脸检测和人脸识别两个过程，分别对该两个过程进行说明：

一、人脸检测过程

可选地，在人脸检测的过程中，通过对图像进行人脸关键点识别，并根据识别得到的人脸关键点进行人脸区域切割，从而实现对图像进行人脸检测。其中，人脸关键点是指在人脸检测过程中，检测得到的关键部位的标识点，可选地，该关键部位包括人脸五官所在的部位，示意性的，本申请实施例中，以该人脸关键点包括5个关键点为例进行说明，该五个人脸关键点分别为双眼关键点、鼻子关键点和两侧嘴角的关键点。

可选地，本申请实施例中，通过多任务卷积神经网络(multi-taskconvolutionalneuralnetworks，mtcnn)模型实现人脸检测以及五个关键点的标定。其中，该mtcnn模型分为三个阶段：第一阶段通过一个浅层卷积神经网络(convolutionalneuralnetworks，cnn)建议网络(proposalnetwork，p-net)快速产生一系列候选窗口；第二阶段通过一个能力较强cnn网络优化网络(refinenetwork，r-net)过滤非人脸候选窗口；第三阶段通过一个能力更强的输出网络(outputnetwork，o-net)对人脸进行五个关键点的标记。

示意性的，该mtcnn模型的级联请参考图3，如图3所示，该mtcnn模型包括p-net部分310、r-net部分320和o-net部分330，首先，给定一个需要进行人脸检测的图像，示意性的，请参考图4，给定图像400，将该图像400调整为不同的比例以构建图像金字塔410，该图像金字塔410即为输入p-net部分310的图像，p-net部分310中根据输入大小为12×12×3的图像生成一系列面部候选窗口及其边界框回归向量，首先过滤置信度较低的候选窗口，在通过边界框回归算法计算出候选窗口在图像中的坐标，然后通过非极大值抑制(nonmaximumsuppression，nms)算法合并重叠度较高的候选窗口，最终输出得到一系列候选窗口。

将p-net部分310输出的候选窗口的尺寸调整为24×24×3，将调整后的候选窗口输入r-net部分320，并通过r-net部分320进一步过滤错误候选窗口，使用边界框回归向量进行校准，使用nms算法筛选合并重复的候选窗口。

将r-net部分320输出的候选窗口的尺寸调整为48×48×3，并将调整后的候选窗口输出o-net部分330，过滤置信度低的候选窗口后，使用边界框回归向量计算候选框在图像中的坐标，使用nms算法筛选合并重复的候选窗口并得到图像中的人脸边界框和5个特征点坐标。

可选地，该mtcnn模型的训练过程中，需要以三个任务的收敛作为训练目的，该三个任务分别为：1、人脸二分类收敛；2、边界框回归收敛；3、人脸特征点定位收敛。其中，对该三个任务分别进行说明：

1、在对人脸二分类收敛的过程中，采用交叉熵损失进行收敛，对于每个样本xi，采用如下公式一进行损失值计算：

公式一：

其中，pi为通过mtcnn模型识别得到的样本xi属于人脸的概率，为该样本xi的标注信息，该标注信息用于表示该样本xi是否属于人脸，且其中，为1时表示该样本xi属于人脸，为0时表示该样本xi不属于人脸，为计算得到的损失值，通过该损失值对mtcnn模型的模型参数进行调整，从而对人脸二分类进行收敛。

2、在对边界框回归收敛的过程中，对于每个候选窗口计算该候选窗口与标注之间的偏移量，对于每个样本xi，采用如下公式二进行平方差损失值的计算：

公式二：

其中，用于表示通过mtcnn模型对样本进行识别得到的边界框，用于表示该样本对应标注的边界框，用于表示计算得到的损失值，该损失值为平方差损失值，通过该平方差损失值对mtcnn模型的模型参数进行调整，从而对边界框回归进行收敛。

3、在对人脸特征点定位收敛的过程中，对于每个特征点，最小化其与标注点的距离，对于每个样本xi，采用如下公式三进行欧氏距离的计算：

公式三：

其中，用于表示通过mtcnn模型对样本进行识别得到的特征点坐标，用于表示该样本对应标注的特征点坐标，用于表示计算得到的欧氏距离，通过该欧氏距离对mtcnn模型的模型参数进行调整，从而对人脸特征点定位进行收敛。

可选地，由于上述三种收敛的过程中，计算得到的损失值需要区别对待，故通过一个整体训练损失对该mtcnn模型的模型参数进行训练，该训练损失表达为其中，αi表示任务权重，示意性的，在p-net和r-net中，αdet＝1.0，αbox＝0.5，αlandmark＝0.5，在o-net中αdet＝1.0，αbox＝1.5，αlandmark＝1.0，表示样本的权重，表示通过上述公式一至公式三计算得到的损失值。

可选地，根据mtcnn模型得到人脸检测框和5个人脸关键点，进行反射变换对人脸进行校正，并对人脸有效区域进行切割，将尺寸进行归一化。如图5所示，对检测得到的标注有关键点501的人脸区域500进行校正后，得到校正后的图像510。

二、人脸识别过程

可选地，在人脸识别的过程中，对待识别的人脸区域进行特征提取，将提取得到的特征与预设人脸特征库中的特征进行比对后，确定该人脸区域中人脸的人物身份信息。

也即，提取人脸区域中的第一人脸腾正，将第一人脸特征与人脸特征库中的第二人脸特征进行比对，得到人脸区域对应的人物身份信息，其中，人脸特征库中的第二人脸特征标注有人物身份信息。

可选地，对人脸区域的特征提取基于人脸识别模型，如：arcface模型，以resnet-50作为特征提取器。该人脸识别模型的训练过程中，构造附加角裕度损失函数(additiveangularmarginloss)进行训练，在测试阶段利用resnet-50提取的特征计算欧氏距离或余弦相似度进行人脸验证。该训练测试过程如图6所示，包括训练过程610和测试过程620。

其中，训练过程610中，首先将训练数据611通过特征提取器612进行特征提取，得到特征x，假设样本类别数为n，则输入数据x的维度为d，模型权重w的维度为d×n，首先对样本x和权重w进行归一化，将归一化之后的样本经过人脸识别模型得到l×n维的全连接层613输出，根据该输出计算损失值614，乘以归一化参数s后经过softmax层计算得到分类得分615。

测试过程620中，将测试数据621进行特征提取后，得到深度特征622，将该深度特征622进行归一化，通过余弦相似度算法比较得到相似度623，或通过欧氏距离算法计算得到距离值624后，进行人脸验证匹配625。

其中，欧氏距离算法请参考如下公式四：

公式四：

其中，和为参与比对的两个人脸提取得到的特征向量，lij为两个人脸之间的欧氏距离值。

余弦相似度算法请参考如下公式五：

公式五：

其中，和为参与比对的两个人脸提取得到的特征向量，cosθ为两个人脸之间的余弦相似度。

步骤203，对n帧视频图像帧进行行人检测，得到n帧视频图像中的人物形体特征，该人物形体特征中包括匹配有人物身份信息的第一形体特征和未匹配有人物身份信息的第二形体特征。

可选地，在对该n帧视频图像帧进行行人检测时，首先得到n帧视频图像帧中的人物区域框，对该人物区域框进行形体特征的提取，得到n帧视频图像帧中的人物形体特征。可选地，将该n帧视频图像帧中的人脸区域和人物区域框进行匹配，得到第一匹配关系，根据人脸区域对应的人物身份信息和第一匹配关系，确定人物身份信息与人物区域框之间的第二匹配关系。

可选地，根据上述第二匹配关系，对匹配有人物身份信息的第一人物区域框，提取第一人物区域框内的第一形体特征，对未匹配有人物身份信息的第二人物区域框，提取该第二人物区域框内的第二形体特征。

可选地，该行人检测过程采用anchor-free方法，基于预测目标中心点和尺度大小(centerandscaleprediction，csp)检测器，通过卷积操作预测行人的中心位置和尺度大小，该csp检测器的整体结构如图7所示，其主要分为两个部分，分别为特征提取部分710和检测头720。

其中，特征提取部分710以resnet-50作为股价网络，以每次下采样为界将卷积层分为五个阶段，每个阶段的额输出特征图是输入图像以2、4、8、16、32为缩减因子下采样的大小，在第五阶段，采用空洞卷积并保持输出为原输入图像1/16大小。第2、3、4、5个阶段的输出特征图经过逆卷积，得到具有相同分辨率的特征图(原图大小的1/4)，并与第一阶段的特征图在通道方向上进行合并，得到具有更丰富语义信息的新的特征图。由于每个阶段的特征图具有不同的尺度，所以在逆卷积和合并之前先使用l2标准化将其标准差变更为10。

在检测头720部分，首先对特征提取部分710提取得到的特征图做3×3的卷积操作，将其通道数缩减至256，然后经过三个并行性的1×1卷积层，分别生成中心热力图和尺度大小预测图，为了减少误差，微调中心位置，在上述两个并行的分支加上额外的偏移量预测分支。

可选地在对该检测器进行训练的过程中，通过损失函数进行损失值计算，并根据损失值计算对该检测器进行训练，该损失函数包含三个部分，第一部分为预测中心点位置的损失，第二部分为预测尺度大小的损失，第三部分为重心偏移量预测的损失。

首先，针对预测中心点位置的损失，在预测中心点位置时，视为一个分类问题。以被标记点为中心添加二维高斯掩膜，形成中心预测热点图，具体计算方式请参考如下公式六和公式七：

公式六：

公式七：

其中，k代表图片中目标物体的数量,(xk，yk，wk，hk)代表k物体的中心点坐标、宽度和高度。方差(σwk²，σhk²)与物体的宽度和高度对应成比例。如果掩膜中有重叠，则选择值高的。

中心点预测损失函数请参考如下公式八：

公式八：

其中，且

其中，lcenter是中心点预测损失值，pij∈[0,1]是预测当前像素点是中心点的可能性，yij∈{0,1}是真实数据标签，yij＝1代表该像素点被标记，yij＝0表示该像素点未被标记，mij表示通过上述公式六计算得到的数值，γ为次方参数，w为k物体的宽度，h为k物体的高度，r为与宽和高对应的比例参数。

其次，针对预测尺度大小的损失，请参考如下公式九：

公式九：

其中，lscale代表损失值，sk,tk分别代表每个点的预测值和真实值。

结合上述损失计算方式，最终的损失函数为如下公式十：

公式十：l＝λclcenter+λslscale+λoloffset

其中，lcenter为中心点预测损失值，lscale为预测尺度大小损失值，loffset为重心偏移量预测损失值。可选地，λc设置为0.1，λs设置为1，λo设置为0.1。

步骤204，根据第一形体特征对第二形体特征进行人物身份信息的再识别，并根据再识别结果确定目标视频的视频主体人物。

可选地，将第一形体特征和第二形体特征进行比对，当第二形体特征与第一形体特征之间的相似度大于相似度要求时，则认为该第一形体特征和第二形体特征所对应的人物身份信息为同一个人物身份信息，则将该第一形体特征所对应的人物身份信息确定为该第二形体特征(也即第二人物区域框)对应的人物身份信息。

示意性的，在视频图像帧a中通过人脸识别得到人物1，并通过行人检测识别得到该人物1对应的人物区域框1，在视频图像帧b中通过人脸识别未能识别得到人物1，而通过行人检测识别得到人物区域框2，对该人物区域框1进行特征提取，得到第一形体特征，对该人物区域框2进行特征提取，得到第二形体特征，当第一形体特征和第二形体特征的相似度大于相似度要求时，确定该视频图像帧b中的人物区域框2对应人物1。

可选地，该第一人物区域框和第二人物区域框来自两帧不同的视频图像帧，通过识别得到人物身份信息的视频图像帧中的第一人物区域框，对未识别得到人物身份信息的视频图像帧中的第二人物区域框进行再识别。

可选地，该对第二形体特征进行再识别的过程采用水平金字塔匹配(horizontalpyramidmatching，hpm)模型实现的，充分利用行人的不同局部空间信息。

综上所述，本实施例提供的视频主体人物的识别方法，在对视频中的视频图像帧进行人脸识别后，再对该视频图像帧进行行人检测，并通过匹配有人物身份信息的人物区域框对未匹配有人物身份信息的人物区域框进行再识别，避免由于视频图像帧中的视频主体人物在视频图像帧中所展示的身体区域为侧身、背影时，无法在视频图像帧中对视频主体人物进行准确识别，导致视频主体人物的识别准确度较低的问题，提高了视频主体人物的识别准确率。

在一个可选的实施例中，在人物身份信息与人物区域框的匹配过程中，首先对人物身份信息与人脸区域进行匹配，再对人脸区域与人物区域框进行匹配，图8是本申请另一个示例性实施例提供的视频主体人物的识别方法的流程图，如图8所示，该方法包括：

步骤801，从目标视频中获取n帧视频图像帧，该n帧视频图像帧用于对目标视频的视频主体人物进行确定，n≥2。

可选地，从目标视频中获取n帧视频图像帧的方式包括如下方式中的任意一种：

第一，从该目标视频中以预设时长间隔对视频图像帧进行获取，得到n帧视频图像帧；

第二，从目标视频中对关键帧进行获取，得到n帧视频图像帧。

步骤802，对n帧视频图像帧进行人脸检测，得到该n帧视频图像帧中的人脸区域。

可选地，该人脸检测过程在上述步骤202中已进行了详细说明，此处不再赘述。

步骤803，对人脸区域进行人脸识别，得到人脸区域对应的人物身份信息。

可选地，对该n帧视频图像帧进行人脸检测得到人脸区域后，提取人脸区域中的第一人脸特征，将该第一人脸特征与人脸特征库中的第二人脸特征进行比对，得到人脸区域对应的人物身份信息，其中，该人脸特征库中的第二人脸特征标注有人物身份信息。

可选地，上述第一人脸特征和第二人脸特征的比对过程可以通过计算欧氏距离进行，也可以通过计算余弦相似度进行，欧氏距离越近，则第一人脸特征和第二人脸特征之间越相似；余弦相似度越大，则第一人脸特征和第二人脸特征之间越相似。

可选地，该人脸识别过程在上述步骤202中已进行了详细说明，此处不再赘述。

步骤804，对n帧视频图像帧进行行人检测，得到n帧视频图像帧中的人物区域框。

可选地，该行人检测的过程在上述步骤203中已进行了详细说明，此处不再赘述。

步骤805，将n帧视频图像帧中的人脸区域与人物区域框进行匹配，得到第一匹配关系。

可选地，根据n帧视频图像帧中人脸区域与人物区域框和之间的重叠度关系，得到该第一匹配关系。

可选地，通过对该人脸区域和人物区域框之间的重叠部分，确定与该人物区域框对应的人脸区域，可选地，与该人物区域框对应的人脸区域为包围在该人物区域框之内且在该人物区域框内所处的位置位于预设位置范围内的人脸区域。

步骤806，根据人脸区域对应的人物身份信息和第一匹配关系，确定人物身份信息与人物区域框的第二匹配关系。

可选地，根据上述步骤803中对人脸区域进行识别后得到的人物身份信息，以及上述人脸区域与人物区域框的第一匹配关系，确定得到人物身份信息与人物区域框之间的第二匹配关系。示意性的，在上述步骤803中对人脸区域a进行识别，得到该人脸区域a对应人物b，在上述步骤805中，将该人脸区域a与人物区域框进行匹配，确定与该人脸区域a对应匹配的人物区域框为人物区域框c，则确定该人物区域框c对应的人物身份关系为人物b。

步骤807，根据第二匹配关系，对匹配有人物身份性信息的第一人物区域框，提取该第一人物区域框的第一形体特征。

步骤808，对未匹配有人物身份信息的第二人物区域框，提取该第二人物区域框的第二形体特征。

可选地，该对第一形体特征和第二形体特征进行再识别的过程采用水平金字塔匹配(horizontalpyramidmatching，hpm)模型实现的，充分利用行人的不同局部空间信息。

可选地，上述对第一形体特征和第二形体特征的提取过程，以resnet-50作为支柱，将输出特征独立的进行不同尺度的水平块的划分，使用平均池化策略和最大池化策略。其中，平均池化策略能够感知空间条的全局信息，并结合背景上下文进行考虑；最大池化策略的目标为提取最具判别性的信息并忽略无关信息，如：背景、着装等，将多尺度的特征进行合并，得到输出特征，通过计算特征间距离进行第一形体特征和第二形体特征之间的人物匹配。

可选地，该hpm模型的结构如图9所示，将图像900输入resnet-50网络后得到特征图910，对该特征图910在4个尺度上进行划分(1、2、4、8)，并在水平方向对得到的水平特征使用平均池化策略和最大池化策略进行池化操作，加权得到局部水平特征，使用卷积层进行降维操作后，使用局部特征进行分类。

可选地，在对该hpm模型进行训练的过程中，采用softmax激活函数进行概率预测，预测结果为样本对应真实标签的概率该概率的计算方式请参考如下公式十一：

公式十一：

通过计算交叉熵损失，对该hpm模型进行训练，该交叉熵损失函数如下公式十二所示：

公式十二：

其中，p为人物身份信息的总数，wi,j为hi,j(i)的权重值，y为真实标签，n为批次尺寸大小，ce表示交叉熵损失函数。

可选地，测试时将1+2+4+8个256维度的局部特征向量连接起来作为特征，原始图像特征与反转后的图像特征进行相加，并归一化，然后进行检测预测。

步骤809，根据第一形体特征对第二形体特征进行人物身份信息的再识别，并根据再识别结果确定目标视频的视频主体人物。

可选地，对该第一形体特征和第二形体特征进行比对，当第一形体特征和第二形体特征之间的相似度大于相似度要求时，将第一形体特征对应的人物身份信息确定为第二形体特征对应的人物身份信息。

可选地，在确定视频主体人物时，根据第一形体特征对应的人物身份信息和再识别结果对应的人物身份性信息，确定人物身份信息在n帧视频图像帧中被识别得到的出现次数，将出现次数最多的人物身份信息作为目标视频的视频主体人物。可选地，当该目标视频中包括m个视频主体人物时，将出现次数最多的m个人物身份信息作为该目标视频的m个视频主体人物，m为正整数。

示意性的，请参考图10，人物库中包括人物1010的人脸特征，对视频帧1020进行人脸识别后，识别得到该人物1010的人脸区域1030，以及识别得到该人脸区域1030对应的人物区域框1040，在对图像帧1050和图像帧1060进行识别时，识别得到人物区域框1051和人物区域框1061，对该人物区域框1051和人物区域框1061进行特征提取后，将提取得到的特征与视频帧1020中的人物区域框1040提取得到的特征进行比对，从而确定人物区域框1051和人物区域框1061对应的人物为该人物1010。

本实施例提供的方法，通过确定人脸区域和人物区域框之间的匹配关系，和人脸区域对应的人物身份信息，从而确定人物区域框所对应的人物身份信息，并根据标注有该人物身份信息的人物区域框对为标注有该人物身份信息的人物区域框进行再识别，提高了视频主体人物的识别准确率。

在一个可选的实施例中，上述视频主体人物的识别方法应用于视频推荐的应用场景中，图11是本申请另一个示例性实施例提供的视频主体人物的识别方法的流程图，以该方法应用于服务器中为例进行说明，如图11所示，该方法包括：

步骤1101，从目标视频中获取n帧视频图像帧，该n帧视频图像帧用于对目标视频的视频主体人物进行确定，n≥2。

可选地，从目标视频中获取n帧视频图像帧的方式包括如下方式中的任意一种：

第一，从该目标视频中以预设时长间隔对视频图像帧进行获取，得到n帧视频图像帧；

第二，从目标视频中对关键帧进行获取，得到n帧视频图像帧。

步骤1102，对n帧视频图像帧进行人脸识别，得到n帧视频图像帧中的人物身份信息。

步骤1103，对n帧视频图像帧进行行人检测，得到n帧视频图像中的人物形体特征，该人物形体特征包括匹配有人物身份信息的第一形体特征和未匹配有人物身份信息的第二形体特征。

可选地，将n帧视频图像帧中的人物身份信息与n帧视频图像帧中的人物区域框进行匹配，对匹配有人物身份信息的第一人物区域框，提取第一人物区域框内的第一形体特征，对未匹配有人物身份信息的第二人物区域框，提取该第二人物区域框内的第二形体特征。

步骤1104，根据第一形体特征对第二形体特征进行人物身份信息的再识别，并根据再识别结果确定目标视频的视频主体人物。

步骤1105，根据视频主体人物生成推荐消息，该推荐消息用于对该目标视频进行推荐。

步骤1106，确定兴趣画像中包括视频主体人物的目标帐号，其中，该兴趣画像是根据目标帐号的视频观看记录生成的。

可选地，该推荐消息用于将该视频主体人物作为主要推荐重点向目标帐号进行推荐。

可选地，该目标帐号的兴趣画像是根据该目标帐号的视频观看记录生成的。可选地，在视频发布平台上发布的每个视频对应有至少一个视频标签，根据该目标帐号对视频的观看记录，对该目标帐号所观看的视频对应的视频标签进行记录，并根据每个标签被记录的次数确定该目标帐号的兴趣画像。可选地，当目标帐号对视频的观看时长达到预设时长时，对该视频的视频标签进行记录；或，当目标帐号对视频的观看时长达到该视频总时长的预设比例时，对该视频的视频标签进行记录。

示意性的，该目标帐号所观看的大部分视频中标记有视频标签人物1，故该目标帐号的兴趣画像中包括该人物1，当该目标视频的视频主体人物中包括该人物1时，将该目标视频的推荐消息发送至该目标帐号。

步骤1107，向目标帐号发送推荐消息。

示意性的，该整体过程请参考图12，以上述目标视频实现为短视频为例进行说明，如图12所示，对原始短视频1210进行人脸识别1220和行人检测1230后，执行行人再识别1240，识别得到视频主体人物1250，该原始短视频1210还标注有短视频分类1260，结合用户的用户兴趣画像1270，通过推荐系统1280获取短视频推荐结果1290。

示意性的，请参考图13，图13是本申请一个示例性实施例提供的视频主体人物的识别方法中所应用的神经网络模型的整体架构图，如图13所示，首先获取目标视频1301，从该目标视频1301中提取视频帧1302，在人脸检测和识别系统1310中，通过mtcnn模型1311进行人脸区域1312和人脸关键点1313的检测，校正后得到校正人脸图像1314，结合人脸库1315识别得到人物身份信息1316，在行人检测和再识别系统1320中，通过csp检测器1321进行人物区域框1322的检测，对人物区域框1322和校正人脸图像1314进行匹配，得到匹配和未匹配有人物身份信息的人物区域框1323，通过hpm模型1324进行人物身份信息的再识别，最终得到视频主体人物1330。

图14是本申请一个示例性实施例提供的视频主体人物的识别装置的结构框图，如图14所示，该装置包括：获取模块1410、识别模块1420、提取模块1430和确定模块1440；

获取模块1410，用于从目标视频中获取n帧视频图像帧，所述n帧视频图像帧用于对所述目标视频的所述视频主体人物进行确定，n≥2；

识别模块1420，用于对所述n帧视频图像帧进行人脸识别，得到所述n帧视频图像帧中的人物身份信息；

提取模块1430，用于对所述n帧视频图像帧进行行人检测，得到所述n帧视频图像帧中的人物形体特征，所述人物形体特征中包括匹配有所述人物身份信息的第一形体特征和未匹配有所述人物身份信息的第二形体特征；

所述识别模块1420，还用于根据所述第一形体特征对所述第二形体特征进行所述人物身份信息的再识别；

确定模块1440，用于结合再识别结果确定所述目标视频的所述视频主体人物。

在一个可选的实施例中，所述识别模块1420，还用于对所述第一形体特征和所述第二形体特征进行比对；当所述第一形体特征和所述第二形体特征之间的相似度大于相似度要求时，将所述第一形体特征对应的所述人物身份信息确定为所述第二形体特征对应的所述人物身份信息。

在一个可选的实施例中，所述确定模块1440，还用于根据所述第一形体特征对应的所述人物身份信息和所述再识别结果对应的所述人物身份信息，确定所述人物身份信息在所述n帧视频图像帧中被识别得到的出现次数；

所述确定模块1440，还用于将所述出现次数最多的所述人物身份信息作为所述目标视频的所述视频主体人物。

在一个可选的实施例中，所述识别模块1420，还用于对所述n帧视频图像帧进行人脸检测，得到所述n帧视频图像帧中的人脸区域；对所述人脸区域进行所述人脸识别，得到所述人脸区域对应的所述人物身份信息。

在一个可选的实施例中，如图15所示，所述提取模块1430，还包括：

提取单元1432，还用于提取所述人脸区域中的第一人脸特征；

匹配单元1431，还用于将所述第一人脸特征与人脸特征库中的第二人脸特征进行比对，得到所述人脸区域对应的所述人物身份信息，其中，所述人脸特征库中的所述第二人脸特征标注有所述人物身份信息。

在一个可选的实施例中，提取模块1430，还用于对所述n帧视频图像帧进行所述行人检测，得到所述n帧视频图像帧中的人物区域框；对所述人物区域框进行形体特征的提取，得到所述n帧视频图像帧中的所述人物形体特征。

在一个可选的实施例中，所述匹配单元1431，还用于将所述n帧视频图像帧中的所述人脸区域与所述人物区域框进行匹配，得到第一匹配关系；

所述匹配单元1431，还用于根据所述人脸区域对应的所述人物身份信息和所述第一匹配关系，确定所述人物身份信息与所述人物区域框的第二匹配关系。

在一个可选的实施例中，提取单元1432，用于根据第二匹配关系，对匹配有所述人物身份信息的第一人物区域框，提取所述第一人物区域框内的第一形体特征；对未匹配有所述人物身份信息的第二人物区域框，提取所述第二人物区域框内的第二形体特征。

在一个可选的实施例中，所述匹配单元1431，还用于根据所述n帧视频图像帧中的所述人脸区域与所述人物区域框之间的重叠度关系，得到所述第一匹配关系。

在一个可选的实施例中，所述获取模块1410，还用于从所述目标视频中以预设时长间隔对所述视频图像帧进行获取，得到所述n帧视频图像帧。

在一个可选的实施例中，所述确定模块1440，还用于根据所述视频主体人物生成推荐消息，所述推荐消息用于对所述目标视频进行推荐；确定兴趣画像中包括所述视频主体人物的目标帐号，其中，所述兴趣画像是根据所述目标帐号的视频观看记录生成的；

所述装置，还包括：

发送模块1450，用于向所述目标帐号发送所述推荐消息。

综上所述，本实施例提供的视频主体人物的识别装置，在对视频中的视频图像帧进行人脸识别后，再对该视频图像帧进行行人检测，并通过匹配有人物身份信息的人物区域框对未匹配有人物身份信息的人物区域框进行再识别，避免由于视频图像帧中的视频主体人物在视频图像帧中所展示的身体区域为侧身、背影时，无法在视频图像帧中对视频主体人物进行准确识别，导致视频主体人物的识别准确度较低的问题，提高了视频主体人物的识别准确率。

需要说明的是：上述实施例提供的视频主体人物的识别装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频主体人物的识别装置与视频主体人物的识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图16示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲：

服务器1600包括中央处理单元(cpu，centralprocessingunit)1601、包括随机存取存储器(ram，randomaccessmemory)1602和只读存储器(rom，readonlymemory)1603的系统存储器1604，以及连接系统存储器1604和中央处理单元1601的系统总线1605。服务器1600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(i/o系统，inputoutputsystem)1606，和用于存储操作系统1613、应用程序1614和其他程序模块1615的大容量存储设备1607。

基本输入/输出系统1606包括有用于显示信息的显示器1608和用于用户输入信息的诸如鼠标、键盘之类的输入设备1609。其中显示器1608和输入设备1609都通过连接到系统总线1605的输入输出控制器1610连接到中央处理单元1601。基本输入/输出系统1606还可以包括输入输出控制器1610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1610还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1607通过连接到系统总线1605的大容量存储控制器(未示出)连接到中央处理单元1601。大容量存储设备1607及其相关联的计算机可读介质为服务器1600提供非易失性存储。也就是说，大容量存储设备1607可以包括诸如硬盘或者紧凑型光盘只读存储器(cd-rom，compactdiscreadonlymemory)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、可擦除可编程只读存储器(eprom，erasableprogrammablereadonlymemory)、带电可擦可编程只读存储器(eeprom,electricallyerasableprogrammablereadonlymemory)、闪存或其他固态存储其技术，cd-rom、数字通用光盘(dvd，digitalversatiledisc)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1604和大容量存储设备1607可以统称为存储器。

根据本申请的各种实施例，服务器1600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1600可以通过连接在系统总线1605上的网络接口单元1611连接到网络1612，或者说，也可以使用网络接口单元1611来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由cpu执行。

本申请的实施例还提供了一种计算机设备，该计算手机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的视频主体人物的识别方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的视频主体人物的识别方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现本申请实施例中提供的视频主体人物的识别方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑茂
技术所有人：腾讯科技(深圳)有限公司
我是此专利的发明人

上一篇：一种水肥处理灌溉系统的制作方法
上一篇：一种防坠落立体式机械车库的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。