1.一种视频处理方法,所述方法包括:
获取待处理视频和表示目标对象的目标人体区域;
检测所述待处理视频中的多个人体区域;
将所述多个人体区域输入经训练的特征提取网络,得到分别描述所述多个人体区域的多个第一特征,和将所述目标人体区域输入所述经训练的特征提取网络,得到描述所述目标人体区域的第二特征;
将所述多个第一特征分别与所述第二特征进行比较,得到与所述第二特征相匹配的所述第一特征中的至少一个第一匹配特征;
确定所述至少一个第一匹配特征在所述待处理视频中的所对应的各个时间点;
基于所述各个时间点处理所述待处理视频以获取与所述目标对象关联的视频部分;
其中,所述特征提取网络是使用基于人体区域样本集合构建的数据集进行训练的,且所述人体区域样本集合是针对按照视频拍摄镜头划分的多个视频分段分别生成的。
2.如权利要求1所述的视频处理方法,其中所述数据集通过下述步骤构建:
获取用于所述特征提取网络的训练视频;
按照视频拍摄镜头将所述训练视频划分为多个训练视频分段;
针对所述多个训练视频分段中的每一个训练视频分段,创建所述训练视频分段的一个或多个人体区域样本集合;
确定一个或多个所述人体区域样本集合中是否包含人脸;
响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸,基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集。
3.如权利要求2所述的视频处理方法,所述针对所述多个训练视频分段中的每一个训练视频分段,创建所述训练视频分段的一个或多个人体区域样本集合包括:
针对所述多个训练视频分段中的每一个训练视频分段,所述每一个训练视频分段包含属于相同视频拍摄镜头的多个视频帧,检测所述多个视频帧中的人体区域;
判断所检测到的两个或更多个人体区域之间的相似度;
将相似度满足预定阈值范围的两个或更多个人体区域加入到相同的集合中以生成所述训练视频分段的一个或多个人体区域样本集合。
4.如权利要求2或3所述的视频处理方法,所述响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸,基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集包括:
响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸,从各个人体区域样本集合中分别选取相同预定数量的人脸;
对从各个人体区域样本集合中所选取的人脸进行人脸相似度比较;
将所述人脸相似度高于第一预定阈值的人体区域样本集合进行合并以构建训练数据集。
5.如权利要求2所述的视频处理方法,所述数据集还通过下述步骤构建:
利用行人重识别reid确定相同人体区域样本集合中的人体区域相似度低于预定阈值的人体区域;
从所述人体区域样本集合中去除所述人体区域相似度低于第二预定阈值的人体区域。
6.如权利要求3所述的视频处理方法,所述判断所检测到的两个或更多个人体区域之间的相似度包括:基于人工特征判断所检测到的两个或更多个人体区域之间的相似度。
7.一种用于构建数据集的方法,所述数据集用于训练特征提取网络,所述方法包括:
获取用于所述特征提取网络的训练视频;
按照视频拍摄镜头将所述训练视频划分为多个训练视频分段;
针对所述多个训练视频分段中的每一个训练视频分段,创建所述训练视频分段的一个或多个人体区域样本集合;
确定一个或多个所述人体区域样本集合中是否包含人脸;
响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸,基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集。
8.如权利要求7所述的用于构建数据集的方法,所述针对所述多个训练视频分段中的每一个训练视频分段,创建所述训练视频分段的一个或多个人体区域样本集合包括:
针对所述多个训练视频分段中的每一个训练视频分段,所述每一个训练视频分段包含属于相同视频拍摄镜头的多个视频帧,检测所述多个视频帧中的人体区域;
判断所检测到的两个或更多个人体区域之间的相似度;
将相似度满足预定阈值范围的两个或更多个人体区域加入到相同的集合中以生成所述训练视频分段的一个或多个人体区域样本集合。
9.如权利要求7或8所述的用于构建数据集的方法,所述响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸,基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集包括:
响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸,从各个人体区域样本集合中分别选取相同预定数量的人脸;
对从各个人体区域样本集合中所选取的人脸进行人脸相似度比较;
将所述人脸相似度高于第一预定阈值的人体区域样本集合进行合并以构建训练数据集。
10.一种特征提取网络的训练方法,包括:
获取用于所述特征提取网络的训练视频,
基于所获取的训练视频,使用如权利要求7-9中任一项所述的构建数据集的方法来构造训练数据集,
使用所述数据集来训练特征提取网络以提取描述人体区域的特征。
11.一种视频处理装置,所述装置包括:
获取模块,被配置成获取待处理视频和表示目标对象的目标人体区域;
人体检测模块,被配置成检测所述待处理视频中的多个人体区域;
特征提取模块,被配置成将所述多个人体区域输入经训练的特征提取网络,得到分别描述所述多个人体区域的多个第一特征,和将所述目标人体区域输入所述经训练的特征提取网络,得到描述所述目标人体区域的第二特征,其中,所述特征提取网络是使用基于人体区域样本集合构建的数据集进行训练的,且所述人体区域样本集合是针对按照视频拍摄镜头划分的多个视频分段分别生成的;
比较模块,被配置成将所述多个第一特征分别与所述第二特征进行比较,得到与所述第二特征相匹配的所述第一特征中的至少一个第一匹配特征;
时间点确定模块,被配置成确定所述至少一个第一匹配特征在所述待处理视频中的所对应的各个时间点;
视频处理模块,被配置成基于所述各个时间点处理所述待处理视频以获取与所述目标对象关联的视频部分。
12.一种数据集的构建装置,所述数据集用于对特征提取网络进行训练,所述装置包括:
获取模块,被配置成获取用于所述特征提取网络的训练视频;
视频分段模块,被配置成按照视频拍摄镜头将所述训练视频划分为多个训练视频分段;
集合创建模块,被配置成针对所述多个训练视频分段中的每一个训练视频分段,创建所述训练视频分段的一个或多个人体区域样本集合;
确定模块,被配置成确定一个或多个所述人体区域样本集合中是否包含人脸;
集合合并模块,被配置成响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸,基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集。
13.一种特征提取网络的训练装置,包括:
获取模块,被配置成获取用于所述特征提取网络的训练视频,
数据集构建模块,被配置成基于所获取的训练视频,使用如权利要求7-9中任一项所述的构建数据集的方法来构造训练数据集,
训练模块,被配置成使用所述数据集来训练特征提取网络以提取描述人体区域的特征。
14.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1-10中任一项所述的方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1-10中任一项所述的方法的步骤。