1.一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:s2.1中,利用目标检测算法retinanet进行目标检测,利用显著性检测算法对目标画面里的显著物品进行检测;目标检测是应对以人、动物、或常见物品为主体的画面,以分析出画面中的主要的人或物;而显著性检测是辅助目标检测同时对非人非物类的非常见物品的情况进行处理。
3.根据权利要求2所述的一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:2)中,采用samplernn来完成人声提取。
4.根据权利要求3所述的一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:3)中,采用说话人分割与聚类技术完成,具体实现如下:
5.根据权利要求4所述的一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:4)中,通过mfcc对人声提取特征,使用高斯混合模型识别说话人的性别;使用基于gbdt有监督学习分类器的声纹特征分类模型来判断是否为儿童,成年人,老人。
6.根据权利要求5所述的一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:5)中,speech2face神经网络系统是通过分析视频片段、匹配人声与人脸并找到两者之间的模式和趋势,来学习如何绘制人的样貌;speech2face可描绘出人脸中除了眼睛以外的部位。
7.根据权利要求6所述的一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:7)中,唇动检测方法为:
8.根据权利要求7所述的一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:8)中,音画匹配模型建模过程如下:
9.根据权利要求8所述的一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:步骤c中,人脸的相似度分析如下:
10.根据权利要求9所述的一种融合人声特征与人脸特征的智能视频剪辑方法,其特征在于:s2.2中,判定为否时,采用传统方案进行处理,传统方案以视频和给定裁剪宽高比作为输入,首先利用预处理算法进行黑边检测,然后利用显著性或主体检测等方法进行视频主要内容分析,接着根据预测结果进行视频框生成,最后利用后处理算法使得裁剪结果在时序上更加平滑,并保留裁剪视频和裁剪框位置。