一种融合人声特征与人脸特征的智能视频剪辑方法

文档序号：35818151发布日期：2023-10-22 08:15阅读：来源：国知局

技术特征：

1.一种融合人声特征与人脸特征的智能视频剪辑方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种融合人声特征与人脸特征的智能视频剪辑方法，其特征在于：s2.1中，利用目标检测算法retinanet进行目标检测，利用显著性检测算法对目标画面里的显著物品进行检测；目标检测是应对以人、动物、或常见物品为主体的画面，以分析出画面中的主要的人或物；而显著性检测是辅助目标检测同时对非人非物类的非常见物品的情况进行处理。

3.根据权利要求2所述的一种融合人声特征与人脸特征的智能视频剪辑方法，其特征在于：2)中，采用samplernn来完成人声提取。

4.根据权利要求3所述的一种融合人声特征与人脸特征的智能视频剪辑方法，其特征在于：3)中，采用说话人分割与聚类技术完成，具体实现如下：

5.根据权利要求4所述的一种融合人声特征与人脸特征的智能视频剪辑方法，其特征在于：4)中，通过mfcc对人声提取特征，使用高斯混合模型识别说话人的性别；使用基于gbdt有监督学习分类器的声纹特征分类模型来判断是否为儿童，成年人，老人。

6.根据权利要求5所述的一种融合人声特征与人脸特征的智能视频剪辑方法，其特征在于：5)中，speech2face神经网络系统是通过分析视频片段、匹配人声与人脸并找到两者之间的模式和趋势，来学习如何绘制人的样貌；speech2face可描绘出人脸中除了眼睛以外的部位。

7.根据权利要求6所述的一种融合人声特征与人脸特征的智能视频剪辑方法，其特征在于：7)中，唇动检测方法为：

8.根据权利要求7所述的一种融合人声特征与人脸特征的智能视频剪辑方法，其特征在于：8)中，音画匹配模型建模过程如下：

9.根据权利要求8所述的一种融合人声特征与人脸特征的智能视频剪辑方法，其特征在于：步骤c中，人脸的相似度分析如下：

10.根据权利要求9所述的一种融合人声特征与人脸特征的智能视频剪辑方法，其特征在于：s2.2中，判定为否时，采用传统方案进行处理，传统方案以视频和给定裁剪宽高比作为输入，首先利用预处理算法进行黑边检测，然后利用显著性或主体检测等方法进行视频主要内容分析，接着根据预测结果进行视频框生成，最后利用后处理算法使得裁剪结果在时序上更加平滑，并保留裁剪视频和裁剪框位置。

技术总结
本发明涉及视频剪辑技术领域，涉及一种融合人声特征与人脸特征的智能视频剪辑方法，包括：S1、场景镜头拆分，将输入的视频拆分成多个场景镜头片段，然后对每个场景镜头片段进行滑窗切片；S2、智能视频剪辑S2.1、对切片后的片段进行目标检测和显著性检测；S2.2、多主角类视频的判定：判定片段是否为多人物主角类，若是，则采用人声与人脸智能匹配方法；S2.3、通过人声与人脸智能匹配方法分析得到视频每段的说话人主体目标框，再通过按比例对视频进行裁剪，再对多片段和原语音进行合成，最后对视频进行平滑即可输出最后的裁剪的短视频结果。本发明能够应对多主角人物视频自动剪辑中的音画不匹配。

技术研发人员：徐可佳,陈金强,徐智衍,陈安桐,沈洋,唐鹏飞,邓胡一万,张一超
受保护的技术使用者：西南交通大学
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

当前第2页1 2