一种横竖屏转换画面的裁剪方法、系统、装置及介质与流程

文档序号:25737042发布日期:2021-07-06 18:46阅读:184来源:国知局
一种横竖屏转换画面的裁剪方法、系统、装置及介质与流程

本发明涉及视频处理技术领域,尤其是一种横竖屏转换画面的裁剪方法、系统、装置及存储介质。



背景技术:

视频类产品中,存在着泾渭分明的两种视频形态:横版视频和竖版视频。总体而言,横版视频内容丰富度更高,内容种类更多,因其时间长度,普通用户习惯于将手机横过来观看以获得更佳的观影体验;而竖版视频趣味性更强,时间较短、剧情更为聚焦和简洁。在较为碎片化的时间及场景中用户通常更倾向于在竖屏情况下观看。在不进行任何处理的情况下,将视频画面直接进行缩放,在横屏状态下显示竖版视频或在竖屏状态下显示横版视频,将会出现大量的黑边。

目前,通过视频处理技术进行横竖屏视频的自动转换是性价比较高的做法,方法在成本和观影体验之间取得了很好的平衡,既可以用极低的成本对海量的视频进行自动化的转换,也可以通过视频处理技术尽可能地保留视频的完整信息,为用户提供更好的观影体验。

但在一些比较特殊的情况中,例如,在电视剧或电影的画面中出现多个人脸,并进行一段长时间的对话;如若剪裁过程中仅仅根据人脸的位置来确定视频的关键区域,就会出现混乱,例如,剪裁得到画面中的人物并未说话,而说话的人物并未出现在剪裁后的画面中;又或者由于视频中关键元素的区域过大,使得裁剪算法为平衡多个关键元素的占位,形成了更差质量的裁剪效果。



技术实现要素:

有鉴于此,为至少部分解决上述技术问题之一,本发明实施例目的在于提供一种横竖屏转换画面的裁剪方法,可以尽可能保留关键人物的画面而裁剪非关键人物的画面,以获得更好的裁剪效果;同时本实施例还提供了对应的实现该方法的系统、装置及计算机可读的存储介质。

第一方面,本申请的技术方案提供了一种横竖屏转换画面的裁剪方法,其步骤包括:

获取横屏影音文件,从所述横屏影音文件中分离得到视频画面和音频文件;

获取所述视频画面中的人脸位置,确定人脸图像,将所述人脸图像进行分割得到动态信息;

根据所述动态信息与所述音频文件进行匹配,根据匹配结果确定关键人物;

根据所述关键人物对所述视频画面进行剪裁得到竖屏画面。

在本申请方案的一种可行的实施例中,所述获取所述视频画面中的人脸位置,确定人脸图像,将所述人脸图像进行分割得到动态信息,其包括:

根据所述人脸位置确定所述人脸图像,生成所述人脸图像的灰度图像,并提取所述灰度图像的特征图;

根据所述灰度图像预测得到关键点,并生成所述关键点的相似变换矩阵,根据所述相似变换矩阵确定关键点热点图;

根据所述灰度图像、所述特征图以及所述关键点热点图通过前反馈神经网络进行迭代确定人脸的动态信息。

在本申请方案的一种可行的实施例中,所述根据所述动态信息与所述音频文件进行匹配,根据匹配结果确定关键人物,其包括:

将所述动态信息进行编码得到第一特征向量;

将所述音频文件进行编码得到第二特征向量;

将所述第一特征向量与所述第二特征向量进行拼接,通过卷积神经网络输出匹配概率;

确定所述匹配概率中的最高分值的人脸位置,为所述关键人物。

在本申请方案的一种可行的实施例中,所述根据所述动态信息进行编码得到第一特征向量,其包括:

通过主成成分分析确定所述动态信息中像素的平均值;

计算所述像素的平均值的协方差矩阵,根据所述协方差矩阵确定像素特征向量;

根据所述像素特征向量,将所述动态信息进行投影得到所述第一特征向量。

在本申请方案的一种可行的实施例中,所述将所述音频文件进行编码得到第二特征向量,其包括:

提高所述音频文件的高频部分,得到预加重信号,将所述预加重信号进行分帧,得到单帧信号;

将所述单帧信号进行加窗,并通过快速傅里叶变换得到频域信号;

通过梅尔滤波器组,确定所述频域信号的能量,并确定梅尔频率倒谱系数,通过所述梅尔频率倒谱系数得到第二特征向量。

在本申请方案的一种可行的实施例中,所述根据所述关键人物对所述视频画面进行剪裁得到竖屏画面,其包括:

确定所述横屏影音文件中不存在所述关键人物,保持所述横屏影音文件中画面高度不变,根据预设画面比例确定画面宽度,根据所述画面高度与所述画面宽度确定剪裁区域;

根据所述剪裁区域进行剪裁得到所述竖屏画面。

在本申请方案的一种可行的实施例中,所述根据所述关键人物对所述视频画面进行剪裁得到竖屏画面,其包括:

确定所述横屏影音文件中存在所述关键人物,确定所述剪裁区域;

控制所述剪裁区域在所述横屏影音文件的画面中滑动,确定所述关键人物的人脸位于所述剪裁区域之中,对画面进行剪裁得到所述竖屏画面。

第二方面,本发明的技术方案还提供一种横竖屏转换画面的裁剪的软件系统,其包括:音画分离模块,用于获取横屏影音文件,从所述横屏影音文件中分离得到视频画面和音频文件;

特征切割模块,用于获取所述视频画面中的人脸位置,确定人脸图像,将所述人脸图像进行分割得到动态信息;

人物匹配模块,用于根据所述动态信息与所述音频文件进行匹配,根据匹配结果确定关键人物;

画面剪裁模块,用于根据所述关键人物对所述视频画面进行剪裁得到竖屏画面。

第三方面,本发明的技术方案还提供一种横竖屏转换画面的裁剪装置,其包括:

至少一个处理器;

至少一个存储器,用于存储至少一个程序;

当至少一个程序被至少一个处理器执行,使得至少一个处理器运行第一方面中的一种横竖屏转换画面的裁剪方法。

第四方面,本发明的技术方案还提供了一种存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于运行第一方面中的方法。

本发明的优点和有益效果将在下面的描述中部分给出,其他部分可以通过本发明的具体实施方式了解得到:

本申请的技术方案通过分离视频画面和音频文件,在视频画面中通过将人脸的动态信息进行分割,并将分割得到的动态信息与音频文件进行特征匹配,以定位视频中的说话人,在一段含有多人画面的视频上区分关键人物和非关键人物,从而可以尽可能保留关键人物的画面而裁剪非关键人物的画面,以获得更好的裁剪效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种横竖屏转换画面的剪裁方法步骤流程图;

图2是本申请实施例中剪裁前的横屏画面的示意图;

图3是本申请实施例中剪裁后的竖屏画面的示意图。

具体实施方式

下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

需要说明的是,本申请的实施例中,所提及的横屏影音文件或者视频画面等,是指该画面的画幅长大于画幅宽的情况,例如21:9、16:9等比例;而竖屏影音文件或者视频画面等,是指画面的画幅长小于画幅宽的情况,例如9:16、3:4等。

在第一方面,如图1所示,本申请的技术方案提供了一种横竖屏转换画面的裁剪方法的实施例,其中,方法包括步骤s100-s400:

s100、获取横屏影音文件,从横屏影音文件中分离得到视频画面和音频文件。

具体地,通过现有的视频剪辑的方法或者视频剪辑工具,从获取得到的横屏影音中导出音频文件,原视频文件则直接作为视频换面进行后续的处理。一般的,导出的音频文件为mp3格式文件。

s200、获取视频画面中的人脸位置,确定人脸图像,将人脸图像进行分割得到动态信息;

其中,动态信息是指人脸中随着说话的开始与停止有明显差别的部分,如嘴唇、脸颊、下巴等。具体地,通过人脸识别算法获取视频中每一帧的人脸位置。实施例中采用yolov3(youonlylookonce)进行人脸位置提取,yolov3是一种基于深度卷积神经网络的物体检测算法,首先通过已经公开的人脸数据训练得到一个高精度的人脸检测模型;实施中采用widerface(一个人脸检测基准数据集)进行训练。通过训练完成所得到人脸检测模型,对视频画面中的人脸进行逐帧识别;确定画面中的人脸位置后,提取该位置的人脸图像,即包含了人脸信息,并通过dan(deepalignmentnetwork)算法,对人脸图像进行人脸关键点配准,通过的关键点规则,将下巴、嘴唇、两颊部分的关键点连接起来,得到每一帧画面中的人脸关键点组合,将视频画面中的每一帧关键点组合再进行集合,得到动态信息。实施例通过人脸的动态信息确定视频每一帧中正在说话的人物角色。另外,人脸图像中分割得到动态信息外,剩余的关键点作为人脸图像的静态信息,即静态信息是人脸中随着说话的开始与停止区别度不大的部分特征,例如头部轮廓、耳朵、鼻子、额头、眉毛等;在通过人脸的动态信息确定视频每一帧中正在说话的人物角色,也可以通过静态信息对该人脸信息进行校正。

s300、根据动态信息与音频文件进行匹配,根据匹配结果确定关键人物;

具体地,将每一帧图像中每一个人脸的动态信息与对应的音频输入至判别模型中,通过判别模型得到动态信息与音频的匹配结果,例如,当匹配结果为具体分值时,根据音频与人脸匹配的最高分值,确定该动态信息所对应的人脸为挡墙帧画面中的关键人物,即说话人。

s400、根据关键人物对视频画面进行剪裁得到竖屏画面。

具体地,在确定每帧视频画面的中的关键人物后,根据预设的剪裁画面大小,对原视频画面进行剪裁,重复剪裁的过程,将每一帧截取后的视频进行拼接,生成转换后的竖版视频,并根据视频画面的时间轴添加原音频文件;可以理解的是,剪裁画面大小应当是满足竖屏画面的画幅比。

在一些可行的实施例中,步骤s200获取视频画面中的人脸位置,确定人脸图像,将人脸图像进行分割得到动态信息,可以进一步包括细分的步骤s210-s230:

s210、根据人脸位置确定人脸图像,生成人脸图像的灰度图像,并提取灰度图像的特征图;

具体地,将根据人脸位置确定的人脸图像,进行灰度处理得到弧度图像,并根据dan网络架构中前反馈神经网络层(feedforwardnn),提取得到该灰度图像的特征图;特征图的计算过程为:输出为1×3136的特征矩阵,进行矩阵变换得到56×56的矩阵,然后上采样得到与输入的灰度图像同样大小的矩阵,例如112×112。

s220、根据灰度图像预测得到关键点,并生成关键点的相似变换矩阵,根据相似变换矩阵确定关键点热点图;

具体地,通过dan网络架构提供的标准关键点模板,预测得到第一批关键点的位置,第一批关键点的位置通过dan网络架构中的连接层(connectionlayers)计算得到一个从第一批关键点到标准关键点模板的相似变化矩阵;通过该相似变化矩阵可以对输入的灰度图像进行校正,同时对关键点进行变换得到关键点热点图,同样的。特征图通过是通过下一层feedforwardnn进行特征提取得到的,其中,关键点热点图是一个中心衰减的计算方式,键点处值最大,越远则值越小。

s230、根据灰度图像、特征图以及关键点热点图通过前反馈神经网络进行迭代确定人脸的动态信息。

具体地,输入灰度图像、特征图以及关键点热点图至feedforwardnn进行迭代得到新的关键点热点图,迭代结束即得到该灰度图中的人脸关键点,通过每一帧视频画面中的关键点进行组合即可以得到人脸的动态信息。

在一些可选的实施例中,步骤s300、根据动态信息与音频文件进行匹配,根据匹配结果确定关键人物,其包括更为细分的步骤s310-s330:

s310、将动态信息进行编码得到第一特征向量;

具体地,实施例中可以通过人脸动态信息的编码器,通过输入人脸图像的动态信息,由编码器将动态信息编码为一个1024长度的实数向量,即为第一特征向量。

s320、将音频文件进行编码得到第二特征向量;

具体地,将音频文件根据时间轴按帧进行划分,将音频的每一帧使用mfcc(mel-frequencyceptralcoefficients,梅尔频率倒谱系数)算法进行特征提取,将mfcc输出的特征同样通过编码器进行编码得到一个1024长度的实数向量,即为第二特征向量。

s330、将第一特征向量与第二特征向量进行拼接,通过卷积神经网络输出匹配概率;确定匹配概率中的最高分值的人脸位置,为关键人物;

具体地,通过判别器件步骤s310和s320所得到的特征向量进行拼接,形成2048长度的向量,通过训练完成的卷积神经网络,输出得到是或者否的预测结果概率。

在一些可行的实施例中,s310、根据动态信息进行编码得到第一特征向量这一步骤,可以包括更为细化的步骤s311-s313:

s311、通过主成成分分析确定动态信息中像素的平均值;

具体地,本实施例通过主成成分(pca)分析,首先计算所有动态信息的各像素的平均值,得到平均值矩阵,该矩阵的行数为1,列数为m,其中m为动态信息的图像大小。

s312、计算像素的平均值的协方差矩阵,根据协方差矩阵确定像素特征向量;

具体地,将步骤s311中得到的矩阵的行进行复制,使矩阵的行数与动态信息样本数量n保持一致,并将根据动态信息的各像素转化为n行,m列的原数据矩阵,其中m为动态信息的图像大小。通过原数据矩阵和均值矩阵计算得到协方差矩阵。利用协方差矩阵计算特征值矩阵和特征向量矩阵,并特征值从大到小对其进行排序。其中特征值矩阵大小为n*1,特征向量矩阵为n*n,每一行代表某个特征值对应特征向量。并对特征向量矩阵的每一行进行归一化。

s313、根据像素特征向量,将动态信息进行投影得到第一特征向量;

具体地,根据归一化后的特征向量矩阵,将动态信息的各个人脸图像的动态信息像素投影至pca空间,得到单个人脸图像的投影向量,即为第一特征向量。

在一些可行的实施例中,s320、将音频文件进行编码得到第二特征向量这一步骤,其可以包括更为细分的步骤s321-s323:

s321、提高音频文件的高频部分,得到预加重信号,将预加重信号进行分帧,得到单帧信号;

具体地,首先对音频文件中的语音信号进行预处理,首先是将语音信号通过一个高通滤波器进行预加重,预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。然后信号进行分帧,将n(n为正整数)个采样点集合成一个观测单位,称之为帧。实施例中,n的值为256或512,涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了m个取样点,通常m的值约为n的1/2或1/3。

s322、将单帧信号进行加窗,并通过快速傅里叶变换得到频域信号;

具体地,语音在长范围内是不停变动的,没有固定的特性无法做处理,所以将每一帧信号牌代入窗函数,窗外的值设定为0,其目的是消除各个帧两端可能会造成的信号不连续性。常用的窗函数有方窗、汉明窗和汉宁窗等,实施例中,根据窗函数的频域特性,采用汉明窗。将每一帧乘以汉明窗,以增加帧左端和右端的连续性。由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。

s323、通过梅尔滤波器组,确定频域信号的能量,并确定梅尔频率倒谱系数,通过梅尔频率倒谱系数得到第二特征向量。

具体地,根据功率谱计算得到能量谱,将能量谱通过一组mel尺度的三角形滤波器组,定义一个有m个滤波器的滤波器组,其中,滤波器的个数和临界带的个数相近,实施例中,采用的滤波器为三角滤波器。通过滤波对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。以mfcc为特征的语音辨识系统,并不会受到输入语音的音调不同而有所影响。然后计算每个滤波器组输出的对数能量,再通过离散余弦变换得到mfcc系数,通过编码器进行编码得到第二特征向量。

在一些可行的实施例中,步骤s400、根据关键人物对视频画面进行剪裁得到竖屏画面,其可以包括步骤s410或s420:

s410、确定横屏影音文件中不存在关键人物,保持横屏影音文件中画面高度不变,根据预设画面比例确定画面宽度,根据画面高度与画面宽度确定剪裁区域,根据剪裁区域进行剪裁得到竖屏画面;

或,

s420、确定横屏影音文件中存在关键人物,确定剪裁区域,控制该剪裁区域在横屏影音文件的画面中滑动,确定关键人物的人脸位于剪裁区域之中,对画面进行剪裁得到竖屏画面。

具体地,首先确定裁剪区域大小,裁剪区域大小由原视频分辨率及裁剪目标比例确定,裁剪原则是尽可能多地保留原视频的画面,例如,原视频分辨率为1920*1080(宽:高),裁剪目标比例为宽:高=9:16,那么为了尽可能多地保留原视频的画面,则高度上不做裁剪,而宽度上,裁剪目标为1920*(1080/16*9)=607.5,因此,裁剪区域大小为607.5*1080(宽:高);

如图2所示,是剪裁前的横屏画面的示意图,根据已经确定的关键说话人进行裁剪,裁剪过程是,在实施例中,将607.5:1080的裁剪框在1920:1080的原画面上从左往后进行滑动,当关键说话人的人脸处于裁剪框正中时,该裁剪框所处位置即为需要的裁剪位置,如图3所示,是剪裁后得到的竖屏画面示意图。

在第二方面,本申请所提供的一种用于第一方面中方法的一种横竖屏转换画面的裁剪系统,其包括:

音画分离模块,用于获取横屏影音文件,从横屏影音文件中分离得到视频画面和音频文件;

特征切割模块,用于获取视频画面中的人脸位置,确定人脸图像,将人脸图像进行分割得到动态信息;

人物匹配模块,用于根据动态信息与音频文件进行匹配,根据匹配结果确定关键人物;

画面剪裁模块,用于根据关键人物对视频画面进行剪裁得到竖屏画面。

第三方面,本申请的技术方案还提供一种横竖屏转换画面的裁剪装置,其包括至少一个处理器;至少一个存储器,用于存储至少一个程序;当至少一个程序被至少一个处理器执行,使得至少一个处理器运行如第一方面中的一种横竖屏转换画面的裁剪方法。

本发明实施例还提供了一种存储介质内存储有程序,程序被处理器执行,实现如第一方面中的方法。

从上述具体的实施过程,可以总结出,本发明所提供的技术方案相较于现有技术存在以下优点或优势:

本申请提出了一种基于说话人定位的横竖屏转换画面裁剪的技术方案,其发明目的在于通过定位视频中的说话人,在一段含有多人画面的视频上区分关键人物和非关键人物,从而可以尽可能保留关键人物的画面而裁剪非关键人物的画面,以获得更好的裁剪效果。

在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1