本发明涉及图像处理领域,具体涉及一种视频数据处理方法及装置、计算设备。
背景技术:
随着科技的发展,图像采集设备的技术也日益提高。使用图像采集设备录制的视频也更加清晰、分辨率、显示效果也大幅提高。但现有录制的视频仅是单调的录制素材本身,无法满足用户提出的越来越多的个性化要求。现有技术可以在录制视频后,可以由用户手动对视频再做进一步的处理。但这样处理需要用户具有较高的图像处理技术,并且在处理时需要花费用户较多的时间,处理繁琐,技术复杂。
因此,需要一种视频数据处理方法,在满足用户的个性化要求的同时降低技术要求门槛。
技术实现要素:
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的视频数据处理方法及装置、计算设备。
根据本发明的一个方面,提供了一种视频数据处理方法,其包括:
获取视频数据;
对视频数据进行甄别,获取包含特定对象的待处理的帧图像;
对待处理的帧图像进行场景分割处理,得到针对于特定对象的前景图像;
获取外部输入源的输入信息,从输入信息中提取至少一个信息要素;
依据至少一个信息要素对背景图像进行风格化处理;
将前景图像和风格化处理后的背景图像进行融合处理,得到处理后的帧图像;
将处理后的帧图像覆盖待处理的帧图像得到处理后的视频数据。
可选地,获取视频数据进一步包括:
获取本地视频数据和/或网络视频数据。
可选地,获取视频数据进一步包括:
获取由多个本地图片和/或多个网络图片合成的视频数据。
可选地,对视频数据进行甄别,获取包含特定对象的待处理的帧图像进一步包括:
对用户指定时间段的视频数据进行甄别,获取包含特定对象的待处理的帧图像。
可选地,输入信息为音乐;至少一个信息要素包括:振幅、频率和/或音色。
可选地,依据至少一个信息要素对背景图像进行风格化处理进一步包括:
依据振幅、频率和/或音色的取值选取对背景图像进行风格化处理的变化模式;其中,所选取的变化模式根据振幅、频率和/或音色的取值的不同而不同;
利用变化模式对背景图像进行风格化处理。
可选地,背景图像为对待处理的帧图像进行场景分割处理得到的背景图像或预设背景图像。
可选地,将前景图像和风格化处理后的背景图像进行融合处理之前,方法还包括:
将特定对象进行三维化处理。
可选地,在将前景图像和风格化处理后的背景图像进行融合处理之前,方法还包括:
依据至少一个信息要素生成待加载的至少一种动态效果。
可选地,依据至少一个信息要素生成待加载的至少一种动态效果进一步包括:
依据至少一个信息要素获取待加载的每一种动态效果的颜色信息、位置信息和/或角度信息;
依据颜色信息、位置信息和/或角度信息生成每一种动态效果。
可选地,依据至少一个信息要素获取待加载的每一种动态效果的颜色信息、位置信息和/或角度信息进一步包括:
依据振幅、频率和/或音色的取值获取待加载的每一种动态效果的颜色信息、位置信息和/或角度信息,其中,颜色信息、位置信息和/或角度信息根据振幅、频率和/或音色的取值的不同而不同。
可选地,将前景图像和风格化处理后的背景图像进行融合处理,得到处理后的帧图像进一步包括:
将前景图像和风格化处理后的背景图像进行融合处理和整体色调处理,并加载至少一种动态效果,得到处理后的帧图像。
可选地,动态效果为灯光照射效果。
可选地,方法还包括:
将处理后的视频数据上传至一个或多个云视频平台服务器,以供云视频平台服务器在云视频平台进行展示视频数据。
根据本发明的另一方面,提供了一种视频数据处理装置,其包括:
获取模块,适于获取视频数据;
甄别模块,适于对视频数据进行甄别,获取包含特定对象的待处理的帧图像;
分割模块,适于对待处理的帧图像进行场景分割处理,得到针对于特定对象的前景图像;
提取模块,适于获取外部输入源的输入信息,从输入信息中提取至少一个信息要素;
风格化模块,适于依据至少一个信息要素对背景图像进行风格化处理;
融合模块,适于将前景图像和风格化处理后的背景图像进行融合处理,得到处理后的帧图像;
覆盖模块,适于将处理后的帧图像覆盖待处理的帧图像得到处理后的视频数据。
可选地,获取模块进一步适于:
获取本地视频数据和/或网络视频数据。
可选地,获取模块进一步适于:
获取由多个本地图片和/或多个网络图片合成的视频数据。
可选地,甄别模块进一步适于:
对用户指定时间段的视频数据进行甄别,获取包含特定对象的待处理的帧图像。
可选地,输入信息为音乐;至少一个信息要素包括:振幅、频率和/或音色。
可选地,风格化模块进一步适于:
依据振幅、频率和/或音色的取值选取对背景图像进行风格化处理的变化模式;其中,所选取的变化模式根据振幅、频率和/或音色的取值的不同而不同;利用变化模式对背景图像进行风格化处理。
可选地,背景图像为对待处理的帧图像进行场景分割处理得到的背景图像或预设背景图像。
可选地,装置还包括:
三维处理模块,适于将特定对象进行三维化处理。
可选地,装置还包括:
生成模块,适于依据至少一个信息要素生成待加载的至少一种动态效果。
可选地,生成模块进一步适于:
依据至少一个信息要素获取待加载的每一种动态效果的颜色信息、位置信息和/或角度信息;依据颜色信息、位置信息和/或角度信息生成每一种动态效果。
可选地,生成模块进一步适于:
依据振幅、频率和/或音色的取值获取待加载的每一种动态效果的颜色信息、位置信息和/或角度信息,其中,颜色信息、位置信息和/或角度信息根据振幅、频率和/或音色的取值的不同而不同。
可选地,融合模块进一步适于:
将前景图像和风格化处理后的背景图像进行融合处理和整体色调处理,并加载至少一种动态效果,得到处理后的帧图像。
可选地,动态效果为灯光照射效果。
可选地,装置还包括:
上传模块,适于将处理后的视频数据上传至一个或多个云视频平台服务器,以供云视频平台服务器在云视频平台进行展示视频数据。
根据本发明的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述视频数据处理方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述视频数据处理方法对应的操作。
根据本发明提供的视频数据处理方法及装置、计算设备,获取视频数据;对视频数据进行甄别,获取包含特定对象的待处理的帧图像;对待处理的帧图像进行场景分割处理,得到针对于特定对象的前景图像;获取外部输入源的输入信息,从输入信息中提取至少一个信息要素;依据至少一个信息要素对背景图像进行风格化处理;将前景图像和风格化处理后的背景图像进行融合处理,得到处理后的帧图像;将处理后的帧图像覆盖待处理的帧图像得到处理后的视频数据。本发明对待处理的帧图像进行场景分割处理,得到针对于特定对象的前景图像,依据提取的输入信息中的至少一个信息要素对背景图像进行风格化处理,使背景图像的风格与外部输入源的输入信息相匹配。再将前景图像和风格化处理后的背景图像进行融合处理,使处理后的视频整体呈现与外部输入源的输入信息相匹配的显示效果,进而直接得到处理后的视频,本发明采用了深度学习方法,实现了高效率高精准性地完成场景分割处理和三维化处理。且对用户技术水平不做限制,不需要用户手动对视频进行处理,自动实现对视频的处理,大大节省用户时间。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的视频数据处理方法的流程图;
图2示出了根据本发明另一个实施例的视频数据处理方法的流程图;
图3示出了根据本发明一个实施例的视频数据处理装置的功能框图;
图4示出了根据本发明另一个实施例的视频数据处理装置的功能框图;
图5示出了根据本发明一个实施例的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的视频数据处理方法的流程图。如图1所示,视频数据处理方法具体包括如下步骤:
步骤s101,获取视频数据。
获取的视频数据可以是用户本地的视频数据,也可以获取网络的视频数据。或者还可以获取由多个本地图片合成的视频数据,或者获取由多个网络图片合成的视频数据,或者获取由多个本地图片和多个网络图片合成的视频数据。
步骤s102,对视频数据进行甄别,获取包含特定对象的待处理的帧图像。
视频数据中包含很多帧图像,需要对视频数据进行甄别。由于本发明对特定对象进行处理,因此进行甄别后获取包含特定对象的待处理的帧图像。
步骤s103,对待处理的帧图像进行场景分割处理,得到针对于特定对象的前景图像。
待处理的帧图像中包含了特定对象,如人体。对待处理的帧图像进行场景分割处理,主要是将特定对象从待处理的帧图像中分割出来,得到待处理的帧图像针对于特定对象的前景图像,该前景图像可以仅包含特定对象。
在对待处理的帧图像进行场景分割处理时,可以利用深度学习方法。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。如利用深度学习的人体分割方法可以对待处理的帧图像进行场景分割,得到包含人体的前景图像。
步骤s104,获取外部输入源的输入信息,从输入信息中提取至少一个信息要素。
获取外部输入源的实时输入信息,从实时的输入信息中提取至少一个信息要素。在提取信息要素时,根据具体的外部输入源进行提取。实时提取的信息要素根据获取的当时的外部输入源的输入信息进行提取,当每个时刻获取到的外部输入源的输入信息不同时,提取的信息要素的具体取值也会不同。
步骤s105,依据至少一个信息要素对背景图像进行风格化处理。
在依据至少一个信息要素对背景图像进行风格化处理时,可以依据一个信息要素对背景图像进行风格化处理,或者依据多个信息要素对背景图像进行风格化处理。
背景图像可以为对待处理的帧图像进行场景分割处理得到的待处理的帧图像所使用的背景图像,也可以为预设背景图像。
步骤s106,将前景图像和风格化处理后的背景图像进行融合处理,得到处理后的帧图像。
将前景图像和风格化处理后的背景图像进行融合处理,在融合时,为使前景图像和风格化处理后的背景图像可以更好的融合,在对待处理的帧图像进行分割处理时,对分割得到的前景处理的边缘进行半透明处理,模糊特定对象的边缘,以便更好的融合。
步骤s107,将处理后的帧图像覆盖待处理的帧图像得到处理后的视频数据。
使用处理后的帧图像直接覆盖掉对应的待处理的帧图像,直接可以得到处理后的视频数据。
根据本发明提供的视频数据处理方法,获取视频数据;对视频数据进行甄别,获取包含特定对象的待处理的帧图像;对待处理的帧图像进行场景分割处理,得到针对于特定对象的前景图像;获取外部输入源的输入信息,从输入信息中提取至少一个信息要素;依据至少一个信息要素对背景图像进行风格化处理;将前景图像和风格化处理后的背景图像进行融合处理,得到处理后的帧图像;将处理后的帧图像覆盖待处理的帧图像得到处理后的视频数据。本发明对待处理的帧图像进行场景分割处理,得到针对于特定对象的前景图像,依据提取的输入信息中的至少一个信息要素对背景图像进行风格化处理,使背景图像的风格与外部输入源的输入信息相匹配。再将前景图像和风格化处理后的背景图像进行融合处理,使处理后的视频整体呈现与外部输入源的输入信息相匹配的显示效果,进而直接得到处理后的视频,本发明采用了深度学习方法,实现了高效率高精准性地完成场景分割处理。且对用户技术水平不做限制,不需要用户手动对视频进行处理,自动实现对视频的处理,大大节省用户时间。
图2示出了根据本发明另一个实施例的视频数据处理方法的流程图。如图2所示,视频数据处理方法具体包括如下步骤:
步骤s201,获取视频数据。
获取的视频数据可以是用户本地的视频数据,也可以获取网络的视频数据。或者还可以获取由多个本地图片合成的视频数据,或者获取由多个网络图片合成的视频数据,或者获取由多个本地图片和多个网络图片合成的视频数据。
步骤s202,对用户指定时间段的视频数据进行甄别,获取包含特定对象的待处理的帧图像。
视频数据中包含很多帧图像,需要对视频数据进行甄别。同时,在甄别时,还可以根据用户指定时间段,仅对用户指定时间段内的视频数据进行甄别,而不需要对其他时间段的视频数据进行甄别。如由于视频数据的后半段为高潮时段,往往用户指定时间段为视频数据的后半段。因此仅对用户指定时间段的视频数据进行甄别,获取用户指定时间段的视频数据中包含特定对象的待处理的帧图像。
步骤s203,对待处理的帧图像进行场景分割处理,得到针对于特定对象的前景图像。
该步骤参考图1实施例中的步骤s103的描述,在此不再赘述。
步骤s204,获取外部输入源的输入信息,从输入信息中提取至少一个信息要素。
获取外部输入源的实时输入信息,从实时的输入信息中提取至少一个信息要素。在提取信息要素时,根据具体的外部输入源进行提取。外部输入源的输入信息可以为外部的音乐、声音等。如输入信息为音乐时,提取的信息要素包括振幅、频率、音色等信息要素。实时提取的信息要素根据获取的当时的外部输入源的输入信息进行提取,当每个时刻获取到的外部输入源的输入信息不同时,提取的信息要素的具体取值也会不同。
步骤s205,依据至少一个信息要素对背景图像进行风格化处理。
依据至少一个信息要素对背景图像进行风格化处理。具体为依据信息要素中的振幅、频率和/或音色的取值选取对背景图像进行风格化处理的变化模式。其中,所选取的变化模式根据振幅、频率和/或音色的取值的不同而不同。选取变化模式时可以仅根据一个信息要素如振幅取值进行选取,也可以根据多个信息要素如振幅、频率和音色的取值进行选取。利用选取的变化模式对背景图像进行风格化处理。变化模式可以包括如滤镜,依据信息要素选取对应的滤镜,如怀旧滤镜、蓝调滤镜、帅气滤镜等,根据选取的滤镜将背景图像设置为对应的滤镜风格。
上述的背景图像可以为对待处理的帧图像进行场景分割处理得到的待处理的帧图像所使用的背景图像,也可以为预设背景图像。
步骤s206,依据至少一个信息要素生成待加载的至少一种动态效果。
依据一个信息要素可以生成待加载的一种或多种动态效果,或者依据多个信息要素生成待加载的一种动态效果;依据不同的信息要素可以生成不同的动态效果。
动态效果包括了颜色信息、位置信息、角度信息等。依据至少一个信息要素获取待加载的每一种动态效果的颜色信息、位置信息和/或角度信息。依据颜色信息、位置信息和/或角度信息生成每一种动态效果。具体的,依据信息要素中的振幅、频率和/或音色的取值获取待加载的每一种动态效果的颜色信息、位置信息和/或角度信息,其中,颜色信息、位置信息和/或角度信息根据振幅、频率和/或音色的取值的不同而不同。如动态效果为灯光照射效果,依据信息要素中的振幅、频率和/或音色的取值可以生成灯光照射效果的颜色信息、位置信息、角度信息等。生成时,可以依据振幅的取值生成灯光照射效果的颜色信息;或者依据振幅的取值生成灯光照射效果的位置信息;或者依据频率的取值生成灯光照射效果的位置信息等。具体振幅、频率、音色的取值与灯光的生成的灯光照射效果颜色信息、位置信息、角度信息的对应关系此处不做限定。
步骤s207,将特定对象进行三维化处理。
为使加载的动态效果的显示效果更立体化,可以将特定对象进行三维化处理。特定对象以人体脸部为例进行说明,如动态效果为灯光照射效果时,当灯光从人体脸部右侧照射时,实际生活中人体脸部左侧应该不会被灯光照射到。将人体脸部三维化处理后,可以实现人体脸部左侧不会被灯光照射到的显示效果。但如果不进行三维化处理,人体脸部为二维的图像,则人体脸部左侧也会被灯光照射到,显示效果会不真实。
将特定对象进行三维化处理时,可以通过深度学习进行三维化处理。具体的,如使用深度学习将人体脸部进行三维化处理,提取人脸的关键信息。该关键信息可以具体为关键点信息、关键区域信息、和/或关键线信息等。本发明的实施例以关键点信息为例进行说明,但本发明的关键信息不限于是关键点信息。使用关键点信息可以提高根据关键点信息进行三维化处理的处理速度和效率,可以直接根据关键点信息进行三维化处理,不需要再对关键信息进行后续计算、分析等复杂操作。同时,关键点信息便于提取,且提取准确,进行三维化处理的效果更精准。进行三维化处理时,先构建三维的人脸模型。构建三维模型是基于3d人脸数据库中的身份和表情重构矩阵,对于一个给定的人脸的关键点信息的集合,可通过坐标下降(coordinatedescent)的方式求得身份,表情重构系数和旋转缩放平移参数使欧式距离收敛,进而构建出对应人脸的三维构建模型。利用三维构建模型将人体脸部进行三维化处理,得到三维化的人脸。需要注意的是,该三维化处理后的特定对象没有纹理特征信息。进一步提取待处理的帧图像中特定对象的图像纹理信息,图像纹理信息记录了待处理的帧图像中特定对象的空间颜色分布和光强分布等信息。在提取特定对象的图像纹理信息时可以使用如lbp(localbinarypatterns)局部二值模式方法、灰度共生矩阵等方法进行提取。根据提取到的特定对象的图像纹理信息对三维化处理后的特定对象进行绘制,得到包含了纹理特征的三维化特定对象。
步骤s208,将前景图像和风格化处理后的背景图像进行融合处理和整体色调处理,并加载至少一种动态效果,得到处理后的帧图像。
将前景图像和风格化处理后的背景图像先进行融合处理,并进行整体的色调处理,以使融合后的图像更加自然。在此基础上,加载至少一种动态效果,实现与外部输入源的输入信息相匹配的处理后的帧图像。如输入信息为音乐,动态效果为灯光秀照射效果的灯光照射效果,背景图像为迪厅风格的背景图片,处理后的帧图像整体呈现一种随音乐变化的人物在迪厅中的显示效果。
进一步,为使前景图像和风格化处理后的背景图像可以更好的融合,在对待处理的帧图像进行分割处理时,对分割得到的前景处理的边缘进行半透明处理,模糊特定对象的边缘,以便更好的融合。
步骤s209,将处理后的帧图像覆盖待处理的帧图像得到处理后的视频数据。
使用处理后的帧图像直接覆盖掉对应的待处理的帧图像,直接可以得到处理后的视频数据。
步骤s210,将处理后的视频数据上传至一个或多个云视频平台服务器,以供云视频平台服务器在云视频平台进行展示视频数据。
处理后的视频数据可以保存在本地仅供用户观看,也可以将处理后的视频数据直接上传至一个或多个云视频平台服务器,如爱奇艺、优酷、快视频等云视频平台服务器,以供云视频平台服务器在云视频平台进行展示视频数据。
根据本发明提供的视频数据处理方法,根据提取的至少一个信息要素,生成待加载的至少一种动态效果。将前景图像和风格化处理后的背景图像进行融合处理,调整整体色调,并加载信息要素生成的动态效果,使处理后的视频整体呈现与外部输入源的输入信息相匹配的显示效果。同时,为使加载的动态效果的显示效果更立体化,可以将特定对象进行三维化处理,以使处理后的视频的显示效果更接近真实。本发明可以直接得到处理后的视频,进一步,还可以将处理后的视频数据直接上传至一个或多个云视频平台服务器,以供云视频平台服务器在云视频平台进行展示视频数据。本发明对用户技术水平不做限制,不需要用户手动对视频进行处理,自动实现对视频的处理,大大节省用户时间。
图3示出了根据本发明一个实施例的视频数据处理装置的功能框图。如图3所示,视频数据处理装置包括如下模块:
获取模块301,适于获取视频数据。
获取模块301获取的视频数据可以是用户本地的视频数据,获取模块301也可以获取网络的视频数据。或者获取模块301还可以获取由多个本地图片合成的视频数据,或者获取模块301获取由多个网络图片合成的视频数据,或者获取模块301获取由多个本地图片和多个网络图片合成的视频数据。
甄别模块302,适于对视频数据进行甄别,获取包含特定对象的待处理的帧图像。
视频数据中包含很多帧图像,需要甄别模块302对视频数据进行甄别。由于本发明对特定对象进行处理,因此甄别模块302进行甄别后获取包含特定对象的待处理的帧图像。
甄别模块302在甄别时,还可以根据用户指定时间段,仅对用户指定时间段内的视频数据进行甄别,而不需要对其他时间段的视频数据进行甄别。如由于视频数据的后半段为高潮时段,往往用户指定时间段为视频数据的后半段。因此甄别模块302仅对用户指定时间段的视频数据进行甄别,获取用户指定时间段的视频数据中包含特定对象的待处理的帧图像。
分割模块303,适于对待处理的帧图像进行场景分割处理,得到针对于特定对象的前景图像。
待处理的帧图像包含了特定对象,如人体。分割模块303对待处理的帧图像进行场景分割处理,主要是将特定对象从待处理的帧图像中分割出来,得到待处理的帧图像针对于特定对象的前景图像,该前景图像可以仅包含特定对象。
分割模块303在对待处理的帧图像进行场景分割处理时,可以利用深度学习方法。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。如分割模块303利用深度学习的人体分割方法可以对待处理的帧图像进行场景分割,得到包含人体的前景图像。
提取模块304,适于获取外部输入源的输入信息,从输入信息中提取至少一个信息要素。
提取模块304获取外部输入源的实时输入信息,从实时的输入信息中提取至少一个信息要素。外部输入源的输入信息可以为外部的音乐、声音等。如输入信息为音乐时,提取模块304提取的信息要素包括振幅、频率、音色等信息要素。提取模块304在提取信息要素时,根据具体的外部输入源进行提取。提取模块304实时提取的信息要素根据获取的当时的外部输入源的输入信息进行提取,当每个时刻获取到的外部输入源的输入信息不同时,提取模块304提取的信息要素的具体取值也会不同。
风格化模块305,适于依据至少一个信息要素对背景图像进行风格化处理。
风格化模块305在依据至少一个信息要素对背景图像进行风格化处理时,风格化模块305可以依据一个信息要素对背景图像进行风格化处理,或者风格化模块305依据多个信息要素对背景图像进行风格化处理。
具体为风格化模块305依据信息要素中的振幅、频率和/或音色的取值选取对背景图像进行风格化处理的变化模式。其中,风格化模块305所选取的变化模式根据振幅、频率和/或音色的取值的不同而不同。风格化模块305选取变化模式时可以仅根据一个信息要素如振幅取值进行选取,也可以根据多个信息要素如振幅、频率和音色的取值进行选取。风格化模块305利用选取的变化模式对背景图像进行风格化处理。变化模式可以包括如滤镜,风格化模块305依据信息要素选取对应的滤镜,如怀旧滤镜、蓝调滤镜、帅气滤镜等,风格化模块305根据选取的滤镜将背景图像设置为对应的滤镜风格。
背景图像可以为对待处理的帧图像进行场景分割处理得到的待处理的帧图像所使用的背景图像,也可以为预设背景图像。
融合模块306,适于将前景图像和风格化处理后的背景图像进行融合处理,得到处理后的帧图像。
融合模块306将前景图像和风格化处理后的背景图像进行融合处理,融合模块306在融合时,为使前景图像和风格化处理后的背景图像可以更好的融合,分割模块303在对待处理的帧图像进行分割处理时,对分割得到的前景处理的边缘进行半透明处理,模糊特定对象的边缘,以便融合模块306更好的融合。
覆盖模块307,适于将处理后的帧图像覆盖待处理的帧图像得到处理后的视频数据。
覆盖模块307使用处理后的帧图像直接覆盖掉对应的待处理的帧图像,直接可以得到处理后的视频数据。
根据本发明提供的视频数据处理装置,获取视频数据;对视频数据进行甄别,获取包含特定对象的待处理的帧图像;对待处理的帧图像进行场景分割处理,得到针对于特定对象的前景图像;获取外部输入源的输入信息,从输入信息中提取至少一个信息要素;依据至少一个信息要素对背景图像进行风格化处理;将前景图像和风格化处理后的背景图像进行融合处理,得到处理后的帧图像;将处理后的帧图像覆盖待处理的帧图像得到处理后的视频数据。本发明对待处理的帧图像进行场景分割处理,得到针对于特定对象的前景图像,依据提取的输入信息中的至少一个信息要素对背景图像进行风格化处理,使背景图像的风格与外部输入源的输入信息相匹配。再将前景图像和风格化处理后的背景图像进行融合处理,使处理后的视频整体呈现与外部输入源的输入信息相匹配的显示效果,进而直接得到处理后的视频,本发明采用了深度学习方法,实现了高效率高精准性地完成场景分割处理。且对用户技术水平不做限制,不需要用户手动对视频进行处理,自动实现对视频的处理,大大节省用户时间。
图4示出了根据本发明另一个实施例的视频数据处理装置的功能框图。如图4所示,与图3不同之处在于,视频数据处理装置还包括:
生成模块308,适于依据至少一个信息要素生成待加载的至少一种动态效果。
生成模块308依据一个信息要素可以生成待加载的一种或多种动态效果,或者生成模块308依据多个信息要素生成待加载的一种动态效果;生成模块308依据不同的信息要素可以生成不同的动态效果。
动态效果包括了颜色信息、位置信息、角度信息等。生成模块308依据至少一个信息要素获取待加载的每一种动态效果的颜色信息、位置信息和/或角度信息。生成模块308依据颜色信息、位置信息和/或角度信息生成每一种动态效果。具体的,生成模块308依据信息要素中的振幅、频率和/或音色的取值获取待加载的每一种动态效果的颜色信息、位置信息和/或角度信息,其中,颜色信息、位置信息和/或角度信息根据振幅、频率和/或音色的取值的不同而不同。如动态效果为灯光照射效果,生成模块308依据信息要素中的振幅、频率和/或音色的取值可以生成灯光照射效果的颜色信息、位置信息、角度信息等。生成模块308生成时,可以依据振幅的取值生成灯光照射效果的颜色信息;或者生成模块308依据振幅的取值生成灯光照射效果的位置信息;或者生成模块308依据频率的取值生成灯光照射效果的位置信息等。具体振幅、频率、音色的取值与灯光的生成的灯光照射效果颜色信息、位置信息、角度信息的对应关系此处不做限定。
三维处理模块309,适于将特定对象进行三维化处理。
为使加载的动态效果的显示效果更立体化,三维处理模块309可以将特定对象进行三维化处理。特定对象以人体脸部为例进行说明,如动态效果为灯光照射效果时,当灯光从人体脸部右侧照射时,实际生活中人体脸部左侧应该不会被灯光照射到。三维处理模块309将人体脸部三维化处理后,可以实现人体脸部左侧不会被灯光照射到的显示效果。但如果不进行三维化处理,人体脸部为二维的图像,则人体脸部左侧也会被灯光照射到,显示效果会不真实。
三维处理模块309将特定对象进行三维化处理时,可以通过深度学习进行三维化处理。具体的,如三维处理模块309使用深度学习将人体脸部进行三维化处理,提取人脸的关键信息。该关键信息可以具体为关键点信息、关键区域信息、和/或关键线信息等。本发明的实施例以关键点信息为例进行说明,但本发明的关键信息不限于是关键点信息。使用关键点信息可以提高根据关键点信息进行三维化处理的处理速度和效率,可以直接根据关键点信息进行三维化处理,不需要再对关键信息进行后续计算、分析等复杂操作。同时,关键点信息便于提取,且提取准确,进行三维化处理的效果更精准。三维处理模块309进行三维化处理时,先构建三维的人脸模型。构建三维模型是基于3d人脸数据库中的身份和表情重构矩阵,对于一个给定的人脸的关键点信息的集合,可通过坐标下降(coordinatedescent)的方式求得身份,表情重构系数和旋转缩放平移参数使欧式距离收敛,进而构建出对应人脸的三维构建模型。三维处理模块309利用三维构建模型将人体脸部进行三维化处理,得到三维化的人脸。需要注意的是,该三维化处理后的特定对象没有纹理特征信息。三维处理模块309进一步提取待处理的帧图像中特定对象的图像纹理信息,图像纹理信息记录了待处理的帧图像中特定对象的空间颜色分布和光强分布等信息。三维处理模块309在提取特定对象的图像纹理信息时可以使用如lbp(localbinarypatterns)局部二值模式方法、灰度共生矩阵等方法进行提取。三维处理模块309根据提取到的特定对象的图像纹理信息对三维化处理后的特定对象进行绘制,得到包含了纹理特征的三维化特定对象。
在执行上述模块后,融合模块306将前景图像和风格化处理后的背景图像先进行融合处理,并进行整体的色调处理,以使融合后的图像更加自然。在此基础上,融合模块306加载至少一种动态效果,实现与外部输入源的输入信息相匹配的处理后的帧图像。如输入信息为音乐,动态效果为灯光秀照射效果的灯光照射效果,背景图像为迪厅风格的背景图片,处理后的帧图像整体呈现一种随音乐变化的人物在迪厅中的显示效果。
上传模块310,适于将处理后的视频数据上传至一个或多个云视频平台服务器,以供云视频平台服务器在云视频平台进行展示视频数据。
处理后的视频数据可以保存在本地仅供用户观看,也可以由上传模块310将处理后的视频数据直接上传至一个或多个云视频平台服务器,如爱奇艺、优酷、快视频等云视频平台服务器,以供云视频平台服务器在云视频平台进行展示视频数据。
根据本发明提供的视频数据处理装置,根据提取的至少一个信息要素,生成待加载的至少一种动态效果。将前景图像和风格化处理后的背景图像进行融合处理,调整整体色调,并加载信息要素生成的动态效果,使处理后的视频整体呈现与外部输入源的输入信息相匹配的显示效果。同时,为使加载的动态效果的显示效果更立体化,可以将特定对象进行三维化处理,以使处理后的视频的显示效果更接近真实。本发明可以直接得到处理后的视频,进一步,还可以将处理后的视频数据直接上传至一个或多个云视频平台服务器,以供云视频平台服务器在云视频平台进行展示视频数据。本发明对用户技术水平不做限制,不需要用户手动对视频进行处理,自动实现对视频的处理,大大节省用户时间。
本申请还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的视频数据处理方法。
图5示出了根据本发明一个实施例的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图5所示,该计算设备可以包括:处理器(processor)502、通信接口(communicationsinterface)504、存储器(memory)506、以及通信总线508。
其中:
处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器502,用于执行程序510,具体可以执行上述视频数据处理方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
存储器506,用于存放程序510。存储器506可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行上述任意方法实施例中的视频数据处理方法。程序510中各步骤的具体实现可以参见上述视频数据处理实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的视频数据处理的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。