本发明涉及计算机视觉技术领域,具体涉及一种基于多模态卷积神经网络的视频检索方法。
背景技术:
随着网络技术、计算机技术、采集硬件技术等的飞速发展,视频数据已经被广泛用于教育、文化、娱乐、商务等领域,每年都有海量的视频数据内容被采集、录制或者制作出来,视频数据量呈现几何级的爆炸式增长。
在文化遗产领域特别是非文化遗产领域,每年都有大量非文化遗产的视频被录制,而这些视频的出现,给视频传播以及视频共享带来很大的问题,比如是否需要重新录制某一个非文化遗产的视频,同时由于视频数据量过大导致视频无法共享,进而对视频的传播和复制带来诸多问题,例如,视频盗版等给版权所有者带来了极大的损失。
如何在海量视频数据库中快速准确地检索到相似或者近似的视频数据片段,已成为多媒体视频内容分析以及检索研究的一个非常重要的热点问题,也是非文化遗产领域的一个重要的应用领域问题。传统的人工搜索视频数据的方式远远不能够满足实际应用的需要,目前基于内容(content based video retrieval,CBVR)的视频检索技术已经成为国内外视频检索领域的研究热点之一,但是由于视频数据内容的丰富性、分辨率的多样性、题材的复杂性,以及人们对视频数据内容评价的主观性,使得从视频数据内容中提取的底层本质视觉特征与用户本身对视频数据内容的理解差异导致“语义鸿沟”。
文献[DOUZE M,JEGOUH,SCHMID C.An image based approach to video copy detection with spatiotemporal post filtering[J].IEEE Transactions on Multimedia,2010,12(4):257—266.]提出帧匹配算法,利用局部特征进行检索。
文献[ZHUANG Xin-yue,JIA Kebin.An effective video matching algorithm for adaptive video fingerprints[C]∥Nonlinear Signal and Image Processing,IEEE Eurasip.Sapporo:IEEE,2005:33.]提出了一种基于视频数据指纹的视频数据的检索算法,通过分析提取视频数据的指纹,然后利用指纹的相似性匹配来对视频数据进行相似性判断,并用于检索。
文献[ROOPALAKSHMIA R,REDDYA G.A novel approach to video copy detection using audio fingerprints and PCA[J].Procedia Computer Science,2011,5:149-156.]提出了一种基于视频中音频数据指纹的视频数据检索算法,通过分析和提取音频特征,然后利用主成分分析(principal components analysis,PCA)提取主要特征(作为音频指纹)进行视频检索。
文献[MIN Hyun-seok,CHOI Jaeyoung,NEVE Wesleyde,eta.Leveraging an image folksonomy and the signature quadratic form distance for semantic-based detection of near duplicate video clips[C]//2011IEEE International Conference on Multimedia and Expo.Barcelona:IEEE,2011:16.]提出了一种基于视频语义的视频数据检索方法,利用视频图像分类提取高层的语义。
上述方法都取得了一定的成效,但是也都存在一些问题,比如算法复杂度高、计算量巨大、视频数据的特征分析难度大等。如何有效减少检索算法的计算量从而有效降低算法的时间复杂度,与此同时提高算法的检索准确度是目前主要需要解决的问题。
技术实现要素:
本发明提供了一种基于多模态卷积神经网络的视频检索方法,基于多模态卷积神经网络,同时充分考虑视频的本质特征,能够克服因为视频亮度模糊、亮度整体漂移、再编辑视频等导致检索准确度不高的问题。
一种基于多模态卷积神经网络的视频检索方法,包括:
步骤1,针对视频数据库中的视频,利用各视频中相邻帧的色彩信息特征,将各视频分割为多个子视频片段;
步骤2,提取每个子视频片段的关键帧;
步骤3,针对视频数据库中的视频,通过构建标准的受限玻尔兹曼机网络模型,提取视频的视频特征;
步骤4,将子视频片段、关键帧和视频特征作为输入,对标准卷积神经网络模型进行训练,得到多模态卷积神经网络;
步骤5,针对待检索视频,采用步骤1~步骤3的方法进行关键帧提取和视频特征提取,并将子视频片段,以及提取到的关键帧和视频特征作为输入,利用步骤4的多模态卷积神经网络进行相似性判断,得到检索结果。
本发明提供的基于多模态卷积神经网络的视频检索方法,首先利用视频数据库中的已有视频训练标准卷积神经网络,得到多模态卷积神经网络,然后,将待检索视频的关键帧以及视频特征作为输入,检索到相应的视频。
训练标准卷积神经网络时,以子视频片段、关键帧、视频特征作为输入,充分考虑了视频的本质特性,使视频检索的准确度大大提高。
本发明利用子视频片段、关键帧、视频特征等多模态数据训练多模态卷积神经网络,同时在视频检索时也是利用子视频片段、关键帧、视频特征等多模态数据作为多模态卷积神经网络的输入数据,视频检索时综合考虑了子视频片段、关键帧、视频特征等方面的信息,检索准确率大大提高。
作为优选,步骤1的具体操作如下:
步骤a),将视频的颜色空间转换为HIS颜色空间;
步骤b),将视频中的任意一帧分割为若干大小相同的子区域;
步骤c),计算每个子区域中,所有像素点的色调之和、亮度之和、以及饱和度之和;
步骤d),计算每个子区域的色调平均值、亮度平均值、以及饱和度平均值;
步骤e),计算每帧视频中,所有子区域的色调平均值、亮度平均值、以及饱和度平均值之和,记为CHSI;
步骤f),计算相邻两帧的CHSI差值,若差值小于第一阈值,则将两帧划分至同一个子视频片段,否则,划分至不同的子视频片段。
作为优选,步骤2的具体操作如下:
步骤A,针对子视频片段,依据设定的时间间隔选取至少五帧图像作为备选关键帧;
步骤B、计算任意两个备选关键帧的图像距离;
若所有图像距离均小于第二阈值,则选取时间上处于中间位置的视频帧作为关键帧;
若所有图像距离均大于第二阈值,则所有备选关键帧均作为关键帧;
否则,选取图像距离最大的两个备选关键帧作为关键帧。
第一阈值和第二阈值的大小根据需要进行选定。
作为优选,步骤3采用无监督学习的方法构建标准的受限玻尔兹曼机网络模型,利用标准的受限玻尔兹曼机网络模型中隐藏层单元激活与非激活状态对应的平均值、方差和响应次数,提取隐藏层中激活值大且激活概率高的单元作为视频特征。
本发明提供的视频检索方法充分考虑了视频的各种本质特性,利用深度学习的方法进行训练,使得视频检索的准确度大大提高,对视频模糊、视频亮度整体漂移以及视频再编辑(如裁剪、拼接、慢放快进等都会导致同一段视频内容具有时间跨度不同的问题)等特殊情况具有很好的检索效果。
附图说明
图1为本发明基于多模态卷积神经网络的视频检索方法的流程图。
具体实施方式
下面结合附图,对本发明基于多模态卷积神经网络的视频检索方法做详细描述。
如图1所示,一种基于多模态卷积神经网络的视频检索方法,主要包括以下步骤:
(1)视频分段:利用视频片段相邻帧之间的HIS(色调Hue,亮度Intensity,饱和度Saturation)的色彩信息特征将视频片段分割成多个子视频片段。
本步骤取HIS视频图像色彩信息中的色调H、亮度I和饱和度S作为视频分割的特征依据,具体的视频片段分割方法如下:
步骤a),首先将视频图像的RGB颜色空间转换成HIS颜色空间,具体的转换方法和公式见文献[顾波,邱道尹,梁祥州.基于彩色转换的水果分类系统设计[J].农机化研究.2007,5(5):105-107.];
步骤b),将视频片段中的任意一帧分割为若干子区域,子区域的大小为32×32;
步骤c),针对视频片段中任意一帧的每一个子区域,计算该子区域中所有像素点的色调H、亮度I和饱和度S之和;
步骤d),分别算出每个子区域的色调H、亮度I和饱和度S的平均值,计算的公式如下:
Hi,j,a=Hi,a/m;
Si,j,a=Si,a/m;
Ii,j,a=Ii,a/m;
其中,Hi,a表示第i帧第j个子区域中所有像素点的色调H之和;
Si,a表示第i帧第j个子区域中所有像素点的饱和度S之和;
Ii,a表示第i帧第j个子区域中所有像素点的亮度I之和;
Hi,j,a表示第i帧第j个子区域的色调H的平均值;
Si,j,a表示第i帧第j个子区域的饱和度S的平均值;
Ii,j,a表示第i帧第j个子区域的亮度I的平均值;
m表示第i帧第j个子区域的像素个数。
步骤e),计算第i帧中所有子区域的色调H、亮度I和饱和度S的平均值的和Ci,HSI,公式如下:
Ci,HSI=Hi,1,a+Si,1,a+Ii,1,a+…+Hi,1024,a+Si,1024,a+Ii,1024,a
步骤1-f、计算视频片段中的每一帧与下一相邻的视频帧的帧间数值差C′,计算帧间数值差采用如下公式计算:
C′=Ci,HSI-Ci+1,HSI
Ci+1,HSI为第i+1帧中所有子区域的色调H、亮度I和饱和度S的平均值之和。
若帧间数值差C′比预定的阈值小,则认为这两帧差异不大,将其划分到同一个子视频片段;若帧间数值差C′等于或大于预定的阈值,则认为这两帧差异较大,划分到不同的子视频片段。
(2)特征提取:利用视频数据库中的已有视频作为训练样本,通过无监督学习,构建一个标准的受限玻尔兹曼机网络模型。
首先,将预训练的标准的受限玻尔兹曼机模型隐藏层分为两个小组,一个小组对应视频数据的前景内容,另一个小组对应视频数据的背景内容,然后以混合结构的玻尔兹曼机模型对输入视频数据的前景内容和背景内容分别构建模型和训练学习。当标准的受限玻尔兹曼机网络模型预先学习训练以后,混合结构的玻尔兹曼机模型就包含视频目标潜在特征的隐藏层单元。由于视频目标特征在学习训练时出现的概率总是高于背景内容噪声,因此该标准的受限玻尔兹曼机网络模型对应的隐藏层单元的激活值(概率值)就大,且激活的次数较多。
本发明利用标准的受限玻尔兹曼机网络模型的隐藏层单元激活与非激活状态分别对应的平均值、方差和响应次数,提取模型隐藏层中激活值大且概率高的单元,并把该单元作为视频目标的特征单元。
(3)关键帧分析:针对每个子视频片段进行关键帧提取;
根据各子视频片段的不同特点,关键帧提取算法自动地提取1~5帧视频图像作为关键帧。假设用f表示1帧图像,P={fn,n=1,2,3,…,M}表示具有M帧图像的1个子视频片段,首先选取f1,fM/5,f2M/5,f3M/5,fM图像帧作为备选的视频关键帧。定义两帧视频图像和fj间的距离为
D(fi,fj)=∑x,y|fi(x,y)-fj(x,y)|
其中fi(x,y),fj(x,y)分别是第i帧和第j帧的坐标为(x,y)的像素颜色值。
分别计算上面五个备选的视频关键帧之间的距离D,根据预先设定的阈值,按如下原则遴选关键帧:
a)如果所有的距离都比阈值小,此时选取最中间的视频帧为关键帧;
b)如果所有的距离都比阈值大,将上述五个视频帧都作为关键帧;
c)在其它情况下,选取距离最大的两帧视频图像为关键帧。
(4)多模态卷积神经网络训练:将视频片段、关键帧、视频片段特征作为输入,对标准卷积神经网络进行训练,得到一个多模态卷积神经网络模型。
将原始视频图像进行处理后(即进行视频分段、关键帧提取、以及特征提取处理后),需要对原始视频图像和处理后的视频图像所构成的多模态视频图像分别进行区域划分。多模态卷积神经网络用于区域划分时,一般是基于图像包(patch)的区域划分,即多模态卷积神经网络的输入是一个图像包(patch),输出是该视频图像包(patch)的中心点类别,通过滑动取包(patch)的方式完成整个图像的区域全覆盖。
本发明采用平行的卷积神经网络对输入视频数据进行处理,每个卷积神经网络都采用标准的结构,分为6层神经网络,主要包括输入层、卷积层、采样层、卷积层、降采样层、卷积层、分类层和输出层。卷积神经网络的输入为32*32大小的包,经过第一层卷积层卷积,得到16个特征图像。
本发明采用16个大小为8*8的卷积核卷积,因此卷积后的图像大小为32*32。卷积层的输出经过2*2的平均采样,得到16个16*16的特征图像,采用池化pooling层,可减少数据大小,同时可以提高处理效率,池化操作能够提高整个卷积神经网络的空间不变性。
本发明使用的卷积神经网络都采用相同的模型结构,因此所有的卷积神经网络都使用完全相同的模型参数来初始化,模型参数的初始化包括卷积核的初始化和分类层的初始化。所有的网络卷积核初始化为高斯分布N(0,0.3),分类层初始化为高斯分布N(0,0.15)。此外,所有的偏置参数设置为零。
本发明采用随机梯度下降算法(SGD)进行学习训练。由于视频图像经过不同的加工处理后,经由卷积神经网络区域化,会得到多个不同的结果,因此需要把这些不同的结果进行综合,得到一个最终的结果。本发明将各种不同的结果进行线性组合,具体的每种结果的权重可以根据经验选取。
(5)视频检索:将待检索的视频分割为多个子视频片段,对各子视频片段进行视频特征提取以及关键帧提取,将子视频片段,以及提取到的视频特征和关键帧作为输入,利用已经训练好的多模态卷积神经网络模型进行相似性判断,最后得到最终检索的视频。