本发明涉及缩略图生成领域,尤其是涉及了一种采用深度神经网络的缩略图自动生成的方法。
背景技术:
缩略图用于方便地浏览图像集合,经济使用显示空间,并减少传输时间。缩略图是原始图像的较小版本,这意味着其仍可有效描绘原始图像。诸如微信,微博等社交媒体网站,发布的内容来源广泛,但图片均需按固定分辨率显示。微信订阅上一个普通文章就包含数十张图像,若要保证显示效果,其本质上都是较大图像的缩略图。因此,确保每个缩略图能显示原始图像中最有用的信息是非常重要的。由于缩略图无所不在而且手动生成缩略图非常耗时,所以自动生成缩略图有相当的研究意义。
创建缩略图的传统方法是利用显著图来识别图像中可作为优质裁剪的区域来创建缩略图,而最近的方法在实际操作上也需要60秒来产生单个缩略图。
本发明提出了一种采用深度神经网络的缩略图自动生成的方法即FATG(快速自动缩略图生成),采用互联网图片库进行训练,输入原图,设置目标缩略尺寸,采用FATG模型,通过训练学习针对不同的宽高比的不同滤波器。FATG模型采用RPN(区域建议网络)和R-FCN(基于区域的全卷积网络),结合了这两种网络,预测边界框位置确定包含重要信息的图像区域,并在此预测框的中心产生一个宽高比和目标缩略图相等的新边界框,扩展直到触及图片边界即完成重要信息得以保留的基础下生成所需尺寸下的缩略图,使得图片缩略更加精准且实时,方便人们日常浏览和上传图像。
技术实现要素:
针对缩略图生成耗时且易丢失重要信息等问题,本发明的目的在于提供一种采用深度神经网络的缩略图自动生成的方法,使用互联网图片建立数据库进行训练,采用FATG模型,包括RPN(区域建议网络)和R-FCN(基于区域的全卷积网络)预测最优边界框,使得图片缩略更加精准且实时,方便人们日常浏览和上传图像。
为解决上述问题,本发明提供一种利用深度学习快速生成缩略图的方法,其主要内容包括:
(一)数据集训练;
(二)边界框的预测;
(三)输入图像和缩略尺寸对;
(四)模型训练;
(五)快速自动缩略图生成FATG实现。
其中,所述的数据集训练,采用互联网图片建立数据库,称为互联网图片库,其中收集了包括人物、动物、建筑、风景、运动等类别,总数高达100000张图片;对于每张图片,数据集中给出了图片的原图、缩略图,缩略图大小为130*130左右。
其中,所述的边界框的预测,采用深度卷积神经网络学习最优边界框来产生缩略图,包含RPN(区域建议网络)和R-FCN(基于区域的全卷积网络)。
进一步地,所述的RPN(区域建议网络),可使计算时间显著减少,此外通过引入一个由特定类别的位置敏感滤波器组成的卷积层来减少建议特征前向传播的计算成本;
具体来说,若有C类物体要检测,那么这个新的卷积层将产生k2(C+1)个特征图,k2个位置敏感分数图对应于目标的k×k个均匀分割的单元,这k2个特征图对应不同相对位置的空间网格,对于每个类别诸如(左上,...,左下);k=3,则对应于一个3×3的空间网格、以及每个类有9个位置敏感滤波器,每个类(包括背景),将关联k2个特征图,不是通过两个全连接层前向传播,而是正敏感池化后分数平均,生成一个(C+1)-d向量并且用于预测各个类别的softmax结果。
进一步地,所述的R-FCN(基于区域的全卷积网络),其特征在于,通过引入一组特定宽高比的滤波器组来修改R-FCN用于缩略图创建;引入一组A点,宽高比在[0.5,2]的范围内,以恒定因子(几何序列)增长,例如,
此处可求得
最后一个卷积层的滤波器组在R-FCN中被修改成A个对,每一对共具有k2个滤波器,每一对均与集合S中的单个元素相关联,与R-FCN类似,位置敏感池化、计算均值,然后用这两个值产生softmax代表性预测。
进一步地,所述的缩略图生成,其架构应完全卷积,因为包括完全连接层也需要固定的输入尺寸,如果图像的宽高比和固定输入尺寸之间不匹配,图像除了缩放外,还必须裁剪,缩略图裁剪(边界框)可以达到图像的边界甚至延伸到整个图像,所以裁剪图像区域的预处理可能导致次优预测,因为图像的一些部分已被删除。
其中,所述的输入图像和缩略尺寸对,与目标检测不同,此缩略图生成网络接收两个输入:图像和缩略图的宽高比。
其中,所述的模型训练,接收两个输入,分别为图像、缩略图尺寸对,图像通过卷积层前向传播直到最后一个卷积层;计算缩略图的宽高比,从S中挑选出与其值最接近的元素,将这个对关联到训练的要素,忽略其他部分;这个对,接收建议,然后与目标检测类似,基于它们和真实数据的交集(IoU),将正/负标签分配给建议;
具体来说,如果IoU≥0.5即标为正,否则为负,类似地,A个特定宽高比的回归器被训练,与S中的每个元素一一对应;这些类似于特定类的回归器。
进一步地,对于给定的建议,采用以下损失函数:
其中li是ignore=0或factor-in=1,即
s*是由第i个对预测所得的代表性得分,s*是真实数据标签,Lcls是交叉熵损失函数;lambda是回归损失的权重,设为1;除了最近的宽高比外,回归损失都为0;对于与最近宽高比对应的滤波器,Lreg是平滑L1损耗,ti是第i个回归器所做的边界框预测,t*是真实边界框;
因为每个回归器负责一定范围内的输入的缩略图大小,所以测试时间里所有回归器做出的预测可具有不同于目标缩略图的宽高比,因此输出边界框必须被矫正到具有和目标缩略图相等的宽高比,以消除缩小时任何可能的变形;我们采用一种简单的方法,将一个宽高比和目标缩略图相等的新边界框放置在预测框的中心,并扩展它,直到触及边界,而由于预测框的宽高比已经很接近缩略图,所以矫正框和预测框之间的差别不明显。
其中,所述的快速自动缩略图生成FATG实现,是在一个端到端的学习框架下,基于Resnet-101网络,学习率为0.001,动量为0.9,权重衰减为0.0005,采用近似联合训练,学习针对不同的宽高比的不同滤波器,在推理过程中,根据目标缩略图的尺寸选择合适的滤波器对,产生最优边界框,在保证重要信息得到保留的情况下,快速实现缩略图的自动生成。
附图说明
图1是本发明一种采用深度神经网络的缩略图自动生成的方法的系统流程图。
图2是本发明一种采用深度神经网络的缩略图自动生成的方法的互联网图片库。
图3是本发明一种采用深度神经网络的缩略图自动生成的方法的输入图像定位搜索的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种采用深度神经网络的缩略图自动生成的方法的系统流程图。主要包括数据集训练;边界框的预测;输入图像和缩略尺寸对;模型训练;快速自动缩略图生成FATG实现。
其中,所述的数据集训练,采用互联网图片建立数据库,称为互联网图片库,其中收集了包括人物、动物、建筑、风景、运动等类别,总数高达100000张图片;对于每张图片,数据集中给出了图片的原图、缩略图,缩略图大小为130*130左右。
其中,所述的边界框的预测,采用深度卷积神经网络学习最优边界框来产生缩略图,包含RPN(区域建议网络)和R-FCN(基于区域的全卷积网络)。
进一步地,所述的RPN(区域建议网络),可使计算时间显著减少,此外通过引入一个由特定类别的位置敏感滤波器组成的卷积层来减少建议特征前向传播的计算成本;
具体来说,若有C类物体要检测,那么这个新的卷积层将产生k2(C+1)个特征图,k2个位置敏感分数图对应于目标的k×k个均匀分割的单元,这k2个特征图对应不同相对位置的空间网格,对于每个类别诸如(左上,...,左下);k=3,则对应于一个3×3的空间网格、以及每个类有9个位置敏感滤波器,每个类(包括背景),将关联k2个特征图,不是通过两个全连接层前向传播,而是正敏感池化后分数平均,生成一个(C+1)-d向量并且用于预测各个类别的softmax结果。
进一步地,所述的R-FCN(基于区域的全卷积网络),其特征在于,通过引入一组特定宽高比的滤波器组来修改R-FCN用于缩略图创建;引入一组A点,宽高比在[0.5,2]的范围内,以恒定因子(几何序列)增长,例如,
此处可求得
最后一个卷积层的滤波器组在R-FCN中被修改成A个对,每一对共具有k2个滤波器,每一对均与集合S中的单个元素相关联,与R-FCN类似,位置敏感池化、计算均值,然后用这两个值产生softmax代表性预测。
进一步地,所述的缩略图生成,其架构应完全卷积,因为包括完全连接层也需要固定的输入尺寸,如果图像的宽高比和固定输入尺寸之间不匹配,图像除了缩放外,还必须裁剪,缩略图裁剪(边界框)可以达到图像的边界甚至延伸到整个图像,所以裁剪图像区域的预处理可能导致次优预测,因为图像的一些部分已被删除。
其中,所述的输入图像和缩略尺寸对,与目标检测不同,此缩略图生成网络接收两个输入:图像和缩略图的宽高比。
其中,所述的模型训练,接收两个输入,分别为图像、缩略图尺寸对,图像通过卷积层前向传播直到最后一个卷积层;计算缩略图的宽高比,从S中挑选出与其值最接近的元素,将这个对关联到训练的要素,忽略其他部分;这个对,接收建议,然后与目标检测类似,基于它们和真实数据的交集(IoU),将正/负标签分配给建议;
具体来说,如果IoU≥0.5即标为正,否则为负,类似地,A个特定宽高比的回归器被训练,与S中的每个元素一一对应;这些类似于特定类的回归器。
进一步地,对于给定的建议,采用以下损失函数:
其中li是ignore=0或factor-in=1,即
s*是由第i个对预测所得的代表性得分,s*是真实数据标签,Lcls是交叉熵损失函数;lambda是回归损失的权重,设为1;除了最近的宽高比外,回归损失都为0;对于与最近宽高比对应的滤波器,Lreg是平滑L1损耗,ti是第i个回归器所做的边界框预测,t*是真实边界框;
因为每个回归器负责一定范围内的输入的缩略图大小,所以测试时间里所有回归器做出的预测可具有不同于目标缩略图的宽高比,因此输出边界框必须被矫正到具有和目标缩略图相等的宽高比,以消除缩小时任何可能的变形;我们采用一种简单的方法,将一个宽高比和目标缩略图相等的新边界框放置在预测框的中心,并扩展它,直到触及边界,而由于预测框的宽高比已经很接近缩略图,所以矫正框和预测框之间的差别不明显。
其中,所述的快速自动缩略图生成FATG实现,是在一个端到端的学习框架下,基于Resnet-101网络,学习率为0.001,动量为0.9,权重衰减为0.0005,采用近似联合训练,学习针对不同的宽高比的不同滤波器,在推理过程中,根据目标缩略图的尺寸选择合适的滤波器对,产生最优边界框,在保证重要信息得到保留的情况下,快速实现缩略图的自动生成。
图2是本发明一种采用深度神经网络的缩略图自动生成的方法的数据库。采用互联网图片建立数据库,称为互联网图片库,其中收集了包括人物、动物、建筑、风景、运动等类别,总数高达100000张图片;对于每张图片,数据集中给出了图片的原图、缩略图,缩略图大小为130*130左右。
图3是本发明一种采用深度神经网络的缩略图自动生成的方法的流程图。在生成缩略图时,输入原图和目标缩略尺寸,采用FATG模型,结合RPN(区域建议网络)和R-FCN(基于区域的全卷积网络)两种网络,预测边界框位置确定包含重要信息的图像区域,并在此预测框的中心产生一个宽高比和目标缩略图相等的新边界框,扩展直到触及图片边界即生成所需尺寸的缩略图,使得图片缩略更加精准且实时,方便人们日常浏览和上传图像。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。