本发明属于图像处理技术领域,尤其涉及一种基于非监督深度学习的图像标注系统及标注方法。
[
背景技术:
]
深度神经网络的训练大多是有监督的,需要大量的带有标签的训练样本进行训练。目前有监督训练神经网络的训练数据主要来自于手工标注,不过,手工标注需要耗费巨大的人力物力,而web2.0和移动网络技术的迅速发展和普及,为互联网带来了海量的图像和视频数据。这些数据蕴含着大量的语义信息,诸如物体、场景、人类活动行为等。海量多媒体数据的冲击和其蕴含信息的多样性充分发挥了深度神经网络的潜力,让现代的深度网络可以在不同类数据支撑下完成各种智能任务。
半监督学习(semi-supervisedlearning,ssl)按照统计学习理论的角度包括直推(transductive)ssl和归纳(inductive)ssl两类模式。直推ssl只处理样本空间内给定的训练数据,利用训练数据中有类标签的样本和无类标签的样例进行训练,预测训练数据中无类标签的样例的类标签;归纳ssl处理整个样本空间中所有给定和未知的样例,同时利用训练数据中有类标签的样本和无类标签的样例,以及未知的测试样例一起进行训练,不仅预测训练数据中无类标签的样例的类标签,更主要的是预测未知的测试样例的类标签。
通过在同一个深度学习神经网络中融合监督学习算法与半监督学习算法,使用非监督学习作为预训练,主要是为了学习抽象出共同的数据特点,通过反向传播算法训练监督学习和非监督学习的损失函数,并且不需要逐层做预训练完全可以在经典公开数据集上取得较好的效果。
[
技术实现要素:
]
本发明提供了一种基于非监督深度学习的图像标注系统及标注方法,旨在针对在海量数据条件下的大规模图像和视频标注;
本发明一方面提供了一种基于非监督深度学习图像标注系统,所述图像包括图片与视频,其特征在于,该系统是基于全卷积神经网络的图像标注系统,所述全卷积网络包括:4个密集连接模块与3个特征融合模块。
进一步地,该标注系统所述4个密集连接模块分别为第1个密集连接模块、第2个密集连接模块、第3个密集连接模块、第4个密集连接模块;所述的第1个密集连接模块由6对1x1与3x3卷积核所构成卷积层组成,所述的第2个密集连接模块由12对1x1与3x3卷积核所构成卷积层组成,所述的第3个密集连接模块由32对1x1与3x3卷积核所构成卷积层组成,所述的第4个密集连接模块由32对1x1与3x3卷积核所构成卷积层组成,所述的特征融合模块由一个1x1的卷积核与平均池化层作为下采样组组成。
另一方面本发明还提供一种上述基于非监督深度学习的图像标注方法,具体标注方法包括:
步骤1,预先训练卷积神经网络(cnn)模型;
步骤2,深度特征提取;
步骤3,聚类打标签;
步骤4,基于海林格矩阵加权得到距离;
步骤5,迭代下一轮;
该方法通过全卷积网络输出的向量进行聚类打标签,并计算海林格距离加权挑选可靠样本再反复迭代优化。
该图像标注方法还融合人工标注,所述融合人工标注包括:通过主动引入额外的人工标注的困难样本,增加模型的鲁棒性,基于主动学习选择可靠样本解决了自步学习中经常出现的漂移问题。
进一步地,在向量进行步骤3之前还将图像进行压缩,具体包括:将图像输入所述的全卷积网络,得到压缩后的特征向量;所述获取压缩后的特征向量的步骤包括:将图像输入4个密集连接模块与3个特征融合模块,再通过全局平均池化与全连接层进行特征向量提取。
进一步地,所述聚类打标签包括:通过全卷积网络输出特征向量后通过计算向量与以标注数据的距离选择最近的数据的标签作为自身类别。
进一步地,所述计算海林格距离加权包括:基于具体标签标注假设关联的局部近邻离散海灵格距离。
进一步地,所述主动引入额外的人工标注包括:通过全卷积网络学习过程发现网络难以学习的样本,并进行手动标注,再进行监督学习增加模型的鲁棒性。
相较于先前的半监督深度学习训练方法,训练方式不依赖于任何先验知识,但更重要的是,这种训练方式跟之前加上语义先验的半监督训练方法并不矛盾,训练方法既可以融合基于先验信息的半监督训练技巧,进一步提升模型性能;也可以结合现有的强标签半监督深度学习方法,深化到各种高级语义任务中。模型训练过程是一个动态的子集选取过程,并不排斥新加入的数据。而更新数据能够保证我们系统训练出来的模型具有很好的适应性和时效性。
[附图说明]
图1是本发明实施例提供的一种基于非监督深度学习的图像标注算法的流程示意图;
图2是本发明实施例提供的一种基于非监督深度学习的图像标注算法的实现过程示意图;
图3是本发明实施例提供的一种基于非监督深度学习的图像标注算法的模块示意图;
[具体实施方式]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施仅仅用以解释本发明,并不用于限定本发明。
由于现有技术中存在对大量数据标注的高人力成本、效率低下与不能有效利用海量数据问题。
为了解决上述技术问题,本发明提出一种基于非监督深度学习的图像标注系统及标注方法,利用本发明提供的全卷积神经网络提取关键特征并自动标注海量数据条件下的大规模图像和视频,从而减少人力成本提高标注效率。
如图2所示的标注方法过程示意图以及模块示意图,所述标注方法包括:将海量视频与图像压缩为一维的向量,通过所述全卷积神经网络进行提取,得到256维压缩后向量;该步骤实现特征提取。所述视频在输入网络前提取关键帧后输入网络,图像统一转换成网络需要的输入大小;然后通过得到的256维向量进行聚类做标签传递;所述标签传递用于为未知图像打上标注;将所述打上标签后的256维向量分别计算海林格距离;所述海林格距离是基于256维向量附近关于标签的近邻情况;进一步地,利用海林格距离矩阵加权;将所述图像和标签中挑选可靠的样本;最后,以增量的方式更新模型参数,进行下一次迭代更新。
下面具体实施例进行说明:
如图1所示,为本发明实施例提供了一种基于非监督深度学习的图像标注算法,所述全卷积神经网络包括9个模块、169层,其中第1个密集连接模块由6对1x1与3x3的卷积核所构成卷积层组成,第个2密集连接模块由12对1x1与3x3的卷积核所构成卷积层组成,第3个密集连接模块由32对1x1与3x3的卷积核所构成卷积层组成,第4个密集连接模块由32对1x1与3x3的卷积核所构成卷积层组成,第1个特征融合层由一个1x1卷积层与一个平均池化层作为下采样组成组成,全连接层由256个神经元组成。
步骤s101,将图像输入全卷积神经网络的第1个密集连接模块得到96个特征图;
具体地,在第1个密集连接模块中,每一层都使用batchnormalization与relu作为激活函数,6对1x1卷积核构成的卷积层起到融合特征层的作用,6对3x3卷积核构成的卷积层的输入是前面所有层输出拼接后的特征图,特征图增长率为32。
步骤s102,将得到的96个特征图输入到第一个特征融合模块得到48个特征图;
具体地,在第1个特征融合模块中,使用1x1卷积核构成的卷积层融合输入的特征图,衰减率为0.5,使用步长为2的平均池化层作为下采样,缩小特征图。
步骤s103,将48个特征图输入全卷积神经网络的第2个密集连接模块得到196个特征图;
具体地,在第2个密集连接模块中,每一层都使用batchnormalization与relu作为激活函数,12对1x1卷积核构成的卷积层起到融合特征层的作用,12对3x3卷积核构成的卷积层的输入是前面所有层输出拼接后的特征图,特征图增长率为32。
步骤s104,将得到的196个特征图输入到第2个特征融合模块得到96个特征图;
具体地,在第2个特征融合模块中,使用1x1卷积层融合输入的特征图,衰减率为0.5,使用步长为2的平均池化层作为下采样,缩小特征图。
步骤s105,将96个特征图输入全卷积神经网络的第3个密集连接模块得到384个特征图;
具体地,在第3个密集连接模块中,每一层都使用batchnormalization与relu作为激活函数,32对1x1卷积核构成的卷积层起到融合特征层的作用,32对3x3卷积核构成的卷积层的输入是前面所有层输出拼接后的特征图,特征图增长率为32。
步骤s106,将得到的384个特征图输入到第3个特征融合模块得到192个特征图;
具体地,在第3个特征融合模块中,使用1x1卷积层融合输入的特征图,衰减率为0.5,使用步长为2的平均池化层作为下采样,缩小特征图。
步骤s107,将192个特征图输入全卷积神经网络的第4个密集连接模块得到384个特征图;
具体地,在第4个密集连接模块中,每一层都使用batchnormalization与relu作为激活函数,32对1x1卷积核构成的卷积层起到融合特征层的作用,32对3x3卷积核构成的卷积层的输入是前面所有层输出拼接后的特征图,特征图增长率为32。
步骤s108,将384个特征图输入全局平均池化层,得到一个384维的向量。
步骤s109,将384维的向量输入一个256维的全连接层,得到一个256维的向量。
步骤s110,通过256维向量与其他已压缩维256维向量的数据做聚类并打上标签;
具体地,所述聚类方法使用kmeans算法,取与全卷积神经网络输出的向量距离最近的标签作为网络输入图像的标签,具体结合图2所示做标签传递。通过视频在输入网络前提取关键帧后输入网络,图像统一转换成网络需要的输入大小;进而通过得到的256维向量进行聚类做标签传递;所述标签传递用于为未知图像打上标注。
步骤s111,计算海林格距离矩阵并加权;
具体地,所述海林格距离矩阵更关注基于某点附近标签的近邻情况,同时虑该数据点对该近邻情况的影响。
步骤s112,挑选可靠度高的图片作为新的已标注数据。
步骤s113,通过优化器优化全卷积神经网络,并反复迭代;
具体地,将标注数据与一些手工标注的难样本一起放入网络训练,使用随机梯度下降法优化全卷积神经网络,具体结合图2所示形成一个闭环的自学习系统。
如图3所示基于非监督深度学习的图像标注算法的模块示意图;可以分为4个模块:特征提取模块,聚类模块,标注模块以及反向传播模块。
本发明实施例提供的基于非监督深度学习图像标注系统,利用了全卷积神经网络可以有效的提取图像关键性特征的能力,结合无监督聚类方法与海林格距离为未标注数据打上可靠的标签,并通过优化器优化模型,形成一个良性闭环系统,训练方式可以不依赖于任何先验知识,并融合基于先验信息的半监督技巧,进一步提升模型性能,具有良好的模型扩展性,适用于海量数据条件下的数据标注,降低人力成本提高数据的利用率。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。