一种针对相同及相似图片去重的图像数据清洗方法与流程

文档序号:13207756阅读:2401来源:国知局

本发明属于图像处理清洗领域,特别是涉及一种针对相同及相似图片去重的图像数据清洗方法。



背景技术:

图像数据是互联网数据中最重要的组成元素之一,它可以更逼真地记录更多细节内容。但是,从网络海量数据中得到的图片数据,往往包含有很多相似甚至完全相同的内容,这些冗余的图像数据占据了额外的存储空间,并且使图片的处理过程变得重复和繁琐,降低整体工作效率。所以,需要对网络中得到的图像数据进行清洗,找到其中彼此相同或者高度相似的图片,完成去重任务。

针对图像数据中相似或者相同图片的筛选,目前经常采用的方法有下面几种:

(1)人工检测

人工检测的方法是最原始的图片筛选方法,该方法的优点就是精度高,缺点是该方法需要的人力成本大,检测速度慢,标准存在差异,面对海量的互联网图片数据,效果并不理想。

(2)md5匹配

利用图片的md5值进行相同图片的查找,能够精准的从海量网络图片中找到彼此相同的数据,而且速度比较快。而这种方法的缺点是:只能从网络中的海量数据中筛选出md5值完全相同的图片,只要两张图片间存在一点差异,基于md5的筛选方法就不能生效,所以,md5不能完成对相似图片的清洗工作。

以上的针对冗余图像数据的清洗方法都不能同时满足对网络数据中相同和相似图片进行筛选时速度快,精度高而且召回率高的要求。所以,研究一种能够快速、准确的实现相同以及相似图片的清洗技术具有重要的研究价值和应用前景。



技术实现要素:

本发明要解决的技术问题:本发明针对现有对于冗余图像数据的清洗方法中存在的问题,提出了一种用于相同相似图片去重的数据清洗方法。该方法基于现有的图像处理程序库,能够处理多种图片格式。针对现有关于冗余图像清理方法中存在的局限性问题,本发明在对图片进行特征值计算时将会根据图片的局部特征生成多个局部特征值,并将局部特征值整合在一起作为整个图片最终的特征值。

本发明的技术方案:一种针对相同及相似图片去重的图像数据清洗方法,包含图像预处理模块和相似图像去重模块;所述图像预处理模块包括图像数据集合、生成路径文件和生成特征文件;所述相似图像去重模块包括图象特征相似度计算、相似判别和去重;

所述一种针对相同及相似图片去重的图像数据清洗方法还包含如下步骤:

(1)遍历待检测设备中的所有图像数据,生成图像数据集合;

(2)根据所述图像数据集合的路径信息生成路径文件;

(3)根据所述路径文件,依次读取每张图片,对每张图片进行特定值处理,生成特征文件,并将所有图片的特征文件存入内存或文件;

(4)读取保存有所有图片的特征文件的内存或文件,对所有的特征文件进行图像特征相似度计算,根据计算结果进行相似判别,判别图像是否属相同或相似,并将相似和相同的图片找出并完成去重,最后输出清洗后的图像数据集合。

进一步的,所述步骤(3)中所述特定值处理还包括如下步骤:

a.将图片转换为灰度图像;

b.将所述灰度图像划分为若干个相同大小的块,对图像的大小进行调整,将每个块缩小为一个像素点;

c.计算压缩后所有像素点的均值;

d.将每个压缩像素值与均值作比较,根据与均值的大小关系对压缩像素值做二值化处理;

e.将二值化后的压缩像素值作为图像特征值写入文件,图像路径和图像特征值逐行写入,即奇数行存储图像路径,偶数行存储对应的图像特征值。

进一步的,所述步骤(4)中所述图像特征相似度计算的方法还包括:设定一个阈值,对所有图像数据的特征值进行海明距离的计算,若海明距离小于或等于这个阈值,则认为两图片相似,予以去重处理。

本发明与现有技术相比的有益效果:本发明在对图片生成特征值的时候考虑了图片的局部性因素,并对图片的局部特征值与全局平均值作比较得出最终的二值化图片特征,这样得出的图片特征值能够很好的保留图片的局部特征信息,同时也很好的保留了每个局部块之间的关系,即使图片在局部发生改变、或者整体对比度亮度发生一定程度的改变,其与原图片之间具有的高度相似性都会被发现,因此该方法在很大程度上提高了对图像数据中相似图片去重的效率和精度。

附图说明

图1是本发明的图像数据清洗方法流程图。

具体实施方式

为了加深本发明的理解,下面我们将结合附图对本发明作进一步详述,该实施例仅用于解释本发明,并不构成对本发明保护范围的限定。

如图1示出了本发明一种针对相同及相似图片去重的图像数据清洗方法,包含图像预处理模块s1和相似图像去重模块s2;图像预处理模块s1包括图像数据集合101、生成路径文件102和生成特征文件103;相似图像去重模块s2包括图象特征相似度计算200、相似判别201和去重202;

一种针对相同及相似图片去重的图像数据清洗方法还包含如下步骤:

(1)遍历待检测设备100中的所有图像数据,生成图像数据集合101;

(2)根据图像数据集合101的路径信息生成路径文件102;

(3)根据路径文件102,依次读取每张图片,对每张图片进行特定值处理,生成特征文件103,并将所有图片的特征文件103存入内存或文件;

(4)读取保存有所有图片的特征文件的内存或文件,对所有的特征文件进行图像特征相似度计算200,根据计算结果进行相似判别201,判别图像是否属相同或相似,并将相似和相同的图片找出并完成去重202,最后输出清洗后的图像数据集合s3。

在本实施例中,步骤(3)中特定值处理还包括如下步骤:

a.将图片转换为灰度图像;

b.将灰度图像划分为若干个相同大小的块,对图像的大小进行调整,将每个块缩小为一个像素点;

c.计算压缩后所有像素点的均值;

d.将每个压缩像素值与均值作比较,根据与均值的大小关系对压缩像素值做二值化处理;

e.将二值化后的压缩像素值作为图像特征值写入文件,图像路径和图像特征值逐行写入,即奇数行存储图像路径,偶数行存储对应的图像特征值。

在本实施例中,步骤(4)中图像特征相似度计算200的方法还包括:设定一个阈值,对所有图像数据的特征值进行海明距离的计算,若海明距离小于或等于这个阈值,则认为两图片相似,予以去重202处理。

本发明的工作原理:一种用于相同及相似图片去重的图像数据清洗技术主要由两个模块构成:图像预处理模块s1和相似图像去重模块s2;下面结合实例分别说明每个模块的功能。

(1)图像预处理模块s1

本模块数据的预处理过程主要包括待检测设备100中全部图像生成路径文件102以及全部图像生成特征文件103两部分。

具体的,待检测设备100中有4个文件夹,共有md5值不重复实网数据图像244774张图片。

第一步,算法遍历四个文件夹,将每个文件夹中的图片路径读取出来,写入到路径文件path.txt中,路径文件中的每一行代表一张图片数据的路径。生成了全部图像的路径文件之后,第二步算法访问路径文件path.txt,根据路径依次读取每一张图片,对每一张图片计算特征值,计算特征值的具体流程如下:

a读取一张图像;

b将图像转换为灰度图像;

c将图像划分为256个相同大小的块,对图像的大小进行压缩操作,将每个块缩小为一个像素点;

d计算压缩后所有像素点的均值;

e将每个压缩像素值与均值作比较,根据与均值的大小关系对压缩像素值做二值化处理。如果压缩像素值大于等于均值,该值置为1,否则,置为0;

f二值化后的256位二进制码作为一张图片的特征值。

生成特征值之后,将该图片的完整路径和特征值逐行写入文件feature.txt。即奇数行存储图像的完整路径,偶数行存储对应的256位图像特征值。

(2)相似图像去重模块s2

在相似图像去重模块,本工具将根据图像预处理模块s1得到的特征文件feature.txt进行图像的相似度辨别。具体实施步骤如下:

a.逐行读取特征文件feature.txt,将奇数行数据保存在奇数行数据存储模块中,将偶数行数据保存在偶数行数据存储模块中;

b.对偶数行数据存储模块进行两两间的256位比较,得出海明距离;

c.将得出的海明距离跟阈值5比较,若小于等于阈值,则判为两图片相似,做去重202处理。

两模块的工作执行完成后,就完成了待检测设备100中所有图像数据的相似相同数据的清洗工作。

本发明是针对相同及相似图片去重的图像数据清洗技术,其测试环境及实验数据为:

1.测试环境:

系统环境:windows10

处理器:英特尔第三代酷睿i7-3720qm@2.60ghz四核

测试使用图像处理程序库:opencv2.4.9

2.实验数据及结果

244774张md5值不相同的实网图像数据,背景图片的分辨率分多种,包括:720*480、768*576、1024*768、1280*720等。经测试,精度方面算法对相似图像的去重精度达到98.6%,精度较高;速度方面,算法每秒可以进行1000万次匹配,能够实现快速去重功能。

考虑到目前通过各种途径获取的图像数据中存在很多相同相似的图片,本发明使用了一种对图像分块生成局部特征值的方法,并通过生成特征文件103进行后续的图像特征相似度计算200,前者提高了对相似图片查找的效果,后者提高了整个工作流程的效率。综上所述,本发明在对图片生成特征值的时候考虑了图片的局部性因素,并对图片的局部特征值与全局平均值作比较得出最终的二值化图片特征,这样得出的图片特征值能够很好的保留图片的局部特征信息,同时也很好的保留了每个局部块之间的关系,即使图片在局部发生改变、或者整体对比度亮度发生一定程度的改变,其与原图片之间具有的高度相似性都会被发现,因此该方法在很大程度上提高了对图像数据中相似图片去重的效率和精度。

当实验环境、筛选标准、数据规模、分块数目的多少等参数信息产生变化时,数据清洗的过程和结果也会产生相应变化。以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1