基于模糊哈希算法的海量互联网相似图片检测系统及方法与流程

文档序号：13072691阅读：727来源：国知局

本发明涉及网络信息安全技术领域，特别涉及一种基于模糊哈希算法的海量互联网相似图片检测系统及方法。

背景技术：

现在的图像检索技术基本上还是分为两类，基于文本的图像检索(text-basedimageretrieval,tbir)和基于内容的图像检索(content-basedimageretrieval,cbir)。

基于文本的图像检索也就是主要利用文本描述的方式对一幅图像进行特征的描述，建立相应的描述子或者keywords，比如图像的年代、作者、尺寸、编码、名称等一些关键性的信息，将它们进行自动或者人工采集标注，产生图像的索引数据库，然后将用户输入的关键字，进行匹配查找，再返回结果的一种图像检索方式。它易于实现，查准率也较高，但是存在文本描述有限，有些图像特征不好描述甚至无法描述，而且存在不同描述人的较大的主观性，并且需要人工标注，在海量数据的处理中越来越失去应用价值，进而也不能满足检索的要求。

基于内容的检索技术是由计算机对图像的特征进行分析，提取特征，如颜色、纹理和形状等，将提取的特征作为向量存入图像数据库，对于输入的检索图片做相同的处理，利用相似性准则计算该查询图片与图像特征库中的每一个特征向量的相似度，根据相似度排序后，输出给定阈值下的检索结果。其优点在于使用机器对图像的内容进行判别性的信息提取，得到特征的描述子，不需要人为地对图像进行文本标注；并且，该过程作为一个近似匹配的过程，对于检索效率的提升也有了很大的贡献，但是对于图像特征的提取上，复杂的算法需要实现从最底层图像特征到高层的语义信息的联系显得有点困难，因此检索准确性上不是很高。

在海量数字图像数据再互联网上泛滥之后，对于图像的快速和有效检索就显得日益重要。传统的方法有基于树的索引结构，如k-d树，但它仅仅在处理低维数据时可以有效提高检索速度，当数据维度超过20维时，其检索效率就接近于穷举的搜索方式。因此，目前针对高维数据的快速检索问题，图像哈希技术在上世纪九十年代末诞生。对于训练图像和查询图像都需要进行特征的提取，之后通过哈希函数的转化，压缩为一定数目的二进制编码序列，该过程称为哈希编码。然后将得到的哈希编码，进行汉明距离的计算，在设置的汉明距离阈值范围内再对候选样本做欧式距离排序，也就是重排(一般论文这一步都是没有的)，最后返回检索到的图像，这些得到的图像称为查询图像的近似最近邻。

对于哈希函数的期望，我们希望其满足以下两个必要的条件：

(1)对于内容相似的图像，其哈希编码的序列能够尽可能相同或者十分接近；

(2)对于内容不同的图像，其哈希编码的序列能够尽可能不同。

加密哈希算法是常用的哈希算法。目前采用的md5，sha1，sha256这些哈希算法对于未被篡改的文件非常有效。但是，如果数据有细微变化，加密哈希算法都会导致雪崩效应，从而造成新文件的哈希值完全不同于原始文件哈希值。对于图像来说，如果其背景色被改变，或被裁剪、旋转或者某一个像素被修改，那么都无法在图像哈希库中匹配。可见传统哈希算法并不具有实用性。

技术实现要素：

本发明的目的提供一种基于模糊哈希算法的海量互联网相似图片检测系统及方法,可实现图片内容被部分篡改后，图片相似性的判定问题。

本发明的技术方案是，一种基于模糊哈希算法相似图片检索方法，其特征在于，该方法包括如下步骤：

(1)设定分片值，对图片进行分片；

(2)读取一部分图片内容，用哈希算法计算，得到每一个分片的哈希值；

(3)将每片的哈希值进行压缩，映射为一个更短的哈希值；

(4)将每片压缩后的哈希值连在一起，得到该图片的模糊哈希值；

(5)待检索的两个图片的模糊哈希值采用加权的汉明距离方法计算相似程度。

进一步的，步骤(2)中的哈希算法采用滚动哈希算法或md5哈希算法。

一种基于模糊哈希算法相似图片检索系统，该系统包括：

分片模块，用以根据设定的分片值，对图片进行分片；

哈希算法模块，用以读取一部分图片内容，用哈希算法计算，得到每一个分片的哈希值；

压缩映射算法模块，用以将每片的哈希值进行压缩，映射为一个更短的哈希值；

连接哈希值算法模块，用以将每片压缩后的哈希值连在一起，得到该图片的模糊哈希值；

比较算法模块，待检索的两个图片的模糊哈希值采用加权的汉明距离方法计算相似程度。

进一步的，所述哈希算法采用滚动哈希算法或md5哈希算法。

本发明的有益效果在于：本发明对于基于图片视觉相似性而不是文件精确性的检索系统，解决了图像背景色被改变，或被裁剪、旋转或者某一个像素被修改后相似的图像的比较问题。本发明能够应用于海量互联网图片中的有害图片发现。

附图说明

图1为本发明图片模糊哈希值计算流程图。

图2为本发明基于模糊哈希算法的相似图片检索流程图。

具体实施方式

下面，结合附图对于本发明进行如下详细说明：

如图1和图2所示，选择待检索的图片库，将图片和设定的分片值输入分片模块，分片模块根据设定的分片值，对图片进行分片，分片结果输送到哈希算法模块；哈希算法模块，接收分片模块发送的分片结果，读取一部分图片内容，采用滚动哈希算法或md5哈希算法进行计算，得到每一个分片的哈希值，并将计算结果送入压缩映射算法模块，压缩映射算法模块将每片的哈希值进行压缩，映射为一个更短的哈希值，并将压缩结果送入连接哈希值算法模块，连接哈希值算法模块将每片压缩后的哈希值连在一起，得到该图片的模糊哈希值，模糊哈希值最后被送入哈希值数据库，当有检索命令时，将待检索图片的模糊哈希值送入比较算法模块，较算法模块采用加权的汉明距离方法计算相似程度，最终给出检索结果。

所述仅是本发明的具体实例，任何基于本发明方法基础的等效变换，均属于本发明保护范围之内。

技术特征：

技术总结
本发明涉及一种基于模糊哈希算法相似图片检索方法及系统，其通过分片模块，根据设定的分片值，对图片进行分片；通过哈希算法模块，读取一部分图片内容，用哈希算法计算，得到每一个分片的哈希值；通过压缩映射算法模块，将每片的哈希值进行压缩，映射为一个更短的哈希值；通过连接哈希值算法模块，将每片压缩后的哈希值连在一起，得到该图片的模糊哈希值；最后通过比较算法模块，将待检索的两个图片的模糊哈希值采用加权的汉明距离方法计算相似程度，给出检索结果；解决了图像背景色被改变，或被裁剪、旋转或者某一个像素被修改后相似的图像的比较问题。本发明能够应用于海量互联网图片中的有害图片发现。

技术研发人员：徐杰;陈训逊;王博;王东安;包秀国;黄亮
受保护的技术使用者：国家计算机网络与信息安全管理中心
技术研发日：2016.06.01
技术公布日：2017.12.01

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐杰;陈训逊;王博;王东安;包秀国;黄亮
技术所有人：国家计算机网络与信息安全管理中心
我是此专利的发明人

上一篇：一种广播平台中统计数据的显示方法及装置与流程
上一篇：主题推荐方法以及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。