一种基于局部数字指纹的图像拷贝检测方法

文档序号:6603725阅读:250来源:国知局
专利名称:一种基于局部数字指纹的图像拷贝检测方法
技术领域
本发明属于多媒体信息安全技术领域,具体涉及一种基于局部数字指纹的图像拷 贝检测方法。
背景技术
近年来通信、计算机和网络技术的发展,使得多媒体信息的交流达到了前所未有 的深度和广度。与此同时,多媒体数据的传播媒介也日益增多,让人们随时享受着数字生活 的便利,但随之带来一系列问题广泛地版权侵犯、非法复制与分发、篡改,以及数据信息的 泄密等。因此,如何保证广大互联网用户在充分享受互联网便利的同时,又能有效地保护数 字内容的知识产权已经成为数字产品和网络应用面临的严峻问题。目前针对数字内容的版权保护主要有两种方式数字水印和拷贝检测。在对图像 数字内容进行保护的领域中,拷贝检测技术相比水印技术的主要优势在于(1)在数字图像发布之前,基于内容的图像拷贝检测技术不需要对数字图像进行 任何处理,如水印技术中的水印信息嵌入,因此拷贝检测技术可以对互联网上的所有图像 进行跟踪检测以判断是否发生版权侵犯;而水印技术只能对嵌入水印的版权图像进行水印 检测以判断版权归属。(2)嵌入在数字图像中的数字水印,一旦被黑客破解,数字水印的保护功能就完全 失效,导致原先嵌入水印的版权作品无法判断版权归属;而基于内容的拷贝检测可以针对 黑客的攻击手段,采用新的技术将互联网上的这些可疑版权的图像检测出来,从而筑起新 的防线;(3)基于数字水印的版权保护的抗攻击能力是以攻击产生的视觉失真不会被人眼 感知作为极限强度,而基于内容的拷贝检测的抗攻击能力是以作品内容本身不发生改变作 为极限强度,因而基于内容的拷贝检测具有更强的抗攻击能力。同时,基于内容的拷贝检测和图像检索的研究思路大体较为相似,分为特征提取, 特征索引建立和基于索引的特征匹配三个方面,但二者存在一些重要区别,主要表现在(1) 二者的研究目的不同。图像检索是从图像库中检索具有相似视觉分类的图像, 包括并不具有拷贝关系的图像;拷贝检测是从图像库中检测拷贝图像。(2)相似图像与拷贝图像的概念不同。相似图像是指某副图像在内容上人眼主观 感觉有重合性或相似性的图像;拷贝图像是原始图像经过如各种信号域或几何域的变换而 得到的图像,其基本内容并没有产生改变且不影响商业应用价值。因此,相似图像不一定是 拷贝图像,拷贝图像也不一定是相似图像。目前,基于内容的图像拷贝检测技术已成为解决图像盗版追踪问题的研究热点, 但是国内学者在此领域的研究很少,仅有的研究也是借鉴文档拷贝检测领域的技术或采用 多媒体数字认证领域的技术,没有完全考虑图像拷贝检测的应用特点,因此国内相关研究 的参考文献较少。在国际上已经发表的文献中,主要在具有抗几何失真能力的图像特征提 取、大规模特征矢量的高效索引构建以及相应的快速查询等方面进行了较深入的研究。
在基于内容的图像拷贝检测领域,所提取的图像特征是基于图像内容的低层 特征,它要求具有较强的鲁棒性和辨识能力。Hsu(W.Hsu,T. S. Chua,and H. K. Pung,An integrated color-spatial approach to content-based imageretrieval, in Proc. ACM Multimedia, 1995, pp. 305-313)等提出了一种利用分割的拷贝检测方法,通过选择 了一组颜色集合来描述所有的颜色信息,然后将图像分割成较小的子块部分,每个子块 部分的颜色信息都用局部颜色直方图来描述。Meng和Chang (Y. Meng,E. Chang. Image Copy DetectionUsing Dynamic Partial Function. Proc. SPIE Storage and Retrieval for MediaDatabase,2003,5021 176 186)等提出了一种使用多尺度颜色和纹理特征 来描述一幅图像,并使用了动态偏序函数(Dynamic Partial Function, DPF)来比较图 像的相似度,由于采用全局的特征,因此该方法对几何攻击鲁棒性不理想。Lu和Liao(C. S. Lu, H. Y. Mark Liao. Structural Digital Signature forImage Authentication :An Incidental Distortion Resistant Scheme. IEEE Trans.on Multimedia,2003,5 (2) 161 173)通过小波变换的多尺度结构建立了称为“结构化数字签名”来抵抗对有意和无 意的图像攻击° Kim(Kim, C. Content-based image copy detection. Signal Processing Image Communication, 2003,18 (3) :169_184)在 2003 年提出了一种基于离散余弦变换 (Discrete CosineTransform, DCT)的有序测度测度方法(ordinal measure),利用矩阵翻 转180度后,其离散余弦变换后的矩阵不变的特性,能够有效地检测经过翻转攻击的图像 拷贝。Wu(Ming_Ni Wu, Chia-Chen Lin, Chin-Chen Chang. Novel image copy detection with rotating tolerance. The Journal of Systems andSoftware,2007,80(13) :1057 1069)等人则在Kim方法的基础上改进了算法,使得拷贝检测对旋转有一定的鲁棒性,但不 够彻底。SIFT(Scale InvariantFeature Transform),即尺度不变特征变换由 Lowe (Lowe D.G. 0bjectrecognition from local scale-invariant features, in Proceedings of the SeventhlEEE International Conference on Computer Vision. Kerkyra, Greece IEEE, 1999, 2 :1150_1157)等人提出,通过在差分高斯尺度空间检测局部极值点即为特征 点,然后确定特征点的位置以及特征点所处的尺度。围绕SIFT特征点,Joly等(Joly A., Frelicot C.,Buisson 0. Content-based video copy detection inlarge databases a local fingerprints statistical similarity search approach, in Proceedings of IEEE International Conference on Image Processing. Genoa,Italy :IEEE,2005,11-14) 提出基于局部SIFT特征点多阶导数的签名方法。SIFT特征虽然具有很多优良的特性,但仍 然存在以下不足(1)特征检测因为需要对多尺度空间进行搜索,需要很多次的卷积运算, 算法的计算复杂度高且运算量大,速度较慢;(2) SIFT特征最初应用于目标识别,因而需要 能够检测出尽可能多的特征点,然而这些大量的特征会导致特征匹配时间的增加;(3)SIFT 特征集合不是十分的显著,集合中仍然存在一些不稳定的点。在图像特征矢量的索引构建及查询方面,由于多媒体数据库和图像检索等领域 的学者在这方面已经进行了较深入的研究,所以拷贝检测领域的索引构建基本上是借 鉴已有的索引结构,并对其进行改进以达到高效拷贝检测的目标。MeiersCT Meiers, T Elerbrock, T Sikora.Image browsing withPCA-assisited user-interaction. Content-Based Access of Image and VideoLibraries,IEEE Workshop. 2001,2(4) :102 108)提出了一种重要的降维方法一主成分分析法(Principal Component Analysis,PCA),PCA采用线性变换把原有的变量转换到新的综合变量,使新的综合变量为原变量的线 性组合。为了用尽可能少的综合变量代替原变量,要求每个综合变量尽可能多地集中原有 变量的信息。Faioutsos和Lin提出了用于维数缩减的KLT (Karhunen-Loeve Transform) 快速逼近算法。研究表明,大多数的实数集合(视觉特征向量)可以大量地缩减维度,并且 对查询效果不会产生明显的影响。虽然降维方法是克服维度灾难的一个途径,但它有几个 缺陷。首先降维操作总是会丢失精度,降维后的数据维度越小,精度越差。其次它比较适合 于高度相关的数据集,若各维之间的相关性较小,则降维并不能起到太好的压缩效果。另 外,这种方法不适合于真实应用中的动态数据情况,因为降维必须预先对整个数据集进行 计算,当数据集动态更新时,就必须对数据集重新计算,因此计算代价相当大。由于降维索 引方法的效果主要依赖于降维的程度,它需要在以上三个方面做权衡。从以上对研究现状的回顾可以得到研究学者在图像特征提取领域进行了大量研 究工作,但主要是以特征对几何域和信号域等攻击的鲁棒性为考虑的出发点,且得到的特 征维数较高。虽然索引技术也已经得到了广泛地研究,但高维的数据进行索引构建及查询 仍然在时间效率上表现不佳,所以有必要将图像特征进行转化并利用较成熟的索引结构进 行查询,进而来保证检测精度和检测效率。

发明内容
本发明的目的在于提供一种基于局部数字指纹的图像拷贝检测方法,该方法具有 较高的查全率和查准率,同时能够大幅度提高拷贝检测的查询效率。本发明提供的一种基于局部数字指纹的图像拷贝检测方法,其特征在于,该方法 包括特征入库阶段和查询阶段;特征入库阶段包括过程A1到A3 A1采用尺度不变特征变换算法为测试图像库中各个测试图像提取局部特征;A2将各测试图像的局部特征转换成数字指纹;A3构建数字指纹的倒排索引,生成数字指纹辞典表,得到测试图像指纹索引库; 数字指纹辞典表包括排序后的数字指纹列表、每个数字指纹所在的图像ID列表以及数字 指纹在对应图像中出现的频率信息列表;查询阶段包括过程B1至B4 B1采用尺度不变特征变换算法为当前查询图像提取局部特征,B2将查询图像的局部特征转换成数字指纹;B3在可允许的汉明距离的条件下,构建查询图像的局部特征的相似的指纹集合, 然后在测试图像指纹索引库中进行快速查询,得到相关联的测试图像集合;B4引用集合运算的相似性度量公式的定义,度量查询图像和相关联的测试图像集 合中各测试图像的相似度,将所有相似度大于预先设定的阈值的测试图像作为查询图像的 拷贝,其余为非拷贝。与现有技术相比,本发明提出的基于局部数字指纹的图像拷贝检测方法具有较强 的鲁棒性和辨识性提取的SIFT特征具有较强的抗几何攻击能力和区分能力。同时,通过 将SIFT特征转化成局部数字指纹,从而达到了既降低特征向量的维数又保证特征信息的 精度的目的。因此,该图像拷贝检测方法在检测精度方面具有很高的查全率和查准率,同时具有较好的检测效率。


图1为本发明方法的整体框架图;图2为局部SIFT特征转化成数字指纹的过程图;图3为构建测试图像集合的数字指纹库倒排索引示意图;图4为查询图像的拷贝检测过程示意图;图5为基于词袋模型方法、基于SIFT特征直接匹配方法和基于局部数字指纹方法 的查全率与查准率曲线比较图;图6为基于局部数字指纹方法在不同汉明距离下的查全率与查准率曲线比较图, 其中图(a)是汉明距离等于0和小于或等于1的两种情况比较,图(b)是汉明距离小于或 等于1和小于或等于2的两种情况比较,图(c)是汉明距离小于或等于2和小于或等于3 的两种情况比较,图(d)是汉明距离小于或等于3和小于或等于4的两种情况比较;图7为基于词袋模型方法和基于局部数字指纹方法的查询时间效率比较图,其中 图(a)是基于非拷贝图像库的查询时间效率比较,图(b)是基于拷贝图像库的查询时间效 率比较;图8为基于局部数字指纹方法在不同汉明距离下的查询时间效率比较图,其中图 (a)是基于非拷贝图像库的查询时间效率比较,图(b)是基于拷贝图像库的查询时间效率 比较。
具体实施例方式以下结合附图和具体实例对本发明的技术方案做进一步的详细说明。本发明方法的流程如图1所示,对测试图像库中的所有图像提取SIFT特征后,将 其转化成局部数字指纹存储在数据库中,同时把每幅图像的指纹序列看作关键词集合,并 以此关键词集合建立测试图像指纹库的倒排索引结构;在拷贝检测时,首先对查询图像提 取SIFT特征并转化成局部数字指纹,同时获取每个SIFT特征在转换过程中的最不可靠位 信息,然后根据可允许的汉明距离(Hamming Distance)产生可接受的相似指纹集,其中相 似指纹集是指与查询图像之间存在潜在拷贝关系的候选测试图像的数字指纹集合,最后以 所有的相似指纹集为检测入口查询倒排索引指纹库,并返回图像拷贝检测的结果。本发明方法包括二个阶段,即特征入库阶段和查询阶段,下面对其中进行具体说 明(A)特征入库阶段(A1)提取图像特征本发明采用SIFT算法从数字图像提取局部特征,该特征具有较强的抗几何攻击 能力和辨识能力。对于不同的数字图像而言,每幅图像所提取的SIFT特征数目与图像内 容、大小等有关。为了保证图像拷贝检测的效率,需要为所有图像提取相近数目的SIFT特 征,通过循环判断SIFT特征提取算法在不同阈值下的特征数目来进行最终的取舍。(A2)将局部SIFT特征转换成数字指纹由于步骤(A1)中提取的SIFT特征为128维向量,如果直接进行图像特征向量间的匹配将极大地影响检测效率。如图2所示,借鉴数字指纹的方法,构造每一个局部SIFT 特征所对应的数字指纹,主要步骤如下①将每一个原始SIFT特征的128维向量顺序平均分成32组,每组有4个分量,记 分组的结果为G2,L,Gy L,G32。②计算原始SIFT特征128维向量的平均值M,以及32个分组中4个分量内部的分 量之和,分别记为Vi,V2, L,Vj, L,V32。③分别计算32个分组的分量之和的值(义 V32)与4XM的差值DIFF,即DIFFj = Vi-4XM, i = 1,2, L,32 (1)④根据DIFF,的正负,用二进制位表示32组分量,即 ⑤根据④中得到的BINdi = 1,2, L,32),以 BIN!为符号位,BIN! (i = 2,3, L,32) 为数值位构建长整型数,即为当前SIFT特征对应的数字指纹。(A3)构建局部数字指纹集的高效索引结构根据步骤(A2),可以得到图像的局部数字指纹集。借鉴文本检索领域的处理方 法,将一个局部数字指纹看作是一个关键词,图像看作整个文档。在文本检索中,倒排索引 是通过关键词(KEYWORDS)的取值来确定关键词出现的位置信息。当关键词在倒排索引表 中顺序排列时,一次检索过程可以根据关键词的取值快速得到相应的位置信息以及频率信 息。因此,可以将文本检索中的倒排索引的概念及数据结构,应用于基于词袋模型的视觉关 键词辞典的索引结构构建过程中。根据文本中关键词和图像库中局部数字指纹的概念对应 关系,可以非常便捷地得到以下的倒排索引构建过程,如图3所示,给出了一个数字指纹辞 典表的例子,具体生成过程如下①将步骤(A2)中得到的局部数字指纹集,构建已经排序的数字指纹辞典表,数字 指纹辞典表包括排序后的数字指纹列表、每个数字指纹所在的图像ID列表以及数字指纹 在对应图像中出现的频率信息列表。其中指纹值是指以十进制表示的指纹大小,表中指纹 值的取值范围为-231 231-1。②对①中已排序的辞典表中的数字指纹,逐个将其所在的图像位置ID构建成图 像ID列表,如图3右边部分所示。同时构建在对应图像中出现的频率信息的列表,如图3 左边部分所示。记其中的K个数字指纹值所对应的图像位置ID列表分别为ID_LIST_1,
ID_LIST_2, ID_LIST_3,......,ID_LIST_K ;数字指纹所对应的频率信息列表分别为FREQ_
LIST—l,FREQ_LIST_2, ID_LIST_3,......,FREQ_LIST_K。(B)查询阶段当一个查询图像提取SIFT特征并经过局部数字指纹的转化之后,得到n个指纹以 及其相应的最不可靠位信息。如图4所示,具体的查询过程如下①给定一幅查询图像,利用SIFT特征提取方法得到这幅图像中的n个SIFT特征, 同时每个128维的SIFT特征向量将按照步骤(A2)进行转化,最终得到了 n个指纹(每个 指纹的取值为-231 231-1之间),且均存储在QUERY_FINGERPRINTS表中(表长为n)。在 步骤(A2)中,对比特位取值的判断是根据每个组分量之和与平均值的差进行的,因此比特 位取值可能存在误差。根据公式(2),可以求取DIFFi*对值的较大的四个值,记此四个较大值在比特流中所对应的位置为最不可靠位置(LstPos),并记下该位置信息。②对查询图像中的n个局部数字指纹,分别统计其在当前图像中出现的频率,得 到t(t彡n)个互不相同的数字指纹。将统计后的t个唯一的指纹值(-231 231-1)存储在 QUERY_UNI_FINGERPRINTS表中(表长为t);每个指纹值在图像中出现的频率对应为FREQ:,
FEWQ2,......,FREQp......,FREQt,将其存储在QUERY_UNI_FREQ表中(表长为t);每个唯
一的指纹值所对应的最不可靠位信息存储在QUERY UNI LSTPOS表中(表长为t)。③因为在拷贝检测应用中可能遭受各种信号处理或几何失真,造成图像数字指纹 信息的改变,即具有拷贝关系的图像的数字指纹之间并非完全一样,因此需要根据最不可 靠位的位置信息(LstPos),将潜在的候选拷贝图像的数字指纹包含进来,为每个唯一的局 部数字指纹值生成相似的数字指纹集合。
具体实施方式
如下,当汉明距离等于0时(指纹 值的比特位不允许错误),数字指纹集合即为当前指纹;当汉明距离大于或等于1时,指纹 集合中的数目需要根据错位的组合情况重新确定,对应的指纹值需要根据原始指纹值和错 位位置(比特位)共同确定。因此,假设汉明距离为Ham_Dis,Ham_Dis的值等于四个最不 可靠位允许发生0/1位错的比特数目,因此错位的组合将会在4个比特位中进行,每个SIFT 特征可能得到的指纹数目为num,num的计算公式如下所示
(3)查询图像所有的局部SIFT特征对应的相似的数字指纹集合存储在QUERY_ HAMMING_FINGERPRINTS 表中,表长为 numXt。④对于t个唯一的局部数字指纹值,按照步骤③循环地为每个指纹值生成相似的 数字指纹集合。假设当前允许的汉明距离小于或等于1,则由公式(3)可知每个SIFT特 征可能有5个对应的数字指纹值。进一步,利用二分查找算法逐个地将5个数字指纹值在 数字指纹辞典表中直接查找当前数字指纹所指向的测试图像位置ID列表以及对应的测试 图像频率信息列表,接着遍历当前的两个列表,将得到的这些与当前数字指纹值关联的测 试图像ID及频率信息存储在内存,即以相关联的每个测试图像ID为索引,将当前查询的 数字指纹频率值保存在对应的位置。对于一个SIFT特征拥有的相似的数字指纹集合,其 中每个数字指纹所相关联的图像集合均认为在当前SIFT特征处匹配。假设当前查询图像 的t个局部数字指纹所关联的不重复测试图像ID数目为r,r幅相关联的测试图像ID值 存储在RESULT_ID_LIST表中(表长为r);所有的t个局部数字指纹在RESULT_ID_LIST表 中的第i个相关联的测试图像的频率信息存储在RESULT_FREQ_LIST_i表中(表长为r, 0 彡 i 彡 r-1)。至此,由以上对查询步骤的叙述可知利用倒排索引将查询图像提取并转化后得 到的局部数字指纹进行检索,从预先存储在索引结构中的测试图像数字指纹辞典表及每个 数字指纹值对应的测试图像位置ID列表和频率信息列表找到相关联的测试图像集合;如果当前相关联的测试图像存在多个数字指纹与查询图像在该处SIFT特征相同,则将该相 关联的测试图像对应的频率信息记录在与自身图像ID链接的结果频率信息表中;如此循 环,将查询图像中存在的所有数字指纹进行倒排索引的查找,从而在最后得到了查询图像 的指纹频率信息表QUERY_UNI_FREQ,以及与查询关键词相关联的r幅测试图像关键词频率 信息表 RESULT_FREQ_LIST_i (0 ≤ i ≤ r-1)。(1)图像拷贝检测的相似性度量假设查询图像数字指纹及指纹频率信息的集合为A,即QUERY_UNI_WORDS和 QUERY_UNI_FREQ,其有t个唯一不重复的数字指纹,查询得到每个相关联的测试图像ID的 对应数字指纹及指纹频率信息的集合为Bi (0 ≤ i ≤ r-1),即相关联的测试图像的数字指纹 个数RESULT_KEYWORDS_NUM_i以及与查询对应的关键词频率列表为RESULT_EREQ_LISTi,
利用相似度度量的集合运算公式 具体的相似度度量和筛选步骤如下①求取A和Bi的交集,即从QUERY_W0RDS表中求取查询图像和相关联的测试图像 在t个数字指纹值处的频率最小值,然后综合t个数字指纹的最小值而得到交集数目。即Inter_sect_i = Min (QUERY_UNI_FREQ [ j],RESULT_FREQ_LIST_i [j]) (5)Inter sect_num_i = Sum (Inter sect」)(6)其中0≤i≤r-l,0≤j≤t-1。②求取A和Bi的并集,即从QUERY_W0RDS表中求取查询图像和相关联的测试图像 在t个数字指纹值处的频率最大值的总频率,以及相关联的测试图像的所有数字指纹中不 属于 t 个数字指纹值集合的数目。即 Union_i = Max (QUERY_UNI_FREQ[j],RESULT_FREQ_ LIST_i[j])(7)Union_num_i = Sum (Union」)(8)其中0≤i≤r-l,0≤j≤t-1③利用①和②的结果,代入集合运算的公式(4),求出々和&的相似度Simp ④设定相似度阈值为Thre,当Sini≥Thre时,则认为该相关联的测试图像是查询 图像的拷贝;否则是非拷贝。实例为了证明基于局部数字指纹的图像拷贝检测方法之性能和效率具有较好的优势, 本发明将通过以下的实验进行验证与分析。实验数据本发明是从网络上的一些专业图像库的站点(http://Wang. ist. psu. edu/docs/ related, shtml)下载了 10307幅图像作为实验数据,其中包含各种图像内容类型,如花草, 树木,人物,建筑,艺术等测试图像,图像格式均为JPEG,图像大小为256*384或384*256。B.实验平台

Q;
硬件Intel Core 2Duo CPU E73002. 66GHZ,内存 2. 00GB ; 软件:ffindows XP 系统;MATLAB 7. 0 ;VC++6. 0 ;Access 数据库; C.实验图像库的分类
(1)从下载的10307幅图像中随机选取120幅图像作为查询图像,记为查询图像库
(2)其余的10187幅为非拷贝图像,记为非拷贝图像库L;
(3)利用Strirmark3. 1工具为查询图像库Q中的每幅查询图像生成对应攻击的 共88种拷贝图像,即共产生120*88 = 10560幅拷贝图像,记为拷贝图像库L_C0PY。其中实验中涉及到的Stirmark攻击类型如下(1)信号处理的攻击共6种。包括中值滤波,高斯滤波,锐化和频率模式的拉普 拉斯去除(frequency mode Laplacian removal);(2) JPEG的攻击共12种。JPEG压缩质量因子在90% 10%间变化;(3) 一般线性几何变换的攻击共3种;(4)纵横比改变的攻击共8种;(5)行去除的攻击共5种;(6)旋转裁剪的组合攻击共16种;(7)缩放的攻击共6种。缩放因子在0. 5和2. 0之间变化;(8)裁剪的攻击共9种。裁剪比例在和75%之间变化;(9)剪切(shearing)的攻击共6种。在x轴和y轴上采用仿射变化攻击;(10)旋转后缩放的攻击共16种;(11)随机弯曲(random bending)的攻击共 1 种。D.图像拷贝检测的查询结果(1)检测质量评价假设查询得到的拷贝结果中真实拷贝的数目为right_p0SitiVe,误检成拷贝的 数目为false_positive,漏检的拷贝数目为false_negative。记PRECISION为查全率, RECALL为查准率,则对查全率和查准率定义如下 纵向实验将基于SIFT特征的直接匹配的方法,基于词袋模型的方法,基于局部 数字指纹的方法进行查全率和查准率的比较,其中基于词袋模型的拷贝检测方法中所实验 的K均值聚类个数为2000,基于SIFT特征的直接匹配方法中的直接匹配阈值thresh为 1. 5,基于局部数字指纹的方法所实验的汉明距离为0。实验结果如图5所示纵轴是查准 率,横轴是查全率,冊性能是指查准率和查全率的比较性能。实验采用MATLAB 7.0为性能 测试工具,同时利用AD0技术对Access数据库进行访问。横向实验在汉明距离取值不同的情况下,基于局部数字单指纹的方法进行查全 率和查准率的比较,其中汉明距离取值分为5种情况0,小于或等于1,小于或等于2,小于 或等于3,小于或等于4。实验结果如图6所示纵轴是查准率,横轴是查全率,ra性能是指查准率和查全率的比较性能。实验采用MATLAB 7. 0为性能测试工具,同时利用ADO技术对 Access数据库进行访问。(2)检测效率评价纵向实验当120幅查询图像分别在非拷贝图像库和拷贝图像库中进行查询时, 对基于词袋模型和基于局部数字单指纹这两种方法的查询时间进行测试,其中词袋模型的
K均值聚类个数为2000,图像库规模的变化为1000,2000,......,10000,实验结果如图7
所示。实验采用VC++6. 0作为查询时间统计工具,并利用ADO技术对Access数据库进行访 问。其中所测试的查询时间不计查询图像SIFT特征提取及指纹的转化所消耗的时间,仅仅 统计从特征指纹得到后开始到进行倒排索引查询并利用相似性度量及阈值判断得到最终 检测图像集合为止的时间。横向实验在汉明距离取值不同的情况下,当120幅查询图像在非拷贝图像库和 拷贝图像库中进行查询时间测试,其中汉明距离取值分为两种情况0,小于或等于1,实验 结果如图8所示。实验采用VC++6. 0作为查询时间统计工具,并利用ADO技术对Access数 据库进行访问。其中所测试的查询时间不计查询图像SIFT特征提取及指纹的转化所消耗 的时间,仅仅统计从特征指纹得到后开始到进行倒排索引查询并利用相似性度量及阈值判 断得到最终检测图像集合为止的时间。本发明不仅局限于上述具体实施方式
,本领域一般技术人员根据本发明公开的内 容,可以采用其它多种具体实施方式
实施本发明,因此,凡是采用本发明的设计结构和思 路,做一些简单的变化或更改的设计,都落入本发明保护的范围。
权利要求
一种基于局部数字指纹的图像拷贝检测方法,其特征在于,该方法包括特征入库阶段和查询阶段;特征入库阶段包括过程A1到A3A1采用尺度不变特征变换算法为测试图像库中各个测试图像提取局部特征;A2将各测试图像的局部特征转换成数字指纹;A3构建数字指纹的倒排索引,生成数字指纹辞典表,得到测试图像指纹索引库;数字指纹辞典表包括排序后的数字指纹列表、每个数字指纹所在的图像ID列表以及数字指纹在对应图像中出现的频率信息列表;查询阶段包括过程B1至B4B1采用尺度不变特征变换算法为当前查询图像提取局部特征,B2将查询图像的局部特征转换成数字指纹;B3在可允许的汉明距离的条件下,构建查询图像的局部特征的相似的指纹集合,然后在测试图像指纹索引库中进行快速查询,得到相关联的测试图像集合;B4引用集合运算的相似性度量公式的定义,度量查询图像和相关联的测试图像集合中各测试图像的相似度,将所有相似度大于预先设定的阈值的测试图像作为查询图像的拷贝,其余为非拷贝。
2.根据权利要求1所述的基于局部数字指纹的图像拷贝检测方法,其特征在于,步骤 A2中,对于各测试图像的局部特征中包含的每一个SIFT特征按下述过程转换成数字指纹(A2. 1)将SIFT特征的128维向量顺序平均分成32组,每组有4个分量; (A2. 2)计算128维向量的平均值M,以及32组向量内部的分量之和; (A2. 3)分别计算32组分量之和与4XM的差值;(A2. 4) 二进制位表示其差值,其中第1位作为符号位,其余31位为数值位,构建长整型 数,即为当前特征的局部数字指纹。
3.根据权利要求1所述的基于局部数字指纹的图像拷贝检测方法,其特征在于步骤 B2中,对于各查询图像的局部特征中包含的每一个SIFT特征按下述过程转换成数字指纹(B2. 1)将SIFT特征的128维向量顺序平均分成32组,每组有4个分量; (B2. 2)计算128维向量的平均值M,以及32组向量内部的分量之和; (B2. 3)分别计算32组分量之和与4XM的差值;其求取差值绝对值的较大的四个值, 记此四个较大值在比特流中所对应的位置为不可靠位置,并记下该位置信息,作为最不可 靠位信息;(B2. 4) 二进制位表示其差值,其中第1位作为符号位,其余31位为数值位,构建长整型 数,即为当前特征的数字指纹。3、根据权利要求3所述的基于局部数字指纹的图像拷贝检测方法,其特征在于步骤 B3具体包括下述过程(B3. 1)设一个查询图像包含有η个数字指纹,分别统计其在该查询图像中出现的频率;(Β3. 2)根据每个数字指纹的最不可靠位信息生成相似的数字指纹集合; (Β3. 3)当汉明距离等于O时,该数字指纹集合即为当前指纹;当汉明距离大于或等于 1时,指纹集合中的数目需要根据错位的组合情况重新确定,对应的指纹值由原始指纹值和错位位置共同确定;(B3.4)从η个数字指纹中去除大小相等的指纹,得到不重复的指纹,按照步骤(Β3. 3) 循环地为每个不重复的指纹生成相似的数字指纹集合;利用二分查找算法逐一在数字指纹 辞典表中查找当前数字指纹所指向的测试图像位置ID列表以及对应的测试图像频率信息 列表。
4.根据权利要求1所述的基于局部数字指纹的图像拷贝检测方法,其特征在于步骤 Β4按照下述过程进行查询图像与测试图像之间的相似性度量 (Β4. 1)计算当前查询图像的信息集和查询得到的一幅相关联的测试图像信息集的交 集,并求取交集中指纹的数量;(Β4. 2)计算当前查询图像的信息集和查询得到的一幅相关联的测试图像信息集的并 集,并求取并集中指纹的数量;(Β4. 3)计算查询图像和相关联的测试图像的相似度,其值等于(交集中指纹的数量)/ (并集中指纹的数量+相关联的测试图像的数字指纹个数_交集中指纹的数量);(Β4. 4)若相似度大于预先设定的阈值,则认为该相关联的测试图像是查询图像的拷贝 图像,否则是非拷贝图像。
全文摘要
本发明公开了一种基于局部数字指纹的图像拷贝检测方法。该方法对测试图像库中的每幅图像提取局部SIFT特征,并将这些高维的SIFT特征向量进行局部数字指纹的转化以及统计指纹在每幅图像中出现的频率,以建立数字指纹数据库;在图像进行查询时,首先对查询图像提取SIFT特征,然后转化得到其数字指纹以及转化过程中不可靠位置的信息,再结合不可靠位置信息在测试指纹库的倒排索引结构中进行查询,从而快速得到与查询图像的局部数字指纹相关联的测试图像集合,为查询图像与相关联的测试图像进行相似性度量,以判断是否为拷贝。在检测拷贝的性能方面,本发明具有很好的查全率和查准率;在检测拷贝的效率方面,本发明也能够较快地进行查询图像的拷贝检测。
文档编号G06F17/30GK101853486SQ20101019450
公开日2010年10月6日 申请日期2010年6月8日 优先权日2010年6月8日
发明者冯辉, 凌贺飞, 李平, 王丽云, 许治华, 邹复好 申请人:华中科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1