专利名称:图像指纹提取方法及其设备、信息过滤方法及其系统的制作方法
技术领域:
本发明涉及图像信息处理技术领域,具体地说,涉及一种对图像进行特征提取的
图像指纹提取方法及应用该方法的设备和系统。
背景技术:
随着社会经济的进步和人们生活条件的提高,手机的普及率也越来越高,尤其是 许多学生尤其是中、小学生也经常使用手机,伴随着这一现象,垃圾短信以及手机上网涉黄 的问题也日益严重,逐渐成为全社会关注的焦点。据不完全统计,除中国移动的官方移动互 联网门户"移动梦网"外,各种独立WAP网站站点的数量至少达2万家,这些独立WAP也称 为免费WAP,主要原因就在于其内容是完全免费的,流量成为其最有价值的资源,这为黄色 网站的存在提供了温床。 手机上网总共有这样几种方式,如果是登录普通互联网,是通过CMNET进行连接, 如果是登录WAP网站,则是通过C丽AP连接。用户一般意识不到网关接入点的不同。在移 动互联网基本人烟稀少的年代,中国移动将C丽AP的中文名字定为"移动梦网",但这与中 国移动的移动互联网平台"移动梦网"是两回事,本想给移动梦网增加一个宣传渠道,但移 动互联网却以迅雷不及掩耳之势迅速爆发,连孩子也开始用手机上网,于是就造成了移动 互联网内容监管处于空白地带的问题。 对于这一日益严重的社会问题,政府、运营商以及手机用户也都在不同程度上采 用了多种不同的对策来加以治理整顿。很多搜索引擎针对传统互联网和移动互联网是采取 不同过滤机制的,比如在传统互联网上搜索"高清炮"不会搜到不良信息,而在移动互联网 上,显示比较靠前的基本都是色情网站。随着移动互联网的发展,不管是中国移动还是其他 企业,通过移动互联网进行相关业务推广的情况越来越多,因为没有相应监管机制,推广费 用可能成为"黄色产业链"推波助澜的一环。 过去由于移动互联网的规模和影响有限,中国移动监管内容的做法是不定期进行 "拨测", 一旦发现色情等不良网站信息,就将该网站举报给公安局和工信部,如果网页被认 定有问题,中国移动就会从服务器上将该网站关闭,如果是国外网站,则关闭其国际关口。
但随着移动互联网的壮大,这种工作方式逐渐显露弊端,首先只能通过监测不正 常流量和用户检举两种传统方式发现不良信息的藏身之处,其次从发现不良网站到完成处 理需要几周时间。最近,中国移动在广东开始试验一种网站自动拨测系统,这将大大提高发 现不良网站的效率,但发现之后如何处理仍没有一个快速有效的机制。 在传统互联网领域,国家已进行了多年的"金盾工程",还在多部门的支持下设立 了 "国家计算机网络应急技术处理协调中心",该机构可直接删除或关闭任何运营商IDC上 的不良网站。而相应的机制并没有覆盖到移动互联网。 以上的种种监管机制都需要大量的人力和物力支持,并且监管的局限性比较大, 监管、治理效果不够显著。
发明内容
针对上述问题,本发明提供的互联网不良信息过滤系统,为部署在电信运营商的 网络侧的信息处理系统,能够实现对冊p、彩信、短信、互联网等业务中可能包含的不良信息 进行监测和防护。 本发明一方面提供图像指纹提取方法,包括如下步骤 SI :对原始图像进行插值处理; S2 :将插值处理后的图像分块,并进行DCT变换; S3 :将变换后的图片进行RGB灰度处理; S4:对灰度处理的图像结果进行量化; S5 :对图像进行无损压縮,输出一个二进制序列; S6 :将上述二进制序列进行序列化重组,得到图像指纹。 此外,优选的结构是,步骤S4进一步包括 S41 :将图像取样; S42 :将取样后的每个样点的取值范围分成若干区间; S43 :仅用一个数值代表每个区间中的所有取值。 此外,优选的结构是,步骤S6进一步包括 S61 :取N个序列中的值进行排列,重组成一个序列; S62 :将重组得到的序列进行MD5的变换。 另一方面,本发明还提供一种图像指纹提取设备,包括 插值处理模块,用于对原始图像进行插值处理,并将统一分辨率; DCT变换模块,用于将统一分辨率后的图像分块,并进行DCT变换; 灰度处理模块,用于对图像进行RGB的灰度处理; 量化模块,用于对经过灰度处理的图像结果进行量化; 无损压縮模块,用于对量化后的图像进行无损压縮生成一个二进制序列; 序列化模块,用于将上述生成的二进制序列进行序列化重组,得到图像指纹。 另外,本发明还提供一种利用上述的图像指纹提取方法提取的图像指纹进行的信
息过滤方法,包括如下步骤 采集现网数据; 提取图像指纹; 根据所提取的图像指纹和图像指纹数据库中存储的图像指纹数据进行图像指纹 的审核; 如果提取的图像指纹属于图像指纹数据库中存在的图像,则直接根据图像指纹数 据库中的相同图像进行审核; 如果提取的图像指纹不属于图像指纹数据库中存在的图像,则将所述提取的图像 指纹转入人工审核途径,并将所述提取的图像指纹和人工审核结果存入图像指纹数据库。 另外,优选的结构是,图像指纹数据库中储存的图像指纹数据以关系数据库的形 式存储。 再者,优选的结构是,图像指纹数据至少指纹和属性包括两个字段。 本发明还提供一种利用图像指纹进行信息过滤的信息过滤系统,包括
5
图像采集单元,用于采集现网数据;
图像指纹提取单元,用于提取图像指纹;
图像指纹数据库,用于存储图像指纹数据; 图像指纹审核单元,用于根据所述图像指纹提取单元提取的图像指纹和所述图像 指纹数据库中存储的图像指纹数据进行图像指纹的审核;
其中,所述图像指纹提取单元进一步包括 插值处理模块,用于对原始图像进行插值处理,并将统一分辨率; DCT变换模块,用于将统一分辨率后的图像分块,并进行DCT变换; 灰度处理模块,用于对图像进行RGB的灰度处理; 量化模块,用于对经过灰度处理的图像结果进行量化; 无损压縮模块,用于对量化后的图像进行无损压縮生成一个二进制序列; 序列化模块,用于将上述生成的二进制序列进行序列化重组,得到图像指纹。 本发明能够自动实时采集和还原电信运营商的业务数据,并对数据流中包含的文
字、图片、视频等内容进行识别,从而检测出可能存在的不良信息并进行后续处理。 由于电信运营商的相关业务具有大数据量、大并发访问量的特点,因此采用普通
的HTTP报文采集还原技术无法实现实时监测。而本发明提供的基于图像指纹提取及鉴定
的不良信息过滤技术,采取了以上的技术后,能够大幅度提高对数据业务内容识别处理的
速度,从而使运营商业务全流量实时监测成为可能。
通过下面结合附图对其实施例进行描述,本发明的上述特征和技术优点将会变得 更加清楚和容易理解。
图1是表示本发明信息过滤系统的应用场景示意图;
图2是表示本发明信息过滤系统的逻辑结构示意图;
图3是表示本发明信息过滤方法的流程示意图;
图4是表示本发明图像指纹提取方法的流程示意图; 图5a、图5b、图5c、图5d是表示本发明在图像指纹提取过程中的原始图像经过不 同指纹提取过程中的系数变化示意图; 图6是表示本发明的图像指纹提取单元的逻辑结构示意图。
具体实施例方式
下面结合附图和具体实施例对本发明做进一步详细的描述。 为了解决当前社会普遍关注的手机上网涉黄问题,本发明提供的信息过滤系统主 要应用于对互联网不良信息的过滤。将该系统部署在电信运营商的网络侧,通过对信息中 的图像信息进行指纹提取、比较等手段实现对冊p、彩信、短信、互联网等业务中可能包含的 不良信息进行监测和防护。 图1是表示本发明信息过滤系统的应用场景示意图。如图1所示,本发明提供的 信息过滤系统10设置在信息服务提供端20和GGSN(网关GPRS支持节点)之间,经过信息 过滤后的安全信息再经由无线网络传输至客户端30。其中的信息服务提供端可以是互联网的运营商,也可以是电信运营商,如中国移动的手机上网接入点CMnet 、CMw即等;客户端30 可以是手机用户,也可以是PDA、笔记本等无线上网用户。 图2是表示本发明信息过滤系统10的逻辑结构示意图。如图2所示,信息过滤系 统10包括图像采集单元101、图像指纹提取单元102、图像指纹数据库103、图像指纹审核单 元104。 图像采集单元101用于采集来自于互联网以及电信运营商的现网图像数据,然后 将采集到的原始图像数据交由图像指纹提取单元102进行图像指纹特征的提取,由图像指 纹审核单元104将提取后的图像指纹与图像指纹数据库103中的数据进行比对判断,如果 该图像属于图像指纹数据库103中存在的图像,则直接根据图像指纹数据库103的相同图 像判断该图像是否违规;如果该图像不属于图像指纹数据库103中存在的图像,则将该图 像转入人工审核途径,并将图像指纹和人工审核结果存入图像指纹数据库103中,以便及 时更新图像指纹数据库103,从而完善图像指纹数据库的数据,方便在后续的工作中直接比 对审核。 在本发明的一个优选实施例中,图像指纹数据库103中储存的图像指纹以关系数 据库的形式存储,每个图像指纹均包括两个字段指纹和属性,其中的属性值设定为违规或 者不违规。这样,在图像指纹审核单元104进行比对判断后,如果所比对的图像属于图像指 纹数据库103中存在的图像,那么就可以根据图像指纹数据库103中既存的图像属性得出 所比对的图像是否违规的判断。 图3是表示本发明信息过滤方法的流程示意图。如图3所示,利用上述信息过滤 系统10进行信息过滤的过程如下 首先,采集来自于互联网以及电信运营商的现网图像数据。 然后,由图像指纹提取单元102提取出图像指纹特征,并且与图像指纹数据库103 中存储的图像指纹信息进行比对,如果是指纹库中没有的图像,则交由人工审核,根据反色 情、反暴力或者其他审核原则来人工判断该图像是否违规,然后将审核结果提交给运营商 处理并将审核后的图像指纹数据以图像指纹数据库规定的格式存储到图像指纹数据库103 中。 如果所比对的图像是图像指纹数据库103中存在的图像,则直接根据图像指纹数 据库中的指纹图像信息即可判定是否违规,同样将是否违规的结论提交给运营商处理。
本发明中的图像指纹数据库103具有自学习能力,也就是说图像指纹数据库中的 可以根据数据可以根据图像指纹审核单元104的审核结果,随时将原来不存在于数据库中 的图像指纹数据存储至数据库中,随时更新、丰富数据库的内容,从而提高下一次审核的命 中率。 在以扫黄打非为目的的网络信息过滤过程中,图像采集后如果单纯利用反色情、
反暴力或者人工审核的方式进行审核的话,会耗费大量的人力物力,并且审核过程相当的
繁琐,大大的降低审核效率,利用本发明将图片提取出指纹然后在数据库中进行比对,则能
够大大减少人工,提高审核质量和效率。当然,本发明也可以用于对其他特定数据的审核过
滤,如用于对某一特定领域技术信息的检索或者用于对某一类信息的屏蔽等。 其中图像指纹提取单元102的图像指纹提取流程如图4所示。下面,以一个具体
的实施方式对图4所示的图像指纹提取流程做详细的说明。
首先,对采集的原始图像通过插值处理,将分辨率统一变为规定的分辨率,比如在 本实施例中采用的32*32分辨率,当然可以也根据硬件设备水平以及对图像精确度的需求 采用其他的分辨率。 然后将统一分辨率后的图像分块,并进行DCT变换。在本实施例中,将每个待处理
图像分成16个8*8的小块,并进行二维DCT变换。二维DCT变换的定义为<formula>formula see original document page 8</formula> 其中i, j, ii , 9 = 0, 1,2......,N-l, ii , e表示DCT变换后矩阵内某个数值的坐标位置,N为整数,X(ii , e)表示DCT
变换后矩阵内的某个数值,c(iOc( e)指色彩转变后的mcu块。 当N = 8时,即对8*8的图像子块进行DCT变换。 第三步,将经过DCT变换过的图像进行RGB的灰度处理,滤掉图像中色彩。 第四步,对经过灰度处理的图像结果进行量化,也就是说,将取样后的图像的每个
样点的取值范围分成若干区间,并仅用一个数值代表每个区间中的所有取值。 第五步,对量化后的图像进行压縮。在本实施例中,利用Matlab对图像进行
Huffman编码,实现图像的无损压縮;压縮后输出的为一个二进制序列; 第六步,将第五步的二进制序列进行序列化重组。取出若干个序列中的值进行排
列,再组成一个序列,假设第5步产生的序列用R来表示,取10个序列中的值进行重组,则<formula>formula see original document page 8</formula>
其中N = 1, 2,......, 10, VN表示第N个序列,fN(R)表示对序列R进行重组计算。 分别算出N = 1,2,......,10的V值,组合成为一个新的序列 V = ^2響5^7響10 将由此得到的序列V进行MD5(消息摘要算法第五版)的变换,得到一个8bit的 数据; 将此8bit的数据,作为图像的特征指纹,代表此图像,用来和图像指纹数据库中 存储的图像指纹数据来比较以识别审核该图像是否违规。 图5a、图5b、图5c、图5d所示为在利用本发明的图像指纹提取方法的过程中原始 图像在经过不同指纹提取过程中的系数变化。其中图5a表示原始图像的一子块,图5b表 示进行DCT变换时的系数,图5c表示经过灰度处理后再进行量化时的系数,图5d表示量化 过程中利用数值代表图像的区间。 以上的具体实时方式只是为了说明图像指纹提取的过程,需要说明的是,其中所
选用的分辨率、进行分块的数量以及序列重组的参数等参数信息均可以根据硬件设备水
平、数据精准度要求、信息重要程度、网络安全等级等的外部环境进行更改、设定。 图6是表示本发明的图像指纹提取单元的逻辑结构示意图。如图6所示,图像指纹
提取单元102包括插值处理模块201、DCT变换模块202、灰度处理模块203、量化模块204、
无损压縮模块205和序列化模块206。 其中,插值处理模块201用于对采集的原始图像进行插值处理,并将分辨率统一 变为规定的分辨率;DCT变换模块202用于将统一分辨率后的图像分块,并进行DCT变换; 灰度处理模块203用于将经过DCT变换过的图像进行RGB的灰度处理,滤掉图像中色彩;量化模块204用于对经过灰度处理的图像结果进行量化;无损压縮模块205,用于对量化后的 图像进行无损压縮生成一个二进制序列;序列化模块206则用于将上述生成的二进制序列 进行序列化重组,得到图像最终的特征指纹。 本发明通过实时采集和还原电信运营商的业务数据,对数据流中包含的文字、图
片、视频等内容进行识别,从而检测出可能存在的不良信息并进行后续处理。 由于电信运营商的相关业务具有大数据量、大并发访问量的特点,因此采用普通
的HTTP报文采集还原技术无法实现实时监测。而本发明提供的基于图像指纹提取及鉴定
的不良信息过滤技术,能够大幅度提高对数据业务内容识别处理的速度,从而使运营商业
务全流量实时监测成为可能。 以上仅仅为对本发明几个具体实施方式
的表述,而并非对本发明的限制。因此,在 本发明的上述教导下,本领域技术人员可以在上述实施例的基础上进行各种改进和变形, 而这些改进和变形,都落在本发明的保护范围内,本领域技术人员应该明白,上述的具体描 述只是更好的解释本发明的目的,本发明的保护范围由权利要求及其等同物限定。
权利要求
一种图像指纹提取方法,其特征在于,包括如下步骤S1对原始图像进行插值处理;S2将插值处理后的图像分块,并进行DCT变换;S3将变换后的图片进行RGB灰度处理;S4对灰度处理的图像结果进行量化;S5对图像进行无损压缩,输出一个二进制序列;S6将上述二进制序列进行序列化重组,得到图像指纹。
2. 按照权利要求1所述的图像指纹提取方法,其特征在于,所述步骤S4进一步包括541 :将图像取样;542 :将取样后的每个样点的取值范围分成若干区间;543 :仅用一个数值代表每个区间中的所有取值。
3. 按照权利要求1所述的图像指纹提取方法,其特征在于,所述步骤S6进一步包括561 :取N个序列中的值进行排列,重组成一个序列;562 :将重组得到的序列进行MD5的变换。
4. 一种图像指纹提取设备,其特征在于,包括插值处理模块(201),用于对原始图像进行插值处理,并将统一分辨率;DCT变换模块(202),用于将统一分辨率后的图像分块,并进行DCT变换;灰度处理模块(203),用于对图像进行RGB的灰度处理;量化模块(204),用于对经过灰度处理的图像结果进行量化;无损压縮模块(205),用于对量化后的图像进行无损压縮生成一个二进制序列;序列化模块(206),用于将上述生成的二进制序列进行序列化重组,得到图像指纹。
5. 按照权利要求4所述的图像指纹提取设备,其特征在于,所述量化模块(204)先将经 过灰度处理的图像进行取样,然后将取样的图像的每个样点的取值范围分成若干区间,并 仅用 一个数值代表每个区间中的所有取值。
6. —种利用权利要求1 3中任一项所述的图像指纹提取方法提取的图像指纹进行的 信息过滤方法,包括如下步骤采集图像数据; 提取图像指纹;根据所提取的图像指纹和图像指纹数据库中存储的图像指纹数据进行图像指纹的审核;如果提取的图像指纹属于图像指纹数据库中存在的图像,则直接根据所述图像指纹数 据库中的相同图像进行审核;如果提取的图像指纹不属于图像指纹数据库中存在的图像,则将所述提取的图像指纹 转入人工审核途径,并将所述提取的图像指纹和人工审核结果存入图像指纹数据库。
7. 按照权利要求6所述的信息过滤方法,其特征在于所述图像指纹数据库(103)中储存的图像指纹数据以关系数据库的形式存储。
8. 按照权利要求7所述的信息过滤方法,其特征在于 所述图像指纹数据至少指纹和属性包括两个字段。
9. 一种利用图像指纹进行信息过滤的信息过滤系统,该系统包括图像采集单元(101),用于采集现网数据; 图像指纹提取单元(102),用于提取图像指纹; 图像指纹数据库(103),用于存储图像指纹数据;图像指纹审核单元(104),用于根据所述图像指纹提取单元(102)提取的图像指纹和所述图像指纹数据库(103)中存储的图像指纹数据进行图像指纹的审核; 其中,所述图像指纹提取单元(102)进一步包括插值处理模块(201),用于对原始图像进行插值处理,并将统一分辨率;DCT变换模块(202),用于将统一分辨率后的图像分块,并进行DCT变换;灰度处理模块(203),用于对图像进行RGB的灰度处理;量化模块(204),用于对经过灰度处理的图像结果进行量化;无损压縮模块(205),用于对量化后的图像进行无损压縮生成一个二进制序列;序列化模块(206),用于将上述生成的二进制序列进行序列化重组,得到图像指纹。
10.按照权利要求9所述的信息过滤系统,其特征在于所述图像指纹数据库(103)中储存的图像指纹数据以关系数据库的形式存储,所述图 像指纹数据至少指纹和属性包括两个字段。 全文摘要
本发明提供一种图像指纹提取方法以及基于图像指纹进行信息过滤的方法和系统。其中的图像指纹提取方法包括如下步骤S1对原始图像进行插值处理;S2将插值处理后的图像分块,并进行DCT变换;S3将变换后的图片进行RGB灰度处理;S4对灰度处理的图像结果进行量化;S5对图像进行无损压缩,输出一个二进制序列;S6将上述二进制序列进行序列化重组,得到图像指纹。通过本发明能够大幅度提高对数据业务内容识别处理的速度,从而使运营商业务全流量实时监测成为可能。
文档编号H04W24/00GK101794390SQ20101011271
公开日2010年8月4日 申请日期2010年2月24日 优先权日2010年2月24日
发明者梁应宏, 黄永军 申请人:北京微智信业科技有限公司