专利名称:一种基于视觉特征的图像垃圾邮件过滤方法
技术领域:
本发明涉及电子邮件领域,尤其是涉及一种基于视觉特征的图像垃圾邮件过滤方法。
背景技术:
电子邮件由于低廉的价格、便捷的传输方式,自产生之日起就一直受到广大网民青睐, 也逐渐受到政府官员的青睐,2009年2月,美国总统奥巴马向1300万支持者群发电子邮件 求助[1]。这使得电子邮件迅速成为垃圾信息滋生的温床,造成垃圾邮件泛滥。中国互联网络 信息中心(CNNIC)发布的《中国互联网发展状况统计报告》显示,2004年1月中国网民平 均每周收到垃圾邮件7.9封,但2009年1月中国网民平均每周收到的垃圾邮件数量达到17.55 封,垃圾邮件随着网民数量的增加而不断增长。用户收到的垃圾邮件正式格式主要有三种, 图片加文本格式,纯文本格式和纯图片格式。其中只有近三成是纯文本格式,这也说明图像 垃圾邮件所占比例接近70%。由于目前计算机视觉技术无法攻克CAPTCHA,这也使得图像 垃圾邮件附带的图像越来越像CAPTCHA。
图像垃圾邮件是指包含有图像信息的垃圾邮件,图像可以包含在正文、附件或托管于其 他网站,在正文中显示。纯文本的垃圾邮件大小一般小于5KB,图像垃圾邮件则会大的多, 从1KB到几MB不等,大多在1K到70K。
图像垃圾邮件可以轻松绕过传统的文本过滤器。为了逃避反垃圾邮件设备的扫描,对垃 圾邮件制造者来说,图像垃圾邮件可以轻松逃避扫描邮件正文的反垃圾邮件技术,漂亮的图 像能传递更为丰富、专业的信息,丰富的图像技术可以迅速制造出不同的图像垃圾邮件。
目前,图像垃圾邮件过滤方面的成果并不多,主要可以分为以下三类
(1) 传统过滤技术
虽然图像垃圾邮件出现的目的是为了绕开传统过滤器的扫描,但是传统过滤技术(如蜜 罐)仍然可以截获少量图像垃圾邮件。
(2) 基于OCR的过滤技术
OCR是英文Optical Character Recognition (称光学字符识别)的缩写,其目的是解决文 字信息的高效、自动输入到计算机的问题。OCR是自动模式识别领域最成功的技术,OCR可 以识别内容清晰的图像垃圾邮件,无法识别内容模糊的图像垃圾邮件。OCR技术的不足是计算代价大。
(3)基于文字区域特征的过滤技术
与使用OCR技术不同,基于文字特征的过滤技术直接利用文字区域特征进行图像垃圾 邮件过滤,特征主要来源于两个方面, 一方面来源于邮件IH文,另一方面来源于邮件图像。 基于文字区域特征的优点是不需用使用昂贵的OCR技术,不足是计算代价过大。
发明内容
有鉴于此,本发明的目的是提供一种图像垃圾邮件的过滤方法和装置,利用文件属性特 征以及图像的视觉特征(颜色特征、纹理特征和形状特征),以便邮件服务提供商能够及时发 现图像垃圾邮件,并采取相应措施对像垃圾邮件进行处理,以净化计算机网络环境和保证互 联网的安全、畅通。
本发明既能应用于电子邮件服务器,也能应用于电子邮件客户端。利用文件属性特征和 视觉特征,实现图像垃圾邮件的过滤,以达到防范图像垃圾邮件的目的。
为了实现上述目的,采取的技术方案是 图像垃圾邮件的判决规则如下
(1) 如果图像垃圾邮件所含图像为垃圾图像,那么就判定待测图像邮件为图像垃圾邮件; 反之,如果为合法图像,那么就判定待测图像邮件为图像合法邮件。
(2) 如果使用了黑白名单技术,那么先利用黑白名单判定,然后再利用规则(l)进行判定。 基于视觉特征的图像垃圾邮件过滤方法包括下列步骤
(1) 提取待测图像邮件中图像的文件属性特征,并根据预先设定的阈值对待测图像进行判 决。标记垃圾图像和可疑图像。若为垃圾图像,则直接过滤;若为可疑图像,则进入步骤(2)。
(2) 提取图像颜色特征、纹理特征和边缘特征三种视觉特征,利用特征相似度对图像进行 判决。标记垃圾图像和非垃圾图像。若为垃圾图像,则直接过滤。
步骤(l)所述的文件属性包括高度、宽度、高宽比、文件类型、文件大小、文件面积、 压縮率、周长复杂度、文字区域占总区域的面积比率等。
最好,在进行步骤(l)之前进行如下步骤
① 建立垃圾图像模板库;
② 提取垃圾图像的文件属性特征;
③ 训练文件属性特征,得到经验阈值;歩骤(2)所述的颜色特征包括灰度直方图、颜色直方图、平均色、颜色集、颜色聚合向 量、平均亮度、颜色空间。纹理特征包括共生矩阵、边缘频率、小波变换。形状特征包括: 几何矩、偏心率、骨架。
歩骤(2)所述的相似度的测量方法包括明式距离、直方图的交、Manhattan距离、欧式距 离、Mahalanbis距离、K-L距离、Jeffrey Divergence距离以及三角余弦。 最好,在进行步骤(2)之前进行如下步骤
① 归一化模板库中垃圾图像;
② 归一化待测图像;
③ 提取模板中颜色特征、纹理特征和边缘特征。 可选的,还可以包括,设置黑白名单。
① 建立一个合法用户的白名单列表;
② 建立一个非法用户的黑名单列表;
③ 当接收到图像邮件时首先检测邮件地址,若为空,则被认定为垃圾邮件,直接删除。 若非空,进行下一步检测;
检测接收到的图像邮件的地址是否在白名单上,若在白名单上,那么该邮件被认定为 合法邮件,投递到用户收件箱中;
检测接收到的图像邮件的地址是否在黑名单上,若在黑名单上,那么该邮件被认定为 图像垃圾邮件,直接过滤掉。若接收到的图像垃圾地址既不在白名单上,又不在黑名单 上,那么就进入步骤(l)。
本发明的技术效果-
由于没有提取、分析和区别图像中文字特征,而是提取图像的文件属性特征,以及图像 的视觉特征,因此本发明速度较快、效率高。 ,
图1是本发明的功能模块图
图2是本发明中具体实施方式
的图像垃圾邮件过滤流程图具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细 描述。
如图1所示,本发明的包含以下功能模块
101,待测图像邮件;
102,黑白名单判决模块;
103,文件属性判决模块;
104,视觉特征判决模块;
105,图像合法邮件;
106,图像垃圾邮件。
对于待测图像邮件101,可以经过黑白名单判决模块102、图像属性判决模块103以及图 像特征判断模块104得到结果图像合法邮件105和图像垃圾邮件106。其中,黑白名单判 决模块102为可选项。
实施具体流程如图2所示 201,收到待测图像邮件; 202,査看黑白名单; 203,判决;
204,若在白名单上,判决为图像合法邮件; 214,若在黑名单上,判决为图像垃圾邮件;
205,既不在白名单上,也不在黑名单上,判决为可疑图像邮件; 206,提取可疑图像的文件属性特征; 207,创建模板库;
208,提取模板图像的文件属性恃征,训练得经验阈值; 209,判决;
214,根据经验阈值,判决为垃圾图像邮件; 210,根据经验阈值,判决为可疑图像邮件; 211,提取可疑图像的视觉特征; 212,提取模板图像的视觉特征; 213,判决;214, 211与212两者特征匹配,判决为图像垃圾邮件; 215, 211与212两者特征不匹配,判决为图像合法邮件。
权利要求
1、一种基于视觉特征的图像垃圾邮件过滤方法,其特征在于,图像垃圾邮件的判决规则如下(1)如果图像垃圾邮件所含图像为垃圾图像,那么就判定待测图像邮件为图像垃圾邮件;反之,如果为合法图像,那么就判定待测图像邮件为图像合法邮件。(2)如果使用了黑白名单技术,那么先利用黑白名单进行判定,再利用规则(1)进行判定。
2、 一种基于视觉特征的图像垃圾邮件过滤方法,其特征在于,包括下列歩骤(1) 提取待测图像邮'件中图像的文件属性特征,并根据预先设定的阈值对待测图像进行判决。标记垃圾图像和可疑图像。若为垃圾图像,则直接过滤;若为可疑图像,则进入步骤(2)。(2) 提取待测图像颜色特征、纹理特征和边缘特征三种视觉特征,利用特征相似度对图像进行判决。标记垃圾图像和非垃圾图像。若为垃圾图像,则直接过滤。
3、 根据权利要求2所述的基于视觉特征的图像垃圾邮件过滤方法,其特征在于步骤(l) 所述的文件属性特征包括高度、宽度、高宽比、文件类型、文件大小、文件面积、压缩率、 周长复杂度、文字区域占总区域的面积比率。
4、 根据权利要求2所述的基于视觉特征的图像垃圾邮件过滤方法,其特征在于最好, 在进行歩骤(l)之前进行如下歩骤(41) 建立垃圾图像模板库;(42) 提取垃圾图像的文件属性特征(43) 训练文件属性特征,得到经验阈值。
5、 根据权利要求2所述的基于视觉特征的图像垃圾邮件过滤方法,其特征在于步骤(2) 所述的颜色特征包括灰度直方图、颜色直方图、平均色、颜色集、颜色聚合向量、平均亮 度、颜色空间等。纹理特征包括共生矩阵、边缘频率、小波变换。形状特征包括几何矩、 偏心率、骨架。
6、 根据权利要求2所述的基于视觉特'征的图像垃圾邮件过滤方法,其特征在于步骤(2)所述的相似度的测量方法包括明式距离、直方图的交、Manhattan距离、欧式距离、Mahalanbis 距离、K-L距离、Jeffrey Divergence距离以及三角余弦。
7、 根据权利要求2所述的基于视觉特征的图像垃圾邮件过滤方法,其特征在于最好, 在进行步骤(2)之前进行如下步骤(71) 归一化模板库中垃圾图像;(72) 归一化待测图像;(73)提取模板中颜色特征、纹理特征和边缘特征。
8、根据权利要求2所述的基于视觉特征的图像垃圾邮件过滤方法,其特征在于,可选的, 还可以包括,设置黑白名单。(81) 建立一个合法用户的白名单列表;(82) 建立一个非法用户的黑名单列表;(83) 当接收到图像邮件时首先检测邮件地址,若为空,则被认定为垃圾邮件,直接删除。 若非空,进行下一步检测;(84) 检测接收到的图像邮件的地址是否在白名单上,若在白名单上,那么该邮件被认定 为合法邮件,投递到用户收件箱中;(85) 检测接收到的图像邮件的地址是否在黑名单上,若在黑名单上,那么该邮件被认定 为图像垃圾邮件,直接过滤掉。若接收到的图像垃圾地址既不在白名单上,又不在黑名 单上,那么就进入歩骤(l)。
全文摘要
一种基于视觉特征的图像垃圾邮件过滤方法,技术领域为图像垃圾邮件过滤。主要解决目前互联网上图像垃圾邮件泛滥的问题。技术方案的要点为经黑白名单判决模块、文件属性特征判决模块、视觉特征判决模块的判决,最终区分出图像垃圾邮件和图像合法邮件。见附图,主要用途为防止图像垃圾邮件对用户的干扰,节省网络资源。
文档编号H04L29/06GK101540682SQ20091008339
公开日2009年9月23日 申请日期2009年5月6日 优先权日2009年5月6日
发明者何培舟, 勇 孙, 林新棋, 温向明, 伟 郑 申请人:北京邮电大学