一种中文图像型垃圾邮件过滤方法及系统的制作方法

文档序号:8512743阅读:467来源:国知局
一种中文图像型垃圾邮件过滤方法及系统的制作方法
【技术领域】
[0001] 本发明涉及字符识别技术领域,特别是涉及一种中文图像型垃圾邮件过滤方法及 系统。
【背景技术】
[0002] 随着互联网的发展,使用图像作为载体来传递信息已经越来越常见了,很多正常 邮件图像常常也含有大量的文本内容。在这样的情况,为了正确区分出垃圾邮件图像就需 要一定程度的图像语义信息。
[0003] 目前,对图像型垃圾邮件的过滤主要有以下四类:
[0004] 一、基于图像近似特征的过滤技术
[0005] 这种技术主要利用了垃圾邮件图像的产生机制,即大量的垃圾邮件图像实际上是 由很少的图像模板增加一定的随机干扰产生的。因此,可以在邮件服务器端对接收的邮件 图像进行聚类分析,从而获取更多的有益信息。美国阿拉巴马大学伯明翰分校的提出利用 聚类识别来自相同源的垃圾邮件图像的方法。相同聚类中的图像来自相同源地址的可能性 较高,这样有利于对这些地址进行进一步的跟踪分析。利用邮件批量发送的特征,可以通过 聚类对来自相同源的批量图像型垃圾邮件进行监测,有利于实时发现可疑的发送者,聚类 结果可以作为后续判断的基础依据。这种方式对于降低计算开销,提高系统吞吐量具有较 好作用,但却很难避免对于正常图像的误判。
[0006] 二、基于图像文本区域的过滤技术
[0007] 为了克服具有图像文本内容过滤技术的缺点,一些学者提出利用图像中的文字区 域特征进行过滤的方法,从而避免进行文本内容识别。如美国SRI研宄所提出定位图像中 的文本区域,再将文字区域在整幅图像中所占的面积比值、颜色饱和度、颜色散度等特征送 入支持向量机训练后用于判断垃圾邮件图像。美国加州大学的则提出利用图像中内嵌的文 字区域特征,标题或者计算机自动生成图像的特征,图像的位置信息特征则构成邮件的特 征向量,再同样借助支持向量机进行分类判断。
[0008] 三、基于图像文本内容的过滤技术
[0009] 实际上就是基于OCR (Optical Character Recognition,光学字符识别)技术的方 法,该类方法首先利用OCR技术将图像中的文字进行识别,然后再使用成熟的文本过滤器 进行判决。基于OCR技术的方法因为能够得到图像本身的语义信息,同时能够借用各种成 熟的文本过滤技术,往往能够得到在准确率等性能上表现良好。但是其性能受OCR技术限 制太大,对含有复杂背景或是中文内容的垃圾邮件图像往往不能准确识别文本并且效率太 低。
[0010] 四、基于图像本身特征的过滤技术
[0011] 这种方法类似于图像分类,通过提取图像特征,并将其归类为正常图像和垃圾邮 件图像。目前,这类方法的区别主要在于提取的图像特征和使用的分类器不同。如美国宾夕 法尼亚大学提出利用图像类型、大小、图像高、宽、高宽比、颜色均值、色饱和度、边缘特征、 主色调覆盖范围等特征构成图像属性,并利用最大熵和贝叶斯分类器进行判别。美国安全 计算公司提出利用图像像素位宽度、高度、图像类型、文件大小、图像面积、压缩比等九个特 征用于描述图像的属性再结合决策树和支持向量机来进行判断。电子科技大学的万明成等 则提出利用垃圾邮件图像的颜色数量、方差、连续出现的颜色数、主色覆盖范围、色饱和度 表示图像的颜色特征,再利用图像特征点的主方向分布特征表示文字分布特征,同时使用 支持向量机进行判断。
[0012] 发明人在发明过程中发现,上面的方法除了基于OCR技术的方法,在本质上都很 难抽取图像的语义信息。然而使用OCR技术过滤垃圾邮件图像,一方面识别全部文本信 息可能是冗余的,因为对垃圾邮件图像的识别或者类别的判定往往只需要少量的关键字即 可。另一方面则受制于OCR技术本身,如效率太低等。其中,OCR技术的效率问题在中文 OCR识别中表现的更加严重,因为在中文OCR中识别单位是汉字而并非像英文中少量的字 母,而常用的汉字就有3755个。

【发明内容】

[0013] 本发明要解决的技术问题是提供一种中文图像型垃圾邮件过滤方法及系统,用以 解决现有技术对中文图像型垃圾邮件识别效率低的问题。
[0014] 为解决上述技术问题,本发明提供一种中文图像型垃圾邮件过滤方法,所述方法 包括以下步骤:在图像背景下提取得到图像中的汉字;使用汉字的关键点对所述汉字的字 符特征进行表示,所述汉字的关键点为汉字中笔画的顶点以及笔画之间的交点;将所述字 符特征与预先设置的样本库进行匹配,识别出垃圾邮件;对所述垃圾邮件进行过滤。
[0015] 进一步,所述在图像背景下提取得到图像中的汉字的过程具体包括:利用Haar小 波变换提取文本区域;将所述文本区域切分为一系列单字符子图。
[0016] 进一步,所述提取文本区域的过程具体包括:
[0017] 使用二维离散Harr小波变换,将图像信息变换至4个小波域;
[0018] 对3个高频域使用最大类间方差法进行二值化,其中根据公式
[0019] t = Max {w〇 (t) X [u0 (t) -u] ^w1 (t) X [U1 (t) -u]2}
[0020] 选择阈值,其中u代表图像整体的平均灰度;U(l(t)和^⑴分别代表在阈值t下 进行分割时背景和前景区域的平均灰度;% (t)和W1 (t)分别代表背景和前景区域
[0021] 在整体中的比例;
[0022] 对得到的高频域进行图像闭操作;
[0023] 对经过闭操作后的高频域进行二维离散Harr小波逆变换,并与原图进行与操作, 得到文本区域。
[0024] 进一步,所述将文本区域切分为一系列单字符子图的过程具体包括:利用2*1的 矩形窗对图像进行闭操作;通过使用大小和宽高比条件进行筛选,得到图像中的汉字字符; 所述大小条件为在14*14到40*40之间;所述宽高比条件为宽高比在0. 7到I. 1之间。
[0025] 进一步,所述使用汉字的关键点对汉字的字符特征进行表示的过程具体包括:提 取汉字字符中的所有关键点以及关键点之间连接关系,得到关键点邻接矩阵;从所述关键 点邻接矩阵中二次抽取夹角直方图特征和相对位置直方图特征,利用所述夹角直方图特征 和相对位置直方图特征表示所述汉字的字符特征。
[0026] 进一步,所述得到关键点邻接矩阵的过程具体包括:
[0027] 通过Sun-Zhang并行算法对图像进行骨架抽取,得到骨架图;
[0028] 使用图像邻接矩阵
【主权项】
1. 一种中文图像型垃圾邮件过滤方法,其特征在于,所述方法包括以下步骤: 在图像背景下提取得到图像中的汉字; 使用汉字的关键点对所述汉字的字符特征进行表示,所述汉字的关键点为汉字中笔画 的顶点以及笔画之间的交点; 将所述字符特征与预先设置的样本库进行匹配,识别出垃圾邮件; 对所述垃圾邮件进行过滤。
2. 如权利要求1所述的中文图像型垃圾邮件过滤方法,其特征在于,所述使用汉字的 关键点对汉字的字符特征进行表示的过程具体包括: 提取汉字字符中的所有关键点以及关键点之间连接关系,得到关键点邻接矩阵; 从所述关键点邻接矩阵中二次抽取夹角直方图特征和相对位置直方图特征,利用所述 夹角直方图特征和相对位置直方图特征表示所述汉字的字符特征。
3. 如权利要求2所述的中文图像型垃圾邮件过滤方法,其特征在于,所述得到关键点 邻接矩阵的过程具体包括: 通过Sun-Zhang并行算法对图像进行骨架抽取,得到骨架图; 使用图像邻接矩_
表示骨架化的汉字,其中N为骨架点的数 量;矩阵的对角线元素 k表示第k个骨架点;表示第j个骨架点相对于第i个骨架点的 连接权重; 随机选取一个初始点进行深度优先遍历,在遍历的过程通过公式
分别计算当前点和在遍历方向上下一点在八邻域连接点的数量和连接关系权重,其中 N(v)代表当前骨架点V周围的邻接点数量;w⑴代表第i个邻接点相对于当前点的连接权 重; 提取只保留关键点及其连接关系的邻接矩 其中m表示关键点数量;nk代表第k个关键点的编号;a u表示第i个关键点和第j个 关键点是相互连接,取值为O或1。
4. 如权利要求3所述的中文图像型垃圾邮件过滤方法,其特征在于,所述抽取夹角直 方图特征的过程具体包括: 根据所述关键点邻接矩阵中的连接关系和关键点在骨架图中的位置,得到汉字字形本 身所形成的所有夹角; 以15度为单位区间,将所有的夹角信息映射成一个12维的特征向量。
5. 如权利要求3所述的中文图像型垃圾邮件过滤方法,其特征在于,所述抽取相对位 置直方图特征的过程具体包括: 对汉字的每一个关键点,计算其他所有关键点相对于所述关键点的八卦限分布,得到 一个8维的特征向量,所述八卦限以45度为单位划分。
6. 如权利要求1至5任一项所述的中文图像型垃圾邮件过滤方法,其特征在于,所述识 别出垃圾邮件的过程具体包括: 使用最近邻匹配算法,将字符特征与样本库进行匹配,得到最接近的匹配字符特征作 为潜在匹配; 判断当前字符特征和所述潜在匹配的距离是否大于预先设定的阈值,如果所述距离小 于阈值,则将所述潜在匹配的类别标记赋给当前字符特征,否则将当前字符特征标记为其 他; 重复上述两个步骤,得到图像中所有字符的类别信息; 根据所述类别信息,使用分类器对图像的类别进行判定。
7. 如权利要求6所述的中文图像型垃圾邮件过滤方法,其特征在于,所述方法还包括 使用已知的垃圾邮件图像中的字符特征构建样本库,并通过对构建样本库的垃圾邮件图像 进行训练,选取所述阈值。
8. 如权利要求7所述的中文图像型垃圾邮件过滤方法,其特征在于,在识别出垃圾邮 件之后,所述方法还包括:将所述垃圾邮件图像中的字符特征加入所述样本库。
【专利摘要】本发明公开了一种中文图像型垃圾邮件过滤方法,包括:在图像背景下提取得到图像中的汉字;使用汉字的关键点对汉字的字符特征进行表示;将字符特征与预先设置的样本库进行匹配,识别出垃圾邮件;对垃圾邮件进行过滤。本发明还公开了一种中文图像型垃圾邮件过滤系统。本发明在中文图像型垃圾邮件过滤中既能保留一定程度的语义信息,又能快速准确的进行识别,本发明可以在只使用很小的特征库下,得到极低的误识别率和很高的准确率。本发明具有更宽松的字符识别要求,能够适应更多变,背景更复杂的图像;对较广泛的图片都能到达较好的效果;在对中文的过滤应用中,本发明从实际垃圾邮件图像中提取少量关键字样本库,使得算法效率大大提高。
【IPC分类】G06Q10-10, G06K9-46, G06K9-00
【公开号】CN104834891
【申请号】CN201510083460
【发明人】刘亚姝, 徐彬, 严寒冰, 张洪刚, 李思远, 徐原, 胡俊, 高胜, 何世平, 饶毓, 徐晓燕, 刘婧, 党向磊, 李世淙, 赵宸
【申请人】北京建筑大学, 北京邮电大学, 国家计算机网络与信息安全管理中心
【公开日】2015年8月12日
【申请日】2015年2月16日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1