一种垃圾邮件的检测方法及装置的制造方法

文档序号:9250942阅读:433来源:国知局
一种垃圾邮件的检测方法及装置的制造方法
【技术领域】
[0001] 本申请涉及通信技术领域,特别涉及一种垃圾邮件的检测方法及装置。
【背景技术】
[0002] 互联网技术的普及和高速发展,电子邮件以其快捷、方便、低成本的特点,成为了 人们工作和生活的重要通信方式。随之而来的却是垃圾邮件的泛滥,垃圾邮件不仅占用了 有限的网络资料、耗费用户大量的处理时间,还会携带蠕虫、病毒、钓鱼式攻击等网络安全 问题,因此需要快速有效的垃圾邮件检测来保证用户正常的邮件通信。
[0003] 在众多的垃圾邮件检测技术中,基于统计的内容过滤技术因过滤效果好、能够及 时捕捉垃圾邮件特征的变化、人工干预少,在垃圾邮件检测过程中被广泛采用,而支持向量 机(SupportVectorMachine,SVM)由于小样本、良好的推广性能、理论完备、适应性强、 全局最优、泛化能力强、训练时间短等优点,相比其他基于统计的过滤技术更具优势,但已 有基于支持向量机的垃圾邮件检测的研宄中,采用优化特征选词过程、对训练过程加权、扩 展线性判别函数的约束条件、优选支持向量机的核函数及其参数的组合等方法提高检测精 度,这些方法均是通过增加检测过程的复杂度来提高检测精度但却牺牲了检测效率,在高 性能要求的网关类安全产品或其他需要高性能的垃圾邮件检测产品中,检测效率成为主要 性能瓶颈,为了保证高带宽,用户甚至会选择关闭此类功能,这严重影响了网关类安全产品 的用户体验。

【发明内容】

[0004] 本申请所要解决的技术问题是提供一种垃圾邮件的检测方法,在保证检测精度情 况下提尚检测效率,以提尚网关类安全广品的用户体验。
[0005] 本申请还提供了一种垃圾邮件的检测装置,用以保证上述方法在实际中的实现及 应用。
[0006] -方面,本申请提供了一种垃圾邮件的检测方法,所述方法包括:
[0007] 根据样本库和特征词词库生成样本向量,所述特征词词库包括从所述样本库的样 本邮件提取的正常邮件类特征词和垃圾邮件类特征词;
[0008] 选择支持向量机的线性核函数,以所述样本向量作为输入训练得到分类函数;
[0009] 根据所述分类函数的系数确定所述特征词词库中特征词的权值,筛选出权值非零 值的特征词以生成特征词集合,并根据所述分类函数的偏移量确定判定阈值;
[0010] 根据所述特征词集合统计待检测邮件包含的特征词的权值总和,当该权值总和超 过所述判定阈值时,确定该邮件为垃圾邮件。
[0011] 可选的,通过以下方式生成特征词词库,该方式包括:
[0012] 对样本库的样本邮件进行分词处理生成分词词库;
[0013] 对样本邮件和分词词库作模式匹配,分别统计正常邮件类特征词和垃圾邮件类特 征词各自对应的词频、类内文档频以及类外文档频;
[0014] 根据统计的词频、类内文档频以及类外文档频,选择预设个数的特征词组合生成 特征词词库。
[0015] 可选的,在对所述样本邮件和所述分词词库作模式匹配之前,所述方法还包括:
[0016] 采用随机上采样和随机下采样相结合的方式,对所述样本库中的正常邮件和垃圾 邮件进行均衡处理。
[0017] 可选的,所述根据统计的词频、类内文档频以及类外文档频,选择预设个数的特征 词组合生成特征词词库,包括:
[0018] 按照词频降序方式分别从正常邮件类特征词和垃圾邮件类特征词中选择排序靠 前的Ml个特征词;
[0019] 根据统计的类内文档频和类外文档频分别计算正常邮件和垃圾邮件各自的Ml个 特征词的类别权重,按照类别权重降序方式分别从正常邮件和垃圾邮件的Ml个特征词中 选择排序靠前的且类别权重大于零的M2个特征词,将选择的M2个特征词组合生成特征词 词库;Ml和M2均是预设阈值,Ml>M2 > 0。
[0020] 可选的,按照如下方式计算特征词的类别权重,该方式包括:
[0022] CW(t,Ci)表示特征词t在类别Ci的权重;类别Ci表示正常邮件类别或者垃圾邮 件类别;a表示分类倾向调节因子;innerdf(t,Ci)表示特征词t在类别ci下的类内文档 频;OUterdf (t,Ci)表示特征词t在类别ci下的类外文档频。
[0023] 可选的,根据所述分类函数的系数确定所述特征词词库中每个特征词的权值,筛 选出权值非零值的特征词以生成特征词集合,并根据所述分类函数的偏移量确定判定阈 值,包括:
分类函数的系数,YiG(-1,+1)表示样本向量Xi的类别标识,Xi=(d…,dj,…,dN);i= 1,2,…,n;j= 1,2,…,N,n表示样本库的样本邮件个数,N表示特征词词库的特征词个数, dj表示特征词库中第j个特征词在样本向量Xi中的坐标值,且当样本向量Xi匹配命中该特 征词,则dj取值为1,否则,d」取值为0,ai表示拉格朗日乘子;X= ((I1,…,dj,…,dN),j= 1,2,…,Idj表示特征词库中第j个特征词在待检测邮件中的匹配结果,当待检测邮件匹配 命中该特征词,则4取值为1,否则屯取值为0,X向量作为线性分类函数的输入向量,b为 偏移量;
[0025] 从所述系数w中筛选出权值非零值的特征词以生成特征词集合,并确定判定阈值 为一b〇
[0026] 可选的,根据所述特征词集合统计待检测邮件包含的特征词的权值总和,当该权 值总和超过所述判定阈值时,确定该邮件为垃圾邮件,包括:
[0027] 根据所述特征词集合对待检测邮件进行模式匹配,记录匹配命中的特征词且一个 特征词仅记录一次,并计算记录的特征词的权值总和;
[0028] 当所述权值总和超过所述判定阈值时,确定该邮件为垃圾邮件。
[0029] 又一方面,本申请提供了一种垃圾邮件的检测装置,所述装置包括:
[0030] 样本向量生成单元,用于根据样本库和特征词词库生成样本向量,所述特征词词 库包括从所述样本库的样本邮件提取的正常邮件类特征词和垃圾邮件类特征词;
[0031] 分类函数生成单元,用于选择支持向量机的线性核函数,以所述样本向量作为输 入训练得到分类函数;
[0032] 检测参数确定单元,用于根据所述分类函数的系数确定所述特征词词库中特征词 的权值,筛选出权值非零值的特征词以生成特征词集合,并根据所述分类函数的偏移量确 定判定阈值;
[0033] 垃圾邮件检测单元,用于根据所述特征词集合统计待检测邮件包含的特征词的权 值总和,当该权值总和超过所述判定阈值时,确定该邮件为垃圾邮件。
[0034] 可选的,所述装置还包括:
[0035] 特征词词库创建单元,用于根据样本库的样本邮件创建特征词词库,所述特征词 词库创建单元包括:
[0036] 分词单元,用于对样本库的样本邮件进行分词处理生成分词词库;
[0037] 统计单元,用于对样本邮件和分词词库作模式匹配,分别统计正常邮件类特征词 和垃圾邮件类特征词各自对应的词频、类内文档频以及类外文档频;
[0038] 选择单元,用于根据统计的词频、类内文档频以及类外文档频,选择预设个数的特 征词组合生成特征词词库。
[0039] 可选的,所述特征词词库创建单元,还包括:
[0040] 均衡单元,用于采用随机上采样和随机下采样相结合的方式,对所述样本库中的 正常邮件和垃圾邮件进行均衡处理。
[0041] 可选的,所述选择单元,包括:
[0042] 第一筛选子单元,用于按照词频降序方式分别从正常邮件类特征词和垃圾邮件类 特征词中选择排序靠前的Ml个特征词;
[0043] 第二筛选子单元,用于根据统计的类内文档频和类外文档频分别计算正常邮件和 垃圾邮件各自的Ml个特征词的类别权重,按照类别权重降序方式分别从正常邮件和垃圾 邮件的Ml个特征词中选择排序靠前的且类别权重大于零的M2个特征词,将选择的M2个特 征词组合生成特征词词库;Ml和M2均是预设阈值,Ml>M2 > 0。
[0044] 可选的,所述第二筛选子单元具体按照如下方式计算类别权重:
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1