一种基于深度学习的垃圾邮件过滤方法及系统的制作方法

文档序号:10725127阅读:798来源:国知局
一种基于深度学习的垃圾邮件过滤方法及系统的制作方法
【专利摘要】本发明公开了一种基于深度学习的垃圾邮件过滤方法及系统,其中,所述基于深度学习的垃圾邮件过滤方法包括:步骤A:对邮件样本进行处理生成第一向量空间模型,构建深度置信网络;步骤B:对测试邮件进行处理生成第二向量空间模型;步骤C:利用所构建的深度置信网络检测第二向量空间模型;步骤D:输出检测结果。本发明所提供的基于深度学习的垃圾邮件过滤方法,由于采用了构建深度置信网络,通过所构建的深度置信网络检测测试邮件的方式,提高了识别垃圾邮件的准确性及稳定性,同时节省了标注大量样本所需花费的时间及人力。
【专利说明】
一种基于深度学习的垃圾邮件过滤方法及系统
技术领域
[0001]本发明涉及垃圾邮件过滤技术领域,尤其涉及的是一种基于深度学习的垃圾邮件过滤方法及系统。
【背景技术】
[0002]随着互联网技术的迅猛发展,电子邮件已近成为人们生活、工作和学习中不可或缺的一部分。它为我们的生活提供了极大的便利,但是相应的垃圾邮件对人们生活造成的困扰也越来越大。
[0003]邮件过滤的核心问题是如何使用已知的邮件文本数据集合建立一个文本分类模型,然后使用这个模型对邮件类型进行判别,从而过滤出垃圾邮件。目前以下这些算法是比较常用的,比如:K紧邻算法(KNN)、朴素贝叶斯算法、决策树算法、支持向量机算法。但这些算法都有着各自的局限性。
[0004]朴素贝叶斯算法,不管如何选择概率模型,该模型始终都是在给定的一个文本的条件下才能计算邮件被分为垃圾类别的概率。并且前提是各个特征之间两两独立。对于knn算法,k值的选取尤为重要,它决定了最后分类的正确性。但是到目前为止还没有一个很好的方法;来确定合理的k值。
[0005]由于垃圾邮件过滤实际上是一个二分类问题,所以传统的分类方法虽然可以达到目的,但是效果并不好。目前邮件过滤主要采用的方法是给予规则过滤的方法,这种方法对于规则的依赖性很强,只要规则选取的好,相应的过滤结果也会非常好。但是垃圾邮件的特点也会不断的变化,这就要求不断地调整规则,无疑是非常被动且麻烦的。
[0006]因此,现有技术还有待于改进和发展。

【发明内容】

[0007]鉴于上述现有技术的不足,本发明的目的在于提供一种能够提高对垃圾邮件识别准确性及稳定性,同时节省标注大量样本所需花费时间及人力的基于深度学习的垃圾邮件过滤方法及系统。
[0008]本发明的技术方案如下:
[0009]—种基于深度学习的垃圾邮件过滤方法,其中,所述基于深度学习的垃圾邮件过滤方法包括:
[0010]步骤A:对邮件样本进行处理生成第一向量空间模型,构建深度置信网络;
[0011]步骤B:对测试邮件进行处理生成第二向量空间模型;
[0012]步骤C:利用所构建的深度置信网络检测第二向量空间模型;
[0013]步骤D:输出检测结果。
[0014]所述的基于深度学习的垃圾邮件过滤方法,其中,所述步骤A具体包括:
[0015]步骤Al:训练邮件样本;
[0016]步骤A2:对训练后的邮件样本进行预处理,确定垃圾邮件的特征并构造特征集;
[0017]步骤A3:根据所构造的特征集生成第一向量空间模型;
[0018]步骤A4:根据所生成第一向量空间模型构建深度置信网络。
[0019]所述的基于深度学习的垃圾邮件过滤方法,其中,所述步骤A2具体包括:
[0020]步骤A21:对训练后的邮件样本进行分词;
[0021]步骤A22:根据所有已分出词条构造词典;
[0022]步骤A23:统计所构造词典去除停用词后剩余词条的词频。
[0023]所述的基于深度学习的垃圾邮件过滤方法,其中,所述步骤A3具体包括:
[0024]步骤A31:将所构造特征集中所有特征进行向量化,并按照向量空间的模式存储;
[0025 ]步骤A32:对所生成的特征向量进行归一化。
[0026]所述的基于深度学习的垃圾邮件过滤方法,其中,所述步骤A4包括:
[0027]步骤A41:充分训练第N个RMB得到该RMB的权值;
[0028]步骤A42:固定第N个RMB的权值及偏移量,并使用其隐性神经元的状态作为下一个RMB的输入向量;
[0029]步骤A43:进行下一个RMB的训练直至所有RMB训练完成。
[0030]一种基于深度学习的垃圾邮件过滤系统,其中,所述基于深度学习的垃圾邮件过滤系统包括:
[0031]训练模块,用于对邮件样本进行处理生成第一向量空间模型,构建深度置信网络;
[0032]测试模块,用于对测试邮件进行处理生成第二向量空间模型;
[0033]检测模块,用于利用所构建的深度置信网络检测第二向量空间模型;
[0034]输出模块,用于输出检测结果。
[0035]所述的基于深度学习的垃圾邮件过滤系统,其中,所述训练模块具体包括:
[0036]训练子模块,用于训练邮件样本;
[0037]预处理子模块,用于对训练后的邮件样本进行预处理,确定垃圾邮件的特征并构造特征集;
[0038]模型构造子模块,用于根据所构造的特征集生成第一向量空间模型;
[0039]DBN构建子模块,用于根据所生成第一向量空间模型构建深度置信网络。
[0040]所述的基于深度学习的垃圾邮件过滤系统,其中,所述预处理子模块具体包括:[0041 ]分词单元,用于对训练后的邮件样本进行分词;
[0042]计算单元,用于计算所有已分出词条所对应的全局因子;
[0043]词典构造单元,用于根据所有已分出词条及计算出的全局因子构造词典;
[0044]词频统计单元,用于统计所构造词典去除停用词后剩余词条的词频。
[0045]所述的基于深度学习的垃圾邮件过滤系统,其中,所述模型构造子模块具体包括:
[0046]特征处理单元,用于将所构造特征集中所有特征进行向量化,并按照向量空间的模式存储;
[0047 ]归一化处理单元,用于对所生成的特征向量进行归一化。
[0048]所述的基于深度学习的垃圾邮件过滤系统,其中,所述DBN构造子模块具体包括:
[0049]训练单元,用于充分训练第N个RMB得到该RMB的权值;
[0050]RMB处理单元,用于固定第N个RMB的权值及偏移量,并使用其隐性神经元的状态作为下一个RMB的输入向量。
[0051]本发明所提供的基于深度学习的垃圾邮件过滤方法,由于采用了构建深度置信网络,通过所构建的深度置信网络检测测试邮件的方式,提高了识别垃圾邮件的准确性及稳定性,同时节省了标注大量样本所需花费的时间及人力。
【附图说明】
[0052]图1是本发明中基于深度学习的垃圾邮件过滤方法的主要流程示意图;
[0053]图2是本发明基于深度学习的垃圾邮件过滤系统的结构示意图。
【具体实施方式】
[0054]本发明提供一种基于深度学习的垃圾邮件过滤方法及系统,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0055]本发明提供基于深度学习的垃圾邮件过滤方法,通过深度置信网络所具有的自我学习能力,结合大数据的优势,利用网络上存在的大量样本学习提高分类能力,一方面,能够提高对垃圾邮件识别的准确性及稳定性;另一方面,深度置信网络为半监督学习模型,可以采用大规模无类标的样本集合进行训练,相对于传统的监督学习模型可以节省标注大量样本所需花费的时间及人力。
[0056]如图1所示,一种基于深度学习的垃圾邮件过滤方法,其中,所述基于深度学习的垃圾邮件过滤方法包括:
[0057]SlOO:对邮件样本进行处理生成第一向量空间模型,构建深度置信网络;
[0058]本发明实施例中,邮件样本优选为训练邮件集,指由大量已知类别的邮件组成的集合,也可简称为训练集。通过训练邮件样本可以归纳各个邮件类别的特性。
[0059]深度学习的概念源于人工神经网络的研究,含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
[0060]向量空间模型(VSM:Vector Space Model),其把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。
[0061]在信息过滤及检索领域中,为了便于计算,常用向量空间模型来表示文本。该模型是首先从文本中选出具有代表能力的特征项
[0062]深度智信网络(Deep Belief Network,简称DBN),一种可以作为生成模型,也可以作为判断模型的通过训练其中神经元的权重,让整个神经网络按照最大概率来生成训练数据的双重模型。其可以用于识别特征、分类数据,甚至于生成数据。
[0063]DBN由多层神经元构成,分为显性神经元(简称为显元)及隐性神经元(简称为隐元,又可称为特征检测器);显元用于接收输入,隐元用于提取特征。最顶上的两层间的连接是无向的,可组成联合内存;而较低的其它层之间为连接上下的有向连接。最底层代表了数据向量,每一个神经元代表数据向量的一维。
[0064]本发明实施例中,优选拥有深层架构的前馈神经网络组成的深度置信网络作为训练邮件分类的网络模型,能够利用较少的参数完成复杂的函数逼近。
[0065]S200:对测试邮件进行处理生成第二向量空间模型;
[0066]将测试邮件进行处理以向量空间模型的方式表示出来,也就是指将一篇文本即邮件表示为一个η维向量,而由于自然文本不能够被构造的分类算法直接处理,所以首先需要将文本进行某种处理,转换为分类器能够识别的形式,假设一个文档的η个特征项的值分别为wl,w2,…,wn,由于它们来自于同一待过滤邮件,所以将它们视为一个整体来考虑,让这些特征项构成一个特征向量d,即每一个文本看为是η维空间中的一个向量,其表示形式为:d(wl,w2,…,wn),其中,wi为第i个特征项的权重,η是特征项的个数,特征项可以是字、词、短语或者某种概念,优选为词,以便有更高的分类精度。这样文本表示就转化为先进行文本分词,再由这些词作为向量的维数来表示文本。
[0067]本发明实施例中,文档是指邮件或邮件中的片段如段落、句群或句子等。
[0068]权重是一个相对的概念,针对某一指标而言。某一指标的权重是指该指标在整体评价中的相对重要程度。权重是要从若干评价指标中分出轻重来,一组评价指标体系相对应的权重组成了权重体系。
[0069]S300:利用所构建的深度置信网络检测第二向量空间模型;
[0070]利用所构建的深度置信网络检测第二向量空间模型,是指利用训练好的深度置信网络处理待过滤的邮件,将待过滤的邮件分类,查看其为垃圾邮件还是正常邮件;即该步骤又可表示为:利用所构建的深度置信网络将表示为第二向量空间模型的待过滤邮件进行分类,其中,类别包括垃圾邮件及正常邮件。
[0071]S400:输出检测结果。
[0072]输出检测结果,是指将经过上述步骤的已过滤邮件是否为垃圾邮件或者属于训练邮件集中哪类等结果输出,以便邮件接收者或系统清楚该邮件类别,后续也可加入其它处理过程。如,经邮件接收者确认后将该类别或该邮件发送源地址加入黑名单、灰名单或白名单等。
[0073]本发明所提供的基于深度学习的垃圾邮件过滤方法,由于采用了构建深度置信网络,通过所构建的深度置信网络检测测试邮件的方式,提高了识别垃圾邮件的准确性及稳定性,同时节省了标注大量样本所需花费的时间及人力。
[0074]进一步地,所述的基于深度学习的垃圾邮件过滤方法,其中,所述SlOO具体包括:
[0075]SI 10:训练邮件样本;
[0076]S120:对训练后的邮件样本进行预处理,确定垃圾邮件的特征并构造特征集;
[0077]向量空间模型有布尔型及数值型两种,数值型向量空间模型表示中,特征项权值的计算采用词频(TF,Term Frequency,表示该特征词在文本中出现的次数)表示或TF-1DF(TF-1nverse document frequency,倒排词频)等方法,后者为TF与DF的相关组合。
[0078]故,以向量空间模型表示文本时,由于向量空间的维数由文本集中词的数目来决定,因而维数是相当大的,然而文本的许多信息又是高度冗余的,所以需要降维处理和特征提取。具体步骤为:对文本进行预处理,去掉停用词以及文本中出现频率过少的词;采用特定特征选择方法对词进行特征项选择;还可以包括步骤:根据需要添加其他特征,目的是提高分类效果。
[0079]而布尔型向量空间模型是一种简单文本的表示模型,文本中特征项的状态只有O或I两种形式,O表示该特征项没有出现在文本中,1则表示文本包含特征项。布尔型向量空间模型通过O和I的字串将文本表示成一个0/1序列。这种模型的优点是设计比较简单,分类效率高。
[0080]S130:根据所构造的特征集生成第一向量空间模型;
[0081]生成第一向量空间模型的过程即将特征集中所有特征进行向量化并按照向量空间模式进行存储的过程。
[0082 ] SI 40:根据所生成第一向量空间模型构建深度置信网络。
[0083]进一步地,所述的基于深度学习的垃圾邮件过滤方法,其中,所述S120具体包括:
[0084]S121:对训练后的邮件样本进行分词;
[0085]中文分词方法可分为三大类:基于词典的字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
[0086]基于词典的字符串匹配分词方法,又叫做机械分词方法,其按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大匹配和最小匹配。常用的两种分词方法如下:
[0087](I)正向最大匹配法。正向最大匹配法目的是将最长的复合词分离出来。它的基本思想是:假定分词词典中的最长词条所含汉字个数为n,则用被处理文档的当前字串中的前η个字作为匹配字段,查找字典。若字典中存在这样的一个字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……如此进行下去,直到匹配成功,切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个η字字串进行匹配处理,直到文档被扫描完为止。
[0088](2)逆向最大匹配法。逆向最大匹配法的基本原理和正向最大匹配法相同,不同的是分词切分的方向与正向最大匹配法相反,并且使用的分词词典也不同。在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。
[0089]基于理解的分词方法,其通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。
[0090]基于统计的分词方法,从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数能够较好的反映出构成词的可能性。对字与字同时出现的频率或概率进行统计,次数越高的就越有可能构成一个词。因此利用词频统计的结果帮助分词,会产生一定的效果。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。
[0091]S122:根据所有已分出词条构造词典;
[0092]在构造词典的同时还可以计算所有词条的全局因子,将计算所得到的值放置词典中,使其可以在后续过程中直接调用。
[0093]S123:统计所构造词典去除停用词后剩余词条的词频。
[0094]在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词(Stop Words),在本发明中,优选为在文本中经常出现的,对文本的分类无多大贡献的词。
[0095]由S121至S123,以及上述“降维处理及特征提取具体步骤为:对文本进行预处理,去掉停用词以及文本中出现频率过少的词;采用特定特征选择方法对词进行特征项选择;还可以包括步骤:根据需要添加其他特征”;可以看出步骤S122及S123可以更换次序。
[0096]进一步地,所述的基于深度学习的垃圾邮件过滤方法,其中,所述S130具体包括:
[0097]S131:将所构造特征集中所有特征进行向量化,并按照向量空间的模式存储;
[0098]将所构造特征集中所有特征进行向量化,可以说是分别将其转化为特征向量。
[0099 ] S132:对所生成的特征向量进行归一化。
[0100]归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量。
[0101]在S132之后还可以包括步骤:对所得到的特征向量赋予不同的权重,所述权重值原始特征的权重,选择为预处理后文本中单词的TF-1DF,其可直接调用存储于词典中的全局因子,计算方式如公式(I)所示:
[0102]TF-1DF= (TF/Ni)*lg(N/DF) (I);
[0?03]其中,Ni是邮件中单词的总数;TF是指文档中给定单词的词频;IDF是逆向文件频率,是一个单词的重要性的度量;N表示文档总数;DF表示包含该单词的文档总数。
[0104]进一步地,所述的基于深度学习的垃圾邮件过滤方法,其中,所述S140包括:
[0105]S141:充分训练第N个RMB得到该RMB的权值;
[0106]受限玻尔兹曼机(英语-Restricted Boltzmann Machine,RBM)是一种可通过输入数据集学习概率分布的随机生成神经网络,是DBN的组成元件,每一个RBM都可以单独用作聚类器。RMB分为显层及隐层,显层由显元组成,用于输入训练数据;隐层由隐元组成,用作特征检测器。同一显层之间的显元是相互独立的,其只与隐层中隐元连接;同样的,隐层中各个隐元之间也是相互独立的,其只与显层中显元连接。
[0107]RBM主要由一个能量函数来定义:如公式(2)所示:
[0108]E(V,h I Θ) = -bV-c^-h^v (2);
[0109]根据公式(2)可以得出在RMB中隐层的信息向量及显层的信息向量分别满足如公式(3)及公式(4)所示的概率分布:
[0110]P(Vi= 11h) = σ(bi+EjWjihj) (3);
[0111]P(hj = 11 v) = o(cj+E iWjiVi) (4);
[0112]利用对数似然函数可求得参数的更新公式分别为公式(5)、公式(6)及公式(7):
[01 13] Δ Wji = n( < Vihj〉data_< Vihj〉confabula)( 5 );
[01 1 4] Δ bi — Π ( < Vi〉data_< Vi〉conf abula )( 6 );
[01 15] Δ Cj = <hj〉data_<hj〉confabula)(了 )ο
[0116]DBN的训练过程中可以使用贪婪法逐层训练每一层的RBM,S卩S140步骤具体为:首先充分训练第一个RBM;固定第一个RBM的权重和偏移量,然后使用它的隐形神经元的状态作为第二个RBM的输入向量;充分训练第二个RBM后,将第二个RBM堆叠在第一个RBM上方,重复上述步骤直至所有RMB训练完成。
[0117]S142:固定第N个RMB的权值及偏移量,并使用其隐性神经元的状态作为下一个RMB的输入向量;
[0118]S143:进行下一个RMB的训练直至所有RMB训练完成。
[0119]该步骤之后还可包括步骤:利用传统神经网络中误差反向传播过程调优整个网络,该步骤可以消除由贪婪法逐层进行RMB训练积累的误差。
[0120]邮件过滤是一个二分类问题,在用神经网络处理此类问题时,顶层神经元一般代表类别的个数,因此为了实现垃圾邮件过滤,可以设置最后的BP网络输出层包含两个神经元,输入层的神经元个数为预处理后得到的词汇表的大小。本发明实施例中,由于RBM—般在二值输入数据上运行,所以RBM可以优选采用二值向量。
[0121]DBN的具体训练过程为,首先通过一个非监督贪婪逐层方法去预训练获得生成模型的权值。在这个训练阶段,在显层会产生一个向量V,通过它将值传递到隐层。反过来,显层的输入会被随机的选择,以尝试去重构原始的输入信号。最后,这些新的可视的神经元激活单元将前向传递重构隐层激活单元。在训练过程中,首先将可视向量值映射给隐元;然后显层单元由隐层单元重建;这些新显层单元再次映射给隐元,这样就获取新的隐元。这样训练时间会显著的减少,因为只需要单个步骤就可以接近最大似然学习。增加进网络的每一层都会改进训练数据的对数概率。
[0122]在预训练后,DBN可以通过利用带标签数据用BP算法去对判别性能做调整。在这里,一个标签集将被附加到顶层,通过一个自下向上的,学习到的识别权值获得一个网络的分类面。这个性能会比单纯的BP算法训练的网络好。
[0123]具体的,先用无标定数据训练第一层,训练时先学习第一层的参数,,该层可以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层,由于模型容量的限制以及稀疏性约束,使得得到的模型能够学习到数据本身的结构,从而得到比输入更具有表示能力的特征;在学习得到第η-1层后,将η-1层的输出作为第η层的输入,训练第η层,由此分别得到各层的参数。
[0124]基于第一步得到的各层参数进一步调整整个多层模型的参数,这一步是一个有监督训练过程;第一步类似神经网络的随机初始化初值过程,由于深度学习的第一步不是随机初始化,而是通过学习输入数据的结构得到的,因而这个初值更接近全局最优,从而能够取得更好的效果。得到训练好的深度智信网络后,就可以把测试样本生成的向量空间作为输入就可以得到邮件的类别。
[0125]如图2所示,一种基于深度学习的垃圾邮件过滤系统,其中,所述基于深度学习的垃圾邮件过滤系统包括:
[0126]训练模块100,用于对邮件样本进行处理生成第一向量空间模型,构建深度置信网络,具体如上所述;
[0127]测试模块200,用于对测试邮件进行处理生成第二向量空间模型,具体如上所述;
[0128]检测模块300,用于利用所构建的深度置信网络检测第二向量空间模型,具体如上所述;
[0129]输出模块400,用于输出检测结果,具体如上所述。
[0130]进一步地,所述的基于深度学习的垃圾邮件过滤系统,其中,所述训练模块100具体包括:
[0131]训练子模块,用于训练邮件样本,具体如上所述;
[0132]预处理子模块,用于对训练后的邮件样本进行预处理,确定垃圾邮件的特征并构造特征集,具体如上所述;
[0133]模型构造子模块,用于根据所构造的特征集生成第一向量空间模型,具体如上所述;
[0134]DBN构建子模块,用于根据所生成第一向量空间模型构建深度置信网络,具体如上所述。
[0135]进一步地,所述的基于深度学习的垃圾邮件过滤系统,其中,所述预处理子模块具体包括:
[0136]分词单元,用于对训练后的邮件样本进行分词,具体如上所述;
[0137]计算单元,用于计算所有已分出词条所对应的全局因子,具体如上所述;
[0138]词典构造单元,用于根据所有已分出词条及计算出的全局因子构造词典,具体如上所述;
[0139]词频统计单元,用于统计所构造词典去除停用词后剩余词条的词频,具体如上所述。
[0140]进一步地,所述的基于深度学习的垃圾邮件过滤系统,其中,所述模型构造子模块具体包括:
[0141]特征处理单元,用于将所构造特征集中所有特征进行向量化,并按照向量空间的模式存储,具体如上所述;
[0142]归一化处理单元,用于对所生成的特征向量进行归一化,具体如上所述。
[0143]进一步地,所述的基于深度学习的垃圾邮件过滤系统,其中,所述DBN构造子模块具体包括:
[0144]训练单元,用于充分训练第N个RMB得到该RMB的权值,具体如上所述;RMB处理单元,用于固定第N个RMB的权值及偏移量,并使用其隐性神经元的状态作为下一个RMB的输入向量,具体如上所述。
[0145]应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,例如向量空间模型特征项处理顺序等,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
【主权项】
1.一种基于深度学习的垃圾邮件过滤方法,其特征在于,所述基于深度学习的垃圾邮件过滤方法包括: 步骤A:对邮件样本进行处理生成第一向量空间模型,构建深度置信网络; 步骤B:对测试邮件进行处理生成第二向量空间模型; 步骤C:利用所构建的深度置信网络检测第二向量空间模型; 步骤D:输出检测结果。2.根据权利要求1所述的基于深度学习的垃圾邮件过滤方法,其特征在于,所述步骤A具体包括: 步骤Al:训练邮件样本; 步骤A2:对训练后的邮件样本进行预处理,确定垃圾邮件的特征并构造特征集; 步骤A3:根据所构造的特征集生成第一向量空间模型; 步骤A4:根据所生成第一向量空间模型构建深度置信网络。3.根据权利要求2所述的基于深度学习的垃圾邮件过滤方法,其特征在于,所述步骤A2具体包括: 步骤A21:对训练后的邮件样本进行分词; 步骤A22:根据所有已分出词条构造词典; 步骤A23:统计所构造词典去除停用词后剩余词条的词频。4.根据权利要求2所述的基于深度学习的垃圾邮件过滤方法,其特征在于,所述步骤A3具体包括: 步骤A31:将所构造特征集中所有特征进行向量化,并按照向量空间的模式存储; 步骤A32:对所生成的特征向量进行归一化。5.根据权利要求2所述的基于深度学习的垃圾邮件过滤方法,其特征在于,所述步骤A4包括: 步骤A41:充分训练第N个RMB得到该RMB的权值; 步骤A42:固定第N个RMB的权值及偏移量,并使用其隐性神经元的状态作为下一个RMB的输入向量; 步骤A43:进行下一个RMB的训练直至所有RMB训练完成。6.—种基于深度学习的垃圾邮件过滤系统,其特征在于,所述基于深度学习的垃圾邮件过滤系统包括: 训练模块,用于对邮件样本进行处理生成第一向量空间模型,构建深度置信网络; 测试模块,用于对测试邮件进行处理生成第二向量空间模型; 检测模块,用于利用所构建的深度置信网络检测第二向量空间模型; 输出模块,用于输出检测结果。7.根据权利要求6所述的基于深度学习的垃圾邮件过滤系统,其特征在于,所述训练模块具体包括: 训练子模块,用于训练邮件样本; 预处理子模块,用于对训练后的邮件样本进行预处理,确定垃圾邮件的特征并构造特征集; 模型构造子模块,用于根据所构造的特征集生成第一向量空间模型; DBN构建子模块,用于根据所生成第一向量空间模型构建深度置信网络。8.根据权利要求7所述的基于深度学习的垃圾邮件过滤系统,其特征在于,所述预处理子模块具体包括: 分词单元,用于对训练后的邮件样本进行分词; 计算单元,用于计算所有已分出词条所对应的全局因子; 词典构造单元,用于根据所有已分出词条及计算出的全局因子构造词典;词频统计单元,用于统计所构造词典去除停用词后剩余词条的词频。9.根据权利要求7所述的基于深度学习的垃圾邮件过滤系统,其特征在于,所述模型构造子模块具体包括: 特征处理单元,用于将所构造特征集中所有特征进行向量化,并按照向量空间的模式存储; 归一化处理单元,用于对所生成的特征向量进行归一化。10.根据权利要求7所述的基于深度学习的垃圾邮件过滤系统,其特征在于,所述DBN构造子模块具体包括: 训练单元,用于充分训练第N个RMB得到该RMB的权值; RMB处理单元,用于固定第N个RMB的权值及偏移量,并使用其隐性神经元的状态作为下一个RMB的输入向量。
【文档编号】G06F17/30GK106096005SQ201610464120
【公开日】2016年11月9日
【申请日】2016年6月23日
【发明人】杨卫国, 邹伟, 何震宇
【申请人】康佳集团股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1