1.一种垃圾文本库的建立方法,其特征在于,包括:
S100:从文本中获取预先采集的至少一个垃圾文本样本;
S200:检测每个所述垃圾文本样本中是否存在长特征词,若存在,则将该所述长特征词录入长特征词集;
S300:基于贝叶斯分类器对所述长特征词集对应的所述垃圾文本样本进行分类,得到垃圾文本和非垃圾文本;
S400:将所述垃圾文本新增的数量与预设的收敛阈值进行比较,若所述垃圾文本新增的数量小于所述收敛阈值,则执行步骤500;否则,则执行步骤600;
S500:垃圾文本库建立完毕,结束流程;
S600:从所述文本中获取新的至少一个垃圾文本样本,返回执行步骤S200至步骤S500。
2.根据权利要求1所述的方法,其中,检测每个所述垃圾文本样本中是否存在所述长特征词包括:
基于分词算法对每个所述垃圾文本样本进行分词,得到分词结果;
基于预存的停用词表去掉所述分词结果中的停用词;
基于textrank算法,从去掉停用词的分词结果中选出预定数量的特征词;
基于前缀匹配算法检测所述预定数量的所述特征词中是否存在所述长特征词。
3.根据权利要求2所述的方法,其中,在所述基于贝叶斯分类器对所述长特征词集对应的所述垃圾文本样本进行分类之前还包括:
计算所述长特征词集中每个所述长特征词的权重;
将所述特征词集中每个所述特征词的权重输入至所述贝叶斯分类器,以对所述长特征词集进行分类,得到垃圾特征词集和非垃圾特征词集。
4.根据权利要求3所述的方法,其中,所述计算所述长特征词集中每个所述长特征词的权重包括:
基于式(1)计算所述长特征词集中每个所述长特征词的权重;
式(1):W3=(W1+W2)*(1-P3)/(1-P1)*(1-P2),
其中,P3、P2、P1分别为词语3、词语2、词语1在所述垃圾文本中出现的概率;
W3、W2、W1分别为词语3、词语2、词语1在所述垃圾文本中出现的权重。
5.根据权利要求2-4任一项所述的方法,其中,所述基于分词算法对每个所述垃圾文本样本进行分词,包括:利用维特比分词器对每个所述垃圾文本样本进行分词。
6.一种对垃圾文本进行过滤的方法,其特征在于,采用权利要求1-5任一项所述的垃圾文本库的建立方法建立垃圾文本库对垃圾文本进行过滤。
7.一种建立垃圾文本库的系统,其特征在于,包括:
获取模块(100):用于从所述文本中获取所述预先采集的至少一个垃圾文本样本;
检测模块(200):用于检测每个所述垃圾文本样本中是否存在所述长特征词,若存在,则将该所述长特征词录入所述长特征词集;
分类模块(300):基于所述贝叶斯分类器对所述长特征词集对应的垃圾文本样本进行分类,得到所述垃圾文本样本和所述非垃圾文本样本;
判断模块(400):用于将所述垃圾文本新增的数量与预设的所述收敛阈值进行比较,若所述垃圾文本新增的数量小于所述收敛阈值,则所述垃圾文本库建立完毕;否则,从所述文本中选取新的垃圾文本样本输入至所述检测模块(200)。
8.根据权利要求7所述的系统,其特征在于,所述检测模块(200)包括:
分词单元(201),用于基于分词算法对每个所述垃圾文本样本进行分词,得到分词结果;
停用词过滤单元(202),用于基于预存的停用词表去掉所述分词结果中的停用词;
特征词选取单元(203),用于基于textrank算法,从去掉停用词的分词结果中选出预定数量的特征词;
长特征词检测单元(204),基于前缀匹配算法检测所述预定数量的特征词中是否存在所述长特征词。
9.根据权利要求8所述的系统,其特征在于,所述分类模块(300)包括:
计算单元(301),用于计算所述长特征词集中每个所述长特征词的权重;
分类单元(302),用于将所述特征词集中每个所述特征词的权重输入至所述贝叶斯分类器,以对所述长特征词集进行分类,得到所述垃圾特征词集和所述非垃圾特征词集。
10.根据权利要求9所述的系统,其特征在于,所述计算单元(301)基于式(1)计算所述长特征词集中每个长特征词的权重;
式(1):W3=(W1+W2)*(1-P3)/(1-P1)*(1-P2),
其中,P3、P2、P1分别为词语3、词语2、词语1在所述垃圾文本中出现的概率;
W3、W2、W1分别为词语3、词语2、词语1在所述垃圾文本中出现的权重。
11.根据权利8-9任一项所述的系统,其特征在于,分词单元(201)还用于,利用所述维特比分词器对每个所述垃圾文本样本进行分词。