专利名称:一种基于网络热词识别的网页自动分类方法
技术领域:
本发明涉及一种网页自动分类方法,尤其是一种基于网络热词识别的网页自动分类方法,属于数据挖掘技术领域。
背景技术:
随着Internet和Web技术的超速发展,Internet上网页的数量正在不断地增加,网络的日益普及以及网民数量的爆炸性增长,使得网络行为出现了复杂性和多样性。为了能够有效地组织和分析海量的Web信息资源,帮助用户迅速地获取其所需要的知识和信息,需要对网页实现自动分类。传统的文本分类方法主要有两类:一类是基于统计的分类方法,另一类是基于知识的分类方法。基于统计的分类方法思路是先运用向量空间模型将文本数据转换为数值特征向量,接着通过利用统计学、机器学习等领域的相关知识对数值向量进行分类计算,进而完成文本的分类工作。该方法的最大困难在于我们所构建的向量特征空间往往是高维且稀疏的,而寻找一种有效的特征抽取方法去降低特征空间的维度也是极其困难的,故其分类效果并不理想。基于知识的分类方法的核心在于不断的更新并完善关键词库,通过比较文本与各类别词库的匹配度后,选择匹配度最高的词库类别作为该文本的所属类别。本方法相较于基于统计的分类方法的优点在于,对文本进行分类时可以获取较高的分类准确率,但缺点在于在词库更新的过程中往往需要加入较多的人工审核步骤,且对网络上新近出现的热词反应较为滞后。
发明内容
`
针对以上不足,本发明提供一种基于网络热词识别的网页自动分类方法。通过热词识别方法,不断更新关键词库,并通过基于热度值的贝叶斯多维分类模型不断地提升网页分类的准确性。有鉴于此,本发明的主要目的是提供一种基于网络热词识别的网页自动分类方法,主要包括:
利用定制爬虫获取网页内容信息;
根据互联网关键词库以及互联网停用词库对网页内容进行分词操作;
依据关键词热度值,利用贝叶斯多维分类模型对待分类网页内容进行初分类;
利用关联算法对已归类网页内容中未匹配分词项进行关联识别,找出互联网关键词库中尚未收集的热词后将其收录到相关类词库中,更新互联网词库;
利用更新的互联网词库对网页内容初分类中无法归类的网页进行再分类。关键词的热度值除了与该词出现的频率有关,还与其时间权重有关,计算方法结合了频率权重和时间衰变函数,公式如下:
M3Q
Ha(k) = a(k)*30*i^' /6
(I)该公式为关键词K在类别a下的热度值,ω (k)为该词出现的频率,t为时间值。时间值t在默认情况下为30,依照公式(I)此时该词的热度值等于该词出现的频率;当该关键词在某天出现后,时间值t变为0,依照公式(I)此时该词的热度值增长至其频率的30倍;随着时间的推移,若该词不再出现,则时间值t每天递增1,30天后该词的热度值重新与该词出现的频率值相等。贝叶斯多维分类模型假设对于待分类的网页内容,将其进行分词操作及热词识别后得到的关键词有N个,分别为(Χι,χ2...χΝ),通过查找已经构建的关键词类别库,找到各关键词所对应的的类别总数为M个(Ci1, Ci2...αΜ),依据贝叶斯理论,对于任意两个类别Cii,a」,若其满足:
权利要求
1.一种基于网络热词识别的网页自动分类方法,其特征在于,主要包括: 利用定制爬虫获取网页内容; 根据互联网关键词库以及互联网停用词库对获取的网页内容进行分词操作; 依据关键词热度值,利用贝叶斯多维分类模型对待分类网页内容进行初分类; 利用关联算法对已归类网页内容中未匹配分词项进行关联识别,找出互联网关键词库中尚未收集的热词后将其收录至相关类词库中,更新互联网词库; 利用更新的互联网词库对网页内容初分类步骤中无法归类的网页内容进行再分类。
2.如权利要求1所述的一种基于网络热词识别的网页自动分类方法,其特征在于,关键词的热度值除了与该词出现的频率有关,还与其时间权重有关,计算方法结合了频率权重和时间衰变函数,公式如下:
3.如权利要求1或2所述的一种基于网络热词识别的网页自动分类方法,其特征在于,时间值t在默认情况下为30,依照公式(I)此时该词的热度值等于该词出现的频率;当该关键词在某天出现后,时间值t变为0,依照公式(I)此时该词的热度值增长至其频率的30倍;随着时间的推移,若该词不再出现,则时间值t每天递增1,30天后该词的热度值重新与该词出现的频率值相等。
4.如权利要求1所述的一种基于网络热词识别的网页自动分类方法,其特征在于,贝叶斯多维分类模型假设对于待分类的网页内容,将其进行分词操作及热词识别后得到的关键词有N个,分别为(Xl,x2...xN),通过查找已经构建的关键词类别库,找到各关键词所对应的的类别总数为M个(Ci1, Ci2...αΜ),依据贝叶斯理论,对于任意两个类别Cii, Cij,若其满足:
5.如权利要求1所述的一种基于网络热词识别的网页自动分类方法,其特征在于,关联算法对已归类网页内容中未匹配分词项进行关联识别,需对网络新出现的热词将其过度拆分形成多个单词,然后运用基于关联规则的关键词合并方式对单词进行合并为新词放入网络热词库中。
6.如权利要求1或5所述的一种基于网络热词识别的网页自动分类方法,其特征在于,基于关联规则的关键词合并方式对单词进行合并,由于一个复合词所包含的的单词数量一般不超过三个,所以需要寻找具有强关联的1-频繁项词,2-频繁项词,3-频繁项词,方法是通过设置一定的置信度阈值及支持度阈值来寻找强关联的单词组,对支持度(support)和置信(confidence)的定义如下:
全文摘要
本发明涉及一种基于网络热词识别的网页自动分类方法,主要包括利用定制爬虫获取网页内容信息;通过互联网关键词库以及互联网停用词库对获取的网页内容进行自动分词。根据关键词出现的频率和时间远近程度去计算其热度值,之后依照该词的热度值利用贝叶斯多维分类模型对网页内容进行初分类。利用关联算法对已归类网页中未匹配分词项进行关联识别,找出互联网关键词库中尚未收集的热词并将其收录至互联网关键词库中。利用更新后的互联网词库对网页初分类过程中无法归类的网页内容进行再分类。
文档编号G06F17/30GK103186675SQ20131011415
公开日2013年7月3日 申请日期2013年4月3日 优先权日2013年4月3日
发明者邵伟, 昂卫武, 黄汇 申请人:南京安讯科技有限责任公司