专利名称:基于web的文本分类挖掘系统及方法
技术领域:
本发明涉及信息检索及数据挖掘技术,尤其涉及一种基于web的文本分类挖掘系统及方法。
背景技术:
当今世界计算机的广泛发展,数据库技术的成熟,使得人类积累的数据量越来越庞大,形成了数据丰富但知识匮乏的局面。各个领域的人们都期待有一种方法能高效率地从大量的数据中发现有用信息即知识,在这种背景下,知识发现和数据挖掘的研究成为热
点ο数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程, 这些模型和关系可以用来做出预测。数据挖掘涉及数据库、人工智能、机器学习和统计分析等多个领域的理论和技术。数据挖掘技术能从大型数据库或数据仓库中自动分析数据,进行归纳性推理,从中发掘出潜在的模式;或者产生联想,建立新的业务模型,帮助决策者调整市场策略,做出正确的决策。伴随计算能力的增长,算法及大规模数据存储技术的成熟, 数据挖掘逐渐走出实验室,在生产领域发挥着积极的作用。随着上世纪90年代以来互联网的迅速发展,海量信息的管理和利用问题,向传统的数据挖掘提出了新的技术要求如何从这些众多的信息资源中快速的发现自己所需要的知识。因此迫切需要一种高效快速的信息资源分析工具,以帮助用户快速浏览网络,并能从这些大量的信息中找出隐含的知识,减少用户的负担。面对这种需求,Web挖掘成为近几年来新兴的研究领域。它从数据挖掘发展而来, 又面临很多前所未有的问题如,数据量不断膨胀,处在动态变化中难以控制,数据安全难以保证,数据形式不一致难以统一处理等。由于Web在当今社会扮演越来越重要的角色,有关Wfeb内容挖掘、Web日志挖掘和与Web有关的数据挖掘服务,成为数据挖掘中一个重要和逐渐繁荣的领域。为了能够准确、 快速、合理的利用Web上不断增长的信息,Web挖掘的研究显得更加重要了。利用Web的特性,应用和改进原有的数据挖掘技术在Web文档中发现和分析有用信息逐渐成为知识发现研究的重要方向。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于web的文本分类挖掘系统及方法,利用HTML标记权重改善朴素的贝叶斯算法的条件独立假设的不足,对分类器进行了改进,以提高数据挖掘的查全率和查准率。为达到上述目的,本发明的技术方案是这样实现的一种基于web的文本分类挖掘系统,该系统主要包括文本预处理模块、分词处理模块和分类算法模块;其中,文本预处理模块,用于从待测试文本中自动筛选和预处理特定的信息,过滤掉无关的信息,以有效地表示文本;分词处理模块,用于将所述文本进行分词,找到每个文本具有的属性/属性词,为特征词的选择做准备;分类算法模块,用于进行特征选择,得到最优的特征子集,或按照训练结果的文件提供的数据,找到相应的概率,比较得到最大概率所属的类别,得出结论,最后将结果存储在文件中。其中,所述待测试文本,包括含有多媒体信息和非结构化信息的网页。一种基于web的文本分类挖掘方法,该方法包括A、文本集训练的步骤包括扫描待训练的文本;对文本进行分词,为特征选择做准备;进行特征选择,得到最优的特征子集;利用有效的权值进行计算,再次优化特征子集;最后利用一定的条件进行计算,将结果存储在文件中;B、文本特征库分类的步骤包括扫描训练文本;对文本进行分词,找到每个文本具有的属性/词;按照训练结果的文件提供的数据,找到相应的概率;比较得到最大的概率所属的类别,得出结论。其中,所述利用一定的条件进行计算,该条件具体为通过类别的先验概率和词的
分布来计算未知文本属于某一类别的概率 P(Ci)P(X^1)
权利要求
1.一种基于web的文本分类挖掘系统,其特征在于,该系统主要包括文本预处理模块、 分词处理模块和分类算法模块;其中,文本预处理模块,用于从待测试文本中自动筛选和预处理特定的信息,过滤掉无关的信息,以有效地表示文本;分词处理模块,用于将所述文本进行分词,找到每个文本具有的属性/属性词,为特征词的选择做准备;分类算法模块,用于进行特征选择,得到最优的特征子集,或按照训练结果的文件提供的数据,找到相应的概率,比较得到最大概率所属的类别,得出结论,最后将结果存储在文件中。
2.根据权利要求1所述的基于web的文本分类挖掘系统,其特征在于,所述待测试文本,包括含有多媒体信息和非结构化信息的网页。
3.一种基于web的文本分类挖掘方法,其特征在于,该方法包括A、文本集训练的步骤包括扫描待训练的文本;对文本进行分词,为特征选择做准备;进行特征选择,得到最优的特征子集;利用有效的权值进行计算,再次优化特征子集; 最后利用一定的条件进行计算,将结果存储在文件中;B、文本特征库分类的步骤包括扫描训练文本;对文本进行分词,找到每个文本具有的属性/词;按照训练结果的文件提供的数据,找到相应的概率;比较得到最大的概率所属的类别,得出结论。
4.根据权利要求3所述的基于web的文本分类挖掘方法,其特征在于,所述利用一定的条件进行计算,该条件具体为通过类别的先验概率和词的分布来计算未知文本属于某一类别的概率
5.根据权利要求4所述的基于web的文本分类挖掘方法,其特征在于,假设文本中词/ 属性的分布是条件独立的,则P (Cj |X) =P(Cj)P(XlCj);
全文摘要
本发明公开了一种基于web的文本分类挖掘系统及方法,其主要包括文本预处理模块、分词处理模块和分类算法模块;其中,文本预处理模块,用于从待测试文本中自动筛选和预处理特定的信息,过滤掉无关的信息,以有效地表示文本;分词处理模块,用于将所述文本进行分词,找到每个文本具有的属性/属性词,为特征词的选择做准备;分类算法模块,用于进行特征选择,得到最优的特征子集,或按照训练结果的文件提供的数据,找到相应的概率,比较得到最大概率所属的类别,得出结论,最后将结果存储在文件中。该系统通过利用HTML标记权重改善朴素的贝叶斯算法的条件独立假设的不足,对分类器进行了改进,能够提高数据挖掘的查全率和查准率。
文档编号G06F17/27GK102184262SQ20111016046
公开日2011年9月14日 申请日期2011年6月15日 优先权日2011年6月15日
发明者刘奎飞, 张 杰 申请人:悠易互通(北京)广告有限公司