专利名称:一种基于TF<sup>*</sup>IDF算法的统计学文本分类系统及方法
技术领域:
本发明涉及计算机科学与技术领域,特别是一种新的面向文本分类的特征向量权重的计算方法及装置。
背景技术:
随着互联网技术和计算机技术的迅速发展和普及,大量的文字信息开始以计算机可读的形式存在,由计算机自动文本分类技术应运而生。当前,文本分类技术被广泛利用在文档索引建立、不良信息检测、主题识别、自动文摘、智能信息检索等各个研究领域。自动分类研究始于50年代末,H. P. Luhn在这一领域进行了开创性的研究。1961年,Maron发表了有关自动分类的第一篇论文,随后许多著名的情报学家如Sparck、Salton等都在这一领域进行了卓有成效的研究。在20世纪80年代,文本分类系统以知识工程的方法为主,根据领域专家对给定文本集合的分类经验,人工提取出一组逻辑规则,作为计算机文本分类的依据,然后分析这些系统的技术特点和性能,即利用专家规则来进行分类;到了 90年代以后,统计方法和机器学习的方法被引入到文本自动分类中,取得了丰硕的成果并逐渐取代了知识工程方法,并迅速成为了主流趋势;机器学习方法较少考虑文本的语义信息,将语义分析和概念网络等方法与机器学习方法相结合取得了更好的分类效果,在准确率和稳定性方面具有明显的优势。这一文本分类过程主要描述如下系统使用训练样本进行特征选择和分类器参数训练,根据选择的特征对待分类的输入样本进行形式化,然后输入到分类器进行类别判定,最终得到输入样本的类别。当前,基于统计的文本分类方法有朴素的贝叶斯分类法(na+i+veBayesianclassifier)、基于支持向量机方法(support vector machines, SVM)、k_ 最近邻法(k-nearest neighbor, kNN)、神经网络法(neural network, NNet)、决策树(decisiontree)分类法、模糊分类法(fuzzy classifier)、Rocchio 分类方法和 Boosting算法等。根据卡耐基梅隆大学Yiming Yang报道的结果,基于向量空间模型的支持向量机方法效果最好,其他几种方法的基础多数也要求先建立文本的特征向量。特征向量的建立最常用的方法就是TF*IDF (TF Term Frequency, IDF Inverse Document Frequency)方法,还有在其基础进行的各种改进计算方法。文档向量空间模型采用上下文信息定量描述词语的语义特性,通过计算向量之间的距离来衡量词语之间的语义相似度,有效避免了传统统计方法中不可避免的数据稀疏问题,但向量空间模型把向量中的各个词语分量视为独立的特征项,忽略了特征项之间的关联性,这使得用TF*IDF方法的分类器的准确率还不能令人满意
发明内容
本发明的目的在于,为克服目前的TF*IDF算法计算特征项权重时没有考虑词语之间的语义相似度从而导致的基于TF*IDF算法的文本分类器的准确率低的问题,提供一种基于TF*IDF算法的统计学文本分类系统及方法。
为实现上述目的,本发明提供的一种基于TF*IDF算法的统计学文本分类方法,所述的方法包含如下步骤I)收集语料,将收集的语料分为训练语料和测试语料;2)对训练语料进行分类和预处理;3)从训练语料中提取出每个领域的词表,同时提取出总词表;4)对训练语料的类别所属概念进行归纳,利用概念词典提取各类别的所属概念集合,形成类别概念集合库,用于计算概念信息量CIV ;5)对测试语料进行特征选取,得到不同数目的特征向量 表;6)使用特征向量权重算法(TF*IDF*CIV)计算 特征向量表包含的特征向量词的权重,具体计算公式如下
权利要求
1.一种基于TF*IDF算法的统计学文本分类方法,所述的方法包含如下步骤 1)收集语料,将收集的语料分为训练语料和测试语料; 2)对训练语料进行分类和预处理; 3)从训练语料中提取出每个领域的词表,同时提取出总词表; 4)对训练语料的类别所属概念进行归纳,利用概念词典提取各类别的所属概念集合,形成类别概念集合库C,该概念集合库C用于计算概念信息量CIV ; 5)对测试语料进行特征选取,得到不同数目的特征向量表; 6)使用特征向量权重算法(TF*IDF*CIV)计算特征向量表包含的特征向量词的权重,具体计算公式如下
2.根据权利要求I所述基于TF*IDF算法的统计学文本分类方法方法,其特征在于,所述步骤2)的预处理为去除网页文本中不需要的超链、广告信息,并对文本进行分词处理。
3.根据权利要求I或2所述基于TF*IDF算法的统计学文本分类方法,其特征在于,所述的步骤5)的特征选取采用信息增益方法,该信息增益方法还包含如下子步骤 5-1)提取词表,在预处理后,计算每一个分词作为特征的信息增益值,信息增益值为不考虑任何特征时文档的熵和考虑该特征后文档的熵的差值,计算公式如下
4.根据权利要求I所述基于TF*IDF算法的统计学文本分类方法方法,其特征在于,所述的分类器采用采用k-最近邻法。
5.根据权利要求I所述基于TF*IDF算法的统计学文本分类方法,其特征在于,所述的评价函数采用micro-FI测度函数。
6.一种基于TF*IDF算法的统计学文本分类系统,该系统包含语料收集及预处理模块、特征选择模块、特征权重计算模块、分类模块和分类选优模块; 所述的语料收集及预处理模块,用于从互连网上收集训练语料和测试语料,并对语料进行超链、广告信息处理以及分词预处理; 所述的特征选择模块,用于提取语料中的词表,根据特征选择算法从中挑选不同数目的特征词,组成特征词表;所述的特征权重计算模块,用于计算特征权重; 所述的分类模块,用于对语料文本进行分类;和 所述的分类选优模块,用于对比不同分类结果,找到最佳分类效果时的特征词数目,其特征在于, 所述的系统还包含概念词典模块和类别概念库模块; 所述的概念词典,用于存储概念的所属类别信息; 所述的类别概念库模块,用于存储不同所属类别下总的概念集合信息C ; 所述的特征权重计算模块,利用所述类别概念库模块得到的概念集合信息C并采用TF*IDF*CIV算法进行不同数目的特征词的权重计算;其中,所述
全文摘要
本发明涉及一种基于TF*IDF算法的统计学文本分类方法,该方法提出了一种新的特征向量权重方法(TF*IDF*CIV),在TF*IDF方法中引入了概念信息量(CIV)这一变量,把特征向量的概念信息量作为一个变量考虑在特征向量权重的计算过程中,该算法的公式为其中的共享概念数sim(ci,C)为特征项ti所对应的概念集合ci在类别概念集合C中匹配相等的概念数目;弥补了TF*IDF方法的不足现阶段TF*IDF方法被广泛的用来计算特征向量的权重。但是这种方法无法表示出特征项之间的关联性,忽略了特征项语义之间的关联性对权重的影响。由此,实验证明新方法的采用可以有效提高整个文本分类系统的准确率。
文档编号G06F17/30GK102622373SQ201110033808
公开日2012年8月1日 申请日期2011年1月31日 优先权日2011年1月31日
发明者丁泽亚, 张全, 缪建明 申请人:中国科学院声学研究所