专利名称:一种使用本体进行文本文档自动分类的方法
技术领域:
本发明涉及一种使用本体对文本文档进行自动分类的方法,属于计算机信息处 理、信息检索等领域。适用于对海量的网络文本文档进行快速准确的自动分类。
背景技术:
为了提高文本文档组织的效率,更好的支持用户浏览和查找信息,文本文档分类 一直以来是人们所关注的重点问题。最开始,文本文档分类是人手动完成的,但随着文本文 档资源的越来越多,手动分类已变得不可能了,所以自动文本文档分类技术成为了研究的重点。文本文档分类一般分为三个阶段首先,文本文档和分类目录的特征信息被提取 出来;然后,分类器计算出文本文档和分类目录的相似值;最后,文本文档根据相似值归属 到不同的目录。传统的机器学习方法已经应用于文本文档自动分类,包括神经网络、贝叶斯、支持 向量机和k邻居方法。这些方法首先手动的收集一些分类的文本文档,然后使用这些已分 类的文本文档集来训练分类器,最后使用训练好的分类器将文本文档划分到分类目录中。 这些机器学习的分类方法有以下缺点1)传统的机器学习方法训练分类器需要手工收集大量的已分类文本文档集,该 过程非常繁琐,并且针对不同的分类目录,需要手工的收集不同的文本文档集来训练分类 器;2)传统的机器学习的方法没有考虑词之间的语义关系,所以很难提高分类的准确率。为了解决机器学习方法的缺点,本发明提出了一种使用本体来对文本文档进行自 动分类的方法。
发明内容
要解决的技术问题为了能够解决目前基于机器学习的方法的缺点,本发明提出使用本体对文本文档 进行自动分类,能够快速准确的对文本文档进行自动的分类和排序。技术方案本发明的思想是使用本体来表示分类目录的特征信息,利用文本文档和本体之 间的语义相似值来进行实时的分类,这样省去了训练学习的过程,并且随着本体不断的更 新和进化,基于本体的分类方法的准确率和召回率将会得到不断的提高;另一方面,在计算 文本文档和本体之间的相似值时,基于本体的方法考虑词之间的语义关系,从而提高分类 的准确率。本发明的特征在于提出本体能有效的表示分类目录的特征信息,并通过使用消 歧和扩展处理后的本体来表示分类目录的特征信息,利用待分类文本文档和本体之间的语义相似值来进行分类。本发明的基本过程为首先,使用带权重的关键词集合表示文本文档的特征信息; 然后,使用经过消歧和扩展处理后的本体来表示分类目录的特征信息,并通过分析本体结 构特征,将本体被转化为带权重的词义集合;最后,使用Earth Mover' s Distance方法计 算文本文档的关键词集合和本体权重词义集合之间的语义相似值,其中,单个词义和词之 间的相似值采用基于WordNet释义的方法来度量,并利用该语义相似值来计算文本文档和 分类目录之间的相似值,根据文本文档和分类目录之间的相似值来进行文本文档的分类和 排序。一种使用本体进行文本文档自动分类的方法,其特征在于步骤如下(1)用KEA算法抽取待分类文本文档集合中每篇文本文档的关键词集合,得到该 文本文档的带权重的关键词集合;在Swoogle本体搜索引擎中以给定的目录集合中的每个 分类目录名为检索词进行检索,得到的检索结果中排序第一的本体作为表示该分类目录的 本体,对表示每个分类目录的本体进行本体消岐和本体扩展,得到表示该分类目录的新的 本体;所述的本体消岐过程为首先,选择本体中距离每个概念词L范围内的词作为该概念词的上下文;所述的L 的取值范围为[3,5];然后,按语义相关度计算公式
NumOfOverlaps _ SiConjTelatenessisi, con )=-=-----— 计
(WordNumlnGlossOfsi + WordNumlnGlossOfconj )/2
算每个概念词的第i个可能词义Si与该概念词的第j个上下文Con1的语义相关度
^ Telatenessisi, Conj)
、Re/⑷=
relatenessh,con」),并按^“ 7计算每个概念词的第i个可能
J
词义Si的平均语义相关度Rel (Si);其中,i = 1,2,…,I,I表示概念词的可能词义的个数,j = 1,2,…,J,J表示 概念词的上下文的个数;WordNumlnGlossOfsi表示Si的WordNet释义包含的单词个数, WordNumlnGlossOfconj 表示 con」的 WordNet 释义包含的单词个数,NumOfOverlapS-SiConj 表示Si的WordNet释义和con」的WordNet释义所包含的单词中相同单词的个数;所述的可 能词义为定义在词法数据库WordNet中的词义;最后,选择具有最大平均语义相关度Rel值的可能词义作为概念词的概念词义;所述的本体扩展过程为利用语义相关度计算公式
NumOfOverlaps _ sps'pq {wordNumlnGlossOfi p + wordNumlnGlossOfs' pq )/2 relateness{sp,s\q) = -^九丁 τ ~—-;r P ~、。计算经过
本体消岐处理后的本体的每个概念词义在WordNet中的上位关系词义集合和下位关系词 义集合中的每个词义与该概念词义之间的语义相关度,并进行判断对于上位关系词义集 合中的每个词义,如果它与该概念词义之间的语义相关度大于给定阈值一,则将该词义加 入到该概念词义的父类集合;对于下位关系词义集合中的每个词义,如果它与该概念词义之间的语义相关度大于给定阈值二,则将该词义加入到该概念词义的子类集合;将每个概 念词义在WordNet中的同义关系词义集合中的所有词义均加入到该概念词义的同类集合;其中,&表示经过本体消岐处理后的本体的第ρ个概念词义,ρ = 1,2,…, P,P表示经过本体消岐处理后的本体的概念词义的个数;S' M表示&的上位关系词 义集合/下位关系词义集合中的第q个词义,Q= 1,2,…,Q,Q表示上位关系词义集 合/下位关系词义集合中的词义的个数;w0fdMUmInGlossOfSρ 矶WordNet释义包 含的单词个数,wordNumlnGlossOfs ‘ M表示s' M的WordNet释义包含的单词个数, NumOfOverlaps_J/pq轰示SWordNet释义和s' M的WordNet释义所包含的单词中相 同单词的个数;所述的给定的阈值一和阈值二的取值范围均为
;(2)计算表示每个分类目录的新的本体的权重词义集合,具体为首先,将本体转化成由顶点集合和有向边集合组成的有向图有向图的每一个顶 点为本体中的一个概念词义,有向图的每一条有向边为两个概念词义间的包含关系,有向 边的方向由子概念词义指向父概念词义;然后,按WdgM = (laylry^计算得到每个概念词义的权重;其中,weight表示概念词义的权重,layer表示该概念词义对应的顶点的层数;所述的顶点的层数为顶点对应的概念词义距离本体根部的最短路径距离;(3)按Sim (d,ο) = I-EMD (d, ο)计算文本文档和分类目录之间的相似值Sim (d, 0),如果文本文档和分类目录间的相似值Sim(d,o)大于给定阈值δ,则将文本文档分类到 该分类目录,否则不将文本文档分类到该分类目录;其中,d为文本文档的带权重的关键词集合,ο为本体的权重词义集合;EMD(d,ο) 为利用Earth Mover' s Distance方法计算得到的文本文档和本体之间的语义相似值;所 述的给定阈值S的取值范围为
;(4)对分类后的分类目录下的所有文本文档按照相似值Sim(d,ο)由大到小进行 排序。有益效果本发明该方法使用本体来表示目录的特征信息,通过计算文本文档和本体之间的 语义相似值来进行实时的分类,省去了训练学习的过程,并提高了分类的准确率。此外,本 发明使用消歧技术将表示本体中的词变为词义,解决了词的多义性引起的相似值的计算结 果不准确的问题,提高语义相似值计算的精度,进一步提高了分类的精度;在本体消歧的基 础之上,本发明通过使用WordNet来对本体进行自动地扩展,丰富了本体的概念内容,从而 提高了后续相似值计算的准确率,并且解决手工创建本体费事的问题。
图1 本发明方法的基本流程图
具体实施例方式现结合附图对本发明作进一步描述
根据本发明提出的使用本体进行文本文档分类的方法,我们使用Java和Perl语 言进行了实现,具体的实现过程如下使用本体进行文本文档分类方法分为以下四个步骤步骤一文本文档关键词集合的构建。这里,采用KEA算法抽取待分类文本文档 集合中每一篇文本文档的带权重的关键词集合,具体为对于待分类的文本文档集合D = IdljCl2,…,d|D|}(|D|表示文本文档集合D中的文本文档篇数)中的每一篇文本文档Cli,首 先,采用朴素贝叶斯估计,通过考虑词(现有的单词)在文本文档中出现的频率tfXidf、词 在文本文档中出现的平均位置Occurrence和词中字母的个数Length三个特征属性,对(Ii 中的每一个词,采用以下公式计算其为主题词的概率Pr Pr = Pr [Τ | yes] X Pr
X Pr [L | yes] X Pr [yes] (1)其中,Pr [Τ I yes]、Pr
和Pr[L|yes]分别表示在三个特征属性tf X idf、 Occurrence和Length取当前值的条件下该词为主题词的概率;Pr [yes]表示文本文档集合 中包含主题词的文本文档的数目与不包含主题词的文本文档的数目之比。然后,选择具有最大Pr值的前η个词(通常η取4 6)作为文本文档(Ii的关键 词,得到文本文档Cli的带权重的关键词集合,并将文本文档Cli用该带权重的关键词集合表 示,S卩Cli= IURLi, U^tw1),…,(^.,tw.j),…},其中,、为按上述方法抽取得到的关键 词,tWiJ为关键词的权重,即为按式⑴计算得到的其Pr值。步骤二 本体预处理。首先,以给定目录集合中的每个分类目录名为检索词在 Swoogle本体搜索引擎中进行检索,并用得到的检索结果中排序第一的本体来表示该分类 目录,这样,目录集合CA = Ica1, ca2,…,ca|cA|}就使用本体集合O = Io1, O2,…,0|()|}来 表示,其中,|o|表示本体集合ο中的本体个数,|CA|表示目录集合CA中的分类目录个数, 满足Iol = I CA I。其中,一个分类目录对应一个本体,即一个本体Om表示一个分类目录cam 的特征信息,即Cam:= om。接下来,对每一个本体om进行步骤2. 1的本体消歧和步骤2. 2的本体扩展处理。 其中,本发明采用定义在词法数据库WordNet中的词义作为本体的词法表示,并设定同一 条知识内任意两个概念词之间的路径距离为1。步骤2. 1 本体消歧。由于一个词可能对应多个词义,这个现象会降低语义相似值 计算的精度。为了消除本体中词表示的歧义性,对本体进行消歧处理,即利用本体中词的上 下文,确定其正确的词义。具体为首先,本体中的概念词s的L距离范围内的词被选为概念词s的上下文,得到概念 词s的上下文集合Con= Icon1, -,Conj,…},其中,con」表示概念词s的第j个上下文; L的取值范围为[3,5];然后,使用公式⑵计算概念词s在WordNet中的每个词义Si (i = 1,…,Ni, Ni 为概念词s在WordNet中的词义个数)和其上下文集合Con中所有上下文之间的平均语义 相关度Rel (Si)
\Con\
^ relateness(si, Conj) _] Re/㈨- ⑵ 其中,IConI为概念词s的上下文个数,即上下文集合Con中词的个数;relateness(si, Conj)为第i个词义Si和其第j个上下文的语义相关度,其计算公式
如下
权利要求
一种使用本体进行文本文档自动分类的方法,其特征在于步骤如下(1)用KEA算法抽取待分类文本文档集合中每篇文本文档的关键词集合,得到该文本文档的带权重的关键词集合;在Swoogle本体搜索引擎中以给定的目录集合中的每个分类目录名为检索词进行检索,得到的检索结果中排序第一的本体作为表示该分类目录的本体,对表示每个分类目录的本体进行本体消岐和本体扩展,得到表示该分类目录的新的本体;所述的本体消岐过程为首先,选择本体中距离每个概念词L范围内的词作为该概念词的上下文;所述的L的取值范围为[3,5];然后,按语义相关度计算公式计算每个概念词的第i个可能词义si与该概念词的第j个上下文conj的语义相关度relateness(si,conj),并按计算每个概念词的第i个可能词义si的平均语义相关度Rel(si);其中,i=1,2,…,I,I表示概念词的可能词义的个数,j=1,2,…,J,J表示概念词的上下文的个数;wordNumInGlossOfsi表示si的WordNet释义包含的单词个数,wordNumInGlossOfconj表示conj的WordNet释义包含的单词个数,NumOfOverlaps_siconj表示si的WordNet释义和conj的WordNet释义所包含的单词中相同单词的个数;所述的可能词义为定义在词法数据库WordNet中的词义;最后,选择具有最大平均语义相关度Rel值的可能词义作为概念词的概念词义;所述的本体扩展过程为利用语义相关度计算公式计算经过本体消岐处理后的本体的每个概念词义在WordNet中的上位关系词义集合和下位关系词义集合中的每个词义与该概念词义之间的语义相关度,并进行判断对于上位关系词义集合中的每个词义,如果它与该概念词义之间的语义相关度大于给定阈值一,则将该词义加入到该概念词义的父类集合;对于下位关系词义集合中的每个词义,如果它与该概念词义之间的语义相关度大于给定阈值二,则将该词义加入到该概念词义的子类集合;将每个概念词义在WordNet中的同义关系词义集合中的所有词义均加入到该概念词义的同类集合;其中,表示经过本体消岐处理后的本体的第p个概念词义,p=1,2,…,P,P表示经过本体消岐处理后的本体的概念词义的个数;s′pq表示的上位关系词义集合/下位关系词义集合中的第q个词义,q=1,2,…,Q,Q表示上位关系词义集合/下位关系词义集合中的词义的个数;表示的WordNet释义包含的单词个数,表示s′pq的WordNet释义包含的单词个数,表示的WordNet释义和s′pq的WordNet释义所包含的单词中相同单词的个数;所述的给定的阈值一和阈值二的取值范围均为
;(2)计算表示每个分类目录的新的本体的权重词义集合,具体为首先,将本体转化成由顶点集合和有向边集合组成的有向图有向图的每一个顶点为本体中的一个概念词义,有向图的每一条有向边为两个概念词义间的包含关系,有向边的方向由子概念词义指向父概念词义;然后,按计算得到每个概念词义的权重;其中,weight表示概念词义的权重,layer表示该概念词义对应的顶点的层数;所述的顶点的层数为顶点对应的概念词义距离本体根部的最短路径距离;(3)按Sim(d,o)=1 EMD(d,o)计算文本文档和分类目录之间的相似值Sim(d,o),如果文本文档和分类目录间的相似值Sim(d,o)大于给定阈值δ,则将文本文档分类到该分类目录,否则不将文本文档分类到该分类目录;其中,d为文本文档的带权重的关键词集合,o为本体的权重词义集合;EMD(d,o)为利用Earth Mover’s Distance方法计算得到的文本文档和本体之间的语义相似值;所述的给定阈值δ的取值范围为
;(4)对分类后的分类目录下的所有文本文档按照相似值Sim(d,o)由大到小进行排序。FSA00000175171000011.tif,FSA00000175171000012.tif,FSA00000175171000021.tif,FSA00000175171000022.tif,FSA00000175171000023.tif,FSA00000175171000024.tif,FSA00000175171000025.tif,FSA00000175171000026.tif,FSA00000175171000027.tif,FSA00000175171000028.tif,FSA00000175171000031.tif
全文摘要
本发明涉及一种使用本体进行文本文档自动分类的方法,该方法包括首先,使用带权重的关键词集合表示文本文档的特征信息;然后,使用经过本体消歧和本体扩展处理后的本体来表示分类目录的特征信息,并通过分析本体结构特征将本体被转化为带权重的词义集合;最后,使用Earth Mover’s Distance方法计算文本文档的关键词集合和本体权重词义集合之间的语义相似值,并进一步计算文本文档和分类目录之间的相似值,根据文本文档和分类目录之间的相似值来进行文本文档的分类和排序。使用本发明方法能够进行文本文档的自动分类,并提高文本文档分类的准确率。
文档编号G06F17/30GK101944099SQ20101021010
公开日2011年1月12日 申请日期2010年6月24日 优先权日2010年6月24日
发明者方俊, 郭雷 申请人:西北工业大学