文档处理方法和装置制造方法

文档序号:6488055阅读:169来源:国知局
文档处理方法和装置制造方法
【专利摘要】一种文档处理方法和装置,该方法包括:从多个文档中提取词汇,并且针对每个文档计算词汇的术语度并根据术语度确定术语;对该多个文档进行聚类,其中基于针对每个文档类最近确定的术语及其术语度来确定文档类间的相似度;基于最近的聚类结果重新计算词汇对于相应文档类的术语度,并针对每个文档类重新确定术语;以及重复进行聚类和重新确定术语的过程,直到满足预定截止条件为止。
【专利说明】文档处理方法和装置
【技术领域】
[0001]本发明一般地涉及文档处理,具体涉及用于对多个文档进行聚类和术语提取的方法和装置。
【背景技术】
[0002]文档聚类的目的是将多个文档中具有相似主题的文档分配到相应子集中,文档聚类是处理大规模数据的过程中不可缺少的技术。
[0003]术语是表达某领域的基础知识的词汇单元。术语提取是领域知识获取中的一个基本任务,其中领域知识获取可以用于词汇更新、领域实体构建等。
[0004]直观地,文档聚类问题是基于领域相似的文档具有许多共有术语这一认识来对文本文档进行聚类。获取适当的术语可能导致更好的聚类效果,然而识别特定领域的术语需要知道文档的聚类信息。另外,特定领域的术语是通过术语在不同聚类中的分布信息而验证的。

【发明内容】

[0005]本发明提供一种新的文档处理方法和装置,其中术语提取和文档聚类彼此增强。首先,计算针对文档候选术语的术语度,然后使用候选术语及其术语度表示相应文档,以对文档进行聚类。然后,根据聚类结果重新计算术语度并更新候选术语,重新聚类。从而可以同时获得术语提取和文档聚类的结果,并改善文档聚类效果。
[0006]根据本发明的一个实施例,提供一种文档处理方法,包括:从多个文档中提取词汇,并且针对每个文档计算词汇的术语度并根据术语度确定术语;对该多个文档进行聚类,其中基于针对每个文档类最近确定的术语及其术语度来确定文档类间的相似度;基于最近的聚类结果重新计算词汇对于相应文档类的术语度,并针对每个文档类重新确定术语;以及重复进行聚类和重新确定术语的过程,直到满足预定截止条件为止。
[0007]根据本发明的另一个实施例,提供一种文档处理装置,包括:术语确定部分,被配置为从多个文档中提取词汇,并且针对每个文档,计算词汇的术语度并根据术语度确定术语;文档聚类部分,被配置为对该多个文档进行聚类,其中基于针对每个文档类最近确定的术语及其术语度确定文档类间的相似度;以及术语更新部分,被配置为基于最近的聚类结果重新计算词汇对于相应文档类的术语度,并针对每个文档类重新确定术语。
[0008]利用根据本发明的方案,即使在文档聚类信息未知且术语未知的情况下,也能够以完全自动的方式进行术语提取和文档聚类。
【专利附图】

【附图说明】
[0009]参照以下结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。为了避免因不必要的细节而模糊了本发明,在附图中仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其它细节。
[0010]图1是示出根据本发明实施例的文档处理方法的流程图;
[0011]图2是图解提取词汇的示例方式的示意图;
[0012]图3是示出根据本发明实施例的文档处理装置的配置示例的框图;以及
[0013]图4是示出实现本发明的方法和装置的计算机的示例性结构的框图。
【具体实施方式】
[0014]下面参照【专利附图】
附图
【附图说明】本发明的实施例。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
[0015]图1是示出根据本发明实施例的文档处理方法的流程图。
[0016]首先,在步骤SllO中进行术语的初步确定,即,从多个文档中提取词汇,并且针对每个文档,计算词汇的术语度并根据术语度确定术语。
[0017]可以采用多种方式从文档中提取词汇,例如可以利用常用的文本分割方式将文档分成句子,然后通过诸如停用词(Stop word)过滤的方式提取词汇。图2是图解利用停用词过滤方式提取词汇的示例的示意图。在该示例中,通过从文档的句子中去除停用词来提取词汇。换句话说,通过参照停用词列表利用停用词切分每个句子,将通过切分得到的词汇作为术语候选。如图2所示,假设C1...Cn是通过分割文档而得到的一个分句或字符串,其中D1 (包含字符串CyCil^PD2 (包含字符串(V..Cjm)为停用词。通过将停用词去除,可以得到词汇TC1 (包含字符串C1...Cib), TC2 (包含字符串Cia-Cjb)和TC3 (包含字符串(V..Cn)作为术语候选。
[0018]可以采用词频反文档频率(term frequency -1nverse document frequencyTF-1DF)作为术语度。例如,可以根据以下等式(I)或者其数学变换形式来计算词汇Wi对于相应文档的术语度TFIDF(Wi):
[0019]
【权利要求】
1.一种文档处理方法,包括: 从多个文档中提取词汇,并且针对每个文档,计算所述词汇的术语度并根据所述术语度确定术语; 对所述多个文档进行聚类,其中基于针对每个文档类最近确定的术语及其术语度来确定文档类间的相似度; 基于最近的聚类结果重新计算所述词汇对于相应文档类的术语度,并针对每个文档类重新确定术语;以及 重复进行聚类和重新确定术语的过程,直到满足预定截止条件为止。
2.根据权利要求1所述的方法,其中,提取词汇包括:通过从所述多个文档的每个句子中去除停用词来提取所述词汇。
3.根据权利要求1所述的方法,其中,Icl 根据公式77W(Hg= 77-^;-log( 1 1 )或者其数学变换形式计算所述术语度CF(Wj)TFICF(Wi),其中,TF(Wi)表示词汇Wi在相应文档类中的词频、|C|表示文档类的数量、CF(Wi)表示包含词汇Wi的文档类的数量。
4.根据权利要求1所述的方法,其中,在每次迭代中,通过将文档类中相似度最高的两个合并来进行所述聚类。
5.根据权利要求1至4中任`一项所述的方法,其中,重新确定术语包括:根据先前迭代中计算出的术语度的加权和确定相应词汇的分值,并据所述分值确定术语。
6.根据权利要求5所述的方法,其中,在所述加权和中,术语度的权重随着迭代次数的增大而增大。
7.一种文档处理装置,包括: 术语确定部分,被配置为从多个文档中提取词汇,并且针对每个文档,计算所述词汇的术语度并根据所述术语度确定术语; 文档聚类部分,被配置为对所述多个文档进行聚类,其中基于针对每个文档类最近确定的术语及其术语度确定文档类间的相似度;以及 术语更新部分,被配置为基于最近的聚类结果重新计算所述词汇对于相应文档类的术语度,并针对每个文档类重新确定术语。
8.根据权利要求7所述的装置,其中,所述术语确定部分被配置为通过从所述多个文档的每个句子中去除停用词来提取所述词汇。
9.根据权利要求7所述的装置,其中,所述术语更新部分被配置为:1(1 根据公式777(7'Tvv,)= 77‘Yvv;Hog(_)~L)或者其数学变换形式计算所述术语度
'CF(Wi)TFICF(Wi),其中,TF(Wi)表示词汇Wi在相应文档类中的词频、|C|表示文档类的数量、CF(Wi)表示包含词汇Wi的文档类的数量。
10.根据权利要求7至9中任一项所述的装置,其中所述术语更新部分被配置为:根据先前迭代中计算出的术语度的加权和确定相应词汇的分值,并据所述分值确定术语。
【文档编号】G06F17/30GK103631789SQ201210299975
【公开日】2014年3月12日 申请日期:2012年8月21日 优先权日:2012年8月21日
【发明者】杨宇航, 夏迎炬, 于浩 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1