专利名称:自文件集合中自动搜寻概念层次结构的方法及系统的制作方法
技术领域:
本发明涉及一种自文件集合中自动发现其概念层次结构,尤其涉及一种可自文件集合中自动发现概念并自动生成一经标记概念层次结构的方法、系统及计算机程序。
背景技术:
现今信息时代每天新增大量信息,且其中大部分信息的格式为软件文件,可被输入至各公司、组织及万维网的相应计算机系统中以实现信息的存贮和流通。目前,在互连网上约有40亿张静态的网页,并且以每天七百三十万张的速度在递增,由此可见这些软件文件数量是多么惊人。
如果这些数量庞大的数据仅是无序地累积在一起而未按照一定的逻辑方式进行组织,可想而知,自浩如烟海的数据中检索到所需有用信息并非易事。而且,随着数据量的增加,检索的复杂性亦会相应增加,这使得检索中可能会错漏相关的信息或是返回冗余的检索结果。因而,按一定逻辑方式来对信息进行存储和整理是必要的,显而易见,这将易于人们对信息的浏览和检索。
整理这些数量庞大的信息/文件类似于图书馆中对图书的整理。在图书馆中,各种图书被按照一定的逻辑方式进行有序整理,譬如依照其所属的学科、其作者或是其它特征(如出版单位或是出版日期等等)做整理。对图书做有序整理根本目的就是创建一个让人们能容易查找所需书籍的系统。这不仅有助于人们找到所需的图书,而且便于对图书的管理。
类似地,我们面对的各种软件文件系涉及各种不同的主题,亦需要对其进行分类并按照某种逻辑方式进行整理。一种公知“文件分类法”可将文件按类别进行整理。该方法预先设定一个参数(或特征)对应于一个类别,符合某一特定预设参数的文件将被聚集在该特定预设参数所对应的类别之下。例如,一种对财政金融报告相关文件的分类方法,其将相关文件分为年度报告与定期报告。且,可根据实际情况做进一步分类。以文件中所反映的内容及思想作为判断依据,将文件收录至某一预先设定的类别下。该分类法中某一个特定类别下将收录反映相同思想和内容的文件。分类的出现产生了一个易于管理的检索空间(分类),从而便于从一个数量庞大的文件集合中挖掘相关信息,使得信息浏览、检索及获取更为容易。
构建分类是一个充满挑战性的工作,需要具备很深的分类相关专业知识。因此,分类构建通常由特定技术领域的专家来完成。比如,Yahoo的目录结构就是由人工创建形成分类结构的一个例子。人工构建分类结构通常要大量耗费时间和精力。而且,随着科技的发展,新技术领域和新技术术语将不断涌现,令更新既有分类结构这项工作变得艰辛。
如果文件集合中每一个文件的内容和思想可以被自动识别而不需逐一真正阅读后方能知晓,这将降低对文件进行分类整理的难度。文件所含的重要思想可定义为“概念”。比如,一篇关于“可再生能源系统”的文件,其可能包含诸如风力发动机,太阳能,太阳照明,自然资源,生物燃料等相关概念。这些概念被整理成一个层次结构,其中,彼此关联的概念排列位置互相靠近,越上位的概念在排列上越靠近层次结构中的顶层。概念的层次结构可以看作一种树状数据结构,最上位的概念作为树根,最下位的概念则为树叶。举例而言,若将“自然科学”作为一个数据树的树根,其可包括物理学,化学和生物学三个子节点。接着,上述物理学,化学及生物学三个子节点又可分别分化出各自的下一层节点。如物理可分化为力学,电磁学,光学和热学;化学可分化为有机化学和无机化学;生物可分化为动物学和植物学。显然,上述数据树可进一步往下细划到树叶部份(即,不能再往下划分的节点)。树叶部份即代表“自然科学”中最具体化的分类。实际上,诸如神经学,病理学,核磁性及烯烃等概念实际上皆可作为这样一个层次结构的树叶部份。
将概念整理成一个层次结构可便于使用者实现对概念的搜寻。而且,对相关概念的检索也有助于将与概念相关的文件归类至分类中相应所属类别中。一个分类中可以包括一个以上概念。同样,一个概念也可用于一个以上分类中。借助与概念相关的关键词进行概念搜索可以查找出与概念相关的文件。概念搜索可以作为判断文件在分类中所属类别的第一步。因而,自动生成的概念和概念层次结构可明显减少人工创建分类结构所需的时间和成本。
自动抽取概念及自动生成概念层次结构的方法主要涉及以下两个步骤(a)从文件集合中判定并抽取概念;(b)将概念整理成一个概念层次。
(a)从文件集合中判定并抽取概念概念用来代表文件的核心思想。文件的核心思想通常可通过一组相关的关键词来反映,这些关键词自文件集合中抽取,将相关联关键词聚集可形成概念。
(b)生成概念层次上述概念抽取步骤可产生一定数量的概念,其中大部份概念是相关联的,而且一个概念通常可以进一步细分为几个子概念。因而,需要确定各个概念间的逻辑关系,故可表示概念间逻辑关系的概念层次应运而生。
针对抽取概念及生成概念层次,已开发的众多方法中,大部份是利用词汇信息进行概念抽取并将所抽取的概念按层级次序排列。
oris Gelfand,Mariltyn Wulfekuhler及William F.Punch III等人于1998年7月在madision召开的美国人工智能协会(AAAI)文本分类学专题研讨会上发表了“Automatic Concept Extraction From Plain Text”(普通文字中的自动概念抽取)一文。该文介绍了一个从已析构文本中抽取概念的系统。该系统以字与字间的词汇关系为依据,其通过WordNet词汇参考系统查找字与字间的词汇关系。在WordNet中根据词汇概念整理文字。例如,名词,动词,形容词和副词构成一组同义字,每个代表一个根本的词汇意义。通常被称为“基本词”的一些语义特征被并从原始文本中抽取出来并用语义关系曲线,即SRG曲线(Semantic Relationship Graph)连接起来。基本词对应于SRG曲线图中的节点,语义相关联的基本词其所对应的节点被连接在一起。对于一些基本词,虽然它们在词汇数据库中没有直接语义关系,但通过一个连接词可将它们连接起来。这个连接词将作为一个“增添词”添入SRG曲线图中。例如,假设在SRG曲线上有二个词汇“生物学”及“物理学”,二者之间没有直接关系。此时,“自然科学”很有可能作为一个“增添词”引入该SRG曲线中。然后从曲线图中去除那些没有和足够多的节点发生关联的词,由此产生的图表结果反映了文件集合的语义信息,其可用来对文件集合进行分类。最后将SRG图表划分为多个子图表以得到各种文件的分类。
1997在芬兰Espoo召开的自组织地图专题研讨会(WSOM97)上,TimoHonkela等人发表了“WEB SOM Self Organizing Maps of DocumentCollections”(WEBSOM文件集自组织地图),介绍了一种从文件集中抽取用于表示该文件的关键词的方法。假设有五份待确定分类的文件及五十个自文件中抽取的关键词,这些关键词即为这些文件的特征。对每一份文件分别设定一个与之对应的“特征向量”,该特征向量具有五十维变量,分别与五十个关键词在该份文件中出现频率相对应。将这些文件画在一个二维图上。在二维图中,特征向量相互靠近聚拢在一起的文件彼此之间关联性较强。这种图为文件的分类提供了一种直观的表达,其中类似的文件聚拢在一起。
2001年召开的信息检索研究及发展国际会议上,Lawrie等人发表“Finding Topic Words for Hierarchical Summarization”一文揭示一种创建摘要主题层次结构的方法。主题层次结构将主题词组织成一个层次结构,其中较低阶的主题词覆盖其它词义相同的词。这种方法利用词在文件集合中出现的条件概率来抽取主题词及创建主题层次结构。该方法用一个直观图来表现任意两个词之间关系,其中,图上的节点代表文件中的词汇,各节点间连线反映词汇间“归类”概率的权值。如果术语Y为术语X的上位描述,则X被归类于Y中。图中归类概率最高、与多个节点相连的术语即为所要寻求的较上位术语。循环重复上述步骤可得到层次结构中更高层次的术语。
1999年,Sanderson等人于信息检索研究及发展国际会议上公开“Deriving Concept Hierarchies From Text”(从文本中搜寻概念层次结构)一文中公开一种自文件集合中自动搜寻其概念层次体系的方法,该方法以一对词之间归类概率为基础。如果词条“p”是一个对词条“c”更概括的描述,则“p”是词条“c”的母词条。用这种方法来获得词条构成概念层级体系中各个节点,由所生成的层次体系可得知文本中两个词的关系。
相反,本发明的系统是将概念组织成一个层次结构,层次结构中每个节点的下层才是词。层级内部的节点对应于不同提取级别的概念(一组短语成的群落为概念)。该层次结构体现概念与概念之间的关系。同时,依据Sanderson和Croft建构的概念层级体系中,一个节点不能隶属于一个以上的上层节点,而本发明的层次结构无此限制。
除了上述之研究报告之外,在该技术领域中还有各种涉及提取概念及建构概念层级相关之专利文献。
第5,325,298号美国专利(“生成或修订多个词干对应的概念向量的方法”)及第5,619,709号美国专利(“概念向量的生成及检索方法及系统”)中分别提供了产生语境向量的方法。该语境向量可用于存储、检索文件及其它信息,该语境向量表征文件集合中上下文的文脉关系,根据文件间的文脉关系可聚集有关联的文件。
第5,873,056号美国专利(题为“应用语意向量表示法解决词汇多义的自然语言处理系统”)公开了一种利用普通的主题词对文件自动分类及检索的方法,其自一个词汇数据库中获取用于分类及检索的主题代码。第5,953,726号美国专利(题为“维护概念层级的方法和装置”)涉及对概念性特性及概念层级的维护。
上述的方法和专利均是为了解决自动提取概念及构建概念层级中遇到的各种问题。
然而,其仍存在不足,上述的研究报告和专利文献中没有完善解决下述的一个或多个重要问题。
大部份系统基于词汇库进行概念提取,抽取范围受限于词汇库的覆盖范围。现有词汇库往往不能应对各种不同专业领域的主题词。而且,科技发展将出现新研究领域及新术语,譬如,“biometrics”就是一个新近出现的术语。以公知数据库为参考,不可能检索到这类新出现的领域及术语。
而且,公知大部份系统中,概念的产生及概念抽取是利用概率模型实现,这种方法对数据稀疏、意义分歧及冗余关键词的处理能力尚有所欠缺。
数据稀疏原因在于关键词是从一个文件集合中选取,而某个关键词在一个文件集合中出现频率要疏于其在一份单独文件中的出现频率。这使得表征该关键词的权重不够准确,从而影响任意两个关键词之间相似性的计算。
意义分歧指由一字多义而引发的问题。例如,英文单词“club”存在“asuit in cards”,“a weapon”或“a gathering”多种解释。获知一个词在上下文中的确切含义对生成概念及概念的层级排列而言相当重要。针对一词多意所产生问题,公知消除歧义的方法是预先定义一个词所代表的不同意义并储存形成一个词汇参考,利用该词汇参考区分一个词多个不同语意。公知消除歧义的方法侧重于考虑词汇本身的固有意义,通常没有考虑结合上下文关系理解字词所代表的具体意义。例如,对单词”car”的理解,根据词汇解释其为一种交通运输工具,然而结合上下文的具体语境,”car”可具体解释为”car insurance”或是”car racing”。
出现冗余关键词指在文件集合中重复出现而没有实际意义的一些词有可能被当作关键词抽取出来。例如,在一个与运动相关报道的文件集合中,“记者”(Reporter)是一个出现频率很高的词,如果仅以出现次数的多寡为基准从该文集中提取关键词,可想而知,频繁出现的“记者”一词将被抽取出来成为一个关键词。然而,对于运动这个特定领域,这个词并无实际意义,采用它作为一个关键词建构的概念将引发错误。
因此,由上可知,上述公知的方法,在实际使用上,显然具有不便与缺陷存在,而可待加以改善。
发明内容
本发明的一个目的,在于提供从一种文件集合中自动搜寻概念层次结构的系统、方法及计算机程序,其中该概念层次结构将概念按不同抽象级别进行编排。
本发明的另一个目的,在于提供一种从一个文件集合中自动提取概念的系统,方法及计算机程序。
本发明的另一个目的,在于提供一种从一个文件集合中自动提取特征字符的系统,方法及计算机程序。且,本发明进一步判定各特征字符之间的相似性从而聚集关联特征字符以形成概念。
本发明的另一个目的,在于计算各个特征字符之间的相似度,用以确定关联特征字符。
本发明的另一个目的,在于提炼特征字符分布频率以减少相似度计算中由于数据稀疏及意义分歧而造成的错误。
本发明的另一个目的,在于自概念层次结构中自动将概念按不同抽象级别进行整理。
本发明的另一个目的,在于提供一种应用已生成概念层次结构的友好使用接口,其可便于使用者有效地检索出符合该概念层次结构中某一概念的相关文件。
本发明的另一个目的,在于创建一个用户接口以便于使用者浏览及使用文件集合的信息内容。
本发明的另一个目的,在于结合词汇参考及语料分析知识建构一种可更好反映一个文件集合所含信息内容的概念层次结构。
本发明的另一个目的,在于利用概念层次结构自动获取分类中的类别,并自动将匹配的文件归类于相应所属类别中,从而促进分类构建。
为了达成上述的目的,本发明提供一种可自一文件集合中自动搜寻概念并自动生成一概念层次结构的方法、系统及计算机程序。本发明的方法包括自文件集合中抽取特征字符;利用统计方法计算特征字符间的相似度;提炼特征字符的分布频率以使上述相似度计算趋于精确;对特征字符进行语义排歧以解决意义分歧的问题;以经提炼的分布频率及语义排歧后的特征字符为基础,重新计算特征字符的相似度。经再次计算所得的相似度可反映各特征字符间的实际相似程度,可据此将相关的特征字符进行聚类形成不同的概念,所得概念排列为一个概念层次结构。该概念层次结构可自动对某一待检索之特定概念产生询问并返回与该概念相关的文件。
为能更进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与附图,然而附图仅提供参考与说明用,并非用来对本发明加以限制。
图1是本发明适用的一种计算器工作平台框图。
图2是本发明应用的一种计算机互连网框图。
图3是本发明自动识别概念并生成概念层次结构的方法流程图。
图4显示本发明一种自一个文件集合中提取特征字符的方法。
图5是本发明的判定特征字符间相似性一种实施方式的流程图。
图6是本发明的意义分歧调整方法的流程图。
图7说明本发明的聚类概念以生成概念层次结构的一种方法。
图8是本发明图形用户接口的显示画面,其显示自动生成的概念层次结构。
图9是本发明图形用户接口的显示画面,利用该图形用户接口使用者可对概念层次结构中某一个概念进行检索。
图10显示图形用户接口对用户的检索自动产生询问并返回相关文件。
图11显示借助本发明图形用户接口,使用者可利用自动生成的概念层次结构创建文件分类。
其中,附图标记说明如下100 工作站 104总线122通信通道 202数据处理网络208大型计算机210通信链路212存储设备 216通讯控制器214通讯链路 702,704,706,708,710,712群落802智能分类器具体实施方式
相关术语的定义特征字符指在文件中出现名词或者名词短语。文件内容通常由其中出现名词或者名词短语来表达。这些名词和名词短语因而可用来代表相应文件的内容。这类似于素描中的人物特征,人物特征可用来确定人物身份,同理,代表一份文件的内容和特性的名词和名词短语称的为“特征字符”。一个特征字符可有一个或多个组成元素。
概念由相关联特征字符聚集而形成的一个群落称为概念。
概念层次指概念的一种层级排列结构。其中,互相之间有关联的概念在排列上彼此靠近,越上位的概念排在越靠近顶层的位置。
标注指为概念设定的名称。标注是一个描述性的词或短语,用来识别概念所代表的要素。
分类分类将类别整理成一树形结构,并结合类别与相关文件。
类别类别是一个预设的参数(或特性),用于将符合该特定参数的文件聚类。
紧密度定义为度量一个群落中各组成特征字符之间平均相似度或群落内各子群落之间平均相似度的一个量。
连通度用来衡量二个群落的组成要素之间的平均相似程度,其中,群落的组成要素可为特征字符或子群落。
群内距离一个与紧密度成反比的量,可由紧密度推导而得,即对于一个具有高紧密度的群落,相应地,其群内距离小。
群间距离一个反比于连通度的量,可由连通度推导而得,即若群落之间具有较高的连通度,则这些群落的群间距离较小。
意义分歧指一个词包含一种以上含义的情况。如果不结合上下文的前后关系对这种多义词进行单独解释时,其具体所指的含义难以确定。
数据稀疏指一份文件中的词汇量属于整个语料库全部词汇量中的一个小子集这样一种属性。一个概念可由几个词来传达。语料库中包纳了与这个概念相关的所有词,然而,所有相关词可能不会同时地出现在含有该概念的全部文件中。这意味存在如下情形在语料库中,不同文件采用不同词汇去表达同一个概念。
核心概念一份文件的内容可用其所含主要思想进行概括。这些主要思想可用一些关键词或短语来表达。通常,一份文件会包含一个以上的思想,相应地,相关关键词及短语亦反映一个以上思想。一个反映相同思想的关键词/短语群落被称为一个概念。上述这样一个关键词/短语群落的名称称为标注。组成群落的关键词或短语即为特征字符。类似于一个人的特征字符可代表其身份一样,这些关键词和短语代表相应文件的内容。
借由下述例子可更好理解特征字符、概念及标注之间关系。自一份文件中提取出“malaria,osteoporosis,hospital,lung and medicine”等字符即为特征字符,这些特征字符表明这份文件主要思想为“healthcare”,这样,由上述特征字符组成的群落可用“healthcare”作为其标注。从而,上述特征字符组成的群落就形成一个概念,该概念以标注“healthcare”表示。
文件主要思想或内容通常用其所含的名词及名词短语来表示,因而,一份文件中的名词和名词短语构成该文件的特征字符。
用概念来表示思想存在不同抽象等级之分,即可为一个相当抽象的思想,比如“科学”;或是一种较具体的思想,比如“病理学”。因而,表示这些不同思想的概念也同样存在着不同抽象级别之分。
将这些概念按不同抽象级别排列成一种层次结构,即构成一个概念层级。在概念层级中,具体的概念依附于抽象的概念,呈一种树状分布,自根部到叶子,树中节点所对应的概念由抽象趋于具体。例如,一个树形概念层级中,以概念“自然科学”作为树根,则该概念的下包括如下三个子概念“物理学”、“化学”及“生物学”。接着,上述子概念又有各自的子概念,物理学的子概念可为力学、电磁学、光学及热学;化学的子概念可为有机化学及无机化学;生物学的子概念可为动物学及植物学。上述子概念还可进一步逐层往下细分,直至树叶部份(无子概念的节点)。树叶部份代表自然科学中最具体的分类。在该概念层级中,树叶部份可由神经病学,病理学,核磁学及烯烃等构成。由于一个概念可以和多个上层概念发生联系,所以一个概念层级中一个节点也可从属于一个以上的上层节点。
本发明提供一种可从文件集合中自动判定并提取概念及自动生成一个概念层级的方法、系统及计算机程序。其中,所生成的概念层级可应用于概念检索及分类构建。
图1为本发明应用的一种代表性的硬件工作环境。其包括一个典型的个人计算机工作站100,例如是包括相关外围设备的个人计算机。工作站100包括微处理器102和总线104,总线104用以实现微处理器102与工作站100中其它设备的连接与通讯。工作站100通常包括一个用户接口适配器106,用于实现微处理器102和一个或多个外围设备通过总线104连接,比如键盘108,鼠标110和/或其它外围设备112,比如触摸显示屏,数字化输入板等等。总线104还可通过一个显示适配器116连接微处理器102与显示装置114,比如一个液晶显示屏或一个显示器。总线104将微处理器102连接内存118及非易失性存储设备120,可以是硬盘驱动器,软盘驱动器,磁带机等。
借助一个通信通道122,工作站100可与其它计算机或计算机网络实现连通。工作站100可与一个局域网或是广域网内的其它计算机相互通讯,工作站100还可为与其它计算机构成的客户机/服务器体系中的客户机,等等。上述之构造及相关通讯硬件及软件均为公知技术。
图2是一个用于实现本发明的数据处理网络202示意图。其包括多个单独网络局域网204,206。其中,局域网204,206分别包括多个单独工作站100。由公知技术可知,该局域网也可以包含多个智能工作站,且该智能工作站均连接到同一主处理器上。
图2中,数据处理网络202也可包括多个大型计算机,如通过通信链路210连接到局域网206的大型计算机208,大型计算机208可连接存储设备212,存储设备212可为整个局域网206共享的远程存储设备。局域网206可通过一个子系统控制单元或通讯控制器216连接到通讯链路214,并通过通信链路214连接到网关服务器220。网关服务器220通常是一个独立的计算机或智能工作站,用于局域网204和局域网206的连接通讯控制。
在公知技术中,大型机算计208与局域网206在地理位置上可能相隔很远,类似地,局域网204与局域网206之间也可相隔很大物理距离。
实现本发明的软件程序代码,通常由工作站100的微处理器102从非易失性存储设备中读取。非易失性存储设备有如CD-ROM驱动器或硬盘驱动器。客户机/服务器体系中,软件程序代码存储可在服务器关联的存储设备上。软件程序代码可被包含在任意可用于数据处理系统的存储媒介中,如软盘,硬盘,CD-ROM。软件程序代码可通过上述存储媒介传播,也可通过网络由一个计算机系统的存储设备中传递到其它计算机系统供其用户使用。另外,软件程序代码还被嵌入于内存118,而由微处理器102通过总线104读取。将程序软件代码存储或嵌入到内存或其它物理存储媒介上,或通过网络传播的技术均为公知,在此不再赘述。
本发明的输出结果可以被存储在应用任意一种存储媒介的非易失性存储设备120中,也可从工作站100通过通讯通道122传输到其它图2标示中的计算机或工作站,并由其它计算机或工作站保存。
较佳实施例中,本发明通过一计算机程序实现。该计算机程序可在用户本地计算机上执行,也可通过用户拥有或可控制的局域网或广域网在其它远程计算机上执行,该网络连接可以是INTERNET连接,由网络接入服务提供商所提供。大多数网络应用环境中,用户通过自己计算机连接到公用或专有网络,如Internet或内部网,并通过此网络间接使用包含本发明的软件程序。
图3为本发明的自动判定概念并生成一个概念层级结构方法的流程图。步骤302输入一个文件集合。其中,组成该文件集合的文件可为报告、网页、新闻出版物或其它文件数据,这些文件数据可存储在内存120中。步骤304从输入文件集合中提取特征字符。如前所述,特征字符指那些在文件中出现并且可代表文件内容的名词及名词短语。
步骤306判定所提取特征字符之间的相似度。借助该步骤306可得到两个特征字符相似度的定量度量。特征字符间的相似度或者是关联度用来衡量代表相同概念的特征字符之间相近似的程度。两个特征字符之间相似度越高,表明他们代表相同概念的可能性越高。
一份文件中通常包含多个不同概念,因而从一份文件中提取出来的特征字符涉及到多个不同概念,需要对不同概念所对应的特征字符加以识别以区分多个概念。
在文件集合中,如果一个概念反映在一份以上文件中,那么其相应的特征字符极可能都会在这些文件中同时出现。因而,特征字符之间相似的一种表现是在文件中这些特征字符习惯上同时共现,可据此评估特征字符的相似度。然而,基于特征字符共现情况评估其相似度时,数据稀疏及意义分歧会使所得结果不够准确。
数据稀疏是指一份文件所含词汇通常只是整个文件集合全部词汇的一个小部份而引发的问题。一个特征字符有可能在少数几份文件中重复出现,因而在这几份文件中具有较高的出现频率。同一个特征字符有可能在另几份文件中出现次数稀少,因而在这几份文件中出现频率相对较低。而且,并非所有的特征字符都是定义文章内容所必需的,采用部份特征字符就足以表达文章的内容。另一方面,某些特征字符可能是一些与文章内容没有任何关联的冗余特征字符。比如,在有关运动的一系列报道中频频出现的“记者”一词,其对这些报道内容而言没有实际意义。
意义分歧指一个特征字符具有一种以上含义的情形。例如,英文单词“club”可有如下几种意义“a gathering”,“a suit in cards”或是“a weapon”等等。因而,“club”和“cards”同时出现,“club”和“weapon”同时出现并不意味着“weapon”和“cards”属于意义相关词。
本发明判定特征字符相似度的步骤对上述问题予于特别关注,下文图5将详细说明该步骤的各个子步骤。
步骤308为层次聚类,聚集相关联概念以形成概念并将概念组织成为一个层次结构。下文给出两个具体的实施例。
本发明的标注概念步骤310在一件早先的美国专利申请中亦有公开。该申请名称为“A Method And System For Naming A Cluster Of Words AndPhrases”,申请日为2002年3月12日,申请序列号为10/096,048。该步骤是给概念标注上代表其意义的标签,用以体现在概念层次中从抽象到具体的各个概念。
步骤312为创建一个显示所生成概念层次结构的接口。该接口可便于应用生成的概念层次结构进行浏览,概念搜索及分类建构。再返回到步骤302,其中,该提取特征字符的步骤304包括多个子步骤,如图4所示。
图4显示本发明从文件集合中抽取特征字符的方法。其中,系统输入一个文件集合,该步骤为从输入文件集合内每一份文件所有字符中提取出特征字符,这将涉及对句子结构及词类标注的分析。
步骤402中对每一份文件进行解析,即依据句子中字词的组合形式、功用及句法关系逐句切分一份文件中的每个句子。该解析步骤包括词性标注步骤以获知字词之间的关系。词性标注步骤是在文件中标注词相应的词性(例如标注为动词、名词、代名词、形容词、副词、前置词、连词、感叹词)。词性可通过规则方法由已标注范本中获知或是通过N-元(n-grams)统计信息进行分析。N-元表示法是文件及其组成要素的一种表示方法。其中,每个N元是一份文件中n个大字符串中的子字符串。此外,标点符号及大写信息也可能被运用于词性标注分析。步骤404中,从切分后的文件中抽取出特征字符(即名词或名词短语)。步骤406将特征字符编录成一个索引结构。针对某个特征字符,利用该索引结构,搜索引擎可以迅速获取包含该特征字符的所有文件。步骤408中搜集所提取的特征字符并存储在数据库120中。此外,提取特征字符也可利用公知程序包实现,例如由InXight公司提供的程序包Inxight LinguistXPlafform。
回到前述的步骤306,即判定两个特征字符间相似度的步骤,该步骤包括多个子步骤,如图5所示。
图5为本发明判定两个特征字符间相似度方法的流程图。其中,步骤502系统输入特征字符集合。步骤504表示出特征字符在文件集合中的分布。特征字符分布可用特征字符在文件集合中的概率分布来表示。
特征字符s在由n份文件组成的语料库中的频率分布可表示为f(s)=[f1(s),f2(s),f3(s)........fn(s)]其中,fi(s)表示特征字符s在第i份文件中出现次数。
将频率测定标准化后可得到特征字符的概率分布,特征字符s在由n份文件组成的语料库中的频率分布可表示为p(s)=[p1(s),p2(s),p3(s)........pn(s)],且∑pi(s)=1;其中,pi(s)为特征字符s在第i份文件中出现的概率。上述表示反映了特征字符在文件集合中的分布。
步骤506计算特征字符间的相似度。相似度是对特征字符间相关程度的一种量化度量。相似度越高的特征字符,表达同一个概念的概率越高。
步骤506以标准统计方法为基础计算特征字符间的相似度。各种公知统计方法皆可来评估相似性,本发明中依据特征字符在文件集合中的实际分布来计算其相似度。
本发明计算相似度所采用的一种统计方法是“互信息”(MI,mutualinformation)。
MI计算公式为MI(s,t)=Σipi(s,t)logpi(s,t)pi(s)pi(t)]]>其中,pi(s)及pi(t)分别表示特征字符s及特征字符t在第i份文件中的出现概率,pi(s,t)表示特征字符s及特征字符t在第i份文件中共现概率。上述公式中之对数为基2对数。
本发明另一种计算相似度的方法是通过改进KL距离(modifiedKullback-Leibner distance)。
根据该算法,相似度SIM(similarity measure)可由下式计算SIM(s,t)=1.0-KL(s,t)其中,KL(s,t)为改进KL距离,其计算公式如下KL(s,t)=min{Σipi(s)log(2pi(s)pi(s)+pi(t)),Σipi(t)log(2pi(t)pi(t)+pi(t))}]]>显然,相似度的计算不限于上述两种具体实施方式
,本领域技术人员可通过其它统计方法计算特征字符间的相似度。
上述改进的KL距离还可以用来处理意义分歧问题。如前所述,意义分歧是指单个特征字符包含多种含义或是有多种与其相关联的意义。假设特征字符p有多种含义,一种含义与特征字符q相关联,另一种含义与特征字符r相关联。这这种情况下,特征字符p可与特征字符q共现,亦可与特征字符r共现,但不可能同时与特征字符q及特征字符r共现。根据上述改进KL距离算法推算而得的特征字符”p”“q”之间距离KL(p,q)及特征字符”p”“r”之间距离KL(p,r)应该较小。如果不对意义分歧做修正,两个组合具有较大理论距离。经过修正后,其距离变小,反映它们之间真实关系。
数据稀疏可导致特征字符在文件集合中分布失衡。基于实际出现情况计算而得的特征字符概率分布可能并不能反映真实情况。而且,由于存在意义分歧,利用统计方法计算的相似度并不能如实反映特征字符实际中的相似程度。在计算相似度的统计方法中,将特征字符在文件集合中出现的概率作为一个参数,由此而得的相似度不能区分同一个特征字符的不同意义,导致错误。
因而,按照步骤506,根据实际分布计算而得相似度并不能完全反映特征字符之间实际的相似程度。所以,步骤508将提炼特征字符分布并重新计算相似度以反映特征字符实际的相似程度。
步骤508提炼特征字符在文件集合中的频率分布。在随后的步骤510中,利用提炼后的分布再次计算特征字符的相似度。对频率分布进行提炼可使其趋于精确化,从而使再次计算所得的相似度更为准确。
本发明较佳实施例中,为克服数据稀疏问题,对特征字符共现频率进行精化处理。利用一种平滑技术对特征字符在文件集合中的概率分布进行提炼,该平滑技术以特征字符共现频率为基础。相对于调整单个特征字符的频率,通过特征字符的共现频率对特征字符分布频率进行调整和提炼可将内存开销由O(sD)减少到O(s(s-1))。其中,s和D分别代表特征字符及文件的数目。
在本发明较佳实施方式中,经i次反复平滑处理后,特征字符”s”和”t”调整后之共现频率可用fi+1(s,t)表示fi+1(s,t)=fi(s,t)+λΣxfi(s,x,t)]]>其中,λ是一个预设平滑参数,fi(s,x,t)表示特征s,x及t在第i份文件中的联合频率。λ值根据试验及误差来选取,实验研究表明1~10为λ一个可行取值范围。
实现自由平滑需要具备较大λ值及多次叠代,且,平滑结果对特征字符之间相似度的统计值反应很敏感。因而,对采用该方法倾向于持保守态度。
上述的联合频率fi(s,x,t)可通过多种公知统计方法来估算,本发明较佳实施方式中利用条件概率计算特征字符的联合频率fi(s,x,t)。
一个语料库中能包含数百万文件,但是通过其中少量固定的特征字符通常即可获知其信息内容。因而,仅选取那些与某个特征字符具有高相似度之特征字符来对特征字符的分布进行调整及提炼。
上述共现频率fi+1(s,t)中之参量 可利用条件概率来估计,具体表示如下fi+1(s,t)=fi(s,t)+λ(ΣStat(x,t)≥σ,x≠spi(s|x)pi(x|t)pi(t)+ΣStat(y,s)≥σ,y≠tpi(t|y)pi(y|s)pi(s))]]>其中,Stat(s,t)是选定的统计量,σ是一个预设的相似度阈值,pi(x|y)为条件概率,表示在第i次叠代中,假设y已经包含在一个文件中时,该文件中包含x的可能性。条件概率可利用贝氏定理计算。
贝氏定理pi(x|y)=pi(x,y)pi(y)]]>在本发明较佳实施方式中,利用共现信息来估算概率pi(x,y)=fi(x,y)F2i]]>pi(x)=Σyfi(x,y)F2i]]>其中F2i=ΣyΣxfi(x,y)]]>上述针对提炼分布的处理方法中,考虑了特征字符有关联但不常共现的情形。该处理方法可提供一个更准确的相似度,其中,较高的相似度用来反映相关联但习惯上不常共现的那些特征字符之间的关系。
意义分歧问题可通过消除特征字符歧义来解决。出现次数频繁的特征字符其含有多种语义的可能性较大。因而,评估这种多义特征字符与其它不常出现的特征字符之间相似度时,所得结果显示相似度较低。因此,选取出现频繁的特征字符进行歧义消除。多义特征字符所代表的不同语义可利用词关联规则算法可自动搜集。据此,将一个多义特征字符的频率分布分解成与不同具体语义对应的频率分布。这将使得一般特征字符与多义特征字符具有较高相似度。
语义分歧的调整涉及多个步骤,如图6所示。图6为本发明的一种语义分歧调整方法流程图。
步骤602中输入一个特征字符集合;在步骤604中选取出模糊特征字符以进行语义调整。模糊特征字符指含有一个以上与其相关的语义的那些特征字符。研究发现一个特征字符的模糊程度正比于其出现频率。同时,特征字符频率分布遵循基夫定律(Ziff”s law)。所以,出现频率高于x%(10%-20%)的特征字符将被抽取出来进行歧义消除。
确定模糊特征字符之后,随后的步骤606为利用关联规则算法搜寻这些模糊特征字符的各种语义。第20届世界大型数据库(VLBD)会议的会议记录中由R.Agrawal等人公开的关联规则算法可应用于上述步骤。
特征字符的频率分布被分解为多个分布,其中,语义”S”由s1...sk个特征字符组成,这些特征字符通常一起共现S={s1,...,sk|Sup(s1,...,sk)≥δ}其中,Sup(s1,...,sk)表示s1...sk特征字符在语料库内联合共现的文件之数目,s是一个预定阈值。
在本发明较佳的实施方式中,所采用的关联规则算法具有如下两方面限制分析语义时应特别注意语义大小应小于预定范围以平衡计算效率与精确度。研究经验表明4至7是一个较好的范围;另一方面,确保每个语义包括一个由步骤604选取出的模糊特征字符“s”,其它特征字符频率必须低于特征字符“s”的频率以避免“s”被其它更模糊的特征字符去模糊化。
可应用于本发明的关联规则算法如下<pre listing-type="program-listing">S={{ff is a frequent signature}}for(size=1;size<=MaxSenseSize;size++{ for each sense s={f1...fn}in S extended=false for each signature t with frequency lower than f1...fn s′={f1..fn t} if Support(s′)>=threshold S=S+{s′} extended=true if(extended==true) S=S-{s}}</pre>
在步骤608中每个语义都要加入一个频率分布,所加入的频率分布为其所有组成特征字符的共同分布。语义”S”在j份文件中的出现频率表示为 步骤610调整特征字符的频率分布以解决意义分歧问题。根据语义频率分布,在第j份文件中,特征字符si在语义集”S”中之分布由fj(sj)修正为 f~j(si)=0fj(S)>0fj(si)fj(S)=0]]>当上述分布提炼处理完成后,将返回到图5中的步骤510,再次计算所有特征字符及语义的相似度。
再参阅图3,判定相似度的步骤306完成后,接着为步骤308层次聚类。步骤308根据前一步骤306中计算出的相似度生成概念并将所得概念组织成一个概念层级。
一个概念层级中的概念以具有高紧密度及低连通度为佳。其中,紧密度用来度量一个群落中特征字符之间的相似程度,而连通度用来反映分别来自两个不同群落的特征字符的相似程度。在一个高质量的概念层级中,离得越远的两个群落就越不相似(即具有高群间距离和低连通度);且,各个群落应具有高紧密度,即群落的组成成员相似,其中,群落组成成员指其组成特征字符或其下属子概念。
上文所述的紧密度反映一个群落(概念是由特征字符组成的一个群落)的组成要素间相关的紧密程度,是对一个群落的群内距离的一种度量。其中,群内距离用以衡量群落中组成要素之间的平均相似度,与紧密度成反比关系。因此,由密切相关的特征字符组成的群落将具有低的群间距离及高的紧密度。
群落C的群内距离可通过其相应的“紧密度”计算,其群内距离与其紧密度成反比。群落的紧密度可定义为其组成特征字符或子群落的平均相似性。
当群落”C”由特征字符组成时,其紧密度计算公式如下(C)=Σt∈C,t≈sΣs∈CSim(s,t)|C|(|C|-1)2]]>若由子群落组成,其紧密度由下式计算Compactness(C)=ΣCj∈Child(C)ΣCi∈child(C)Connectivity(Ci,Cj)|Child(C)|2]]>其中,Child(C)代表群落C的子群落,Connectivity(Ci,Cj)为概念Ci及Cj.的连通度。
两个概念之间的连通度定义为来自两个不同概念(群落)的任意两个特征字符间的平均相似度。高连通度意味着低的群间距离,其中,群间距离指两个独立群落相似度的平均值。群间距离反比于连通度,即高连通度意味低的群间距离。相似度高的两个概念,表明其组成特征字符密切相关。
群落“S”和”T”的群间距离可由其连通度来计算。连通度是指来自该两个概念的任意两个特征字符间的平均相似度,其可由下式计算Connectivity(S,T)=Σt∈TΣs∈SSim(s,t)|S||T|]]>其中,|S|及|T|分别代表群落“S”和“T”中特征字符的数目。
上述紧对密度及连通度的计算为概念聚类的基础。本发明将说明在一个概念层级中对概念进行聚类的两种实施方式。
一种聚类方法是采用贪婪凝聚法将概念整理成一个层级结构,如下文聚类凝聚程序所示。这种方法中,系统输入一个特征字符集合,对特征字符进行聚类形成概念并将所产生概念整理成一个层级结构。
贪婪算法选择距离最小的二个群落来合并。本实施方式采用二个准则对群落进行合并,以使群间距离相对用于合并的子群落的群内距离达到最大化。
聚类凝聚程序
Procedure AgglomerativeClustering(I={C1...Cn})while|I|>1{Pick A,B∈I s.t.Connectivity(A,B)≤Connectivity(Ci,Cj)Ci,Cj∈II=I-{A}-{B}C=MergeClusters(A,B)I=I∪{C}}上述系统中,其输入为一个特征字符集合I,该集合I包括特征字符C1至Cn。每次叠代时,连通度最高的群落将被合并成一个新群落。群落合并程序考虑四种群落合并情形,如图7所示。
参阅图7,群落702标记为“A”,其包括A1至An个子群落;另一钎落704标记为“B”,包括B1至Bm个子群落。A及B的子群落可为概念或是特征字符。依照群落合并程序,群落A及B有下列四种合并方式MergeTogether,MergeSibling,MergeLeft及MergeRight。依照上述四种不同方式合并而得的群落分别标识为群落706,群落708,群落710及群落712。
上述四种合并方式可借助下例进行理解。假设群落A及B被挑选出来进行合并,根据二个群落的紧密度和连通度,可有四种合并方式,可通过试探选择其中一种适宜的合并模式。针对上述四种合并方式,本实施例亦提供二套概念聚类规则。
第一套规则适用于群落C具有高群内距离及低群间距离的情形,具体如下若 此时,应选用MergeTogether合并方式,群落702及群落704被合并在一起形成群落706。
若 此时,选用MergeLeft合并方式形成群落710。
若
此时,选用MergeRight合并方式形成群落712。
若 此时,选用MergeSibling合并方式形成群落708。
其中,θ为预设阈值,其取值可依实际需求确定,即根据所生成的概念层级对紧密度和连通度的要求确定θ取值。
第二套规则针对下述情形群落C的子群落具有低的群内距离及高的群间距离,即具有最小R(C)的情形R(C)=InterCluster(C)IntraCluster(C)]]>上式中,InterCluster(C)=ΣCj∈Child(C),Σj≠Ci∈Child(C)Connectivity(Ci,Cj)|Child(C)||Child(C)-12]]>IntraCluster(C)=ΣCi∈Child(C)Compactness(Ci)|Child(C)|]]>其中,InterCluster(C)为C中各对子群落之间的平均相似度。IntraCluster(C)为C的子群落的平均相似度。上述第二套规则系适用于具有低R(C)值的结构,该种结构中群间相似性较低而群内相似性较高。
生成概念层级的另一种方式是利用间接图像逼近方法。其利用图像分割算法将原始图像适当分割成不同子图以实现群落分类。图上节点代表特征字符,两个节点之间的连线与两个节点之间相似程度的权值相关。
依照这种方法,假设所有的特征字符为一个群落,然后将这些特征字符循环分解生成群落(概念),并将所得概念整理为一个概念层级。
图像分割算法用于将特征字符按一定分割方式划分成很多部份,该分割方式使得不同分割部份之间相交线的权值,即不同部份之间的交叉线的总数量为最小。因为图中的每一条连线代表特征字符之间的相似程度,所选取的分割方法应尽量减少区域间的交叉线以使不同分割部份中的特征字符相似程度最小。这使得在同一个区域中得特征字符彼此高度相关。
该步骤可由二值图像分割算法实现,例如,美国Minnesota大学提出的METIS图像分割算法。一个群落C被分割成二个子群落A和B,该分割方式使得群落A和B之间相交线数目为最小,且A和B至少包括C中x%的特征字符。研究经验显示x%取值为20~40%较为适当。然,该百分比的取值不限于上述所提供的范围。
该步骤首先将全部特征字符视为一个群落,在每一次循环叠代中,将一个群落分割为若干个更小的子群落,直至所分割数量已满足要求或是已分割得足够细而不能再往下细分时,该步骤方结束。
上述分割步骤完成后,利用紧密度将不同分割部份组成一个层级。将由图像分割算法产生的复数分割部份视为一个初始的群落集合“I”,将该群落集合中具有高紧密度的群落合并到一起,形成了一个新群落集合“M”。群落集合“M”取代最初始群落集合“I”,在群落集合“M”中重复上述合并动作。反复叠代上述合并动作,每一次叠代生成概念层级中一个层次的概念。该合并动作反复叠代进行,直到合并的群落数量满足默认值“k”为止。
如果对分割部份作进一步处理,使相似的分割部份彼此靠近,则系统在每次叠代中可有效地选取出一组群落进行合并。利用下文所示的快速合并程序,可实现上述目的。该程序无需对每一对群落组合一一进行比对进而找出最适合进行合并的群落,其仅对那些彼此接近的群落进行比对。以一个线性群落“A”,“B”及“C”为例,群落“B”和“C”之间的间隔是由“A”和“B”合并成的群落与由群落“B”和“C”合并成的群落之间的紧密度差值.处于较大间隔之间的群落被选出进行合并,这使得每一次合并过程在时间上线性。
本系统也可迅速计算出一个合并群落的紧密度。每个群落的紧密度及其概念之间的连通度将被存储在内存120中备用。
由群落”A”及”B”合并生成之群落”C”,其紧密度可由下式计算Compactness(C)=|A|(|A|-1)2Compactness(A)+|B|(|B|-1)2Compactness(B)+|A||B|Connectivity(A,B)(|A|+|B|)(|A|+|B|-1)2]]>
上文提及之快速合并程序如下<pre listing-type="program-listing">Procedure FastMergePartitions(I={C1...Cn},k) do while(|I|>k) { lastMerge=-1 lastCompact=-1 M=Φ do while(lastMerge+1<|I|) { endMerge=lastMerge; for(i=lastMerge+1;i<|I|;i++) { mergedCompact=ComputeMergedClusterCompactness(Ci,Ci+1) gap=|mergedCompact-lastCompact| if(lastCompact<O‖gap>σ) { endMerge=i break } } C=FormCluster(ClastMerge,...,CendMerge) M=M∪C lastMerge=i lastCompact=mergeCompact } I=M }</pre>借助上述合并步骤可产生一种概念的层次结构,该概念层次结构可表示在一个图形用户接口中,如图8所示。
图形用户接口为用户提供一个友好使用接口,便于用户对概念层级进行有效浏览和检索。本发明的系统中,用户还可通过该接口对已生成的概念层级进行编辑操作。
图8为本发明图形用户接口一个显示画面,该图形用户用于显示一根据本发明的方法自动生成的概念层级。
借助图形用户接口,用户可对显示于智能分类器802中的概念层级进行浏览及检索。智能分类器属于一种图形用户接口,当多种应用共存的情况下,图形用户接口便于用户应用概念层级进行概念检索及分类构建。用户可利用显示在智能分类器802中的概念层级实现信息检索(详如下文图10所示)及分类构建(详如下文图11所示)。
展开一个概念可显示其所含子概念,因而通过逐级展开可了解某个概念所包含的子概念及特征字符。参阅图8,对概念“aircraft+war”804进行展开操作,在多个操作选项中选中相应选项806“显示概念中术语(特征字符)”,其相应的特征字符即显示在窗口808中。其中,带有方形标记810的那些特征字符对应于概念“aircraft+war”804的一个子概念;带有圆形标记812及带有三角形814的特征字符则分别代表概念“aircraft+war”的另两个子概念。
希望了解概念804“aircraft+war”下属的子概念时,可通过点击“Expand”选项816或是点击相应节点804。同样,点击某个特定子概念就可显示其相应的特征字符。
因而,智能分类器802能使用户了解一个概念的组成特征字符或者一个上层概念下属子概念的所有特征字符。上层概念可展开显示其相应子概念,子概念可展开显示其组成特征字符。
用户可通过图形用户接口检索概念及特征字符。而且,图形用户接口中可对概念层级进行人工编辑,用户可以对概念重新命名,增加/删除概念层级中的概念,增加或删除概念的组成特征字符。
如图9所示,用户可以通过本发明的图形用户接口检索概念层级中的概念。参阅图9,智能分类器802中显示组成上层概念804“aircraft+war”的所有子概念,其包括子概念92“atmospheric_phenomenon+precipitation”,子概念904“Japan+Pacific”及子概念906“plane+boat”。其中,子概念902进一步包括子概念908“atmospheric_phenomenon+precipitation”及子概念910“lake+lake”。同理,子概念904及906亦分别包括相应下属子概念。智能分类器802亦能显示这些下属子概念,用户可在检索窗口912中对某个特定概念进行检索。
本发明的系统中,用户可对概念层级中每一个概念进行自动检索以搜寻到相关文件。图10为本发明一个图形用户接口,其显示概念层级,且用户通过自动产生的检索可检索到相关文件。本系统可对一个概念进行自动检索并返回与该概念相关的文件。如图9中所示,对概念“aircraft+war”804进行检索,与该概念对应的特征字符将被显示在窗口1004中。以该概念对应的特征字符作为检索基准,对文件进行检索,可找出含有该概念相应特征字符的文件。检索返回的文件按该特征字符在文件中出现的权值由高至低排列并显示在窗口1002中。
组成概念“C”的每一个特征字符的权值以该特征字符在文件集合中出现频率为基础进行计算。
针对一个概念C={s1,...,sn},在检索中所采用的检索术语为其组成特征字符s1...sn。以特征字符在文件集合中出现频率为基础计算每个检索术语的权值。
上述例子中,权值可按下式计算w(si)=minW+(maxW-minW)f(si)-minFmaxF-minF]]>其中,w(si)为检索术语si的权重,[minW,maxW]为预定的权值取值范围。其中,(si)=Σjfj(si)]]>maxF=max{f(si)|si∈C}minF=min{f(si)|si∈C}[minW,maxW]的范围可取
,在最佳实施方式中对该取值范围做调整以减小较长特征字符的权值。
minW=k1e|C|d+k2]]>maxW=k3e|C|d+k4]]>对一个较长的检索术语,[minW,maxW]取值为[k2,k4];对于较短的询问检索术语,取值为[k1+k2,k3+k4]。上述参数的一组具体数值可为k1=0.6,k2=0.05,k3=0.8,k4=0.1,d=30。
本发明的系统中还可对概念层级进行编辑操作。用户可以重新对概念命名,增加/删减概念,在概念层级中移动概念及增添/删减一个概念中的特征字符。
图11显示本发明一个图形用产接口,其中用户可通过该接口从本发明自动生成的概念层级中创建一个文件分类。用户可从概念层级的不同部份中得到文件分类的不同类别。从概念的标注可得到不同类别。图11所示,窗口1102中显示了所创建的分类,其中“aircraft+war”类别来源于概念层级中相应的概念“aircraft+war”。对于概念层级中的每个节点或是用户选定的任意部份都可自动产生检索,将相关文件与对应概念联系起来。因而,用户可通过问询进行有效检索,找到所需文件。从概念层级可自动获知文件分类或是文件分类中的类别。对概念的检索将检索得到的文件自动归类到文件分类中各类别目录之下。而且,可以对检索返回的文件进行人工归类。文件分类中的类别将沿用概念层级的结构(或部份选定结构),文件分类中的每个节点将沿用概念层级中相应概念的标注或是相关检索词。
以上所述,仅为本发明最佳具体实施例的详细说明与附图,但是本发明的特征并不局限于此,并非用以限制本发明。凡符合本发明保护范围的精神与其类似变化的实施例,皆应包含于本发明的范畴中,任何本领域技术人员在本发明的领域内,可轻易思及的变化或修饰皆可涵盖在以下本发明的专利范围。
权利要求
1.一种自文件库中自动搜寻概念层级的方法,该概念层级将概念组织为多个抽象级别,该方法包括从文件库中提取特征;判定所述特征之间相似性;逐级聚类相关特征以生成概念,由此得出逐层聚类的概念,从而产生一个概念层级;标注该概念层级中的概念;以及为所产生的概念层级创建一个界面。
2.根据权利要求1所述的方法,其中该提取特征步骤包括切分文件库中的文件,进行词性标注及句法结构分析;提取代表该文件内容的特征;以及将所提取的所述特征编成索引。
3.根据权利要求1所述的方法,其中该判定特征之间相似性步骤包括表示特征,利用其于文件库中的分布进行表示;计算所述特征间的相似性;对所述特征在文件库中的分布进行提炼;以经提炼的分布为基础,重新计算所述特征间的相似性;利用上述重新计算所得结果判定特征相似性。
4.根据权利要求3所述的方法,其中利用修正KL距离计算所述特征间相似性。
5.根据权利要求3所述的方法,其中利用互信息统计方法计算所述特征间相似性。
6.根据权利要求3所述的方法,其中该提炼特征分布的步骤包括提炼特征在文件库中的共现频率分布;以及对出现频率高的特征进行歧义消解,以解决单个特征包含多个意义的可能性。
7.根据权利要求6所述的方法,其中提炼该共现频率的步骤包括对于每一对特征,利用条件概率计算出一个平滑参数;计算所述特征共现频率时,将上述平滑参数加入至每次叠代计算中。
8.根据权利要求6所述的方法,其中该特征歧义消解步骤包括选出多义特征;计算所述多义特征的不同语义;以组成一个语义的特征的频率分布来表示该语义;按照一个所述多义特征所含语义计算结果,分解该多义特征的频率分布;将分解所得频率分布加入语义计算步骤中;对包含某一特定语义的特征,调整其频率分布;根据调整后的频率分布,再次计算每一对特征的语义;以及循环重复上述第六及第七个子步骤,直至满足预定叠代数值。
9.根据权利要求1所述的方法,其中该层级聚类步骤包括基于所述特征间的相似度评估特征间的连通性;将具有高连通性的所述特征聚集成一个群落,一个特征群落代表一个概念;评估两个以上独立特征群落间的连通性;评估每个特征群落中组成特征的间的紧密性;以群落间的连通性为依据,合并至少两个特征群落,形成一个上层群落;以及重复上述第三,第四及第五个步骤,直至被合开群落数目达到预定值。
10.根据权利要求1所述的方法,其中该逐级聚类步骤中采用二元分割算法进行聚类。
11.根据权利要求1所述的方法,其中实现一个或多个步骤的程序固化于硬件芯片中。
12.一种自文件库中自动搜寻概念层级的系统,该概念层级将概念组织为多个抽象级别,该系统包括用于从文件库中提取特征的方法;用于判定特征之间相似性的方法;用于逐级聚类相关特征以生成概念,由此可得逐层聚类的概念,从而产生一个概念层级的方法;用于标注该概念层级中的概念的方法;以及用于为所产生的概念层级创建一个接口的方法。
13.根据权利要求12所述的系统,其中用于提取的方法包括用于切分文件库中的文件,进行词性标注及句法结构分析的方法;用于提取代表文件内容的特征的方法;以及用于将所提的特征编入索引的方法。
14.根据权利要求12所述的系统,其中用于判定特征间相似性的方法包括用于利用特征在文件库中的分布来表示该特征的方法;用于计算特征间相似性的方法;用于提炼特征在文件库中的分布的方法;用于以经提炼的分布为基础,重新计算特征间的相似性的方法;用于利用上述重新计算所得结果判定特征相似性的方法。
15.根据权利要求14所述的系统,其中用于计算特征间相似性的方法利用修正KL距离计算特征间相似性。
16.根据权利要求14所述的系统,其中用于计算特征间相似性的方法利用互信息统计方法计算特征间相似性。
17.根据权利要求14所述的系统,其中用于提炼特征分布的方法包括用于提炼特征在文件库中的共现频率的方法;以及用于对出现频率高的特征进行歧义消解,以解决单个特征包含多个意义的可能性的方法。
18.根据权利要求17所述的系统,其中用于提炼共现频率的方法包括对于每一对特征,利用条件概率计算出一个平滑参数的方法;以及计算特征共现频率时,将上述平滑参数加入至每次叠代计算中的方法。
19.根据权利要求17所述的系统,其中用于歧义消解的方法包括用于选出多义特征的方法;用于计算多义特征不同语义的方法;用于以组成一个语义的特征的频率分布来表示该语义的方法;用于按照一个多义特征所含语义,分解该多义特征的频率分布的方法;用于将上述分解所得频率分布补充至经计算而得的语义中的方法;用于对包含某一特定语义的特征,调整其频率分布的方法;用于根据调整后的频率分布,再次计算每一对特征之语义的方法;以及用于循环重复上述第六及第七个子步骤,直至满足预定叠代数值的方法。
20.根据权利要求12所述的系统,其中用于层级聚类的方法包括基于特征间的相似度评估特征间的连通性的方法;将具有高连通性的特征聚集成一个群落,一个特征群落代表一个概念的方法;评估两个以上独立特征群落间的连通性的方法;评估每个特征群落中组成特征之间的紧密性;以群落间的连通性为依据,合并至少两个特征群落,形成一个上层群落的方法;以及重复上述第三,第四及第五个步骤,直至被合并群落数目达到预定值的方法。
21.根据权利要求12所述的系统,其中用于逐级聚类的方法使用二元分割算法实现聚类。
22.根据权利要求12所述的系统,其中用于为自动生成的概念层级创建接口的方法包括一个检索概念层级中的概念的方法。
23.根据权利要求12所述的系统,其中用于为自动生成的概念层级创建接口的方法包括编辑该概念层级的方法。
24.根据权利要求12所述的系统,其中用于为自动生成的概念层级创建接口的方法包括一个用于自动产生检索的方法,用户借助该方法对概念层级中某个概念进行检索时,其可自动返同与该概念相匹配的文件。
25.根据权利要求12所述的系统,其中该系统在一个计算机程序中实现。
全文摘要
本发明涉及一种可自一文件集合中自动搜寻概念并自动生成一概念层次结构(310)的方法、系统及计算机程序。该方法包括自文件集合中抽取特征字符(304);利用统计方法计算特征字符间的相似度(306);提炼特征字符的分布频率以使上述相似度计算趋于精确(508);对特征字符进行语义排歧以解决意义分歧的问题;以经提炼的分布频率及语义排歧后的特征字符为基础,重新计算特征字符的相似度(510)。经再次计算所得的相似度可反映各特征字符间的实际相似程度,藉此,可将相关的特征字符进行聚类形成不同的概念,所得概念排列为一个概念层次结构。该概念层次结构可自动对某一待检索的特定概念产生询问并返回与该概念相关的文件。
文档编号G06F17/30GK1669029SQ03816761
公开日2005年9月14日 申请日期2003年5月15日 优先权日2002年5月17日
发明者克莉丝蒂娜·庄, 刘静慧, 艾尔发·路克, 江昌·茂, 舒密特·坦克, 凡希·弗吐库鲁 申请人:威乐提公司