专利名称:基于数据挖掘获取词用法知识的系统及方法
基于数据挖掘获取词用法知识的系统及方法
技术领域:
本发明涉及计算机信息处理技术领域,尤其涉及一种基于数据挖掘获取词用法知识的系统及方法。
背景技术:
当人们使用外语阅读、写作、翻译时,经常会遇到词典中未收录的词和词组,且同一个词或词组在不同的语境下译文也往往不同,因此如何写出地道词句是每一个使用外语的人所面临的问题。对于中国学生来说,由于中英文化和语言风格的差异,再加上缺少对英语搭配知识(例如形名搭配、动名搭配、动介搭配)的了解,如何写出地道词句的问题就显得尤为突出。互联网的发展给我们提供了前所未有的丰富资源,包括电子文档、在线期刊、杂志、新闻报纸和科技文献等,随着网络和信息技术的迅速发展,网络资源变得越来越丰富。 通常,可以通过网络搜索来查找词或词组的用法知识,然而,仅仅依靠通用的搜索引擎得到的结果很难作为我们所需要的有效知识,这是因为搜索结果仅仅列出与该词相关的网页, 而不是从语言学角色上是否相关进行考虑。另外,搜索结果中大量的冗余信息使得用户很难发现词用法正确的实例。因此,在大量的资源中挖掘有用的知识已经成为网络应用的一个重要课题。基于Web的词用法系统就是在网上获取词的搭配信息和例句从而辅助用户正确的写出地道的外语文章。
发明内容基于此,有必要提供一种能更准确获取词用法知识的基于数据挖掘获取词用法知识的系统。一种基于数据挖掘获取词用法知识的系统,所述系统包括输入装置,用于输入待查词或词组;查询分析装置,对所述待查词或词组中的关键字进行分析,根据分析结果将待查词或词组送入相应的输入模式处理装置进行处理;多输入模式处理装置,利用语义知识和词典对所述待查词.或词组进行分析和扩展,形成查询项,根据所述查询项对网页信息进行搜索,得到与所述待查词或词组相关的网页;网页分析装置,对所述搜索得到的网页进行分析,将所述网页转换为候选文本;用法知识提取装置,对所述候选文本进行处理,提取待查词或词组的上下文信息和典型例句;输出装置,输出上下文信息和典型例句。其中,所述多输入模式处理装置包括以下多种输入模式单元比较模式单元、类别模式单元、目标语搭配模式单元和单个词模式单元,还包括用于检索网页的搜索引擎检索模块;比较模式单元采用逻辑词将词或词组组合成查询项,所述类别模式单元对输入的中心词及类别信息进行分析和扩展而形成查询项,所述目标语搭配模式单元对输入的搭配语进行翻译和扩展而形成查询项,所述单个词模式单元根据输入的单个词形成查询项,所述搜索引擎检索模块根据所述查询项检索网页信息,获取与输入的词或词组相关的网页。
其中,所述网页分析装置可进一步对搜索得到的网页信息进行分析,去除重复的网页,将每一个网页分析成文档模型树的形式,在所述文档模型树中,去除网页中的非文本标签,保留有用标签,从而将网页转换为文本形式的候选文本。而该用法知识提取装置包括上下文信息提取单元,通过边界识别将所述候选文本处理为单个句子,通过关键词搜索获取所述单个句子中的候选词,利用统计算法对每个候选文本进行统计,得到所述候选词的出现频率,根据所述候选词的出现频率输出上下文信息的候选列表。进一步地,所述上下文提取单元进一步根据所述候选词的出现频率对候选词进行排序,按照所述排序选取预设数量个候选词,并根据停词表去除功能词和非实义词,得到包含所述选取的候选词的上下文信息的候选列表。其中,所述用法知识提取装置还包括典型例句提取单元,所述典型例句提取单元包括候选例句提取模块,提取网页候选文本中的包含所述上下文信息的句子作为候选例句;聚类模块,利用基于特征的句子聚类方法对所述候选例句进行聚类;典型例句提取模块,在已聚类的句子中选取为聚类中心的句子作为典型例句。此外,还有必要提供一种能更准确获取词用法知识的基于数据挖掘获取词用法知识的方法。一种基于数据挖掘获取词用法知识的方法,包括以下步骤:A.接收用户输入的待查词或词组;B.对所述待查词或词组中的关键字进行分析,根据分析结果将待查词或词组送入相应的输入模式进行处理;C.利用语义知识和词典对所述待查词或词组进行分析和扩展,形成查询项,根据所述查询项对网页信息进行搜索,得到与所述输入的词或词组相关的网页;D.对所述搜索得到的网页进行分析,将所述网页转换为候选文本;E.对所述候选文本进行处理,提取词或词组的上下文信息和典型例句;F.输出所述上下文信息和典型例句。其中,所述输入模式包括以下模式的一种以上比较模式、类别模式、目标语搭配模式和单个词模式。当输入模式为比较模式时,所述步骤C具体可以是采用逻辑词将词或词组组合成查询项,根据所述查询项检索网页信息,获取与输入的词或词组相关的网页。当所述输入模式为类别模式时,所述步骤C具体可以是根据语义知识对输入的中心词及类别信息进行分析和扩展,形成查询项,根据所述查询项检索网页信息,获取与输入的词或词组相关的网页。当输入模式为目标语搭配模式时,所述步骤C具体可以是根据词典对输入的搭配语进行分析和扩展,形成查询项,根据所述查询项检索网页信息,获取与输入的词或词组相关的网页。当所述输入模式为单个词模式时,所述步骤C具体可以是根据输入的单个词形成查询项,根据所述查询项检索网页信息,获取与输入的词或词组相关的网页。而步骤D具体可以是对搜索得到的网页信息进行分析,去除重复的网页,将每一个网页分析成文档模型树的形式;在所述文档模型树中,去除网页中的非文本标签,保留有用标签,将网页转换为文本形式的候选文本。其中,步骤E包括通过边界识别将所述候选文本处理为单个句子,通过关键词搜索获取所述单个句子中的候选词,利用统计算法对每个候选文本进行统计,得到所述候选词的出现频率,根据所述候选词的出现频率输出上下文信息的候选列表。步骤E还可包括根据所述候选词的出现频率对候选词进行排序,按照所述排序选取预设数据个候选词,并根据停词表去除功能词和非实义词,得到包含所述选取的候选词的上下文信息的候选列表。其中,步骤E还可包括提取所述单个句子中的包含所述上下文信息的句子作为候选例句;利用基于特征的句子聚类方法对所述候选例句进行聚类;在已聚类的句子中选取为聚类中心的句子作为典型例句。上述基于数据挖掘获取词用法知识的系统及方法,通过分析待查词或词组的关键字,将其送入相应的输入模式处理装置进行处理,相对于仅仅用单个词进行查询,能更准确的获取与待查词或词组搭配的信息;通过将检索到的网页转换为候选文本,对候选文本进行处理后提取待查词或词组的上下文信息和典型例句。所提取的上下文信息和典型例句能有效反应词的用法,能方便用于获取词的用法知识,提高用户体验需求。另外,比较模式、类别模式、目标语搭配模式等多种输入模式能有效限制检索条件,使得在统计相同数目的网页的情况下,能挖掘出更准确的词搭配知识;通过基于特征的句子聚类方法对候选例句进行聚类,将检索的冗余例句进行分析聚类,从而提取的典型例句最具有代表性,更能符合用户所需求。
图1是一个实施例中基于数据挖掘获取词用法知识的系统结构示意图;图2是一个实施例中多输入模式处理装置的结构示意图;图3是一个实施例中用法知识提取装置的结构示意图;图4是一个实施例中典型例句提取单元的结构示意图;图5是一个实施例中基于数据挖掘获取词用法知识的方法的流程图;图6是一个实施例中对多种输入模式进行处理的方法流程图;图7是一个实施例中提取典型例句的方法流程图;图8是一个实施例中基于主要特征的聚类方法流程图。
具体实施方式图1示出了一个实施例中基于数据挖掘获取词用法知识的系统,该系统包括输入装置10、查询分析装置20、多输入模式处理装置30、网页分析装置40、用法知识提取装置50 和输出装置60。其中输入装置10用于输入待查词或词组。在一个实施方式中,输入装置10输入的待查词或词组有多种模式,例如,需要查找单词“solve”的用法知识,可采用单个词输入模式 (如“solve”)、目标语搭配模式(如“solve问题”)、类别模式(如“〈solveMiff iculty, thing”、“<S0lve>n· ”等)、比较模式(如“solv印roblem/issue”)等多种模式进行查找。查询分析装置20用于对待查词或词组中的关键字进行分析,根据分析结果将待查词或词组送入相应的输入模式处理装置进行处理。对于上述多种输入模式,通过不同的输入模式输入的词或词组对应有不同的输入模式处理装置进行处理,查询分析装置20则分析输入的词或词组中的关键字,当分析到词或词组中仅有单个词时,则送入单个词模式单元进行处理;当词或词组中含有字符“<>”,则送入类别模式单元进行处理;当词或词组中含有汉语时,则送入目标语搭配模式单元进行处理;当词或词组中含有字符“/”时,则送入比较模式单元进行处理。多输入模式处理装置30利用语义知识和词典对待查词或词组进行分析和扩展, 形成查询项,根据该查询项对网页信息进行搜索,得到与待查词或词组相关的网页。在一个实施方式中,如图2所示,多输入模式处理装置30包括以下多种输入模式单元比较模式单元301、类别模式单元302、目标语搭配模式单元303和单个词模式单元304,此外还包括检索网页的搜索引擎检索模块305。下面则对这几种输入模式下的处理过程进行详细阐述在比较模式下,例如用户输入“lay/make foundation",比较模式单元301则需要比较“lay foundation”和“make foundation”哪一个短语是最常用(即最地道的用法) 的。比较模式单元301首选通过使用逻辑词将词或词组(即所输入的词或词组中的候选词)组合成查询项,即形成新的查询,然后通过搜索引擎检索模块305进行相关网页的搜索。例如,对于上述“lay/make foundation”,通过逻辑词(OR、AND等)组合成新的查询项为“(lay OR make) AND foundation”,该查询项送入搜索引擎检索模块305,搜索引擎检索模块305则能搜索得到符合该查询项的网页并下载。另外,还可统计上述候选词“lay”、 “make"/‘foundation”的出现频率,并还可根据其出现频率对网页进行排序。由于可能检索到的网页非常多,可预设限制下载的网页个数,例如,可下载排序后的前300个网页。比较模式由于仅需要一次查询就可获取多种搭配信息的统计,特别适合经过语义扩展后出现很多种组合的情况;其能够发现新的搭配信息,例如,在搜索“solve issue/question"时, 由于“problem”经常与“issue”发送在一起,也能将其统计出来;检索到的网页根据候选词的候选频率进行排序,可以选取前面预设数量个网页,更具有代表性。在类别模式下,类别模式单元302对输入的中心词及类别信息进行分析和扩展, 形成查询项。类别模式包括两种类型,一种是输入中心词和词性,例如“<solve>n. ” ;一种是输入中心词及其同义词,例如“<S0lVe>diffiCulty,thing”。其中,词性及同义词都是用于指示与中心词搭配的候选词的类别信息。在类别模式下,由于通过类别信息对与中心词搭配的候选词进行了约束,能更为准确获得与中心词搭配的候选词。这里的搭配通常分为两种语法搭配和词典搭配。语法搭配是指中心词之间(名称、形容词和动词)、中心词和介词或中心词和别的语法结构之间的搭配联系,包括形容词-介词、名词不定式、名词从句、 形容词-介词、动词不定式等。词典搭配通常包括动词-名词、形容词-名词、动词-副词、 名词-介词和动词-介词。在搭配过程中的词通常可分为5个词性形容词、动词、名词、副词和介词,这5个词性可以作为类别限制。为了进一步精确的描述类别信息,还可通过同义词作为上下矢量进行限定,减少搜索结果。由于同义词需要用户来提供,而用户能够提供的信息量少,因此可利用 WordNet语义词典中的上位词信息对同义词进行自动扩充。WordNet是一个词典数据库, 其把词组织成一个同义词集合的网状结构,每个连接表示它们之间的联系。例如上位关系、下位关系、同义关系、附属关系等。基于意思相似或属于同一类的词总可能发生在一起的原理,将WordNet中的处于上位关系的词去扩展查询选项从而得到可能的意思。 例如,“<solve>thingquestion”,其中“thing question”作为上下文矢量,为了扩展,“question”的上位词“difficulty”也被加入作为上下文矢量,形成新的查询项。这样, 关键词“solve”和由一组相关词组成、反应一个详细类别信息的上下文相关矢量“thing questiondifficulty”将送入搜索引擎检索模块305进行相关网页的检索。在目标语搭配模式下,目标语搭配模式单元303对输入的搭配语进行翻译和扩展,形成新的查询项,搜索引擎检索模块305则根据所述查询项检索网页信息,获取与输入的词或词组相关的网页。在一个实施例中,输入“solve问题”想要查找“solve”的用法知识,目标语搭配模式单元303通过汉语的搭配信息进行限制以得到相关的网页。在该模式下,首先根据汉英知识库对汉语部分进行翻译。由于通用的汉语词典提供的翻译选项比较单一,不能够满足汉语语义扩展的需要,因此,可通过同义词扩展来解决。这样,汉语部分翻译后通过同义词扩展,形成了尽可能多的特征词向量。例如,在输入“solve问题”,进行翻译和同义词扩展后,所形成的新的查询项则为“solve AND (issue OR matter ORproblem OR question)”。搜索引擎检索模块305根据该查询项检索到的网页将限制在“问题”的类别中。另外,还可结合WordNet语义词典对查询项进行进一步的扩展,将WordNet中处于上位关系的词去扩展查询项。如上述查询项进行进一步的扩展后形成新的查询为“solve AND (issue OR matter OR problem ORquestion OR difficulty) ”,这里 “difficulty” 即为“issue”的上位词。在单个词模式下,例如输入单个词“solve”,单个词模式单元304则根据该单个词形成查询项,搜索引擎检索模块305检索包含该单个词的网页。网页分析装置40用于对搜索得到的网页进行分析,将网页转换为候选文本。在一个实施方式中,网页分析装置40进一步对搜索得到的网页进行分析,去除重复的网页,将每一个网页分析成文档模型树的形式,在该文档模型树中,去除网页中的非文本标签,保留有用标签(如边界符号等),从而将网页转换为文本形式的候选文本。该候选文本用于后续的用法知识提取过程。用法知识提取装置50用于对所述候选文本进行处理,提取待查词或词组的上下文信息和典型例句。在一个实施例中,如图3所示,用法知识提取装置50包括上下文信息提取单元501和典型例句提取单元502,其中上下文提取单元501通过边界识别将候选文本处理为单个句子,通过关键词搜索获取单个句子中的候选词,利用统计算法对每个候选文本进行统计,得到候选词的出现频率,根据候选词的出现频率输出上下文信息的候选列表。在一个实施例中,上下文提取单元501搜索得到的单个句子中的候选词即为输入的词及与输入的词或词组搭配的单词,利用统计算法统计候选词的出现频率后,还可根据出现频率对候选词进行排序。在统计中, 通常只统计一个语法句子里的同现信息,即候选词在同个句子中出现的句子作为统计的内容,如果不在同一个句子中,则不予考虑,这样统计的结果将更具有代表性。统计完所有的单个句子后,根据统计的单词候选的频率对其进行排序,按照该排序结果选取预设数量个候选词,例如选择前5个,去除频率低的候选词,并根据停词表去除功能词(如“a”、“an”、 “the”、“and”等)以及一些非实义的词,得到包含选取的候选词的上下文信息的候选列表。 对该候选列表,可按照候选词的前后位置信息进行划分,最后输出待查词或词组的上文信息(待查词或词组前面的所有可能词)和下文信息(待查词或词组后面的所有可能词)。典型例句提取单元502用于提取典型例句。如图4所示,在一个实施例中,典型例
9句提取单元502包括候选例句提取模块5021、聚类模块5022和典型例句提取模块5023。其中候选例句提取模块5021用于提取网页候选文本中的包含所述上下文信息的句子作为候选例句;聚类模块5022用于利用基于特征的句子聚类方法对所述候选例句进行聚类;典型例句提取模块5023用于在已聚类的句子中选取为聚类中心的句子作为典型例句。在一个实施方式中,候选例句提取模块5021将网页候选文本分析成单个句子。具体可根据句子的标点符号(如“,”、“ ?”、“. ”等)将文档分割为单个句子,在区分“.“是句号还是缩写后面的点时,可构建一个缩写列表并指定一些规则去判断是否是句号。另外还可以对分隔的单个句子的长度进行限制,如包含5个词以上30个词以下的句子才作为我们的候选例句。在一个实施方式中,聚类模块5022利用基于特征的句子聚类方法对候选例句进行聚类的过程如下(1)初始化。将上述得到的所有候选例句作为数据段样本,对所有的数据段样本用基于特征距离的方法计算两两之间的匹配距离CKOi, Oj)从而形成一个距离矩阵,在后面使用时,可以直接用查表的方法得到距离。其中,基于主要成分的特征距离计算,是利用停词表将句子S分析成只有主干成份组成的,其中包括去除停词表中的词,不同词形态的还原,同时利用同义词词典去除句子中语义相近的类,这样每个句子表示语义上互不相干的特征,类似于模式识别中的主成分分析。设分析后的两个句子分别表示成=O1 = W1W^Wm, O2 = W1Wf Wn,它们之间的距离定义为
权利要求
1.一种基于数据挖掘获取词用法知识的系统,其特征在于,所述系统包括输入装置,用于输入待查词或词组;查询分析装置,对所述待查词或词组中的关键字进行分析,根据分析结果将待查词或词组送入相应的输入模式处理装置进行处理;多输入模式处理装置,利用语义知识和词典对所述待查词.或词组进行分析和扩展, 形成查询项,根据所述查询项对网页信息进行搜索,得到与所述待查词或词组相关的网页;网页分析装置,对所述搜索得到的网页进行分析,将所述网页转换为候选文本;用法知识提取装置,对所述候选文本进行处理,提取待查词或词组的上下文信息和典型例句;输出装置,输出上下文信息和典型例句。
2.根据权利要求1所述的基于数据挖掘获取词用法知识的系统,其特征在于,所述多输入模式处理装置包括以下多种输入模式单元比较模式单元、类别模式单元、目标语搭配模式单元和单个词模式单元,还包括用于检索网页的搜索引擎检索模块;所述比较模式单元采用逻辑词将词或词组组合成查询项,所述类别模式单元对输入的中心词及类别信息进行分析和扩展而形成查询项,所述目标语搭配模式单元对输入的搭配语进行翻译和扩展而形成查询项,所述单个词模式单元根据输入的单个词形成查询项,所述搜索引擎检索模块根据所述查询项检索网页信息,获取与输入的词或词组相关的网页。
3.根据权利要求1所述的的基于数据挖掘获取词用法知识的系统,其特征在于,所述网页分析装置进一步对搜索得到的网页信息进行分析,去除重复的网页,将每一个网页分析成文档模型树的形式,在所述文档模型树中,去除网页中的非文本标签,保留有用标签, 从而将网页转换为文本形式的候选文本。
4.根据权利要求2或3所述的基于数据挖掘获取词用法知识的系统,其特征在于,所述用法知识提取装置包括上下文信息提取单元,通过边界识别将所述候选文本处理为单个句子,通过关键词搜索获取所述单个句子中的候选词,利用统计算法对每个候选文本进行统计,得到所述候选词的出现频率,根据所述候选词的出现频率输出上下文信息的候选列表。
5.根据权利要求4所述的基于数据挖掘获取词用法知识的系统,其特征在于,所述上下文提取单元进一步根据所述候选词的出现频率对候选词进行排序,按照所述排序选取预设数量个候选词,并根据停词表去除功能词和非实义词,得到包含所述选取的候选词的上下文信息的候选列表。
6.根据权利要求4所述的基于数据挖掘获取词用法知识的系统,其特征在于,所述用法知识提取装置还包括典型例句提取单元,所述典型例句提取单元包括候选例句提取模块,提取网页候选文本中的包含所述上下文信息的句子作为候选例句;聚类模块,利用基于特征的句子聚类方法对所述候选例句进行聚类;典型例句提取模块,在已聚类的句子中选取为聚类中心的句子作为典型例句。
7.一种基于数据挖掘获取词用法知识的方法,包括以下步骤A.接收用户输入的待查词或词组;B.对所述待查词或词组中的关键字进行分析,根据分析结果将待查词或词组送入相应的输入模式进行处理;C.利用语义知识和词典对所述待查词或词组进行分析和扩展,形成查询项,根据所述查询项对网页信息进行搜索,得到与所述输入的词或词组相关的网页;D.对所述搜索得到的网页进行分析,将所述网页转换为候选文本;E.对所述候选文本进行处理,提取词或词组的上下文信息和典型例句;F.输出所述上下文信息和典型例句。
8.根据权利要求7所述的基于数据挖掘获取词用法知识的方法,其特征在于,所述输入模式包括以下模式的一种以上比较模式、类别模式、目标语搭配模式和单个词模式。
9.根据权利要求8所述的基于数据挖掘获取词用法知识的方法,其特征在于,所述输入模式为比较模式,所述步骤C具体是采用逻辑词将词或词组组合成查询项,根据所述查询项检索网页信息,获取与输入的词或词组相关的网页。
10.根据权利要求8所述的基于数据挖掘获取词用法知识的方法,其特征在于,所述输入模式为类别模式,所述步骤C具体是根据语义知识对输入的中心词及类别信息进行分析和扩展,形成查询项,根据所述查询项检索网页信息,获取与输入的词或词组相关的网页。
11.根据权利要求8所述的基于数据挖掘获取词用法知识的方法,其特征在于,所述输入模式为目标语搭配模式,所述步骤C具体是根据词典对输入的搭配语进行分析和扩展, 形成查询项,根据所述查询项检索网页信息,获取与输入的词或词组相关的网页。
12.根据权利要求8所述的基于数据挖掘获取词用法知识的方法,其特征在于,所述输入模式为单个词模式,所述步骤C具体是根据输入的单个词形成查询项,根据所述查询项检索网页信息,获取与输入的词或词组相关的网页。
13.根据权利要求7所述的基于数据挖掘获取词用法知识的方法,其特征在于,所述步骤D具体是对搜索得到的网页信息进行分析,去除重复的网页,将每一个网页分析成文档模型树的形式;在所述文档模型树中,去除网页中的非文本标签,保留有用标签,将网页转换为文本形式的候选文本。
14.根据权利要求13所述的基于数据挖掘获取词用法知识的方法,其特征在于,所述步骤E包括通过边界识别将所述候选文本处理为单个句子,通过关键词搜索获取所述单个句子中的候选词,利用统计算法对每个候选文本进行统计,得到所述候选词的出现频率,根据所述候选词的出现频率输出上下文信息的候选列表。
15.根据权利要求14所述的基于数据挖掘获取词用法知识的方法,其特征在于,所述步骤E还包括根据所述候选词的出现频率对候选词进行排序,按照所述排序选取预设数据个候选词,并根据停词表去除功能词和非实义词,得到包含所述选取的候选词的上下文信息的候选列表。
16.根据权利要求14所述的基于数据挖掘获取词用法知识的方法,其特征在于,所述步骤E还包括提取所述单个句子中的包含所述上下文信息的句子作为候选例句; 利用基于特征的句子聚类方法对所述候选例句进行聚类; 在已聚类的句子中选取为聚类中心的句子作为典型例句。
全文摘要
本发明提供了一种基于数据挖掘获取词用法知识的系统及方法,所述系统包括输入装置,用于输入待查词或词组;查询分析装置,对所述待查词或词组中的关键字进行分析,根据分析结果将待查词或词组送入相应的输入模式处理装置进行处理;多输入模式处理装置,利用语义知识和词典对所述待查词或词组进行分析和扩展,形成查询项,根据所述查询项对网页信息进行搜索,得到与所述待查词或词组相关的网页;网页分析装置,对所述搜索得到的网页进行分析,将所述网页转换为候选文本;用法知识提取装置,对所述候选文本进行处理,提取待查词或词组的上下文信息和典型例句;输出装置,输出上下文信息和典型例句。采用本发明,能准确获取词用法知识。
文档编号G06F17/30GK102214189SQ20101014799
公开日2011年10月12日 申请日期2010年4月9日 优先权日2010年4月9日
发明者方高林 申请人:腾讯科技(深圳)有限公司