专利名称:文档信息表构造装置以及利用其的浏览和查找系统的制作方法
技术领域:
本发明涉及一种文档信息提取处理和查找处理,更具体地,涉及一种文档信息表构造装置以及利用其的浏览和查找系统,以及一种文档信息表构造方法及浏览和查找方法。
背景技术:
随着计算机和因特网的发展已经累积了大量的电子文档。人们想从文档中获取他们感兴趣的信息。但是由人来阅读所有的文档是不现实的,所以构建了自动系统以帮助人们很容易地获取信息。搜索引擎,数据分析,概要生成是这种系统的一些示例。
自动系统所关注的文档集可以是有关单一领域的,或有关多个领域的。例如,EBay(www.ebay.com)提供了多种特定商品(例如,计算机)的查找系统。用户可以通过设置条件,例如“品牌为IBM”来查找计算机。与EBay不同,Google(www.google.com)提供了有关多个领域的查找系统,即,可以由用户检索所有类型的网页,像新闻,艺术,历史等。
与多领域系统相比,单一领域系统虽然范围有限,但其上的应用却是更有效的。例如,利用某些特定参数在EBay上查找计算机信息要比在Google上快。
如果文档集是关于单一领域的,则它们通常共享相同主题。以及,每个文档具有对相同主题的其自身的描述。例如,关于在EBay上售卖计算机的多个文档共享诸如品牌、内存容量、硬盘容量、新旧之类的主题。描述可以是品牌IBM,Dell,HP,或内存容量128M,64M。因此,可以针对多个文档形成标准表。所述表将文档作为行,主题作为列,以及描述作为属性值。所述表在很大程度上帮助自动系统检索、分析或摘要文档。在下列讨论中,术语“属性”用于表述主题,以及“属性值”用于描述。
在组织单一领域的文档信息时,一般由人类专家为文档定义属性和属性值。例如,在EBay,人类专家定义了品牌、处理器速度、存储器以及硬盘驱动容量作为计算机的属性。此外,对于每个属性,人类专家定义了一些选项,例如,品牌Acer、Compaq以及Dell等等。当用户写下售卖其计算机的文档时,他为每个属性选择一个选项。这样将会有助于其它用户找到他的计算机。
但是由人定义表、更新表以及为每个文档填写所述表是耗费人力的,并可能引起错误。由计算机系统自动地完成这些工作是人们的一个愿望。由此带来的好处是明显的,不仅可以节省人力,还可以提高数据分析、概要生成等应用的自动化程度,这对实时性要求高的应用十分重要。特别地,它将对浏览和查找信息起到重要的作用。
我们知道,现在已经有各种方法帮助用户在Web上浏览并查找文档和信息。那么现有方法是否就令人满意了呢?让我们具体分析一下。目前,因特网用户在Web上浏览并查找信息的主要方式包括1.向搜索引擎例如Google提交一些关键词,以获得匹配Web页的列表。之后,检查每个Web页上的相关信息。
2.浏览门户网站,例如Yahoo,并从主题的列表中选择特定主题,以到达包含相关信息的网站和网页。
3.浏览新闻和/或文档站点,例如,businessweek.com,并选择新闻标题或文档标题以到达新闻或文档的网页。
4.浏览在线购物站点,例如,amazon.com,选择产品目录,其相关子目录等,以便找到站点认为与用户所考虑的产品相关的产品列表。这种站点通常也提供搜索引擎能力,作为目录降序方法的备选方法。
此外,人们采用了多种技术和方法帮助用户更容易地查找和获取信息1.网页排序(例如在Google中使用)根据本网页被其他网页引用的次数来帮助排序。
2.聚类将类似的网页合成一组。
3.预分类(一些电子商务站点,例如,Amazon和EBay)将信息预分类为衣物、化妆品、计算机等。对于每个分类,提供允许用户限制其搜索的下拉选择列表。
4.RSS使用户订购其认为是相关的信息源。
以上方法尽管都有成效,但是还有不足之处由网页排序方法产生的搜索结果通常首先列出引用最多的文档。然而,引用最多的文档并不一定包含最精确或最有用的信息,用户仍然必须仔细地阅读其它网页,以发现他所寻找的相关信息。
聚类方法可以根据文档相似度把文档分成一些组。通常,首先利用通用搜索引擎获得文档。但是因为聚类是基于搜索引擎获得的文档,所以尽管它有助于减少搜索结果在视觉上的杂乱性,但是并没有改进信息精确度或可用性。
预分类反映的是网站设计者对信息结构的一种理解,可能并不符合真实情况。
RSS允许用户订阅其所需信息。但是该方法在本质上不同于信息查找,所以不能用精确度和完整性来衡量。
总之,上述所有方法需要用户花费很多精力和时间与网页交互并在系统返回的结果中查找所需信息。另外,查找方法还需要用户对所查找的主题有所了解,以便使用合适的搜索词。
如果对某一个领域的文档,系统可以自动地定义表、更新表、并为每个文档填写描述,则可以根据表的结构引导人们进行信息查找,这将大大减少人机交互,并最终减少人们查找信息所花的时间。特别地,这种方法对更新频繁、(和/或)实时性要求高、(和/或)显示屏幕小的信息查找系统十分重要。
发明内容
因此,考虑到上述问题提出本发明,本发明的目的是提供一种文档信息表构造装置以及使用其的方法。本发明也提供一种结合了文档信息表构造装置的浏览和查找系统以及一种浏览和查找方法。
根据本发明第一方面,提供一种文档信息表构造装置,包括属性和属性值提取装置,用于从文档中提取属性值,并根据提取出的属性值提取属性;属性和属性值表形成装置,用于组合对应于相同属性的属性值,并形成属性和属性值表;以及属性融合装置,用于融合属性和属性值表中具有不同名称的相同属性,以生成文档信息表。
根据本发明第二方面,提供一种文档信息表构造方法,包括提取步骤,从文档中提取属性值,并根据提取出的属性值提取属性;组合步骤,组合对应于相同属性的属性值,并形成属性和属性值表;以及融合步骤,融合(integrating)属性和属性值表中具有不同名称的相同属性,以生成文档信息表。
根据本发明第三方面,一种浏览和查找系统,包括文档信息表构造装置,包括属性和属性值提取装置,用于从文档中提取属性值,并根据提取出的属性值提取属性;属性和属性值表形成装置,用于组合对应于相同属性的属性值,并形成属性和属性值表;以及属性融合装置,用于融合属性和属性值表中具有不同名称的相同属性,以生成文档信息表;查找呈现形成装置,用于形成包括一个或多个属性以及选项的界面,每个属性对应于多个选项,其中所述多个选项包括了属性的所有属性值;用户查询输入装置,用于接收用户通过界面输入的查询;查找装置,用于根据所述查询查找文档信息表和文档;显示装置,用于向用户显示结果。
根据本发明第四方面,一种浏览和查找方法,包括构造文档信息表的步骤,包括提取步骤,从文档中提取属性值,并根据提取出的属性值提取属性;组合步骤,组合对应于相同属性的属性值,并形成属性和属性值表;以及融合步骤,融合属性和属性值表中具有不同名称的相同属性,以生成文档信息表;界面形成步骤,形成包括一个或多个属性以及选项的界面,每个属性对应于多个选项,其中所述选项包括属性的所有属性值;查询接收步骤,用于接收用户通过界面输入的查询;查找步骤,用于根据所述查询查找文档信息表和文档;显示步骤,用于向用户显示结果。
因此,本发明具有以下有益效果由于文档信息表构造装置自动提取属性和属性值,因此节省了用户时间并改进了文档信息表的精确度和完整性。此外,由文档信息表构造装置执行的属性融合将有助于检测新的知识,(例如,汉字示例“猫(cat)”在描述PC时指“调制解调器”),并识别具有不同名称的相同属性。因此,文档信息表构造装置构造具有完整和精确文档信息的文档信息表。
与Google之类的全文本查找相比较,浏览和查找系统根据属性和选项执行文本信息的浏览和查找,可以降低用户和系统之间的交互,减少用户找到相关信息所花的时间。基于属性和属性值(以及选项)的信息在某种程度上揭示了查找“倾向”并帮助用户做出决策。将属性值组成选项将节省空间并特别地便利具有小屏幕的设备(例如,移动电话或PDA)。在交互中动态地改变属性和选项列表可以进一步节省空间。
根据下列详细描述并结合附图,本发明的上述以及其它目的、特征和益处将变得更清楚,其中图1示出了根据本发明一个实施例的文档信息表构造装置的示意图;图2是示出了根据本发明构造文档信息表的处理流程图;图3是示出了提取属性和属性值的处理流程图;图4是示出了本发明的属性融合装置的示意图;图5是示出属性融合的处理流程图;图6是示出了根据本发明另一实施例的文档信息表构造装置的示意图;图7是示出了结合根据本发明的文档信息表构造装置的浏览和查找系统;图8是示出了浏览和查找处理的流程图;图9是示出了如何在不同文档信息表中执行查找的示意图;图10A示出了属性和属性值表的示例;图10B示出了文档信息表的示例;图11示出了当用户浏览和查找信息时的界面的示例。
具体实施例方式
下面,将参考附图描述本发明的优选实施例。在附图中,虽然在不同附图中描述,但相同的元件将由相同的参考符号或数字表示。此外,在本发明的下列描述中,将省略对已知功能和配置的具体描述,以避免使本发明的主题不清楚。
图1示出根据本发明一个实施例的文档信息表构造装置。
根据本发明的文档信息表构造装置20包括属性和属性值提取装置21,用于提取属性和属性值;属性和属性值表形成装置22,用于生成属性和属性值表;文档信息表形成装置23,用于生成文档信息表;属性和属性值表存储装置24;属性融合装置25,用于融合属性;属性别名存储装置26以及修改装置27。
文档信息表构造装置20从文档存储装置10中读取文档,为所述文档构造信息表,并将结果存储在文档信息表存储装置30中。属性和属性值提取装置21包括属性值提取单元211以及属性提取单元212。现在将参考图1并结合图2详细描述文档信息表构造装置20。
在S201,对文档进行预处理。如果文档是汉字文档,则将采用词分割以及词性(POS)标注。如果文档是网页,则提取出相关内容而滤除不相关的部分,例如,广告。在S202,文档信息表构造装置20的属性值提取单元211首先从文档存储装置10中提取出属性值,之后,文档信息表构造装置20的属性提取单元212根据提取出的属性值从文档存储装置10中提取属性。在提取处理中,属性值提取单元211和属性提取单元212两个单元相互协作。
在S203,属性和属性值表形成装置22组合具有相同属性的属性值,并根据提取出的属性和属性值形成属性和属性值表。所述属性和属性值表被存储在属性和属性值表存储装置24中。图10A示出了属性和属性值表的示例,其中属性和属性值表与计算机的信息有关。
在S204,文档信息表形成装置23根据由属性和属性值提取装置21提取出的属性和属性值构造文档的初始信息表。之后,将初始文档信息表存储在文档信息表存储装置30中。所述表的列是属性,行是各个文档,而每行记录了一文档的属性的属性值。
在S205,属性融合装置25读取包含在文档存储装置10与属性和属性值表存储装置24中的信息,并识别出具有不同名称的相同属性(即,别名),从而融合所述属性。将获得的属性别名存储在属性别名存储装置26中。
之后,修改装置27在S206根据存储在属性别名存储装置26中的别名修改存储在属性和属性值表存储装置24中的属性和属性值表以及存储在文档信息表存储装置30中的文档信息表。图10B给出了文档信息表的示例,其中文档信息表与计算机的信息有关。
因此,文档信息表构造装置20如上所述构造了文档信息表。具有属性和属性值信息的一个或多个构造的文档信息表可以帮助自动系统检索、分析或摘要多个文档。
图3示出根据本发明由属性和属性值提取装置21执行的属性和属性值提取处理。如图3所示,在S301,属性和属性值提取装置21的属性值提取单元211从存储在文档存储装置10的文档中提取包含属性值的特定句子以及提取出属性值。
我们考虑一个包含属性和属性值的简单信息块。属性值描述了属性。属性值可以是数字,数字和英文字符混合的字符串(和/或汉字字符,和/或标点符号),一小部分文本等。第一个示例,在信息块“雨天”中,“天”是属性以及“雨”是属性值。第二个示例,在信息块“30G硬盘”中,“硬盘”是属性以及“30G”是属性值。更复杂的信息块可以被分成子信息块,每个这种信息块仍由属性和属性值组成。例如,在句子“我们决定多国援助是这一问题的最优解决方案”。属性“援助”具有属性值“多国”,而属性“解决方案”具有属性值“多国援助”。此外,属性“决定”具有属性值“多国援助是这一问题的最优解决方案”,等等。每个这种属性(以及在信息块中的属性的每个组合)提供了相关属性值所支持的上下文,并赋予属性含义。例如,上述句子在“解决方案”的上下文条件下所考虑的语境而给出知识“多国援助”是属性值。
因此,将通过属性值提取单元211提取下列特定句子1.包含数字的句子,例如1683或20-30。
2.2.包含名称项的句子,例如人名、地址、电话号码、邮政编码等。现有技术Name Entity Recognition可以对这些名称项进行标识。例如″G.Zhou and J.Su,Named entity recognition using an hmm-based chunktagger.In Proceedings of the 40th Annual Meeting of the Association forComputational Linguistics(ACL),pages 473--480,2002”。
3.包含由数字、英文字符、汉字字符和/或标点符号混合的特定字符串的句子,例如,N900、昭阳6300,Pentium-M。
4.4.包含词的模式的句子。这种词的模式的示例为“具有**以上教育学历”(**是若干中文字)。除了模式词之外,此类句子必须包含其它的词。在该例中,句子可以是“具有本科以上学历”。存在多种方法用于提取模式,例如文章Arasu,A.and Garcia-Molina,H.Extracting structureddata from web pages.SIGMOD 2003,337-348提出的方法。
从这些句子中取出属性值,包括数字、名称项、混合字符串、包含模式的句子中除去模式的部分(例如“本科”)。
在提取出所有特定句子之后,在S302,属性值提取单元211将句子分为多个组。例如1.根据单位划分包含数字的句子。单位是数字后面的词/短语,例如,千克或公斤。
2.将包含名称项的句子依据其类型进行划分。例如,包含人名的所有句子形成一组。
3.包含特定混合字符串的所有句子形成一组。
4.将包含模式的句子依据模式进行划分。所有具有相同模式的句子将形成一组。
之后,属性提取单元212在S303为划分后的组找出代表词/短语。为每组找出一个或多个代表词/短语作为属性。存在多种方法用于找出代表词,例如,关键词提取方法。由于识别属性值比识别属性容易(一些值可以根据形式识别,但是几乎所有的属性必须由含义识别),根据本发明的属性和属性值提取方法比提取属性的传统方法更为精确。请注意,虽然句子被分为组,一个属性有时出现在一个或多个组中。例如,由于存储器具有例如64M和1G的属性值,形成了两组,一个具有单位M,而另一组具有单位G。这两组都将存储器作为代表词(即,属性)。因此对于属性“存储器”随后应该组合属性值。
图4是示出了本发明的属性融合装置25。如图4所示,属性融合装置25包括属性融合准备装置251,属性融合信息库252以及用于根据属性融合信息库252用于确定任意两个属性的融合度的属性融合确定装置253,其中融合度(integrating possibility)是一个数值,这个数值可以帮助判断两个属性是否应该融合。通常越大则代表越应该融合。
在实际环境中的典型例子是不同的词用来描述相同的属性。虽然同义字典可以帮助识别这种情况,由于字典的局限性,仍然有一些词不能够被识别。一个汉字的示例是词“猫(cat)”在描述PC时指“调制解调器”。但是在同义字典中会经常被遗漏。属性融合装置25融合具有相同含义但是名称不同的这些属性。
属性融合准备装置251包括属性值相似度计算单元2511,用于计算属性中的属性值相似度;属性共同发生频率计算单元2512,用于计算属性共同发生频率。属性融合信息库252包括属性值相似度存储单元2521;属性共同发生频率存储单元2522以及用于存储基于字典的属性相似度的基于字典的属性相似度存储单元2523。一些字典提供了计算属性相似度的功能。例如HowNet(http//www.keenage.com/)。
将参考图4和5描述属性融合方法。参考图5,先执行左边路径(S501-S503)还是右边路径(S504-S505)并没有差别。为了计算属性值相似度,首先在S501和S502读取属性值并选择特征。属性值相似度计算单元2511从属性和属性值表存储装置24读取属性和属性值表,并选择将属性值转换为矢量的多个特征。所述方法源自模式识别领域。所述多个特征可以包括,例如,属性值长度,是否包括数字,包括在属性值中的词,等等。
之后,属性值相似度计算单元2511根据矢量计算属性值相似度。一个候选方法是计算矢量的余弦距离。相似度计算的结果为数字组。每个数字指示两个属性之间的相似度。在S503将数字组存储在属性值相似度存储单元2521。
接着,在S504至S505属性共同发生频率计算单元2512读取属性并执行属性共同发生频率分析,以便计算同一文档中任意两个属性的共同发生频率。获得的结果是数字组。每个数字组指示两个属性之间的共同发生频率。
之后,属性融合确定装置253在S506将属性值相似度和属性共同发生频率组合在一起,从而给出数字组,其中每个数字指示任何两个属性的融合度。属性值越相似以及属性共同发生频率越小,就越有可能融和这两个属性。在S508和S509,属性融和确定装置253在S507确定融和概率并对融和概率进行排序,以给出成对属性的排序列表。设置一阈值并对列表中在前的属性进行融合。将属性融和的结果存储在属性别名存储装置26中。
虽然图4示出属性融合准备装置251包括属性值相似度计算单元2511以及属性共同发生频率计算单元2512,属性融合信息库252包括属性值相似度存储单元2521,属性共同发生频率存储单元2522和基于字典的属性近相似度存储单元2523,对于本领域的普通技术人员来说,显而易见地,属性融合准备装置251可以仅包括属性值相似度计算单元2511,属性融合信息库252可以仅由属性值相似度存储单元2521构成。因此,属性值相似度计算单元2511执行与S501至S503相同的步骤。与S507至S509的步骤相同,属性融合确定装置253根据属性值相似度计算单元2511确定任意两个属性的融和概率,并对融和概率进行排序以给出成对属性的排序列表。设置一阈值并对列表中在前的属性进行融和。将属性融和的结果存储在属性别名存储装置26中。
图6示出根据本发明另一实施例的文档信息表构造装置。与图1相比,信息表构造装置20还包括知识装置28,其包括知识学习装置281和知识存储装置282。为了清楚描述,在图6中仅仅示出了信息表构造装置20的属性值提取单元211,属性提取单元212与属性和属性值表存储装置24。省略了信息表构造装置20的其它部件。
知识装置28是信息表构造装置20的附加部分。知识学习装置281从文档存储装置10与属性和属性值表存储装置24学习知识。所述知识是关于属性值或属性的。给出学习有关计算机存储器的属性值知识的示例当读取“XXM”时(XX是两个数字),有85%的概率表明该短语描述了内存容量。可以将学习的知识存储在知识存储装置282中。所以属性值提取单元211和属性提取单元212可以借助于存储在知识存储装置282中的知识提取出文档的未识别出的属性值和属性。
例如,虽然识别出一些属性值,可能仍然存在一些未识别出的属性值,例如,句子“64M”。当读取**M时,虽然*表示数字,即,64,它是属性“内存容量”的属性值。通过属性值的知识,将“64M”识别为属性“内存容量”的属性值。另外两个例子为1)冒号之前的短语是属性。2)符号[]扩起来的短语是属性。目前已经有了多种方法来学习有关属性或属性值的知识。例如,数据挖掘(data mining)方法(Jiawei,2000Jiawei Hanand Micheline Kamber,Data MiningConcepts and Techniques,The MorganKaufmann Series in Data Management Systems.)可以用来学习有关属性或属性值的知识。以及可以使用Kushmerick 2000中的方法(Kushmerick2000Nicholas Kushmerick.Wrapper inductionEfficiency andexpressiveness.)和Arvind,2003中的方法(Arvind,2003Arvind Arasu,Hector GM.,Extracting Structured Data from Web pages)来学习有关属性或属性值的知识。
由于文档信息表构造装置20构造了文档信息表,所以其可以帮助自动系统检索、分析或摘要多个文档,从而文档信息表构造装置20可以应用于各种系统,例如,浏览和查找系统,数据分析系统和摘要系统。
下面将结合图7描述使用了文档信息表构造装置20的浏览和查找系统。浏览和查找系统包括客户机40,客户机40包括用户查询输入装置41和显示装置42;以及应用服务器50,应用服务器50包括文档存储装置10,文档信息表存储装置30,文档信息表构造装置20,用户查询分析装置51,查找装置52以及查找呈现形成装置53。客户机40可以安装在应用服务器50上,也可以通过本地或广域网(例如因特网,企业内部互联网)连接到应用服务器50。显示装置42可以是通用Web浏览器或专用软件。为了清楚地描述,仅示出了文档信息表构造装置20并省略了其部件。
将参考图8详细描述浏览和查找系统的处理流程。在S801,文档信息表构造装置20读取存储在文档存储装置10中的文档并对其进行构造,形成了包含属性和属性值的文档信息表。文档信息表的数目至少是一个。将结果存储在文档信息表存储装置30中。
之后,在S802,查找呈现形成装置53读取在文档信息表存储装置30中的文档信息表并在显示装置42上形成初始界面,其中,为用户列出一个或多个属性和选项,以便用户设置查询条件。每个属性对应于包含该属性的全部属性值的选项。
形成选项的方法有两种。一种是选项仅包含一个属性值。然而,列表将会太长,而给小屏幕装置带来了不便。第二种方法是对属性值聚类,以形成多个选项,因此一个选项包括多个属性值。在聚类方法种,如果属性值是数字类型的,则可以直接进行聚类。否则,如果属性值是字符类型的,则可以先从每个属性值提取出关键词,之后对关键词进行聚类从而形成选项。
查找呈现形成装置53可以使用至少三种方法通过界面呈现文档信息表中的内容1.从所有的属性中选择一个属性(文档信息表的列)并向用户示出该属性以及其全部选项。用户通过用户查询输入装置41选择一个或多个选项作为查询(即,查找条件)。
2.同时向用户呈现多个属性。用户通过用户查询输入装置41选择一个或多个属性,之后对每个选择的属性选择一个或多个选项作为查询(即,查找条件)。
3.根据属性对文档信息表的行进行聚类。之后,向用户显示所述聚类。用户通过用户查询输入装置41选择一个聚类作为查询(即,查找条件)。此外,对应于某一选项的行的数目可以附加到选项中。如果存在太多的属性/选项从而不能够将每一个选项包括在界面中时,则给出度量方法以决定哪些要去除,哪些要保留。
因此,用户可以按照界面浏览和/或查找所需内容。用户查询输入装置41在S803接收用户通过界面输入的查询。之后,将查询通过内部传输机制,例如计算机的总线单元或本地或广域网(例如因特网或企业互联网)将查询发送到用户查询分析装置51。用户查询分析装置51分析用户查询并将分析结果发送到查找装置52,查找装置52在S804从文档存储装置10和文档信息表存储装置30搜索文档和文档信息表。之后组织查找结果以便通过查找呈现形成装置53形成新的呈现。通常,在用户设置了搜索条件之后,选择所有满足所述条件的行形成新的文档信息表。如果某一属性对于所有行仅仅具有一个属性值,则从所述文档信息表中去除该属性。之后,在S805将结果发送到显示装置42并在显示装置42上显示。当用户进一步设置查询条件时,重复上述过程,直到用户停止选择选项或聚类,或者没有属性可选,或者没有选项/聚类可以形成。
图11示出了当用户浏览和查找有关计算机的信息时移动电话上的界面的示例。由于对选项进行了聚类,缩减了浏览和查找界面的总体尺寸,同时,查找结果更为精确和集中。
图9示出了执行查找的另一示例。用户的查询可以与多于一个的文档信息表有关,因此,仅查找一个文档信息表将不会检索出正确的结果。为了解决该问题,查找装置52识别不同文档信息表之间的相同或相似的属性(列)。以及定义这些属性的运算符(通常手工地)。因此,当接收到用户查询时,通过查找装置52先识别出对应的文档信息表。之后,根据查询选择出所述文档信息表之间的运算符。查找装置52执行对文档信息表的搜索。最后,向用户显示搜索结果。
下面,给出一个使用浏览和查找系统的示例对于70个像D1和D2描述计算机的文档,所述浏览和查找系统可以自动完成下列工作1.提取属性值,例如,首先提取“12.1’XGA 10.4’XGA”以及“14.1’TFTLCD”和“1.64Kg”。之后,为提取出的属性值提取属性,例如,“屏幕尺寸”和“重量”。
2.将“14.4’,10.4’和12.1’(对应与相同属性“屏幕尺寸)”之类的属性值进行组合并形成属性和属性值表。
3.融合“处理器”和“CPU”之类的属性。
4.为属性形成选项,例如,对于属性“屏幕尺寸”1) 8’~10.4’(15)2) 12.1’~14.1’(35)3) 15’~17’(20)可以将屏幕尺寸的属性值聚类为三种选项。在括号内的摘要表示在全部70个计算机中,15个计算机的屏幕尺寸在8’和10.4’之间,35个计算机的屏幕尺寸在12.1’和14.1’之间,以及20个计算机的屏幕尺寸在15’和17’之间。
5.用户通过选择一个或多个选项,例如1)或1)+2)继续浏览和查找。
6.如果所有文档对于某一属性具有相同的属性值,则从界面的属性列表中去除所述属性。
D1D2许多其它种类的商品具有与D1和D2示出的计算机领域类似的情况。这些商品具有其自己的属性和属性值。可以将属性值聚类为选项。本发明同样可以应用于这些商品的文档。一些示例包括在下列表中。
表1示出了一些商品的属性和属性值。
表1
(后续)
*注意所有的商品具有属性“价格”。
表2示出了对于一些其它领域的属性和属性值表2
虽然已经利用特定的条件描述了本发明的优选实施例,但是这样的描述仅出于说明的目的,应该理解的是,在不脱离所附权利要求的精神和范围的情况下可以进行修改和变化。
权利要求
1.一种文档信息表构造装置,包括属性和属性值提取装置,用于从文档中提取属性值,并根据提取出的属性值提取属性;属性和属性值表形成装置,用于组合对应于相同属性的属性值,并形成属性和属性值表;以及属性融合装置,用于融合属性和属性值表中具有不同名称的相同属性,以生成文档信息表。
2.根据权利要求1所述的文档信息表构造装置,其中所述文档信息表构造装置还包括知识学习装置,用于学习与属性或属性值有关的知识并将所述知识提供给属性和属性值提取装置。
3.根据权利要求1或2所述的文档信息表构造装置,其中所述属性和属性值提取装置包括属性值提取单元,用于从文档中提取包含属性值的句子以提取出属性值并对提取出的句子分组;以及属性提取单元,用于针对每组句子找出代表词或短语,作为与属性值对应的属性。
4.根据权利要求3所述的文档信息表构造装置,其中所述属性提取单元通过关键字提取方法找出代表词或短语。
5.根据权利要求1至4之一所述的文档信息表构造装置,其中所述属性融合装置包括属性值相似度计算单元,用于根据属性和属性值表计算属性值相似度;以及属性融合确定装置,用于根据所述属性值相似度来确定任何两个属性的融合度。
6.根据权利要求1至4之一所述的文档信息表构造装置,其中所述属性融合装置包括属性值相似度计算单元,用于根据属性和属性值表计算属性值相似度;以及共同发生频率计算单元,用于计算属性的共同发生频率;属性融合确定装置,用于根据所述属性值相似度和共同发生频率来确定任何两个属性的融合度。
7.根据权利要求6所述的文档信息表构造装置,其中所述属性融合装置还包括基于字典的属性相似度存储装置,用于存储基于字典的属性相似度;以及所述属性融合确定装置根据属性值相似度,共同发生频率和基于字典的属性相似度来确定任何两个属性的融合度。
8.根据权利要求5-7之一所述的文档信息表构造装置,其中所述属性值相似度计算单元选择将属性值转换为矢量的特征,并根据所述矢量计算属性值相似度。
9.根据权利要求8所述的文档信息表构造装置,其中所述属性值相似度计算单元通过计算矢量的余弦距离计算属性值相似度。
10.一种文档信息表构造方法,包括下列步骤提取步骤,从文档中提取属性值,并根据提取出的属性值提取属性;组合步骤,组合对应于相同属性的属性值,并形成属性和属性值表;以及融合步骤,融合属性和属性值表中具有不同名称的相同属性,以生成文档信息表。
11.根据权利要求10所述的文档信息表构造方法,其中所述构造方法还包括步骤学习与属性或属性值有关的知识,用于提取属性值以及提取属性。
12.根据权利要求10或11所述的文档信息表构造方法,其中所述提取步骤包括从文档中提取包含属性值的句子以提取出属性值并对提取出的句子分组的步骤;以及针对每组句子找出代表词或短语,作为与属性值对应的属性的步骤。
13.根据权利要求12所述的文档信息表构造方法,其中找出代表词或短语的步骤中使用了关键字提取方法。
14.根据权利要求10至13之一所述的文档信息表构造方法,其中融合步骤包括步骤根据属性和属性值表计算属性值相似度;以及根据所述属性值相似度来确定任何两个属性的融合度。
15.根据权利要求10至13之一所述的文档信息表构造方法,其中融合步骤包括步骤根据属性和属性值表计算属性值相似度;以及计算属性的共同发生频率;根据所述属性值相似度和共同发生频率来确定任何两个属性的融合度。
16.根据权利要求15所述的文档信息表构造方法,其中确定任何两个属性的融合度的所述确定步骤还包括根据属性值相似度,共同发生频率和基于字典的属性相似度来确定任何两个属性的融合度。
17.根据权利要求14至16之一所述的文档信息表构造方法,其中计算属性值相似度的步骤包括选择将属性值转换为矢量的特征,并根据所述矢量计算属性值相似度的步骤。
18.根据权利要求17所述的文档信息表构造方法,其中根据矢量计算属性值相似度的步骤包括通过计算矢量的余弦距离计算属性值相似度的步骤。
19.一种浏览和查找系统,包括文档信息表构造装置,包括属性和属性值提取装置,用于从文档中提取属性值,并根据提取出的属性值提取属性;属性和属性值表形成装置,用于组合对应于相同属性的属性值,并形成属性和属性值表;以及属性融合装置,用于融合属性和属性值表中具有不同名称的相同属性,以生成文档信息表;查找呈现形成装置,用于形成包括一个或多个属性以及选项的界面,每个属性对应于多个选项,其中所述多个选项包括了属性的所有属性值;用户查询输入装置,用于接收用户通过界面输入的查询;查找装置,用于根据所述查询查找文档信息表和文档;显示装置,用于向用户显示结果。
20.根据权利要求19所述的浏览和查找系统,其中所述文档信息表构造装置还包括知识学习装置,用于学习与属性或属性值有关的知识并将所述知识提供给属性和属性值提取装置。
21.根据权利要求19或20所述的浏览和查找系统,其中所述属性和属性值提取装置包括属性值提取单元,用于从文档中提取包含属性值的句子以提取出属性值并对提取出的句子分组;以及属性提取单元,用于针对每组句子找出代表词或短语,作为与属性值对应的属性。
22.根据权利要求21所述的浏览和查找系统,其中所述属性提取单元通过关键字提取方法找出代表词或短语。
23.根据权利要求19至22一所述的浏览和查找系统,其中所述属性融合装置包括属性值相似度计算单元,用于根据属性和属性值表计算属性值相似度;以及属性融合确定装置,用于根据所述属性值相似度来确定任何两个属性的融合度。
24.根据权利要求19至22之一所述的浏览和查找系统,其中所述属性融合装置包括属性值相似度计算单元,用于根据属性和属性值表计算属性值相似度;以及共同发生频率计算单元,用于计算属性的共同发生频率;属性融合确定装置,用于根据所述属性值相似度和共同发生频率来确定任何两个属性的融合度。
25.根据权利要求24所述的浏览和查找系统,其中所述属性融合装置还包括基于字典的属性相似度存储装置,用于存储基于字典的属性相似度,以及所述属性融合确定装置根据属性值相似度,共同发生频率和基于字典的属性相似度来确定任何两个属性的融合度。
26.根据权利要求23至25之一所述的浏览和查找系统,其中所述属性值相似度计算单元选择将属性值转换为矢量的特征,并根据所述矢量计算属性值相似度。
27.根据权利要求26所述的浏览和查找系统,其中所述属性值相似度计算单元通过计算矢量的余弦距离计算属性值相似度。
28.根据权利要求19至27之一所述的浏览和查找系统,其中通过聚类对应于一属性的所有属性值从而形成选项,每个选项包括多个属性值。
29.根据权利要求19至28之一所述的浏览和查找系统,其中所述查找呈现形成装置通过从属性和属性值表中选出一个属性以及组合所选出的属性和对应于该属性的所有选项从而形成包括一个或多个属性以及选项的界面。
30.根据权利要求19至28之一所述的浏览和查找系统,其中所述查找呈现形成装置通过从属性和属性值表中选出多个属性以及组合所选出的属性和对应于该属性的所有选项从而形成包括一个或多个属性以及选项的界面。
31.一种浏览和查找方法,包括构造文档信息表的步骤,包括提取步骤,从文档中提取属性值,并根据提取出的属性值提取属性;组合步骤,组合对应于相同属性的属性值,并形成属性和属性值表;以及融合步骤,融合属性和属性值表中具有不同名称的相同属性,以生成文档信息表;界面形成步骤,形成包括一个或多个属性以及选项的界面,每个属性对应于多个选项,其中所述选项包括属性的所有属性值;查询接收步骤,用于接收用户通过界面输入的查询;查找步骤,用于根据所述查询查找文档信息表和文档;显示步骤,用于向用户显示结果。
32.根据权利要求31所述的浏览和查找方法,其中所述文档信息表构造步骤还包括学习与属性或属性值有关的知识,用于提取属性值以及提取属性的步骤。
33.根据权利要求31或32所述的浏览和查找方法,其中所述提取步骤包括从文档中提取包含属性值的句子以提取出属性值并对提取出的句子分组的步骤;以及针对每组句子找出代表词或短语,作为与属性值对应的属性的步骤。
34.根据权利要求33所述的浏览和查找方法,其中找出代表词或短语的步骤包括通过关键字提取方法找出代表词或短语的步骤。
35.根据权利要求31至34一所述的浏览和查找方法,其中所述融合步骤包括步骤根据属性和属性值表计算属性值相似度;以及根据所述属性值相似度来确定任何两个属性的融合度。
36.根据权利要求31至34之一所述的浏览和查找方法,其中所述融合步骤包括步骤根据属性和属性值表计算属性值相似度;以及计算属性的共同发生频率;根据所述属性值相似度和共同发生频率来确定任何两个属性的融合度。
37.根据权利要求36所述的浏览和查找方法,其中所述确定任何两个属性的融合度的确定步骤包括根据属性值相似度,共同发生频率和基于字典的属性相似度来确定任何两个属性的融合度。
38.根据权利要求35至37之一所述的浏览和查找方法,其中计算属性值相似度的步骤包括选择将属性值转换为矢量的特征,并根据所述矢量计算属性值相似度的步骤。
39.根据权利要求38所述的浏览和查找方法,其中根据矢量计算属性值相似度的步骤包括通过计算矢量的余弦距离计算属性值相似度的步骤。
40.根据权利要求31至39之一所述的浏览和查找方法,其中通过聚类对应于一属性的所有属性值形成选项,每个选项包括多个属性值。
41.根据权利要求31至39之一所述的浏览和查找方法,其中形成包括一个或多个属性以及选项的界面的步骤包括步骤从属性和属性值表中选出一个属性;以及组合所选出的属性和对应于该属性的所有选项从而形成所述界面。
42.根据权利要求31至41之一所述的浏览和查找方法,其中形成包括一个或多个属性以及选项的界面的步骤包括步骤从属性和属性值表中选出多个属性以及组合所选出的属性和对应于该属性的所有选项从而形成所述界面。
全文摘要
本发明提供一种文档信息表构造装置以及一种方法,所述文档信息表构造装置包括属性和属性值提取装置,用于从文档中提取属性值,并根据提取出的属性值提取属性;属性和属性值表形成装置,用于组合对应于相同属性的属性值,并形成属性和属性值表;以及属性融合装置,用于融合属性和属性值表中具有不同名称的相同属性,以生成文档信息表。本发明还提供了一种应用了文档信息表构造装置的浏览和查找系统以及一种浏览和查找方法。
文档编号G06F17/30GK1955960SQ20051011872
公开日2007年5月2日 申请日期2005年10月28日 优先权日2005年10月28日
发明者赵凯, 薛敏宇, 齐红威 申请人:日电(中国)有限公司