专利名称:从非结构化文本提取和显现图表结构化关系的方法和系统的制作方法
技术领域:
本发明涉及数据处理,更特别地,涉及一种用于从非结构化文本 自动提取和显现表示出关系的图表结构化数据的方法、系统和计算 机程序。
背景技术:
技术领域
结构化信息可以定义为其预期意义以数据的结构或格式明显地 表示的信息。结构化信息的典型例子是关系数据库。非结构化信息 可以表征为其意义需要解释以接近和提取预期意义的信息。例子包 括自然语言文档、语音、音频、图像和视频。换言之,非结构化数 据是无组织地驻留于数据库外部的任何数据。非结构化数据可以是 文本、音频、视频或图形。
非结构化信息代表可用于商界或政府的最大、最流行和最快发展 的信息源。在一些估计中,非结构化数据代表所有共同信息中的
80%。在这些大量数据中的高价值信息是难以发现的。非结构化信息 不是适于搜索技术的格式。在非结构化源中搜索信息是不实际的。 首先,必须分析数据以检测和定位所关心的项。然后必须将结果结 构化为使得强大的搜索引擎和数据库引擎可以在内容被请求时有效 地找到所请求的内容。从非结构化世界到结构化世界的桥梁称为信 息提取(IE)。
非结构化信息管理(UIM)应用通常是软件系统,其分析大量非 结构化信息(文本、音频、视频、图像等)以发现、组织和传递相 关知识到客户端或终端用户。 一个例子是处理数百万医学文档和报 告以发现药物间关键相互作用、副作用和疾病史的应用。另一例子是处理数百万文档以发现表明可能的恐怖分子威胁的关键证据的应用。
非结构化数据的管理被认为是信息技术(IT )产业中主要未解决 问题之一,主要原因是可以成功地将结构化数据转换为商业情报和 可用信息的工具和技术当应用于非结构化数据时完全不起作用。
非结构化信息管理(UIM)系统对大量非结构化信息使用信息提 取(IE)技术以发现、组织和传递相关知识到客户端。
信息提取(IE)是自然语言处理(NLP)的重要未解决问题。信 息提取中最重要的问题之 一 是从文本文档中提取实体以及提取这些 实体间的关系。实体的例子是"民族"、"组织"和"位置"。关 系的例子是"组织-雇用-执行官"、"组织-位置,,等。例如,句子 "John Adams是XYZ公司的首席执行官,,包括个人"John Adams" 和组织"XYZ公司"之间的"组织-雇用-执行官"关系。
已经使用各种技术来提取相关实体间的关系。
在监督方法中,在给出的例子中人力专家人工地识别实体和关 系。针对这些例子训练分类器,该分类器用于在以后运行时识别关 系和实体。
.半监督方法使用由专家提供的种子样本并设法自动获得类似于 种子样本的更多样本。然后,种子样本和所获得的样本被用于训练 类似于监督情况中的分类器。
非结构化数据包括不同于实体和关系的其他信息,例如表示不同 实体间的关系的社交网络,其间实体具有某些关系的周期,不同实 体间共享的公共因素,...该复杂和丰富的信息难以获取并且非常难
以用信息化方式表示。
HITS ("超文本引导主题选择")算法是用于对网页进行分级 并因此还进行排序的算法。HITS对每个页面使用两个值,"权威值" 和"中心值"。"权威值,,和"中心值"在相互递归中相互定义。 权威值计算为指向该页面的定标中心值的和。中心值是其指向的页 面的定标权威值的和。在一些实现中也考虑了所链接页面的关联性。HITS算法得益于以下研究当页面(中心)链接到另一页面(权威) 时,前者对后者给予授权。HITS方法在JKleinberg, J.ACM( 1999) 的标题为 "Authoritative Sources in a Hyperlinked Environment"(超
链接环境中的权威源)的出版物中描述。
初始问题
对于 一 些领域,从非结构化数据提取知识是昂贵且不可行的任 务,因为需要生成很多手工规则以捕获各种信息。尽管对于任何给 定领域提取这种知识都是非常困难的操作,但以清楚和有用的方式 向用户呈现和显现数据是更困难的。本发明处理三个主要问题
-用于在任何领域(应用)中从任何非结构化数据提取实体间关 系的图案的自动发现
-从非结构化数据提取表征每个实体和关系的知识(例如其间关 系有效的时间以及在该时间该实体的位置)。
.多层关系的定义(具有各种约束和条件的关系,例如在给定时 间帧中的关系或者在给定组织中两个人之间的关系,...)
所提取知识的显现(以使用户能够吸收和消化该知识的方式呈 现所提取知识)。
现有技术
本发明集中于用于从非结构化数据提取和呈现信息的三个关键 问题
用于提取实体间关系的图案的自动发现; 从非结构化数据提取深层知识; 所提取知识的显现。
大多数现有技术仅集中于第 一个问题,其包括从非结构化文本提 耳又实体间关系。出版于"The proceedings of the 1998 International Workshop on the Web and Databases"中的标题为"Extracting Pattern and Relations from the World Wide Web"(从万维网中提取图案和关系)(SergyBrin,斯坦福大学计算机科学系)的文章可以找到该领 域中的工作。该出版物公开了作者身份信息的提取,如在万维网上 在图书描述中找到的那样。该出版物基于双重迭代图案-关系提取, 其中关系和图案集合被迭代地结构化。该方法具有两个主要缺陷
(1)使用手工种子样本以提取更多类似于这些手工种子样本 的样本。
(2)使用词典作为用于提取信息的主要来源。
出版于"Proceedings of the Fifth ACM International Conference on Digital Libraries"2000中的标题为"Snowball: Extracting Relation from Large Plain-Text collections"(雪球从大型明文集合中提取关系) (Eugene Agichtein和Luis Gravano-哥伦比亚大学计算机科学系, 1214 Amsterdam Avenue NY)的文章公开了 一种类似于先前工作的 思想,通过使用种子样本生成初始图案以及迭代地获得更多图案。 然后使用特殊(ad-hoc)测量以估计最近获得的图案的相关性。该方 法的主要缺陷是
.(1 )对种子样本的依赖导致有限的概括能力,
(2)使用手工样本导致领域依赖,以及
.(3)图案的相关性的估计要求特殊测量的使用。 才示题为 "Visualization of integrated structured data and extracted relational facts from free text"(显现整合的结构化文本和从自由文本 中提取的关系事实)(Wakefield等人)的美国专利申请US 2004/0167907公开了一种机制,用于从非结构化自由文本提取简单 关系。然而,该机制具有可以概述如下的主要缺陷
-提取关系的机制取决于语法分析树。这是主要缺陷,因为不能 提取精确关系。
-取决于人为规则。机制设计用于某些问题,并且必须针对每个 问题而改变,这是昂贵且困难的。
使用词典和其他昂贵资源来提取信息。
.不是通用的并且不能解决不同领域中的不同问题。 仅提供简单关系但不能提供高度详细的关系。
不完全自动并且需要人为干涉。
标题为 "System and method for automatically and iteratively mining related terms in a document through relations and patterns of occurrences"(用于通过出现关系和图案自动地和迭代地挖掘文档中 的相关项的系统和方法)(Sundaresan等人)的美国专利US 6,505,197 公开了 一种自动和迭代数据挖掘系统,用于使用二元概念识别万维 网上的一组定义了关系的相关信息。具体地,挖掘系统迭代地提炼 以特定方式相关的项的配对,以及它们在网页中出现的图案。自动 挖掘系统以迭代方式运^f亍,用于连续地和递增地#是炼关系及其相应 图案。在一个实施例中,自动挖掘系统根据关系在网页中出现的图 案来识别关系。自动挖掘系统包括导出新关系的关系标识器以及导 出新图案的图案标识器。最近导出的关系和图案存储在数据库中, 其最初以关系和图案的小种子集合开始,其连续地和迭代地被自动 挖掘系统加宽。
然而,该专利受制于多个缺陷 取决于用于提供种子图案的人为工作。
所得图案类似于原始种子图案。
.对于每个领域或应用,新种子图案必须由专家提供;这是乏味 且昂贵的过程。
提取关系和图案仅取决于非常有限的词汇(词)特征。 标题为 "Wrapper induction by hierarchical data analysis" (通过 层级数据分析来进行封装包导入)(Muslea等人)的美国专利US 6,606,625公开了一种归纳算法,其基于用户标记的训练样本生成提 取规则。问题在于对训练数据的标记形成了严重的瓶颈。
剩余问题
所有先前解决方案都受制于下述缺陷中的一个或多个 -需要手工规则或大量人为注解样本用于组成用于提取关系的图案。
是领域专用的并且设计为解决非常特殊的问题。
-取决于种子样本。所得图案不是通用的并且非常类似于种子样本。
不是独立于语言的。
仅提供简单关系但不能提供高度详细的关系。 .不针对每个实体和关系提取详细的特征。
不能对所提取信息挖掘复杂数据。
不提供针对大量数据的有效显现。
发明内容
发明目的
-本发明的目的是从非结构化数据自动提取实体间关系,独立于 领域和语言,不要求任何种类的任何人为干涉,并且不考虑数据数 量如何。
.本发明的另一目的是提取高度复杂的关系和相关实体,每个所 提取实体和关系都由非常丰富的信息结构表示。
-本发明的另 一 目的是提取实体间多层关系以及实现对所提取信 息的复杂数据挖掘。
.本发明的另一目的是以清楚和可利用的方式显现信息,可以帮 助用户吸收和消化大量非结构化信息。
发明概要
本发明公开了如独立权利要求中所定义的系统、方法和计算机程序。
本发明公开了 一种用于从非结构化文本自动提取和挖掘关系和 相关实体的系统、方法和计算机程序。更特别地,本发明涉及一种
方法,用于
从非结构化文本数据提取关系和相关实体, 将所提取信息表现为图表,以及
操纵所得图表以更加了解其包含的信息。 首先通过自动导入图案以及其次通过将这些导入的图案应用于 非结构化文本数据,执行关系和相关实体的提取。对于每个关系和 实体,提取多个特征以构造图表,其中节点表示实体,并且边表示 关系。
本发明提供如下装置,其用于开发图表,并用于导出其他图表, 这些图表集中于某些时间帧内的关系或涉及某些特征。这是分别使 用时间图表和基于特征的图表来完成的。两种方法基本上都查询与 图表的节点和边相关联的数据结构的内容。
本发明提供显现技术,用于更好地理解图表中包含的信息。
本发明提供用于吸收和消化非结构化信息的有效解决方案并实 现大量文档的有效显现。
在所附从属权利要求中提供本发明的其他实施例。
参照以下描述、权利要求和附图可以更好地理解本发明的前述以 及其他目的、特征和优点。
在所附权利要求中阐述被认为是本发明所特有的新颖和创造'性 特征。然而,当结合附图阅读时通过参照以下示例性详细实施例的 详细描述将最好地理解本发明本身及其优选使用模式、其他目的和
优点,附图中
图1示出根据本发明的系统的概略图。
图2是根据本发明的图表结构化关系提取器的详细视图。
图3是根据本发明的导入图案的步骤的框图。
图4是模板、图案和元组的例子。
图5示出根据本发明用于导入图案的方法。
图6是根据本发明用于图案的初始表示的有限状态机(FSM)。
图7示出根据HITS算法的图案和元组的表示。图8是浅图表的例子。
图9是基于特征的图表的例子。
具体实施例方式
提供以下描述以使得人们或者本领域普通技术人员能够进行和 使用本发明,并且在专利申请及其要求的上下文中提供以下描述。 对这里描述的优选实施例以及 一 般原则和特征的各种修改对于本领 域技术人员而言是显而易见的。因此,本发明不旨在受限于所示实 施例,而是符合与这里描述的原则和特征一致的最宽范围。
本发明的主要目的是处理非结构化文本数据以提取关系和相关 实体以及对于二者的特征。结果是其节点和边分别表示实体和这些 实体间关系的图表。当提取大量信息时,系统还提供操纵图表的能 力,以动态地生成示出关系和/或实体的不同方面的各种图表。
图1示出根据本发明的系统的概略图。
系统接收指定已命名实体(例如人名、组织名或在任何领域中
的任何其他已命名实体)的用户查询103。该已命名实体以下将称为 "主实体"。
将大量非结构化文本数据100 (例如万维网)提供到图表结构 化关系提取器101,其提取相关实体、所述相关实体间的关系以及表 征所述相关实体和关系的各种信息。
.系统构造其节点表示与主实体最密切相关的实体并且边表示实 体间关系的图表。
将图表查询104应用到图表以获得数据的具体视图。
-由图表显现器102生成最终输出图表105。该最终输出图表105 根据在应用到图表的查询中指定的标准来表示实体及其关系。
图表结构化关系提取器图2是根据本发明的图表结构化关系提取器101的详细视图。系
统操作如下
'将从用户接收的查询103传输到索引器和搜索引擎200用于在 非结构化文本数据100中进行搜索(例如在Web上)。非结构化文 本数据100包括大量文档(即WEB上的各种文档,例如网页)。搜 索引擎200从非结构化文本数据IOO检索包含查询103中指定的主 实体的文档。
-对包含查询103中指定的主实体的文档应用语法和语义标签器 201 (所述文档由搜索引擎200得到)以提取各种已命名实体、词汇 类型以及词的语义。
-相关实体和关系提取器202从先前步骤中标记的文档提取与查 询103中指定的主实体强烈相关的实体和关系。
-特征提取器203从由搜索产生的并包含查询中指定的主实体的 文档提取信息,以表征先前在步骤202中提取的每个实体和关系。 例如,对于特定实体,可以提取与该实体密切相关的接近该实体的 人、组织、位置、时间特征、词...。
图表扩展器204重复先前步骤,即提取与查询103中指定的主 实体特别相关的关系和实体。进行该操作以将图表扩展为具有附加 的相关实体和关系。很多实体与查询中指定的主实体相关。在这些 实体中, 一些是特别相关的并且必须添加到图表。问题在于不知道 这些相关实体如何彼此相关以及与其他实体相关。这就是图表扩展 器对非结构化文本(100)(而不是仅仅对包含主实体的所选文档) 重复先前步骤的原因。
然后,图表扩展器204基于所述提取的实体和关系形成图表。 查询中指定的主实体作为图表的中心点,所有其他实体连接在其周 围。
-关系分类器205根据关系的语义意义根据一组预定类别来对所 得关系进行分类。例如,诸如"领导"、"总裁"和"主席"的关 系被分类为"执行官"。该步骤是可选的并且不影响系统的输出。 在图表中表示所提取实体和关系。图表扩展器204从非结构化 文本数据收集信息并以与每个实体和关系相关联的结构表示所述信 息。以便于内容操纵的方式构造图表。
将图表传输到图表显现器102。该图表可能会受到来自用户的 指定某一标准的查询104。响应于该查询,图表显现器102在输出 105中输出相对较简单的图表。该输出图表105根据在查询104中指 定的标准表示实体及其关系。
关系和相关实体提取
根据优选实施例的系统从非结构化文本提取相关实体和这些实 体间的关系。将各种标签器应用到文本以附上不同种类的标签(例 如已命名实体标签器向每个词附上表示其已命名实体类别的标签)。 关系和相关实体提取器202提取相关实体以及对所述实体间关系的 描述。关系分类器203将所提取关系分类在预定关系集合中。
关系和相关实体提取器202自动提取相关实体以及它们的关系。 为了提取关系和相关实体,关系和相关实体提取器使用具有相关联 的置信测量的图案。导入(自动获取)图案的过程被执行一次,然 后在系统构造期间脱机。使用通用框架导入图案,该框架可以用于 任何实体和相关类型。在运行时,将导入的图案应用到非结构化文 本以提取实体以及与它们相关联的关系。
图3是导入图案的方法的概略图。将非结构化文本数据300提供 到图案导入器301中,其导入图案302用于接着提取实体以及所述 实体间的关系(注意非结构化文本数据300与非结构化文本数据 100相同)。
如上所述,根据优选实施例的图案导入器301对非结构化文本数 据进行操作以导入图案。图4描述图案结构以及对非结构化文本执 行的处理。例如,输入文本400 "美国副总统Al Gore今天说..."被 通过各种标签器(例如词性(POS)标签器、语义标签器和已命名实 体标签器)加上标签。换言之,标签与句子中每个词相关联。结果是表示句子400的各种特征的一组多流标签401。 词美国 实体民族 词性形容词 语义居民
词副总统 实体职业 词性名词短语 语义执行官
词Al Gore
实体个人
词性名词
语义无
使用不同类型的标签的组合可以形成相同句子的不同表示。在给 定表示中使用的标签类型取决于系统将尝试匹配的图案。
模板
模板是通用标签的序列。模板402的例子是
民族—居民职业—名词短语个人[2]动词_短语
该模板来源于401中已命名实体标签、词性(POS)标签和语义 标签的表示。所有这些标签被认为是单个标签。这里图案的选择仅 用于示意目的,可以使用标签、表示和加标签样式的任何组合。
图案
图案比模板更具体。图案指定由标签扮演的角色(第一实体、第 二实体、或关系)。如后面说明的,图案从模板获得。模板的例子表示在403中,其中识别关系以及关系中的每个实体。
该图案表明句子中具有标签民族一居民_形容词的词表示关系中 第二实体(实体2),而具有标签个人[2]的词表示关系中第一实体 (实体l)。最后,具有标签职业_执行官_名词短语的词表示两个先 前实体间的关系。
元组
"元组"是将图案应用到非结构化文本的结果。在上述例子中, 将图案应用到原始文本的结果是以下元组 实体1: Al Gore 实体2:美国 关系副总统
元组404、 405示出不同元组可以如何与相同图案匹配。 根据本发明的方法包括导入一组包含信息的高置信度的图案的
步骤。该组图案在运行时间期间被应用于原始文本以正确识别相关
实体以及这些实体间的关系。
图案导入器
图3中的图案导入器302进一步在图5中详细示出。用于导入图 案的方法仅在构造系统时执行一次。用于导入图案的方法包括以下 步骤
500:由语法和语义标签器模块对非结构化文本数据300 (即 大型文本数据或WEB数据)应用诸如POS标签器、已命名实体标 签器和语义标签器的各种标签器。
501:所得数据分成两部分小部分和大部分。该划分是有用 的,因为仅数据的小部分需要得到图案的初始集合,而数据的大部 分需要使用以下描述的导入过程来排序和检验这些图案。
502:数据的小部分用于构造有限状态机502,类似于图6中 所示有限状态机。-503:初始图案生成器用于滤出不太可能的模板,其在有限状 态机中具有较低可能性。然后,初始图案生成器使用初始模板以生 成图案的初始集合。先前获得的集合中每个模板可以通过将不同角 色附加到模板的不同部分生成多个图案。如果现在考虑以下模板
民族名词一短语个人个人位置
则从该模板可以生成以下3个图案
.民族实体1名词_短语关系个人实体2个人_实体2位
置
民族实体1名词一短语关系个人个人位置实体2 民族名词一短语_关系个人实体1个人实体1位置实
体2
因此,通过从模板的初始集合中的每个模板生成所有可能图案, 构造图案的初始集合。
504:元组匹配器将图案的初始集合中的每个图案应用于非结 构化数据。结果包括图案的配对(p, t)以及与这些图案匹配的元组。 注意到,这些配对中的很多是错误的,即它们错误地识别相关实体 和/或关系。
有限状态机
图6示出用于所考虑的图案的有限状态机。 '第一状态601表示"民族"已命名实体, .第二状态602表示"名词—短语",
.第三状态603表示"个人"已命名实体,其可以由一个或多个 名字表示。对第 一弧线的加权604表示该状态序列的可能性。
HITS图案导入器
步骤505使用以下研究用于自动识别信息量最大的图案与很多 元组匹配的图案倾向于为正确。类似地,与^f艮多图案匹配的元组倾 向于为正确。因此,问题可以视为中心(元组)和权威(图案)问题,其可以使用HITS ("超文本引导主题选择")算法来解决。基 于一组相关"权威页面"和一组"中心页面"之间的关系,HITS是 权威概念的算法公式。HITS算法原始用于通过分析WWW(万维网) 的链接结构在考虑搜索查询时确定最权威的网页。HITS算法受益于 以下研究当页面(中心)链接到另一页面(权威)时,前者对后 者给予授权。
HITS图案导入器操作如下
假设很大一组数据D包括很大一组图案P ,希望识别与最正确元 组集合T匹配的图案集合》。换言之,希望在数据中巨大图案空间 之中选择信息量最大、置信度最高的图案,其可以识别正确元组。 然而,?和T二者是未知的。
应用导入过程如下
P中的每个图案g]与数字的权威加权Ap相关联,其表示多少元 组与该图案匹配。类似地,T中每个元组t具有数字的中心加斥又Ht, 其表示该元组与多少图案匹配。
加权被迭代地计算如下
然后加权被归一化,使得
拒绝加权低于预定阈值的图案。
计算权威加权使得在第 一迭代HITS计算中通过针对与图案匹配 的每个元组加1来计算权威加权,该总和纟皮进一步加权以有利于得 到更短的图案。加权的增量计算如下
其中&是图案的基于长度的加权,MaxLength是最长图案的长度。对于更短的图案,该修改得到更好的加权。
由该最后步骤产生包括信息量最大的图案的集合,每个图案具有
存储在导入的图案302数据库中的权威加权。
在运行时,如图2所示,关系和相关实体提取器202对非结构化 文本数据300使用导入的图案302以提取关系和相关实体。
图7示出作为双向图表的图案和元组的表示。图案701和702 连接到多个元组,类似地,元组703连接到两个图案701和702。该 连接导致相互干扰,其增加图案和元组二者的加权。另一方面,图 案704具有单个连接,因此具有低加权。
特征提取
如图2所示,在被关系和相关实体提取器202提取之后,相关实 体连同它们的关系存储在图表结构中。基于用户查询103中指定的 主实体创建图表。特征提取器203从非结构化文本数据提取用以表 征每个实体和关系的信息。结果是其节点表示实体并且边表示关系 的复杂图表。图表是复杂的,因为不是具有简单标签,而是节点和 边具有与它们相关联的数据结构。鉴于图表中包含的信息量,需要 发明 一种方法,其间接地使得对节点和边数据结构的查询可以动态 地生成原始图表的变体。
节点结构
每个节点是包括基于从上下文导出的特征的实体和矢量的结构, 在该上下文中实体在文本中频繁出现。例如,对于某个人,结构看 起来是这样的
实体名个人1
相关联的个人
名字1 0.43
名字2 0.21相关联的组织: 组织1 0.71 组织2 0.12
相关联的位置 位置1 0.50 位置2 0.24
相关联的词包
词1词2词3 0.7
相关联的时间 时间1 0.12 时间2 0.09
对于实体,与每个特征相关联的数值是当考虑该实体所出现的所 有类似特征时出现该特征的概率。
边结构
如上所示,关系提取器202可以识别原始文本中哪个词用作关 系。提取用于每个包括以下字段的边/关系的结构,其中有 关系类(例如管理人),
关系强度(例如0.85意味着"强烈相关"), 关于关系的时间信息(例如关系是在80年代)。时间信息用 于构造考虑了关系的时间帧的时间图表。所得图表可以表明在给定 时间哪些实体相关。这种时间图表可以示出例如个人在其一生与不
同组织和个人的关系的种类。
节点和边结构中包含的信息帮助对图表执行各种操作。图表扩展
为了确定实体相关强度如何,系统依靠与节点配对相关联的特征
矢量之间的距离。图表扩展器204使用这些距离来确定是否需要通
过添加某些实体来扩展图表。选择接近主实体的实体来扩展图表。
通过对选择用于扩展的实体重复关系提取和特征提取步骤来进 行图表扩展,所选实体是到主实体的距离测量值为小的实体。因此, 图表扩展导致多个子图表,每个子图表集中于被选择用于扩展的实
体之一。
可以使用各种距离度量,其中有欧几里德距离和余弦距离。在优 选实施例中,使用两个矢量之间的余弦距离。
可选图表表示
在先前步骤中构建的图表由于存储在它的节点和边中的数据而 非常丰富。为此,可行的是提供一些方法用于通过不同种类的图表 表示底层数据。通过以不同方式查询节点和边数据结构的内容获得
这些图表。图表显现器102使用图表查询104来对复杂图表执行进 一步数据挖掘以更加了解数据。在更简单和更集中的图表(输出图 表105))中针对某些特征和特性显现数据。
将作为例子讨论这些种类的图表中的3个。其他图表可以通过改 变前述查询而获得。
浅图表
对节点和边结构的最简单查询检索实体的名字以及由图表描述 的关系。这导致非常"浅"的图表,其仅示出必需的几条信息。图8 是这种浅图表的例子。节点801表示查询中指定的主实体,节点802 和803表示与主实体最强烈相关的实体。边804表示节点实体801 和803之间的关系,而边805表示节点实体801和802之间的关系。 节点806表示图表中与主实体801相关的很多所得实体之一。基于特征的图表
围绕用户查询而构造的图表基于每个节点的特征矢量。基于特征 矢量的不同子集使用其他查询可能获得其他图表。当决定2个实体 间关系的强度时,仅考虑所选特征子集,因此名为"基于特征的" 图表。该种图表解决了如下问题,例如"哪些实体与和主实体X相
同的组织集合相关联?"或"哪些人有与主实体X类似的爱好?"。
因为可能将所选距离度量应用到所考虑的较小特征矢量,因此可能 获得两个实体间针对所选特征的接近程度。换言之,可以仅针对某 些特征测量两个实体的接近度以提供对数据的更多关注。
因为集中于特征矢量的子集可以使在原始图表中远离的两个节 点更接近,因此可能跨子图表边界测量节点间的距离。这可以展现 出所关注的关系,否贝'j该关系将难以在原始图表中被发现。
图9示出这种子图表的例子,其中已从图8中所示图表中提取关 于"中东危机"的实体。节点901表示主查询,而节点卯2表示图 表中的主节点。节点903是图8中满足用于该子图表的基于特征的 标准的节点之一。
时间图表
如前所述,每个关系的结构包括时间信息。这打开了到另一类型 的查询的大门,该另一类型的查询考虑了关系的时间帧。所得图表 可以表明在给定时间哪些实体相关。通过改变时间,图表可以在两 方面不同
它们包含的节点(因为2个实体可能在给定时间开始/停止具 有关系),以及
边的加权(因为关系的强度可以随时间变化)。 这种时间图表可以示出例如个人在其一生与不同组织和个人的 不同关系。
显现图表显现器102以下列方式提供图表的增强可视表示 节点外形宽度表明某一网络中哪个节点是中心。
节点颜色对节点的已命名实体标签(例如个人,组织)进行编 码。颜色的强度表明该节点与当前选择的中心节点相关的程度(例 如深绿色节点是与X强烈相关的组织,淡蓝色节点是与X不那么相 关的位置)。
边颜色反映关系所属的分类。
边厚度反映关系的强度。
-刷涂和链接用于显示基于特征的图表。在信息显现中,刷涂和 链接用于动态地表明相关实体。在多个显示以不同形式呈现相同底 层数据的情况下,刷涂和链接是特别有用的。在这种情况下,在一 个显示中"刷涂" 一个数据项造成在所有其他显示("链接的") 中刷涂相同项。在优选实施例中,用户可以选择将在构造基于特征 的图表中被考虑的特征。当刷涂为激活时,节点的颜色强度反映其 属于图表的程度。例如,如果图表表示某人并且希望关注与特定组 织相关的其他人;所得新图表是包括仅与该组织相关的人的子图表。
时间滑块允许用户在时间上前后移动。作为该移动的结果,创 建时间图表。这些时间图表反映在特定时间的关系和相关实体。然 而,这些图表不针对每次滑块移动进行显示。实体的节点的颜色强 度可以变化以反映在它与主实体之间的关系的变化强度。因此,随 着滑块移动,某些节点变暗淡出并且其他节点变亮;关系越远离(过 去或将来)当前选择时间,相关节点看起来越暗。在所选时间处与 中心实体相关的实体看起来最亮。
本领域技术人员将认识到,尽管适于操作本发明的数据处理系统 的完整结构未在此描述,其结构和操作可以符合本领域已知的现有 实现。特别地,注意到,本方法的步骤可以从通过任何类型计算机 网络(公共或专用)连接的分布式系统在客户端-服务器模式中操作。
尽管已经参照优选实施例特别地示出和描述了本发明。应该理 解,在不脱离本发明的精神和范围的前提下,可以做出形式和细节上的各种改变。
权利要求
1. 一种用于从非结构化文本自动提取和挖掘关系和相关实体的方法,所述方法包括以下步骤·接收指定主实体的查询;·从非结构化文本提取与查询中指定的主实体相关的关系和相关实体,所述步骤包括进一步的步骤·在非结构化文本中搜索和选择包含主实体的文档,·向所选文档的每个词附加一个或多个标签,每个标签是不同类型的;·通过将图案应用到所述加标签的文档来提取关系和相关实体;·从所选文档提取表征每个实体和关系的特征;·基于所提取特征构造图表,其节点表示与所指定主实体相关的实体并且其边表示所述实体间的关系。
2. 根据权利要求1的方法,包括进一步的步骤 .操纵所得图表以更加了解其包含的信息。
3. 根据前述权利要求中任一项的方法,其中向所选文档的每个词 附加一个或多个标签,每个标签是不同类型的步骤包括以下步骤 对所选文档应用语法和语义标签器以提取已命名实体、词汇类 型以及词的i吾义。
4. 根据前述权利要求中任一项的方法,其中操纵所得图表以更加 了解其包含的信息的步骤包括进一步的步骤 接收图表查询以根据特定标准获得相关实体和关系的特定表示;-响应于所述图表查询,生成输出图表,其根据图表查询中指定 的标准表示实体以及它们的关系。
5. 根据权利要求4的方法,其中所述标准是时间标准或者是与一个或多个与关系和相关实体相关联的特征相关的条件或/和约束。
6. 根据前述权利要求中任一项的方法,其中基于所提取特征构造 图表的步骤包括进一步的步骤-使表示实体的每个节点与基于表征所述关系和相关实体的特征 的值的矢量相关联。
7. 根据前述权利要求中任一项的方法,其中从在包含主实体的所 选文档内频繁出现某实体的上下文中导出表征该实体的一个或多个 特征。
8. 根据前述权利要求中任一 项的方法,其中与表征实体的特征相 关联的值基于相关联的实体出现所述特征的概率。
9.根据前述权利要求中任 一 项的方法,其中从所选文档提取表征 每个关系的特征的步骤包括进一步的步骤 使每个关系与以下内容相关联 关系类;和/或 关系强度;和/或 时间信息;并且其中生成输出图表的步骤包括进一步的步骤 在图表上显现 关系类; 关系强度; 时间信息。
10.根据前述权利要求中任 一 项的方法,其中基于所提取特征构 造图表的步骤包括进一步的步骤 根据关系的语义意义将关系分类在预定类别中。
11 .根据前述权利要求中任一项的方法,其中基于所提取特征构 造图表的步骤包括进一步的步骤 基于节点间的距离扩展图表;所述步骤包括进一步的步骤-选择一个或多个扩展的实体,优选地是接近主实体的实体; 从非结构化文本提取与所述扩展的实体相关的关系和相关实
12. 根据前述权利要求中任一项的方法,包括从非结构化文本导 入图案的预备步骤,所述步骤包括进一步的步骤 向非结构化文本的每个词附加一个或多个不同类型的标签; -定义一个或多个模板,每个模板基于标签的序列; 从每个模板生成一个或多个图案,每个图案指定用于模板中每 个标签的角色。
13. 根据前述权利要求中任一项的方法,其中标签是语音标签或 已命名实体标签或语义标签器或任何其他类型的标签。
14. 根据权利要求12-13中任一项的方法,其中定义基于标签的 序列的一个或多个模板的步骤包括进一步的步骤 选择模板的初始集合; 滤出不太可能的模板。
15. 根据权利要求12-14中任一项的方法,其中从每个模板生成 一个或多个图案的步骤包括进一步的步骤 从模板的初始集合生成图案的初始集合; .将图案的初始集合中包含的每个图案应用于非结构化文本,以 针对每个图案获得尽可能多的与所述图案匹配的元组,元组是应用图案到非结构化文本的结果; .识别信息量最大的图案。
16. 根据权利要求15的方法,其中识别信息量最大的图案的步骤 包括进一步的步骤.运行超文本引导主题选择(HITS)算法。
17. 根据权利要求12-16中任一项的方法,其中每个图案针对模 板中的每个标签指定该标签是第一实体、第二实体还是关系。
18. —种用于执行根据前述权利要求中任 一 项的方法的步骤的系统。
19. 一种包括指令的计算机程序,用于当所述计算机程序在计算 机系统上执行时执行根据权利要求1-17中任一项的方法。
20. —种包括用于向客户端系统分发根据权利要求19的计算机程序的装置的服务器系统。
全文摘要
本发明公开了用于从非结构化文本自动提取和挖掘关系和相关实体的系统、方法和计算机程序。更特别地,本发明涉及一种方法,用于从非结构化文本数据提取关系和相关实体,将所提取信息表示为图表,以及操纵所得图表以更加了解其包含的信息。首先通过自动导入图案以及其次通过将这些导入的图案应用于非结构化文本数据,执行关系和相关实体的提取。对于每个关系和实体,提取多个特征以构造图表,其中节点表示实体,并且边表示关系。本发明提供如下装置,其用于开发图表,并用于导出其他图表,这些图表集中于某些时间帧内的关系或涉及某些特征。这是分别使用时间图表和基于特征的图表来完成的。两种方法基本上都查询与图表的节点和边相关联的数据结构的内容。
文档编号G06F17/30GK101305366SQ200680041525
公开日2008年11月12日 申请日期2006年9月18日 优先权日2005年11月29日
发明者H·哈桑, H·莫索塔费 申请人:国际商业机器公司