用于超链接名称的系统、方法和软件的制作方法

文档序号:6435649阅读:348来源:国知局
专利名称:用于超链接名称的系统、方法和软件的制作方法
技术领域
本发明涉及用于超链接文档中的名称(name)的系统、方法和软件。
背景技术
近年来,因特网及其它计算机网络的超乎想象的发展,同样在可经由这些网络访问的数据方面的超乎想象的发展提供了动力。用于与这种数据进行交互的其中一种原始模式是通过使用电子文档内的超链接。
超链接是用户可选的元素,比如高亮显示的正文或图标,所述元素把电子文档的一部分链接到相同文档的另一部分或链接到数据库或计算机网络中的其它文档上。利用适当的计算机设备和网络访问,用户能够选择或调用超链接,并几乎瞬时地查看可能几乎是位于世界上任何地方的其它文档。此外,其它文档本身可能也包括到包含超链接的其他文档的超链接,这允许用户在全世界范围内从文档“跳”到文档再“跳”到文档,这样可以随意地搜索相关信息。
近年来,人们对根据文档中的人名而把文档超链接到其它文档上这一点发生了兴趣。举例来说,为了方便法律的研究,明尼苏达州的St.Paul的西方出版社提供了把代理人和法官的名称超链接到西方法律目录中他们的在线传记项上的数以千计电子司法意见,所述西方法律目录也就是大约1,000,000美国代理人和20,000法官的专有目录。这些超链接允许用户访问司法意见以便快速获得联系及其它关于在意见中署名的律师和法官的具体信息。
利用一种将名字(first name)、中间名和姓(second name)、法律事务所名称、城市和州以及法庭信息作为线索以把署名的代理人和法官链接到他们在职业目录中相应条目上的系统,来自动地生成这些司法意见中的超链接。参见Christopher Dozier和RobertHaschart的″Automatic Extraction and Linking of Person Namesin Legal Text(自动法律文本中的人名的提取和链接)″(Proceedingsof RIAO 2000Content Based Multimedia Information Access.Paris,France.pp.1305-1321.April 2000),将所述篇文献引入于此以供参考。
尽管自动化系统卓有成效,但是本发明人意识到,它至少受到了两种限制。首先,所述系统采用了司法意见中的结构上的(机构上的)特征,比如案件标题,它们不为其它文档所共用,并且由此限制其对其它类型的名称和文档的一般应用。第二,事实上,当一些名称比其它名称在不同程度上有歧义时,所述系统把所有名称看作是有一样歧义的或一样普遍的。例如,名称David Smith比名称Seven Drake更普遍,且因此更有歧义,或者可能会识别出一个以上的人。
因此,本发明人已经认识到需要其它方法,以用于为名称生成超链接,或更一般地将包含名称的数据关联起来。

发明内容
为了满足这个及其它需要,发明人设计了系统、方法和软件,用于方便把诸如新闻文章之类的文档中的名称超链接或关联到其它数据结构中名称上,或利用比如像在职业目录里中的记录之类的其它数据结构中的名称来超链接或关联这些的文档中的名称。一个示例性的系统包括描述符模块和链接模块。描述符模块开发了用于选择共同出现的文档信息的描述性模式(pattern),所述文档信息在识别名称与职业类别之间的关联的过程中很有用。链接模块给输入文件中的名称加标记,利用描述性模式来提取共同出现的信息,将每个名称分类成属于特定的职业,并且试图找出职业目录的相应的条目。
为了找出相应的条目,链接模块为每个名称确定名称罕见性(唯一性(nameuniqueness)或歧义性)分数,并且将这个分数连同名称和所选的共同出现的文档信息一起输入到贝斯推理网络中。所述推理网络测量那个名称在给定的职业目录中指代特定候选记录(或条目)的概率。链接模块根据概率度量来把候选记录分等级,并根据超过给定阈值的最高等级的记录来定义超链接(或其它逻辑关联)。
发明人还设计了方便搜索包含潜在有歧义的项的数据的系统、方法和软件,所述有歧义的项比如是人员或其它实体的名称。例如,一种方法要求从用户那里接收查询,识别所述查询中的一个或多个名称,评价名称的歧义性或唯一性,并且如果歧义性十分大的话,就获取更进一步的信息并且更新或补充所述查询以帮助解决歧义性或减小歧义性。举例来说,可以直接从用户那里或通过自动补充式搜索来获得更进一步的信息,所述进一步的信息包括职业称谓、所在地或机构。


图1是体现本发明的教导的示例性的系统100的框图。
图2是定义供在分类和链接名称的过程中使用的表达式或描述符的操作系统100的示例性方法的流程图。
图3是根据贝斯推理网络来定义文档中的名称与数据库中的名称之间的超链接的操作系统100的示例性方法的流程图,所述贝斯推理网络是根据图5训练的。
图4是用在操作系统100中以定义超链接的示例性贝叶斯推理系统的框图。
图5是训练贝斯推理网络的操作系统100的示例性方法的流程图,所述贝斯推理网络供度量文档中的名称和数据库中的名称是指代相同人的似然率的过程中使用。
图6是体现包括本发明的教导的示例性搜索方法的流程图。
具体实施例方式
下列详细说明参照且体现了图1-6,这些详细说明描述并举例说明了本发明的一个或多个示例性实施例。提供这些实施例不是为了限制而是仅要举例说明和讲授本发明,足够详细地示出并描述这些实施例,以使本领域的技术人员能做出并且使用本发明。因此,在适合于避免混淆本发明的情况下,本说明书可以省略某些为本领域的技术人员所公知的信息。
定义本说明书包含许多这样的术语,它们的含义源自于它们在本领域中的用途或者源自于它们在本说明书的环境内的应用。作为进一步的辅助说明,给出下列术语的定义。
术语″一个″是指至少一个。
术语″或者″是以其布尔型逻辑意义来使用的,除非是结合″要么...要么″来使用的。
术语″文档″指代具有文件名的机器可读数据的任何逻辑集合或排列。
术语″数据库″包含机器可读文档的任何逻辑集合或排列。
术语″超链接″包含文档中在结构上或功能上符合任何一种过去、现在或者未来的统一资源定位符(URL)标准的任何单字(token)。它也包括任何包含标识专用计算机系统或联网设备的信息的单字。
术语″名称″包括一个或多个词,用其来给定并区别于其它的诸如人、动物、地点、事物、集团、机构或法人实体之类的实体。
术语″程序模块″包括用于执行特定任务或实现特定抽象数据类型的例行程序、程序、对象、组件、数据结构、和指令或指令集等。所述术语并不限于特定的载体介质。
具体化本发明的示例性计算机系统图1示出了示例性计算机系统100的图,所述计算机系统并入一种用于自动加标记文档的一个或多个部分并为每个已加标记的部分定义一个或多个相应的超链接的系统、方法和软件。尽管将所述示例性系统展示成为独立部件的互连整体,但是一些其它实施例能利用更多或更少的组件数目来实现它们的功能。此外,一些实施例通过有线或无线的局域网或广域网来将一个或多个组件相互耦合。一些实施例利用一个或多个大型计算机或服务器实现系统100的一个或多个部分。因此,本发明不限于任何特定的功能划分。
总体上,系统100包括输入文档数据库110、名称链接子系统120、职业目录130、输出文档数据库140和访问设备150。
输入文档数据库110包括一个或多个电子文档,代表性地示出了其中的一个文档112。文档112包括人、地点、事物或法人实体的一个或多个名称,一般地说是专有名词,比如像贯穿文档分布的N1、N2、N3、N4和N5。在示例性实施例中,文档112是撰写的新闻文章或其它文本文档-例如司法意见或其它类型的法律文档的电子版。然而,在其它的实施例中,文档112包括一个或多个图像或多媒体数据,包含一个或多个名称。
耦合于数据库110的是计算机化的名称链接系统120。系统120包括一个或多个常规的处理器121、显示设备122、接口设备123、网络通信设备124、存储设备125、文档处理软件126和加标记与链接软件127。软件126和127包括各种软件和数据组件,它们能采用各种形式,比如在电介质、磁性介质和/或光学载体介质上的编码的指令或数据,并且它们可以通过网络下载方法或通过其它的软件传送方法独立地或者组合地安装在系统120上。
文档处理软件的例子包括字处理程序、HTML编辑程序、电子表格程序、电子邮件程序、展示开发(presentation-development)程序、浏览程序、文档管理程序和文件备份程序。因此,所述发明不限于任何特定种类或类型的文档处理软件。
在示例性实施例中,软件127是文档处理软件126的外接式工具。然而,在其它实施例中,它作为诸如可网络访问的程序之类或者作为操作系统的内核或外壳的一部分的独立应用程序来操作。更具体而言,软件127包括描述符模块1271、链接模块1272和训练模块1273,所有这些模块都将在下面作进一步详述。
系统120耦合于职业目录130和输出文档数据库140。
职业目录130包括一个或多个职业目录,比如像代理人(attorney)目录132、法官目录134、专家数据库136和其它职业的目录138。每个目录(或者更一般讲是数据库)都包括一组记录或其它数据结构,其包含与一个或多个命名或标识的实体相关联的信息,所述标识的实体比如是人、地方、事物或法人实体。例如,代理人目录132包括许多条代理人记录,比如像示例性的代理人记录A1;法官目录134包括许多条法官记录,比如像示例性的法官记录J1;专家目录136包括许多条专家记录,比如像示例性的专家记录E1;而其它目录包括许多条包含与其它个体相关联的信息的记录,所述其它个体比如像医生、教授、会计、教师、名人等等。一些实施例可能包括电话与电子邮件地址、信用报告、纳税报告、犯罪记录、医疗信息、学校记录等等的数据库。
输出文档数据库140包括一个或多个处理过的文档,比如像示例性的文档142。文档142包括已加标记的名称N1、N2、N3、N4、N5以及各自的超链接1421、1422、1423、1424和1425,这些超链接中的每一个都引用至少一个职业目录130内的传记记录或其它数据结构,或者在没有给定特定的目录记录的情况下引用其中一个职业目录,或者引用目录中一个记录子集。由名称链接处理器120生成并嵌入在文档内或关联于文档的超链接1421-1425是可选的,以经由公用或专用局域网或广域网或者专用通信路径(未示出)来把文档140中的各个已加标记的名称部分N1、N2、N3、N4、N5链接到数据库130、132和134。示例性实施例以对比色或字体或者以其它用户可察觉的方式来展示已加标记的名称,以表示它与现有的超链接的关联。输出数据库140内的文档可通过访问设备150在局域网或广域网上加以访问。
所述示例性实施例将输出数据库140作为Web服务器的一部分提供,所述Web服务器比如是运行在具有处理器和扩充内存以及盘配置的几个服务器的网络上的Microsoft因特网信息服务器4.0。数据库140在各种计算机平台上可以采用许多种形式。此外,在一些实施例中,数据库140包括供像访问设备150这样的一个以上的设备使用的冗余内容,以便同时访问相同文档的多个拷贝。
访问设备150包括示例性的访问设备152、154、156和158。每个访问设备都包括显示器、处理器(uP)和软件(SW)。这里所用的术语″访问设备″涵盖了配有浏览器的个人电脑、网络设备、个人数字助理、电话、蜂窝式电话、web电话、电视、web电视等等。它还包括能够以与用户或其它计算机交互的形式输出数据的监视器和其它类型的设备。因此,本发明不限于任何特定种类或形式的访问设备。
系统100的示例性操作一般来说,系统100的示例性操作需要描述符模块1271、链接模块1272和训练模块1273的操作。描述符模块1271生成一个或多个职业名称的描述符结构或模式,以供在识别很可能是指代一个或多个特定职业类别中的个体(或满足其它预定准则)的名称时使用。链接模块1272接收诸如文档110之类的输入文档,并根据职业名称描述符结构和/或从文档110中提取出的其它数据来把所述输入文档中的一个或多个名称超链接到一个或多个职业目录,并且输入到贝斯推理网络中。训练模块1273在链接模块1272所使用的贝斯推理网络中的各个节点处定义条件概率。
A.描述符模块结构与操作更具体而言,图2示出了举例说明操作描述符模块1271的示例性方法的流程图200,用于为给定职业生成名称描述符。所述示例性实施例的一个假定是一些人名与其它名称相比很可能更适合于单个个体,并假定当这类名称也与普通职业(或其它类别)相关联时,人们能够自动地识别出所述职业(或类别)中的人所共用的描述性语言。这种语言继而可用来识别在语料库(corpus)中命名的所述职业(或类别)中的多数成员。
流程图200包括过程块210-260。尽管这些块(以及这篇文献中其它流程图的那些块)在示例性实施例中都是串行排列的,但是其它实施例可以重排这些块,省略一个或多个块,和/或利用多处理器或编组成两个或多个虚拟机或子处理器的单处理器来并行地执行两个或多个块。此外,还有其它实施例将这些块实施成一个或多个专门互连的硬件或集成电路模块,其中相关控制权和数据信号在所述这些模块中传递或者通过所述这些模块进行传递。因此,这篇文献中的这个及其它示例性的处理流程都适用于软件、固件、硬件及其它类型的实施方案。
块210需要识别文档(或语料库)集合中与职业目录内名称相匹配的名称和不匹配的名称。识别匹配和不匹配的名称(即,目录中的和目录外名称),需要利用名称标记程序来识别所述集合中的所有名称,并接着针对诸如其中一个职业目录130之类的职业目录进行搜索。尽管本发明不限于任何种类或类型的名称标记(tagger),不过名称标记的适当示例包括来自佛吉尼亚州的Fairfax的IsoQuest公司的NetOw1语法分析软件。(发明人还针对一些实施例根据最大值熵模型来详细考虑名称标记)。
在执行搜索之后,示例性实施例将目录内名称的子集视作为罕见的或唯一的目录内名称。这需要为每个目录内名称计算名称唯一性概率,该名称唯一性概率基于目录中该名称的语言模型。示例性语言模型是根据名字的概率和姓的概率来定义的,其中每个名字和姓的概率分别是基于名字和姓出现的总次数与从总人口(population)中取出的名称列表中的名称总数的比率。
名称列表应该足够大以准确地代表名称在总人口中的分布。如果职业目录或其它数据库足够大的话,那么就可以将它用作为语言模型的基础。如果职业目录小的话,那么该语言模型就应该以诸如列在跨美国的公众记录上的许可职业的列表之类的某个其它列表为基础。下述的说明假定上面所讨论的职业目录(或数据库)足够大到能代表总人口中的名称。
一旦定义了语言模型,利用如下等式来计算每个目录内名称的名称匹配概率分数P(name)=P(first name)·P(second name) (1)其中P(first name)表示从目录中的所有名字中随机取出名字的概率,而P(second name)类似地表示从该目录中的所有姓中随机取出姓的概率。然后,按如下来计算名称唯一性或罕见性的概率P(nameUniqueness)=1/((H·P(name))+1) (2)其中H表示在语料库中可能被引用到的人类人口的大小。例如,对于由华尔街日报文章组成的语料库,将H定为300百万,近似美国的人口。然后,将每个其名称唯一性概率超过阈值(比如,0.07)的目录内名称连同目录外名称一起用作基础,以供在块220的进一步处理。
块220抽取共同出现的文档信息或者与一个或多个识别出的目录内名称和一个或多个目录外名称相关联的文档信息。在示例性实施例中,这需要提取每个罕见的目录内名称周围的以及所有目录外名称周围的某个文本窗口(或文档区域)内的文本或信息。
更具体而言,示例性的提取需要抽取文本窗口内出现的一元(unigram)和二元(bigram),所述文本窗口在每次出现已识别出的语料库中罕见的目录内名称和目录外名称之前和之后扩展(extending)八个单词。(其它实施例使用了其它尺寸和形式的文本窗口,比如,文档语法结构或组织结构。例如,一些实施例根据字符、语句或分段数来定义窗口。)与目录内名称相关联的一元和二元被定义为共同出现的目录内的一元和二元,而那些与目录外名称相关联的一元和二元被称为共同出现的目录外的一元和二元。在块230继续执行。
块230确定提取出的信息将随目录内名称而非目录外名称一起出现的概率或似然率。在示例性实施例中,这需要计算每个目录内的一元和二元在目录外名称前和后出现在八个单词的窗口内的概率,以及每个目录外的一元和二元在目录内名称前和后出现在八个单词的窗口之内的概率。按如下来计算这些共同出现的概率P(unigram/in-directory rare name(目录内罕见的名称))=IU/NI (3)其中IU=一元出现在具有目录内罕见名称的窗口中的次数,而NI=目录内罕见名称的数目。
P(unigram/out-of-directory rare name(目录外罕见的名称))=OU/NO (4)其中OU表示一元出现在具有目录外名称窗口中的次数,而NO表示目录外名称的数目。
P(bigram/in-directory rare name)=IB/NI (5)其中IB表示二元出现在具有目录内罕见名称的窗口中的次数,而NI表示目录内罕见名称的数目。
P(unigram/out-of-directory rare name)=OB/NO(6)其中OB表示二元出现在具有目录外名称的窗口中的次数,而NO表示目录外名称的数目。
为了确定一元和二元与目录内罕见名称而非目录外名称共同出现的似然率,示例性实施例用目录内罕见名称共同出现概率除相应的目录外共同出现概率。这些似然率公式化形式可以写成L(unigram)=P(unigram/in-directory rare name)P(unigram/out-of-directory rare name)---(7)]]>L(bigram)=P(bigram/in-directory rare name)P(bigram/out-of-directory rare name)---(8)]]>其中L(unigram)是给定的一元与目录内罕见的名称共同出现的似然率,而L(bigram)是给定的二元与目录内罕见的名称共同出现的似然率。
块240根据在前和在后的一元和二元共同出现似然率来把提取出的信息分等级。为此,示例性实施例按其目录内罕见名称共同出现似然率的递减顺序把共同出现的目录内一元和二元分等级或加以排序。(其它实施例可以计算和使用共同出现概率。)以下两个表中示出了对应法律职业人员的在前和在后的一元和二元以及它们的似然率分数的分级列表的例子。

表1在前和在后的一元示例


表2在前和在后的二元示例块250需要根据等级来选择一组或多组已提取的信息。在示例性实施例中,这是一个人工选择过程;然而,其它实施例可以例如根据具体的最小等级或与最小阈值结合的具体的最小等级来应用自动选择准则。
更具体而言,示例性实施例选择两组项,称为锚(anchor)项。第一组锚项包括具有在前的目录内罕见名称的高似然率的项,而第二组锚项包括具有在后的此类名称的具有高似然率的项。在许多实例中,锚项是在给定名称之前或之后的同位语短语或从句中的名词。该示例性实施例还把彼此同义的小写字母项编组。例如,诸如″laywer″、″counsel″和″prosecutor″之类的项均视为是与″attorney″同义,且因此将它们编组在一起以形成单个锚项,从而减少在块260生成的规则表达式或描述符的数目。
块260需要自动地生成与职业中的全体成员有关的职业描述符模式(或表达式)。示例性的描述符表示由目录内罕见名称和所选定的锚项来划界的语料库片段中的语法模式。
该示例性实施例用下列方式生成所述模式。对于由锚项和罕见的名称来划界的每个语句片段,该示例性实施例通过按空格符和逗号把片段分解成单独的单字并继而根据它在英语词典(lexicon)中通常最相关的词类来对每个单字进行规范化,从而得出一般化的模式(或结构)。把词典外的单字定为″其它″类型,而把动词″to be″的形式定为″is″类型,以便把它们与其它动词中区分开。把除了逗号之外的标点符号定为″其它″类型。该示例性实施例使用了公众可获得的约为90,000个单词的英文词典,每个单词都与一种或多种词类相关联,每个单词是按照语料库内的频率顺序列出的。在表3中示出了描述性模式的示例性词汇表。

表3描述性模式的示例性词汇表接下来,该示例性实施例创建唯一的模式的合并列表,并且计算在语料库中多长时间对每一个重复一次。然后,根据它们的出现计数来对这些模式进行排序,并且丢弃奇异模式。接着,把其余模式视作为表示给定职业中的全体成员。
插入框260’示出示例性的模式结构包括名称结构261、语法结构262、锚项结构263以及相对位置数据264和265。名称结构261是名称在片段中的占位符(placeholder)。语法结构262包括标点、词类部分标识符和可表示名称与锚项结构263之间任何现有语法结构模式的相关联的位置信息。锚项结构263代表并包括一个或多个锚项。
相对位置数据264和265分别表明名称结构261与语法结构262的相对位置以及语法结构262与锚项263。虽然该示例性实施例依据模式结构内数据的顺序而隐式地实现了相对位置数据,但是其它实施例显式地标注了诸如像″在...之前″或″在...之后″的相对位置。一些实施例省略了名称结构和/或介于中间的语法结构,并且根据锚项与隐式名称结构之间的单词或字符间距来定义模式。
在下列表中示出了用于从新闻文章的语料库中识别代理人的描述职业的模式的例子。还示出了利用这些模式而从文档中提取出的相应的语句片段。

表4描述代理人的模式和语句片段的示例实际上,该示例性实施例把罕见或较少的有歧义的名称用作为虚拟标记,以便识别或滤出一组示例性的语句片段,这些语句片段包含命名的职业的说明并且可以用作为定义符合语法的描述性模式的基础。一般说来,与检查人名周围的语句片段相比,罕见性过滤器用来更加有效地识别好的范例。这些模式然后就被用来帮助在链接模块1272中自动生成超链接。
B.链接模块结构与操作总体上讲,链接模块1272(在图1中)接收诸如文档110之类的输入文档,并且根据由描述符模块1271定义的职业名称描述符结构,来把该输入文档中的一个或多个名称超链接到一个或多个职业目录。
图3示出了嵌入在链接模块1272中的示例性方法的流程图300。流程图300包括过程块310-370。
在块310接着执行该示例性方法,这需要从输入文档数据库110那里接收诸如文档112之类的文档。在一些实施例中,链接模块1272在由文档处理软件127发启的一个或多个会话的环境中执行,并且输入文档表示由文档处理程序中活动处理窗口内的文档的一个或多个选定部分或文档处理软件寄宿(hosting)的全部文档。然而,在其它实施例中,从文档处理程序中的当前活动的处理窗口中接收或检索文档或文档部分。在其它的实施例中,链接模块是与耦合于诸如工作站之类的主计算机系统的一个或多个数据库进行交互的独立应用。在块320继续执行。
在块320中,链接模块使用普通的标记来给输入文档中的每一个人、地点和机构名称加标记或标识。该示例性实施例与描述符模块中使用的标记相同。在该示例性实施例中,标记名称还需要解决对输入文档内的相同名称的明显的共同引用。
为此,示例性实施例利用一组名称比较规则来把文档内的引用一起链接到相同个名称。这些链接称为文档内共同引用链或名称链。在加标记过程期间,将每个最新发现的名称的姓与那些已经发现的名称的姓进行比较。如果未发现匹配,则就把最新发现的名称当作为文档中的唯一名称。如果最新发现的姓与现有的姓相匹配,则将与该最新发现的姓配套的名字同与匹配的姓配套的名字相比较。如果名字相匹配或者是相似的,则假定这些名称是相同的。如果名字与任何匹配的姓的名字都不相似,则认为该名称在文档中是唯一的。如果最新发现的名称无明显相关联的名字,那么把该名称当作为是对最近发现的具有相同姓的名称的引用。其它实施例可以使用其它技术来解决文档内的共同引用。
在块330中,链接模块确定一个或多个加标记的名称链的哪一个很可能与一个或多个职业目录相关联。在该示例性实施例中,这需要应用描述符模块1271所生成的一个或多个描述职业的模式。在应用描述性模式的过程中,该示例性实施例试图将对应给定职业的每一个描述性模式匹配或映射到输入文档中每次出现加标记的名称的周围的文本。如果描述性模式成功地映射到名称的出现,则把该名称(及其文档内的共同引用)认定为候选职业者,并将其添加到给定类型的候选职业的列表中。(其它实施例把文档的规则结构或线索特征用作为关于文档中的名称性质的进一步证据。例如,司法意见(判例法)、包括可用来识别和/或区分代理人和法官的案件标题、法律顾问短语、赞同意见和日期。)将候选名称链的列表转发出去,以供在块340中作进一步处理。
块340需要根据候选职业的加标记的名称链和来自文档的相关的共同出现的文本或其它信息,来定义一个或多个名称模板或其它的数据结构。在示例性实施例中,定义名称模板需要为每个加标记的名称链形成文档中的语句的集合,包含该链中的名称,并且形成文档中的段落的集合,包含该链中的名称。在一些实施例中,语句和段落的集合是表示语句和段落的起始和/或结尾的文档位置指示符。
在形成语句和段落集合之后,链接模块为每个名称链定义模板,其中每个模板都具有示例性的名称模板340’的形式。名称模板340’包括名称记录341、描述符数据记录342、位置数据记录343、机构记录344和名称唯一性(或罕见性)记录345。
名称记录341包括名字字段(第一字段)、中间名称字段(中间字段)、姓字段(最后字段)以及后缀字段(后缀)。其它实施例包括其它名称相关的数据,比如来自于查找表或常见备选缀字的别名。并且还有其它一些实施例排除了示例性实施例中所用的一个或多个字段,比如像后缀。
描述符数据记录342包括一个或多个描述符字段,比如像D1、D2、D3、...Dn。在该示例性实施例中,每个描述符字段都包括利用描述符模块1271为给定的职业生成的一个或多个描述职业的模式而从输入文档中提取的语句片段。对于在多处重复或共同引用一个名称的文档,将描述符结构应用于名称的每次出现以集合成描述符字段组。一些实施例甚至可以将描述符模式应用于对给定名称的代词引用。(在其它实施例中,描述符还包括共同出现在某个的名称间距内的动词。)对这些模式的应用需要使每个模式的名称部分与语句集合中的名称一致,并且判断该语句的邻近部分(片段)的语法是否与该模式的语法相符。如果相符的话,示例性的链接模块把相应语句片段的一个或多个部分(比如,锚项)拷贝到描述符数据记录342的相应的描述符字段中。
位置数据记录343包括相同语句的字段和相同段落的字段。相同语句字段包括子字段LS1、LS2、...、LSj,其中,每个LS子字段包括共同出现在语句中的所在地名称,该语句具有对名称数据记录341中的名称的引用。相同段落字段包括子字段LP1、LP2、...、LPk。每个LP子字段都包括共同出现在段落中的位置名称,该段落包含对数据记录341中的名称的引用。在示例性实施例中,构建这个记录需要为给定的名称搜索在语句和段落集合中的所在地,并将找到的所在地拷贝到各个子字段中。
机构数据记录344包括相同语句的字段和相同段落的字段。相同语句字段包括子字段OS1、OS2、...、OSj,其中每个子字段都包括共同出现在语句中的机构,该语句具有对名称数据记录341中的名称的引用。相同段落字段包括子字段OP1、OP2、...、OPk。每个OP子字段都包括共同出现在段落中的机构,该段落包含对数据记录341中的名称的引用。
在该示例性实施例中,把一个语句理解成包括语法以及印刷上的语句,而一个段落包括由标点或其它信令设备或技术从一个或多个语句的另一组上划界或隔开的一个或多个语句的任意组。同样,在该示例性实施例中,相同语句和相同段落的所在地和机构不必互相排斥。也就是说,如果在出现名称的语句中出现一项,则该项同样出现在包含该语句的相同段落之内。然而,在其它实施例中,可以将相同语句和相同段落的所在地定义成是互相排斥的。
尽管示例性实施例通过相同字段和相同段落字段的结构来为所在地和机构提供了隐式的位置信息,但是其它实施例可以运用其它技术来并入与名称模板中的给定名称有关的位置信息。例如,一些实施例使用字符、单词、语句、段落或自该名称开始的页面偏移量,或者更确切地说是一次给定名称的出现。其它实施例将位置信息提供成二进制代码组或标志组,其中每个标志都表明逻辑上相关联或相对应的所在地或机构是否与其相关联的名称一起出现在语句或段落内。还有其它实施例提供了表明该地点在与名称有关的确定的文本窗口或文档区域之内还是之外的标志。而其它实施例还为每个机构或地点提供了相对的文档位置或绝对的文档位置。
名称唯一性(或罕见性)记录345包括分数字段,该字段包含其相关联的名称的唯一性或罕见性的指示符。在该示例性实施例中,这个指示符是用数字表示的量,它表示一个名称匹配从特定目录中取出的候选记录的先验概率。更具体而言,该示例性实施例将该量定义成名称唯一性的概率,并利用如下等式来计算它P(nameUniqueness)=1/((H’·P(name))+1) (9)
其中H’表示描述符匹配所表示的职业类别的大小,并且P(name)定义为P(name)=P(first name)·P(second name)(10)其中P(first name)表示从表示总人口的名称列表中的所有名字当中随机取出该名字的概率,而P(second name)也表示从表示总人口的名称列表中的所有姓当中随机取出该姓的概率。
尽管该示例性实施例为多种类型的职业使用了诸如名称模板340’之类的模板,但是一些实施例也可以省略或添加其它的模板特征。例如,用于法官的模板可以省略单独的所在地信息,因为诸如法院名称之类的机构信息隐式地包含了所在地信息。其它实施例可以完全省略掉信息,而不是仅仅省略掉它的显式形式。
块350,在于块340中定义名称模板之后执行,该块从一个或多个职业目录130中检索一组候选目录条目。为此,该示例性实施例搜索具有相同姓的目录条目以作为其中一个候选的职业名称。然后,它为这些候选目录条目检索全名、称谓、机构、所在地和条目标识信息,以供在块360中作进一步处理。
块360需要比较每个名称模板与一个或多个检索出的候选记录或数据结构的相似性并且给出分数。在该示例性实施例中,这需要运用一个或多个贝叶斯推理系统,比如像图4中所示的一个。
图4示出了示例性的推理系统400,该推理系统包括输入名称模板410和输入候选记录420,以及一个或多个贝叶斯推理引擎,比如贝叶斯推理引擎430。
输入名称模板410包括名称数据411、描述符数据412、所在地数据413、机构数据414和名称唯一性数据415。输入候选记录420包括名称数据421、称谓数据422、所在地数据423、机构数据424和记录标识数据425。
推理引擎430包括证据比较模块431-434和计算模块435。比较模块431-434包括各个数据和逻辑规则结构,它们定义各种比较状态和相关联的概率。在该示例性实施例中,每个推理引擎被制定成适合于特定的职业目录或其它数据库。同样,该示例性实施例使用具有配置选择的可重新配置的软件模块来实现用来定义比较逻辑和计算的每个引擎。然而,其它实施例可以运用完全不同的推理引擎结构。
每个比较模块通常都包括表明将候选数据项与各个输入数据项进行比较的可能结果的两个或多个互斥状态。每个状态都与用于该状态的特定比较逻辑和条件概率相关联,假设候选记录与输入名称模板相匹配,并且假定候选记录与输入名称模板不匹配。(一些实施例包括多组状态、逻辑和条件概率,其中的每一组都与特定的职业目录或职业相关联)。示例性状态包括确切匹配、强模糊匹配、弱模糊匹配、未知的(或未规定的)匹配以及失配。
当数据项或元素确切地匹配时,发生确切匹配。当元素达不到确切匹配然而却是强相容的,则发生强模糊匹配。当元素达不到确切匹配然而却是弱相容的,则发生弱模糊匹配。当不存在足够的信息来确定数据是匹配还是失配时,发生未知的匹配。而当这些项不具有任何相容性时,发生失配。
更确切地说,该示例性实施例为每个证据比较模块定义这些状态中的每一种状态,如下比较模块431具有三种状态确切匹配(EX)状态;强模糊(SF)状态;和弱模糊(WF)状态。为了要发生确切匹配,提取出的名称的所有成分都必须确切地是那些候选记录。例如,Abraham Lincoln确切地匹配Abraham Lincoln,而不是AbeLincoln、Abraham Lincoln、Jr.、或Abraham S.Lincoln。对于强模糊匹配来讲,加标记的文档中的名字和姓必须匹配记录中的名字和姓,而该记录中的所有其它成分都是未规定的或空白的。因此,AbrahamLincoln与Abraham Lincoln、Jr.及Abraham S.Lincoln是一种强模糊匹配。对于弱模糊匹配来讲,只有姓匹配,而所有其它的成分都是未规定的或是具有诸如别名之类的变体形式。因此,AbrahamLincoln对于Abe Lincoln来说是一种弱模糊匹配。(尽管未在图中示出,但是比较模块431典型地包括或有权访问名称和常见别名或变体的数据库,当名称比较显示未确切地匹配所述那些名字时,它就访问该数据库。然而,其它实施例可以把这类别名归入到名称模板本身当中,或者甚至可以完全忽略对别名的考虑。)比较模块432包括四种状态确切匹配(EX)状态、强模糊(SF)状态、弱模糊(WF)状态和不匹配(NO)状态。在充分规定的描述符的所有元素都匹配的情况下,发生确切匹配。例如,描述符″U.S.Supreme Court Justice(美国最高法院大法官)″确切地匹配称谓″U.S.Supreme Court Justice″。在描述符的一些元素而非全部元素和称谓匹配的情况下,发生强模糊匹配。例如,描述符″Supreme CourtJustice″对于称谓″U.S.Supreme Court Justice″来说是一种强模糊匹配。当描述符识别与目录所涵盖的职业相一致的通用职业时,发生未知状态。例如,如果描述符是″Judge(法官)″,而目录条目中的称谓是″″U.S.8th Circuit Court judge(美国第八巡回法院法官))″,那么就认为该匹配是未知的或未规定的。当描述符与记录中的具体描述相冲突或不一致时,发生失配或″不匹配″状态。例如,如果描述符是New York District judge(纽约地区法官)而目录条目中的称谓是″U.S.8th Circuit Court judge″,那么匹配状态就是失配的。
用于比较所在地证据的比较模块433具有五种匹配状态确切匹配(EX)状态、强模糊(SF)状态、弱模糊(WF)状态、未知的或未规定的(UN)状态和不匹配(NO)状态。当在文档内显式链接于所提取的名称的城市和州所在地证据与目录记录的城市和州匹配的情况下,发生确切匹配。例如,当该所在地共同出现在相同语句中时发生显式链接。当出现在具有所提取的名称的相同段落中的城市或州匹配候选目录中相应的城市或州时,发生强模糊匹配。当出现在相同文档中但位于所提取的名称的相同段落之外的城市或州匹配列在目录条目中的城市或州时,发生弱模糊匹配。当提取的名称未显式链接于特定城市或州并且文本中的任一所在地都不匹配候选记录中的城市或州信息时,发生未知的或未规定的状态。当所提取的名称显式链接于不匹配候选记录中的城市或州信息的城市或州名称时,发生失配。
用于比较机构数据的比较模块434具有五种状态确切匹配(EX)状态、强模糊(SF)状态、弱模糊(WF)状态、未知的或未规定的(UN)状态和不匹配(NO)状态。当所提取的名称显式地链接于文本中的特定机构并且那个机构匹配候选记录中的机构时,发生确切匹配。例如,当所在地共同出现在相同语句中时,发生显式链接。例如,如果文本把代理人描述成在Smith&Jones事务所工作并且目录条目将Smith&Jones列为相关的法律事务所或其它机构,则存在确切匹配。如果所提取的名称像所提取的机构那样出现在相同段落中,并且如果所提取的机构匹配候选记录中的机构,则发生强模糊匹配。如果所提取的名称出现在相同文档但在段落之外,并且如果所提取的机构匹配候选的机构,则发生弱模糊匹配。当所提取的名称未显式地链接于特定机构并且文本中的任一机构名称都不匹配候选记录中的机构信息时,发生未知的匹配。而当所提取的名称显式地链接于机构名称并且那个机构名称不匹配候选记录中的机构名称时,发生失配。
下表概括了对应示例性贝叶斯推理引擎中的每个证据比较模块的各种实际状态。

证据比较模块431-434实施它们各自的比较,并以八个条件概率的形式向计算模块435输出它们的结果。
计算模块435根据这些条件概率以及唯一性或名称罕见性数据,为输入名称模板计算相似性分数或匹配概率。示例性的计算使用贝叶斯规则的下列形式P(M|E)=P(M)Πi=14P(Ei|M)P(M)Πi=14P(Ei|M)+P(-M)Πi=14P(Ei|M)---(11)]]>其中P(M|E)表示一个模板在假定一组确定的证据的情况下匹配候选记录的概率,所述证据比如像一个输入名称模板和一个候选记录。P(M)表示模板和传记记录匹配(即,是指相同人)的先验概率,而P(-M)表示模板和传记不相配的先验概率。该示例性实施例将P(M)定义成职业人口内的名称唯一性或名称罕见性的概率,而将P(-M)定义为P(-M)=1-P(M) (12)P(Ei|M)是在假定假定输入名称模板匹配候选记录的情况下Ei呈现特定状态的条件概率。例如,如果E3表示所在地匹配证据,那么P(E3|M)就表示在假定一个名称模板和候选记录匹配的情况下,名称模板中的所在地信息和候选记录具有由比较模块433确定的匹配状态(确切匹配、强模糊匹配、弱模糊匹配、未知的匹配、或不匹配)的概率。P(Ei|﹁M)表示假定名称模板不匹配职业目录中的任何记录时,Ei呈现特定状态的条件概率。例如,P(E3|﹁M)表示假定模板与候选记录不匹配时,人员模板中的所在地信息与候选记录相匹配的概率。(其它实施例包括更少或更多数量的状态以及其它类型的共同出现的信息)。
每个候选记录-名称-模板的比较的分数都是与候选记录的候选记录识别424相关联。在图4中,这种关联用分数440和候选记录识别425之间的点划线来表示。在图3中,在块370继续执行。
在块370中,链接模块根据比较分数来把输入文档中已加标记的一个或多个职业名称链接到一个或多个候选的职业目录上。在该示例性实施例中,这需要执行插图370’中所示的过程块371-375。
块371为特定的名称模板从候选记录之中选择最佳的候选记录。具体地说,这需要选择具有最高比较分数的候选记录。如果没有任何一个具有最高分数的候选记录的话,那么该示例性实施例就前进至块372,而不为名称模板选择候选记录。然而,其它实施例可以使用线路中断器(tie breaker)的某种形式(例如,以编年史为基础线路中断器),或者利用减轻在链接准确度方面的不确定性的消息来构建到每个最高等级的候选记录的链接,或者构造一个用于向用户展示最高等级候选记录的菜单的链接。
块372判断所选的候选记录是否符合其它准则。为此,该示例性实施例判断所选的候选记录的分数是否满足给定的阈值准则,比如,大于或等于0.05。然而,其它实施例使用诸如与包括候选记录的职业目录之间具有商业的或按年代先后的关系之类的附加准则。如果候选记录满足链接准则的话,则在块373继续执行。
块373需要构造一个能把在输入文档考虑内的名称的至少一次出现链接到寄宿候选记录的职业目录中的条目的超链接。在该示例性实施例中,这包括标记文档中名称的所有出现,并把一个标识候选记录的URL(统一资源定位符)嵌入到该文档中。(在一些实施例中,把输入文档的候选引用标识和文档标识号码写入到索引中,所述索引可用于方便基于名称的搜索以及在职业目录与文档数据库之间的进一步的文档链接。)所述标记过程可以采取多种形式,比如像,相对于文档中其它文本的字形改变。其它实施例可以插入一个引用职业目录而不是引用该目录中特定记录的超链接。其它模板包括字符偏移量信息,供在给定的语句、段落或文档内的正确点上放置超链接的过程中使用。还有其它实施例可以根据一个或多个中间目的地来定义超链接以实现想要的链接,所述中间目的地被转发或者路由到目录或目录记录上。
在块373中构造链接之后(或在块372中判定链接准则不被满足之后),执行前进至块374。块374判断输入文档是否包含用于可能的链接的另一个名称。肯定的判断让执行返回到块371,以便为另一个名称模板选择候选记录,而否定的判断则将执行分支到块375。块375让执行返回到块310,以接收另一篇输入文档,供进一步处理。
C.训练模块结构与操作图5示出了流程图500,它举例说明了用于定义图4的贝叶斯推理引擎中所使用的条件概率的训练模块1273的示例性的结构与操作。流程图500包括过程块510-560。
在块510,执行首先开始接收一组具有加标记的名称的训练文档,所述加标记的名称对于匹配职业目录中的名称而言都是公知的。在该示例性实施例中,人工地给训练文档加标记;然而,在其它实施例中,可以自动地给这些文档加标记。可以把训练文档保存在当地或远程数据库中,并且经由各种传送技术而传递给训练模块。
块520需要根据该加标记的名称来从训练文档中提取数据。为此,该示例性实施例利用来自链接模块1272的提取模块来为每个加标记的名称生成名称模板,其中每个模板都包括所提取的名称、所提取的描述符文本、所提取的所在地列表、所提取的机构列表。该名称模板的结构类似于图3中的名称模板340’的结构。
块530需要根据训练数据结构中的名称来搜索一个或多个职业目录。在该示例性实施例中,这需要搜索一个或多个职业目录,并检索具有与名该称模板中的姓相匹配的姓的目录条目以供进一步处理。
块540需要为每个证据变量的每个状态确定条件概率。在该示例性实施例中,这一确定过程需要根据人工标记的文档组的名称模板来为每个比较状态确定频率计数。具体地说,对于已经人工地将加标记的名称匹配到候选记录的情况下,该实施例计算对每个证据变量而言发生每种特定证据状态的次数,所述证据变量是名称、描述符、所在地和机构。然后,该实施例用对每个证据状态的计数值除匹配的总次数以获得P(Ei|M),即在给定一次匹配的情况下,对于每个状态的条件概率值。更确切地说,该示例性实施例利用一个公式来确定条件概率,该公式如下P(Ei=特定状态|M)=a·y/z+(1-a)/x (13)其中x表示对应证据变量Ei的证据状态的数目;比如,名称的三种状态;y表示目录记录的数目,其中对于所述目录记录发生特定的状态,例如出现确切匹配;z表示代理人匹配对的总数;a是平滑常数,比如0.999999。
同样,该示例性实施例计算当候选名称与模板名称不匹配时每个证据状态发生的次数,并且除以总失配数以得出对应每个状态的P(Ei|﹁-M),即给定在名称上的失配的情况下,特定证据状态匹配的概率。为了减少计算量,一些实施例可以例如通过每十条记录选择一条记录的方式,来对匹配和/或失配的候选记录进行采样。
其它应用图6示出了对本发明具有除方便对名称的超链接的生成以外的应用的教导。具体来讲,图6示出了体现本发明的教导的操作数据检索系统的示例性方法的流程图600。流程图600包括过程块610-670。
在块610中,该示例性方法从接收对信息的查询开始。在该示例性实施例中,所述查询具有布尔形式或自然语言形式,并且包括实体的名称,比如像人员的名称。在一些实施例中,在客户-服务器环境中,由诸如图1中的其中一个访问设备150这类的客户端计算机或访问设备的用户,向诸如图1中的数据库服务器140这类的服务器提供所述查询。在这些情况下,将该示例性方法并入到服务器上的软件中。然而,在其它实施例中,可以在发送到服务器以待执行以前,(根据该示例性方法)先在客户端一方上接收并处理所述查询。在这种情况下,可以将该示例性方法并入到浏览器、浏览器外接式附件、客户端一方的操作系统或搜索软件中。
块620需要判断该查询或在该查询中的一个或多个项的歧义性。在该示例性实施例中,这需要识别该查询中的至少一个名称并根据如下等式来计算名称唯一性的概率P(nameUniqueness)=1/((H·P(name))+1)(14)其中H表示可能作为该查询的目标的语料库或数据库中被引用的人类人口的估计大小。估计H的一种方式就是获得可能被引用的社区语料库的大小并按照某个百分率扩大其比例,以解决对所引用的社区之外的人的必然引用。将P(name)定义为P(name)=P(first name)·P(second name)(15)其中P(first name)表示从诸如职业目录之类的相关搜索领域中的所有名字当中随机取出该名字的概率,而P(second name)也表示从该领域中的所有姓当中随机取出该姓的概率。
块630根据该查询中已判定的名称(或其它部分)的歧义性,判断是否要请求附加信息来帮助答复所述查询。在该示例性实施例中,这需要将所计算出的名称唯一性的概率与阈值进行比较。如果名称唯一性的概率小于该阈值的话,执行前进至块640;否则继续在块660处执行。
块640需要获得关于查询的附加信息。在一个示例性实施例中,获得附加信息需要向用户请求与查询中一个或多个有歧义的部分相关的附加信息,比如查询中的名称。在一些实施例中,将该请求作为一个对话窗口展示出来,该对话窗口请求与该名称相关联的职业、所在地和/或机构相关的信息。
在另一个实施例,获得附加信息需要自动根据已接收到的查询的一个或多个有歧义的部分(比如,识别出的名称或名称的一部分)来将一个或多个查询公式化,并且针对一个或多个数据库执行查询,所述数据库例如是包括与其它数据相关联的名称的职业目录或其它数据库。例如,一个查询能够请求这样的记录或记录的部分,该记录具有这样的姓,这些姓与在所接收的查询中识别出的名称的姓相匹配。在一个实施例中,记录的部分包括所在地、机构和/或职业称谓信息。在获得附加信息之后,执行前进至块650。
块650需要根据附加信息来改变查询。在一个从用户那里请求附加信息的实施例中,改变查询包括将附加信息的一个或多个部分添加到该查询,例如,做为一个或多个追加的文本串。然而,其它的一些实施例通过添加搜索操作符(例如AND操作符)和附加信息的一个或多个部分来改变查询。在其它的实施例中,特别是通过运用自动子查询来获得附加信息的实施例中,改变查询包括添加一个或多个子查询,使用诸如在块650获得的城市、州、机构和职业称谓之类的附加信息。在其它的实施例中,改变查询包括例如根据附加信息通过添加或删除用于该查询的一个或多个目标数据库来改变搜索的范围。
块660根据初始查询或改变后的查询来进行搜索。在一个示例性实施例中,根据改变后的查询进行搜索需要针对初始目标数据库和/或一个或多个其它数据库执行该搜索。在块670继续执行。
块670需要输出这些查询的结果。在该示例性实施例中,这需要在显示器上输出结果。在一个根据附加信息通过添加子查询来改变接收到的查询的实施例中,输出结果包括在显示屏幕的独立区域中显示初始接收到的查询的结果和子查询的结果。在这个实施例的一些变形中,把两个区域中的结果分等级。
本发明的教导的其它应用包括根据著名的名称、政治人物、名人来为数据库生成新名称目录,填充当前目录中的空白处,识别或发现目录中的空白处。其它应用包括自动生成个体、企业、资产和公众的档案及前后对照,以及私人记录。
结论在本技术领域的推动过程中,发明人已经给出了各种不同的示例性系统、方法和软件,它们能方便文档或其它数据结构中的名称与诸如职业目录或其它类型的数据库中的记录之类的数据结构的逻辑关联性。另外,发明人已经给出了用于根据诸如实体名称这类有歧义的查询项来处理和补充查询的各种不同系统、方法和软件。
上面描述的实施例仅仅意在举例说明并讲授实践或实施本发明的一种或多种方式,而非限制其广度或范围。本发明涵盖实践或实施本发明的教导的所有方式的实际范围仅仅由下列权利要求及其等效物来加以限定。
权利要求
1.一种计算机实现的方法,包括识别文档中的名称;为所述名称确定罕见性指示符;以及根据所述罕见性指示符来为所述名称定义一个超链接。
2.如权利要求1所述的计算机实现的方法,其中所述名称是人名。
3.如权利要求1所述的计算机实现的方法,其中所述罕见性指示符是一个量,所述量基于从表示相关的人类人口的一组样本名称中随机取出所述名称的至少一部分的概率。
4.如权利要求1所述的计算机实现的方法,其中所述罕见性指示符是一个量,所述量基于人类人口的大小、随机取出所述名称的第一部分的概率和随机取出所述名称的第二部分的概率。
5.如权利要求1所述的计算机实现的方法,其中所述第一部分是所述名称的名字部分,而所述第二部分是所述名称的姓部分。
6.如权利要求1所述的计算机实现的方法,其中根据所述罕见性指示符为所述名称定义超链接包括从所述文档中识别出一个或多个非人名的项;根据所述名称的至少一部分来识别一个数据库中的一个或多个候选记录;将每个候选记录的非人名的项与来自所述文档的非人名的项进行比较;每次均根据人名的罕见性指示符以及其中一个候选记录的非人名的项的比较,来计算一个或多个量;以及根据所述的一个或多个计算出的量来定义所述超链接。
7.如权利要求6所述的计算机实现的方法,其中每次均根据所述人名的罕见性指示符以及其中一个候选记录的非人名的项的比较,来计算一个或多个量,包括使用贝叶斯推理引擎来计算。
8.如权利要求6所述的计算机实现的方法,其中根据所述的一个或多个计算出的量来定义所述超链接,包括将所述量与一个阈值进行比较;以及根据一个超过所述阈值的量中最大的一个来定义该超链接。
9.如权利要求8所述的计算机实现的方法,其中根据超过所述阈值的量中最大的一个来定义该超链接包括定义一个超链接以指定与所述量中最大的一个相对应的候选记录。
10.一种机器可读介质,包括用于执行权利要求1的计算机实现的方法的机器可执行指令。
11.一种机器可读介质,包括用于执行权利要求9的计算机实现的方法的机器可执行指令。
12.一种用于把超链接添加到一个包含人名的文档的系统,所述系统包括至少一个处理器;耦合于所述处理器的存储器,所述存储器包括用于执行下列操作的指令识别一个文档中的名称;为所述名称确定一个罕见性指示符;以及根据该罕见性指示符来为所述名称定义一个超链接。
13.如权利要求12所述的系统,其中所述名称是人名。
14.如权利要求12所述的系统,其中所述罕见性指示符是一个量,所述量基于从表示相关的人类人口的一组样本名称中随机取出所述名称的至少一部分的概率。
15.如权利要求12所述的系统,其中所述罕见性指示符是一个量,所述量基于人类人口的大小、从表示相关的人类人口的一组样本名称当中随机取出所述名称的第一部分的概率和随机取出所述名称的第二部分的概率。
16.如权利要求12所述的系统,其中根据所述罕见性指示符来为所述名称定义一个超链接包括从该文档中识别出一个或多个非人名的项;根据所述名称的至少一部分来识别一个数据库中的一个或多个候选记录;将每个候选记录的非人名的项与来自该文档的非人名的项进行比较;每次均根据所述人名的罕见性指示符以及其中一个候选记录的非人名的项的比较,来计算一个或多个量;以及根据所述的一个或多个计算出的数量来定义所述超链接。
17.一种计算机实现的方法,包括识别一个或多个文档组中的一个或多个人名,其中每个识别出的人名比所述文档中的其它人名在一种职业中更可能指代专一的人;根据识别出的名称来从一个或多个文档中识别描述性语言;以及根据识别出的描述性语言的一个或多个部分,来在一个或多个文档内识别指代所述职业中的人员的其它人名。
18.如权利要求17所述的计算机实现的方法,其中识别一组文档中的人名包括识别所述文档组中的多个人名,其中每个名称均至少包括姓;为多个人名中的每一个计算一个基于从搜索领域中的一组姓中随机取出其姓的概率的量。
19.如权利要求17所述的计算机实现的方法,其中为多个人名中的每一个计算一个基于从一组姓中随机取出其姓的概率的量包括计算一个量,所述量基于人类人口的大小、从相关的搜索领域中的所有名字当中随机取出所述名称的第一部分的概率、以及从搜索领域中的所有姓当中随机取出所述名称的第二部分的概率。
20.如权利要求17所述的计算机实现的方法,其中根据已识别出的名称来从一个或多个文档中识别出描述性语言,包括识别与已识别出的名称相关的同位语。
21.如权利要求17所述的计算机实现的方法,其中根据所述文档组中已识别出的名称来从一个或多个文档中识别出描述性语言,包括识别一组项,包括在一个或多个已识别出的名称之前的一个或多个第一项,以及在一个或多个已识别出的名称之后的一个或多个第二项。
22.如权利要求17所述的计算机实现的方法,其中所述的一个或多个第一项包括一个或多个词类,而一个或多个第二项包括一个或多个词类。
23.一种机器可读介质,包括用于执行权利要求16的计算机实现的方法的机器可执行指令。
24.一种系统,包括至少一个处理器;耦合于所述处理器的存储器,所述存储器包括用于执行下列操作的指令识别一个或多个文档组中的一个或多个人名,其中每个识别出的人名都比所述文档中的其它人名在一种职业中更可能指代专一的人;根据识别出的名称来从一个或多个文档中识别出描述性语言;以及根据识别出的描述性语言的一个或多个部分,来在一个或多个文档内识别出指代所述职业中的人的其它人名,而不考虑他们的名称唯一性。
25.一种数据结构,包括名称;和名称罕见性指示符,所述罕见性指示符表明所述名称指代人口当中的一个以上的实体的可能程度。
26.如权利要求25所述的数据结构,进一步包括与所述名称共同存在于一个文档中的一个或多个机构;和与所述名称共同存在于一个文档中的一个或多个所在地。
27.如权利要求2所述的数据结构,进一步包括位置信息,所述位置信息表明每个机构和每个所在地相对于所述名称的相对位置。
28.一种计算机实现的方法,包括接收一次包含一个实体的名称的搜索查询;确定所述名称在人口中罕见程度的度量;以及响应于所确定的度量,来获得附加信息以帮助答复所述查询。
29.如权利要求28所述的计算机实现的方法,其中响应于所确定的度量来获得附加信息以帮助答复所述查询,包括将所述度量与一个阈值进行比较;以及如果所述度量小于所述阈值,则请求附加信息。
30.如权利要求28所述的计算机实现的方法,进一步包括根据所述附加信息来更新所述搜索查询。
31.如权利要求28所述的计算机实现的方法,其中请求附加信息包括请求与职业、所在地、和/或机构有关的信息。
32.如权利要求28所述的计算机实现的方法,其中响应于所确定的度量来获得附加信息以帮助答复所述查询包括将所述度量与一个阈值进行比较;以及根据所述名称来搜索一个或多个数据库;根据搜索所述的一个或多个数据库的结果来更新或补充所述查询。
33.如权利要求28所述的计算机实现的方法,其中更新或补充所述查询包括定义一个或多个子查询,每个子查询都包括关于与所述名称相关联的职业称谓、机构或所在地的信息。
34.一种计算机实现的方法,包括确定一个名称在人口中的罕见性。
35.如权利要求34所述的计算机实现的方法,进一步包括将一个超链接与所述名称关联起来,其中所述超链接的至少一部分是根据所确定的罕见性来定义的。
36.如权利要求34所述的计算机实现的方法,进一步包括接收一个包括所述名称的至少一次出现的文档;以及在确定所述名称的罕见性以前,识别文档中的所述名称。
37.如权利要求34所述的计算机实现的方法,其中所述名称是人名。
38.一种系统,包括用于确定一个名称在人口中的罕见性的装置。
39.如权利要求38所述的系统,进一步包括用于将一个超链接与所述名称关联起来的装置,其中所述超链接的至少一部分是根据所确定的罕见性来定义的。
全文摘要
人们已经变得更加希望能根据文档中的人的名称来把文档超链接或关联到其它文档。尽管存在把这类超链接安装到司法意见中的自动化系统,但是所述系统通常既不适用于其它类型的名称和文档,也不非常适合于为可能指代两个或多个起同样名称的人的名称确定超链接。因此,发明人设计了能在不考虑类型的情况下方便超链接文档中的名称的系统、方法和软件。一个示例性的系统包括描述符模块和链接模块。描述符模块开发了用于选择共同出现的文档信息的描述性模式,所述文档信息在识别名称与职业类别之间的关联过程中很有用。链接模块给输入文档中的名称加标记,利用描述性模式来提取共同出现的信息,并且运用了贝叶斯推理网络,所述贝斯推理网络能连同名称及所选的共同出现的文档信息一起用来为每个名称处理(非反向文档频率)的名称罕见性分数,以确定到其它文档的适当超链接,诸如职业目录中的条目。
文档编号G06F12/00GK1623146SQ02828266
公开日2005年6月1日 申请日期2002年12月20日 优先权日2001年12月21日
发明者克里斯多佛·C·多齐尔 申请人:Dba 西方集团西方出版社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1