专利名称:将文档与上下文广告相关联的系统和方法
技术领域:
本发明涉及用于将例如网站等文档与上下文广告相关联的系统和方法,尤其涉及将网站与付费列表以及其他形式的上下文广告相关联的系统和方法。
背景技术:
当处理例如因特网上的文档或网页的数据库等大量数据时,可用数据的量会使查找感兴趣的信息变得很困难。使用了各种搜索的方法试图在上述信息库(stores)中寻找相关信息。最公知的系统中的一些是因特网搜索引擎,例如Yahoo(商标)和Google(商标),所述因特网搜索引擎允许用户进行基于关键词的搜索。上述搜索典型地包括将用户输入的关键词与网页的索引中的关键词匹配。
对搜索引擎来说公知的是通过向广告商出售特定的关键词来获得收入。上述广告商为例如“银行”等普通的搜索项付费,当在查询中输入该词时,他们的广告就会显示给用户。
然而,如果关键词“银行”的广告商是金融机构,那么甚至对于单词“bank”的其他含义,例如“使飞机倾斜转弯”,他们的广告也会出现。一些广告商购买了例如“银行账户”等关键词序列以更好地为他们的广告瞄准目标。然而,上述序列将会匹配更少的结果,以致对于“银行贷款”的查询将不会匹配“银行账户”。
迫切需要一种解决现有技术缺陷的方法和系统。
发明内容
根据本发明的一个方面,提供了一种向广告搜索引擎用户提供广告的方法,其包括以下步骤消除付费搜索关键词的歧义并且将其存储在付费搜索关键词义数据库中,消除来自用户之一的查询的歧义,在语义上扩展该关键词或该查询,搜索付费搜索关键词义数据库以寻找与在查询中使用该关键词义的查询相关的广告,并且返回广告结果,所述广告结果包括所述付费搜索关键词与该查询关键词义以及在语义上与该关键词义相关的其他词义相匹配的广告。
本方法可以应用于任何使用关键词做索引的数据库。优选地,本方法被用于因特网的搜索。
语义关系可以是两个单词之间的任何逻辑地或依照句法地定义的关系类型。上述关系的实例是同义词、下义词等。
消除查询歧义的步骤可以包括为词义指定概率。
在所述方法中使用的关键词义可以是词义的精细划分的粗略的分组。
为付费搜索关键词消除歧义的步骤可以由广告商直接地进行。可选地,为付费搜索关键词消除歧义的步骤可以通过使用有关广告商的上下文信息而自动或半自动地进行,例如广告的文本、来自广告商的网站的信息或与广告商和/或广告相关的其他信息。
在另一个方面,提供了将用户指向一搜索引擎的查询的结果与和该搜索引擎相关的广告相关联的方法。该方法包括以下步骤获得与广告相关的广告关键词义;为该查询消除歧义以识别与该查询相关的查询关键词义;扩展该查询关键词义以为查询关键词义包括该查询关键词义的相关语义关系从而创建扩展的查询关键词义的列表;使用该扩展的关键词义来搜索该广告关键词义以定位与该查询相关联的相关广告;以及将相关的广告提供给用户。
在所述方法中,扩展查询关键词义的步骤可以包括利用查询关键词义的歧义消除。
在所述方法中,为查询消除歧义以识别查询关键词义可以包括为关键词义加上概率。
在所述方法中,关键词义可以表示精细关键词义的粗略分组。
在另一个方面,提供了将用户指向一搜索引擎的查询的结果与和该搜索引擎有关的广告相关联的系统。该系统包括包含与搜索引擎相关的广告的数据库;为广告创建参考索引的索引模块;将查询应用到搜索引擎的查询处理模块;以及为查询消除歧义以识别与查询相关联的关键词义的消除歧义模块。在该系统中,消除歧义模块将查询中的信息消除歧义成为关键词含义;并且查询处理模块扩展该查询键词义以包括所述关键词义的相关语义同义词从而创建扩展的关键词含义的列表,使用所述扩展的关键词含义开始参考索引的搜索来为查询寻找相关的广告;以及为用户提供相关的广告。
在该系统中,查询处理模块可以利用知识库中的词义之间的关系扩展关键词含义。
在该系统中,消除歧义模块可以为关键词义指定概率来排列关键词义。
在该系统中,关键词含义表示精细关键词含义的粗略分组。
在另一个方面,提供了用于为用作与因特网广告一起使用的匹配工具的网站定义一组词义的方法。该方法包括在网站中识别一组关键词;并且如果该组中的一个关键词有至少两个含义,那么访问知识库以便为该网站的关键词确定一组适当的词义;并且用该组适当的词义构成该组。
该方法还可以包括通过扩展和解释该组词义中的至少一个词义来扩展该组词义。
在该方法中,扩展该组词义可以利用与至少一个词义相关的语义关系来扩展该组。而且,解释可以利用从网站中所选择的单词的句法结构中衍生的语法上的从属术语。
在另一个方面,提供了用于为用作与网站一起使用的匹配工具的广告定义一组词义的方法。该方法包括识别广告中的一组关键词;并且如果该组中的一个关键词有至少两个含义访问知识库以便为广告中的关键词识别一组适当的词义;并且用该组适当词义填充该词义组;并且通过扩展并解释该组词义中的至少一个词义来扩展该组词义。
在其他方面提供了上述方面的集合和子集的各种组合。
借助下面的对本发明的特定实施例的描述和附图,本发明的上述和其他方面将会更加明显,所述特定实施例的描述和附图仅通过举例的方式阐述了本发明的主旨。在附图中,相同的元件使用相同的附图标记(并且其中单个元素带有唯一的字母后缀)。
图1是根据本发明一个实施例的广告搜索引擎的示意图;图2是根据图1的系统的词和词义的示意图;图3A是用于图1的系统的代表性的语义关系或单词的示意图;图3B是用来表示用于图1的系统的图3A的语义关系的数据结构图;以及图4是由图1的系统使用图2的词义以及图3A的语义关系由图1的广告搜索引擎执行的方法的示意图。
具体实施例方式
下面的描述和其中描述的实施例是通过对本发明的原理的特定实施例的一个或多个实例说明的方式来提供的。提供上述实例是为了解释的目的,而不是对那些原理以及本发明的限定。在以下的描述中,在整个说明书与附图中用相同的各个附图标记标注相同的部件。
在下面的描述中将使用下列术语,所述术语具有下面所示的含义计算机可读存储介质介质存储用于计算机的指令或数据的硬件。例如,磁盘、磁带、诸如CD ROM那样的光学可读介质、诸如PCMCIA卡那样的半导体存储器。在每一种情况下,该介质可以表现为例如小型磁盘、软盘、盒式磁带等便携式产品的形式,或可以表现为例如硬盘驱动器、固态存储器卡或RAM等相对大或不能移动的产品形式。
信息包括用户感兴趣的可搜索内容的文档、网页、电子邮件、图像描述、副本、存储的文本等,例如与新闻文章、新闻组消息、网络日志等相关的内容。
模块实现特定的步骤和/或过程的软件或硬件组件;可以在通用处理器上运行的软件中实现。
自然语言希望被人而不是机器或计算机理解的单词表达。
网络配置成通过使用特定协议在通信信道上进行通信的设备的互连系统。它可以是一个局域网、广域网,因特网或在通信线路上或通过无线传输工作的类似网络。
查询表示要求的搜索结果的一列关键词;可以使用布尔运算符(例如“与”、“或”);可以用自然语言表示。
查询模块处理查询的硬件或软件组件。
搜索引擎响应来自用户的查询来提供涉及该用户感兴趣的信息的搜索结果的硬件或软件组件。可以根据关联性排列和/或分类搜索结果。
广告搜索引擎一种通过响应查询显示有关的广告来创造收入的搜索引擎。
本实施例一般地涉及将搜索查询或信息与广告相关联的系统和方法。这对于在因特网中的网页和搜索查询非常有用。广告通常被第三方与网站或其他信息相关联。由于广告的显示被购买了,付费搜索列表是作为响应于查询中的一个或多个关键词而被显示的广告的上下文类型。上下文的广告的另一个形式包括基于具有与正在呈现给用户的上下文信息的可辨认的联系的广告,确定要显示给用户的广告的选择。通常,第二种形式具有与网页相关联的广告。如果用户点击了所显示的广告,该网页的所有者从广告的运营商得到酬金。例如,描述自助汽车修理的站点能够选择具有与网页上显示的替换汽车零件的销售相关的广告。
参照图1,与实施例相关的信息检索系统整体由数字10表示。该系统包括信息库12,可以经由网络14对信息库12进行访问。信息库12可以包括文档、网页、数据库等。优选地,网络14是因特网,信息库12包括网页。当网络14是因特网时,协议包括TCP/IP(传输控制协议/因特网协议)。各种客户端16通过在物理网络情况下的线路或者通过无线发射机和接收机连接到网络14。如本领域技术人员可以理解的,每个客户端16包括网络接口。网络14向客户端16提供信息库12中的内容的入口。为了使客户端16能够在信息库12中寻找特定的信息、文档、网页等,系统10被配置为允许客户端16通过提交查询来搜索信息。该查询包括至少一个关键词列表,而且还可以具有例如“AND”和“OR”等布尔关系形式的结构。该查询还可以被以自然语言构造成句子或问题。
该系统包括连接到网络14的广告搜索引擎20以从客户端16接收查询,以将所述查询导向信息库12中的单独的文档。广告搜索引擎20可以被实现为专用硬件或在通用处理器上运行的软件。所述搜索引擎运行以在信息库12中定位与来自客户端的查询相关的文档。搜索结果可以使用任何搜索方法生成。
信息库12还可以包括在信息库12中的广告内容18。优选地,广告内容18中的每个条目对应于适于用搜索结果显示的一个广告。该广告可以是文本的和/或图形的,而且可以包括到广告内容18中的相应条目的参考或超链接。广告商付费以便当广告商的广告内容与查询相关时,使他们的广告被广告搜索引擎20优先地显示。该广告可以在网络浏览器中在搜索结果旁边显示,或在搜索结果中在其他列表之前显示,或使该广告位于客户端的视野中的任何其他方式显示。
搜索引擎20通常包括处理器22。该引擎还可以被直接地或经由网络或其他某一通信方式间接地连接到显示器24、接口26和计算机可读存储介质28。处理器22连接到显示器24和接口26,该接口可以包括例如键盘、鼠标或其他合适的设备等用户输入设备。如果显示器24是对触摸敏感的,那么显示器24自身就可以用作接口26。计算机可读存储介质28连接到处理器22,向处理器22提供指令以指示和/或设定处理器22来实现与搜索引擎20的操作相关的步骤或算法,这将在下面进一步说明。计算机可读存储介质28的一部分或全部都可以在物理上被置于搜索引擎28之外以容纳例如非常大的存储量。本领域的技术人员可以理解在实施例中可以使用各种形式的搜索引擎。
可选地,为了更快的计算速度,搜索引擎20可以包括并行工作的多个处理器或任何其他的多处理器布置。上述多处理器的使用可以使搜索引擎20在多个处理器中划分任务。此外如本领域技术人员可以理解的,多处理器不需要在物理上位于同一个位置,而可以在地理上是分离的,并且经由网络互相连接。
优选地,搜索引擎20包括用于存储词义的索引以及由搜索引擎20使用的知识库的数据库30。如本领域技术人员可以理解的,数据库30存储结构化形式的索引以允许计算地有效存储和检索。可以通过添加附加关键词意义或将现存的关键词意义定位到附加文档而更新数据库30。数据库30还可以为确定哪个文档包括特定的关键词意义而提供检索能力。为了更高的效率,数据库30可以被分割并存储在多个位置。
根据一个实施例,广告搜索引擎20包括用于将查询中的付费关键词义处理到词义中的词义歧义消除模块32。词义是考虑到一个单词使用的上下文(context)及其相邻单词而赋予该单词的特定解释。一个广告可以具有一个或多个付费关键词义。例如,句子“为我预定到纽约的航班(Book me a flight to New York)”中的单词“book”是歧义的,因为“book”可以是一个名词或动词,该名词或动词的每一个都具有多个潜在的含义。付费关键词义是广告商选择的,并且可以由一个单词或多个单词或包含关键词的短语组成。如上所述,查询包括至少一个关键词,并且可以由布尔运算符或自然语言构成。歧义消除模块32对单词的处理结果是包括词义的已消除歧义文档或已消除歧义查询,而不是歧义的或未解释的词。输入文档可以是信息库中的任何信息单元或从客户端接收的查询之一。词义歧义消除模块32对文档或查询中的每个词在词义之间进行辨别。词义歧义消除模块32通过使用广泛的互连语言技术(interlinked linguistic technique)来确定单词的哪一个特定含义是所期望的含义以分析上下文中的语法(例如词性、语法关系)和语义(例如逻辑关系)。词义歧义消除模块32在执行歧义消除时,可以使用表示词义之间明确的语义关系的词义知识库来加以辅助。该知识库可以包括以下参照图3A和图3B所描述的关系。
搜索引擎20包括索引模块34,该索引模块用于处理一个已消除歧义的文档来创建关键词义的索引并在数据库30中存储该索引。所述索引包括用于与文档相关的每个关键词义的一个条目,在文档中可以找到该关键词义。该索引最好被分类并包括每一个已索引的关键词义的位置指示。索引模块34通过处理已消除歧义的文档并将每个关键词义添加到索引来创建该索引。某些关键词会出现太多次而无用和/或几乎不包含语义信息,诸如“a”或“the”。对这些关键词将不进行索引。
搜索引擎20还包括用于处理从客户端16接收到的查询的查询模块36。查询模块36被配置成接收查询并将它们转送到歧义消除模块32用于处理。因此如下面进一步阐述的,查询模块36在与已消除歧义的查询相关的索引中寻找结果。该结果包括在已消除歧义查询中与词义在语义上相关的关键词义。查询模块36向客户端提供结果。可以使用例如查询中和/或结果文档中的关键词意义的概率性,就相关性排列和/或分类所述结果,以帮助客户端解释它们。
广告搜索引擎20包括付费关键词义数据库38和广告模块40。付费关键词义数据库38包含对应于每个付费关键词义的关键词义。每个付费关键词义对应于广告内容18中的一个广告。因此,当在已消除歧义查询中找到对应于一个付费关键词义的关键词义时,由广告模块40将对应的广告显示给用户。
参照图2,单词和词义之间的关系由附图标记100整体地示出。如在该例子中看到的,某些词具有多个意义。在很多其他可能性中,单词“bank”可以表示(i)涉及金融机构的名词;(ii)涉及河岸的名词;或者(iii)涉及一种攒钱行为动词。词义歧义消除模块32将带有歧义的单词“bank”分成几个具有较轻歧义的词义用于存储在索引中。同样地,单词“interest”具有多个意思包括(i)表示涉及一种未偿还的投资或贷款的应支付的金钱数额的名词;(ii)表示给某事物特殊注意的名词;或者(iii)表示对某事物合法权利的名词。
参照图3A和图3B,这些语义关系是基于含义所精确定义的两个单词之间的关系类型。此关系是在词义之间的,即单词的特定含义。
尤其是在图3A中,例如,单词“bank”(取河岸的含义时)是一种地形而单词“bluff”(取意味着一种陆地构造(land formation)的名词时)也是一种地形。单词“bank”(取河岸的含义时)是一种斜坡(取地面坡度的含义)。单词“bank”取金融机构的含义时与“银行公司”或“银行中心(banking concern)”同义。单词“bank”还是一种金融机构,所述金融机构也是一种商业类型。根据通常所理解的银行在存款上支付利息并在贷款上收取利息的事实,单词“bank”(取金融机构的含义)涉及单词“interest”(取为投资支付的钱的含义)并且也涉及单词“loan”(取贷款的含义时)。
应当理解存在很多其他类型的可使用的语义关系。尽管在现有技术中已知,以下是一些单词之间的语义关系的实例处于同义词中的单词就是彼此同义的词。上义词是一种关系,其中一个词表示整个一类的特定例子。例如“运输工具”是用于包括“火车”、“战车(chariot)”、“狗拉的雪橇”和“汽车”的一类词的上义词,因为这些词提供该类别的特定例子。同时,下义词是一种关系,其中一个词是一类例子中的一个成员。根据之前的列表,“火车”是“运输工具”类别的下义词。局部词是一种关系,其中一个词是某事物的一个组成部分、一个成分(substance)或一个成员。例如,关于“腿”与“膝盖”之间的关系,“膝盖”是“腿”的局部词,因为膝盖是腿的一个组成部分。同时,整体词是一种关系,其中一个词是被称为一部分的局部词的全部。根据之前的例子,“腿”是“膝盖”的整体词。可以使用落入这些分类的任何语义关系。另外,可以使用任何公知的指出词义之间的特定语义和语法关系的语义关系。
已知当提供关键词的字符串作为查询时在解释上存在歧义,以及在查询中带有扩展的关键词列表增加了在搜索中找到的结果的数量。该实施例提供了一种系统和方法来为查询确定关联的、已消除歧义的关键词列表。提供这样一个按照词义所描绘的列表减少了检取到的无关信息的数量。该实施例扩展了查询语言而不会由于一个单词的附加含义而获得无关结果。例如,扩展单词“bank”的“金融机构”的含义不会同时扩展诸如“河岸”或“存钱”的其他含义。这允许信息管理软件更精确地确定客户正在查找的信息。
扩展查询包括使用下面步骤的一个或全部
1.向已消除歧义的查询关键词义添加与该已消除歧义的关键词义语义上相关的任何其他词和其相关含义。
2.通过解析查询的语法结构来解释该查询并将其转换成其他语义相等的查询。通过解析查询的语法结构来解释该查询并将其转换成其他语义相等的查询。索引包括为单词识别语法结构和语义等同物的字段。解释是一个公知的术语和概念。解释可以被应用到包括网站在内的任何文档中的单词上。
应当认识到在搜索中使用词义歧义消除解决了检取关联性的问题。此外,用户经常如同表达语言一样表达查询。然而,由于可以以多种不同的方式描述相同的含义,当用户不能以相关信息被最初分类的同一个特定方式表达一个查询时,他们会遭遇困难。
例如,如果用户正在查找有关岛屿“爪哇(Java)”的信息,并对在爪哇(岛屿)上的“假日(holidays)”感兴趣,那么用户就不会检取到已经通过使用关键词“爪哇(Java)”和“休假(vacation)”进行分类的有用的文档。应当认识到,根据实施例的语义扩展特性解决了这个问题。已经认识到在自然表达的查询中为每一个关键术语衍生精确的同义词和子概念(sub-concept)增加了关联性检取的容量。如果通过使用词表(thesaurus)来执行检取且不执行词义歧义消除就会恶化该结果。例如,语义上扩展单词“Java”而没有首先确定其精细含义将产生大规模且难于处理的结果集合,该集合带有潜在地基于不同的词义选定的结果,所述不同的词义例如为“印度尼西亚”和“计算机程序设计”。还将理解所描述的解释每一个单词的含义然后语义上扩展该含义的方法返回一个更全面同时具有更多目标的结果集合。
参照图3B,为了帮助消除这种词义的歧义,该实施例使用如以上对于图3A所描述的获得单词关系的词义知识库400。知识库400与数据库30相关联并通过访问以帮助WSD模块32执行词义歧义消除。知识库400包含对于一个单词的每个词义的词的定义,还包含词义对之间的关系的信息。这些关系包括词义和相关词性(名词、动词等)的定义、精细词义、同义词、反义词、下义词、局部词、与名词相关的形容词(pertainym)、类似的形容词关系以及现有技术中已知的其他关系。当在系统中使用了现有技术的电子词典和词汇数据库时,例如WordNet(商标),知识库400提供增强的单词与关系的目录。知识库400包括(i)词义之间的附加关系,例如将精细的含义归合到粗略的含义,新型的屈折(inflectional)和派生(derivational)的词素(morphological)关系,以及其他特殊用途的语义关系;(ii)对来自出版源(publishedsource)的数据中的错误的大规模校正;以及(iii)在其他现有技术知识库中不存在的其他的单词、词义以及相关关系。
在该实施例中,知识库400是一种概括的图形数据结构并作为节点表402和有关连接两个节点的边缘关系表404来实现。每一个都依次被描述。在其他实施例中,还可以使用其他诸如链接列表那样的数据结构来实现知识库400。
在表402中,每一个节点是表402一个行元素。每一个节点的记录可以具有多至以下的字段ID字段406,类型字段408和注释字段410。在表402中存在两种类型的条目单词与词义定义。例如,通过类型字段408A中的条目“单词”确定ID字段406A中的单词“bank”为一个单词。此外,示范性的表402提供单词的多个定义。为了对所述定义进行分类并区分表402中的单词条目与定义条目,可以使用标签来确定定义条目。例如,将ID字段406B中的条目标记为“标签001”。类型字段408B中的一个相应的定义将该标签标记为“精细的含义”单词关系。注释字段410B中的一个相应的条目将该标签标记为“名词,金融机构”。这样,现在可以将单词“bank”连接到该词义定义。此外,还可以将单词“经纪行(brokerage)”的条目连接到该词义定义。另一个实施例可以使用带有附加后缀的常用单词,以便辅助识别该词义定义。例如,另一种标签可以为“银行/n1”,其中后缀“/n1”表明该标签为名词(n)并且是该名词的第一含义。应当理解可以使用其他形式的标签。可以使用其他标识符来确定形容词、副词和其他词性。在类型字段408中的条目确定了与单词相关的类型。存在一个单词可用的多种有效的类型,包括单词,精细的含义和粗略的含义。还可以提供其他类型。
在本实施例中,当一个单词实例具有一个精细的含义时,该实例还具有注释字段410中的一个条目来提供关于该单词实例的更多细节。
边缘/关系表404包含表示节点表402中两个条目之间关系的记录。表404具有以下条目源节点ID栏412、目的节点ID栏414、类型栏416和注释栏418。栏412与栏414用来将表402中的条目连接到一起。栏416确定连接两个条目的关系类型。记录具有源节点和目的节点的ID、关系的类型并且可能具有基于该类型的注释。关系的类型包括“根单词到单词”、“单词到精细含义”、“单词到粗略含义”、“粗略含义到精细含义”、“衍生”、“下义词”、“类别”、“与名词相关的形容词”、“类似”、“具有部分”。还可以在其中记录其他关系。注释栏418中的条目提供一个(数字)键来为一给定的词性确定一种从一单词节点到粗略的节点或精细的节点的边缘类型。
参照图4,由附图标记300整体地示出了广告搜索引擎20实现的处理。如上所述,词义歧义消除模块首先在步骤302识别付费搜索关键词短语的哪个特定含义是想要的含义。该步骤可以由广告商直接进行,例如通过自己选择一个词义。可选地,付费搜索关键词短语可以由广告搜索引擎使用附加的上下文信息例如广告的文字、来自广告商网站的信息或与广告商和/或广告相关的其他信息而自动地消除歧义。
然后在步骤304广告搜索引擎从用户接收查询并消除查询的歧义。对于查询中的每个单词,词义歧义消除模块识别单词的哪个特定含义是想要的含义,并且为每一个可能的含义分配其可能是正确含义的概率。
在步骤306广告搜索引擎执行语义的扩展。在该步骤,广告搜索引擎“扩展”相关术语以便包含与主题术语语义上相关的含义。该扩展在词义的基础上执行并且相应地生成相关词义的列表。所述语义关系可以是前面参照图3所描述的那些。在一个实施例中,搜索引擎语义地扩展已消除歧义的查询,并且将扩展后的列表与付费搜索关键词短语匹配。在另一个实施例中,该搜索引擎语义地扩展付费搜索关键词短语并且匹配在已消除歧义的查询中找到的关键词含义。
搜索引擎还可以解释相关术语以寻找语义同等的术语。解释单词的技术在本领域是公知的。
在步骤308,广告搜索引擎搜索付费关键词义数据库以寻找与查询匹配的广告。所显示的信息包括付费搜索关键词将查询关键词义以及与查询关键词义语义地相关的其他词义与之匹配的广告。
应当理解,使用关键词义之间的语义关系扩展查询允许即使当查询的确切语言并不匹配付费搜索关键词时也显示广告。当查询使用与付费搜索关键词紧密相关的含义时,可能会出现这种情况。
最后,在步骤310广告搜索引擎返回结果。该结果包括找到的任何相关广告以及标准搜索结果。该搜索结果可以是通过任何方式找到的,例如关键词搜索或已消除歧义的关键词搜索。
应当理解,通过使用词义创建付费搜索列表,一个关键词的相同拼写可以被卖给不同的广告商。他们可能每个人购买同一关键词的不同意义。
应当理解,在查询中扩展关键词的列表增加了搜索中找到的结果的数量。此外应当理解,使用词的含义上的索引描述减少了检取到的庞大信息的数量。查询语言可以被扩展而无需因为单词的额外含义而得到无关的结果。例如,扩展单词“bank”的“金融机构”的含义将不会也扩展例如“河岸”或“攒钱”等其他含义。
建立一个词的正确含义允许信息管理软件更精确地识别用户寻找的信息,并且提供更适合的广告。例如,关于岛屿“Java”的查询还与关于面向对象编程语言“Java”的文档相匹配。通过确定单词“Java”的正确含义,系统可以提供更适合用户想要的含义的广告。
使用词义歧义消除以便显示付费搜索列表解决了检索相关性的问题。用户通常像他们表达自然语言一样表达查询。然而,由于相同的含义可以以多种不同的方式描述,当用户没有按照与广告最初被分类的特定方式相同的方式表达查询的时候,可能无法找到广告。
例如如果用户寻找关于岛屿“Java”的信息并且对Java上的“假日(holiday)”感兴趣,已经使用关键词“Java”和“休假(vocation)”分类的广告将不会显示给用户。应当理解,语义扩展特征处理了该问题。可以认识到的是,在自然地表达的查询中为每个关键术语衍生精确的同义词和子-概念增加了可能被显示的相关广告的容量。如果通过使用词表(thesaurus)来执行检取且不执行词义歧义消除就会恶化该结果。例如,在语义上扩展单词“Java”而不首先建立其精确的含义,会产生与用户查询无关的广告。应当理解,所描述的解释每个单词的含义并且随后在语义上扩展该含义的的方法返回一个更全面同时更命中目标的结果集合。
本实施例的另一个方面提供了影响搜索结果顺序的方法。例如,付费搜索关键词短语和查询的词义之间的语义关系可以被用于改进广告的显示顺序。在一个实例中,术语之间精确的匹配可以比语义的匹配排列得更高。查询中关键词义的概率可以被用于改进结果被显示的顺序。例如,概率越高,该意义的显示顺序越优先。
本实施例提供了将网站与前面描述的上下文广告的第二种形式相关联的方法。如前面已经提到的,上下文广告的第二种形式包括当用户与内容交互的时候,基于他们当前交互的内容的上下文关联性向用户发送广告。与付费搜索列表相反,当用户没有输入查询时,广告的第二种形式向用户提供广告。
在广告的第二种形式中,网站或网页被提供下文广告服务的公司注册。所述注册包括在公司的集中服务器上创建帐户,还包括为网站和/或单独的网页分配标识符。该标识符可以是多个字符。使用知识库400,每个网页可以与描述网页内容或该页主题或网站的关键词义的列表相关联。关键词义代替单词本身为单词提供更精细信息。如上所述,关键词义可以是精细的或粗略的。一组特定关键词义的标识可以是手工完成的,或者通过使用上述技术对在网站中相关的文本进行词义歧义消除而完成。
如进一步发展,通过使用上述技术,该组关键词义可以被扩展并解释以便包括额外的相关搜索术语。在一种形式中,可以通过搜索与含义相关的下位词来扩展词义。在广告构想中,下位词提供了有用的附加词,该附加词具有将来很可能与用于广告目的的原始词义相兼容的含义。如上所述,其他关系也可以会被用于标识附加词义。
账户被存储在集中式服务器的数据库中,并且每个注册过的网站或网页、分配的标识符、相关的账户号码以及起描述作用的关键词义都被存储在数据库中的单独的表格中。而且,网页的内容可以由服务器处理。处理包括读取网页、消除网页上信息的歧义以及通过将单词、关键词义、概率和相关的网页标识符存储在数据库的表格中,将已消除歧义的信息的关键词义编入索引。
当终端用户请求浏览网站上的一页时,网站返回作为网页的部分HTML代码的集中式广告服务器的URL地址以及网页的标识符。终端用户的网络浏览器将会使用HTTP联系该广告服务器,并且将该网页的标识符发送到该服务器。
服务器如下面描述的那样,分析终端用户的请求中的信息,并且选择既相关,对广告公司和网站运营商两者来说又提供了最高收入的广告用于显示。该广告响应是由显示该广告的HTML代码和如果用户点击该广告则调用的URL链接所组成的。要调用的该URL链接包括HTTP编码参数,所述HTTP编码参数包含网页标识符和所显示的广告的标识符以及集中式服务器的URL地址。
作为对终端用户请求的响应的一部分,为终端用户分配了作为在终端用户的网络浏览器上的小甜饼(cookie)而存储的唯一的标识符。如果上述终端用户标识符已经作为cookie存在于终端用户网络浏览器中,那么使用HTTP请求传送该标识符(注意在终端用户的网络浏览器上设置cookie并稍后检取是HTTP的标准特征,并且在本领域的网站设计和编程中是公知的)。
如果终端用户点击广告以浏览其细节,带有上述编码信息的第二HTTP请求被发送到广告服务器。该广告服务器记录交易,所述交易将会引起向做广告的公司收取费用。集中式服务器可以记录终端用户对该广告感兴趣上午事实,并且可以搜集关于该终端用户的其他人口统计信息,这在选择可能会使该终端用户感兴趣的广告方面是有用的。这包括的因素有例如年龄、性别、收入、地址、包括邮编、职业、爱好、拥有的电子装置、购买习惯等,但是不限于上述因素。
当存在终端用户标识符时,其作为请求的一部分被发送到集中式广告服务器,并且允许服务器也跟踪已经显示给用户的广告,以及终端用户的广告浏览习惯或购买习惯。当选择显示给终端用户的广告时,该信息可以被用作特征。
希望做广告的公司也向运营集中式广告服务器的公司注册并创建账户。可以注册多个广告,并且每个包括终端用户和应当为要显示的广告呈现的网站特征。每个广告还具有参数,所述参数描述公司将会为其广告的每次显示而付费或支付的金额,或如果终端用户点击该广告则将会付费或支付的金额。公司还可以设定每个时间周期其愿意支付的广告费用的最大限度。网站特征包括与每个广告相关联的关键词义的列表。终端用户特征包括对公司广告有兴趣的终端用户的人口统计属性。
当广告服务器从终端用户网络浏览器接收到用于响应于已显示在网页上的广告的请求时,该服务器可以使用两种方法的任意组合以选择包括在对终端用户的响应中的广告。
第一种方法包括将终端用户特征和网站的特征与广告数据库中的广告特征进行比较。当所述特征匹配时,该广告是一个候选者。在所述特征包括关键词义的情况下,当广告的关键词义匹配描述网站的关键词义时,所述广告被看作是一个匹配。这些关键词义可以是当网站注册广告服务时,为该网站在数据库中输入的描述性关键词义,或者是当网页内容被消除歧义或编入索引时获得的关键词义。
除了具有用于广告和网页两者的关键词义的精确匹配之外,可以通过向可接受含义的列表加入与原始含义具有语义关联的其他含义使用实施例而语义地扩展关键词义。该实施例还利用从网站中所选择的词的语法结构中衍生的语义从属项,选择性地使用解释技术来扩展关键词含义。所选择的单词可以是手动地选择的或者可以使用算法来标识网站中值得注意的单词。
识别与终端用户的特征和网站的特征相匹配的广告的第二种方法是使用机器学习分类器来识别包括广告、包括关键词义的广告的特征是否与终端用户或网页的特征(those)匹配。机器学习分类算法提供了不需要精确匹配的好处。适用于用户终端和要做广告的网页特征的分类任务的机器学习算法的例子是天真海湾(Naive Bays),并且在本领域是公知的。
不管使用第一种或第二种方法,两者都产生了候选广告的一个列表,其中广告的特征与请求的特征匹配。广告服务器可以通过选择付费最高的广告,选择在响应中要返回的广告。
应当理解,广告的关键词义还可以是从知识库400中手动选择的,或者是使用上述的单词歧义消除技术选择的。
还应当理解,使用关键词义作为要做广告的网站的匹配标准,允许较少关键词与网站相关,因为用于一个给定的单词的关键词义包含关于其含义的更多信息,并且因此,与使用等同的单词短语相比,将会需要较少与网站相关的关键词义。
本实施例的另一个特征提供了与已消除歧义的文档的动态交互。特别是,当显示一个已消除歧义的文档并且当用户点击该文档中的一个单词时,该单词的关键信息被用来识别要显示的适当的广告。
本实施例还提供了使用其词义歧义消除技术和模块作为关键词建议工具。当广告商希望在系统上放一个支付时,必须提供一个其希望出价的关键词列表。本实施例在文档分析器中被使用以便通过向广告商提供与他的网站上的文档主题紧密地匹配的候选关键词列表来辅助该处理。本实施例还向广告商开放带有候选关键词列表的上述文档分析器。
另一个实施例允许内容提供者使用该系统出售“上位概念”或上位词(即,具有一般含义的词)。上述本质上更通用的术语可以与任何数量的相关术语关联,而无需特别地列举每个上述相关术语。因此,由于一个单词可能连接到任意数量的其他单词,提供者可以以高价出售上述通用术语。在一个实例中,术语“计算机设备”可以被看作是与其他用作上述设备的更多特定术语例如“终端”、“鼠标”、“键盘”等相关的上位词。
虽然已参照特定实施例描述了本发明,对于本领域技术人员来说显而易见的是可以对其作出各种修改,而不背离本发明的范围。本领域技术人员应当具有下面至少一个或多个学科的足够知识计算机编程、机器学习和计算机语言学。
权利要求
1.一种将来自用户指向搜索引擎的查询的结果与和所述搜索引擎相关的广告相关联的方法,所述方法包括以下步骤获得与所述广告相关的广告关键词义;消除所述查询的歧义以识别与所述查询相关的查询关键词义;扩展所述查询关键词义以便包括所述查询关键词义和语义上同等的查询的相关语义关系,以创建扩展的查询关键词义的列表;使用所述扩展的关键词义以搜索所述广告关键词义,以便定位与所述查询相关的相关广告;以及向所述用户提供所述相关广告。
2.如权利要求1所述的关联来自查询的结果的方法,其中扩展所述查询关键词义的步骤包括利用所述查询关键词义的歧义消除。
3.如权利要求2所述的关联来自查询的结果的方法,其中消除所述查询的歧义以识别查询关键词义包括为所述关键词义加上概率。
4.如权利要求3所述的关联来自查询的结果的方法,其中所述关键词义表示精细关键词义的粗略分组。
5.如权利要求1所述的关联来自查询的结果的方法,其中所述关键词义表示精细关键词意义的粗略分组。
6.一种关联广告和显示的页面的方法,所述方法包括以下步骤获得与所述广告相关的广告关键词义;消除所述显示的页面的内容的歧义以识别与所述显示的页面相关的关键词义;扩展所述关键词义以便包括所述查询关键词义和语义上同等的查询的相关语义的关系,以创建扩展的关键词义的列表;使用所述扩展的查询关键词义以搜索所述广告关键词义,以便定位与所述显示的页面相关的相关广告;以及向所述周户提供所述相关广告。
7.如权利要求6所述的关联来自查询的结果的方法,其中扩展所述查询关键词义的步骤包括利用所述查询关键词义的歧义消除。
8.如权利要求7所述的关联来自查询的结果的方法,其中消除所述查询的歧义以识别查询关键词义包括为所述关键词义加上概率。
9.一种用于将来自用户指向搜索引擎的查询的结果与和所述搜索引擎相关的广告相关联的系统,所述系统包括一包括与所述搜索引擎相关的广告的数据库;一索引模块以便为所述广告创建参考索引;一查询处理模块以便将所述查询应用到所述搜索引擎;一歧义消除模块用于消除所述查询的歧义,以识别与所述查询相关的关键词义,其中,所述歧义消除模块消除所述查询中的信息的歧义,使之成为关键词义;所述查询处理模块将所述关键词义扩展成包括所述关键词义的有关的语义同义词,以创建扩展的关键词义列表,开始所述参考列表的搜索以便使用所述扩展的关键词义为所述查询找到相关的广告;以及向所述用户提供相关广告。
10.如权利要求9所述的用于将来自用户指向搜索引擎的查询的结果与和所述搜索引擎相关的广告相关联的系统,其中所述查询处理模块利用消除所述查询关键词义的歧义来扩展所述关键词义。
11.如权利要求10所述的用于将来自用户指向搜索引擎的查询的结果与和所述搜索引擎相关的广告相关联的系统,其中所述歧义消除模块为所述关键词义指定概率以排列所述关键词义。
12.如权利要求11所述的用于将来自用户指向搜索引擎的查询的结果与和所述搜索引擎相关的广告相关联的系统,其中所述关键词义表示精细关键词义的粗略分组。
13.一种用于为用作与因特网广告一起使用的匹配工具的网站定义一组词义的方法,所述方法包括在所述网站中识别一个关键词;并且如果所述关键词具有至少两个含义访问知识库以便为用于所述网站的关键词识别一组合适的词义;并且用该组合适的词义构成(populate)所述一组词义。
14.如权利要求13所述的用于为用作与因特网广告一起使用的匹配工具的网站定义一组词义的方法,还包括通过扩展和解释该组词义中的至少一个词义,扩展该组词义。
15.如权利要求14所述的用于为用作与因特网广告一起使用的匹配工具的网站定义一组词义的方法,其中该组词义的所述扩展利用与至少一个词义相关的语义关系来扩展该组。
16.如权利要求14所述的用于为用作与因特网广告一起使用的匹配工具的网站定义一组词义的方法,其中所述解释至少一个词义利用从所述网站中选定单词的语法结构得出的语义从属术语。
17.一种用于为用作与网站一起使用的匹配工具的广告定义一组词义的方法,所述方法包括在所述广告中识别一个关键词;并且如果所述关键词具有至少两个含义访问知识库以便为用于所述广告的关键词识别一组合适的词义;并且用该组合适的词义构成所述一组词义。通过扩展和解释所述一组词义中的至少一个词义来扩展该组词义。
18.如权利要求17所述的用于为用作与网站一起使用的匹配工具的广告定义一组词义的方法,其中所述该组词义的所述扩展利用与至少一个词义相关的语义关系来扩展该组。
19.如权利要求18所述的用于为用作与因特网广告一起使用的匹配工具的网站定义一组词义的方法,其中所述解释至少一个词义利用从所述网站中选定单词的语法结构得出的语义从属术语。
全文摘要
本发明提供一种将来自用户指向搜索引擎的查询的结果和与搜索引擎相关的广告相关联的系统和方法。所述方法包括以下步骤得到与广告相关的广告关键词义;消除查询的歧义以识别与查询相关的查询关键词义;扩展查询关键词义以便包括用于查询关键词义的相关语义等同物从而创建扩展的查询关键词义的列表;使用扩展的查询关键词义以搜索广告关键词义,以便定位与查询相关的相关广告;以及向用户提供相关广告。所述系统使用了实施所述方法的步骤的模块。
文档编号G09F19/00GK1871601SQ200480030748
公开日2006年11月29日 申请日期2004年8月20日 优先权日2003年8月21日
发明者马修·科来奇, 马克·卡里尔 申请人:伊迪利亚公司