专利名称:搜索平台的制作方法
搜索平台本发明涉及用于移动装置的搜索平台。具体地说,本发明涉及适 于使搜索结果满足特定用户、移动装置和/或搜索上下文(日期、时间、 位置、概况等)的搜索平台。搜索引擎已变得对计算网络中存储的大量内容很重要。与目录门户 一起,搜索引擎促进了因特网(特别是Web)的有效使用。但是,搜索引擎自身确实存在问题。搜索请求在搜索结果中产生 的"命中"经常比可合理评估的命中要多得多。大部分搜索引擎将可 浏览的结果数量限制在更易管理的数字,并尝试识别最相关的命中, 将这些命中排列在其它类似命中之前。此问题在移动环境中经常变得 复杂,在该环境中,通常有小得多的可浏览屏幕区,并且收费模型可 意味着下载的每个字节数据表示用户的费用成本及对应的下载延迟。管理庞大的可能搜索命中的一个常规方式是在再现搜索结果前过 滤结果,由此减少向终端用户呈现的命中数量。此技术并不是只用于 移动环境。在移动终端上提供移动搜索服务的另 一个问题是移动界(mobile arena)不同装置、操作系统和标准的迅速增多。在一个装置中可浏览 的内容可能在另一个装置中无法使用,但在内容已下载前,终端用户 可能不明白此问题,从而导致用户体验差并且不愿再尝试下载。在解决这些困难的尝试中,已在明确考虑到在移动装置更有限的 显示屏幕上呈现的情况下开发了呈现格式标准。 一个此类标准无线接 入协议(WAP)已^f皮移动网络运营商在向移动装置提供可浏览内容时广 泛采纳。此协议具有相关联内容格式无线标记语言(WML)。 WML规 格M于XML。WML文档("deck")与HTML(超文本标记语言)文档以同样的方
式存储在web服务器中。移动终端经WAP网关访问WML deck。 WAP 网关提供与WML内容的接口 ,并且越来越多地提供与万维网的接口 。 将原来格式不是用于在移动终端上呈现的网页"代码转换"或处 理成适合在此类终端(例如,移动电话和个人数字助理PDA)上显示的 格式,这已为人所熟知。这种代码转换进程是对终端隐藏进行的,并 且在网络运营商不阻止它的情况下,允许终端以与PC浏览器应用程 序访问HTML内容相同的方式使用URL(通用资源定位器)访问代码转 换后的页面。由于选定终端(具有更多先进处理性能)实际上支持更多 处理器密集格式XHTML和/或HTML,因此,代码转换并不总是必需 执行。很明显,在移动环境中,生成更准确地反应用户(及其装置)性能 和简档的搜索结果,是最重要的。在提供移动搜索功能中已知的第一步是在向用户呈现搜索结果 前,基于装置是支持WML还是XHTML来过滤内容。近来,已经尝试提供装置特定的搜索性能。此类搜索性能由于依 赖装置与内容的精确匹配,因而在其效率方面受到限制。常规的装置 特定搜索工具决不会复杂,这在一定程度上是因为难以保存哪些内容 适合哪些装置的最新记录。此外,它们要综合每个内容提供商馈入的 各自的内容,而这经常需要大量劳动力。通过根据政策而"提升"某些"命中"的顺序,使其排列在其"自 然"顺序之外,这也为人所熟知(这在接受移动搜索结果页上清单的广 告赞助或者鼓励用户从供应商及其从属机构提供的网络内的信息时 会出现)。因此,本发明的目的U服现有移动搜索平台的上述限制。 根据本发明一个方面,提供了一种通过无线电信连接,从包含多 个内容项目的内容库索引生成搜索结果的方法,每个内容项目具有与 其相关联的对应元信息,元信息包括装置、用户和上下文特定信息中 至少一个,该方法包4舌 从使用移动装置的用户接收搜索请求消息,搜索请求消息包括用户搜索项;获得表示移动装置、用户订阅和网络性能的上下文数据; 根据用户搜索项启动内容库索引搜索;为用户搜索项中至少一个确定在内容索引中是否存在一个或多个 相关索引条目;以及存在相关时,生成搜索结果,搜索的结果包括到根据上下文数据 排列的相关内容项目的相应链接。除根据装置特定标准过滤外,该方法可包括基于上下文标准过滤 的步骤,例如网络性能(例如,承载技术是GPRS、 EDGE、 UMTS/3G 还是HSDPA等?当前网络负载状态如何?)和用户简档(是自动动态 生成还是由用户手动提供)。用户简档可包括-位置指示。此位置信息可由用户手动输入,或者 通过自动定位机制采集例如,使用小区ID或全球定位卫星(GPS)信 息。GPS与小区ID技术在本领域均已为人所熟知,因而在本上下文 中将不详细介绍。因此,本发明为深层链接(deep link)装置特定搜索提供了分类 的结果显示。通过利用用户信息、订阅信息、装置信息及在任何搜索 请求中输入的搜索项,移动搜索体验的效率会大大增强。从诸如Google和Yahoo等搜索引擎,通过返回基于装置、用户 和网络性能的详细上下文简档的搜索结果,如此处所述的移动搜索在 用户体验方面得到了改善。不再呈现给移动用户经常是可收费、可下 载数字内容的内容,这些内容却通常对其特定装置和环境不是最佳。搜索结果可方便地调整,以反应用户是否在适当的移动网络覆盖 区(例如,3G)来接收内容。"网上(onnet)"内容需要携带指示有关内容的深层信息的另外 元标记例如,内容是否用于特定装置、只用于彩色显示、只在已付 费信道用于用户或确实是"仅限成年人,,。爬虫代理(crawler agents ) 生成其编索引的数据库(内容库索引),它们提供了让对应"智能"搜 索引擎利用的更丰富数据库。随后,结果的排列方式使得最相关内容 /结果得到更高加权。为更好地理解本发明,现在将参照附图,通过示例方式描述实施例,其中
图1示出包括根据本发明的移动搜索平台的典型移动门户架构; 图2更详细示出图1移动搜索平台的运行; 图3示出爬虫功能的分层结构;以及图4示出移动搜索门户的内容组合引擎(CAE)部分的通用 MVC0莫型A见图/控制器)架构。图1示出包括移动搜索平台100、 110、 120的典型移动门户系统 架构。现在描述平台组件的操作内容存储在一个或多个内容库150中。每个内容项目已与描述内 容项目一系列(arangeof)属性的元信息相关联。进行此操作的一个 标准方式是规定RDF(资源描述框架)元数据的使用。RDF是一种定义 为一种语言的W3C标准,描述万维网资源及其特定元数据(例如,标 题、作者、创建日期、最后修改日期、版权、许可及其它)和可在网络 上识别的"对象"。W3C元数据活动网页对RDF描述如下资源描述框架(RDF)"提 供更通用的元数据处理"。RDF是一种陈述性语言,为使用XML以有关Web上项目属性和 关系的语句形式表示元数据提供了 一种标准方式。称为资源的此类项 目几乎可以为任何项目,但条件是要具有Web地址。这意p未着您可以 将元数据与网页、图形、音频文件、电影剪辑等等相关联。RDF提供一种框架,在该框架中,独立的团体可开发满足其特定 需要的词汇,并与其它团体共享词汇。为共享词汇,术语的含意必须 详细注明。这些词汇集的说明称为RDF模式(RDF Schema)。模式定义了一组属性的含意、特征和关系,并且这可包括对其它 ;漠式的可能值和属性继承的约束。通过为每个词汇指定一个Web地 址,RDF语言允许包含元数据的每个文档阐明在使用哪个词汇。筒而 言之,RDF是可扩展的。在图1所示实施例中,RDF模式定义为描述有关诸如铃声、游戏、 图片和音乐等移动内容的元信息。元信息可包括特定内容项目是否适 用于给定移动装置类的指示。图1中使用的搜索索引由远程外部伙伴接管。申请人基于用户代 理,开发了 "内部搜索爬虫"160,而不是通过从搜索索引120的远 程站点爬行(crawling)内容库150来填充搜索索引120。该用户代理 提供 以不同频率爬行内容库不同部分的能力 更好的监视搜索爬行进度的能力 改进的RDF元数据支持 支持包含有关多个内容项目的信息的单个RDF元数据文件。 因此,内部搜索爬虫160提供了改进的质量和相关搜索结果的数量。为方便内部搜索爬虫160的引入,在由伙伴内容提供商(所谓的伙 伴标记语言或PML)和RDF文件语法执行的元标记的详细要求方面, 一些次要但基本的差别成为了必需。尤其是,内部爬虫160依据的用 户代理被赋予对除所有对应RDF文件外所有手持设备所有内容的访 问权。内部爬虫160设置为在出现多项RDF文件的情况下解析这些文 件,从而为内容提供商140提供修改其RDF创建逻辑以利用此的机会。逻辑在内部搜索爬虫用户代理160中引入,以确保如果所指向页 面的URL匹配在RDF文件内嵌入的URL,则结果将合并为单个搜索 索引条目,由此改进内容查找能力。用户代理可设置为使用在RDF的元参考和在RDF文件本身中的 相关链4矣(The user agent may be arranged to use relative links in meta-refs to RDF, and in the RDF files themselves)。为便于使用,可相关于为内容而生成的RDF文件,要求执行某些 限制。例如 rdf "about"属寸生'义、》页以〈rdf:Description about二"some/link"〉才各 式而不以々df: Description rdf:about二"some/link"〉格式呈现 RDF文件必须包含dc:description属性 RDF文件必须具有后缀".xml"(允许查询字符串例如 /showrdf.xml id=1234) RDF文件必须作为文本/xml类型发送内部爬虫才丸4亍内部爬虫160在识别自身后向web服务器请求在配置文件中指定 为入口点的页面。 一旦获得页面后,它便读取和处理有关内容的RDF 元信息内容及第三方提供的页面,提取标题、文本、链接和所有其它 相关信息。产品(product)接受在当前页面中发现的新链接,同时保 持已经接受的链接列表帐户。配置文件也具有允许使用才莫式(即,字符 串)进行有限站点导航的可配置过滤器。每次产品爬行页面时,获得的 有效信息存储在本地数据库(图2中的210)中。给定移动电信网络运营商网络内不同的地理区域经常由对应的运 营公司提供服务。每个运营公司可选择安装用于经终端应用程序处理 内容提供的本地版本的软件栈。定制内部爬虫可在每个运营公司的服 务交付平台(或"核心栈")中实现。由于每个内部爬虫系统可设置为在适合每个运营公司的软件栈内运行,因此,与常规外部提供的爬虫系统相比有直接的速度优势 爬行在组合层进行,意味着无需为内部爬虫160再现内容 进入的爬行请求不受因特网等待时间影响 通过使内部爬虫160在网络服务提供商(或运营公司)而不是第三方控制之下,多个爬虫任务可设为以不同次数和频率运行,允许每个
本地运营商实时看到正在发生的事情。因此,经常变更的内容(例如,新闻报道)能够比相对静态内容(例如,铃声)更频繁地被爬行;新的或并且用于监视和调试爬虫进度的设计可得到增强以识别和解决使内 容项目被停止索引的问题。图3示出内部爬虫应用程序160的软件层次,由此爬行任务的频 率和定时可以调度。代理的不定数量的单独实例("线程")可在任何 给定任务上运行。每个爬行会话又可要求多个不同任务。内部爬虫160已设计为不但处理引用单段内容的多个小RDF元数 据文件(从FAST[RTM]的常规FAST-SEARCH爬虫已知的设置),而且 处理引用多个内容项目的大RDF元数据文件("多项RDF文件")。 因此,对于在数据库150中存储其内容细节的内容提供商140,如果 在其中创建了具有所有内容细节的大RDF文件(或编程为要由服务器 端逻辑即时动态(on-the-fly)创建),则随后那些大RDF文件中的信 息将直接插入索引120中,无需爬行来自该提供商的其它页面。此外, 第三方内容提供商140的内容将在搜索结果中变得更清楚,从而促成 更多的用户业务和利润。图2示出了搜索平台且具体而言搜索内容推送引擎(Search Content Push Engine) (SCPS) 180的操作。SCP引擎180具有多个执 行功能,包括XMLwriter、上载程序(Uploader)和清理程序功能。 这些功能将在下面描述XMLwriter执行每一个单爬行任务会向本地数据库210(例如,Oracle [RTM]数据 库)填充爬行信息。这些信息需要转换成XML数据以便上载到外部搜 索引擎110所接管的远程搜索索引120。 XMLwriter检索存储在数据 库中的任务数据(即,爬行信息),并将它们转换成自定义XML文件, 相应地转换成远程索引数据库120的细节。
上载程序执行XMLwriter所生成的XML文件作为文档上栽到远程搜索索引 120,替换旧版本的相同文档或者在旧文档不存在时插入新文档。随 后,可通过移动接口 130查看数据。清理程序执行清理程序建立到远程搜索索引的连接,并移除具有适当配置文件 中出现的设置所定义的特定特性的文档集。几种不同的清理类型均受 支持,从删除过时的文档开始,并以删除具有特定字段值的所有文档 结束。在考虑用户选择经门户IOO搜索内容的说明性使用情况时,可能 最好地理解移动搜索门户100的运行。门户100向用户的移动装置呈现搜索接口 130,允许用户指定搜 索标准。 -底设在此情况下用户输入一个字或短语。搜索接口 130可进一步提供其它选项。有利的是,可能有基于内 容类型限制搜索的选项。也可能有要求搜索所有内容类型的选项。在 未釆用内容类型限制选项时,可假设用户要搜索所有可用内容。但是, 如果用户选择某种内容类型,则门户IOO允许用户启动搜索。系统从用户接收搜索请求并处理门户请求。首先,对用户进行鉴 权。如果用户通过鉴权,则请求得到授权。在鉴权进程中,得到上下文信息。此上下文信息包括与用户的用 户简档有关的信息(例如,语言首选项、安全搜索标准、信用级别等) 和在鉴权进程中由移动终端输送的信息(例如,用户的装置类型)。门户系统100随后检查提交的搜索标准,以确保搜索有效(例如, 它包含至少两个认知的字符)。系统随后发送搜索标准及上下文信息和 内容类型(如果选定)到搜索引擎110。搜索引擎110处理有效的搜索标准并生成排列的装置特定的搜索结果。门户系统132的核心栈随后从搜索引擎110接收装置特定的搜索 结果,并再现它们以便在用户显示器上呈现。核心栈(或服务交付平台)132包括第三方集成组件(3PI)230、内容 (或通用)组合引擎(CAE) 240和内容再现引擎(CRE) 250。这些组件在 图1和图2中均有示出,但只在图2中提供标号。3PI 230接收由内容提供商220、 222、 224提供的伙伴标记语言 (PML)文件中除内容本身外的RDF标记信息。3PI 230提取对应于内 容项目的RDF标记信息,并将提取的信息作为运营商标记语言"碎片" (在本申请人的案例中Vodafone内容标记语言或VCML)来提供。运营商标记语言碎片随后在组合层组合以便交付到更高级的再现 层。组合层的功能由CAE 240提供,CAE是一个软件组件,它解释 到达的用户请求,从内容源获得信息(即,在VCML碎片中提取的RDF为VCML "页面")。随后,它将组合的内容发送到再现层。图4示出了 CAE 240的一般架构。在此所谓的MVC(模型/视图/ 控制器)架构内,业务逻辑类和bean包括才莫型,JSP文件和自定义标 记包括视图,并且动作(Actions)包括控制器。业务逻辑可进一步分 成几个层服务对象和管理器对象(Manager objects)。服务对象是 业务逻辑的核心,在管理器对象之上,而管理器对象封装了更低级功 能,如持久性,或者在搜索门户的情况下,封装了到外部搜索服务器 的连接。动作的一个重要示例是SubmitSearchAction,负责从请求提取用 户的查询,验证查询,并调用业务逻辑执行搜索。为补充此动作,本 发明CAE提供SearchService禾口 SearchManager。 SearchService负责独 立于搜索引擎实现的业务逻辑,允许诸如提升内部结果等操作。 SearchManager负责已实施搜索引擎特定的业务逻辑,如生成句法正 确的查询并将搜索引擎结果对象转换成常规值对象以便由更高层使用。内容再现层接收搜索结果对象,解析标记语言并以适合显示的格式交付结果对象。使用在用户装置鉴权时提取的信息,CRE250识别 出最终用户装置,并且使用该装置属性将诸如来自CAE240的图像和 文本等资源转换为对特定装置合适的大小和^^式。它也管理用户装置 与其余服务交付平台之间的连接尤其是,为提取用户请求供应搜索 接口 130。核心栈132可设有拼写推理引擎(spelling inference engine )(未示 出),以用于生成与搜索结果一起的备选拼写响应。这解决了通常遇到 的拼写错误,建议了 "最可能的"备选搜索项。通过坚持根据用户简档来授权请求,门户IOO可过滤出与按年龄 分类和/或受年龄限制内容对应的结果。由于某些内容项目具有相关联的金钱价值,因此,门户100设置 为在到返回的内容项目的链接内检测服务ID标记(即,收费标记)。如 果在搜索引擎110所返回的项目内包含服务ID,并且用户选择下载该 内容,则将从其帐户扣除费用。如果在搜索引擎IIO所返回的项目内无服务LD,则门户在搜索结 果deck中显示该项目。deck示出输入的搜索标准、匹配搜索标准的 要显示的结果总数及作为超链接的每个搜索结果,并带有每个搜索结 果的摘要说明(teaser description)。搜索结果可按内容类型成组显示。 搜索结果可区分由服务提供商接管的内容("网上")与在非提供商控 制的web服务器上接管的内容("网外")。结果deck可通过将每个组 的结果总数显示为一个不同的项目而示出此区分。有利的是,搜索结果在根据相关性排序的每个组内显示。因此, 系统可配置为显示相关性等级等于或大于预定阈值的结果。"网上" 搜索可单独"提升,,在类似"网外"结果之上,或者它们可呈现为在对应"网外,,组之上的"网上"组。在收费与内容下载相关联时,搜 索结果deck可直观地指示该情况,例如,通过图标指示。
上面概述的搜索进程可通过"搜索提示"工具补充,由此用户可 请求有关适当搜索项、通配符的指导。要缩短搜索进程,用户可通过内容类型限制来限定字搜索。用户 一般会被引导通过基于搜索请求上下文的搜索进程,即所谓的上下文 搜索。用户选择从上下文搜索超链接搜索内容。系统返回具有预选定上下文(例如,内容类型)的搜索对话框页面。 内容类型的示例有铃声、游戏、图片和音乐。系统也可允许用户指定 其它上下文搜索标准。使用预填写的搜索对话框页面,用户输入用于其上下文搜索的字下文搜索。类似于按上下文搜索,用户可在不同的"内容信道"内搜索(如, 新闻广播馈送或音乐排行榜/视频内容信道)。用户从第三方中间代理 伙伴页面选择信道搜索选项。系统允许用户指定信道搜索标准,返回预填写的搜索对话框页面在此情况下使用选定的预定信道预填写。同样地,用户使用预填写搜索对话框页面来输入用于信道搜索的字或 短语,并且系统通过在用于用户的选定信道内启动对应搜索来响应在 此对话框页面中输入的搜索项。服务ID信息可用于进一步改进搜索任务的结果。许多情况下, 搜索任务的原始结果包括服务ID信息。在搜索引擎返回的内容项目 中存在服务ID信息的情况下,系统可发送诸如定价数据等服务有关 信息的请求到未示出的适当服务应用程序(例如,收费和定价应用程 序)。请求设置为包含内容项目的服务ID信息。系统从服务应用程序 接收对应的响应。系统显示的信息随后可调整为反应与搜索结果中内 容项目对应的服务有关信息。因此,如果内容项目需要订阅,则选择 到内容项目的链接将产生内容订阅请求页面而不是到实际内容的直 接链接。系统可设置为在它确定输入的搜索标准无效时返回适合的错误消
台类似地,系统可设置为在从搜索引擎收到"未找到结果"响应时, 显示消息,告诉用户未找到结果。结果为空的原因可能是拼写错误。 另外,"无结果"响应的出现可以是更新处理机制的触发器。无论何 时收到"无结果"响应,机制便能够检查请求的上下文,并且在某些 情况下(例如,用户在使用的装置或固件未识别)可建议或触发更新检 查。这样,此类"无结果"响应可减少出现。有利的是,系统可设有拼写引擎,以便在"未找到结果"响应包 含备选拼写时,系统显示备选拼写消息,并且备选拼写显示为搜索超 链接。在找到结果时,同样可很好地使用拼写引擎。系统可显示消息, 向用户建议已找到的备选拼写,并且备选拼写可显示为搜索超链接。 此外,鉴于使用移动手持设备难以进行准确的文本输入,用户可主动 请求拼写引擎的应用程序来验证其4定入的搜索标准。在预定的超时时段内未收到搜索引擎响应时,系统记录通信故障 事件并显示错误消息。搜索引擎不可用的确定具有类似的结果。同样地,系统记录通信 故障事件并显示适当的错误消息。移动搜索平台因此智能地过滤搜索结果,并考虑以下方面 装置特性(例如,完整全曲目音乐功能电话)、装置类型(例如, 宽屏高级电话)、装置名称和装置上安装的固件 当时的承载网络性能(例如,网络是模拟或数字、GPRS (2.5G)、 EDGE还是3G) 用户简档(例如,小孩,年龄超过18岁等) 用户内容订阅很明显,在制造商宣称的装置性能与装置已验证的经验性能之间 可能存在不一致。经验性能数据库可优选致力于使用制造商规格来确 定在与特定内容项目配对时给定装置是否将提供满意的结果。
上述智能爬行解决方案提供了使用专有内容格式(在申请人案例中-Vodafone内容标记语言VCML)和移动RDF(资源描述框架)标记 方案两者的移动内容爬行。智能爬行程序自动将内容与其元信息相关 联,如装置特定特性、网络适用性、用户简档适用性、订阅、内容类 别、内容的等级提升值等。这使得再现搜索结果简单但与用户的个人 上下文相关。
权利要求
1. 一种通过无线电信连接,从包含多个内容项目的内容库(150)的索引(120)生成搜索结果的方法,每个所述内容项目具有与其相关联的对应元信息,所述元信息包括至少装置、用户和上下文特定信息之一,所述方法包括从使用移动装置(130)的用户接收搜索请求消息,所述搜索请求消息包括用户搜索项;获得表示所述移动装置(130)、用户订阅和网络性能的上下文数据;根据所述用户搜索项启动所述内容库索引(120)的搜索;为所述用户搜索项的至少一个确定在所述内容库索引(120)中是否存在一个或多个相关索引条目;以及存在相关时,生成搜索结果,所述搜索的所述结果包括到根据所述上下文数据排列的相关内容项目的相应链接。
2. 如权利要求1所述的方法,还包括基于上下文标准和用户筒档 过滤的步骤。
3. 如权利要求2所述的方法,其中所述用户简档从建立所述电信 连接中获得的信息自动动态生成。
4. 如权利要求2或3所述的方法,其中至少一部分所述用户简档 由所述用户在所述电信连接期间手动提供。
5. 如权利要求4所述的方法,其中所述用户位置由所述用户在所 述电信连接期间手动输入。
6. 如前面权利要求任一项所述的方法,其中所述搜索的所述结果 调整为反应用户当前是否接入适用于传输所述内容的承载技术。
7. 如前面权利要求任一项所述的方法,其中每个内容项目需要携 带另外的元信息,由此除所述元信息外,所述内容索引提供所述另外 的元信息的索引。
全文摘要
在为移动装置提供网络搜索平台中,搜索平台可适用于使搜索结果满足特定用户、移动装置和/或搜索上下文(日期、时间、位置、配置文件等)的要求。通过要求内容带有相关联元信息,并且通过提供理解所述元信息格式化的本地用户代理,搜索引擎可组合深层索引的内容数据库。因此,可在将输送不合需要的内容可能性降到最低的同时,呈现表示最适用于用户的内容项目的搜索结果。
文档编号G06F17/30GK101401099SQ200780008615
公开日2009年4月1日 申请日期2007年1月12日 优先权日2006年1月13日
发明者F·比尔豪斯, J·吴, M·维塔利 申请人:沃达方集团有限公司