用于信息检索的方法和设备的制作方法

文档序号:6513065阅读:220来源:国知局
用于信息检索的方法和设备的制作方法
【专利摘要】本发明的实施方式提供一种用于信息检索的方法和设备,可以进一步提高融入用户社交网站信息的第二代搜索引擎的检索效率和检索性能。一种用于信息检索的方法,该方法包括:建立包含实时数据的大索引;使用实时数据中的一部分数据更新用户的个性化数据;接收用户的检索请求;判断用户是否为登录用户;根据登录用户的ID查询小索引缓存中是否包含登录用户的个性化小索引;检索登录用户的个性化小索引,得到第一数量的检索结果;以及返回第一数量的检索结果中相关性分值最高的第二数量的检索结果。
【专利说明】用于信息检索的方法和设备

【技术领域】
[0001]本发明的实施方式涉及信息检索领域,具体地涉及一种用于信息检索的方法和设备。

【背景技术】
[0002]对于搜索引擎而言,现有提升其检索性能的重要方式之一是对倒排链进行剪枝。但是,剪枝存在一定的风险,因为如果相关性技术不够成熟的话,盲目剪枝可能导致检索结果的召回率非常低。
[0003]众所周知,第一代搜索引擎多采用大小索引的方式来提升其检索性能。具体而言,小索引里面存储有数量较少的精华文档,大索引则包含其它文档。在检索时,搜索引擎先检索小索引里面的精华文档并对这些精华文档进行精排算分;检索完小索引之后,搜索引擎在大索引里面对倒排链进行适当的剪枝。这种方式提高了检索速度,增加了召回文档的数量,既保证搜索引擎的检索性能又不影响检索结果。
[0004]第二代搜索引擎引入社交网站(SNS)信息,诸如用户的个人信息、历史行为分析数据、主动订阅数据等个性化数据。与第一代搜索引擎不同的是,第二代搜索引擎返回的检索结果是个性化的,即,每个用户的检索结果都不一样,而且同一用户在不同时期的检索结果也不尽相同。需要提供一种用于该搜索引擎的高效检索方法,以进一步提高融入用户社交网站信息的第二代搜索引擎的检索效率和检索性能。


【发明内容】

[0005]本发明的实施方式提供了一种用于信息检索的方法和设备,可以进一步提高融入用户社交网站信息的第二代搜索引擎的检索效率和检索性能。
[0006]根据本发明的实施方式的一个方面,提供一种用于信息检索的方法,该方法包括:建立包含实时数据的大索引;使用实时数据中的一部分数据更新用户的个性化数据;接收用户的检索请求;判断用户是否为登录用户;根据登录用户的ID查询小索引缓存中是否包含登录用户的个性化小索引;检索登录用户的个性化小索引,得到第一数量的检索结果;以及返回第一数量的检索结果中相关性分值最高的第二数量的检索结果。
[0007]进一步地,如果第一数量小于第三数量,则继续在大索引中检索得到第四数量的检索结果。进一步地,将第四数量的检索结果与第一数量的检索结果进行排序并且返回相关性分值最高的第二数量的检索结果。
[0008]进一步地,如果小索引缓存中不包含登录用户的个性化小索引或者个性化小索引已经过期,则收集登录用户的个性化数据,其中个性化数据包括登录用户的个人信息、历史行为分析数据和主动订阅数据中的至少一种。进一步地,使用个性化数据建立登录用户的个性化小索引;进一步地,将个性化小索引插入小索引缓存。
[0009]进一步地,如果用户不是登录用户,则仅检索大索引并且返回相关性分值最高的第二数量的检索结果。
[0010]根据本发明的实施方式的另一方面,提供一种用于信息检索的设备,该设备包括:用于建立包含实时数据的大索引的装置;用于使用实时数据中的一部分数据更新用户的个性化数据的装置;用于接收用户的检索请求的装置;用于判断用户是否为登录用户的装置;用于根据登录用户的ID查询小索引缓存中是否包含登录用户的个性化小索引的装置;用于检索登录用户的个性化小索引以得到第一数量的检索结果的装置;以及用于返回第一数量的检索结果中相关性分值最高的第二数量的检索结果的装置。
[0011]进一步地,还包括用于在第一数量小于第三数量的情况下继续在大索引中检索得到第四数量的检索结果的装置。进一步地,还包括用于将第四数量的检索结果与第一数量的检索结果进行排序并且返回相关性分值最高的第二数量的检索结果的装置。
[0012]进一步地,还包括用于在小索引缓存中不包含登录用户的个性化小索引或者个性化小索引已经过期的情况下收集登录用户的个性化数据的装置,其中个性化数据包括登录用户的个人信息、历史行为分析数据和主动订阅数据中的至少一种。进一步地,还包括用于使用个性化数据建立登录用户的个性化小索引的装置;进一步地,还包括用于将个性化小索引插入小索引缓存的装置。
[0013]进一步地,还包括用于在用户不是登录用户的情况下仅检索大索引并且返回相关性分值最高的第二数量的检索结果的装置。
[0014]总体而言,本发明的实施方式所提供的用于信息检索的方法和设备除建立包含实时数据的大索引外,还为每个用户建立包含用户的个性化数据的个性化小索引。在检索的时候,搜索引擎首先检索用户的个性化小索引,如果检索结果的数量足够多,则直接返回一定数量的检索结果;如果检索结果的数量不够多,则继续对大索引进行检索,而当检索到足够多数量的检索结果时,则立即停止检索,然后返回一定数量的检索结果。由此,可以进一步提高搜索引擎的检索效率和检索性能。

【专利附图】

【附图说明】
[0015]通过下文对结合附图所示出的实施方式进行详细说明,本发明的实施方式的上述以及其它特征将更加明显,本发明的实施方式的附图中相同或相似的标号表示相同或相似的部件。在附图中,
[0016]图1是示出了现有技术中的用于信息检索的方法的流程图;
[0017]图2是示出了根据本发明的实施方式的用于信息检索的方法的流程图;
[0018]图3是示出了根据本发明的另一实施方式的用于信息检索的方法的流程图;
[0019]图4是示出了根据本发明的另一实施方式的用于信息检索的方法的流程图;
[0020]图5是示出了根据本发明的另一实施方式的用于信息检索的方法的流程图;以及
[0021]图6是示意性示出了适于实现本发明的实施方式的示例性计算机系统/服务器的框图。

【具体实施方式】
[0022]下面将参考若干示例性实施方式来描述本发明的实施方式的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明的实施方式,而并非以任何方式限制本发明的实施方式的范围。
[0023]下面结合附图对本发明的【具体实施方式】进行描述。
[0024]图1是示出了现有技术中的用于信息检索的方法的流程图100。如图1中所示,在步骤102,用户向搜索引擎发起检索请求。在步骤104,搜索引擎对小索引进行检索,其中小索引包括精华文档,搜索引擎对所有精华文档进行精排算分。在步骤106,搜索引擎对大索引进行检索,其中大索引包括其它文档,在大索引里对倒排链进行剪枝,以增加召回文档的数量,从而在保证检索性能的同时不影响检索结果。在步骤108,将检索小索引和大索引所得的检索结果中相关性分值最高的检索结果返回给用户。
[0025]图2是示出了根据本发明的一个实施方式的用于信息检索的方法的流程图200。如图2中所示,在步骤202,将实时数据推送到大索引服务器上,以建立包含该实时数据的大索引。在步骤204,将实时数据中的一部分数据推送到用户的个性化服务器上,以更新用户的个性化数据。在步骤206,用户登录社交网站。在步骤208,登录用户向搜索引擎发起检索请求。在步骤210,搜索引擎在小索引缓存中检索登录用户的个性化小索引,并且检索到足够多的检索结果。在步骤212,将检索个性化小索引所得的检索结果中相关性分值最高的检索结果返回给登录用户。
[0026]图3是示出了根据本发明的另一实施方式的用于信息检索的方法的流程图300。如图3中所示,在步骤302,将实时数据推送到大索引服务器上,以建立包含该实时数据的大索引。在步骤304,将实时数据中的一部分数据推送到用户的个性化服务器上,以更新用户的个性化数据。在步骤306,用户登录社交网站。在步骤308,登录用户向搜索引擎发起检索请求。在步骤310,根据登录用户的ID查询到小索引缓存中不存在用户的个性化小索引(或者用户的个性化小索引已经过期),搜索引擎到用户的个性化服务器上收集用户的所有个性化数据(包括但不限于登录用户的个人信息、历史行为分析数据和主动订阅数据中的至少一种)。在步骤312,搜索引擎建立用户的个性化小索引,并且将该个性化小索引插入到小索引缓存中。在步骤314,搜索引擎在小索引缓存中检索登录用户的个性化小索弓丨,并且检索到足够多的检索结果。在步骤316,将检索个性化小索引所得的检索结果中相关性分值最高的检索结果返回给登录用户。
[0027]图4是示出了根据本发明的另一实施方式的用于信息检索的方法的流程图400。如图4中所示,在步骤402,将实时数据推送到大索引服务器上,以建立包含该实时数据的大索引。在步骤404,将实时数据中的一部分数据推送到用户的个性化服务器上,以更新用户的个性化数据。在步骤406,用户登录社交网站。在步骤408,登录用户向搜索引擎发起检索请求。在步骤410,搜索引擎在小索引缓存中检索登录用户的个性化小索引,未检索到足够多的检索结果。在步骤412,搜索引擎继续对大索引进行检索,当检索到足够多(非全部)的检索结果时停止检索。在步骤414,将检索小索引和大索引所得的检索结果中相关性分值最高的检索结果返回给登录用户。
[0028]图5是示出了根据本发明的另一实施方式的用于信息检索的方法的流程图500。如图5中所示,在步骤502,将实时数据推送到大索引服务器上,以建立包含该实时数据的大索引。在步骤504,将实时数据中的一部分数据推送到用户的个性化服务器上,以更新用户的个性化数据。在步骤506,用户未登录社交网站而处于离线状态,该离线用户向搜索引擎发起检索请求。在步骤508,搜索引擎对大索引进行检索。在步骤510,将检索大索引所得的检索结果中相关性分值最高的检索结果返回给离线用户。
[0029]图6是示意性示出了适于实现本发明的实施方式的示例性计算机系统/服务器612的框图600。图6中所示的计算机系统/服务器612仅仅是一个示例,不应对本发明的实施方式的功能和使用范围带来任何限制。
[0030]如图6所示,计算机系统/服务器612以通用计算设备的形式表现。计算机系统/服务器612的组件可以包括但不限于:一个或者多个处理器或者处理单元616、系统存储器628、连接不同系统组件(包括系统存储器628和处理单元616)的总线618。
[0031]总线618表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MAC)总线、增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
[0032]计算机系统/服务器612典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器612访问的可用介质,包括易失性和非易失性介质、可移动的和不可移动的介质。
[0033]系统存储器628可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM) 630和/或高速缓存存储器632。计算机系统/服务器612可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统634可以用于读写不可移动的、非易失性磁介质(图6中未示出,通常称为“硬盘驱动器”)。尽管图6中未示出,但是可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如⑶-ROM、DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线618相连。存储器628可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明的各实施方式的功能。
[0034]具有一组(至少一个)程序模块642的程序/实用工具640,可以存储在例如存储器628中,这样的程序模块642包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块642通常执行所描述的本发明的实施方式中的功能和/或方法。
[0035]计算机系统/服务器612也可以与一个或多个外部设备614 (例如键盘、指向设备、显示器624等)通信,还可以与一个或者多个使得用户能与该计算机系统/服务器612交互的设备通信,和/或与使得该计算机系统/服务器612能与一个或多个其它计算设备进行通信的任何设备(例如网卡、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口 622进行。并且,计算机系统/服务器612还可以通过网络适配器620与一个或者多个网络(例如局域网(LAN)、广域网(WAN)和/或公共网络,例如因特网)通信。如图6中所示,网络适配器620通过总线618与计算机系统/服务器612的其它模块通信。应当明白,尽管图6中未示出,但是可以结合计算机系统/服务器612使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
[0036]应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
[0037]也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的制造品。
[0038]还可以把计算机程序指令加载到计算机、其它可编程数据处理装置或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
[0039]虽然以上结合【具体实施方式】对本发明的实施方式进行了详细描述,但是本发明的实施方式并不限于此。本领域普通技术人员能够在说明书教导之下对本发明的实施方式进行多种变换、替换和修改而不背离本发明的实施方式的精神和范围。应该理解,所有这样的变化、替换、修改仍然落入本发明的实施方式的保护范围之内。本发明的实施方式的保护范围由所附权利要求来限定。
【权利要求】
1.一种用于信息检索的方法,所述方法包括: 建立包含实时数据的大索引; 使用所述实时数据中的一部分数据更新用户的个性化数据; 接收所述用户的检索请求; 判断所述用户是否为登录用户; 根据所述登录用户的ID查询小索引缓存中是否包含所述登录用户的个性化小索引; 检索所述登录用户的所述个性化小索引,得到第一数量的检索结果;以及 返回所述第一数量的检索结果中相关性分值最高的第二数量的检索结果。
2.根据权利要求1所述的方法,其中如果所述第一数量小于第三数量,则继续在所述大索引中检索得到第四数量的检索结果。
3.根据权利要求2所述的方法,还包括将所述第四数量的检索结果与所述第一数量的检索结果进行排序并且返回相关性分值最高的所述第二数量的检索结果。
4.根据权利要求1-3中任一项所述的方法,其中如果所述小索引缓存中不包含所述登录用户的所述个性化小索引或者所述个性化小索引已经过期,则收集所述登录用户的所述个性化数据。
5.根据权利要求4所述的方法,其中所述个性化数据包括所述登录用户的个人信息、历史行为分析数据和主动订阅数据中的至少一种。
6.根据权利要求4所述的方法,还包括使用所述个性化数据建立所述登录用户的所述个性化小索引。
7.根据权利要求6所述的方法,还包括将所述个性化小索引插入所述小索引缓存。
8.根据权利要求1所述的方法,其中如果所述用户不是登录用户,则仅检索所述大索引并且返回相关性分值最高的所述第二数量的检索结果。
9.一种用于信息检索的设备,所述设备包括: 用于建立包含实时数据的大索引的装置; 用于使用所述实时数据中的一部分数据更新用户的个性化数据的装置; 用于接收所述用户的检索请求的装置; 用于判断所述用户是否为登录用户的装置; 用于根据所述登录用户的ID查询小索引缓存中是否包含所述登录用户的个性化小索引的装置; 用于检索所述登录用户的所述个性化小索引以得到第一数量的检索结果的装置;以及 用于返回所述第一数量的检索结果中相关性分值最高的第二数量的检索结果的装置。
10.根据权利要求9所述的设备,还包括用于在所述第一数量小于第三数量的情况下继续在所述大索引中检索得到第四数量的检索结果的装置。
11.根据权利要求10所述的设备,还包括用于将所述第四数量的检索结果与所述第一数量的检索结果进行排序并且返回相关性分值最高的所述第二数量的检索结果的装置。
12.根据权利要求9-11中任一项所述的设备,还包括用于在所述小索引缓存中不包含所述登录用户的所述个性化小索引或者所述个性化小索引已经过期的情况下收集所述登录用户的所述个性化数据的装置。
13.根据权利要求12所述的设备,其中所述个性化数据包括所述登录用户的个人信息、历史行为分析数据和主动订阅数据中的至少一种。
14.根据权利要求12所述的设备,还包括用于使用所述个性化数据建立所述登录用户的所述个性化小索引的装置。
15.根据权利要求14所述的方法,还包括用于将所述个性化小索引插入所述小索引缓存的装置。
16.根据权利要求9所述的设备,还包括用于在所述用户不是登录用户的情况下仅检索所述大索引并且返回相关性分值最高的所述第二数量的检索结果的装置。
【文档编号】G06F17/30GK104462146SQ201310441159
【公开日】2015年3月25日 申请日期:2013年9月24日 优先权日:2013年9月24日
【发明者】郭杨, 王丛宇 申请人:北京千橡网景科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1