信息库的生成方法及装置、信息的搜索方法
【专利摘要】本申请公开了一种信息库的生成方法及装置、信息的搜索方法。该信息库的生成方法包括:确定包括若干相互关联且具有相同属性的用户的用户群;记录所述用户群内每个用户产生的与其属性相匹配的信息;保存记录到的所有信息而形成信息库。通过搜集用户群内所有用户具有相同类属性的信息,来构建具有特有属性特征的信息库,以满足用户搜索特有属性信息的需求。
【专利说明】
信息库的生成方法及装置、信息的搜索方法
技术领域
[0001]本申请涉及计算机技术领域,尤其涉及一种信息库的生成方法及装置、信息的搜索方法。
【背景技术】
[0002]现有技术中,互联网用户在搜索引擎上搜索一般性新闻资讯时,得出的搜索结果会较好的匹配到用户初始的目标资讯或信息。然而,由于一般搜索引擎的后台数据库内的信息并非完全是目标信息,因此用户在互联网搜索引擎上搜索一些需要的目标资讯或信息时,得出的搜索结果往往会夹杂一些非目标的资讯或信息,因此搜索结论并不能精准的匹配到用户所要查找的目标资讯或信息。
【发明内容】
[0003]本申请提供一种信息库的生成方法及装置,用以解决现有技术中作为搜索引擎后台数据库的信息库中信息与用户搜索的目标信息不能很好地匹配的问题。
[0004]一种信息库的生成方法,包括:
[0005]确定包括若干相互关联且具有相同属性的用户的用户群;
[0006]记录所述用户群内每个用户产生的与其属性相匹配的信息;
[0007]保存记录到的所有信息而形成信息库。
[0008]一种信息库的生成装置,包括:
[0009]确定模块,用于确定包括若干相互关联且具有相同属性的用户的用户群;
[0010]记录模块,用于记录所述用户群内每个用户产生的与其属性相匹配的信息;
[0011]保存模块,用于保存记录到的所有信息而形成信息库。
[0012]本申请提供的一种信息库的生成方法及装置,通过搜集用户群内所有用户具有相同类属性的信息,来构建具有特有属性特征的信息库,以满足用户搜索特有属性信息的需求。特别地,当用户需要搜索专业信息时,本申请信息库的生成方法,包括搜集具有相同专业背景且相互关联的人员产生的专业信息,并通过搜集到的专业信息为基础建立信息库。由于信息库内的信息均为专业人员产生的信息,因此信息库内的信息专业、全面可供搜索用户搜索使用。
[0013]本申请提还供一种信息的搜索方法,用以解决现有技术中用户无法精确搜索到所需要的专业信息的问题。
[0014]—种信息的搜索方法,包括:
[0015]接收输入的搜索词;
[0016]查询到与所述输入搜索词对应的信息库;
[0017]提供所述信息库内与所述搜索词相匹配的信息。
[0018]本申请实施例提供一种信息的搜索方法,用户在搜索信息时,能够快速查找到该索搜词对应的信息库,并提供用户想要得到的准确信息。特别在以特定人员的姓名为关键词搜索专业信息时,该特定人员及与该特定人员相关联的人员产生的信息均会被搜索出来,使得搜索人员得到的信息更专业、更全面、更准确。
【附图说明】
[0019]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0020]图1为本申请实施例提供的信息库的生成方法的过程示意图;
[0021]图2为本申请实施例提供的信息库的生成方法的一个过程的进一步示意图;
[0022]图3为本申请实施例提供的信息的生成装置的结构示意图;
[0023]图4为本申请实施例提供的信息的搜索方法的过程示意图。
【具体实施方式】
[0024]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0025]图1为本申请实施例提供的信息库的生成方法,具体包括以下步骤:
[0026]Sll:确定包括若干相互关联且具有相同属性的用户的用户群;
[0027]在本申请实施例中,每个互联网用户在互联网上都有其身份标签,互联网用户通过其身份标签来被他人识别。用户的身份标签一般由用户自己填写,身份标签的信息包括姓名、职业、专业、工作单位、电话号码、邮件、帐号等信息。
[0028]在本申请实施例中,相同属性的用户指具有相同专业背景的用户。比如,若干用户的身份标签内的专业信息均为医生,那么上述用户即具有相同的属性。需要说明的是,有些用户的身份标签只填写了职业信息,虽然职业信息不同但也有可能具有相同专业,即相同属性。比如,有的用户身份标签的职业为律师、有的用户身份标签的职业为法官,虽然二者的职业不一样,但均具有法律专业背景,因此二者也可以视为具有相同属性。另外,从用户的身份标签的工作单位也可以大致确认其专业。比如,用户的身份标签的工作单位为IBM,那该用户的专业很有可能是IT专业,那么该用户与其他IT专业的用户属于相同的属性。
[0029]在本申请实施例中,若干相互关联的用户指若干具有直接联系或间接联系的用户。具有直接联系的用户是指两用户之间有可以直接联络。比如,用户A与用户B在即时通讯工具中互为好友,或者在各自的电话簿中互有对方的号码。间接联系的用户指两用户之间无直接联系,但均与一个第三用户有直接联系,那么该两用户之间就存在间接联系。比如,用户A与用户B有直接联系、用户B与用户C之间也有直接联系,那么用户A与用户C之间就存在间接联系。
[0030]图2为步骤Sll确定包括若干相互关联且具有相同属性的用户的用户群的进一步示意图,具体包括:
[0031]Slll:选定一个具有特定属性的中心用户。
[0032]比如,选定A为一个中心用户,其具有医学专业背景。
[0033]S112:确定与所述中心用户有直接联系和间接联系的关联用户。
[0034]比如,中心用户A与bl、b2、b3之间有直接联系,bl与cl、c2、c3之间有直接联系,b2与c4、c5、d6之间有直接联系,b3与c7、c8、c9之间也有直接联系。关联用户bl、b2、b3是中心用户A的第一度关系圈(或称第一度人脉圈),关联用户cl、c2、c3、c4、c5、c6、c7、c8、c9为中心用户A的第二度关系圈。需要说明的,根据信息库对专业信息覆盖面或量的需求,以中心用户A为基础,不局限于第一度、第二度关系圈,可以在第二度关系圈的基础上可以向外逐步展开第三度关系圈,以此类推可以得需要的关联用户。
[0035]S113:从确定出的关联用户中,筛选出与所述中心用户具有相同属性的若干关联用户,构成用户群。
[0036]继续沿用上例说明,即将S112步骤确定的关联用户bl-b3,cl_c9中与中心用户A不具有相同属性的关联用户删除,筛选出与中心用户A具有相同属性的关联用户。
[0037]通过步骤Slll至S113即可确定包括若干相互关联且具有相同属性的用户的用户群。
[0038]S12:记录所述用户群内每个用户产生的与其属性相匹配的信息。
[0039]在本申请实施例中,一般用户在互联网上会产生一些操作行为,比如,浏览信息、收藏浏览过得信息及发表相关信息。记录所述用户群内每个用户产生的与其属性相匹配的信息,具体指记录所述用户群内每个用户在互联网上发表、浏览、收藏的与其专业相匹配的?目息O
[0040]收集记录用户在互联网上产生的信息可以通过cookie追踪来实现。cookie是由用户访问网站的后台服务器端生成,发送给浏览器,浏览器会将cookie的key/value保存到某个目录下的文本文件内,用户下次请求访问同一网站时就发送该cookie给该网站的后台服务器。Cookie中包含了各种互联网账号、计算机名、使用的浏览器、曾经访问的网站、浏览记录等信息。因此,通过cookie可以识别用户群内的所有用户并追踪用户产生的与其专业相关的信息。
[0041]S13:保存记录到的所有信息而形成信息库。
[0042]在本申请实施例中,可以根据记录的信息的重要性标识,或者用户对记录的信息的浏览行为,从记录的信息中筛选出重要信息;保存筛选出的重要信息,形成信息库。根据用户对记录的信息的浏览行为,从记录的信息中筛选出重要信息,具体包括:根据用户对记录的信息的浏览时间和/或翻页速度,从记录的信息中筛选出重要信息。需要说明的是,用户通过专业浏览器在互联网上进行操作行为时,可以针对自己浏览过的信息、收藏的信息进行重要性的标识。
[0043]保存记录到的所有信息而形成信息库,具体包括:保存所有信息对应网页的URL ;抓取URL对应的网页内容;将网页内容存储形成信息库。
[0044]以上为本申请实施例提供的信息库的生成方法,基于同样的思路,本申请实施例提供的信息库的生成装置,如图3所示。
[0045]图3为本申请实施例提供的信息库的生成装置结构示意图,具体包括:
[0046]确定模块21,用于确定包括若干相互关联且具有相同属性的用户的用户群;
[0047]记录模块22,用于记录所述用户群内每个用户产生的与其属性相匹配的信息;
[0048]保存模块23,用于保存记录到的所有信息而形成信息库。
[0049]所述确定模块21,具体包括:
[0050]选定单元211,用于选定一个具有特定属性的中心用户;
[0051]确定单元212,用于确定与所述中心用户有直接联系和间接联系的关联用户;
[0052]筛选单元213,用于从确定出的关联用户中,筛选出与所述中心用户具有相同属性的若干关联用户,构成用户群。
[0053]所述属性是用户的专业。
[0054]所述记录模块22,具体用于记录所述用户群内每个用户在互联网上发表、浏览、收藏的与其属性相匹配的信息。
[0055]所述保存模块23,具体用于根据记录的信息的重要性标识,或者用户对记录的信息的浏览行为,从记录的信息中筛选出重要信息;保存筛选出的重要信息,形成信息库。
[0056]所述用户对记录的信息的浏览行为,具体包括:用户对记录的信息的浏览时间和/或翻页速度。
[0057]所述保存模块23,具体包括:
[0058]保存单元231,用于保存所有信息对应网页的URL ;
[0059]抓取单元232,用于抓取URL对应的网页内容;
[0060]存储单元233,用于将网页内容存储形成信息库。
[0061]本申请提供的一种信息库的生成方法及装置,通过搜集用户群内所有用户具有相同类属性的信息,来构建具有特有属性特征的信息库,以满足用户搜索特有属性信息的需求。特别地,当用户需要搜索专业信息时,本申请信息库的生成方法,包括搜集具有相同专业背景且相互关联的人员产生的专业信息,并通过搜集到的专业信息为基础建立信息库。由于信息库内的信息均为专业人员产生的信息,因此信息库内的信息专业、全面可供搜索用户搜索使用。
[0062]图4为本申请实施例提供的信息的搜索方法,具体包括以下步骤:
[0063]S31:接收输入的搜索词。
[0064]在本申请实施例中,搜索引擎接收搜索用户输入的搜索词,该搜索词与其所要查找的目标信息相对应。
[0065]S32:查询与所述输入的搜索词对应的信息库。
[0066]在本申请实施例中,搜索引擎后台数据库中包含若干各种类型的专业信息库,因此先查询与所述搜索词对应的信息库。比如,需要搜索关于补牙、植牙的信息,则先查询医学类的信息库。
[0067]S33:提供所述信息库内与所述搜索词相匹配的信息。
[0068]当步骤S31接收输入的搜索词为特定人员的姓名时,同时该特定人员具有特定的专业时。步骤S33所述提供所述信息库内与所述搜索词相匹配的信息,进一步具体包括:
[0069]查找到与所述特定人员相关联且具有相同专业的关联人员;
[0070]提供所述特定人员及其关联人员在信息库内的所有信息。
[0071]所述查找到与所述特定人员相关联且具有相同专业的关联人员,具体包括:
[0072]查找到与所述特定人员有直接联系和间接联系的关联人员;
[0073]从所述关联人员中,筛选出与所述特定人员有具有相同专业的关联人员。
[0074]需要说明的是,所述信息库是通过信息库的生成方法所建立的信息库,该信息库内的信息为特定人员及关联人员在互联网上发表、浏览、收藏的与其专业相关的信息。
[0075]本申请实施例提供一种信息的搜索方法,用户在搜索信息时,能够快速查找到该索搜词对应的信息库,并提用户想要得到的准确信息。特别在以特定人员的姓名为关键词搜索专业信息时,该特定人员及与该特定人员相关联的人员产生的信息均会被搜索出来,使得搜索人员得到的信息更专业、更全面、更准确。
[0076]本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0077]本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0078]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0079]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0080]在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
[0081]内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
[0082]计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0083]还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0084]本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0085]以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
【主权项】
1.一种信息库的生成方法,其特征在于,包括: 确定包括若干相互关联且具有相同属性的用户的用户群; 记录所述用户群内每个用户产生的与其属性相匹配的信息; 保存记录到的所有信息而形成信息库。2.如权利要求1所述的方法,其特征在于,所述确定包括若干相互关联且具有相同属性的用户的用户群,具体包括: 选定一个具有特定属性的中心用户; 确定与所述中心用户有直接联系和间接联系的关联用户; 从确定出的关联用户中,筛选出与所述中心用户具有相同属性的若干关联用户,构成用户群。3.如权利要求1或2所述的方法,其特征在于,所述属性是用户的专业。4.如权利要求1所述的方法,其特征在于,所述记录所述用户群内每个用户产生的与其属性相匹配的信息,具体包括: 记录所述用户群内每个用户在互联网上发表、浏览、收藏的与其属性相匹配的信息。5.如权利要求4所述的方法,其特征在于,保存记录到的所有信息而形成信息库,具体包括: 根据记录的信息的重要性标识,或者用户对记录的信息的浏览行为,从记录的信息中筛选出重要信息; 保存筛选出的重要信息,形成信息库。6.如权利要求5所述的方法,其特征在于,根据用户对记录的信息的浏览行为,从记录的信息中筛选出重要信息,具体包括: 根据用户对记录的信息的浏览时间和/或翻页速度,从记录的信息中筛选出重要信息。7.如权利要求1所述的方法,其特征在于,所述保存记录到的所有信息而形成信息库,具体包括: 保存所有信息对应网页的URL ; 抓取URL对应的网页内容; 将网页内容存储形成信息库。8.一种信息库的生成装置,其特征在于,包括: 确定模块,用于确定包括若干相互关联且具有相同属性的用户的用户群; 记录模块,用于记录所述用户群内每个用户产生的与其属性相匹配的信息; 保存模块,用于保存记录到的所有信息而形成信息库。9.如权利要求8所述的装置,其特征在于,所述确定模块,具体包括: 选定单元,用于选定一个具有特定属性的中心用户; 确定单元,用于确定与所述中心用户有直接联系和间接联系的关联用户; 筛选单元,用于从确定出的关联用户中,筛选出与所述中心用户具有相同属性的若干关联用户,构成用户群。10.如权利要求8或9所述的装置,其特征在于,所述属性是用户的专业。11.如权利要求8所述的装置,其特征在于,所述记录模块,具体用于记录所述用户群内每个用户在互联网上发表、浏览、收藏的与其属性相匹配的信息。12.如权利要求11所述的装置,其特征在于,所述保存模块,具体用于根据记录的信息的重要性标识,或者用户对记录的信息的浏览行为,从记录的信息中筛选出重要信息; 保存筛选出的重要信息,形成信息库。13.如权利要求12所述的装置,其特征在于,所述用户对记录的信息的浏览行为,具体包括: 用户对记录的信息的浏览时间和/或翻页速度。14.如权利要求8所述的装置,其特征在于,所述保存模块,具体包括: 保存单元,用于保存所有信息对应网页的URL ; 抓取单元,用于抓取URL对应的网页内容; 存储单元,用于将网页内容存储形成信息库。15.一种信息的搜索方法,其特征在于,包括: 接收输入的搜索词; 查询到与所述输入搜索词对应的信息库; 提供所述信息库内与所述搜索词相匹配的信息。16.如权利要求15所述的方法,其特征在于,所述搜索词为特定人员的姓名,所述特定人员具有特定的专业。17.如权利要求16所述的方法,其特征在于,所述提供所述信息库内与所述搜索词相匹配的信息,具体包括: 查找到与所述特定人员相关联且具有相同专业的关联人员; 提供所述特定人员及其关联人员在信息库内的所有信息。18.如权利要求17所述的方法,其特征在于,所述查找到与所述特定人员相关联且具有相同专业的关联人员,具体包括: 查找到与所述特定人员有直接联系和间接联系的关联人员; 从所述关联人员中,筛选出与所述特定人员有具有相同专业的关联人员。19.如权利要求17或18所述的方法,其特征在于,所述信息库内的信息为特定人员及关联人员在互联网上发表、浏览、收藏的与其专业相关的信息。
【文档编号】G06F17/30GK106033413SQ201510102743
【公开日】2016年10月19日
【申请日】2015年3月9日
【发明人】李立中, 虞教来
【申请人】阿里巴巴集团控股有限公司