一种聚合搜索方法及聚合搜索系统的制作方法
【专利摘要】本发明实施例公开了一种聚合搜索方法及聚合搜索系统,用于根据关键词词库确定搜索关键词对应的搜索主题,并筛除掉不符合预置规则的待爬取网页,使得聚合搜索系统的工作量减小且提高了搜索信息的准确率。本发明实施例方法包括:建立关键词词库;接收用户输入的搜索关键词,根据关键词词库确定搜索主题;根据搜索主题得到待爬取网页;根据预置规则对待爬取网页进行筛选,得到目标网页;使用网络爬虫爬取目标网页,得到爬取结果。
【专利说明】
一种聚合搜索方法及聚合搜索系统
技术领域
[0001] 本发明涉及计算机技术领域,尤其涉及一种聚合搜索方法及聚合搜索系统。
【背景技术】
[0002] 随着网络技术日新月异的发展,互联网俨然已成为信息的最大载体。因此如何在 浩瀚如海的信息空间里快速查找并获取自己需要或感兴趣的信息已成为信息时代最根本 的问题之一。
[0003] 目前的搜索引擎大多数是面向全部信息的,可以称之为综合性搜索引擎,网络爬 虫应用于综合性搜索引擎,是一个自动提取网页的程序,它为综合性搜索引擎从互联网上 爬取网页,其工作原理为:从一个或若干初始网页的统一资源定位器(Uniform Resoure Locator,URL)开始爬取,在爬取网页的过程中,不断从当前网页上抽取新的URL放入队列, 直到满足搜索系统的一定停止条件。综合性搜索引擎的搜索方法为:接收用户输入的搜索 信息,根据搜索信息使用网络爬虫爬取相关信息的网页,得到爬取结果。
[0004] 但是,随着信息多元化的发展,这种适用于所有用户的综合性搜索引擎显然已经 不能满足特定用户更加深入的查询要求,特殊用户对信息的需求往往是针对某些受限领域 和面向特定主题的,综合性搜索引擎的网络爬虫在爬取网页信息时,由于没有确定的搜索 主题,使得网络爬虫爬取的覆盖范围将非常广,从而使得网络爬虫的工作量巨大,爬取结果 的准确率低;并且爬取结果中会包含无用信息,例如广告等,进一步的降低了爬取结果的准 确率。
【发明内容】
[0005] 本发明实施例提供了一种聚合搜索方法及聚合搜索系统,用于根据关键词词库确 定搜索关键词对应的搜索主题,并筛除掉不符合预置规则的待爬取网页,使得聚合搜索系 统的工作量减小且提高了搜索信息的准确率。
[0006] 本发明第一方面提供一种聚合搜索方法,应用于聚合搜索系统,所述聚合搜索系 统包括业务组件及核心组件,所述聚合搜索方法包括:
[0007] 建立关键词词库;
[0008] 接收用户输入的搜索关键词,根据所述关键词词库确定搜索主题;
[0009] 根据所述搜索主题得到待爬取网页;
[0010] 根据预置规则对所述待爬取网页进行筛选,得到目标网页;
[0011] 使用网络爬虫爬取所述目标网页,得到爬取结果。
[0012] 结合本发明第一方面,本发明第一方面第一实施方式中,所述建立关键词词库包 括:
[0013] 获取预设关键词;
[0014] 确定所述预设关键词的预设主题,并根据所述预设关键词和所述预设主题生成主 题索引表,根据所述主题索引表生成关键词词库。
[0015] 结合本发明第一方面第一实施方式,本发明第一方面第二实施方式中,所述接收 用户输入的搜索关键词,根据所述关键词词库确定搜索主题,包括:
[0016] 接收用户输入的搜索关键词;
[0017] 根据所述搜索关键词从所述关键词词库中提取出主题索引表,根据所述搜索关键 词和所述主题索引表确定搜索主题。
[0018] 结合本发明第一方面第二实施方式,本发明第一方面第三实施方式中,所述接收 用户输入的搜索关键词之后及所述根据所述关键词词库确定搜索主题之前,还包括:
[0019] 根据预先设置的关键词数据库表设置关键词配置信息;
[0020] 或,
[0021] 在关键词配置界面设置关键词配置信息,所述关键词配置信息包含关键词关系 表、关键词过滤表及关键词采集频率。
[0022] 结合本发明第一方面第三实施方式,本发明第一方面第四实施方式中,所述接收 用户输入的搜索关键词之前,还包括:
[0023] 建立聚合网址库,所述聚合网址库包含至少一个网址源;
[0024] 建立帐号资源库,所述帐号资源库包含至少一个网页的登录帐号;
[0025]设置网页访问优先级。
[0026] 结合本发明第一方面第四实施方式,本发明第一方面第五实施方式中,所述根据 所述搜索主题得到待爬取网页包括:
[0027] 根据所述关键词配置信息确定搜索频率;
[0028] 根据所述聚合网址库确定搜索范围;
[0029] 根据所述搜索主题、所述搜索频率及所述搜索范围搜索得到待爬取网页。
[0030] 结合本发明第一方面,本发明第一方面第六实施方式中,所述根据预置规则对所 述待爬取网页进行筛选,得到目标网页,包括:
[0031] 获取所述待爬取网页的网页参数;
[0032] 根据所述网页参数判断所述待爬取网页是否符合预置规则;
[0033] 若是,则确定所述待爬取网页是目标网页;
[0034] 若否,则确定所述待爬取网页不是目标网页。
[0035] 结合本发明第一方面第六实施方式,本发明第一方面第七实施方式中,所述使用 网络爬虫爬取所述目标网页,得到爬取结果,包括:
[0036] 获取所述目标网页的网页URL;
[0037] 根据所述网页URL,使用网络爬虫爬取所述目标网页的网页数据,得到爬取结果。
[0038] 结合本发明第一方面第七实施方式,本发明第一方面第八实施方式中,所述聚合 搜索方法还包括:
[0039] 将所述爬取结果保存至爬取结果数据库中;
[0040] 获取查询指令,根据所述查询指令从所述数据库中抽取出查询结果;
[0041 ]将所述查询结果保存至查询结果数据库中。
[0042]本发明第二方面提供一种聚合搜索系统,包括:
[0043] 业务组件及核心组件;
[0044] 所述业务组件,用于建立关键词词库;
[0045] 所述业务组件,还用于接收用户输入的搜索关键词,根据所述关键词词库确定搜 索主题;
[0046] 所述业务组件,还用于根据所述搜索主题得到待爬取网页;
[0047] 所述核心组件,用于根据预置规则对所述待爬取网页进行筛选,得到目标网页;
[0048] 所述核心组件,还用于使用网络爬虫爬取所述目标网页,得到爬取结果。
[0049] 结合本发明第二方面,本发明第二方面第一实施方式中,所述业务组件包括:获取 单元和关键词词库创建单元;
[0050] 所述获取单元,用于获取预设关键词;
[0051] 所述关键词词库创建单元,用于确定所述预设关键词的预设主题,并根据所述预 设关键词和所述预设主题生成主题索引表,根据所述主题索引表生成关键词词库。
[0052] 结合本发明第二方面第一实施方式,本发明第二方面第二实施方式中,所述业务 组件还包括:接收单元和关键词词库单元;
[0053] 所述接收单元,用于接收用户输入的搜索关键词;
[0054] 所述关键词词库单元,用于根据所述搜索关键词从所述关键词词库中提取出主题 索引表,根据所述搜索关键词和所述主题索引表确定搜索主题。
[0055]结合本发明第二方面第二实施方式,本发明第二方面第三实施方式中,所述业务 组件还包括:配置单元;
[0056] 所述配置单元,用于根据预先设置的关键词数据库表设置关键词配置信息;
[0057] 或,
[0058] 所述配置单元,还用于在关键词配置界面设置所述关键词配置信息,所述关键词 配置信息包含关键词关系表、关键词过滤表及关键词采集频率。
[0059] 结合本发明第二方面第三实施方式,本发明第二方面第四实施方式中,所述业务 组件还包括:聚合网址库创建单元和帐号资源库创建单元;
[0060] 所述聚合网址库创建单元,用于建立聚合网址库,所述聚合网址库包含至少一个 网址源;
[0061] 所述帐号资源库创建单元,用于建立帐号资源库,所述帐号资源库包含至少一个 网页的登录帐号;
[0062] 所述配置单元,还用于设置网页访问优先级。
[0063] 结合本发明第二方面第四实施方式,本发明第二方面第五实施方式中,所述业务 组件还包括:搜索单元;
[0064] 所述搜索单元,用于根据所述关键词配置信息确定搜索频率;
[0065] 所述搜索单元,还用于根据所述聚合网址库确定搜索范围;
[0066] 所述搜索单元,还用于根据所述搜索主题、所述搜索频率及所述搜索范围搜索得 到待爬取网页。
[0067] 结合本发明第二方面,本发明第二方面第六实施方式中,所述核心组件包括:添加 队列接口及网页筛选单元;
[0068] 所述添加队列接口,用于获取所述待爬取网页的网页参数;
[0069] 所述网页筛选单元,用于根据所述网页参数判断所述待爬取网页是否符合预置规 则;
[0070] 所述网页筛选单元,还用于当所述网页参数符合预置规则时,确定所述待爬取网 页是目标网页;
[0071] 所述网页筛选单元,还用于当所述网页参数不符合预置规则时,确定所述待爬取 网页不是目标网页。
[0072] 结合本发明第二方面第六实施方式,本发明第二方面第七实施方式中,所述核心 组件还包括:获取下载任务接口;
[0073]所述获取下载任务接口,用于获取所述目标网页的网页URL;
[0074] 所述获取下载任务接口,还用于根据所述网页URL,使用网络爬虫爬取所述目标网 页的网页数据,得到爬取结果。
[0075] 结合本发明第二方面第七实施方式,本发明第二方面第八实施方式中,所述核心 组件还包括:保存下载任务接口、获取抽取任务接口及保存抽取任务接口;
[0076] 所述保存下载任务接口,用于将所述爬取结果保存至爬取结果数据库中;
[0077] 所述获取抽取任务接口,用于获取查询指令,根据所述查询指令从所述数据库中 抽取出查询结果;
[0078] 所述保存抽取任务接口,用于将所述查询结果保存至查询结果数据库中。
[0079]综上所述,本发明实施例具有以下优点:
[0080] 根据关键词词库可以确定搜索关键词所对应的搜索主题,与现有技术中没有确定 的搜索主题相比,可以减少得到待爬取网页的数量,使得网络爬虫的工作量减小,并且提高 了爬取结果的准确率;筛除掉不符合预置规则的待爬取网页,可以进一步减少网络爬虫的 工作量,因此提高了聚合搜索系统的搜索信息准确率,同时降低了聚合搜索系统的工作量。
【附图说明】
[0081] 为了更清楚地说明本发明实施例技术方案,下面将对实施例和现有技术描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施 例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获 得其它的附图。
[0082] 图1为本发明实施例中聚合搜索系统的系统示意图;
[0083]图2为本发明实施例中聚合搜索方法一个实施例的流程示意图;
[0084] 图3为本发明实施例中判断待爬取网页是否符合预置规则的流程示意图;
[0085] 图4为本发明实施例中聚合搜索系统的一个实施例的结构示意图;
[0086] 图5为本发明实施例中聚合搜索系统的另一个实施例的结构示意图。
【具体实施方式】
[0087] 本发明实施例提供了一种聚合搜索方法及聚合搜索系统,用于根据关键词词库确 定搜索关键词对应的搜索主题,并筛除掉不符合预置规则的待爬取网页,使得聚合搜索系 统的工作量减小且提高了搜索信息的准确率。
[0088] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的 附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是 本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人 员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范 围。
[0089] 本发明中,聚合搜索系统按组件化进行设计,如图1所示,分为核心组件及业务组 件,业务组件是面向用户的,例如关键词组件可以用于接收用户输入的搜索关键词,核心组 件具有外部服务接口,外部服务接口可以是多个,并且可以定义功能,业务组件通过调用外 部服务接口与核心组件建立组件连接,然后核心组件执行外部服务接口对应的功能。
[0090] 下面通过具体实施例,对应用于聚合搜索系统的聚合搜索方法进行详细说明。
[0091] 请参阅图2,本发明实施例提供一种聚合搜索方法,应用于聚合搜索系统,聚合搜 索系统包括业务组件及核心组件,聚合搜索方法包括:
[0092] 201、建立关键词词库;
[0093]本实施例中,在聚合搜索系统运行之前,需要先建立关键词词库,关键词词库的作 用是可以根据搜索关键词确定搜索主题。
[0094] 202、接收用户输入的搜索关键词,根据关键词词库确定搜索主题;
[0095]本实施例中,当用户需要获得特定信息时,在关键词输入界面输入搜索关键词,例 如,用户想要搜索关于物理分子方面的信息,在关键词输入界面输入"原子、分子和中子", 接收用户输入的搜索关键词,在得到搜索关键词之后,根据关键词词库和搜索关键词确定 搜索主题。
[0096] 203、根据搜索主题得到待爬取网页;
[0097] 本实施例中,根据搜索关键词确定了要搜索的搜索主题后,通过搜索引擎按照搜 索主题在互联网中获得待爬取网页。
[0098] 204、根据预置规则对待爬取网页进行筛选,得到目标网页;
[0099] 本实施例中,搜索引擎获得的待爬取网页虽然符合搜索主题,但待爬取网页中的 信息依然可能会存在对用户无用的信息,比如广告信息,因此,预先设置一套预置规则,对 待爬取网页进行筛选,将不符合预置规则要求的待爬取网页过滤掉,符合预置规则的待爬 取网页留下来,作为目标网页。
[0100] 205、使用网络爬虫爬取目标网页,得到爬取结果。
[0101] 本实施例中,确定了目标网页后,聚合搜索系统从爬虫数据库中选择出网络爬虫, 使用网络爬虫爬取目标网页,得到爬取结果。
[0102] 本发明实施例中,根据关键词词库可以确定搜索关键词所对应的搜索主题,与现 有技术中没有确定的搜索主题相比,可以减少得到待爬取网页的数量,使得网络爬虫的工 作量减小,并且提高了爬取结果的准确率;筛除掉不符合预置规则的待爬取网页,可以进一 步减少网络爬虫的工作量,因此提高了聚合搜索系统的搜索信息准确率,同时降低了聚合 搜索系统的工作量。
[0103] 可选的,本发明的一些实施例中,建立关键词词库包括:
[0104] 获取预设关键词;
[0105]确定预设关键词的预设主题,并根据预设关键词和预设主题生成主题索引表,根 据主题索引表生成关键词词库。
[0106]本实施例中,聚合搜索系统在建立关键词词库时,可以通过网络导入或者用户输 入的方式获取预设关键词,预设主题可以是根据解析预设关键词的词义得到的,还可以是 通过其他方式获得的,具体方式不做限定,在得到预设关键词的预设主题后,根据预设关键 词和预设主题生成主题索引表,根据主题索引表生成关键词词库。
[0107] 可选的,本发明的一些实施例中,接收用户输入的搜索关键词,根据关键词词库确 定搜索主题,包括:
[0108] 接收用户输入的搜索关键词;
[0109] 根据搜索关键词从关键词词库中提取出主题索引表,根据搜索关键词和主题索引 表确定搜索主题。
[0110] 本实施例中,接收到用户输入的搜索关键词,根据关键词提取出关键词词库中的 主题索引表,如果搜索关键词与预设关键词是一致的或者是语义相近的,则通过主题索引 表可以得到搜索主题,需要说明的是,如果不一致,不确定搜索主题,则不进行后续的操作。
[0111] 可选的,本发明的一些实施例中,接收用户输入的搜索关键词之后及根据关键词 词库确定搜索主题之前,还包括:
[0112]根据预先设置的关键词数据库表设置关键词配置信息;
[0113] 或,
[0114] 在关键词配置界面设置关键词配置信息,关键词配置信息包含关键词关系表、关 键词过滤表及关键词采集频率。
[0115] 本实施例中,关键词配置信息可以是用户在关键词配置界面进行设置,也可以是 根据根据预先设置的关键词数据库表设置的,关键词数据库表如表1所示。表1包含关键词 关系表及关键词采集频率,关键词过滤表未体现在表1中。
[0116] 表1
[0119] 可选的,本发明的一些实施例中,接收用户输入的搜索关键词之前,还包括:
[0120] 建立聚合网址库,聚合网址库包含至少一个网址源;
[0121 ]建立帐号资源库,帐号资源库包含至少一个网页的登录帐号;
[0122] 设置网页访问优先级。
[0123] 本实施例中,聚合搜索系统在接收搜索关键词之前,还需要建立聚合网址库、帐号 资源库并且设置网页访问优先级,聚合网址库包含至少一个网址源,至少一个网址源用于 搜索得到与关键词词库相关的网页,网址源可以是百度知道、360问答或者搜狗问问等具有 搜索引擎功能的网址源,帐号资源库包含至少一个网页的登录帐号,用于登录进入后续操 作中得到目标网页中,由于聚合搜索一般覆盖范围广,涉及到的网页数量多,因此需要设置 网页访问优先级。
[0124] 可选的,本发明的一些实施例中,根据预置规则对待爬取网页进行筛选,得到目标 网页,包括:
[0125] 获取待爬取网页的网页参数;
[0126] 根据网页参数判断待爬取网页是否符合预置规则;
[0127] 若是,则确定待爬取网页是目标网页;
[0128] 若否,则确定待爬取网页不是目标网页。
[0129] 本实施例中,得到待爬取网页后获取待爬取网页的网页参数,将待爬取网页及网 页参数添加进入待下载任务队列中,根据网页参数判断待爬取网页是否符合预置规则的步 骤如图3所示:
[0130] 301、待下载任务队列中每个队列对象的对象参数中包含一个待爬取网页的相关 信息以及队列对象的相关信息,对象参数如表2,
[0131] 表2
[0134] 从待爬取网页所对应的队列对象的对象参数中可以得到网页参数,例如,参数 "url"。根据网页参数判断待爬取网页是否符合预置规则可以分为如下三步:
[0135] 302、验证待下载任务队列中队列对象的合法性,检查队列对象是否为空,如果为 空,则队列对象对应的待爬取网页不是目标网页,执行步骤306;如果队列对象不为空,继续 检查对象参数中每一项必填参数是否值缺失,例如网页参数的参数"url"的正则验证:
[0136] ~(https|http|ftp|rtsp|mms)://(\\w+(_\\w+)*)(\\?(\\w+(_\\w+)*))+ (\\?\\S*)?$
[0137] 如果参数"url"正则验证不通过,则确定该队列对象对应的待爬取网页不是目标 网页;如果如果参数"url"正则验证通过了,则执行步骤303。
[0138] 303、将合法性验证通过的队列对象加入待分析任务队列中;
[0139] 304、对待分析任务队列中队列对象的待爬取网页进行过滤和去重;
[0140] 过滤步骤为:根据网页参数确定待爬取网页的网页规则,剔除网页规则服务中不 满足网页规则的待爬取网页,如互联网中有许多广告链接,爬取广告链接并无益处,为了过 滤无用的广告链接,则网页规则服务中必须要识别广告链接或者不满足网页规则的都要过 滤掉,例如爬取规则:http ://? *chinatax. gov ? cn/n810341/ .*/index_. * ?_[ 1-9] .html,此 规则爬取此域名下的前9页,包含第9页,则第10,11,..页不符合此规则,则过滤掉;
[0141] 去重步骤为:根据网页统一资源定位器URL判重复,网络中网页URL具有唯一行,将 网页URL进行md5加密,转化成长度为2的字节数组,数组第一和第二位值(都是数字)存储在 数据库字段keyHigh,keyLow,并对keyHigh,keyLow建立联合索引,数字建立索引小,占用内 存小和查询速度快,比较多个待爬取网页的网页参数的"keyHigh"和"keyLow",如果多个待 爬取网页的网页参数的"keyHigh"和"keyLow"一致,则只留下一个待爬取网页作为目标网 页;
[0142] 如果通过过滤和去重,则执行步骤305,未通过过滤或/和去重的执行步骤306。
[0143] 305、将目标网页加入处理完成队列中。
[0144] 306、将待爬取网页删除或移除队列等处理。
[0145] 307、如果在执行步骤302和步骤304时,队列对象存在无法判断的异常情况时,将 队列对象的待爬取网页加入异常任务队列中。
[0146] 可选的,本发明的一些实施例中,使用网络爬虫爬取目标网页,得到爬取结果,包 括:
[0147] 获取目标网页的网页URL;
[0148] 根据网页URL,使用网络爬虫爬取目标网页的网页数据,得到爬取结果。
[0149] 本实施例中,爬虫数据库中包含的网络爬虫的类型有批量型爬虫、增量型爬虫和 垂直型爬虫。批量型爬虫有比较明确的爬取范围和目标,当爬虫达到设定的目标后,即停止 爬取过程,至于具体目标可能各异,也许是设定爬取一定数量的网页即可,也许是设定爬取 消耗的时间等。增量型爬虫与批量型爬虫不同,会保持持续不断的爬取,对于爬取到的网 页,要定期更新,因为互联网的网页处于不断变化中,新增网页、网页被删除或者网页内容 更改都很常见,而增量型爬虫需要及时反映这种变化,所以处于持续不断的爬取过程中,不 是在爬取新网页,就是在更新已有网页。垂直型爬虫关注特定主题内容或者属于特定行业 的网页,比如对于健康网站来说,只需要从互联网页而里找到与健康相关的页面内容即可, 其他行业的内容不在考虑范围。
[0150] -般情况下本方案选择的网络爬虫是垂直型爬虫,但是特殊情况下,也可以选择 其他类型的网络爬虫,具体选择视情况而定,不做具体限定。
[0151] 选择了网络爬虫后,使用网络爬虫根据网页URL爬取目标网页的网页数据,得到爬 取结果。
[0152] 需要说明的是,如果目标网页的设置是需要登录才能获取网页数据,则查询业务 组件中的资源账号库,获取资源账号库中目标网页的僵尸账号,通过僵尸账号模拟登录获 取网页数据,得到爬取结果。
[0153] 可选的,本发明的一些实施例中,聚合搜索方法还包括:
[0154] 将爬取结果保存至爬取结果数据库中;
[0155] 获取查询指令,根据查询指令从爬取结果数据库中抽取出查询结果;
[0156] 将查询结果保存至查询结果数据库中。
[0157] 本实施例中,聚合搜索系统在获得爬取结果后,将爬取结果存储到爬取结果数据 库中,爬取结果包含结构化数据(如主题和作者等)和非结构化数据(主要指视频、excel及 PPt等资源文件),存储结构化数据的爬取结果数据库为关系型数据库,在获取到用户或者 系统发出的的查询指令后,根据查询指令从爬取结果数据库中抽取出满足查询需求的查询 结果,将查询结果保存在查询结果数据库中。
[0158] 上述实施例介绍了聚合搜索方法,下面通过实施例详细介绍本发明中的聚合搜索 系统。
[0159] 请参阅图4,本发明实施例提供一种聚合搜索系统,包括:
[0160] 业务组件401及核心组件402;
[0161] 业务组件401,用于建立关键词词库;
[0162] 业务组件401,还用于接收用户输入的搜索关键词,根据关键词词库确定搜索主 题;
[0163] 业务组件401,还用于根据搜索主题得到待爬取网页;
[0164] 核心组件402,用于根据预置规则对待爬取网页进行筛选,得到目标网页;
[0165] 核心组件402,还用于使用网络爬虫爬取目标网页,得到爬取结果。
[0166] 本发明实施例中,业务组件401根据关键词词库可以确定搜索关键词所对应的搜 索主题,与现有技术中没有确定的搜索主题相比,可以减少得到待爬取网页的数量,使得网 络爬虫的工作量减小,并且提高了爬取结果的准确率;核心组件402筛除掉不符合预置规则 的待爬取网页,可以进一步减少网络爬虫的工作量,因此提高了聚合搜索系统的搜索信息 准确率,同时降低了聚合搜索系统的工作量。
[0167] 可选的,如图5所示,本发明的一些实施例中,业务组件401包括:获取单元501和关 键词词库创建单元502;
[0168] 获取单元501,用于获取预设关键词;
[0169] 关键词词库创建单元502,用于确定预设关键词的预设主题,并根据预设关键词和 预设主题生成主题索引表,根据主题索引表生成关键词词库。
[0170] 可选的,如图5所示,本发明的一些实施例中,业务组件401还包括:接收单元503和 关键词词库单元504;
[0171] 接收单元503,用于接收用户输入的搜索关键词;
[0172] 关键词词库单元504,用于根据=搜索关键词从=关键词词库中提取出主题索引 表,根据搜索关键词和主题索引表确定搜索主题。
[0173] 可选的,如图5所示,本发明的一些实施例中,业务组件401还包括:配置单元505;
[0174] 配置单元505,用于根据预先设置的关键词数据库表设置关键词配置信息;
[0175] 或,
[0176] 配置单元505,还用于在关键词配置界面设置关键词配置信息,关键词配置信息包 含关键词关系表、关键词过滤表及关键词采集频率。
[0177] 可选的,如图5所示,本发明的一些实施例中,业务组件401还包括:聚合网址库创 建单元506和帐号资源库创建单元507;
[0178] 聚合网址库创建单元506,用于建立聚合网址库,聚合网址库包含至少一个网址 源;
[0179] 帐号资源库创建单元507,用于建立帐号资源库,帐号资源库包含至少一个网页的 登录帐号;
[0180] 配置单元505,还用于设置网页访问优先级。
[0181]可选的,如图5所示,本发明的一些实施例中,业务组件401还包括:搜索单元508;
[0182] 搜索单元508,用于根据关键词配置信息确定搜索频率;
[0183] 搜索单元508,还用于根据聚合网址库确定搜索范围;
[0184] 搜索单元508,还用于根据搜索主题、搜索频率及搜索范围搜索得到待爬取网页。
[0185] 可选的,如图5所示,本发明的一些实施例中,核心组件402包括:添加队列接口 509 及网页筛选单元510;
[0186] 添加队列接口 509,用于获取待爬取网页的网页参数;
[0187] 网页筛选单元510,用于根据网页参数判断待爬取网页是否符合预置规则;
[0188] 网页筛选单元510,还用于当网页参数符合预置规则时,确定待爬取网页是目标网 页;
[0189] 网页筛选单元510,还用于当网页参数不符合预置规则时,确定待爬取网页不是目 标网页。
[0190] 可选的,如图5所示,本发明的一些实施例中,核心组件402还包括:获取下载任务 接口 511;
[0191] 获取下载任务接口 511,用于获取目标网页的网页URL;
[0192] 获取下载任务接口 511,还用于根据网页URL,使用网络爬虫爬取目标网页的网页 数据,得到爬取结果。
[0193] 可选的,如图5所示,本发明的一些实施例中,核心组件402还包括:保存下载任务 接口 512、获取抽取任务接口 513及保存抽取任务接口 514;
[0194] 保存下载任务接口 512,用于将爬取结果保存至爬取结果数据库中;
[0195] 获取抽取任务接口 513,用于获取查询指令,根据查询指令从爬取结果数据库中抽 取出查询结果;
[0196] 保存抽取任务接口 514,用于将查询结果保存至查询结果数据库中。
[0197] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统, 设备和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0198] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统,设备和方法,可以 通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的 划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件 可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或 讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦 合或通信连接,可以是电性,机械或其它的形式。
[0199] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显 示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个 网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目 的。
[0200] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以 是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单 元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0201] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用 时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上 或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式 体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机 设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全 部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程 序代码的介质。
[0202]以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前 述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前 述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些 修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
【主权项】
1. 一种聚合搜索方法,其特征在于,应用于聚合搜索系统,所述聚合搜索系统包括业务 组件及核心组件,所述聚合搜索方法包括: 建立关键词词库; 接收用户输入的搜索关键词,根据所述关键词词库确定搜索主题; 根据所述搜索主题得到待爬取网页; 根据预置规则对所述待爬取网页进行筛选,得到目标网页; 使用网络爬虫爬取所述目标网页,得到爬取结果。2. 根据权利要求1所述的聚合搜索方法,其特征在于,所述建立关键词词库包括: 获取预设关键词; 确定所述预设关键词的预设主题,并根据所述预设关键词和所述预设主题生成主题索 引表,根据所述主题索引表生成关键词词库。3. 根据权利要求2所述的聚合搜索方法,其特征在于,所述接收用户输入的搜索关键 词,根据所述关键词词库确定搜索主题,包括: 接收用户输入的搜索关键词; 根据所述搜索关键词从所述关键词词库中提取出主题索引表,根据所述搜索关键词和 所述主题索引表确定搜索主题。4. 根据权利要求3所述的聚合搜索方法,其特征在于,所述接收用户输入的搜索关键词 之后及所述根据所述关键词词库确定搜索主题之前,还包括: 根据预先设置的关键词数据库表设置关键词配置信息; 或, 在关键词配置界面设置关键词配置信息,所述关键词配置信息包含关键词关系表、关 键词过滤表及关键词采集频率。5. 根据权利要求4所述的聚合搜索方法,其特征在于,所述接收用户输入的搜索关键词 之前,还包括: 建立聚合网址库,所述聚合网址库包含至少一个网址源; 建立帐号资源库,所述帐号资源库包含至少一个网页的登录帐号; 设置网页访问优先级。6. 根据权利要求5所述的聚合搜索方法,其特征在于,所述根据所述搜索主题得到待爬 取网页包括: 根据所述关键词配置信息确定搜索频率; 根据所述聚合网址库确定搜索范围; 根据所述搜索主题、所述搜索频率及所述搜索范围搜索得到待爬取网页。7. 根据权利要求1所述的聚合搜索方法,其特征在于,所述根据预置规则对所述待爬取 网页进行筛选,得到目标网页,包括: 获取所述待爬取网页的网页参数; 根据所述网页参数判断所述待爬取网页是否符合预置规则; 若是,则确定所述待爬取网页是目标网页; 若否,则确定所述待爬取网页不是目标网页。8. 根据权利要求7所述的聚合搜索方法,其特征在于,所述使用网络爬虫爬取所述目标 网页,得到爬取结果,包括: 获取所述目标网页的网页统一资源定位器URL; 根据所述网页URL,使用网络爬虫爬取所述目标网页的网页数据,得到爬取结果。9. 根据权利要求8所述的聚合搜索方法,其特征在于,所述聚合搜索方法还包括: 将所述爬取结果保存至爬取结果数据库中; 获取查询指令,根据所述查询指令从所述爬取结果数据库中抽取出查询结果; 将所述查询结果保存至查询结果数据库中。10. -种聚合搜索系统,其特征在于,包括: 业务组件及核心组件; 所述业务组件,用于建立关键词词库; 所述业务组件,还用于接收用户输入的搜索关键词,根据所述关键词词库确定搜索主 题; 所述业务组件,还用于根据所述搜索主题得到待爬取网页; 所述核心组件,用于根据预置规则对所述待爬取网页进行筛选,得到目标网页; 所述核心组件,还用于使用网络爬虫爬取所述目标网页,得到爬取结果。11. 根据权利要求10所述的聚合搜索系统,其特征在于,所述业务组件包括:获取单元 和关键词词库创建单元; 所述获取单元,用于获取预设关键词; 所述关键词词库创建单元,用于确定所述预设关键词的预设主题,并根据所述预设关 键词和所述预设主题生成主题索引表,根据所述主题索引表生成关键词词库。12. 根据权利要求11所述的聚合搜索系统,其特征在于,所述业务组件还包括:接收单 元和关键词词库单元; 所述接收单元,用于接收用户输入的搜索关键词; 所述关键词词库单元,用于根据所述搜索关键词从所述关键词词库中提取出主题索引 表,根据所述搜索关键词和所述主题索引表确定搜索主题。13. 根据权利要求12所述的聚合搜索系统,其特征在于,所述业务组件还包括:配置单 元; 所述配置单元,用于根据预先设置的关键词数据库表设置关键词配置信息; 或, 所述配置单元,还用于在关键词配置界面设置所述关键词配置信息,所述关键词配置 信息包含关键词关系表、关键词过滤表及关键词采集频率。14. 根据权利要求13所述的聚合搜索系统,其特征在于,所述业务组件还包括:聚合网 址库创建单元和帐号资源库创建单元; 所述聚合网址库创建单元,用于建立聚合网址库,所述聚合网址库包含至少一个网址 源; 所述帐号资源库创建单元,用于建立帐号资源库,所述帐号资源库包含至少一个网页 的登录帐号; 所述配置单元,还用于设置网页访问优先级。15. 根据权利要求14所述的聚合搜索系统,其特征在于,所述业务组件还包括:搜索单 元; 所述搜索单元,用于根据所述关键词配置信息确定搜索频率; 所述搜索单元,还用于根据所述聚合网址库确定搜索范围; 所述搜索单元,还用于根据所述搜索主题、所述搜索频率及所述搜索范围搜索得到待 爬取网页。16. 根据权利要求10所述的聚合搜索系统,其特征在于,所述核心组件包括:添加队列 接口及网页筛选单元; 所述添加队列接口,用于获取所述待爬取网页的网页参数; 所述网页筛选单元,用于根据所述网页参数判断所述待爬取网页是否符合预置规则; 所述网页筛选单元,还用于当所述网页参数符合预置规则时,确定所述待爬取网页是 目标网页; 所述网页筛选单元,还用于当所述网页参数不符合预置规则时,确定所述待爬取网页 不是目标网页。17. 根据权利要求16所述的聚合搜索系统,其特征在于,所述核心组件还包括:获取下 载任务接口; 所述获取下载任务接口,用于获取所述目标网页的网页统一资源定位器URL; 所述获取下载任务接口,还用于根据所述网页URL,使用网络爬虫爬取所述目标网页的 网页数据,得到爬取结果。18. 根据权利要求17所述的聚合搜索系统,其特征在于,所述核心组件还包括:保存下 载任务接口、获取抽取任务接口及保存抽取任务接口; 所述保存下载任务接口,用于将所述爬取结果保存至爬取结果数据库中; 所述获取抽取任务接口,用于获取查询指令,根据所述查询指令从所述爬取结果数据 库中抽取出查询结果; 所述保存抽取任务接口,用于将所述查询结果保存至查询结果数据库中。
【文档编号】G06F17/30GK105893622SQ201610283618
【公开日】2016年8月24日
【申请日】2016年4月29日
【发明人】李奕锦, 刘祥涛, 赵彦晖, 孙淏添
【申请人】深圳市中润四方信息技术有限公司