专利名称:一种爬虫抓取的方法及其装置的制作方法
技术领域:
本发明涉及互联网信息搜索领域,尤其涉及一种爬虫抓取的方法及其装置。
背景技术:
搜索引擎是现今互联网上广为应用的一项技术,人们只需要输入自己所需要信息 的部分关键字就可以通过搜索引擎找到大量与该关键字相关的信息,例如百度、谷歌等搜 索引擎。 搜索引擎的信息来源多种多样,有些是通过竞价广告的形式由发起这项广告的广 告商向搜索引擎运营商支付广告费,搜索引擎运营商在自己的搜索引擎中刊登该广告的简 要信息以及链接,而更多的非广告信息,例如新闻、学术信息等是需要搜索引擎运营商自己 去寻找并抓取加入搜索引擎的,面对互联网上的海量信息,如何将大量搜索引擎运营商关 心的信息从其它的无用信息中区分出来,并分门别类地加入搜索引擎成为搜索引擎运营商 亟需解决的问题。 爬虫抓取技术的出现解决了上述问题,该技术能够按照设定的条件将符合该条件
的信息从互联网的海量信息中抓取出来。将爬虫抓取技术应用于搜索引擎可以有效地解
决各种有效信息的抓取问题。爬虫抓取技术在抓取信息时需要遍历网页,在面对互联网上
的海量网页时,遍历所有网页几乎是很难办到的,即使办到了,也需要耗费大量的时间和资
源,使得爬虫抓取到的信息时效性很差。针对此缺陷,目前普遍采用的解决方法是利用爬虫
在一定数量、一定范围的网页中抓取信息,这些网页一般是事先通过统计得出的含有有用
信息的概率和数量都比较高的网页。这样,可以将该一定数量、一定范围的网页形成一个搜
索列表并记录入爬虫的搜索范围,使爬虫每隔固定的时间在该搜索列表上检索是否有新的
信息页链接,如果有则根据链接下载该信息页,抽取该信息页中有用的信息。 上述根据固定时间间隔爬虫抓取网页信息的方式,在一定程度上縮短了每次爬虫
抓取信息耗费的时间和资源,但在实际应用中,不同网页的用户关注度不同,如果使用相同
的频率抓取用户关注度高的网页信息和用户关注度低的网页信息,显然对于用户关注度高
的网页信息来说信息抓取频率相对较低,从而不能对用户关注度高的网页中的信息及时地
抓取和更新,使得这类网页中信息的时效性差,即网页中会存在一定数量的过期信息或无
效信息,进而影响用户对搜索引擎的满意度。
发明内容
本发明提供一种优化爬虫抓取的方法及其装置,用以解决现有爬虫抓取技术时效 性差的问题。 本发明实施例通过如下技术方案实现 本发明实施例提供了一种爬虫抓取的方法,包括 根据网页在当前搜索结果中的排序或/和所述网页被用户点击的顺序,确定所述 网页的当前权值;
根据所述网页的当前权值以及历史权值,确定所述网页的结果权值;
当所述结果权值达到设定阈值时,重新抓取所述网页中的信息。
本发明实施例还提供了一种爬虫抓取的装置,包括 当前权值确定单元,用于根据网页在当前搜索结果中的排序或/和所述网页被用 户点击的顺序,确定所述网页的当前权值; 结果权值确定单元,用于根据所述当前权值确定单元确定的当前权值以及所述网 页的历史权值,确定所述网页的结果权值; 信息抓取单元,用于当所述结果权值确定单元确定的结果权值达到设定阈值时, 重新抓取所述网页中的信息。 通过上述技术方案,本发明实施例能够根据网页在当前搜索结果中的排序或/和 该网页被用户点击的顺序,确定网页的当前权值,然后根据网页的当前权值以及历史权值, 确定该网页的结果权值,当结果权值达到设定阈值时,重新抓取该网页中的信息。 一般情况 下,网页在当前搜索结果中的排序或/和网页被用户点击的顺序能很好地体现该网页的用 户关注度,基于此,本发明实施例利用网页在当前搜索结果中的排序或/和网页被用户点 击的顺序,影响爬虫抓取该网页中信息的周期,根据该方案,对用户关注度高的网页可以縮 短爬虫抓取网页信息的周期,从而提高用户关注度高的网页中信息的抓取频率,保证这类 网页中的信息具有很好的时效性,提高用户的使用感受。
图1为本发明实施例中爬虫抓取的第一流程图; 图2为本发明实施例中爬虫抓取的第二流程图; 图3为本发明实施例中爬虫抓取的第三流程图; 图4为本发明实施例中爬虫抓取的装置示意图一 ; 图5为本发明实施例中爬虫抓取的装置示意图二 ; 图6为本发明实施例中爬虫抓取的装置示意图三。
具体实施例方式
为了提高爬虫抓取信息的时效性,以提高用户对搜索引擎的满意度,本发明实施 例提出了一种爬虫抓取的方法及其装置,下面结合说明书附图对本发明实施例的主要实现 原理、具体实施过程及其对应能够达到的有益效果进行详细的阐述。 基于计算机或者计算机网络的搜索引擎系统,对于用户查询所返回的搜索结果通 常是包含了网页链接的一个列表,该列表中的网页一般是按照网页中的信息与查询关键词 之间的相关程度由高到低排序的。针对搜索引擎返回的搜索结果的此特征,本发明一个实 施例中,提出了利用网页在搜索结果中的排序影响爬虫抓取网页中信息的周期的方法,具 体如图l所示,包括如下步骤 步骤101、根据网页在当前搜索结果中的排序,确定该网页的当前权值。 该步骤中,网页对应的当前权值用于标识该网页在搜索结果中的排序,具体地,网
页对应的当前权值随着网页在搜索结果中的排序由前到后递减,具体地,可以按网页在搜
索结果中的排序采用线性递减或指数递减等方式确定该网页的当前权值;进一步地,可以只选取搜索结果中排序靠前的n个网页,并只计算该n个网页的当前权值,对于排在第n个 以后的网页,可以默认为用户点击度不高的网页,默认其当前权值为O。
例如,采用线性递减方式确定网页当前权值时,对于在检索结果中排在第k位的 网页,其对应的当前权值a为 、-A: + l<formula>formula see original document page 6</formula> 其中,a。为排在第1位的网页对应的当前权值(该权值可为系统默认值)。
采用线性递减方式确定网页当前权值时,一个更简单的示例为默认搜索结果中 排在前10个的网页为用户点击度高的网页,针对该10个网页,可以为排在第1个的网页分 配当前权值10,排在第2个的网页分配当前权值9,依次类推,为排在第10个的网页分配当
前权值l,对应排在第io个以后的网页,默认为用户点击度低的网页,对这些网页都分配当
前权值O。 步骤102、根据网页对应的当前权值以及历史权值,确定该网页的结果权值。 该步骤中,较佳地可以通过如下两种方式确定网页的结果权值 方式一 、利用网页对应的历史权值加上该网页对应的当前权值,得到该网页的结
方式二、利用网页对应的历史权值减去该网页对应的当前权值,得到该网页的结
果权值
果权值。 初始状态下,网页对应的历史权值可以根据采用的方式不同设置为不同的初始 值,例如,对于方式一,可以设置网页对应的历史权值为0,而对应方式二,可以设置网页对 应的历史权值为100。 进一步地,上述两种方式仅为本实施例确定网页的结果权值时的较佳方式,也可
根据具体的策略采用不同的方式,具体地,可以设定网页对应的当前权值在结果权值中所
占的比重,例如,结果权值=历史权值+当前权值Xq,其中,q大于O小于1。 步骤103、判断网页对应的结果权值是否达到设定阈值t,若达到,则执行步骤
104,否则执行步骤105。 该步骤103中,阈值t的设定与步骤102中确定网页的结果权值时所采用的方式 有关,例如,当采用上述方式一得到网页的结果权值时,该阈值t要大于初始状态下网页对 应的历史权值;当采用上述方式二得到网页的结果权值时,该阈值t要小于初始状态下网 页对应的历史权值。 步骤104、重新抓取该网页中的信息,并将该网页对应的历史权值初始化。 该步骤104中,可以在上述步骤103确定网页的结果权值达到设定阈值时,马上重
新抓取该网页中的信息,进一步地,可以先将该结果权值达到设定阈值的网页记录到预设
的抓取列表中(同一网页只记录一次),在设定时长后再抓取该网页中的信息,以减少系统
资源的占用。 步骤105、利用该网页对应的结果权值更新其对应的历史权值,返回步骤101。
上述流程中,对于设定周期(如三个月)内结果权值都未达到设定阈值的网页,可 以在周期结束时,对其重新抓取,并将该网页对应的历史权值初始化。
搜索引擎将搜索结果返回给用户后,用户浏览每个网页链接的关键字,根据自己
的实际需要点击相关的网页链接,但用户不一定是按照搜索结果中的网页链接的显示顺序
点击网页,而可能是跳过最前面显示的网页链接直接点击后面的网页链接,针对用户点击
网页的此特征,本发明又一实施例中,提出了利用网页被用户点击的顺序影响爬虫抓取网
页中信息的周期的方法,具体如图2所示,包括如下步骤 步骤201、根据网页被用户点击的顺序,确定该网页的当前权值。 该步骤中,网页对应的当前权值用于标识该网页被用户点击的顺序,具体地,网页
对应的当前权值随着网页被用户点击的顺序由前到后递减,具体地,可以按网页被用户点
击的顺序采用线性递减或指数递减等方式确定该网页的当前权值;进一步地,可以只选取
搜索结果中排序靠前的m个网页,并只计算该m个网页的当前权值,对于排在第m个以后的
网页,可以默认为用户点击度不高的网页,默认当前权值为0。 例如,采用按指数递减方式确定网页当前权值时,对于被用户第j个点击的网页, 其对应的当前权值b为 其中,b。为用户第一个点击的网页对应的当前权值(该权值可为系统默认值), c G (O,l)为衰减系数,c越大,则网页对应的当前权值随被用户点击的顺序由前到后衰减 得越快。 步骤202、根据网页对应的当前权值以及历史权值,确定该网页的结果权值。 该步骤202与上述步骤102所述基本原理一致,此处不再详细描述。 步骤203、判断网页对应的结果权值是否达到设定阈值t,若达到,则执行步骤
204,否则执行步骤205。 该步骤203与上述步骤103所述基本原理一致,此处不再详细描述。
步骤204、重新抓取该网页中的信息,并将该网页对应的历史权值初始化。
步骤205、利用该网页对应的结果权值更新其对应的历史权值,返回步骤201。
上述流程中,对于设定周期(如三个月)内结果权值都未达到设定阈值的网页,可 以在周期结束时,对其重新抓取,并将该网页对应的历史权值初始化。 进一步地,对于同一个网页,其在搜索结果中的排序与其被用户点击的顺序可能 不一致,针对此特性,本发明一个实施例中,提出了利用网页在搜索结果中的排序以及该网 页被用户点击的顺序,共同影响爬虫抓取网页中信息的周期的方法,具体如图3所示,包括 如下步骤 步骤301、根据网页在当前搜索结果中的排序,确定该网页的第一当前权值。 该步骤301上述步骤101所述基本原理一致,此处不再详细描述。 步骤302、根据该网页的历史权值以及第一当前权值,确定该网页的结果权值。 该步骤与上述步骤102或步骤202所述基本原理一致,此处不再详细描述。 步骤303、判断网页对应的结果权值是否达到设定阈值t,若达到,则执行步骤
304,否则执行步骤305。 步骤304、重新抓取该网页中的信息,并将该网页对应的历史权值初始化。
步骤305、利用该网页对应的结果权值更新其对应的历史权值。
步骤306、根据网页被用户点击的顺序,确定该网页的第二当前权值。 该步骤306上述步骤201所述基本原理一致,此处不再详细描述。 步骤307、根据网页对应的第二当前权值以及历史权值,确定该网页的结果权值。 该步骤与上述步骤102或步骤202所述基本原理一致,此处不再详细描述。需要
指出的是,此处网页对应的历史权值为上述步骤305更新后的历史权值。 步骤308、判断网页对应的结果权值是否达到设定阈值t,若达到,则执行步骤
304,否则执行步骤309。 步骤309、利用该网页对应的结果权值更新其对应的历史权值,返回步骤301。
上述流程中,先利用网页在搜索结果中的排序影响爬虫抓取的周期,再利用该网 页被用户点击的顺序影响爬虫抓取的周期。本发明又一实施例中,也可先利用网页被用户 点击的顺序影响爬虫抓取的周期,再利用网页在搜索结果中的排序影响爬虫抓取的周期, 详细流程与上述流程基本一致,区别在于,步骤301中,根据网页被用户点击的顺序,确定 该网页的第一当前权值,在步骤306中,根据网页在搜索结果中的排序,确定该网页的第二 当前权值。 上述实施例中,首先由网页在搜索结果中的排序和网页被用户点击的顺序中的一
个影响爬虫抓取的周期,即影响该网页的结果权值,当结果权值未达到设定阈值时,再由该
网页在搜索结果中的排序和网页被用户点击的顺序中的另一个影响爬虫抓取的周期。本
发明还提出了一种实施例,即根据网页在当前搜索结果中的排序和该网页被用户点击的顺
序,同时影响该网页的当前权值,进而影响该网页的结果权值。具体包括 第一步、根据该网页在当前搜索结果中的排序,确定该网页的第一权值;该第一权
值根据该网页在当前搜索结果中的排序由前到后递减。 该过程与上述步骤101所述的基本原理一致,此处不再详细描述。
第一步、根据该网页被用户点击的顺序,确定该网页的第二权值;该第二权值根据
网页被用户点击的顺序由前到后递减。 该过程与上述步骤201所述的基本原理一致,此处不再详细描述。 第三步、根据确定出的第一权值和所述第二权值,确定该网页的当前权值。例如,
可以将该第一权值和第二权值相加,确定该网页的当前权值。 上述第一步和第二步仅为描述方便,并无严格的执行顺序,也可先执行第二步再 执行第一步,或者同时执行。 本发明实施例还提供了一种爬虫抓取的装置,如图4所示,包括当前权值确定单 元401、结果权值确定单元402以及信息抓取单元403。其中, 当前权值确定单元401,用于根据网页在当前搜索结果中的排序或/和所述网页 被用户点击的顺序,确定该网页的当前权值。 结果权值确定单元402,用于根据当前权值确定单元401确定的当前权值以及该 网页的历史权值,确定该网页的结果权值。 信息抓取单元403,用于当结果权值确定单元402确定的结果权值达到设定阈值 时,重新抓取该网页中的信息。 —个实施例中,当上述当前权值确定单元401确定出的当前权值是根据该网页在 当前搜索结果中的排序或该网页被用户点击的顺序确定时,该当前权值根据网页在当前搜索结果中的排序或该网页被用户点击的顺序由前到后递减;上述结果权值确定单元402, 进一步用于,利用网页的历史权值加上该网页的当前权值,得到该网页对应的结果权值;或 者,利用网页的历史权值减去当前权值,得到该网页对应的结果权值。 —个实施例中,上述当前权值确定单元401进一步用于,根据网页在当前搜索结 果中的排序,确定该网页的第一权值;该第一权值根据网页在当前搜索结果中的排序由前 到后递减;以及,根据网页被用户点击的顺序,确定该网页的第二权值;该第二权值根据网 页被用户点击的顺序由前到后递减;并进一步根据确定出的第一权值和第二权值,确定该 网页的当前权值。 —个实施例中,如图5所示,图4所示的装置还可以包括历史权值初始化单元 404,该单元用于当结果权值确定单元402确定的结果权值达到设定阈值时,初始化所述网 页的历史权值。 —个实施例中,如图6所示,图4所示的装置还可以包括历史权值更新单元405, 该单元用于当结果权值确定单元402确定的结果权值未达到设定阈值时,利用该网页的结 果权值更新所述网页的历史权值。 较佳地,上述图6所示的装置中,当前权值确定单元401还用于,当历史权值更新
单元405更新网页的历史权值后,并且当该网页的当前权值根据该网页在当前搜索结果中
的排序确定时,根据该网页被用户点击的顺序,确定该网页的当前权值;或者,当历史权值
更新单元405更新该网页的历史权值后,并且当该网页的当前权值根据该网页被用户点击
的顺序确定时,根据该网页在搜索结果中的排序,确定所述网页的当前权值。 上述历史权值初始化单元404和历史权值更新单元405可以是同一个单元。 通过上述技术方案,本发明实施例能够根据网页在当前搜索结果中的排序或/和
该网页被用户点击的顺序,确定该网页的当前权值,然后根据网页的当前权值以及历史权
值,确定该网页的结果权值,当结果权值达到设定阈值时,重新抓取该网页中的信息。 一般
情况下,网页在当前搜索结果中的排序或/和网页被用户点击的顺序能很好地体现该网页
的用户关注度,基于此,本发明实施例利用根据网页在当前搜索结果中的排序或网页被用
户点击的顺序,影响爬虫抓取该网页中信息的周期,根据该方案,对用户关注度高的网页可
以縮短爬虫抓取网页信息的周期,从而提高用户关注度高的网页中信息的抓取频率,保证
这类网页中的信息具有很好的时效性,提高用户的使用感受。 进一步地,本发明实施例中,能够根据网页在当前搜索结果中的排序和网页被用 户点击的顺序,共同影响爬虫抓取该网页中信息的周期,从而保证搜索引擎返回的搜索结 果中排序靠前以及用户经常点击的网页的时效性,即保证这些网页是最新抓取的,进而提 高用户对搜索引擎的满意度。 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精 神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围 之内,则本发明也意图包含这些改动和变型在内。
权利要求
一种爬虫抓取的方法,其特征在于,包括根据网页在当前搜索结果中的排序或/和所述网页被用户点击的顺序,确定所述网页的当前权值;根据所述网页的当前权值以及历史权值,确定所述网页的结果权值;当所述结果权值达到设定阈值时,重新抓取所述网页中的信息。
2. 如权利要求l所述的方法,其特征在于,当所述网页的当前权值根据所述网页在当前搜索结果中的排序确定时,所述网页的当 前权值根据所述网页在当前搜索结果中的排序由前到后递减;或当所述网页的当前权值根 据所述网页被用户点击的顺序确定时,所述网页的当前权值根据所述网页被用户点击的顺 序由前到后递减;根据所述网页的当前权值以及历史权值,确定所述网页的结果权值,包括 将所述网页的历史权值加上当前权值,得到所述网页对应的结果权值;或者,将所述网 页的历史权值减去当前权值,得到所述网页对应的结果权值。
3. 如权利要求1所述的方法,其特征在于,所述根据网页在当前搜索结果中的排序和 所述网页被用户点击的顺序,确定所述网页的当前权值包括根据所述网页在当前搜索结果中的排序,确定所述网页的第一权值;所述第一权值根 据所述网页在当前搜索结果中的排序由前到后递减;以及,根据所述网页被用户点击的顺序,确定所述网页的第二权值;所述第二权值根据 所述网页被用户点击的顺序由前到后递减;根据所述第一权值和所述第二权值,确定所述网页的当前权值。
4. 如权利要求1或2或3所述的方法,其特征在于,当所述结果权值达到设定阈值时, 还包括初始化所述网页的历史权值。
5. 如权利要求1或2或3所述的方法,其特征在于,当所述结果权值未达到设定阈值 时,还包括利用所述网页的结果权值更新所述网页的历史权值。
6. 如权利要求5所述的方法,其特征在于,更新所述网页的历史权值后,并且当所述网 页的当前权值根据所述网页在当前搜索结果中的排序确定时,所述方法还包括根据所述网页被用户点击的顺序,确定所述网页的当前权值; 根据所述网页的当前权值以及历史权值,确定所述网页的结果权值; 当所述结果权值达到设定阈值时,重新抓取所述网页中的信息。
7. 如权利要求5所述的方法,其特征在于,更新所述网页的历史权值后,并且当所述网 页的当前权值根据所述网页被用户点击的顺序确定时,所述方法还包括根据所述网页在搜索结果中的排序,确定所述网页的当前权值; 根据所述网页的当前权值以及历史权值,确定所述网页的结果权值; 当所述结果权值达到设定阈值时,重新抓取所述网页中的信息。
8. —种爬虫抓取的装置,其特征在于,包括当前权值确定单元,用于根据网页在当前搜索结果中的排序或/和所述网页被用户点 击的顺序,确定所述网页的当前权值;结果权值确定单元,用于根据所述当前权值确定单元确定的当前权值以及所述网页的历史权值,确定所述网页的结果权值;信息抓取单元,用于当所述结果权值确定单元确定的结果权值达到设定阈值时,重新抓取所述网页中的信息。
9. 如权利要求8所述的装置,其特征在于,当所述当前权值确定单元确定出的当前权值是根据所述网页在当前搜索结果中的排序确定时,所述当前权值根据所述网页在当前搜索结果中的排序由前到后递减;或当所述当前权值确定单元确定出的当前权值是根据所述网页被用户点击的顺序确定时,所述当前权值根据所述网页被用户点击的顺序由前到后递减;所述结果权值确定单元,进一步用于将所述网页的历史权值加上当前权值,得到所述网页对应的结果权值;或者,将所述网页的历史权值减去当前权值,得到所述网页对应的结果权值。
10. 如权利要求8所述的装置,其特征在于,所述当前权值确定单元进一步用于根据所述网页在当前搜索结果中的排序,确定所述网页的第一权值;所述第一权值根据所述网页在当前搜索结果中的排序由前到后递减;以及,根据所述网页被用户点击的顺序,确定所述网页的第二权值;所述第二权值根据所述网页被用户点击的顺序由前到后递减;根据所述第一权值和所述第二权值,确定所述网页的当前权值。
11. 如权利要求8所述的装置,其特征在于,还包括历史权值初始化单元,用于当所述结果权值确定单元确定的结果权值达到设定阈值时,初始化所述网页的历史权值。
12. 如权利要求8或9或10或11所述的装置,其特征在于,还包括历史权值更新单元,用于当所述结果权值确定单元确定的结果权值未达到设定阈值时,利用所述网页的结果权值更新所述网页的历史权值。
13. 如权利要求12所述的装置,其特征在于,所述当前权值确定单元还用于,当所述历史权值更新单元更新所述网页的历史权值后,并且当所述网页的当前权值根据所述网页在当前搜索结果中的排序确定时,根据所述网页被用户点击的顺序,确定所述网页的当前权值。
14. 如权利要求12所述的装置,其特征在于,所述当前权值确定单元还用于,当所述历史权值更新单元更新所述网页的历史权值后,并且当所述网页的当前权值根据所述网页被用户点击的顺序确定时,根据所述网页在搜索结果中的排序,确定所述网页的当前权值。
全文摘要
本发明公开了一种爬虫抓取的方法及其装置,用于解决现有爬虫抓取技术时效性差的问题。主要技术方案包括根据网页在当前搜索结果中的排序或/和网页被用户点击的顺序,确定所述网页的当前权值;根据所述网页的当前权值以及历史权值,确定所述网页的结果权值;当所述结果权值达到设定阈值时,重新抓取所述网页中的信息。通过该技术方案,能够根据网页在当前搜索结果中的排序或/和网页被用户点击的顺序,影响爬虫抓取该网页中信息的周期,对用户关注度高的网页可以缩短爬虫抓取网页信息的周期,从而保证这类网页中的信息具有很好的时效性,提高用户的使用感受。
文档编号G06F17/30GK101739427SQ20081022624
公开日2010年6月16日 申请日期2008年11月10日 优先权日2008年11月10日
发明者孙宏伟, 罗治国, 胡珉 申请人:中国移动通信集团公司