抓取问答类网页的方法和装置制造方法
【专利摘要】本发明提供了一种抓取问答类网页的方法和装置。其中抓取问答类网页的方法包括:在已抓取的问答类网页中识别出预定内容类型的目标问答网页;获取目标问答网页的发布时间以及目标问答网页的抓取时间;计算发布时间与抓取时间的时间差;在确定时间差小于预设阈值时,对目标问答网页进行重新抓取。使用本发明的方案,可以及时地将问答类网页中出现的有效答案进行收录,提高了问答类网页抓取的效率。
【专利说明】抓取问答类网页的方法和装置
【技术领域】
[0001]本发明涉及互联网【技术领域】,特别是涉及一种抓取问答类网页的方法和装置。
【背景技术】
[0002]搜索引擎中收录的网页需要和互联网中的网页保持一致,才能保证展现给用户的内容与网络上的实际内容相符,也就是说当互联网中网页内容发生变化时搜索引擎也应该更新其收录的网页,否则直接影响用户使用网络的体验。因此搜索引擎一般会对收录的网页定期进行扫描,当发现出现更新时重新进行抓取。
[0003]但是对于网络中的某些特定种类的网页,其更新变化的时间是不固定的,对于这类网页使用现有的定期扫描的方式,会造成大量的浪费(例如占用大量的网络流量)。
[0004]问答类网页就是上述的网页更新时间随机的一种,这类网页是指在某一站点发布问题,等待该网站其他使用者进行解答的特殊网页。现有的问答类网页例如360问答等发展很快,吸引了大量的用户。在发布问答类网页后,问题得到有效答案的时间是不固定的,有些可能在发布后立刻得到解答,而有些问题可能需要几天甚至上月的时间才能获得答案,甚至有些问题始终无人解答。
[0005]问答类网页一方面更新时间随机,另一方面又数量巨大,因此如果使用较短的扫描周期,会造成大量的资源消耗,如果使用更长的扫描周期,又会造成无法及时收录问题的有效解答,造成用户较差的体验。因此现有技术中缺乏有效处理问答类网页的抓取方案。
【发明内容】
[0006]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的抓取问答类网页的装置和相应的抓取问答类网页的方法。本发明一个进一步的目的是要使得更有效地抓取更新的网页。
[0007]本发明另一个进一步的目的是要更有效地利用抓取流量,避免资源浪费。
[0008]根据本发明的另一方面,提供了一种抓取问答类网页的方法。该抓取问答类网页的方法包括:在已抓取的问答类网页中识别出预定内容类型的目标问答网页;获取目标问答网页的发布时间以及目标问答网页的抓取时间;计算发布时间与抓取时间的时间差;在确定时间差小于预设阈值时,对目标问答网页进行重新抓取。
[0009]可选地,预定内容类型包括问答类网页中不包含答案的页面。
[0010]可选地,在已抓取的问答类网页中识别出预定内容类型的目标问答网页包括:对预设时间段内抓取的统一资源符属于问答类站点的问答网页进行内容扫描,以确定问答网页中包含的答案数量;将不包含答案的问答网页作为目标问答网页。
[0011]可选地,在计算发布时间与抓取时间的时间差之后还包括:在确定时间差大于或等于预设阈值时,获取目标问答网页的用户访问数据;在用户访问数据满足预设条件时,对目标问答网页进行重新抓取。
[0012]可选地,获取目标问答网页的用户访问数据包括:获取目标问答网页的独立访客数据;预设条件包括:在时间差内的时间中目标问答网页新增的独立访客数达到预设数量。
[0013]可选地,获取目标问答网页的用户访问数据包括:获取目标问答网页作为其他网页的超链接被访问的信息;预设条件包括:在时间差内的时间中目标问答网页作为其他网页的超链接被访问过。
[0014]可选地,目标问答网页的发布时间包括:目标问答网页的创建时间或者搜索引擎发现目标问答网页的时间。
[0015]根据本发明的另一个方面,还提供了一种抓取网页的装置。该抓取问答类网页的装置包括:识别模块,配置为在已抓取的问答类网页中识别出预定内容类型的目标问答网页;时间获取模块,配置为获取目标问答网页的发布时间以及目标问答网页的抓取时间;计算模块,配置为计算发布时间与抓取时间的时间差;抓取模块,配置为抓取在确定时间差小于预设阈值时,对目标问答网页进行重新抓取,其中预定内容类型包括问答类网页中不包含答案的页面。
[0016]可选地,识别模块还配置为:对预设时间段内抓取的统一资源符属于问答类站点的问答网页进行内容扫描,以确定问答网页中包含的答案数量;将不包含答案的问答网页作为目标问答网页。
[0017]可选地,以上抓取网页的装置还包括:访问数据获取模块,配置为在确定时间差大于或等于预设阈值时,获取目标问答网页的用户访问数据;抓取模块,还配置为在用户访问数据满足预设条件时,对目标问答网页进行重新抓取。
[0018]可选地,访问数据获取模块,还配置为获取目标问答网页的独立访客数据;抓取模块,还配置为在时间差内的时间中目标问答网页新增的独立访客数达到预设数量时,对目标问答网页进行重新抓取。
[0019]可选地,访问数据获取模块,还配置为获取目标问答网页作为其他网页的超链接被访问的信息;抓取模块,还配置为在时间差内的时间中目标问答网页作为其他网页的超链接被访问过时,对目标问答网页进行重新抓取。
[0020]可选地,时间获取模块还配置为:获取目标问答网页的创建时间或者搜索引擎发现目标问答网页的时间,以作为目标问答网页的发布时间。
[0021]本发明的抓取问答类网页的方法和装置,根据需要抓取的问答类网页的更新特点,制定相应的抓取策略,根据抓取时间距离目标问答网页发布时间的时间差,确定是否重新抓取,以便及时地将问答类网页中出现的有效答案进行收录,以便用户进行使用,提高了问答类网页抓取的效率。
[0022]进一步地,本发明的抓取问答类网页的方法和装置对于问答类的网页,根据用户使用这类网页的访问数据,确定出是否出现有效的解答,以及时进行抓取。
[0023]更进一步地,本发明的抓取问答类网页的方法和装置,在抓取之前对问答类网页进行了筛选,仅对不包含答案的目标问答页面进行重新抓取,可以避免占用大量的抓取带宽,减少了资源消耗。
[0024]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
[0025]根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
【专利附图】
【附图说明】
[0026]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0027]图1是根据本发明一个实施例的抓取问答类网页的方法的示意图;
[0028]图2是根据本发明一个实施例的抓取问答类网页的方法的流程图;
[0029]图3是根据本发明一个实施例的抓取问答类网页的装置的示意图;以及
[0030]图4是根据本发明另一个实施例的抓取问答类网页的装置的示意图。
【具体实施方式】
[0031]在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0032]本发明实施例提供了一种抓取问答类网页的方法,图1是根据本发明一个实施例的抓取问答类网页的方法的示意图,该抓取问答类网页的方法一般性地可以包括:
[0033]步骤S102,在已抓取的问答类网页中识别出预定内容类型的目标问答网页;
[0034]步骤S104,获取目标问答网页的发布时间以及目标问答网页的抓取时间;
[0035]步骤S106,计算发布时间与抓取时间的时间差;
[0036]步骤S108,在确定时间差小于预设阈值时,对目标问答网页进行重新抓取。
[0037]以上目标问答网页的答案由网页的浏览者根据发布的问题进行回答上传,有效答案出现的时间不固定。发明人在完成本发明的过程中对大量数据的分析和总结,发现这类网页的有效答案出现的时间往往是在网页发布后不久。例如问答类网页新发布的问题网页会更容易出现在首页或者推送页面中,更容易被访问者看到,另一方面,访问者也会基于积分奖励等原因积极回答的意愿也更强。对于发布一段时间内没有回答的网页,则可能是因为难度或者领域的原因,属于疑难问题,其被回复解答的几率则降低。因此可以利用问答类网页答案出现时间的特点,根据抓取时间距离发布时间的时间,安排重新抓取,从而及时收录有效答案内容,提高问答类网页抓取的实时性,提高搜索引擎使用者的体验。
[0038]本发明实施例的抓取问答类网页的方法优先使用于360问答等问答网站的抓取流程中,此以上步骤S102预定内容类型为问答类网页中不包含答案的页面,例如在360问答网站中出现了新的问答页面,搜索引擎的网络蜘蛛会及时抓取该新出现的问答页面,并记录抓取的时间。通过内容识别,可以确定问答页面中是否包含被采取的答案以及该网页的发布时间,从中选取出目标问答网页。
[0039]步骤S102选取目标问答网页的一种可选流程为:对预设时间段内抓取的统一资源符属于问答类站点(例如http://wenda.s0.com等)的问答网页进行内容扫描,以确定问答网页中包含的答案数量;将不包含答案的问答网页作为目标问答网页。
[0040]以上目标问答网页的发布时间可以包括:目标问答网页的创建时间或者搜索引擎发现目标问答网页的时间。由于有些网页可能不会记录其初始的创建时间而是仅仅记录更新时间,在这种情况下,本实施例中将搜索引擎发现该目标问答网页的时间作为目标问答网页的发布时间。
[0041]网页的发布时间越近,抓取问答类网页的频率可以设置得越密集。随着时间的增长,逐渐增长抓取目标问答网页的抓取时间。从而可以以较少的抓取流量更有效地抓取问答类网页内容。在本发明另一种可选实施例中,在抓取时间距离发布时间的时间差超过预设阈值后,还可以根据目标问答网页的被访问数据,确定是否需要重新抓取,精确性更高。例如,在确定时间差大于或预设阈值后,获取目标问答网页的用户访问数据;在用户访问数据满足预设条件时,对目标问答网页进行重新抓取。
[0042]以上用户访问数据可以包括:目标问答网页的独立访客数据(unique visitor,简称UV),代表了不同地址访问该网页的次数,如果目标问答网页的UV数据达到预设数量,可以确定该网页中包含了访问用户的信息,此时可将该网页重新进行抓取,例如:获取目标问答网页的独立访客数据;在时间差内的时间中目标问答网页新增的独立访客数达到预设数量,认为用户访问数据满足预设条件时,对目标问答网页进行重新抓取。
[0043]以上用户访问数据还可以包括:目标问答网页作为其他网页的超链接被访问的信息,如果该目标问答网页成为了该网页的超链接进行了推荐,并且使用者进行了访问,也可以确定该网页中包含了访问用户的需要的内容,在此情况下可将该目标问答网页重新进行抓取,例如:可以获取目标问答网页作为其他网页的超链接被访问的信息;在时间差内的时间中该目标问答网页作为其他网页的超链接被访问过,则认为用户访问数据满足上述预设条件时,对目标问答网页进行重新抓取。
[0044]图2是根据本发明一个实施例的抓取问答类网页的方法的可流程图,搜索引擎抓取了一批问答类网页后,执行以下步骤:
[0045]步骤S202,对抓取到的问答类网页进行内容识别;
[0046]步骤S204,判断抓取到的问答类是否不包含有效答案,若是,执行步骤S206 ;
[0047]步骤S206,获取该网页的发布时间以及该网页的抓取时间,并计算抓取时间距离发布时间的时间差;
[0048]步骤S208,判断时间差是否小于预设时间(可以被灵活设置,例如设置为I天),若是,执行步骤S214,若否执行步骤S210 ;
[0049]步骤S210,获取该网页的Uv数据,并判断Uv是否大于预设数量,若是执行步骤S214,若否执行步骤S212 ;
[0050]步骤S212,获取该网页作为超链接被访问的信息,若作为超链接被访问过,则执行步骤S214 ;
[0051]步骤S214,对该网页进行重新抓取。
[0052]以上步骤S210和步骤S212的执行顺序可以灵活进行设置,只需要在判断时间差不小于预设时间后,完成UV数据和超链接访问的信息判断。而且在一些可选实施例中,可以仅对UV数据和超链接访问的信息中的一项进行判断,不需要进行两项判断。
[0053]基于大量的数据分析挖掘,发明人总结出问答类页答案产生的时间往往是在问题提出后不久。也就是说如果一个问题被提出后,如果有人回答多数是在问题提出后短时间内回答,如果超出了一定的时间则被回答的可能性较小。因此执行以上流程,对于新抓取的有问无答网页,如果发布时间距离最近抓取时间较短的(比如小于I天)则需要重新再抓取一次,对于最近抓取时间距离当前时间大于一定阈值的,则根据该问答类网页最近是否被用户关注过来安排是否抓取。如果最近时间有用户访问过则安排重新抓取更新。也就对于新抓取的网页识别是否为问答页以及包含的答案数,标出其中的有问无答的网页(作为以上目标问答网页)。提取有问无答网页的发布时间(对于没有发布时间的网页可以使用搜索引擎发现此该网页的时间代替),计算最近抓取时间距离发布时间的差值,差值小于一定阈值则需要再次抓取更新。对于最近抓取时间距离发布时间较久的有问无答网页则根据最近是否被用户访问过来制定更新时间。是否被用户关注,可以利用网页的UV数据,也可以根据此网页的统一资源定位符是否被其他网页通过超链推荐过来代替。
[0054]利用本实施例的以上方法,有效地利用抓取流量,并且能够及时地发现问答类网页出现的新的回答,有效保证搜索引擎收录的网页和互联网上网页内容的一致性。本发明还提供了一种抓取问答类网页的装置,用于执行以上实施例中抓取问答类网页的方法,并可以布置于网络搜索引擎的服务器中,用于对以上问答类网页进行抓取,在节省抓取问答类网页的资源的同时,提高抓取问答类网页的有效性,从而保证抓取问答类网页与网络上网页的一致性。
[0055]图3是根据本发明一个实施例的抓取问答类网页的装置的示意图,该抓取问答类网页的装置300 —般性地可以包括:识别模块310、时间获取模块320、计算模块330、抓取模块340。
[0056]在以上部件中,识别模块310配置为在已抓取的问答类网页中识别出预定内容类型的目标问答网页;预定内容类型可以为问答类网页中不包含答案的页面。
[0057]时间获取模块320配置为获取目标问答网页的发布时间以及目标问答网页的抓取时间;以上目标问答网页的发布时间可以包括:目标问答网页的创建时间或者搜索引擎发现目标问答网页的时间。由于有些网页可能不会记录其初始的创建时间而是仅仅记录更新时间,在这种情况下,本实施例中将搜索引擎发现该目标问答网页的时间作为目标问答网页的发布时间。
[0058]计算模块330配置为计算发布时间与抓取时间的时间差。抓取模块340在确定时间差小于预设阈值时,对目标问答网页进行重新抓取。也就是利用问答类网页的答案出现时间一般是在最新发布问题的一段时间内的特点,以较少的抓取流量更有效地抓取问答类网页内容。
[0059]图4是根据本发明另一个实施例的抓取问答类网页的装置的示意图,在以上实施例的基础上,增加设置了访问数据获取模块350,以在抓取时间距离发布时间的时间差超过预设阈值后,还可以根据目标问答网页的被访问数据,确定是否需要重新抓取,精确性更闻。
[0060]访问数据获取模块350可以使用目标问答网页的独立访客数据作为以上用户访问数据,从而访问数据获取模块350可以获取目标问答网页的独立访客数据,以便抓取模块340在时间差内的时间中目标问答网页新增的独立访客数达到预设数量时,对目标问答网页进行重新抓取。
[0061]访问数据获取模块350还可以使用作为其他网页的超链接被访问的信息作为以上用户访问数据,从而访问数据获取模块350可以获取目标问答网页作为其他网页的超链接被访问的信息;以便抓取模块340在时间差内的时间中目标问答网页作为其他网页的超链接被访问过时,对目标问答网页进行重新抓取。
[0062]使用本实施例的抓取问答类网页的装置300根据需要抓取的目标问答网页的特点,制定相应的抓取策略,根据抓取时间距离网页发布时间的时间差,确定是否重新抓取,以便及时地将网页中出现的有效内容进行收录,以便用户进行使用,提高了网页抓取的效率。而且在抓取之前对问答类网页进行了筛选,仅对不包含答案的问答页面进行重新抓取,可以避免占用大量的网络带宽,减少了网络资源消耗。
[0063]在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0064]类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身都作为本发明的单独实施例。
[0065]本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0066]此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0067]本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的抓取问答类网页的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0068]应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0069]至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
[0070]本发明实施例还介绍了 Al.—种抓取问答类网页的方法,包括:
[0071]在已抓取的问答类网页中识别出预定内容类型的目标问答网页;
[0072]获取所述目标问答网页的发布时间以及所述目标问答网页的抓取时间;
[0073]计算所述发布时间与所述抓取时间的时间差;
[0074]在确定所述时间差小于预设阈值时,对所述目标问答网页进行重新抓取。
[0075]A2.根据Al所述的方法,其中,
[0076]所述预定内容类型包括所述问答类网页中不包含答案的页面。
[0077]A3.根据Al或A2所述的方法,其中,
[0078]在已抓取的问答类网页中识别出预定内容类型的目标问答网页包括:
[0079]对预设时间段内抓取的统一资源符属于问答类站点的问答网页进行内容扫描,以确定所述问答网页中包含的答案数量;
[0080]将不包含答案的所述问答网页作为所述目标问答网页。
[0081]A4.根据Al至A3中任一项所述的方法,其中,在计算所述发布时间与所述抓取时间的时间差之后还包括:
[0082]在确定所述时间差大于或等于所述预设阈值时,获取所述目标问答网页的用户访问数据;
[0083]在所述用户访问数据满足预设条件时,对所述目标问答网页进行重新抓取。
[0084]A5.根据Al至A4中任一项所述的方法,其中,
[0085]获取所述目标问答网页的用户访问数据包括:获取所述目标问答网页的独立访客数据;
[0086]所述预设条件包括:在所述时间差内的时间中所述目标问答网页新增的独立访客数达到预设数量。
[0087]A6.根据Al至A5中任一项所述的方法,其中,
[0088]获取所述目标问答网页的用户访问数据包括:获取所述目标问答网页作为其他网页的超链接被访问的信息;
[0089]所述预设条件包括:在所述时间差内的时间中所述目标问答网页作为其他网页的超链接被访问过。
[0090]A7.根据Al至A6中任一项所述的方法,其中,
[0091]所述目标问答网页的发布时间包括:所述目标问答网页的创建时间或者搜索引擎发现所述目标问答网页的时间。
[0092]本发明实施例还提供了 B8.—种抓取问答类网页的装置,包括:
[0093]识别模块,配置为在已抓取的问答类网页中识别出预定内容类型的目标问答网页;
[0094]时间获取模块,配置为获取所述目标问答网页的发布时间以及所述目标问答网页的抓取时间;
[0095]计算模块,配置为计算所述发布时间与所述抓取时间的时间差;
[0096]抓取模块,配置为抓取在确定所述时间差小于预设阈值时,对所述目标问答网页进行重新抓取,其中所述预定内容类型包括所述问答类网页中不包含答案的页面。
[0097]B9.根据B8所述的装置,其中所述识别模块还配置为:
[0098]对预设时间段内抓取的统一资源符属于问答类站点的问答网页进行内容扫描,以确定所述问答网页中包含的答案数量;
[0099]将不包含答案的所述问答网页作为所述目标问答网页。
[0100]B10.根据B8或B9所述的装置,还包括:
[0101]访问数据获取模块,配置为在确定所述时间差大于或等于所述预设阈值时,获取所述目标问答网页的用户访问数据;
[0102]所述抓取模块,还配置为在所述用户访问数据满足预设条件时,对所述目标问答网页进行重新抓取。
[0103]Bll.根据BlO所述的装置,其中,
[0104]所述访问数据获取模块,还配置为获取所述目标问答网页的独立访客数据;
[0105]所述抓取模块,还配置为在所述时间差内的时间中所述目标问答网页新增的独立访客数达到预设数量时,对所述目标问答网页进行重新抓取。
[0106]B12.根据BlO所述的装置,其中,
[0107]所述访问数据获取模块,还配置为获取所述目标问答网页作为其他网页的超链接被访问的信息;
[0108]所述抓取模块,还配置为在所述时间差内的时间中所述目标问答网页作为其他网页的超链接被访问过时,对所述目标问答网页进行重新抓取。
[0109]B13.根据B8至B12中任一项所述的装置,其中所述时间获取模块还配置为:
[0110]获取所述目标问答网页的创建时间或者搜索引擎发现所述目标问答网页的时间,以作为所述目标问答网页的发布时间。
【权利要求】
1.一种抓取问答类网页的方法,包括: 在已抓取的问答类网页中识别出预定内容类型的目标问答网页; 获取所述目标问答网页的发布时间以及所述目标问答网页的抓取时间; 计算所述发布时间与所述抓取时间的时间差; 在确定所述时间差小于预设阈值时,对所述目标问答网页进行重新抓取。
2.根据权利要求1所述的方法,其中, 所述预定内容类型包括所述问答类网页中不包含答案的页面。
3.根据权利要求1或2所述的方法,其中, 在已抓取的问答类网页中识别出预定内容类型的目标问答网页包括: 对预设时间段内抓取的统一资源符属于问答类站点的问答网页进行内容扫描,以确定所述问答网页中包含的答案数量; 将不包含答案的所述问答网页作为所述目标问答网页。
4.根据权利要求1至3中任一项所述的方法,其中,在计算所述发布时间与所述抓取时间的时间差之后还包括: 在确定所述时间差大于或等于所述预设阈值时,获取所述目标问答网页的用户访问数据; 在所述用户访问数据满足预设条件时,对所述目标问答网页进行重新抓取。
5.根据权利要求1至4中任一项所述的方法,其中, 获取所述目标问答网页的用户访问数据包括:获取所述目标问答网页的独立访客数据; 所述预设条件包括:在所述时间差内的时间中所述目标问答网页新增的独立访客数达到预设数量。
6.根据权利要求1至5中任一项所述的方法,其中, 获取所述目标问答网页的用户访问数据包括:获取所述目标问答网页作为其他网页的超链接被访问的信息; 所述预设条件包括:在所述时间差内的时间中所述目标问答网页作为其他网页的超链接被访问过。
7.根据权利要求1至6中任一项所述的方法,其中, 所述目标问答网页的发布时间包括:所述目标问答网页的创建时间或者搜索引擎发现所述目标问答网页的时间。
8.一种抓取问答类网页的装置,包括: 识别模块,配置为在已抓取的问答类网页中识别出预定内容类型的目标问答网页;时间获取模块,配置为获取所述目标问答网页的发布时间以及所述目标问答网页的抓取时间; 计算模块,配置为计算所述发布时间与所述抓取时间的时间差; 抓取模块,配置为抓取在确定所述时间差小于预设阈值时,对所述目标问答网页进行重新抓取,其中所述预定内容类型包括所述问答类网页中不包含答案的页面。
9.根据权利要求8所述的装置,其中所述识别模块还配置为: 对预设时间段内抓取的统一资源符属于问答类站点的问答网页进行内容扫描,以确定所述问答网页中包含的答案数量; 将不包含答案的所述问答网页作为所述目标问答网页。
10.根据权利要求8或9所述的装置,还包括: 访问数据获取模块,配置为在确定所述时间差大于或等于所述预设阈值时,获取所述目标问答网页的用户访问数据; 所述抓取模块,还配置为在所述用户访问数据满足预设条件时,对所述目标问答网页进行重新抓取。
【文档编号】G06F17/30GK104462493SQ201410802012
【公开日】2015年3月25日 申请日期:2014年12月18日 优先权日:2014年12月18日
【发明者】王智广 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司