搜索引擎爬虫抓取网页的方法及装置制造方法
【专利摘要】本发明公开了一种搜索引擎爬虫抓取网页的方法,其包括:获取搜索引擎爬虫多个目标网页的网址信息以及网址信息对应的链接锚文本;根据链接锚文本识别每个目标网页是否为原创网页;对于识别出的原创网页,计算原创网页的网页内容被转载的次数;基于原创网页被转载的次数确定各个目标网页的抓取优先级;根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取。该方法根据获取的链接锚文本将目标网页进行了区分,分为原创网页和转载网页,避免了搜索引擎爬虫每天能够实际抓取的URL有限时,搜索引擎爬虫重复抓取转载网页的问题;通过确定目标网页的抓取优先级提升了搜索引擎抓取流量的利用效率,及时收录了用户的原创内容。
【专利说明】搜索引擎爬虫抓取网页的方法及装置
【技术领域】
[0001] 本发明涉及互联网【技术领域】,具体涉及一种搜索引擎爬虫抓取网页的方法及装 置。
【背景技术】
[0002] 搜索引擎的爬虫程序每天能够发现大量的互联网中新产生的URL(统一资源定位 符),但是搜索引擎每天能够实际抓取的URL量是有限的,这就需要在爬虫实际发起抓取之 前对已经发现的URL做一个排序,优先抓取质量较高的URL。但是,新发现的URL能够获取 到的信息是很少的,在有限的信息基础上预测URL对应的网页是否是一个高质量的网页是 一件难度较大的工作。
[0003] 现有的对新发现的URL排序主要根据已抓取的网页来反馈,比如如果已抓取网页 的质量较高,那么认为与已抓取的URL具有相同模式的新发现的URL的质量也是较高的。 这种方案的缺点是存在富集的现象,即对应相同模式的URL量可能是巨大的。这时根据已 抓取URL来进行反馈的实际效果并不好。之所以存在这种问题是因为这种方案没有考虑每 个URL各自单独的特征,虽然这些URL具有相同的模式,其实质量是千差万别的,只能是说 这个模式总体上是好的,但是还是存在垃圾、重复的网页,即使质量都是较高的网页,在流 量有限的情况下还是需要进行区分的。
【发明内容】
[0004] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的搜索引擎爬虫抓取网页的方法和相应的搜索引擎爬虫抓取网页的装置。
[0005] 根据本发明的一个方面,提供了一种搜索引擎爬虫抓取网页的方法,其包括:
[0006] 获取搜索引擎爬虫多个目标网页的网址信息以及所述网址信息对应的链接锚文 本;
[0007] 根据所述链接锚文本识别每个目标网页是否为原创网页;
[0008] 对于识别出的原创网页,计算所述原创网页的网页内容被转载的次数;
[0009] 基于原创网页被转载的次数确定各个目标网页的抓取优先级;
[0010] 根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取。
[0011] 可选地,所述获取搜索引擎爬虫多个目标网页的网址信息以及所述网址信息对应 的链接锚文本进一步包括:
[0012] 在目标网页的来源页中获取超链接网址信息作为目标网页的网址信息;
[0013] 以及,在目标网页的来源页中获取超链接网址信息对应的链接锚文本作为目标网 页的网址信息对应的链接锚文本。
[0014] 可选地,根据所述链接锚文本识别每个目标网页是否为原创网页进一步包括:
[0015] 判断所述链接锚文本是否包含转载关键字;
[0016] 若所述链接锚文本不包含所述转载关键字,则识别所述目标网页为原创网页;
[0017] 所述方法进一步包括:若所述链接锚文本包含所述转载关键字,则识别所述目标 网页为转载网页。
[0018] 可选地,该方法还包括:确定各个目标网页的来源页的其它内链网页的抓取优先 级,以及根据确定的抓取优先级将各个目标网页的来源页的其它内链网页插入到待抓取网 页列表进行网页抓取;
[0019] 其中,原创网页的来源页的其它内链网页的抓取优先级是根据原创网页被转载的 次数确定的。
[0020] 可选地,所述原创网页被转载的次数越高,该原创网页以及该原创网页的来源页 的其它内链网页的抓取优先级越高。
[0021] 可选地,所述原创网页以及原创网页的来源页的其它内链网页的抓取优先级高于 所述转载网页以及转载网页的来源页的其它内链网页的抓取优先级。
[0022] 可选地,所述对于识别出的原创网页,计算所述原创网页的网页内容被转载的次 数进一步包括:
[0023] 根据所述原创网页的链接锚文本,查找与所述原创网页的链接锚文本匹配的转载 网页,根据查找出的转载网页的个数确定所述原创网页的网页内容被转载的次数。
[0024] 可选地,所述根据所述原创网页的链接锚文本,查找与所述原创网页的链接锚文 本匹配的转载网页进一步包括:
[0025] 根据所述原创网页的链接锚文本从存储有所有网页的数据库中查找与所述原创 网页的链接锚文本匹配的转载网页。
[0026] 可选地,该方法还包括,根据网址信息对应的链接锚文本确定具有同类特征的目 标网页集合;
[0027] 所述根据所述原创网页的链接锚文本,查找与所述原创网页的链接锚文本匹配的 转载网页进一步包括:
[0028] 根据所述原创网页的链接锚文本从所述目标网页集合中查找与所述原创网页的 链接锚文本匹配的转载网页。
[0029] 根据本发明的另一方面,提供了一种搜索引擎爬虫抓取网页的装置,其包括:
[0030] 获取模块,适于获取搜索引擎爬虫多个目标网页的网址信息以及所述网址信息对 应的链接锚文本;
[0031] 识别模块,适于根据所述链接锚文本识别每个目标网页是否为原创网页;
[0032] 计算模块,适于对于识别出的原创网页,计算所述原创网页的网页内容被转载的 次数;
[0033] 优先级确定模块,适于确定各个目标网页的抓取优先级,其中,所述原创网页的抓 取优先级是根据原创网页被转载的次数确定的;
[0034] 抓取模块,适于根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进 行网页抓取。
[0035] 可选地,所述获取模块进一步适于:
[0036] 在目标网页的来源页中获取超链接网址信息作为目标网页的网址信息;
[0037] 以及,在目标网页的来源页中获取超链接网址信息对应的链接锚文本作为目标网 页的网址信息对应的链接锚文本。
[0038] 可选地,所述识别模块进一步包括:
[0039] 判断单元,适于判断所述链接锚文本是否包含转载关键字;
[0040] 识别单元,适于在判断所述链接锚文本不包含所述转载关键字时,将所述目标网 页识别为原创网页;
[0041] 识别单元进一步适于:在判断所述链接锚文本包含所述转载关键字时,将所述目 标网页识别为转载网页。
[0042] 可选地,优先级确定模块进一步适于:确定各个目标网页的来源页的其它内链网 页的抓取优先级;
[0043] 所述抓取模块还适于:根据确定的抓取优先级将各个目标网页的来源页的其它内 链网页插入到待抓取网页列表进行网页抓取;
[0044] 其中,原创网页的来源页的其它内链网页的抓取优先级是根据原创网页被转载的 次数确定的。
[0045] 可选地,所述原创网页被转载的次数越高,该原创网页以及该原创网页的来源页 的其它内链网页的抓取优先级越高。
[0046] 可选地,所述原创网页以及原创网页的来源页的其它内链网页的抓取优先级高于 所述转载网页以及转载网页的来源页的其它内链网页的抓取优先级。
[0047] 可选地,所述计算模块进一步包括:
[0048] 查找单元,适于根据所述原创网页的链接锚文本,查找与所述原创网页的链接锚 文本匹配的转载网页;
[0049] 计算单元,适于根据查找出的转载网页的个数确定所述原创网页的网页内容被转 载的次数。
[0050] 可选地,该装置还包括:数据库,适于存储所有网页;
[0051] 查找单元进一步适于:根据所述原创网页的链接锚文本从存储有所有网页的数据 库中查找与所述原创网页的链接锚文本匹配的转载网页。
[0052] 可选地,该装置还包括:目标网页集合确定模块,适于根据网址信息对应的链接锚 文本确定具有同类特征的目标网页集合;
[0053] 所述查找单元进一步适于:根据所述原创网页的链接锚文本从所述目标网页集合 中查找与所述原创网页的链接锚文本匹配的转载网页。
[0054] 根据本发明提供的方案,获取搜索引擎爬虫多个目标网页的网址信息以及网址信 息对应的链接锚文本;根据链接锚文本识别每个目标网页是否为原创网页;对于识别出的 原创网页,计算原创网页的网页内容被转载的次数;基于原创网页被转载的次数确定各个 目标网页的抓取优先级;根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进 行网页抓取。该方法根据获取的链接锚文本将目标网页进行了区分,分为原创网页和转载 网页,避免了搜索引擎爬虫每天能够实际抓取的URL有限时,搜索引擎爬虫重复抓取转载 网页的问题;通过确定目标网页的抓取优先级提升了搜索引擎抓取流量的利用效率,及时 收录了用户的原创内容。
[0055] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】
【附图说明】
[0056] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0057] 图1示出了根据本发明一个实施例的搜索引擎爬虫抓取网页的方法的流程图;
[0058] 图2示出了根据本发明另一个实施例的搜索引擎爬虫抓取网页的方法的流程图;
[0059] 图3示出了根据本发明一个实施例的搜索引擎爬虫抓取网页的装置的结构框图;
[0060] 图4示出了根据本发明另一个实施例的搜索引擎爬虫抓取网页的装置的结构框 图。
【具体实施方式】
[0061] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0062] 图1示出了根据本发明一个实施例的搜索引擎爬虫抓取网页的方法的流程图。如 图1所示,该方法包括以下步骤:
[0063] 步骤S100,获取搜索引擎爬虫多个目标网页的网址信息以及网址信息对应的链接 锚文本。
[0064] 在本步骤中,目标网页指可以作为抓取对象的网页,这里目标网页可能是原创网 页,也可能是转载网页;网址信息指网页的URL;链接锚文本是网页中关于链接的一段描 述,用于连向其他网页。链接锚文本主要有两种方式:外部链接与内部链接,外部链接是指 链接到其他网站上的文件;而内部链接则指链接到自己网站上的文件。每一个链接锚文本 都会有一个URL,该URL代表了链接锚文本指向的网页的地址。其中,研发人员在编写网页 的代码时会定义网页的连结格式,该格式定义了网页的超链接网址信息以及该超链接网址 信息对应的链接锚文本。
[0065] 步骤S110,根据链接锚文本识别每个目标网页是否为原创网页。
[0066] 原创网页指由用户自己生产内容首次发表的网页。由于搜索引擎可以根据指向某 一个网页的链接锚文本的描述来判断该网页的内容属性,例如,某网页是原创网页还是转 载网页,因此可以根据链接锚文本识别每个目标网页是否原创网页。
[0067] 步骤S120,对于识别出的原创网页,计算原创网页的网页内容被转载的次数。
[0068] 在根据链接锚文本对每个目标网页进行识别处理后,目标网页被识别为原创网页 或者转载网页,对于识别出的原创网页,计算原创网页的网页内容被转载的次数。
[0069] 步骤S130,基于原创网页被转载的次数确定各个目标网页的抓取优先级。
[0070] 这里原创网页的抓取优先级是根据原创网页被转载的次数确定的,其中,原创网 页被转载的次数越高,该原创网页的抓取优先级越高。由于目标网页中的转载网页是其他 用户转载的原创用户创作的内容,该转载网页在指导搜索引擎爬虫抓取网页方面的利用价 值很小,因此会为转载网页分配较低的抓取优先级。
[0071] 步骤S140,根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网 页抓取。
[0072] 待抓取列表是一个网页URL集合,该网页URL集合中根据抓取优先级由高至低的 顺序对网页URL进行排序,对搜索引擎爬虫抓取网页起到指导作用。具体地,根据步骤S130 中确定的目标网页的抓取优先级将各个目标网页插入到待抓取网页列表,搜索引擎爬虫根 据该待抓取网页列表进行抓取。
[0073] 根据本发明上述实施例提供的方法,获取搜索引擎爬虫多个目标网页的网址信息 以及网址信息对应的链接锚文本;根据链接锚文本识别每个目标网页是否为原创网页;对 于识别出的原创网页,计算原创网页的网页内容被转载的次数;基于原创网页被转载的次 数确定各个目标网页的抓取优先级;根据确定的抓取优先级将各个目标网页插入到待抓取 网页列表进行网页抓取。该方法根据获取的链接锚文本将目标网页进行了区分,分为原创 网页和转载网页,避免了搜索引擎爬虫每天能够实际抓取的URL有限时,搜索引擎爬虫重 复抓取转载网页的问题;通过确定目标网页的抓取优先级提升了搜索引擎抓取流量的利用 效率,及时收录了用户的原创内容。
[0074] 图2示出了根据本发明另一个实施例的搜索引擎爬虫抓取网页的方法的流程图。 如图2所示,该方法包括以下步骤:
[0075] 步骤S200,获取搜索引擎爬虫多个目标网页的网址信息以及网址信息对应的链接 锚文本。
[0076] 具体地,在目标网页的来源页中获取超链接网址信息作为目标网页的网址信息; 以及,在目标网页的来源页中获取超链接网址信息对应的链接锚文本作为目标网页的网址 信息对应的链接锚文本。其中,目标网页指可以作为抓取对象的网页,这里目标网页可能是 原创网页,也可能是转载网页。
[0077] 本实施例中,爬虫一般选取目标网页的来源页(该来源页为爬虫已抓取的网页) 中的超链接网页作为目标网页。举例来说,爬虫在爬取网页A的内容的过程中,发现网页A 包含了多个超链接网页B、C和D,爬虫即可在超链接网页B、C和D中选取部分或全部网页 作为目标网页。具体地,研发人员在编写网页A的代码时定义了网页的连结格式,该连结格 式定义了超链接网页B、C和D的URL以及该URL对应的链接锚文本,爬虫根据已抓取网页 A中定义的网页连结格式发现超链接网页B、C和D,并在超链接网页B、C和D中选取部分或 全部网页作为目标网页,获取所选目标网页的URL以及该URL对应的链接锚文本。
[0078] 步骤S210,判断链接锚文本是否包含转载关键字,若链接锚文本包含转载关键字, 则执行步骤S220 ;若链接锚文本不包含转载关键字,则执行步骤S230。
[0079] 这里的转载关键字可以为转载、源自、引用、转发等关键字。具体地,提取链接锚文 本中的内容文字,将提取的内容文字与转载关键字库进行匹配。
[0080] 步骤S220,将目标网页识别为转载网页。
[0081] 在判断链接锚文本包含转载、源自、引用、转发等关键字时,则该目标网页为转载 网页。
[0082] 步骤S230,将目标网页识别为原创网页。
[0083] 在判断链接锚文本不包含转载、源自、引用、转发等关键字时,则该目标网页为原 创网页。
[0084] 步骤S240,根据原创网页的链接锚文本,查找与原创网页的链接锚文本匹配的转 载网页。
[0085] 爬虫从目标网页的来源页选取目标网页时可以将具有同类特征的网页选取为目 标网页,也可以从目标网页的来源页中随机选取目标网页。
[0086] 下面将针对上述两种选取的目标网页具体介绍查找与原创网页的链接锚文本匹 配的转载网页的方法:
[0087] 针对从目标网页的来源页中随机选取的目标网页的情况主要利用以下方法:根据 原创网页的链接锚文本从存储有所有网页的数据库中查找与原创网页的链接锚文本匹配 的转载网页。
[0088] 针对爬虫从目标网页的来源页中随机选取的目标网页这种情况,需要从存储有所 有网页的数据库中查找原创网页的转载网页。具体地,从存储有所有网页的数据库中查找 与原创网页的链接锚文本匹配的网页,然后判断网页是否包含转载关键字,若包含,则确定 网页为某一原创网页的转载网页。这里判断网页是否为转载网页的方法与本实施例中步骤 S210中的判断方法类似,在此不再赘述,本领域技术人员可以根据实际需要采用合适的方 法进行判断,此处不做具体限定。
[0089] 针对目标网页选取的是具有同类特征的网页的情况主要利用以下方法:
[0090] 步骤1、根据网址信息对应的链接锚文本确定具有同类特征的目标网页集合。
[0091] 这里的同类特征可以是指链接锚文本具有同类标题,本领域技术人员可以根据具 体应用选择合适的特征,在此不做具体限定。
[0092] 具体地,根据网址信息对应的链接锚文本的标题对目标网页进行分类,将目标网 页分类为具有同类标题的多个目标网页集合。
[0093] 步骤2、根据原创网页的链接锚文本从目标网页集合中查找与原创网页的链接锚 文本匹配的转载网页。
[0094] 具体地,通过将原创网页的链接锚文本与目标网页集合中的网页的链接锚文本进 行匹配,若某一网页的链接锚文本包含原创网页的链接锚文本,并且该网页包含转载关键 字,则将该网页确定为原创网页的转载网页。通过一一匹配的方法查找目标网页中所有原 创网页的转载网页。
[0095] 在查找出与原创网页的链接锚文本匹配的转载网页之后,对原创网页的转载网页 的个数进行统计,并将统计的结果与相应的原创网页存储于一 DB数据库中。
[0096] 步骤S250,根据查找出的转载网页的个数确定原创网页的网页内容被转载的次 数。
[0097] 转载网页的个数体现了原创网页被转载的次数,具体地,可以通过从DB数据库中 获取存储的统计结果来确定原创网页被转载的次数。
[0098] 步骤S260,基于原创网页被转载的次数确定各个目标网页以及目标网页的来源页 的其它内链网页的抓取优先级。
[0099] 根据上面的描述可知,目标网页是在爬虫抓取目标网页的来源页的过程中选取 的,目标网页的来源页的超链接网页除了目标网页外,还可能有其它未被选取的内链网页, 本步骤除了可确定目标网页的抓取优先级,还可确定目标网页的来源页中其它未被选取为 目标网页的内链网页的抓取优先级。
[0100] 对于原创网页来说,原创网页以及原创网页的来源页的其它内链网页的抓取优先 级是根据原创网页被转载的次数确定的。原创网页被转载的次数越高,该原创网页以及该 原创网页的来源页的其它内链网页的抓取优先级越高。
[0101] 原创网页以及原创网页的来源页的其它内链网页的抓取优先级高于转载网页以 及转载网页的来源页的其它内链网页的抓取优先级。由于目标网页中的转载网页是其他用 户转载的原创用户创作的内容,该转载网页在指导搜索引擎爬虫抓取网页方面的利用价值 很小,因此会为转载网页分配较低的抓取优先级。
[0102] -般来说,如果目标网页为原创网页且该原创网页的转载次数较高不仅仅代表该 原创网页的抓取质量高,还代表该原创网页的来源页的其它内链网页具有较高的抓取质量 的可能性,本实施例提供的方法不仅有利于发现抓取质量高的原创网页,还有利于爬虫更 进一步挖掘其它具有较高的抓取质量的可能性的其它内链网页,从而抓取到更多的原创网 页,进一步优化了搜索引擎爬虫抓取结果。
[0103] 步骤S270,根据确定的抓取优先级将各个目标网页以及目标网页的来源页的其它 内链网页插入到待抓取网页列表进行网页抓取。
[0104] 待抓取列表是一个网页URL集合,该网页URL集合中根据抓取优先级由高至低的 顺序对网页URL进行排序,对搜索引擎爬虫抓取网页起到指导作用。具体地,根据步骤S260 中确定的目标网页以及目标网页的来源页的其它内链网页的抓取优先级将各个目标网页 以及目标网页的来源页的其它内链网页插入到待抓取网页列表,搜索引擎爬虫根据该待抓 取网页列表进行抓取。
[0105] 下面通过一个具体的示例对本实施例的方案作进一步介绍:
[0106] 在步骤S200中,获取搜索引擎爬虫多个目标网页的URL以及URL对应的链接锚文 本,得到:
【权利要求】
1. 一种搜索引擎爬虫抓取网页的方法,其包括: 获取搜索引擎爬虫多个目标网页的网址信息以及所述网址信息对应的链接锚文本; 根据所述链接锚文本识别每个目标网页是否为原创网页; 对于识别出的原创网页,计算所述原创网页的网页内容被转载的次数; 基于原创网页被转载的次数确定各个目标网页的抓取优先级; 根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网页抓取。
2. 根据权利要求1所述的方法,其中,所述获取搜索引擎爬虫多个目标网页的网址信 息以及所述网址信息对应的链接锚文本进一步包括: 在目标网页的来源页中获取超链接网址信息作为目标网页的网址信息; 以及,在目标网页的来源页中获取超链接网址信息对应的链接锚文本作为目标网页的 网址信息对应的链接锚文本。
3. 根据权利要求1或2所述的方法,其中,根据所述链接锚文本识别每个目标网页是否 为原创网页进一步包括: 判断所述链接锚文本是否包含转载关键字; 若所述链接锚文本不包含所述转载关键字,则识别所述目标网页为原创网页; 所述方法进一步包括:若所述链接锚文本包含所述转载关键字,则识别所述目标网页 为转载网页。
4. 根据权利要求1-3任一项所述的方法,其中,还包括:确定各个目标网页的来源页的 其它内链网页的抓取优先级,以及根据确定的抓取优先级将各个目标网页的来源页的其它 内链网页插入到待抓取网页列表进行网页抓取; 其中,原创网页的来源页的其它内链网页的抓取优先级是根据原创网页被转载的次数 确定的。
5. 根据权利要求1-4任一项所述的方法,其中,所述原创网页被转载的次数越高,该原 创网页以及该原创网页的来源页的其它内链网页的抓取优先级越高。
6. 根据权利要求1-5任一项所述的方法,其中,所述原创网页以及原创网页的来源页 的其它内链网页的抓取优先级高于所述转载网页以及转载网页的来源页的其它内链网页 的抓取优先级。
7. 根据权利要求1-6任一项所述的方法,其中,所述对于识别出的原创网页,计算所述 原创网页的网页内容被转载的次数进一步包括: 根据所述原创网页的链接锚文本,查找与所述原创网页的链接锚文本匹配的转载网 页,根据查找出的转载网页的个数确定所述原创网页的网页内容被转载的次数。
8. 根据权利要求1-7任一项所述的方法,所述根据所述原创网页的链接锚文本,查找 与所述原创网页的链接锚文本匹配的转载网页进一步包括: 根据所述原创网页的链接锚文本从存储有所有网页的数据库中查找与所述原创网页 的链接锚文本匹配的转载网页。
9. 根据权利要求1-8任一项所述的方法,其中,还包括,根据网址信息对应的链接锚文 本确定具有同类特征的目标网页集合; 所述根据所述原创网页的链接锚文本,查找与所述原创网页的链接锚文本匹配的转载 网页进一步包括: 根据所述原创网页的链接锚文本从所述目标网页集合中查找与所述原创网页的链接 锚文本匹配的转载网页。
10. -种搜索引擎爬虫抓取网页的装置,其包括: 获取模块,适于获取搜索引擎爬虫多个目标网页的网址信息以及所述网址信息对应的 链接锚文本; 识别模块,适于根据所述链接锚文本识别每个目标网页是否为原创网页; 计算模块,适于对于识别出的原创网页,计算所述原创网页的网页内容被转载的次 数; 优先级确定模块,适于确定各个目标网页的抓取优先级,其中,所述原创网页的抓取优 先级是根据原创网页被转载的次数确定的; 抓取模块,适于根据确定的抓取优先级将各个目标网页插入到待抓取网页列表进行网 页抓取。
【文档编号】G06F17/30GK104090976SQ201410347538
【公开日】2014年10月8日 申请日期:2014年7月21日 优先权日:2014年7月21日
【发明者】王智广 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司