本发明涉及网络搜索技术领域,尤其涉及一种网页爬取的方法和装置。
背景技术:
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着互联网技术的发展,各种网络信息也越来越庞杂,为便于网页信息的收集、查询和检索,通常采用爬虫对网页进行自动爬取。
现有技术下,通常需要针对各类网页进行人工分析,以定制网页爬取的爬虫规则,然而,当网页的页面结构发生改变时,就需要重新通过人工制定新的爬虫规则爬取网页,这会耗费大量的人力物力,降低了数据获取的效率。
进一步地,还可以通过元素选择器获取的模板,确定爬虫规则,但是,通过这种方式获取的爬虫规则进行网页爬取时,爬取的精确度较低。
如何对网页爬取的方式进行优化,是一个需要考虑的问题。
技术实现要素:
本发明实施例提供网页爬取的方法和装置,用以提高网页爬取的精确度和效率。
第一方面,提供一种网页爬取的方法,包括:
获取样本网页中的用户指定区域包含的每一个内容单元的属性描述信息,其中,一个内容单元由同一个叶子标签上位于指定区域内的内容组成,属性描述信息为内容单元所在的叶子标签的位置描述信息以及其在叶子标签中的位置描述信息;
分别对应每一个内容单元设置一个属性节点,并基于获取的各个属性节点,形成网页的初始爬虫规则链,其中,爬虫规则链包括链接的多个属性节点,各个属性节点的链接关系是根据内容单元在样本网页中的位置关系确定的,属性节点的属性描述信息包含其所对应的内容单元的属性描述信息,爬虫规则链以及每个属性节点的属性描述信息用于爬取网页内容;
基于多个初始爬虫规则链生成确定的网页爬虫规则链,并基于网页爬虫规则链对目标网页进行爬取。
较佳的,在形成网页的初始爬虫规则链时,将属性描述信息相同的多个内容单元设置为一个属性节点。
较佳的,基于获取的各个属性节点,形成网页的初始爬虫规则链,具体包括:
确定样本网页中的指定区域中存在哈希值相同的标签时,筛选出指定区域中各个哈希值相同的重复标签;
分别针对每一个重复标签,执行以下步骤:基于一个重复标签中包含的各个内容单元的属性节点,获得重复标签的标签规则链;
针对各个重复标签的标签规则链的共有部分,设置一个父属性节点,其中,父属性节点的属性信息包括各个重复标签的标签规则链的共有部分对应的各个内容单元的属性描述信息;
基于父属性节点,以及未与父属性节点重叠的各个属性节点,形成网页的初始爬虫规则链。
较佳的,基于获取的各个属性节点,形成网页的初始爬虫规则链,具体包括:
确定样本网页中的指定区域中不存在重复标签的标签规则链的共有部分时,针对样本网页,获取各个哈希值相同的重复标签;
针对每一个重复标签执行以下步骤:对应一个重复标签中的每一个叶子标签设置属性节点,获得重复标签的标签规则链;
针对样本网页中各个重复标签的标签规则链的共有部分,设置一个父属性节点;
基于获取的父属性节点,以及未与父属性节点重叠的各个属性节点,形成网页的初始爬虫规则链。
较佳的,基于多个初始爬虫规则链生成确定的网页爬虫规则链,具体包括:
确定样本网页为多个时,将基于每一个样本网页形成的初始爬虫规则链中的共有部分作为最终的网页爬虫规则链。
较佳的,基于网页爬虫规则链对目标网页进行爬取,具体包括:
按照网页爬虫规则链中的各个属性节点的链接关系,在目标网页中,依次根据每一个属性节点的属性描述信息进行爬取;
确定基于网页爬虫规则链获取目标数据集合失败时,将目标网页划分为多个区域;
分别针对每一个区域,执行以下步骤:基于标签与权重之间的关联关系,计算一个区域内包含的各个标签的权重的权重加和;
对最高权重加和的区域进行爬取,获得目标网页对应的目标数据集合。
较佳的,在基于标签与权重之间的关联关系,计算一个区域内包含的各个标签的权重的权重加和之前,进一步包括:
针对目标网页中的每一个叶子标签,执行以下步骤,直到确定各个叶子标签的父标签均不符合预设替换条件:
确定一个叶子标签的父标签符合预设替换条件时,将叶子标签的父标签替换为叶子标签。
较佳的,在获得目标网页对应的目标数据集合之后,进一步包括:
获取有效区域外的各个图片的路径参数;
将路径参数符合图片筛选条件的各个图片进行提取;
将提取的图片添加到目标数据集合中。
第二方面,提供一种网页爬取的装置,包括:
获取单元,用于获取样本网页中的用户指定区域包含的每一个内容单元的属性描述信息,其中,一个内容单元由同一个叶子标签上位于指定区域内的内容组成,属性描述信息为内容单元所在的叶子标签的位置描述信息以及其在叶子标签中的位置描述信息;
形成单元,用于分别对应每一个内容单元设置一个属性节点,并基于获取的各个属性节点,形成网页的初始爬虫规则链,其中,爬虫规则链包括链接的多个属性节点,各个属性节点的链接关系是根据内容单元在样本网页中的位置关系确定的,属性节点的属性描述信息包含其所对应的内容单元的属性描述信息,爬虫规则链以及每个属性节点的属性描述信息用于爬取网页内容;
爬取单元,用于基于多个初始爬虫规则链生成确定的网页爬虫规则链,并基于网页爬虫规则链对目标网页进行爬取。
较佳的,在形成网页的初始爬虫规则链时,将属性描述信息相同的多个内容单元设置为一个属性节点。
较佳的,在基于获取的各个属性节点,形成网页的初始爬虫规则链时,形成单元具体用于:
确定样本网页中的指定区域中存在哈希值相同的标签时,筛选出指定区域中各个哈希值相同的重复标签;
分别针对每一个重复标签,执行以下步骤:基于一个重复标签中包含的各个内容单元的属性节点,获得重复标签的标签规则链;
针对各个重复标签的标签规则链的共有部分,设置一个父属性节点,其中,父属性节点的属性信息包括各个重复标签的标签规则链的共有部分对应的各个内容单元的属性描述信息;
基于父属性节点,以及未与父属性节点重叠的各个属性节点,形成网页的初始爬虫规则链。
较佳的,在基于获取的各个属性节点,形成网页的初始爬虫规则链时,形成单元具体用于:
确定样本网页中的指定区域中不存在重复标签的标签规则链的共有部分时,针对样本网页,获取各个哈希值相同的重复标签;
针对每一个重复标签执行以下步骤:对应一个重复标签中的每一个叶子标签设置属性节点,获得重复标签的标签规则链;
针对样本网页中各个重复标签的标签规则链的共有部分,设置一个父属性节点;
基于获取的父属性节点,以及未与父属性节点重叠的各个属性节点,形成网页的初始爬虫规则链。
较佳的,在基于多个初始爬虫规则链生成确定的网页爬虫规则链时,爬取单元具体用于:
确定样本网页为多个时,将基于每一个样本网页形成的初始爬虫规则链中的共有部分作为最终的网页爬虫规则链。
较佳的,在基于网页爬虫规则链对目标网页进行爬取时,爬取单元具体用于:
按照网页爬虫规则链中的各个属性节点的链接关系,在目标网页中,依次根据每一个属性节点的属性描述信息进行爬取;
确定基于网页爬虫规则链获取目标数据集合失败时,将目标网页划分为多个区域;
分别针对每一个区域,执行以下步骤:基于标签与权重之间的关联关系,计算一个区域内包含的各个标签的权重的权重加和;
对最高权重加和的区域进行爬取,获得目标网页对应的目标数据集合。
较佳的,在基于标签与权重之间的关联关系,计算一个区域内包含的各个标签的权重的权重加和之前,爬取单元还用于:
针对目标网页中的每一个叶子标签,执行以下步骤,直到确定各个叶子标签的父标签均不符合预设替换条件:
确定一个叶子标签的父标签符合预设替换条件时,将叶子标签的父标签替换为叶子标签。
较佳的,在获得目标网页对应的目标数据集合之后,爬取单元还用于:
获取有效区域外的各个图片的路径参数;
将路径参数符合图片筛选条件的各个图片进行提取;
将提取的图片添加到目标数据集合中。
第三方面,提供一种终端设备,包括至少一个处理单元、以及至少一个存储单元,其中,存储单元存储有计算机程序,当程序被处理单元执行时,使得处理单元执行上述任一网页爬取的方法的步骤。
第四方面,提供一种计算机可读介质,其存储有可由终端设备执行的计算机程序,当程序在终端设备上运行时,使得终端设备执行上述任一网页爬取的方法的步骤。
本发明实施例提供的网页爬取的方法和装置中,获取用户在一个样本网页中的指定区域的各个内容单元的属性描述信息,其中,一个内容单元由同一个叶子标签上位于指定区域内的内容组成,属性描述信息为内容单元所在的叶子标签的位置描述信息以及其在叶子标签中的位置描述信息,然后,分别对应每一个内容单元设置属性节点,并将各个属性节点进行链接,获得网页的初始爬虫规则链,进而通过多个初始爬虫规则链确定的网页爬虫规则链中各个属性节点的属性描述信息对目标网页进行爬取。这样,就可以对通过设置的属性节点以及属性描述信息,对一个标签,多个标签,标签内部分内容,或夸标签的内容进行提取,提高了爬取的精度和效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1a为本发明提供的一种节点树的示意图;
图1b为本发明提供的一种网页的示意图;
图1c为本发明提供的一种终端设备的结构示意图;
图2为本发明实施方式中网页爬取的方法的实施流程图;
图3为本发明实施方式中提供的一种包含列表的网页的示意图;
图4a为本发明实施方式中提供的一种标签规则链的示意图;
图4b为本发明实施方式中提供的一种规则链共有部分获取的示意图;
图4c为本发明实施方式中提供的一种爬虫规则链的示意图;
图5为本发明实施方式中提供的一种网页入口的示意图;
图6为本发明实施方式中提供的一种爬虫生成网页的示意图;
图7为本发明实施方式中网页爬取的装置的结构示意图;
图8为本发明实施方式中终端设备结构示意图。
具体实施方式
为了提高网页爬取的精确度和效率,本发明实施例提供了一种网页爬取的方法和装置。
首先,对本发明实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
1、终端设备:可以安装各类应用程序,并且能够将已安装的应用程序中提供的对象进行显示的设备,该电子设备可以是移动的,也可以是固定的,。例如,手机、平板电脑、各类可穿戴设备、车载设备、个人数字助理(personaldigitalassistant,pda)、销售终端(pointofsales,pos)或其它能够实现上述功能的电子设备等。
2、爬虫:是一种对网页进行爬取的应用或脚本,主要包括传统爬虫和聚焦爬虫。进一步地,搜索引擎通常采用爬虫对网页进行爬取,并将爬取的网页内容进行分析、过滤,以及建立索引等,以便网页查询和检索。
其中,传统爬虫为:基于一个或若干初始网页的统一资源定位符(uniformresourcelocator,url),确定相应的网页,然后,循环爬取网页中包含的各个url以及url相应的网页,直到满足预设的停止条件停止对下一个网页爬取。
其中,聚焦爬虫为:采用预设的网页分析算法对待爬取网页的url进行分析并过滤,然后,按照预设的搜索策略,循环对筛选后的url对应的网页进行爬取,并根据爬取的url重复上述爬取过程,直到达到预设的停止条件时停止爬取下一个网页。
3、节点树:即文档对象模型(documentobjectmodel,dom)树,将网页中的所有标签(如文本,注释,文档等)都视为节点,因此,每一个网页都可以映射成一个节点树。
参阅图1a所示,为一种节点树的示意图。例如,整个文档是一个文档节点,html标签,<title>标签,<body>标签,<h1>标签和<a>标签均为节点树中的节点。即每一个节点均对应一个标签。
进一步地,除文档节点之外的每个节点都有父节点,例如,<head>和<body>的父节点是<html>节点,即<head>和<body>均为<html>节点的子节点。当多个节点分享同一个父节点时,为同辈(同级节点)。例如,<h1>和<a>互为同辈节点,因为它们的父节点均是<body>节点。
4、叶子标签:不包含子标签的标签。
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
现有技术中,在按照爬虫规则对大量的待爬取网页进行爬取之前,通常先采用以下任意一种方式生成相应的爬虫规则:
第一种方式为:人工对待爬取的一类网页进行分析,并根据分析结果,人为制定相应的爬虫规则。
显然,通过人工定制的爬虫规则对网页进行爬取时,具有较高的精确度。然而,人工定制的爬虫规则仅适用于同一类类网页,当网页的页面结构发生改变时,就需要人工重新制定新的爬虫规则,这样,极大地增加了的爬虫规则制定的工作量,耗费了大量的人力,物力以及时间资源,爬虫规则生成的效率也较低。
第二种方式为:先通过元素选择器,如,可扩展标记语言路径语言(xmlpathlanguage,xpath)、层叠样式表选择器(cascadingstylesheetsselector,cssselector)对用户指定区域进行元素(以标签为基本单位)提取,获得指定区域中每一个标签的表达式,进而获得爬虫规则,以对其它网页进行爬取。
其中,元素选择器用于确定待爬取的内容在网页中如何定位和表达,获得的结果为每一个标签的表达式,即通过元素选择器进行提取时,通常是按照一个标签为基本单位的,一个标签对应一个表达式。
例如,参阅图1b所示,为一种网页的示意图。通过元素选择器对用户框选的内容进行提取,获得的提取结果可以采用以下两种表达式:
1、xpath://*[@id="today"]/div[2]/ul/li[1]/a[1];
2、selector:#today>div.ft>ul>li:nth-child(1)>a.fleft。
显然,通过元素选择器生成爬虫规则时,仅需要人工对样本网页进行区域指定,就可以根据提取的各个标签的表达式,自动获得爬虫规则,这减少了人工的分析以及爬虫规则制定的繁琐步骤。
但是,由于元素选择器以标签为最小单位进行元素提取,并且标签与表达式是一一对应的,因此,若选择多个标签,则会获得多个表达式,无法对一个标签内的指定位置的内容进行提取,也无法通过一个表达式进行跨标签提取。这样,通过元素选择器获得的爬虫规则较为简单,爬取内容的精确度较低。
为提高网页爬取的精确度,本发明实施例中,将样本网页中的指定区域划分为各个由叶子标签内位于指定区域的内容组成的内容单元,并对应内容单元设置属性节点,将各个属性节点进行链接获得网页的初始爬虫规则链,进而通过多个初始爬虫规则链确定的网页爬虫规则链中各个属性节点的属性描述信息对目标网页进行爬取。
本发明实施例提供的网页爬取的方法及网页爬取的方法,可应用于终端设备中,该终端设备可以为计算机,手机、平板电脑、各类可穿戴设备、pda(personaldigitalassistant,掌上电脑)等,主要用于提供一种数据服务而非一种终端产品。
图1c示出了一种终端设备的结构示意图。参阅图1c所示,终端设备100包括:处理器110、存储器120、电源130、显示单元140、输入单元150。
处理器110是终端设备100的控制中心,利用各种接口和线路连接各个部件,通过运行或执行存储在存储器120内的软件程序和/或数据,执行终端设备100的各种功能,从而对终端设备进行整体监控。
可选的,处理器110可包括一个或多个处理单元;优选的,处理器110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。在一些实施例中,处理器、存储器、可以在单一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、各种应用等;存储数据区可存储根据终端设备100的使用所创建的数据等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。
终端设备100还包括给各个部件供电的电源130(比如电池),电源可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗等功能。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端设备100的各种菜单等,本发明实施例中主要用于显示终端设备100中各应用的显示界面以及显示界面中显示的文本、图片等对象。显示单元140可以包括显示面板141。显示面板141可以采用液晶显示屏(liquidcrystaldisplay,lcd)、有机发光二极管(organiclight-emittingdiode,oled)等形式来配置。
输入单元150可用于接收用户输入的数字或字符等信息。输入单元150可包括触控面板151以及其他输入设备152。其中,触控面板151,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板151上或在触控面板151附近的操作)。
具体的,触控面板151可以检测用户的触摸操作,并检测触摸操作带来的信号,将这些信号转换成触点坐标,发送给处理器110,并接收处理器110发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板151。其他输入设备152可以包括但不限于物理键盘、功能键(比如音量控制按键、开关机按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
当然,触控面板151可覆盖显示面板141,当触控面板151检测到在其上或附近的触摸操作后,传送给处理器110以确定触摸事件的类型,随后处理器110根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图1c中,触控面板151与显示面板141是作为两个独立的部件来实现终端设备100的输入和输出功能,但是在某些实施例中,可以将触控面板151与显示面板141集成而实现终端设备100的输入和输出功能。
终端设备100还可包括一个或多个传感器,例如压力传感器、重力加速度传感器、接近光传感器等。当然,根据具体应用中的需要,上述终端设备100还可以包括摄像头等其它部件,由于这些部件不是本申请实施例中重点使用的部件,因此,在图1c中没有示出,且不再详述。
本领域技术人员可以理解,图1c仅仅是终端设备的举例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
参阅图2所示,为本发明提供的网页爬取的方法的实施流程图。在下文的介绍过程中,结合图1c所示的终端设备100的结构示意图进行说明,该方法的具体实施流程如下:
s21:终端设备获取样本网页中的用户指定区域包含的每一个内容单元的属性描述信息。
具体的,用户通常先在一个或多个样本网页中通过输入单元150网页框选一个或多个区域作为指定区域。则终端设备100确定用户在样本网页中框选了相应的指定区域时,获取各个指定区域包含的各个叶子标签的位置描述信息,以及叶子标签内上位于指定区域的内容的位置描述信息,进而获取每一个内容单元的属性描述信息。
其中,一个内容单元由同一个叶子标签上位于指定区域内的内容组成。属性描述信息中至少包括内容单元所在的叶子标签的位置描述信息以及其在叶子标签中的位置描述信息。
可选的,叶子标签的位置描述信息为通过元素选择器提取的叶子标签的表达式。标签内的内容的位置描述信息可以为:起始、结束位置的锚点,以及指定元素。
例如,一个内容单元的属性描述信息为:
即内容单元对应的叶子标签的标签表达式:#today>div.ft>ul>li:nth-child(1)>a.fleft,标签内第5-8个文字为叶子标签内上位于指定区域的内容。
这样,就可以将指定区域中包含的内容按照叶子标签划分为各个内容单元,并通过内容单元的属性描述信息,可以对叶子标签内的部分内容进行精确定位。
s22:终端设备分别对应每一个内容单元设置一个属性节点。
这样,就可以通过属性节点对一个叶子标签的部分指定内容进行具体定位,不仅可以通过标签的表达式定位到一个标签,还可以通过位置描述信息定位到一个标签中的部分指定内容,实现了元素内指定内容的定位,提高了网页内容定位的精确度。
s23:终端设备判断指定区域内是否包含重复元素,若是,则执行步骤s24,否则,执行步骤s27。
s24:终端设备针对指定区域内哈希值相同的重复标签,设置父属性节点。
首先,终端100确定指定区域内存在哈希值相同的重复标签时,筛选出各个哈希值相同的重复标签,并分别获得每一个重复标签的标签规则链。获得同一哈希值的一组重复标签,当然,也可能存在多组重复标签,每一组重复标签内各个重复标签的哈希值相同。
这是由于网页中可能包含重复元素,如,列表(如文章列表,标签列表,分页等),若各个标签的哈希值相同,则网页中可能存在列表。例如,参阅图3所示,为一种包含列表的网页的示意图,图3所示的8个子页包含的内容相似,则哈希值可能相同。
然后,针对一组重复标签内的每一个重复标签,执行以下步骤:基于一个重复标签中包含的各个内容单元的属性节点,形成改重复标签对应的标签规则链。
其中,标签规则链与爬虫规则链均为包括链接的多个属性节点的规则链。各个属性节点的链接关系是根据内容单元在样本网页中的位置关系确定的。属性节点的属性描述信息至少包含其所对应的内容单元的属性描述信息,还包含以下参数中的任意一种或组合:节点名称,是否为起始节点,是否为终止节点,节点指向,以及标签属性等。
例如,参阅图4a所示,为一种标签规则链的示意图,包括节点node1和node2。node1用于选取第一个标签的第5-8位置的内容,node2用于选取第二个标签的1-9位置的内容,则由node1和node2进行链接形成标签规则链,包含的属性描述信息为:
其中,begin为节点的起始位置,next为当前节点指向的下一个节点,selector为标签的表达式,content为叶子标签内的指定内容,anchor为叶子标签内的指定内容的具体位置。
接着,终端设备100针对一组重复标签的标签规则链的共有部分,设置一个父属性节点。
可选的,各个重复标签的标签规则链的共有部分,可能仅包含一个属性节点,即列表中所有的内容重复且仅包含一个叶子标签,也可能是包含多个属性节点,即为包括起始节点和终止节点的规则链。
其中,父属性节点对应包含上述共有部分的各个内容单元的父标签,通常通过元素选择器进行提取。父属性节点的属性信息包括各个重复标签的标签规则链的共有部分对应的各个内容单元的属性描述信息。
参阅图4b所示,为一种规则链共有部分获取的示意图。例如,第一重复标签获得规则链1,包括node1、node2和node4,第二重复标签获得规则链2,包括node2、node4和node7,则两者的共有部分为包含node2和node4的规则链3。
父属性节点的属性信息包括各个重复标签的标签规则链的共有部分对应的各个内容单元的属性描述信息。
这样,就可以在指定区域内存在列表等重复元素时,将重复元素作为一个整体,设置父属性节点。
s25:终端设备判断样本网页中是否存在重复元素,若是,则执行步骤s26,否则,执行步骤s27。
s26:终端设备针对样本网页中哈希值相同的各个重复标签,设置父属性节点。
具体的,终端设备100获取样本网页中哈希值相同的各个重复标签,分别对应重复标签中包含的每一个叶子标签设置属性节点,其中,属性节点的属性信息为叶子标签的位置描述信息。
然后,终端设备100针对每一个重复标签执行以下步骤:基于一个重复标签的各个属性节点,获得该重复标签的标签规则链。
接着,终端设备针对样本网页中各个重复标签的标签规则链的共有部分,设置一个父属性节点。
这是,由于在整个样本网页中筛选重复元素,而非仅在指定区域内,因此,属性描述信息仅包括叶子标签的位置描述信息,不需要叶子标签内的部分内容的具体位置信息。
这样,就可以在样本网页中存在列表等重复元素,但是,用户未进行框选时,将各个重复元素先进行规则链合并,作为一个父属性节点,以对后续获取的初始爬虫规则链进行简化。
s27:终端设备基于获取的属性节点,形成网页的初始爬虫规则链,并基于多个初始爬虫规则链生成确定的网页爬虫规则链。
具体的,首先,终端设备100按照预设的筛选条件对各个属性节点进行筛选。
其中,按照预设的筛选条件对各个属性节点进行筛选时,可以采用以下方式中的任意一种或组合:
第一种方式为:将对应的内容单元的属性描述信息相同的属性节点进行去重。
这样,就可以保证各个属性节点的唯一性,避免重复爬取。每一个属性节点都唯一指向一个标签或一个标签内的指定内容。
第二种方式为:确定存在属性节点与父属性节点重叠时,将重叠的属性节点去除。
这样,就可以保证基于父属性节点定位的网页内容与基于各个属性节点定位的网页内容不存在重叠,也避免了重复爬取。
然后,终端设备100基于筛选出的各个属性节点以及父属性节点,按照各个属性节点在样本网页的节点树中从上到下,从左到右的顺序进行链接,获得样本网页的初始爬虫规则链。
参阅图4c所示,为本发明实施例中一种爬虫规则链的示意图。爬虫规则链包括node1、node2、node4、node5和node7,其中,node4为父属性节点,包括node6和node9。
本发明实施例中,仅以针对一个样本网页生成相应的爬虫规则链为例,进行说明,基于相同的原理,可以对其它各个样本网页生成相应的爬虫规则链,在此不再赘述。
确定存在多个样本网页时,终端设备将基于每一个样本网页形成的初始爬虫规则链中的共有部分作为最终的网页爬虫规则链。
这是由于网页的生成规则、书写差异或标签命名不同等原因,通过一个样本网页获取的初始爬虫规则链,无法应用到同一类网页的所有网页,因此,在各个样本网页的初始爬虫规则链中选取均共有部分,就可以获得在各个样本网页中通用的网页爬虫规则链,进而可以通过网页爬虫规则链对目标网页进行爬取,获得目标数据集合,通用性强,爬取时内容定位的精确度更高。
这样,就可以通过在后续的爬取过程中,根据网页爬虫规则链中的各个属性节点对应的属性描述信息,对网页进行爬取,从而可以实现单标签,多标签,标签内部分内容,以及跨标签内容的爬取。
s28:终端设备基于网页爬虫规则链,对目标网页进行爬取。
具体的,终端设备100按照网页爬虫规则链中的各个属性节点的链接关系,在目标网页中的节点树中遍历,确定每一个属性节点,并依次根据每一个属性节点的属性描述信息进行爬取并存储,获得目标网页的目标数据集合。
例如,参阅图5所示,一种网页入口的示意图,参阅图6所示,为一种爬虫生成网页的示意图,终端设备100通过用户提供的网页入口,通过网页爬虫规则链进行网页爬取,并基于爬取的目标网页的目标数据集合,生成新的网页呈现给用户。
s29:终端设备确定爬取失败时,将目标网页划分为多个区域,并对目标网页中的有效区域进行爬取,获得目标数据集合。
具体的,首先,终端设备100将目标网页中的无效标签进行筛选删除,其中,对无效标签进行删除时,可以采用以下步骤:基于目标网页的所有叶子标签,获得叶子标签集合,并分别针对每一个叶子标签执行以下步骤,直到确定叶子标签集合中的每一个叶子标签的父标签均不符合预设替换条件条件:确定一个叶子标签的父标签符合预设替换条件条件时,将上述叶子标签的父标签删除,并替换为上述叶子标签。
其中,预设替换条件用于判断一个标签中是否包含有效内容,较佳的,实质内容为包含指定参数。
例如,标签a为叶子标签b的父标签,a中仅包含b,则终端设备100判定a中不包含其它有效内容,将a替换为b,删除a。
这是由于一个标签中可能包含多层嵌套的标签,因此,先将包含无效内容的标签进行筛选删除,从而可以在后续的步骤中仅对包含有效内容的标签进行后续的处理。
然后,终端设备将目标网页划分为多个区域,并基于筛选后的标签,在各个区域中选取有效区域。其中,选取有效区域时,可以采用以下步骤:
具体的,终端设备100将目标网页划分为多个区域,并基于标签与权重之间的关联关系,分别确定各个区域中每一个标签对应的权重。其次,终端设备100分别计算每一个区域中各个标签的权重的加和,分别获得每一个区域对应的权重加和,并选取权重加和最高的一个区域作为有效区域。
其中,权重包含权重值和正负方向,并且每一个标签的权重值和正负方向是预先设置的,标签名称相同的各个标签的权重相同。
这样,就可以获取目标网页的主体区域,如,文章新闻的正文等。
最后,终端设备100对目标网页中的有效区域进行爬取,获得目标数据集合,具体的,可以采用但不限于以下两种方式:
第一种方式为:终端设备直接对有效区域进行爬取,获得目标网页对应的目标数据集合。
第二种方式为:终端设备确定目标网页已经加载完毕时,对有效区域进行爬取,获得目标网页对应的目标数据集合。
这是因为有时在网页的正文中只有图片的占位符,并没有相应的图片的路径参数,网页是直接通过javascript脚本对图片进行一次性渲染或滚动到图片位置渲染的方式进行图片加载的,直接对未加载完毕的目标网页进行爬取时,可能无法爬取全部的图片数据,因此,通过人工针对每一个网页分析图片的路径参数,或者,在确定网页加载完毕后进行抓取。当然,采用第二种方式,爬取目标网页的速度较慢,网页爬取的效率较低。
进一步地,对有效区域提取时,通常有效区域主要包含正文,正文一般会被一种标记为article或是article-body的<div>包裹,整个提取过程也是针对这个div中的内容进行。但是,文章的第一张图可能包含在有效区域内。也可能未包含在有效区域内,如,将文章的第一张图片作为文章题图,或是在正文之外的相关图。若仅对有效区域进行提取,可能会造成重要图片的丢失,降低了文章的表现效果。
针对这种类型的图片,首先,终端设备100确定终端设备有效区域(如文本标签,)的指定方向(如,上方和/或左方)存在包含图片的标签时,获取标签中包含的图片的路径参数(如,url),还可以获取尺寸参数等信息。
其中,图片筛选条件用于根据图片描述信息中包含的图片路径参数以及尺寸参数对无效图片进行筛选。
其中,终端设备100按照预设的图片筛选条件,对爬取的图片进行筛选时,可以采用以下步骤:
首先,基于图片描述信息中包含的图片路径参数和尺寸参数,筛选出图片路径和尺寸参数均不相同的各个图片;
然后,基于筛选后的各个图片的路径参数中的url,以及文本标签对应的url,对url前缀与文本标签对应的url前缀相同的各个图片进行爬取。
最后,终端设备100将图片添加到目标数据集合中,可选的,在添加到目标数据集合中时,将图片放在正文的前面。
较佳的,还可以在向文本标签的指定方向获取图片时,设置相应的图片爬取对应的标签深度,减少无效图片的获取,提高爬取的精确度。
本发明实施例提供的网页爬取的方法可以集成在应用程序中,也可以作为独立的终端设备功能部署于终端设备中。
基于同一发明构思,本发明实施例中还提供了一种网页爬取的装置,由于上述装置及设备解决问题的原理与网页爬取的方法相似,因此,上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图7所示,其为本发明实施例提供的网页爬取的装置的结构示意图,包括:
获取单元70,用于获取样本网页中的用户指定区域包含的每一个内容单元的属性描述信息,其中,一个内容单元由同一个叶子标签上位于指定区域内的内容组成,属性描述信息为内容单元所在的叶子标签的位置描述信息以及其在叶子标签中的位置描述信息;
形成单元71,用于分别对应每一个内容单元设置一个属性节点,并基于获取的各个属性节点,形成网页的初始爬虫规则链,其中,爬虫规则链包括链接的多个属性节点,各个属性节点的链接关系是根据内容单元在样本网页中的位置关系确定的,属性节点的属性描述信息包含其所对应的内容单元的属性描述信息,爬虫规则链以及每个属性节点的属性描述信息用于爬取网页内容;
爬取单元72,用于基于多个初始爬虫规则链生成确定的网页爬虫规则链,并基于网页爬虫规则链对目标网页进行爬取。
较佳的,在形成网页的初始爬虫规则链时,将属性描述信息相同的多个内容单元设置为一个属性节点。
较佳的,在基于获取的各个属性节点,形成网页的初始爬虫规则链时,形成单元71具体用于:
确定样本网页中的指定区域中存在哈希值相同的标签时,筛选出指定区域中各个哈希值相同的重复标签;
分别针对每一个重复标签,执行以下步骤:基于一个重复标签中包含的各个内容单元的属性节点,获得重复标签的标签规则链;
针对各个重复标签的标签规则链的共有部分,设置一个父属性节点,其中,父属性节点的属性信息包括各个重复标签的标签规则链的共有部分对应的各个内容单元的属性描述信息;
基于父属性节点,以及未与父属性节点重叠的各个属性节点,形成网页的初始爬虫规则链。
较佳的,在基于获取的各个属性节点,形成网页的初始爬虫规则链时,形成单元71具体用于:
确定样本网页中的指定区域中不存在重复标签的标签规则链的共有部分时,针对样本网页,获取各个哈希值相同的重复标签;
针对每一个重复标签执行以下步骤:对应一个重复标签中的每一个叶子标签设置属性节点,获得重复标签的标签规则链;
针对样本网页中各个重复标签的标签规则链的共有部分,设置一个父属性节点;
基于获取的父属性节点,以及未与父属性节点重叠的各个属性节点,形成网页的初始爬虫规则链。
较佳的,在基于多个初始爬虫规则链生成确定的网页爬虫规则链时,爬取单元72具体用于:
确定样本网页为多个时,将基于每一个样本网页形成的初始爬虫规则链中的共有部分作为最终的网页爬虫规则链。
较佳的,在基于网页爬虫规则链对目标网页进行爬取时,爬取单元72具体用于:
按照网页爬虫规则链中的各个属性节点的链接关系,在目标网页中,依次根据每一个属性节点的属性描述信息进行爬取;
确定基于网页爬虫规则链获取目标数据集合失败时,将目标网页划分为多个区域;
分别针对每一个区域,执行以下步骤:基于标签与权重之间的关联关系,计算一个区域内包含的各个标签的权重的权重加和;
对最高权重加和的区域进行爬取,获得目标网页对应的目标数据集合。
较佳的,在基于标签与权重之间的关联关系,计算一个区域内包含的各个标签的权重的权重加和之前,爬取单元72还用于:
针对目标网页中的每一个叶子标签,执行以下步骤,直到确定各个叶子标签的父标签均不符合预设替换条件:
确定一个叶子标签的父标签符合预设替换条件时,将叶子标签的父标签替换为叶子标签。
较佳的,在获得目标网页对应的目标数据集合之后,爬取单元72还用于:
获取有效区域外的各个图片的路径参数;
将路径参数符合图片筛选条件的各个图片进行提取;
将提取的图片添加到目标数据集合中。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
基于同一技术构思,本申请实施例还提供了一种终端设备图800,参照图图8所示,终端设备图800用于实施上述各个方法实施例记载的方法,例如实施图2所示的实施例,终端设备图800可以包括存储器图801、处理器图802、输入单元图803和显示面板图804。
存储器图801,用于存储处理器图802执行的计算机程序。存储器图801可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据终端设备图800的使用所创建的数据等。处理器图802,可以是一个中央处理单元(centralprocessingunit,cpu),或者为数字处理单元等等。输入单元图803,可以用于获取用户输入的用户指令。显示面板图804,用于显示由用户输入的信息或提供给用户的信息,本申请实施例中,显示面板图804主要用于显示终端设备中各应用程序的显示界面以及各显示界面中显示的控件对象。可选的,显示面板图804可以采用液晶显示器(liquidcrystaldisplay,lcd)或oled(organiclight-emittingdiode,有机发光二极管)等形式来配置显示面板图804。
本申请实施例中不限定上述存储器图801、处理器图802、输入单元图803和显示面板图804之间的具体连接介质。本申请实施例在图图8中以存储器图801、处理器图802、输入单元图803、显示面板图804之间通过总线图805连接,总线图805在图图8中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线图805可以分为地址总线、数据总线、控制总线等。为便于表示,图图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器图801可以是易失性存储器(volatilememory),例如随机存取存储器(random-accessmemory,ram);存储器图801也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flashmemory),硬盘(harddiskdrive,hdd)或固态硬盘(solid-statedrive,ssd)、或者存储器图801是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器图801可以是上述存储器的组合。
处理器图802,用于实现如图2所示的一种网页爬取的方法,包括:所述处理器图802,用于调用所述存储器图801中存储的计算机程序执行如实施图2所示的实施例。.
本申请实施例还提供了一种计算机可读存储介质,存储为执行上述处理器所需执行的计算机可执行指令,其包含用于执行上述处理器所需执行的程序。
在一些可能的实施方式中,本发明提供的网页爬取的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述描述的根据本发明各种示例性实施方式的网页爬取的方法中的步骤。例如,所述终端设备可以执行如实施图2所示的实施例。.
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于—-电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本发明的实施方式的用于网页爬取的的程序产品可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在计算设备上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括--但不限于--无线、有线、光缆、rf等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如java、c++等,还包括常规的过程式程序设计语言-诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络--包括局域网(lan)或广域网(wan)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。