本公开涉及计算机技术领域,尤其涉及一种网页数据防爬虫抓取方法及装置、存储介质、电子设备。
背景技术:
大数据时代,数据已经成为企业的一项核心竞争力,网页上的一些关键数据,例如购物网站中的商品价格、交易量、用户联系方式等信息,在方便用户浏览的同时,也成为一些恶意爬虫疯狂抓取的目标。如何防止网页中的关键数据被爬虫抓取已成为网站的首要任务之一。
目前,爬虫通过获取网页的源代码,并对源代码进行解析分析,以及按照正则匹配的方式获取网页中的关键数据,关键数据的抓取难度较低,进而无法对网页中的关键数据进行保护。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现要素:
本公开的目的在于提供一种网页数据防爬虫抓取方法及装置、存储介质、电子设备,进而至少在一定程度上增加网页中的关键数据的抓取难度,从而实现对网页中的关键数据的保护。
根据本公开的一个方面,提供一种网页数据防爬虫抓取方法,包括:
获取网页中的待保护数据;
在一自定义字符匹配集合中获取所述待保护数据中的每个字符的自定义字符;
将所述待保护数据中的每个字符用其自定义字符进行替换,以将所述待保护数据转化为待保护字符串;
通过一字符编码方式将所述待保护字符串映射为待展示数据,以根据所述待展示数据在所述网页中对所述待保护数据进行展示。
在本公开的一种示例性实施例中,在所述获取网页中的待保护数据之前还包括:
在编辑所述网页中的数据时,对所述网页中的数据中的所述待保护数据进行标记;
所述获取网页中的待保护数据包括:
获取所述网页中的数据,并根据所述标记在所述网页中的数据中筛选出所述待保护数据。
在本公开的一种示例性实施例中,所述获取网页中的待保护数据包括:
获取所述网页中的数据;
获取所述网页中的数据的类型,并将所述类型为预设类型的数据确定为所述待保护数据。
在本公开的一种示例性实施例中,所述方法还包括:构建所述自定义字符匹配集合,其中,所述构建所述自定义字符匹配集合包括:
通过层叠样式表中的font-face定义每个字符的字体文件,以及所述每个字符的字体文件的名称;
将所述每个字符的字体文件的名称确定为对应的所述每个字符的字体文件的自定义字符;
根据所述每个字符的字体文件和其自定义字符构建所述自定义字符匹配集合。
在本公开的一种示例性实施例中,所述在一自定义字符匹配集合中获取所述待保护数据中的每个字符的自定义字符包括:
将所述待保护数据中的每一个字符与所述自定义字符匹配集合中的每个字符的字体文件进行匹配;
将所述自定义字符匹配集合中的与所述待保护数据中的每个字符匹配的所述字符的字体文件的自定义字符确定为所述待保护数据中的每个字符的自定义字符。
在本公开的一种示例性实施例中,所述字符编码方式为统一码方式。
在本公开的一种示例性实施例中,所述自定义字符匹配集合的url为随机变化的url。
根据本公开的一个方面,提供一种网页数据防爬虫抓取装置,包括:
获取模块,用于获取网页中的待保护数据;
匹配模块,用于在一自定义字符匹配集合中获取所述待保护数据中的每个字符的自定义字符;
转化模块,用于将所述待保护数据中的每个字符用其自定义字符进行替换,以将所述待保护数据转化为待保护字符串;
映射模块,用于通过一字符编码方式将所述待保护字符串映射为待展示数据,以根据所述待展示数据在所述网页中对所述待保护数据进行展示。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述中任意一项所述的网页数据防爬虫抓取方法。
根据本公开的一个方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述中任意一项所述的网页数据防爬虫抓取方法。
本公开提供的网页数据防爬虫抓取方法及装置、存储介质、电子设备。在一自定义字符匹配集合中获取所述待保护数据中的每个字符的自定义字符,并将所述待保护数据中的每个字符用其自定义字符进行替换,以将所述待保护数据转化为待保护字符串,以及通过一字符编码方式将所述待保护字符串映射为待展示数据,以根据所述待展示数据在所述网页中对所述待保护数据进行展示。由于在自定义字符匹配集合中获取待保护数据中的每个字符的自定义字符,并将待保护数据中的每个字符用其自定义字符进行替换,以将待保护数据转化为待保护字符串,又由于自定义字符匹配集合由用户自行开发,即不是公用的,使得即使爬虫获取到待展示数据,其也很难将待展示数据转化为待保护数据,进而大大的增加了爬虫抓取的难度,从而实现了对网页中的待保护数据(即关键数据)的保护。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
通过参照附图来详细描述其示例性实施例,本公开的上述和其它特征及优点将变得更加明显。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本公开一示例性实施例中提供的网页数据防爬虫抓取方法的流程图;
图2为本公开一示例性实施例中提供的构建自定义字符匹配集合的流程图;
图3为本公开一示例性实施例中提供的在自定义字符匹配集合中获取待保护数据中的每个字符的自定义字符的流程图;
图4为本公开一示例性实施例中提供的网页数据防爬虫抓取装置的框图;
图5为本公开一示例性实施例中的电子设备的模块示意图;
图6为本公开一示例性实施例中的程序产品示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有所述特定细节中的一个或更多,或者可以采用其它的方法、组元、材料、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本示例性实施例中首先公开了一种网页数据防爬虫抓取方法,参照图1所示,所述网页数据防爬虫抓取方法可以包括以下步骤:
步骤s110、获取网页中的待保护数据;
步骤s120、在一自定义字符匹配集合中获取所述待保护数据中的每个字符的自定义字符;
步骤s130、将所述待保护数据中的每个字符用其自定义字符进行替换,以将所述待保护数据转化为待保护字符串;
步骤s140、通过一字符编码方式将所述待保护字符串映射为待展示数据,以根据所述待展示数据在所述网页中对所述待保护数据进行展示。
根据本示例性实施例中的网页数据防爬虫抓取方法,由于在自定义字符匹配集合中获取待保护数据中的每个字符的自定义字符,并将待保护数据中的每个字符用其自定义字符进行替换,以将待保护数据转化为待保护字符串,又由于自定义字符匹配集合由用户自行开发,即不是公用的,使得即使爬虫获取到待展示数据,其也很难将待展示数据转化为待保护数据,进而大大的增加了爬虫抓取的难度,从而实现了对网页中的待保护数据(即关键数据)的保护。
下面,将参照图1,对本示例性实施例中的网页数据防爬虫抓取方法作进一步说明。
在步骤s110中,获取网页中的待保护数据。
在本示例性实施例中,所述网页中的待保护数据可以包括以字符形式展示的中文字符、英文字符、数字字符等。所述待保护数据例如可以为网页中的产品价格、产品的销售量、用户的身份数据、财务数据等,本示例性实施例对此不作特殊限定。具体的,可以通过一获取模块获取网页中的待保护数据。
由于待保护数据可以包括产品价格、产品销量、用户的身份数据、财务数据等,因此,可以根据上述待保护数据的具体体现归纳出待保护数据的类型,以根据待保护数据的类型进行获取。具体的,获取网页中的待保护数据可以包括:获取所述网页中的数据;获取所述网页中的数据的类型,并将所述类型为预设类型的数据确定为所述待保护数据。
在本示例性实施例中,所述预设类型可以包括:身份证号码、出生日期、银行卡号等,本示例性实施例对此不作特殊限定。具体的获取过程包括:获取网页中的数据,并获取网页中的数据的类型,将网页中的数据的类型与预设类型进行匹配,若网页中的数据的类型与预设类型匹配成功,即网页中的数据的类型为预设类型,则将该数据确定为待保护数据。
在本公开的另一个示例性实施例中,获取网页中的待保护数据可以包括:获取网页中的数据,获取网页中的各数据的保密级别,并将保密级别高于预设保密级别的数据确定为待保护数据。具体的获取网页中的各数据的保密级别的过程可以包括:根据一个数据保密级别匹配列表获取网页中的各数据的保密级别。上述数据保密级别匹配列表包括多个数据类型以及每种数据类型的保密级别。例如,数据类型为身份证号码的保密级别高于数据类型为银行卡号码的保密级别,数据类型为银行卡号码的保密级别高于数据类型为出生日期的保密级别。基于此,可以根据网页中的各数据的类型在上述数据保密级别匹配列表中匹配出网页中的各数据的保密级别。所述预设保密级别可由开发人员根据实际需求进行设置,本示例性实施例对此不作特殊限定。
为了提高待保护数据的获取速度,在所述获取网页中的待保护数据之前还可以包括:在编辑所述网页中的数据时,对所述网页中的数据中的所述待保护数据进行标记。
在本示例性实施例中,可以通过在网页中的数据中的待保护数据的开头添加标记,以完成对待保护数据的标记。所述标记例如可以为“保密”或者“保护”或者“敏感”等,本示例性实施例对此不作特殊限定。例如,在标记为“保密”时,对待保护数据进行标记的过程为:在待保护数据的开头添加“标记”。
基于此,所述获取网页中的待保护数据可以包括:获取所述网页中的数据,并根据所述标记在所述网页中的数据中筛选出所述待保护数据。在本示例性实施例中,例如,若标记为“保密”,则获取网页中的数据,并从网页中的数据中筛选出带有“保密”标记的数据,并将带有“保密”标记的数据确定为待保护数据。
由上可知,通过对网页中的数据中的待保护数据进行标记,使得在获取网页中的待保护数据时,可以直接根据标记获取,大大的提高了获取速度。
在步骤s120中,在一自定义字符匹配集合中获取所述待保护数据中的每个字符的自定义字符。
在本示例性实施例中,所述自定义字符匹配集合中可以包括每个字符的文件以及每个字符的文件对应的自定义字符。例如,若字符为“a”,则字符“a”的文件中存储有字符“a”,并可以将字符“a”的文件的自定义字符确定为“123”;再例如,若字符为“1”,则字符“1”的文件中存储有字符“1”,并可以将字符“1”的文件的自定义字符确定为“abc”;再例如,若字符为“三”,则字符“三”的文件中存储有字符“三”,并可以将字符“三”的文件的自定义字符确定为“a”。
具体的,在一自定义字符匹配集合中获取所述待保护数据中的每个字符的自定义字符的过程可以包括:将待保护数据中的每个字符分别与自定义字符匹配集合中的每个字符的文件中的信息进行匹配,并将与待保护数据中的每个字符匹配成功的字符的文件的自定义字符确定为对应的待保护数据中的每个字符的自定义字符。
在本示例性实施例中,还可以通过层叠样式表中的font-face构建自定义字符匹配集合。如图2所示,具体的构建过程可以包括以下步骤:
步骤s210、通过层叠样式表中的font-face定义每个字符的字体文件,以及所述每个字符的字体文件的名称。
在本示例性实施例中,每个字符的字体文件中可以包括字符、字符的字体、颜色、高度等信息,本示例性实施例对此不作特殊限定。需要说明的是,每个字符的字体文件的名称可以由开发人员自行设置,本示例性实施例对此不作特殊限定。
步骤s220、将所述每个字符的字体文件的名称确定为对应的所述每个字符的字体文件的自定义字符。
步骤s230、根据所述每个字符的字体文件和其自定义字符构建所述自定义字符匹配集合,即将每个字符的字体文件和其自定义字符关联之后并进行集合,以得到自定义字符匹配集合。
基于上述由层叠样式表中的font-face构建自定义字符匹配集合,如图3所示,所述在一自定义字符匹配集合中获取所述待保护数据中的每个字符的自定义字符可以包括:
步骤s310、将所述待保护数据中的每一个字符与所述自定义字符匹配集合中的每个字符的字体文件进行匹配。在本示例性实施例中,待保护数据中的一个字符与自定义字符匹配集合中的每个字符的字体文件的匹配过程可以包括:将待保护数据中的字符与自定义字符匹配集合中的每一个字符的字体文件中的字符、字符的字体、颜色、高度等信息进行匹配。
步骤s320、将所述自定义字符匹配集合中的与所述待保护数据中的每个字符匹配的所述字符的字体文件的自定义字符确定为所述待保护数据中的每个字符的自定义字符。
在步骤s130中,将所述待保护数据中的每个字符用其自定义字符进行替换,以将所述待保护数据转化为待保护字符串。
在步骤s140中,通过一字符编码方式将所述待保护字符串映射为待展示数据,以根据所述待展示数据在所述网页中对所述待保护数据进行展示。
在本示例性实施例中,所述字符编码方式可以包括:ascii、gbk、gb2312、utf-8等,本示例性实施例对此不作特殊限定。为了得到统一且唯一的待展示数据,所述字符编码方式可以为统一码方式。通过采用统一编码方式,可以将待保护字符串映射为统一且唯一的待展示数据,以方便计算机快速读取。基于上述字符编码方式,将待保护字符串映射为待展示数据,即对待保护字符串进行二进制转化,并将转换后的二进制数据确定为待展示数据。
在得到待展示数据后,可以将待展示数据保存在数据库中。若根据待展示数据在网页中对待保护数据进行展示,则在数据库中获取待展示数据,并根据字符编码方式将待展示数据映射为待保护字符串,并根据自定义字符匹配集合将待保护字符串转化为待保护数据,并将待保护数据进行展示。由上可知,即使网络爬虫根据源代码获取到待展示数据,由于其没有字符编码方式和自定义字符匹配集合,因此大大的增加了爬虫的抓取的难度,从而实现了对网页中的待保护数据的保护。
为了进一步的增加爬虫抓取待保护数据的难度,所述自定义字符匹配集合的url为随机变化的url。
在本示例性实施例中,可以通过在自定义字符匹配集合的url中增加随机数,且随机数的具体数值可以随时进行变化,以将自定义字符匹配集合的url设置为随机变化的url。
由于在获取自定义字符匹配集合时,需要首先知道自定义字符匹配集合的url,然后根据自定义字符匹配集合的url获取自定义字符匹配集合。因此,通过将自定义字符匹配集合的url设置为随机变化的url,即通过实时改变自定义字符匹配集合的url,以增加爬虫抓取自定义字符匹配集合的难度,进而增加爬虫获取待保护数据的难度。
综上所述,由于在自定义字符匹配集合中获取待保护数据中的每个字符的自定义字符,并将待保护数据中的每个字符用其自定义字符进行替换,以将待保护数据转化为待保护字符串,又由于自定义字符匹配集合由用户自行开发,即不是公用的,使得即使爬虫获取到待展示数据,其也很难将待展示数据转化为待保护数据,进而大大的增加了爬虫抓取的难度,从而实现了对网页中的待保护数据(即关键数据)的保护。
需要说明的是,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
在本公开的示例性实施例中,还提供了一种网页数据防爬虫抓取装置,如图4所示,所述网页数据防爬虫抓取装置400可以包括:获取模块401、匹配模块402、转化模块403、映射模块404,其中:
获取模块401,可以用于获取网页中的待保护数据;
匹配模块402,可以用于在一自定义字符匹配集合中获取所述待保护数据中的每个字符的自定义字符;
转化模块403,可以用于将所述待保护数据中的每个字符用其自定义字符进行替换,以将所述待保护数据转化为待保护字符串;
映射模块404,可以用于通过一字符编码方式将所述待保护字符串映射为待展示数据,以根据所述待展示数据在所述网页中对所述待保护数据进行展示。
上述中各网页数据防爬虫抓取装置模块的具体细节已经在对应的网页数据防爬虫抓取方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图5来描述根据本发明的这种实施方式的电子设备500。图5显示的电子设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:上述至少一个处理单元510、上述至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530、显示单元540。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图1中所示的步骤s110、获取网页中的待保护数据;步骤s120、在一自定义字符匹配集合中获取所述待保护数据中的每个字符的自定义字符;步骤s130、将所述待保护数据中的每个字符用其自定义字符进行替换,以将所述待保护数据转化为待保护字符串;步骤s140、通过一字符编码方式将所述待保护字符串映射为待展示数据,以根据所述待展示数据在所述网页中对所述待保护数据进行展示。
存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(rom)5203。
存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备570(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口550进行。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器560通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品600,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。