反爬虫的方法与流程

文档序号:13142087阅读:1520来源:国知局

本发明涉及信息安全技术领域,具体涉及一种反爬虫的方法。



背景技术:

在互联网发展的今天,每个网站都有一些公开数据供正常用户浏览,但是不希望被恶意爬虫获取,例如,电商数据中商品的价格,供正常用户浏览,而不希望被竞争对手轻易获取。

网络爬虫(又被称为网页蜘蛛,网络机器人,在foaf社区中间,也经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

在反爬虫领域常使用如下做法:方法一,通过对请求者的ip地址进行统计,当访问频率或者访问次数达到一定阈值的时候,封禁此ip的请求。方法二,通过反向扫描,查看客户端的端口开放情况,以决定是否封禁客户端ip。

以上方式都存在着较大的缺陷。由于现行的ipv4地址数量有限,很多用户都使用同一个外网ip,这样很容易达到上述方式一中的频率或阈值,造成误伤。方式二通过反向扫描以确定客户端是否正常,但是实际中存在着打开非常用端口的客户端,因此方式二也容易造成误伤。



技术实现要素:

本发明克服了现有技术的不足,提供一种反爬虫的方法,旨在降低网站的爬虫流量,防止网站数据被窃取,以及使数据只被正常用户访问。

考虑到现有技术的上述问题,根据本发明公开的一个方面,本发明采用以下技术方案:

一种反爬虫的方法,包括:

将网站的前端与后端相分离,后端负责数据生成,前端负责数据的展示;

在开发过程中,预先定义多套前段展示数据的方式;

在实施过程中,定期更新前端的数据展现方式。

为了更好地实现本发明,进一步的技术方案是:

根据本发明的一个实施方案,在网站设计阶段使用mvc的模式进行设计。

与现有技术相比,本发明的有益效果之一是:

本发明的一种反爬虫的方法,使用定期更新前端数据展示的方式,以较小的代价,降低了爬虫的重用性,提高了网站数据的安全性。

附图说明

为了更清楚的说明

本技术:
文件实施例或现有技术中的技术方案,下面将对实施例或现有技术的描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅是对本申请文件中一些实施例的参考,对于本领域技术人员来讲,在不付出创造性劳动的情况下,还可以根据这些附图得到其它的附图。

图1示出了根据本发明一个实施例的网站架构示意图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。

如图1所示,一种反爬虫的方法,其实现步骤包括:

1)网站设计阶段使用mvc的模式,采用前后端相分离的方式;

2)在开发过程中,预先定义多套前段展示数据的方式;

3)在实施过程中,定期更新前端的数据展现方式。

以上通过采用前后端相分离的方式,预定义多套前端的数据展示方式,通过定期更新数据展示的方式降低数据被爬取的几率,保护数据的机密性。

实现原理:

在网站开发中,遵循mvc的开发模式,后端负责数据生成,前端负责数据的展示。在展示数据的时候并不容易,需要考虑到多平台(windows,mac,android,ios等),多厂商(firefox,chrome,safari等),多版本(浏览器不同版本好号),对于一个标签的非正常解析,会导致整个页面的错误显示。因此,本文基于前端的数据展示方式微小的变化可以降低爬虫的重用性这一原理,我们可以使用定期更新前端数据展示方式的方法,使前端的更新周期小于爬虫生成者产生新爬虫的周期,从而以较小的代价保护了数据的机密性。

综上而言,通过对现有反爬虫技术的分析对比,提出了使用定期更新前端数据展示方式的方法,以降低网站的爬虫流量,防止爬虫窃取网站数据,使数据只被正常用户访问。

在本说明书中所谈到的“一个实施例”、“另一个实施例”、“实施例”、等,指的是结合该实施例描述的具体特征、结构或者特点包括在本申请概括性描述的至少一个实施例中。在说明书中多个地方出现同种表述不是一定指的是同一个实施例。进一步来说,结合任一实施例描述一个具体特征、结构或者特点时,所要主张的是结合其他实施例来实现这种特征、结构或者特点也落在本发明的范围内。

尽管这里参照本发明的多个解释性实施例对本发明进行了描述,但是,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。更具体地说,在本申请公开和权利要求的范围内,可以对主题组合布局的组成部件和/或布局进行多种变型和改进。除了对组成部件和/或布局进行的变型和改进外,对于本领域技术人员来说,其他的用途也将是明显的。



技术特征:

技术总结
本发明公开了一种反爬虫的方法,包括:将网站的前端与后端相分离,后端负责数据生成,前端负责数据的展示;在开发过程中,预先定义多套前段展示数据的方式;在实施过程中,定期更新前端的数据展现方式。本发明通过对现有反爬虫技术的分析对比,提出了使用定期更新前端数据展示方式的方法,以降低网站的爬虫流量,防止爬虫窃取网站数据,使数据只被正常用户访问。

技术研发人员:付强
受保护的技术使用者:四川长虹电器股份有限公司
技术研发日:2017.08.08
技术公布日:2017.12.08
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1