网页内容加密方法,加密装置及系统与流程

文档序号:18106782发布日期:2019-07-06 11:42阅读:432来源:国知局
网页内容加密方法,加密装置及系统与流程

本发明涉及网络技术领域,尤其涉及一种网页内容加密方法,加密装置及系统。



背景技术:

随着信息技术的发展,人们也越来越重视对数据版权的保护,如何防止数据被非法获取和传播,也逐渐成为关注的重点。

现在网络上有很多数据采集工具,人们通过这些工具可以轻易的获取到网站上数据,很多网站都会采取一些措施来防止网页上的数据被抓取,例如在短时间内限制用户访问网站的次数,或者隐藏页面链接地址,但是这些方案都不能有效的保护数据。

短时间内限制用户访问网站的次数,会使网页上的功能设计,变得更复杂,可能会影响用户的体验,给用户带来不便,而且不能彻底解决数据被抓取的问题,只是限制了数据被抓取的速度。隐藏页面链接地址,不能防止页面数据被抓取,有些工具可以不通过链接地址就能抓到数据。



技术实现要素:

为解决现有技术的问题,本发明提供的网页内容加密方法通过对网页上的数据的字符进行加密操作,网页被爬取后,显示的内容是加密后的字符,有效的解决了数据被抓取的问题,保护了数据的版权。

为实现本发明目的提供的一种网页内容加密方法,包括如下步骤:获取待加密网页的原始字符与相应的初始字体文件包之间的对应关系;

转换原始字符为加密字符,并将加密字符与初始字体文件包之间建立对应关系以形成加密字体文件包;

将加密字体文件包发送到客户端以供客户端解密。

上述所述的网页内容加密方法,其中,转换原始字符为加密字符,并将加密字符与初始字体文件包之间建立对应关系以形成加密字体文件包;包括:

将原始字符转化为初始unicode码,建立初始unicode码与初始字体文件包之间的对应关系;

转换初始unicode码为加密unicode码,并将初始字体文件包与加密unicode码建立一一对应关系以形成加密字体文件包。

上述所述的网页内容加密方法,其中,转换初始unicode码为加密unicode码;包括:

获取待加密网页数据中字符所对应的unicode码值u1;将u1采用随机算法转换为u2;

判断u1是否出现过转换关系,若u1未出现过转换关系,则判断u2是否出现过转换关系,若u2未出现过转换关系则在哈希表中记录u1与u2之间的转换关系;

若u2出现过转换关系则需要对u1进行重新转换;

若u1已经出现过转换关系则直接调取u1在上一次转换过程中所对应的值。

上述所述的网页内容加密方法,其中,转换初始unicode码为加密unicode码;包括:

获取待加密网页数据中字符所对应的unicode码值u1;

对u1增加或减少一固定变量转换为u2。

本发明还公开了一种网页加密的装置,包括:

数据采集模块,用于获取待加密网页的原始字符与相应的初始字体文件包的对应关系;

加密模块,用于将原始字符转换为加密字符,并将初始字体文件包与加密字符建立对应关系已形成加密字体文件包;

发送模块,用于将加密字体文件包发送到客户端以供客户端解密。

上述所述的网页加密的装置,其中,所述加密模块包括:

第一转换单元,用于将原始字符转换为加密字符;

第二转换单元,用于将原始字符与初始字体文件包之间的对应关系,转化为初始字体包与加密字符之间的对应关系。

上述所述的网页加密的装置,其中,所述加密模块还包括:

判断单元,用于判断第一转换单元随机转换后的加密字符与原始字符是否为单一对应关系。

本发明还公开了一种网页加密系统,包括:

服务器,用于转换待加密网页的原始字符与相应的字体文件包的对应关系以形成加密字体文件包;

客户端,用于接受服务器发送来的数据并通过调用加密字体文件包将数据呈现。

上述所述的网页加密系统,其中,所述客户端还包括解密模块,所述解密模块用于根据加密字符调取相应的原始字符所对应的初始字体文件包。

上述所述的网页加密系统,其中,所述客户端还包括替换模块,用于将网页模板技术生成的网页中的字体包替换为初始字体文件包。

本发明的有益效果包括:通过对网页上的数据的字符进行加密操作,网页被爬取后,显示的内容是加密后的字符,有效的解决了数据被抓取的问题,保护了数据的版权。且相比于现有技术中采用短时间内不限制用户访问网站的次数进行防爬虫的手段,不会影响用户的体验。

附图说明

图1为本发明实施例中网页内容加密方法的流程图;

图2为本发明实施例中网页内容加密方法中转换初始unicode码为加密unicode码的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明实施例的网页内容加密方法的具体实施方式进行说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明实施例的网页内容加密方法,包括:服务器获取待加密网页的原始字符与相应的初始字体文件包之间的对应关系;

转换原始字符为加密字符,并将加密字符与初始字体文件包之间建立对应关系以形成加密字体文件包;

将加密字体文件包发送到客户端以供客户端解密。

本网页内容加密方法转换了字符与相应的字体文件包的对应关系,先对待加密的数据的字符进行转换形成加密字符,将加密字符发送给客户端,在爬虫爬取过程中爬到的是加密的字符,所以其显示出来的并不是原始数据的文本。客户端调用转换后的字体文件包,根据加密字符能够得到相对应的加密前的字符所对应的字体文本从而显示在客户端。通过对数据的字符进行加密操作,网页被爬取后,显示的内容是加密后的字符,有效的解决了数据被抓取的问题,保护了数据的版权。且相比于现有技术中采用短时间内不限制用户访问网站的次数进行防爬虫的手段,不会影响用户的体验。

具体的,其中,转换原始字符为加密字符,并将加密字符与初始字体文件包之间建立对应关系以形成加密字体文件包;包括:

将原始字符转化为初始unicode码,建立初始unicode码与初始字体文件包之间的对应关系;

转换初始unicode码为加密unicode码,并将初始字体文件包与加密unicode码建立一一对应关系以形成加密字体文件包。

其中,转换初始unicode码为加密unicode码;包括:

获取待加密网页数据中字符所对应的unicode码值u1;将u1采用随机算法转换为u2;目前汉字字符unicode码大约有3万多个,其中u1和u2都属于这三万多个的unicode码值。

由于具有随机性,每次生成的u1码都是随机的,需要保证同一个u2码转为同一个u1码,因此需要对u2码与u1码之间是否为一一对应关系进行判断,具体的判断过程如下。

获取待加密网页数据中字符所对应的unicode码值u1;将u1采用随机算法转换为u2;

判断u1是否出现过转换关系,若u1未出现过转换关系,则判断u2是否出现过转换关系,也就是判断u2是否作为转换后的值出现过,若u2未作为转换后的值出现过,则在哈希表中记录u1与u2之间的转换关系。

若u2出现过转换关系则需要对u1进行重新转换。其目的是要确保u2与u1是一一对应的关系使在调取过程中通过u2都能得到唯一一个相应的u1。

若u1已经出现过转换关系,则直接调取u1在上一次转换过程中所对应的值。

采用随机算法具有一定的随机性没有特定的固定规律能够增大对反爬虫的破解的难度。当然具体的对初始unicode码转化为加密unicode码的算法还可以包括:

获取待加密网页数据中字符所对应的unicode码值u1;

对u1增加或减少一固定变量转换为u2。

在本实施例中采用增加或减少一固定变量对u1进行变换,这样u1与u2的变换关系是固定的。采用上述方式也能得到加密的效果。

下面通过一个实施例介绍上述转换过程,如“我在中国中”,所对应的的unicode码是“u6211u5728u4e2du56fdu4e2d”;利用random随机算法,在列表list长度限制内,随机生成整数作为下标索引,随机转换后的unicode码可能是“u5b66u91ccu54e6u41u40”(其所对应的是“学里哦a@”)。因此在爬虫爬取过程中由于没有字体文件包所以其爬取到的是“学里哦a@”,而通过加密的字体文件包解密后的实际的文本内容是“我在中国中”。通过上述简单的转换能够有效的避免爬虫的爬取。

本发明的另一实施例还公开了一种网页加密的装置,包括:

数据采集模块,用于获取待加密网页的原始字符与相应的初始字体文件包的对应关系;

加密模块,用于将原始字符转换为加密字符,并将初始字体文件包与加密字符建立对应关系已形成加密字体文件包;

发送模块,用于将加密字体文件包发送到客户端以供客户端解密。

数据采集模块将待加密的网页数据提取出来,获得待加密网页的原始字符与相应的字体文件包的对应关系,通过加密模块对原始字符进行加密,生成加密后的字符。同时加密模块将原始字符所对应的字体文件包与加密字符建立联系。将加密后的字体文件包发送给客户端,客户端在生成网页过程中通过调取加密字体文件包以生成新的网页,而爬虫在爬取过程中得到的是加密字符所对应的内容。

具体的,所述加密模块包括:

第一转换单元,用于将原始字符转换为加密字符;

第二转换单元,用于将原始字符与初始字体文件包之间的对应关系,转化为初始字体包与加密字符之间的对应关系。

通过两个转换单元实现了初始字体文件包与加密字符之间的对应关系,并将这种对应关系记录在哈希表中,其中以加密字符为键以初始字体文件包为值,每一个加密字符都能在相应的初始字体文件包中找到相应的字体文件与之相对。上述操作实际上是对字体文件包进行重新定义,将原有的初始字符与字体文件包的对应关系转换为加密字符与字体文件包的对应关系。实际上加密字符自身有所对应的字体文件包所以爬虫爬取到的是加密字符所对应的字体文件包,并没有爬取到实际上原始字符所对应的内容。

由于原始字符与加密字符之间的转换具有随机性,每次生成的u1码都是随机的,而原始字符与加密字符之间的对应关系需要一一对应,这样就需要保证同一个u2码转为同一个u1码,因此需要对u2码与u1码之间是否为一一对应关系进行判断。所以所述加密模块还包括:判断单元,用于判断第一转换单元随机转换后的加密字符与原始字符是否为单一对应关系。

本发明的另一实施例还公开了一种网页内容加密系统,包括:

服务器,用于转换待加密网页的原始字符与相应的字体文件包的对应关系以形成加密字体文件包;

客户端,用于接受服务器发送来的数据并通过调用加密字体文件包将数据呈现。

服务器对原始字符进行转换,并将转换后的加密字符与初始字体文件包建立对应关系以形成加密后的字体文件包,将加密后的字体文件包保存到服务器,然后通过发送模块将加密字体文件包发送到客户端,客户端在接收到服务器发送来的数据后调用加密字体文件包正确显示数据。

具体的,所述客户端还包括解密模块,所述解密模块用于根据加密字符调取相应的原始字符所对应的初始字体文件包。

所述客户端还包括替换模块,用于将网页模板技术生成的网页中的字体包替换为初始字体文件包。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1