一种基于https加密协议网页内容的采集方法
【专利摘要】本发明提供一种基于HTTPS加密协议网页内容的采集方法,采用记录安全信息的方式提高了访问https时效性,利用多线程机制将数据访问的压力转移到服务器上,以提高数据访问频率限制,采用页面抓取的方式获取数据与多线程机制结合减少了HTTPS下访问共享数据库的访问时间,进一步提高时效性。
【专利说明】一种基于HTTPS加密协议网页内容的采集方法
【技术领域】
[0001] 本发明涉及一种计算机或互联网【技术领域】,具体地说是一种基于HTTPS加密协 议网页内容的采集方法。
【背景技术】
[0002] 目前对于一些对于安全较为敏感的系统,大都不采用http协议而是选择HTTPS协 议。即我们的常说的HTTP的安全版。HTTPS是以安全为目标的。它是在HTTP下加入SSL 层,HTTPS不同于HHTP就在于HTTP的默认端口以及一个加密/身份验证层。对于一些需 要系统整合的项目,特别是对于一些数据量大,并发量多的子系统之间在保证系统的安全 性的同时我们又必须保证子系统之间的交互效率。传统的HTTPS的交互方式分两个阶段: 一是客户端获取服务器的证书,并验证证书的内容是否可信,二是客户端和服务器端进行 握手协议,并进行数据传输。这样交互在时效性方面难有进步,无疑增加了服务器的负担, 同时此种数据交互方式只适用于小量数据以及低频率访问,造成相互独立的子系统之间交 互效率底下。
【发明内容】
[0003] 本发明的目的是提供基于HTTPS加密协议网页内容的采集方法。
[0004] 本发明的目的是按以下方式实现的,包括采用记录安全信息的方式提高了访问 https时效性,利用多线程机制将数据访问的压力转移到服务器上,以提高数据访问频率限 制,采用页面抓取的方式获取数据与多线程机制结合减少了 HTTPS下访问共享数据库的访 问时间,进一步提高时效性,具体步骤如下: 在https下模拟认证登录,首次登录后,利用浏览器平台能力或编码将认证通过后的 安全信息都记录在安全服务器上,以提高访问https的时效性,https协议下被访问的页面 通过线程在后台准备好需要交互的数据,子系统交互通过抓取页面已有数据交互。
[0005] 本发明的有益效果:采用记录安全信息的方式提高了访问https时效性,利用多 线程机制将数据访问的压力转移到服务器上,提高数据访问频率限制。采用页面抓取的方 式获取数据与多线程机制结合减少了 HTTPS下访问共享数据库的访问时间。进一步提高时 效性。
[0006] 对比子系统之间数据交互的几种数据访问方式,访问https下的数据时我们采用 多线程机制将数据准备在页面上供程序抓取,缩短了访问共享数据时间,同时将https下 访问时的认证安全信息记录下来,最耗时的验证环节将缩短时间,数据文件交互时间主要 是API完成了,时效性进一步提高。
【专利附图】
【附图说明】
[0007] 图1是用到的集中数据交互方式对比表; 图2是系统结构不意图。
【具体实施方式】
[0008] 参照说明书附图对本发明的方法作以下详细地说明。
[0009] 采用记录安全信息的方式提高了访问https时效性,利用多线程机制将数据访问 的压力转移到服务器上,以提高数据访问频率限制,采用页面抓取的方式获取数据与多线 程机制结合减少了 HTTPS下访问共享数据库的访问时间,进一步提高时效性,具体步骤如 下: 在https下模拟认证登录,首次登录后,利用浏览器平台能力或编码将认证通过后的 安全信息都记录在安全服务器上,以提高访问https的时效性,https协议下被访问的页面 通过线程在后台准备好需要交互的数据,子系统交互通过抓取页面已有数据交互。
[0010] 除说明书所述的技术特征外,均为本专业技术人员的已知技术。
【权利要求】
1. 一种基于HTTPS加密协议网页内容的采集方法,其特征在于采用记录安全信息的 方式提高了访问https时效性,利用多线程机制将数据访问的压力转移到服务器上,以提 高数据访问频率限制,采用页面抓取的方式获取数据与多线程机制结合减少了 HTTPS下访 问共享数据库的访问时间,进一步提高时效性,具体步骤如下: 在https下模拟认证登录,首次登录后,利用浏览器平台能力或编码将认证通过后的 安全信息都记录在安全服务器上,以提高访问https的时效性,https协议下被访问的页面 通过线程在后台准备好需要交互的数据,子系统交互通过抓取页面已有数据交互。
【文档编号】H04L29/06GK104125306SQ201410399127
【公开日】2014年10月29日 申请日期:2014年8月14日 优先权日:2014年8月14日
【发明者】刘志红 申请人:浪潮电子信息产业股份有限公司