本发明涉及网络通信,尤其涉及一种web指纹信息采集方法、装置及电子设备。
背景技术:
1、web指纹信息,通常是指开发团队在对web网站的应用程序开发的过程中,留在应用程序中的特征信息。
2、在web渗透过程中,web指纹信息是信息收集环节里面比较重要的一个步骤。通过对web指纹信息的采集,可以帮助安全工程师快速有效的去验证已知的漏洞。
技术实现思路
1、有鉴于此,本发明实施例提供一种web指纹信息采集方法、装置及电子设备,用以实现对网络中各web网站的web指纹信息的快速且有效的采集。
2、第一方面,本发明实施例提供一种web指纹信息采集方法,包括:
3、采用网络爬虫技术对各目标ip地址进行网络爬取,以得到所述各目标ip地址对应web网站的各种属性的各原始页面信息;
4、按照各种属性对应的计算方式,对该种属性的所述原始页面信息进行计算,得到各web指纹信息;
5、从得到的各web指纹信息中,针对web网站的网站唯一标识,提取该web网站的web指纹信息,并对应存储。
6、根据本发明实施例的一种具体实现方式,在所述采用网络爬虫技术对各目标ip地址进行网络爬取之前,还包括:
7、通过对公网中的ip地址进行扫描,得到多个活跃ip地址;
8、从所述多个活跃ip地址中,筛选出存在web网站的ip地址,作为目标ip地址。
9、根据本发明实施例的一种具体实现方式,所述各种属性的各原始页面信息,至少包括网页图标,网页标题和首页指定区域的文本信息之一;
10、所述按照各种属性对应的计算方式,对该种属性的所述原始页面信息进行计算,包括:
11、对所述网页图标进行特征值计算,得到的计算结果作为web指纹信息;
12、对所述网页标题进行关键字校验,得到的校验结果作为web指纹信息;
13、对所述首页指定区域的文本信息进行关键字校验,得到的校验结果作为web指纹信息。
14、根据本发明实施例的一种具体实现方式,所述各种属性的各原始页面信息,还至少包括如下信息之一:
15、所述对应web网站的http server;
16、所述对应web网站的首页截图;
17、所述对应web网站的url;
18、所述对应web网站采用的网络协议;
19、所述对应web网站使用的中间件的名称,该中间件的版本信息;
20、所述对应web网站所属网络环境中使用的业务系统的系统名称,该业务系统的版本信息。
21、根据本发明实施例的一种具体实现方式,还包括:
22、按照符合网络安全设备要求的数据格式,对提取的该web网站的web指纹信息进行格式转换,得到转换后的web指纹信息;
23、向所述网络安全设备下发所述转换后的web指纹信息。
24、第二方面,本发明实施例提供一种web指纹信息采集装置,包括:
25、信息爬取模块,用于采用网络爬虫技术对各目标ip地址进行网络爬取,以得到所述各目标ip地址对应web网站的各种属性的各原始页面信息;
26、信息计算模块,用于按照各种属性对应的计算方式,对该种属性的所述原始页面信息进行计算,得到各web指纹信息;
27、信息提取模块,用于从得到的各web指纹信息中,针对web网站的网站唯一标识,提取该web网站的web指纹信息,并对应存储。
28、根据本发明实施例的一种具体实现方式,所述信息爬取模块,还用于在所述采用网络爬虫技术对各目标ip地址进行网络爬取之前,通过对公网中的ip地址进行扫描,得到多个活跃ip地址;从所述多个活跃ip地址中,筛选出存在web网站的ip地址,作为目标ip地址。
29、根据本发明实施例的一种具体实现方式,所述各种属性的各原始页面信息,至少包括网页图标,网页标题和首页指定区域的文本信息之一;
30、所述信息计算模块,具体用于对所述网页图标进行特征值计算,得到的计算结果作为web指纹信息;
31、对所述网页标题进行关键字校验,得到的校验结果作为web指纹信息;
32、对所述首页指定区域的文本信息进行关键字校验,得到的校验结果作为web指纹信息。
33、根据本发明实施例的一种具体实现方式,所述各种属性的各原始页面信息,还至少包括如下信息之一:
34、所述对应web网站的http server;
35、所述对应web网站的首页截图;
36、所述对应web网站的url;
37、所述对应web网站采用的网络协议;
38、所述对应web网站使用的中间件的名称,该中间件的版本信息;
39、所述对应web网站所属网络环境中使用的业务系统的系统名称,该业务系统的版本信息。
40、根据本发明实施例的一种具体实现方式,还包括:
41、格式转换模块,用于按照符合网络安全设备要求的数据格式,对提取的该web网站的web指纹信息进行格式转换,得到转换后的web指纹信息;以及向所述网络安全设备下发所述转换后的web指纹信息。
42、第三方面,本发明实施例提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一实现方式所述的方法。
43、第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述任一实现方式所述的方法。
44、第五方面,本发明的实施例还提供一种应用程序,所述应用程序被执行以实现本发明任一实施方式所述的方法。
45、本发明实施例提供的一种web指纹信息采集方法、装置及电子设备,采用网络爬虫技术对各目标ip地址进行网络爬取,以得到各目标ip地址对应web网站的各种属性的各原始页面信息,并按照各种属性对应的计算方式,对该种属性的原始页面信息进行计算,得到各web指纹信息,然后从得到的各web指纹信息中,针对web网站的网站唯一标识,提取该web网站的web指纹信息,并对应存储。方案中,通过网络爬虫技术可以快速的得到web网站的各原始页面信息,并按照对应的计算方式对原始页面信息进行计算,可以得到能够被使用的各web指纹信息,并针对web网站的网站唯一标识进行对应存储,从而实现了对各web网站的web指纹信息的快速且有效的采集。
1.一种web指纹信息采集方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在所述采用网络爬虫技术对各目标ip地址进行网络爬取之前,还包括:
3.根据权利要求1所述的方法,其特征在于,所述各种属性的各原始页面信息,至少包括网页图标,网页标题和首页指定区域的文本信息之一;
4.根据权利要求3所述的方法,其特征在于,所述各种属性的各原始页面信息,还至少包括如下信息之一:
5.根据权利要求1所述的方法,其特征在于,还包括:
6.一种web指纹信息采集装置,其特征在于,包括:
7.根据权利要求6所述的装置,其特征在于,所述信息爬取模块,还用于在所述采用网络爬虫技术对各目标ip地址进行网络爬取之前,通过对公网中的ip地址进行扫描,得到多个活跃ip地址;从所述多个活跃ip地址中,筛选出存在web网站的ip地址,作为目标ip地址。
8.根据权利要求6所述的装置,其特征在于,所述各种属性的各原始页面信息,至少包括网页图标,网页标题和首页指定区域的文本信息之一;
9.一种电子设备,其特征在于,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一权利要求所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述任一权利要求所述的方法。