网站的分析方法及装置与流程

文档序号:30428508发布日期:2022-06-15 16:02阅读:67来源:国知局
网站的分析方法及装置与流程

1.本技术涉及互联网技术领域,特别是涉及一种网站的分析方法、装置、计算机设备和存储介质。


背景技术:

2.目前,在进行网站域名whois查询时,只能查询单条域名数据,并不能获取当前网站嵌套的更多域名信息。比如,在进行whois信息查询、探测是否建站、是否启用ssl证书以及对建站的域名进行截图等操作是分开进行处理的,无法形成一个完整的链条。
3.此外,进行网页二级、三级等域名爬取时,只能根据《a href》标签(《a》标签的href属性用于指定超链接目标的url)进行分析作为域名,不能穷尽网页中所有的相关的域名信息,爬取信息不完整。
4.因此,如何设计出一种能够对用户的所有相关的域名网站进行自动完整的分析,是目前需要解决的技术问题。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种网站的分析方法、装置、计算机设备和存储介质,通过建立定时分析任务,自动对数据库中保存的所有组合的域名按照whois查询、探测是否建站、建站截图、是否开启ssl等进行一个全产业链条的完整性分析,并提供分析报告。
6.本发明的第一方面,提供了一种网站的分析方法,包括:
7.根据用户输入的网站域名和链接深度,自动对相关的域名进行组合扩展得到待分析域名任务并保存到数据库;
8.定时从所述数据库中提取待分析的域名任务进行分析,所述的分析包括:查询域名的whois信息、探测是否建站、建站截图、是否开启ssl证书,最后返回分析结果。
9.进一步地,所述的组合扩展包括:对域名名称关键字和tld进行不同方式的组合,形成不同的待分析域名。
10.进一步地,将生成的分析结果返回到数据库用户从浏览器端查询探测结果及下载任务附件。
11.进一步地,所述的链接深度包括二级链接和三级链接。
12.进一步地,后台服务器实时监测浏览器是否有用户创建的新的分析任务,并在有新任务时,自动爬取相关的域名。
13.进一步地,通过phantomjs爬取用户在浏览器中输入的域名地址,以及对已建站的网站进行截图。
14.本发明的第二方面,提供了一种网站的分析装置,包括:
15.任务生成模块,用于根据用户输入的网站域名和链接深度,自动对相关的域名进行组合扩展得到待分析域名任务并保存到数据库;
16.任务分析模块,定时从所述数据库中提取待分析的域名任务进行分析,所述的分析包括:查询域名的whois信息并进行网站截图、探测是否建站、是否开启ssl证书,最后返回分析结果。
17.本发明的第三方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明第一方面所述的方法之一。
18.本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明第一方面所述的方法之一。
19.本发明所提供的网站的分析方法、装置、计算机设备和存储介质,首先,通过用户在浏览器创建域名分析任务后,系统会根据用户填写的网站域名和链接深度对网页进行爬取并自动回相关域名进行组合扩展获得不同组合的域名后,形成待分析域名任务存放到数据库,后台服务器定时扫描待分析任务,并提取数据库中未处理的任务,按照设定的流程依次进行whois信息查询、探测是否建站、网站截图、是否开启ssl等信息一一进行检测,生成最后的分析报告返回给浏览器端,供用户查阅和下载。
附图说明
20.图1为本发明实施例中的网站的分析方法的流程示意图。
21.图2为本发明实施例中的网站的分析方法的工作原理图。
22.图3为本发明实施例中的网站的分析装置的结构示意图。
23.图4为本发明实施例中的计算机设备的结构示意图。
具体实施方式
24.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。此外,为了清楚和简洁,省略对公知功能和结构的描述。
25.本文使用的术语仅用于描述本发明的各种实施例,而不旨在限制本发明。除非上下文另有明确指示,否则单数形式旨在包括复数形式。在本发明中,应理解,术语“包括”或“具有”指示特征、数字、步骤、操作、元件、部件或其组合的存在,并且不排除一个或更多个其它特征、数字、步骤、操作、元件、部件或其组合的存在,或添加一个或更多个其它特征、数字、步骤、操作、元件、部件或其组合的可能性。
26.实施例一
27.参照图1、图2所示,本发明的实施例一提供了一种网站的分析方法,该方法包括:
28.步骤s1、用户在浏览器端创建域名分析任务。
29.具体的,用户在浏览器端填写需要分析的网站域名和链接深度,链接深度比如二级域名、三级域名等。
30.步骤s2、后台服务器自动监测是否有新更新的域名分析任务,并在有新任务时,根据用户填写的网站域名和链接深度自动爬取获取所有的域名,对域名关键字、tld(顶级域)、域名前缀标识符等进行不同方式的组合,形成不同组合的待分析域名任务,存放到数据库集群。
31.示例性的,可通过phantomjs爬取用户在浏览器中输入的二级或三级链接的域名地址。phantomjs是一个基于webkit的javascriptapi。它使用qtwebkit作为核心浏览器的功能,使用webkit来编译解释执行javascript代码。任何可以在基于webkit浏览器做的事情,它都能做到。它不仅是个隐形的浏览器,提供了诸如css选择器、支持web标准、dom操作、json、html5、canvas、svg等,同时也提供了处理文件i/o的操作,从而使你可以向操作系统读写文件等。phantomjs的用处可谓非常广泛,诸如网络监测、网页截屏、无需浏览器的web测试、页面访问自动化等。
32.具体的,现有技术中,进行网页二级、三级域名爬取时,只根据《ahref》标签进行分析作为域名,不能穷尽网页中所有的域名信息。本技术中,对提取到的域名关键字和tld进行不同形式的组合,最大可能的包含到与用户域名相关联的其它网站。比如用户输入的需要分析的域名为baidu.com,域名关键词是baidu,对baidu进行扩展,可扩展为:ibaidu、ba1du、baadu等,关键字扩展的方式可基于目前常用的仿冒网站的方式,tld扩展则是对关键字之后的顶级域进行扩展,包括.com、.cn、.co、.vip、biz等,域名前缀标识符的扩展主要是包括一些http、https、www的扩展。通过对不同的域名前缀标识符加不同的域名关键字加不同的顶级域的组合,形成不同类型的域名,如此可涵盖与机构用户域名相关联的多种网址的组合。可以通过onclick标签提取链接地址,链接的onclick事件被先执行,其次是href属性下的动作(页面跳转,或javascript伪链接),假设链接中同时存在href与onclick,如果不想执行href属性下的动作执行,onclick需要要得到一个false的返回值,一般是这样写onclick="xxx();return false;"。
33.步骤s3、后台服务器定时扫描数据库,并从数据库中提取未处理过的待分析任务进行分析。
34.具体的,分析过程包括:查询域名的whois信息,检测域名是否已注册;若已注册则进一步探测对应的域名网站是否已建站,对某个域名使用http、https协议组合,创建url对象用openconnection()打开链接时,当请求返回状态码为200时,成功响应,则认为该域名已经建站;如已建站,则进行建站截图;之后继续探测是否开启ssl证书,ssl是一种网络传输安全协议,所以在网站的正常使用中都需要配置相关的ssl证书。而ssl具有服务器身份验证和数据传输加密的功能,因此域名证书也具有相关的传输安全性的功能。而域名ssl证书是针对域名注册的拥有者而言的,它是以电子证书的格式来表现的,标明了注册域名、域名所有人的中文和英文名称、域名注册时间和到期时间等这些内容。ssl证书的最大功能就是保证信息安全。
35.示例性的,后台服务器根据组合的顺序,按照消息队列模式依次从数据库中提取待分析域名进行对应性探测分析。
36.步骤s4、根据查询的whois信息、是否建站、建站截图、是否开启ssl证书等探测结果返回给数据库,同时,还对建站截图进行打包上传到文件服务器,用户可在浏览器中下载已完成的任务附件,查看whois信息、网站截图、ssl信息等。
37.本技术将whois信息查询、建站情况的探测及是否启用ssl证书、网站截图等操作作为一个完整流程处理,可实现在浏览器输入域名,系统会自动爬取域名网页所有的二级域名/三级域名,以及对域名进行不同形式的组合,并进行批量whois查询、探测域名是否建站、是否启用ssl证书及对建站的域名进行截图,并提供下载截图功能。
38.实施例二
39.参照图3所示,本发明的实施例二提供了一种网站的分析装置,包括:任务生成模块和任务分析模块,其中,
40.任务生成模块,用于根据用户输入的网站域名和链接深度,自动对相关的域名进行组合扩展得到待分析域名任务并保存到数据库;
41.任务分析模块,定时从所述数据库中提取待分析的域名任务进行分析,所述的分析包括:查询域名的whois信息并进行网站截图、探测是否建站、是否开启ssl证书,最后返回分析结果。
42.关于本实施例网站的分析装置的具体限定可以参见上文中对于网站的分析方法的限定,在此不再赘述。上述网站的分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
43.实施例三
44.本发明的实施例三提供了一种计算机设备,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与其他的终端或者服务通过网络连接通信。该计算机程序被处理器执行时以实现一种网站的分析方法。其中,该计算机设备可以服务器,该服务器还可以包括数据库,该服务器的数据库可以存储预先训练的分类模型。该计算机设备还可以终端,该终端还可以包括显示屏和输入装置,该终端的显示屏可以是液晶显示屏或者电子墨水显示屏,该终端的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等,也还可以是语音识别装置或者文字识别装置。
45.本领域技术人员可以理解,图4中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
46.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述网站的分析方法的步骤。此处网站的分析方法的步骤可以是上述各个实施例的网站的分析方法中的步骤:根据用户输入的网站域名和链接深度,自动对相关的域名进行组合扩展得到待分析域名任务并保存到数据库;定时从所述数据库中提取待分析的域名任务进行分析,所述的分析包括:查询域名的whois信息、探测是否建站、建站截图、是否开启ssl证书,最后返回分析结果。
47.实施例四
48.本发明的实施例四,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述网站的分析方法的步骤。此处网站的分析方法的步骤可以是上述各个实施例的网站的分析方法中的步骤:根据用户输入的网站域名和链接深度,自动对相关的域名进行组合扩展得到待分析域名任务并保存到数据库;定时从所
述数据库中提取待分析的域名任务进行分析,所述的分析包括:查询域名的whois信息、探测是否建站、建站截图、是否开启ssl证书,最后返回分析结果。
49.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
50.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
51.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1