本发明涉及通信,尤其是涉及一种网页渲染方式的识别方法、系统及计算机设备。
背景技术:
1、网页渲染是用于展现网页页面的控件,网页经过渲染后才会展示给客户端。常见的网页渲染方式有客户端渲染以及服务端渲染,服务端渲染是指在服务器上将客户端或通用应用程序渲染成html,客户端渲染是指直接在浏览器中渲染应用程序,通常使用文档对象模型。
2、目前,在需要提取网页中的信息时,服务端渲染的网页通常采用curl请求的方式进行提取,提取速度较快;对于客户端渲染方式渲染的网页,由于网页中的信息分散在各个框架模型中,采用curl请求的方式提取信息可能会出现网页中信息提取遗漏或提取不完整的情况出现,所以对于不同渲染方式的网页需要采用不同的提取方式,如何准确识别出网页的渲染方法,是目前亟待解决的问题。
技术实现思路
1、为了便于识别网页的渲染方式,本申请提供了一种网页渲染方式的识别方法、系统及计算机设备。
2、第一方面,本申请提供的一种网页渲染方式的识别方法,采用如下的技术方案:
3、一种网页渲染方式的识别方法,包括:
4、获取网页的页面数据;
5、获取页面数据中存在的关键字段;所述关键字段是客户端渲染方式中包含的字段;
6、获取页面数据中html代码字段占页面数据总字符的代码比例;
7、根据页面数据中存在的关键字段和代码比例,生成网页渲染方式。
8、通过采用上述技术方案,获取网页的页面数据以及页面数据中存在的关键字段,获取页面数据中html代码占页面数据总字符的代码比例,若页面数据中存在的关键字段越多,则网页越可能是采用客户端渲染的方式进行渲染的,若页面数据中html代码字段的比例越小,则网页越可能是采用客户端渲染的方式进行渲染的,从而根据页面数据存在关键字段的情况和html代码字段占页面数据总字符的代码比例,能够得出网页的渲染方式,进而实现了便于对网页的渲染方式进行识别的效果。
9、可选的,所述关键字段包括第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段;所述获取页面数据中存在的关键字段,具体包括:
10、分别创建第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段的正则表达式;
11、利用正则表达式,分别对页面数据中的第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段进行匹配;
12、根据第三方框架字段的匹配结果、功能样式框架字段的匹配结果、框架类型标识字段的匹配结果以及自定义修改字段的匹配结果,得到页面数据中存在的关键字段。
13、通过采用上述技术方案,利用创建正则表达式的方式,分别对页面数据中的第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段进行匹配,当正则表达式匹配到页面数据中的第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段中的一项或多项时,则说明页面数据中存在对应的关键字段,从而实现了对页面数据中存在的关键字段进行获取的效果。
14、可选的,所述根据页面数据中存在的关键字段和代码比例,生成网页渲染方式,具体包括:
15、计算页面数据中存在的每个关键字段的字段分值;
16、根据预设代码比例,计算代码比例的比例分值;
17、预设比例分值和每个关键字段的字段分值的权重;
18、根据权重,对比例分值和所有的字段分值进行累加,得到客户端渲染匹配分值;
19、根据匹配分值,得到网页的渲染方式。
20、通过采用上述技术方案,计算每个关键字段的字段分值以及比例分值,便于将页面数据中存在的关键字段以及代码比例进行量化,再对比例分值和每个关键字段的字段分值赋予权重,从而根据比例分值和每个关键字段的字段分值的权重,计算出客户端渲染匹配分值,根据匹配分值,即能够得到网页的渲染方式,匹配分值越高,则渲染方式为客户端渲染的可能性越大。
21、可选的,所述计算页面数据中存在的每个关键字段的字段分值,具体包括:
22、判断页面数据中存在的每个关键字段中是否存在对应的代码;若存在,对应关键字段的字段分值为第一分值,若不存在,则对应关键字段的字段分值为第二分值。
23、通过采用上述技术方案,判断关键字段中是否存在对应的代码,便于得知关键字段是否具备实现对应功能的条件,将字段分值根据是否有对应的代码分为第一分值和第二分值,便于根据不同的情况计算关键字段的字段分值。
24、可选的,所述根据匹配分值,得到网页的渲染方式之后,还包括:根据匹配分值,得到网页渲染方式对应的可信度。
25、通过采用上述技术方案,便于在得到网页渲染方式后,对网页渲染方式的准确性进行了解。
26、可选的,还包括:
27、预设网页提取关键信息的预期准确度;
28、根据预期准确度以及每个网页对应的渲染方式的可信度,生成每个网页的关键信息提取流程。
29、通过采用上述技术方案,预设预期准确度,即设定对网页提取关键信息的准确度的要求,根据预期准确度以及每个网页对应的渲染方式的可信度,生成每个网页的关键信息提取流程,预期准确度越高,则采用客户端渲染的提取方法的网页增多,以便提取出更加准确的关键信息。
30、可选的,所述网页的关键信息至少包括网页的图标、网页的标题以及网页的ipc备案信息。
31、通过采用上述技术方案,将网页的图标、网页的标题以及网页的ipc备案信息作为网页的关键信息进行提取,便于通过关键信息对网页进行管理。
32、第二方面,本申请提供一种网页渲染方式的识别系统,采用如下技术方案:
33、一种网页渲染方式的识别系统,包括:
34、页面数据获取单元,用于获取网页的页面数据;
35、关键字段获取单元,用于获取页面数据中存在的关键字段;所述关键字段是客户端渲染方式中包含的字段;
36、代码比例生成单元,用于获取页面数据中html代码占页面数据总字符的代码比例;
37、渲染方式生成单元,用于根据页面数据中存在的关键字段和代码比例,生成网页渲染方式。
38、通过采用上述技术方案,利用页面数据获取单元获取网页的页面数据,利用关键字段获取单元获取页面数据中存在的关键字段,利用代码比例生成单元获取页面数据中html代码占页面数据总字符的代码比例,利用渲染方式生成单元根据页面数据中存在的关键字段和代码比例,生成网页渲染方式,从而便于识别网页的渲染方式。
39、第三方面,本申请提供一种计算机设备,采用如下技术方案:
40、一种计算机设备,包括存储器、处理器以及储存在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行如第一方面中任一所述的一种网页渲染方式的识别方法。
1.一种网页渲染方式的识别方法,其特征在于,包括:
2.根据权利要求1所述的识别方法,其特征在于:所述关键字段包括第三方框架字段、功能样式框架字段、框架类型标识字段以及自定义修改字段;所述获取页面数据中存在的关键字段,具体包括:
3.根据权利要求1所述的识别方法,其特征在于:所述根据页面数据中存在的关键字段和代码比例,生成网页渲染方式,具体包括:
4.根据权利要求3所述的识别方法,其特征在于:所述计算页面数据中存在的每个关键字段的字段分值,具体包括:
5.根据权利要求4所述的识别方法,其特征在于,所述根据匹配分值,得到网页的渲染方式之后,还包括:根据匹配分值,得到网页渲染方式对应的可信度。
6.根据权利要求5所述的识别方法,其特征在于,还包括:
7.根据权利要求6所述的识别方法,其特征在于:所述网页的关键信息至少包括网页的图标、网页的标题以及网页的ipc备案信息。
8.一种网页渲染方式的识别系统,其特征在于,包括:
9.一种计算机设备,其特征在于:包括存储器、处理器以及储存在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行如权利要求1-7中任一种方法。