一种用于网站信息数据的综合采集分析方法与流程

文档序号:36884828发布日期:2024-02-02 21:19阅读:23来源:国知局
一种用于网站信息数据的综合采集分析方法与流程

本发明涉及网站信息数据采集分析领域,具体涉及一种用于网站信息数据的综合采集分析方法。


背景技术:

1、在大规模数据采集领域,网站配置和数据提取过程繁琐且复杂,尤其是在面对不同类型、国家、功能的网站时,现有技术通常只能针对某一个或某一类网站进行数据分析采集,对于高需求、大范围采集分析请求时,则存在方案单一且实施存在逻辑漏洞等风险。


技术实现思路

1、针对现有技术的不足,本发明提供了一种用于网站信息数据的综合采集分析方法,通过采集网站多种类信息数据,实现多目标多层次的综合采集、分析、验证等功能的方法实现。

2、为实现上述目的,本发明提供了一种用于网站信息数据的综合采集分析方法,包括:

3、s1、根据网站对应类型获取网站信息数据得到信息数据采集配置;

4、s2、根据所述信息数据采集配置进行数据采集得到基础网站信息数据;

5、s3、利用所述基础网站信息数据根据网站通用特征得到网站信息数据的综合采集分析结果。

6、优选的,所述根据网站对应类型获取网站信息数据得到信息数据采集配置包括:

7、s1-1、获取网站的语言类型作为初始采集标签;

8、s1-2、根据所述初始采集标签进行合规性验证建立信息数据采集通用配置;

9、s1-3、利用所述初始采集标签与信息数据采集通用配置作为信息数据采集配置。

10、进一步的,根据所述初始采集标签进行合规性验证建立信息数据采集通用配置包括:

11、s1-2-1、根据所述初始采集标签获取网络服务器地址;

12、s1-2-2、判断所述网络服务器地址的通讯状态是否正常,若是,则执行s1-2-3,否则,放弃处理;

13、s1-2-3、判断所述网络服务器地址的通讯线路是否存在网络代理,若是,则获取所述网络代理对应网络代理类型与网络代理地址作为信息数据采集通用预配置,并执行s1-2-4,否则,直接执行s1-2-5;

14、s1-2-4、利用所述信息数据采集通用预配置与初始采集标签对应网络通信协议作为信息数据采集通用配置;

15、s1-2-5、利用所述初始采集标签对应网络通信协议作为信息数据采集通用配置。

16、进一步的,根据所述信息数据采集配置进行数据采集得到基础网站信息数据包括:

17、s2-1、根据所述信息数据采集配置进行数据采集得到初始网站信息数据;

18、s2-2、利用所述初始网站信息数据进行交叉验证得到基础网站信息数据。

19、进一步的,根据所述信息数据采集配置进行数据采集得到初始网站信息数据包括:

20、s2-1-1、判断网站是否存在网络代理,若是,则执行s2-1-2,否则,利用所述信息数据采集配置的信息数据采集通用配置建立数据采集通信线路,并执行s2-1-3;

21、s2-1-2、根据所述信息数据采集配置的信息数据采集通用预配置建立数据采集通信中转节点,并根据所述信息数据采集配置的信息数据采集通用配置与数据采集通信中转节点建立数据采集通信线路;

22、s2-1-3、利用所述数据采集通信线路获取网站对应全部类型数据作为初始网站信息数据;

23、其中,所述网站对应全部类型数据包括数值类型数据、字符串类型数据、布尔类型数据、未定义数据、空对象数据与特殊类型数据。

24、进一步的,利用所述初始网站信息数据进行交叉验证得到基础网站信息数据包括:

25、s2-2-1、判断所述初始网站信息数据是否存在特殊类型数据,若是,则利用所述特殊类型数据作为交叉验证标签,并直接执行s2-2-3,否则,执行s2-2-2;

26、s2-2-2、判断初始网站信息数据的数据类型数量是否为1,若是,则获取初始网站信息数据的数据流作为交叉验证标签,否则,利用所述初始网站信息数据的数据类型建立交叉验证标签;

27、s2-2-3、判断当前时刻的数据采集通信线路是否存在网络代理,若是,则执行s2-2-4,否则,直接执行s2-2-5;

28、s2-2-4、判断所述交叉验证标签与网络代理的数据流转历史记录是否对应,若是,则执行s2-2-5,否则,所述交叉验证失败,返回s2-2-1;

29、s2-2-5、判断所述交叉验证标签与数据采集通信线路的终端数据流转历史记录是否对应,若是,则所述交叉验证成功,否则,所述交叉验证失败,返回s2-2-1;

30、其中,所述终端数据流转历史记录为数据采集通信线路的两个终端的数据流转历史记录。

31、进一步的,利用所述基础网站信息数据根据网站通用特征得到网站信息数据的综合采集分析结果包括:

32、s3-1、利用所述基础网站信息数据建立基础网站信息数据库;

33、s3-2、根据所述基础网站信息数据库进行顺序输出得到时序性输出数据;

34、s3-3、根据所述信息数据采集配置建立对应网站通用特征;

35、s3-4、利用所述时序性输出数据根据网站通用特征得到网站信息数据的综合采集分析结果。

36、进一步的,根据所述基础网站信息数据库进行顺序输出得到时序性输出数据包括:

37、s3-2-1、获取当前时刻作为时序输出起始时刻t;

38、s3-2-2、利用所述基础网站信息数据库根据时序输出起始时刻t进行输出得到基础网站信息数据的时序输出结果;

39、s3-2-3、判断当前时刻时序输出结果与信息数据采集配置是否对应,若是,则执行s3-2-4,否则,放弃处理;

40、s3-2-4、判断当前时刻是否存在相邻上一时刻时序输出结果,若是,则利用当前时刻时序输出结果与相邻上一时刻时序输出结果建立映射得到时序输出映射,并执行s3-2-5,否则,利用当前时刻时序输出结果作为时序输出映射起点,并返回s3-2-2;

41、s3-2-5、判断当前时刻是否存在相邻下一时刻时序输出结果,若是,则返回s3-2-2,否则,输出当前时刻时序输出映射作为时序性输出数据。

42、进一步的,根据所述信息数据采集配置建立对应网站通用特征包括:

43、获取网站对应平均数据流量作为网站第一特征;

44、根据所述网站第一特征获取对应终端的发送流量数据与接收流量数据作为网站第二特征;

45、根据所述网站第二特征获取对应通信线路的数据量作为网站第三特征;

46、利用所述网站第一特征、网站第二特征与网站第三特征作为网站通用特征。

47、进一步的,利用所述时序性输出数据根据网站通用特征得到网站信息数据的综合采集分析结果包括:

48、s3-4-1、判断所述时序性输出数据与网站通用特征的网站第一特征是否对应,若是,则执行s3-4-2,否则,网站信息数据的综合采集分析状态为异常,并输出时序性输出数据与网站第一特征不对应的数据作为网站信息数据的综合采集分析结果;

49、s3-4-2、判断所述时序性输出数据与网站通用特征的网站第二特征是否对应,若是,则执行s3-4-3,否则,网站信息数据的综合采集分析状态为异常,并输出时序性输出数据与网站第一特征不对应的数据作为网站信息数据的综合采集分析结果;

50、s3-4-3、判断所述时序性输出数据与网站通用特征的网站第三特征是否对应,若是,则网站信息数据的综合采集分析状态为正常,并执行s3-4-4,否则,网站信息数据的综合采集分析状态为异常,并输出时序性输出数据与网站第一特征不对应的数据作为网站信息数据的综合采集分析结果;

51、s3-4-4、输出当前时刻时序性输出数据与对应信息数据采集配置作为网站信息数据的综合采集分析结果。

52、与最接近的现有技术相比,本发明具有的有益效果:

53、通过语言项目分类,提高了对不同国家和语言网站的支持,并据此建立初步验证标签,为后续方案的多级验证打下基础,同时,可以根据需求自定义采集策略,更加灵活,有完善的错误处理和报警机制,确保方案的稳定自循环运行,最终形成一个闭环的实施方案,提高了数据采集分析的效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1