一种基于java平台的目标网站内容获取方法与流程

文档序号:37242651发布日期:2024-03-06 17:12阅读:152来源:国知局
一种基于java平台的目标网站内容获取方法与流程

本发明涉及数据获取,具体为一种基于java平台的目标网站内容获取方法。


背景技术:

1、java平台即由java编程语言所撰写的软件赖以运行的平台,是java软件和电脑系统的中介,最初被设计用在applet等桌面端程序,不过后来逐渐转移到服务端的运用。

2、专利申请号为cn107679168b的申请公开了一种基于java平台的目标网站内容获取方法,用于提高网站内容的获取效率。在该方法中,在用户启动网站内容自动获取开关后,根据生成的功能实例读取用户导入的jar配置文件,jar配置文件包括:线程数量、数据源地址和模板;根据jar配置文件设定的线程数量实例化相应数量的工作线程;使用相应数量的工作线程分别请求jar配置文件设定的数据源地址,从数据源地址获取符合搜索规则的目标网站内容,搜索规则包括:用户要求搜索的关键字;将目标网站内容填充到jar配置文件设定的模板中,形成流式文档数据;将流式文档数据存储到流式文档素材库中,以使用户从流式文档素材库中查找匹配目标网站的素材内容。

3、基于java平台的网站内容获取时,优先确定对应的网站是否处于开放状态,再对属于开放状态的网站进行数据获取,随后将所获取的网站数据进行存储压缩,便于后续进行数据提取,但原始的方式,仍存在以下不足需进行改进:

4、1、其获取方式并未进行改变,导致内部传输协议多次来回转换,浪费过多的时长,影响整体的数据获取时间;

5、2、数据在传输时,其加密方式以及加密密钥均存储于对应数据包内,其安全系数并不高。


技术实现思路

1、针对现有技术的不足,本发明提供了一种基于java平台的目标网站内容获取方法,解决了其获取方式并未进行改变,导致内部传输协议多次来回转换,浪费过多的时长,影响整体的数据获取时间的问题。

2、为实现以上目的,本发明通过以下技术方案予以实现:一种基于java平台的目标网站内容获取方法,包括以下步骤:

3、s1、确定java平台内处于开放状态的目标网站,识别对应目标网站内所包含的数据格式,基于不同的数据格式,从云端内确认对应格式所匹配的传输协议,将其标定为对应数据格式的匹配协议;

4、s2、基于所标定的若干组匹配协议,从云端中提取每组匹配协议之间的转换时长数据,从若干组匹配协议中,随机选定一组初协议,再通过对转换时长数据进行均值处理分析,确定此初协议的二类协议,依此类推,完成若干组匹配协议的排列集合,具体方式为:

5、s21、基于所选定的初协议,确定初协议与不同匹配协议之间的若干组转换时长数据,所确定的转换时长数据个数不低于三十组,即每组不同的匹配协议均与初协议之间均有若干组转换时长数据,并将属于同一匹配协议的若干组转换时长数据进行捆绑,生成一组数据包;

6、s22、将数据包内所包含的若干组转换时长数据进行聚类处理,将若干组转换时长数据基于从小至大的方式进行排序,生成排序序列,基于转换时长数据的具体个数n锁定中心数据,具体方式为:

7、若n为偶数,则从排序序列中间位置的两组数据随机提取一组数据作为中心数据;

8、若n为奇数,则从排序序列内选定中间位置的数据作为中心数据;

9、以中心数据为基准,确定此中心数据与其他转换时长数据之间的差值,并将所确认的若干组差值标定为czi,其中i=1、2、……、m,其m代表差值的个数,将m组差值czi进行均值处理,确定均值jz,将满足czi÷jz≥y1的差值标定为异常差值,其中y1为预设值,反之,不进行任何标定;

10、从数据包内将异常差值所对应的除中心数据外的转换时长数据进行剔除,再将完成剔除处理后的数据包的若干组转换时长数据进行均值处理,得到协议均参;

11、s23、从若干组协议均参内选定最小值,将最小值对应的匹配协议标定为初协议的二类协议;

12、s24、采用步骤s22中相同的方式从二类协议中确定三类协议,再对后续的若干组匹配协议进行依次确认,锁定排列集合;

13、s3、按照所确定的排列集合,依次对目标网站内不同格式的内容进行依次获取,并将获取后不同格式的内容标定整合为格式数据包;

14、s4、对不同的格式数据包进行数据清洗处理,将格式数据包内带有html标签、日期格式的相关数据进行清洗删除,其具体清洗过程由数据清洗模型进行执行,且数据清洗模型为预设模型,将清洗后的不同格式数据包标定为传输数据包;

15、s5、基于格式数据包获取的先后顺序,对传输数据包进行排序,基于已完成排序的若干组传输数据包,锁定不同传输数据包的前后顺序,将前一组传输数据包的加密因子隐藏至后一组传输数据包内,最后一组传输数据包的加密因子隐藏至第一组传输数据包内,完成若干组传输数据包的整体加密处理工作。

16、优选的,所述步骤s5中,基于已完成排序的若干组传输数据包,锁定不同传输数据包的前后顺序;并将前一组传输数据包的加密因子隐藏至第二组传输数据包内;将第二组传输数据包的加密因子隐藏至第三组传输数据包内;依此类推,最后一组传输数据包的加密因子隐藏至第一组传输数据包内;具体方式为:

17、s51、基于排序位置,确定第一组传输数据包的源数据容量以及主数据容量,将源数据容量标定为r1,将主数据容量标定为z1,采用m1=(r1+z1)×c1,其中c1为加密因子,得到密钥参数m1,并将此密钥参数m1作为此传输数据包的加密密钥,完成对传输数据包的加密,并删除此密钥参数m1,将c1隐藏至第二组传输数据包内;

18、s52、再基于第二组传输数据包的源数据容量以及主数据容量以及加密因子c2,确定第二组传输数据包的加密密钥m2,并采用此m2对第二组传输数据包进行加密,同时删除m2,并将c2隐藏至第三组传输数据包内;

19、s53、依此类推,完成若干个不同传输数据包的加密处理工作以及加密因子的隐藏工作后,按照排序位置,对若干组传输数据包进行依次传输。

20、本发明提供了一种基于java平台的目标网站内容获取方法。与现有技术相比具备以下有益效果:

21、本发明通过根据数据格式的不同,确定不同的匹配协议,随后再根据匹配协议之间的变换时长数据,锁定排列集合,数据经过处理后,便可根据对应的转换时长均值,从而便可锁定时长最短的一组处理方式,将转换所对应的匹配协议标定为二类协议,采用此种方式,便于后续对不同格式数据进行获取,限定获取方式,从而充分缩短获取时间,从而提升获取效果;

22、将前一组传输数据包的加密因子隐藏至后一组传输数据包内,最后一组传输数据包的加密因子隐藏至第一组传输数据包内,此种加密方式,不仅对传输过程中的数据进行充分加密,其解密过程,位于接收端内,且传输数据的解密因子以及密钥均不存在,均在下一组所传输的数据中,故安全系数较高,数据的安全性可得到充分保障,保障数据传输过程中的私密度,避免数据被外部人员窃取。



技术特征:

1.一种基于java平台的目标网站内容获取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于java平台的目标网站内容获取方法,其特征在于,所述步骤s2中,确定排列集合的具体方式为:

3.根据权利要求2所述的一种基于java平台的目标网站内容获取方法,其特征在于,所述步骤s22中,锁定中心数据的具体方式为:

4.根据权利要求1所述的一种基于java平台的目标网站内容获取方法,其特征在于,还包括以下步骤:

5.根据权利要求4所述的一种基于java平台的目标网站内容获取方法,其特征在于,所述步骤s5中,基于已完成排序的若干组传输数据包,锁定不同传输数据包的前后顺序;并将前一组传输数据包的加密因子隐藏至第二组传输数据包内;将第二组传输数据包的加密因子隐藏至第三组传输数据包内;依此类推,最后一组传输数据包的加密因子隐藏至第一组传输数据包内。

6.根据权利要求4所述的一种基于java平台的目标网站内容获取方法,其特征在于,所述步骤s5中,进行加密隐藏的具体方式为:


技术总结
本发明公开了一种基于java平台的目标网站内容获取方法,本发明涉及数据获取技术领域,解决了其获取方式并未进行改变,导致内部传输协议多次来回转换,浪费过多的时长,影响整体的数据获取时间的问题,本发明通过根据数据格式的不同,确定不同的匹配协议,随后再根据匹配协议之间的变换时长数据,锁定排列集合,数据经过处理后,便可根据对应的转换时长均值,从而便可锁定时长最短的一组处理方式,将转换所对应的匹配协议标定为二类协议,采用此种方式,便于后续对不同格式数据进行获取,限定获取方式,从而充分缩短获取时间,从而提升获取效果。

技术研发人员:张洁仪,郑盼盼,张洁静
受保护的技术使用者:张洁仪
技术研发日:
技术公布日:2024/3/5
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1