基于大数据平台的数据采集方法及系统与流程

文档序号:34607804发布日期:2023-06-29 04:13阅读:99来源:国知局
基于大数据平台的数据采集方法及系统与流程

本技术涉及数据采集,具体而言,涉及一种基于大数据平台的数据采集方法及系统。


背景技术:

1、大数据平台指的是使用了hadoop、spark、storm、flink、blink等这些分布式、实时或者离线计算框架,并在上面运行各种计算任务的平台。建设大数据平台的最终目的是服务于业务需求,解决现有业务问题或者创造新的机会。业务部门可能并不关心是采用大数据技术,还是传统的数据库技术,是否采用大数据技术的主要依据是数据量。如果出现任务运行很久的情况,或者因为计算量太大现有技术不能满足,又或者有大量半结构化、非结构化数据需要处理的时候,可能就有大数据的诉求了。对于大数据平台而言,其在采集数据的过程中会发布多个数据采集任务,从而根据发布的数据采集任务进行采集,这些数据采集任务本身基于业务需求会关联对应的发布知识特征,相关技术中在结合数据采集任务执行数据采集的过程中,没有考虑到重要性权重的特征部分,从而导致后续采集倾向特征分析的准确性较低,进而影响后续数据采集的精度。


技术实现思路

1、有鉴于此,本技术的目的在于提供一种基于大数据平台的数据采集方法及系统,提取大数据平台的待发布任务的目标发布知识特征序列,从目标发布知识特征序列中获取依赖发布知识特征,确定多个发布知识特征的多个用户注意力系数,并从多个用户注意力系数中确定目标注意力系数,对多个发布知识特征和目标注意力系数进行融合得到融合发布知识特征,对融合发布知识特征进行整合生成依赖发布知识特征的任务采集倾向特征,获取与依赖发布知识特征对应的扩展采集倾向特征,并对任务采集倾向特征和扩展采集倾向特征进行整合生成目标任务采集特征,并基于目标任务采集特征控制大数据平台执行数据采集操作,从而通过结合注意力系数可以考虑到重要性权重的特征部分,由此可以提高采集倾向特征分析的准确性,进而提高后续数据采集的精度。

2、依据本技术的第一方面,提供一种基于大数据平台的数据采集方法,应用于云服务器,所述方法包括:

3、提取大数据平台的待发布任务的目标发布知识特征序列,从所述目标发布知识特征序列中获取依赖发布知识特征;其中,所述依赖发布知识特征基于多个发布知识特征生成;

4、确定所述多个发布知识特征的多个用户注意力系数,并从所述多个用户注意力系数中确定目标注意力系数;

5、对所述多个发布知识特征和所述目标注意力系数进行融合得到融合发布知识特征;

6、对所述融合发布知识特征进行整合生成所述依赖发布知识特征的任务采集倾向特征;

7、获取与所述依赖发布知识特征对应的扩展采集倾向特征,并对所述任务采集倾向特征和所述扩展采集倾向特征进行整合生成目标任务采集特征,并基于所述目标任务采集特征控制所述大数据平台执行数据采集操作。

8、在第一方面的一种可能的实施方式中,所述从所述多个用户注意力系数中确定目标注意力系数,包括:

9、对所述多个用户注意力系数进行分析得到注意力系数分析信息;

10、基于所述注意力系数分析信息在所述多个用户注意力系数中确定目标注意力系数。

11、在第一方面的一种可能的实施方式中,所述对所述多个发布知识特征和所述目标注意力系数进行融合得到融合发布知识特征,包括:

12、对所述多个发布知识特征和所述多个用户注意力系数进行融合得到融合特征;

13、对所述融合特征和所述目标注意力系数进行注意力特征提取得到融合发布知识特征。

14、在第一方面的一种可能的实施方式中,所述对所述多个发布知识特征和所述目标注意力系数进行融合得到融合发布知识特征,包括:

15、对所述多个发布知识特征和所述多个用户注意力系数进行融合得到融合特征;

16、对所述多个发布知识特征进行整合生成整合特征,并对所述整合特征进行特征空间投影得到投影特征;

17、对所述融合特征、所述目标注意力系数和所述投影特征进行特征关联得到融合发布知识特征。

18、在第一方面的一种可能的实施方式中,所述确定所述多个发布知识特征的多个用户注意力系数,包括:

19、对所述多个发布知识特征进行整合生成整合特征;

20、对所述整合特征进行特征空间投影得到所述多个发布知识特征的多个用户注意力系数。

21、在第一方面的一种可能的实施方式中,所述对所述整合特征进行特征空间投影得到所述多个发布知识特征的多个用户注意力系数,包括:

22、获取与所述依赖发布知识特征对应的发布主题摘要特征,并分别计算所述发布主题摘要特征和所述多个发布知识特征之间的多个匹配值;

23、对所述整合特征进行特征空间投影得到与所述多个发布知识特征对应的多个初始特征注意力系数;

24、对所述多个匹配值和所述多个初始特征注意力系数进行注意力系数代价确定目标代价参数,以基于所述目标代价参数确定所述多个初始特征注意力系数为多个用户注意力系数。

25、在第一方面的一种可能的实施方式中,所述对所述多个匹配值和所述多个初始特征注意力系数进行注意力系数代价确定目标代价参数,包括:

26、对所述多个匹配值和所述多个初始特征注意力系数进行匹配值确定匹配值代价参数;

27、对所述发布主题摘要特征和所述任务采集倾向特征进行特征代价确定代价差异值;

28、对所述匹配值代价参数和所述代价差异值进行代价汇总确定目标代价参数。

29、在第一方面的一种可能的实施方式中,所述对所述任务采集倾向特征和所述扩展采集倾向特征进行整合生成目标任务采集特征,包括:

30、对所述任务采集倾向特征和所述扩展采集倾向特征进行整合生成测试倾向特征;

31、确定与所述测试倾向特征对应的解码代价参数,以基于所述解码代价参数确定所述测试倾向特征为目标任务采集特征;

32、所述对所述任务采集倾向特征和所述扩展采集倾向特征进行整合生成测试倾向特征,包括:

33、将所述任务采集倾向特征和所述扩展采集倾向特征加载到训练完成的特征编码单元中,以调用所述特征编码单元对所述任务采集倾向特征和所述扩展采集倾向特征进行整合输出测试倾向特征;

34、所述确定与所述测试倾向特征对应的解码代价参数,包括:

35、对所述测试倾向特征进行整合生成解码任务采集倾向特征和解码扩展采集倾向特征;

36、对所述解码任务采集倾向特征和所述解码扩展采集倾向特征进行解码代价确定解码代价参数。

37、在第一方面的一种可能的实施方式中,所述对所述解码任务采集倾向特征和所述解码扩展采集倾向特征进行解码代价确定解码代价参数,包括:

38、对所述解码任务采集倾向特征和所述任务采集倾向特征进行代价计算确定第一代价参数;

39、对所述解码扩展采集倾向特征和所述扩展采集倾向特征进行代价计算确定第二代价参数;

40、对所述第一代价参数和所述第二代价参数进行求和确定解码代价参数。

41、譬如,在第一方面的一种可能的实施方式中,所述提取待发布任务的目标发布知识特征序列的步骤,包括:

42、对任务发布阶段内多个待发布任务进行任务可视化分配时的初始化任务资源进行源数据调取,生成源数据知识图谱,所述源数据知识图谱包含所述多个待发布任务分别对应的知识节点数据;

43、对生成的各个知识节点数据进行可视化分配挖掘,生成所述各个知识节点数据分别相关的待发布任务信息和可视化分配挖掘信息;

44、依据生成的各个待发布任务信息和各个可视化分配挖掘信息,分别提取相应待发布任务的目标发布知识特征序列;

45、所述可视化分配挖掘信息至少包含任务关联事件数据和分配配置数据,则所述依据生成的各个待发布任务信息和各个可视化分配挖掘信息,分别提取相应待发布任务的目标发布知识特征序列,包括:

46、针对各个待发布任务中的每个待发布任务,依据该待发布任务的任务信息和分配配置数据,获取该待发布任务的任务画像向量;

47、依据全局任务场景事件数据和所述任务关联事件数据,生成该待发布任务的先验知识特征,所述全局任务场景事件数据是将该待发布任务的任务关联事件数据和分配配置数据进行融合生成的;

48、基于设定的注意力机制序列,依据所述全局任务场景事件数据和所述任务关联事件数据,生成该待发布任务的注意力向量;

49、依据所述任务画像向量、所述先验知识特征和所述注意力向量,生成该待发布任务的目标发布知识特征序列;

50、所述依据该待发布任务的任务信息和分配配置数据,获取该待发布任务的任务画像向量,包括:

51、从该待发布任务的任务信息中,提取任务标签、任务所属分区、任务所属业务节点和任务优先级;

52、从该待发布任务的分配配置数据中,提取目标配置指向位置,所述目标配置指向位置为预置时空域内,该待发布任务的任务触发次数大于目标次数的指向位置;

53、将所述任务标签、所述任务所属分区、所述任务所属业务节点、所述任务优先级和所述目标配置指向位置中的至少一个向量序列,输出为所述任务画像向量;

54、所述依据所述全局任务场景事件数据和所述任务关联事件数据,生成该待发布任务的先验知识特征,包括:

55、依据所述任务关联事件数据,分析所述任务发布阶段中各个关联任务发布阶段内,该待发布任务正向触发的频率、负向触发的频率、正权重分配的频率、负权重分配的频率;

56、依据所述全局任务场景事件数据,分析所述任务发布阶段中各个关联任务发布阶段内,该待发布任务请求的大数据服务量、发布的时间跨度、发布所调度的模块数量、任务发布的频率、任务发布所采用的节点数量;

57、将所述正向触发的频率、所述负向触发的频率、所述正权重分配的频率、所述负权重分配的频率、所述待发布任务请求的大数据服务量、所述发布的时间跨度、所述发布所调度的模块数量、所述任务发布的频率、所述任务发布所采用的节点数量中的至少一个,输出为所述先验知识特征;

58、所述基于设定的注意力机制序列,依据所述全局任务场景事件数据和所述任务关联事件数据,生成该待发布任务的注意力向量,包括:

59、针对所述注意力机制序列中的一个注意力机制,依据所述一个注意力机制对应的全局任务场景事件数据或任务关联事件数据,分析所述任务发布阶段中各个关联任务发布阶段内,所述一个注意力机制对应的注意力活动,并依据分析结果,生成该待发布任务的注意力向量。

60、依据本技术的第二方面,提供一种云服务器,所述云服务器包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述处理器在执行所述机器可执行指令时,该云服务器实现前述的基于大数据平台的数据采集方法。

61、依据本技术的第三方面,提供提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,当所述计算机可执行指令被执行时,实现前述的基于大数据平台的数据采集方法。

62、依据上述任一方面,本技术中,提取大数据平台的待发布任务的目标发布知识特征序列,从目标发布知识特征序列中获取依赖发布知识特征,确定多个发布知识特征的多个用户注意力系数,并从多个用户注意力系数中确定目标注意力系数,对多个发布知识特征和目标注意力系数进行融合得到融合发布知识特征,对融合发布知识特征进行整合生成依赖发布知识特征的任务采集倾向特征,获取与依赖发布知识特征对应的扩展采集倾向特征,并对任务采集倾向特征和扩展采集倾向特征进行整合生成目标任务采集特征,并基于目标任务采集特征控制大数据平台执行数据采集操作,从而通过结合注意力系数可以考虑到重要性权重的特征部分,由此可以提高采集倾向特征分析的准确性,进而提高后续数据采集的精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1