一种自适应与动态调整的多渠道物流位置数据采集方法与流程

文档序号:40787238发布日期:2025-01-29 01:52阅读:6来源:国知局
一种自适应与动态调整的多渠道物流位置数据采集方法与流程

本发明属于大数据采集与处理,具体涉及一种自适应与动态调整的多渠道物流位置数据采集方法。


背景技术:

1、在现有技术中,大数据的采集涉及多源数据的融合与协同,但不同渠道的位置数据的采集往往赖于固定的时间间隔或手动触发,各个渠道数据的采集频次和方式均存在差异,在需要快速响应和决策支持的场景中,这种延迟可能导致信息过时或失去价值;同时现有的数据采集策略相对固定,缺乏灵活性,难以适应数据源、系统状态或业务需求的变化,加上不同渠道的数据格式、结构和质量标准存在差异,导致数据整合过程变得复杂且耗时。


技术实现思路

1、本发明的目的是提供一种自适应与动态调整的多渠道物流位置数据采集方法,用于解决现有技术数据采集策略相对固定,缺乏灵活性,难以适应数据源、系统状态或业务需求的变化,各个渠道数据的采集频次和方式均存在差异,加上不同渠道的数据格式、结构和质量标准存在差异,导致数据整合过程变得复杂且耗时的技术问题。

2、所述的一种自适应与动态调整的多渠道物流位置数据采集方法,包括下列步骤。

3、s1、建立位置数据的存储仓库。

4、s2、将数据转化为统一的数据格式和协议,实现不同数据源的数据间的无缝对接。

5、s3、对采集数据源进行质量评估,评估结果即数据源质量。

6、s4、基于预先制定的自适应位置数据采集策略,对不同数据源的采集频率进行采集频率的计算和调整。

7、步骤s4中,根据数据源的精度和稳定性为每个数据源分配优先级,数据源的精度和稳定性越好则优先级越高,而在进行位置数据实时采集时,对数据源的采集频率进行动态调整,对于数据源质量下降的情况,该步骤根据数据源的历史质量数据和优先级,动态调整不同数据源的采集频率;数据源动态调整的初始采集频率的计算公式如下:

8、

9、其中,∫new是新的采集频率,∫old是原始的采集频率,qcurrent是当前数据源的质量评分,qavg是数据源的历史平均质量评分,qmax是数据源的历史最高质量评分,priorityfactor是一个基于数据源优先级的调整因子,优先级越高,该因子越大,反映了该数据源在系统中的相对重要性。

10、优选的,所述步骤s3包括:采用打分机制,通过对各个数据在准确性、完整性、时效性、一致性、相关性几个维度进行分析,实现数据质量在各维度上的分值评估,并综合各维度的分值最终得出数据质量分数,实现对采集数据源的质量评估;将每个维度的得分乘以对应的权重,然后求和,得出最终的数据质量分数,数据质量分数的计算公式:

11、scoredq=waccaccuracy+wcomcompleteness+wtimtimeliness

12、+wconconsistency+wrelrelevance

13、其中,scoredq表示数据质量分数,accuracy、completeness、timeliness、consistency和relevance依次表示准确性、完整性、时效性、一致性和相关性五个维度的分数,wacc、wcom、wtim、wcon和wrel依次表示准确性、完整性、时效性、一致性和相关性五个维度分数的权重。

14、优选的,所述步骤s3中,各个维度的分数等于该维度下各个子项的分数平均值;相应的具体评估方法包括。

15、1)准确性评估:准确性包括位置准确性和速度准确性。

16、位置准确性:对比各数据源的位置数据,计算位置差异并与相应阈值进行比较从而根据比较结果确定该项分数。

17、速度准确性:对比各数据源的速度数据,计算速度差异并与相应阈值进行比较从而根据比较结果确定该项分数。

18、2)完整性评估:准确性包括字段完整性和数据缺失。

19、字段完整性:检查每个记录是否都包含所有必需的字段,如果记录包含所有必需字段,则给满分;每缺少一个字段,则扣分。

20、数据缺失:统计每个字段中缺失值的比例,如果缺失值的比例超过设定阈值,则按超出额扣分,否则给满分。

21、3)时效性评估:时效性包括时间戳验证和数据新鲜度。

22、时间戳验证:确定时间戳数据有效,并计算时间戳数据与实际获取数据时间之间的差异,将该差异与设定阈值进行比较从而评分。

23、数据新鲜度:计算数据从产生到被处理的时间差,将该时间差与设定阈值进行比较从而评分。

24、4)一致性评估:一致性包括内部一致性、外部一致性和数据格式一致性;

25、内部一致性:检查同一记录中不同字段之间是否存在逻辑冲突,没有逻辑冲突则给满分,否则扣分。

26、外部一致性:存在不止一个数据源提供相同位置的数据时,对比这些数据源的数据,如果各个数据源的数据一致则给满分,否则扣分。

27、数据格式一致性:根据各条记录的数据格式和编码规则是否一致进行评分,如果一致则给满分,否则扣分。

28、5)相关性评估:相关性包括位置与地理区域的相关性、速度与位置的相关性,以及数据源与设备的相关性。

29、位置与地理区域的相关性:检查位置数据和地理区域数据之间是否匹配,如果匹配则给满分;否则扣分。

30、速度与位置的相关性:计算位置数据和时间戳数据之间的变化率,分析速度数据是否与所述变化率相匹配,如果相匹配则给满分,否则扣分。

31、数据源与设备的相关性:验证数据源和设备二者的id是否与实际使用的数据源和设备相对应,如果相对应则给满分,否则扣分。

32、优选的,所述步骤s4具体包括:依据数据源质量计算初始采集频率;具体包括下列步骤。

33、a.定义监控指标,监控指标包括cpu使用率、内存占用、磁盘i/o、网络带宽、数据源质量。

34、b.设置阈值,根据系统负载能力和业务需求,为每个监控指标设定警告阈值和严重阈值。

35、c.设置数据源优先级,该步骤根据数据源的精度和稳定性为每个数据源分配优先级。

36、d.报警调整,当某个监控指标超过警告阈值时,触发数据采集策略的调整;首先,降低低优先级数据源的采集频率,以释放系统资源,从而让优先级较高的数据源输出的位置数据能被更好地处理;如果监控指标继续上升并超过严重阈值,暂停部分或全部低优先级数据源的采集。

37、e.进行位置数据实时采集时,对数据源的采集频率进行动态调整。

38、优选的,所述步骤s4还包括:监测网络状况并评分,基于网络状况的得分对初始采集频率进行调整,网络状况的评分方法包括:综合考虑带宽、延迟、丢包率等多个性能指标,使用评估方法得到一个综合的网络质量得分,计算式为:网络质量综合得分=σ(指标权重×指标得分),其中符号含义如下:σ表示求和,指标得分表示该指标的性能情况,指标权重代表该性能指标在网络质量评估中的重要性;根据网络质量综合得分的阈值范围判断网络质量综合得分对应的网络状况,满足触发条件时,按照采集频率调整策略对采集频率进行调整,基于网络状况的采集频率调整策略包括:当网络状况良好时,保持当前的采集频率不变;当网络状况中等时:适当降低采集频率,降低10%-20%;当网络状况较差时:显著降低采集频率,降低30%以上。

39、优选的,所述步骤s4还包括:根据物流系统的业务要求设定业务调整方式,从而对上一步所得的采集频率做调整;物流系统的业务要求与业务调整方式的对应关系如下。

40、a.城配业务,位置数据的采集频率需要相应提高,满足该类业务的最低采集频率要求,低于要求时按一定比例增加采集频率已达到要求。

41、b.干线运输业务,选择适中的采样频率,采样频率的范围低于城配业务但高于大宗业务;

42、c.大宗业务:采用较低的采样频率,同时确保关键位置点的位置数据能够被准确采集记录,采样频率的范围相对低于干线运输业务。

43、优选的,所述步骤s1包括。

44、s1.1、需要设计数据表结构。

45、s1.2、设计索引策略。

46、s1.3、根据数据的特性进行分区,将数据分散到不同的物理存储设备上,具体根据时间和地理位置两个维度对数据进行分区。

47、优选的,步骤s2中,对坐标系转换的数据质量进行监控,通过比对转换前后的坐标值,评估转换算算法的精度和可靠性,使用转换算法进行验证。验证涉及的误差种类包括坐标差异、均方根误差、最大误差和最小误差;上述误差中,单个的坐标差异值能体现单个坐标点转换后的偏离程度,在有了每个点的坐标差异值之后,该步骤能进一步计算均方根误差并找出最大误差和最小误差,均方根误差综合考虑所有点的误差,并给出了一个总体的误差估计,最大误差提供了转换算法可能产生的最大偏离程度的信息,确定算法的性能边界;而最小误差则反映了算法在最佳情况下的表现。

48、本发明具有以下优点:1.通过对采集数据源进行质量评估和自适应位置数据采集策略,本方法构建反馈机制,建立数据采集与数据处理的反馈机制,根据数据处理结果调整采集策略,实现系统的动态优化。这使得本方法能够根据数据源提供的数据质量进行相应采集频率的调整,适应了数据源质量的动态变化,支持更多元化的数据源和更多种类的坐标系转换,提高数据处理的准确性和灵活性。

49、2.本方法建立全面的数据质量评估体系,包括数据完整性、准确性、一致性、时效性等多个维度,为数据管理和应用提供可靠的依据,确保数据的质量和价值。

50、3.本方法设计的采集策略调整算法,能自动适应业务变化和数据质量的变化,实现数据采集的智能化和自动化,提高数据采集的效率和准确性,兼顾了位置数据采集的成本、效率、稳定性和准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1