专利名称:一种低存储开销的运行时递推数据溯源方法
技术领域:
本发明属于数据溯源领域,特别是一种低存储开销的运行时递推数据溯源方法。
背景技术:
近年来,基于传感网的感知应用大量出现,并被广泛地应用于工业控制、医疗护理、军事监测、智能农业和危险源监测等领域。然而随着传感网技术的发展,传感网的规模正变得越来越大。在传感网数据的整个感、传、知、控的演化过程中,每个阶段的数据处理都具有一定的不确定性,随着数据的传播,各环节的不确定性不断传递、放大,最终可能极大地影响感知结果的质量。数据起源记录数据的出处及随后所有的演化过程。数据溯源,又称数据起源追踪,是根据记录的数据起源信息,查询数据的源头及产生过程的技术。数据溯源技术的出现使得传感网感知应用能够更好地进行质量跟踪、故障诊断、可信异常原因分析、数据融合的起源追溯等不确定性分析。然而传统的数据溯源方法渐渐无法应对大规模传感网中的海量数据与低延迟的处理要求。
发明内容
本发明的目的在于提供一种低存储开销的运行时递推数据溯源方法,从而能以较低的存储开销完成数据的溯源工作。实现本发明目的的技术解决方案为:一种低存储开销的运行时递推数据溯源方法,步骤如下:
第一步,在数据处理系统部署时,记录其粗粒度起源信息。粗粒度起源信息是指在数据处理系统运行过程中,不会反生变化的起源信息。第二步,在数据处理系统运行过程中,记录其细粒度起源信息。细粒度起源信息是指在数据处理系统运行过程中,会不停变化的起源信息。第三步,在数据处理系统中最后一个处理单元产生输出数据元组时,对该输出数据元组的起源信息进行递推。递推得到数据处理系统中第一个处理单元的触发运行的时间范围,并将该时间范围与输出数据元组一起进行持久存储。第四步,溯源查询时,根据存储在输出数据元组中的第一个处理单元的触发运行的时间范围,推算出数据处理系统输入数据流中所有对待溯源输出数据元组的产生有贡献的输入数据元组,即完成了数据溯源的过程。本发明与现有技术相比,其显著优点:由于不需要对每个处理单元的起源信息进行存储,因此本发明拥有更低的存储开销。下面结合附图对本发明作进一步详细描述。
图1是低存储开销的运行时递推数据溯源方法的方法示意图。
具体实施例方式实施例:
结合图1,低存储开销的运行时递推数据溯源方法的步骤如下:
第一步,在数据处理系统部署时,记录其粗粒度起源信息。需记录的粗粒度起源信息主要包括:
a)每个处理单元的计算窗口类型(基于元组数量计算或基于时间长度计算);
b)每个处理单元的计算窗口大小(若基于元组数量计算,则窗口大小为元组数量;若基于时间长度计算,则窗口大小为时间长度)。第二步,在数据处理系统运行过程中,记录其细粒度起源信息。细粒度起源信息有一部分需要持久记录,另一部分则只需进行临时存储即可。a)需要持久记录的细粒度起源信息包括:
系统输入数据流中所有输入数据元组的值及其进入数据处理系统的时间;
系统输出数据流中所有输出数据元组的值及其产生时间。b)需要临时存储的细粒度起源信息包括:
每个处理单元每次运行的触发时间;
每个处理单元每次运行的处理延迟。第三步,在数据处理系统中最后一个处理单元POMrCAi>5产生输出数据元组时,对该输出数据元组的起源信息进行递推。递推公式如下:
权利要求
1.一种低存储开销的运行时递推数据溯源方法,其特征在于步骤如下: 第一步,在数据处理系统部署时,记录其粗粒度起源信息; 第二步,在数据处理系统运行过程中,记录其细粒度起源信息; 第三步,在数据处理系统中最后一个处理单元产生输出数据元组时,对该输出数据元组的起源信息进行递推,递推得到数据处理系统中第一个处理单元的触发运行的时间范围,将第一个处理单元的触发运行的时间范围与输出数据元组一起进行持久存储; 第四步,溯源查询时,根据存储在输出数据元组中的第一个处理单元的触发运行的时间范围與,推算出数据处理系统输入数据流中所有对待溯源输出数据元组的产生有贡献的输入数据元组。
2.根据权利要求1所述的低存储开销的运行时递推数据溯源方法,其特征在于:在数据处理系统部署时,记录的粗粒度起源信息包括: a)基于元组数量计算的每 个处理单元的计算窗口类型; b)每个处理单元的计算窗口大小,窗口大小为元组数量。
3.根据权利要求1所述的低存储开销的运行时递推数据溯源方法,其特征在于:在数据处理系统部署时,记录的粗粒度起源信息包括: a)基于时间长度计算的每个处理单元的计算窗口类型; b)每个处理单元的计算窗口大小,窗口大小为时间长度。
4.根据权利要求2或3所述的低存储开销的运行时递推数据溯源方法,其特征在于:在数据处理系统运行过程中,需要持久记录的细粒度起源信息包括: a)系统输入数据流中所有输入数据元组的值及其进入数据处理系统的时间; b)系统输出数据流中所有输出数据元组的值及其产生时间; 需要临时存储的细粒度起源信息包括: a)每个处理单元每次运行的触发时间; b)每个处理单元每次运行的处理延迟。
5.根据权利要求3所述的低存储开销的运行时递推数据溯源方法,其特征在于:在数据处理系统中最后一个处理单元产生输出数据元组时,对该输出数据元组的起源信息进行递推,递推公式如下:
6.根据权利要求5所述的低存储开销的运行时递推数据溯源方法,其特征在于:溯源查询时,根据存储在输出数据元组中的PU1的触发运行的时间范围二 ,推算出数据处理系统输入数据流中所有对待溯源输出数据元组的产生有贡献的输入数据元组,推算公式如下:
全文摘要
本发明属于数据溯源领域,特别是一种低存储开销的运行时递推数据溯源方法。将起源信息分为粗粒度起源信息和细粒度起源信息,在数据处理系统中最后一个处理单元产生输出数据元组时,对该输出数据元组的起源信息进行递推,递推得到数据处理系统中第一个处理单元的触发运行的时间范围,并将该时间范围与输出数据元组一起进行持久存储,溯源查询时,根据存储在输出数据元组中的第一个处理单元的触发运行的时间范围,推算出数据处理系统输入数据流中所有对待溯源输出数据元组的产生有贡献的输入数据元组,即完成了数据溯源的过程。本发明由于不需要对每个处理单元的起源信息进行存储,因此拥有更低的存储开销。
文档编号G06F19/00GK103177184SQ201310034449
公开日2013年6月26日 申请日期2013年1月30日 优先权日2013年1月30日
发明者李千目, 谢新, 戚湧, 於东军, 侯君, 朱长林 申请人:南京理工大学常熟研究院有限公司