一种支持数据重现的运行时递推数据溯源方法

文档序号:6398791阅读:250来源:国知局
专利名称:一种支持数据重现的运行时递推数据溯源方法
技术领域
本发明属于数据溯源领域,更具体地涉及一种支持数据重现的运行时递推数据溯源方法。
背景技术
近年来,基于传感网的感知应用大量出现,并被广泛地应用于工业控制、医疗护理、军事监测、智能农业和危险源监测等领域。然而随着传感网技术的发展,传感网的规模正变得越来越大。在传感网数据的整个感、传、知、控的演化过程中,每个阶段的数据处理都具有一定的不确定性,随着数据的传播,各环节的不确定性不断传递、放大,最终可能极大地影响感知结果的质量。数据起源记录数据的出处及随后所有的演化过程。数据溯源,又称数据起源追踪,是根据记录的数据起源信息,查询数据的源头及产生过程的技术。数据溯源技术的出现使得传感网感知应用能够更好地进行质量跟踪、故障诊断、可信异常原因分析、数据融合的起源追溯等不确定性分析。然而传统的数据溯源方法渐渐无法应对大规模传感网中的海量数据与低延迟的处理要求,而拥有较低储存开销的运行时递推数据溯源方法只能根据输出数据元组溯源至输入数据元组,却无法完整的重现输出数据元组产生的过程。

发明内容
本发明的目的在于提供一种支持数据重现的运行时递推数据溯源方法,从而能以较低的存储开销完成数据的溯源工作,并能完整地重现数据的产生过程。实现本发明目的的技术解决方案为:一种支持数据重现的运行时递推数据溯源方法,步骤如下:
第一步,在数据处理系统部署时,记录其粗粒度起源信息。粗粒度起源信息是指在数据处理系统运行过程中,不会反生变化的起源信息。第二步,在数据处理系统运行过程中,记录其细粒度起源信息。细粒度起源信息是指在数据处理系统运行过程中,会不停变化的起源信息。第三步,在数据处理系统中最后一个处理单元产生输出数据元组时,对该输出数据元组的起源信息进行递推。递推得到数据处理系统中第一个处理单元的触发运行的时间范围及每个处理单元在首次运行前的状态快照,状态快照中记录处理单元在特定时刻的内部状态,将这些起源信息与输出数据元组一起进行持久存储。第四步,溯源查询时,根据存储在输出数据元组中的第一个处理单元的触发运行的时间范围,推算出数据处理系统输入数据流中所有对待溯源输出数据元组的产生有贡献的输入数据元组,即完成了数据溯源的过程。第五步,数据重现时,找到数据库中存储的每个处理单元的初始状态快照,将数据处理系统中每个处理单元恢复至状态快照时,并将第四步溯源查询所得的输入数据元组按原顺序及时间间隔输入数据处理系统,即可重现输出数据元组的产生过程。
本发明与现有技术相比,其显著优点:由于不需要对每个处理单元的起源信息进行存储,因此拥有更低的存储开销;在递推过程中每个处理单元的初始状态快照,能够在数据处理系统上进行完整数据重现。下面结合附图对本发明作进一步详细描述。


图1是支持数据重现的运行时递推数据溯源方法的方法示意图。图2是支持数据重现的运行时递推数据溯源方法的状态快照保存与重现示意图。
具体实施例方式实施例:
结合图1与图2,支持数据重现的运行时递推数据溯源方法的步骤如下:
第一步,在数据处理系统部署时,记录其粗粒度起源信息。粗粒度起源信息是指在数据处理系统运行过程中,不会反生变化的起源信息。需记录的粗粒度起源信息主要包括每个处理单元的计算窗口类型(基于元组数量计算或基于时间长度计算)
每个处理单元的计算窗口大小(若基于元组数量计算,则窗口大小为元组数量;若基于时间长度计算,则窗口大小为时间长度)。第二步,在数据处理系统运行过程中,记录其细粒度起源信息。细粒度起源信息是指在数据处理系统运行过程中,会不停变化的起 源信息。细粒度起源信息有一部分需要持久记录,另一部分则只需进行临时存储即可。a)系统输入数据流中所有输入数据元组的值及其进入数据处理系统的时间;
b)系统输出数据流中所有输出数据元组的值及其产生时间;
c)系统在产生输出数据元组过程中,每个处理单元首次运行前的状态快照。需要临时存储的细粒度起源信息包括:
a)每个处理单元每次运行前的状态快照;
b)每个处理单元每次运行的触发时间;
c)每个处理单元每次运行的处理延迟。第三步,在数据处理系统中最后一个处理单元产生输出数据元组 ’ fow)时,对该输出数据元组的起源信息进行递推。递推公式如下:
(‘W W (Γ: O K111:> D
其中
to f:: = 111 ill (IS a : — ~ to'n— tpdm: JW ( 3 : — Oi'S' m ))
i;::m - Γ u= 111 3X (IS Tin (/5111 u — trdnu ~ 1 '/ .11 ~ Ir ηιι ).^/5 Jm ( f 3m u ~ ρ -1 u. Cl Γ S r)) 在上述公式中,fm/为处理单元-Pt.;CU的第一个输出数据元组的产生时间,
为该输出数据元组产生时的处理延迟。为处理单元的最后一个输出数据元组的产生时间,为该输出数据元组产生时的处理延迟。Wfc为Prw的计算窗口的时间长度,CWSpA Pr二的计算窗口中元组的数量。
权利要求
1.一种支持数据重现的运行时递推数据溯源方法,其特征在于步骤如下: 第一步,在数据处理系统部署时,记录其粗粒度起源信息; 第二步,在数据处理系统运行过程中,记录其细粒度起源信息; 第三步,在数据处理系统中最后一个处理单元产生输出数据元组时,对该输出数据元组的起源信息进行递推;递推得到数据处理系统中第一个处理单元的触发运行的时间范围及每个处理单元在首次运行前的状态快照,状态快照中记录处理单元在特定时刻的内部状态,将这些起源信息与输出数据元组一起进行持久存储; 第四步,溯源查询时,根据存储在输出数据元组中的第一个处理单元的触发运行的时间范围,推算出数据处理系统输入数据流中所有对待溯源输出数据元组的产生有贡献的输入数据元组; 第五步,数据重现时,找到数据库中存储的每个处理单元的初始状态快照,将数据处理系统中每个处理单元恢复至状态快照时,并将第四步溯源查询所得的输入数据元组按原顺序及时间间隔输入数据处理系统,重现输出数据元组的产生过程。
2.根据权利要求1所述的低存储开销的运行时递推数据溯源方法,其特征在于:在数据处理系统部署时,记录的粗粒度起源信息包括: a)基于元组数量计算的每个处理单元的计算窗口类型; b)每个处理单元的计算窗口大小,窗口大小为元组数量。
3.根据权利要求1所述 的低存储开销的运行时递推数据溯源方法,其特征在于:在数据处理系统部署时,记录的粗粒度起源信息包括: a)基于时间长度计算的每个处理单元的计算窗口类型; b)每个处理单元的计算窗口大小,窗口大小为时间长度。
4.根据权利要求1所述的支持数据重现的运行时递推数据溯源方法,其特征在于:在数据处理系统运行过程中,需要持久记录的细粒度起源信息包括: a)系统输入数据流中所有输入数据元组的值及其进入数据处理系统的时间; b)系统输出数据流中所有输出数据元组的值及其产生时间; c)系统在产生输出数据元组过程中,每个处理单元首次运行前的状态快照。
需要临时存储的细粒度起源信息包括: a)每个处理单元每次运行前的状态快照; b)每个处理单元每次运行的触发时间; c)每个处理单元每次运行的处理延迟。
5.根据权利要求2所述的支持数据重现的运行时递推数据溯源方法,其特征在于:在数据处理系统中最后一个处理单元产生输出数据元组时,对该输出数据元组的起源信息进行递推。递推公式如下:W) 二 (W:.)( |1 > I) 其中 η;.1.111Ul(IST(ml —*— Tr-aml)^/5Tm( ; — TrdmL CU' S、))him.1U 3X(ISTm(f-^mu 一 ρ ηu — Ol7u —.*""!f- η))O
6.根据权利要求1所述的支持数据重现的运行时递推数据溯源方法,其特征在于:溯源查询时,根据存储在输出数据元组中的PUl的触发运行的时间范围@/, L-0,推算出数据处理系统输入数据流中所有对待溯源输出数据元组的产生有贡献的输入数据元组,推算公式如下
全文摘要
本发明属于数据溯源领域,公开了一种支持数据重现的运行时递推数据溯源方法。将起源信息分为粗粒度起源信息和细粒度起源信息,在数据处理系统中最后一个处理单元产生输出数据元组时,对该输出数据元组的起源信息进行递推,递推得到数据处理系统中第一个处理单元的触发运行的时间范围及每个处理单元在首次运行前的状态快照;数据重现时,找到数据库中存储的每个处理单元的初始状态快照,并将查询所得的输入数据元组按原顺序及时间间隔输入数据处理系统,重现输出数据元组的产生过程。由于不需要对每个处理单元的起源信息进行存储,因此拥有更低的存储开销;在递推过程中每个处理单元的初始状态快照,能够在数据处理系统上进行完整数据重现。
文档编号G06F19/00GK103164614SQ20131003443
公开日2013年6月19日 申请日期2013年1月30日 优先权日2013年1月30日
发明者李千目, 谢新, 戚湧, 於东军, 侯君, 朱长林 申请人:南京理工大学常熟研究院有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1