技术特征:
技术总结
本发明公开了一种基于大数据模型平台下的细粒度数据溯源方法,针对大数据模型平台构建出一种细粒度数据溯源方法,用于解决大数据平台下细粒度溯源数据的依赖区分问题。该方法包括以下步骤:S1:模型工作流分析,在Hadoop平台下对Oozie引擎所构成的模型工作流的分析;S2:细粒度溯源定义,以一种递归的形式表示工作流的细粒度数据溯源;S3:溯源信息捕获,在模型执行过程中,动态地产生并获取溯源信息;S4:溯源标记存储,对捕获的溯源信息以关联形式在HDFS上存储;S5:溯源追踪,用来追溯产生结果数据文件中的细粒度数据项的来源输入数据项。本发明适用性强,为溯源文件建立索引,减少了IO操作,提高了查询速度。
技术研发人员:林劼;杜亚伟;刘铸;高泽仁;段炜煜
受保护的技术使用者:电子科技大学
技术研发日:2017.05.26
技术公布日:2017.10.10