本发明涉及数据采集领域,具体提供一种数据采集方法及系统。
背景技术:
数据,作为生产资料已成为社会共识。数据的集中采集、开发和利用能够有效形成产业聚集效应,带来巨大的经济价值和社会效应。近年来由于企业、机构对各种数据的需求越来越大,如何将大量的数据转换成有用的信息,为人民生活和社会发展的各方面提供正确的决策,传统的数据库系统已经无法满足需要。
技术实现要素:
本发明是针对上述现有技术的不足,提供一种实用性强的数据采集方法。
本发明进一步的技术任务是提供一种设计合理,安全适用的数据采集系统。
本发明解决其技术问题所采用的技术方案是:
一种数据采集方法,具有以下步骤:
s1、制定需求;
s2、生成采集脚本;
s3、脚本验证;
s4、脚本自动化生成工具优化;
s5、脚本上线;
s6、数据巡检及数据质量核查。
进一步的,在步骤s1中,根据数据需求方对数据的数据需求,对数据进行分析,编写数据字典,汇总数据库信息。
进一步的,在步骤s2中,将要待采集的需求数据字典表及数据库信息输入数据采集脚本自动化生成工具,点击脚本生成按钮,生成informatica三层采集脚本。
进一步的,在步骤s3中,包括:
s301、在对应的数据库中创建验证表;
s302、将生成的informatica三层采集脚本按采集流程顺序一、二、三层导入到informatica中;
s303、点击运行一、二、三层采集程序;
s304、运行完毕,查看数据库中表数据是否准确采集到表中,若数据能正常采集到表中,则表明脚本正确;
若数据未能准确的采集到表中,则表明脚本有误。
进一步的,在步骤s04中,对采集脚本自动化生成工具的使用和采集开发人员对采集脚本的二次开发。
进一步的,在步骤s5中,在正式环境中,将验证无误的数据采集脚本上线,启动采集程序。
一种数据采集系统,包括制定需求模块、生成采集脚本模块、脚本验证模块、优化模块和脚本上线模块;
所述制定需求模块用于汇总数据库信息,供生成采集脚本模块使用,所述生成脚本模块用于将待采集的需求数据字典表及数据库信息输入数据采集脚本自动化工具,生成informatica三层采集脚本,供脚本验证模块进行验证,优化模块用于对采集脚本的二次开发,脚本上线模块用于将验证无误的数据采集脚本上线,启动采集程序。
进一步的,所述脚本验证模块包括:
1)在对应的数据库中创建验证表;
2)将生成的informatica三层采集脚本按采集流程顺序一、二、三层导入到informatica中;
3)点击运行一、二、三层采集程序;
4)运行完毕,查看数据库中表数据是否准确采集到表中,若数据能正常采集到表中,则表明脚本正确;若数据未能准确采集到表中则表明脚本有误。
本发明的一种数据采集方法及系统和现有技术相比,具有以下突出的有益效果:
(1)可以解决数据分散问题,数据采集系统可以解决因为数据源和系统不同造成的数据分散问题,从而根据需要将需要的数据集中在一起,提高数据的利用效率跟数据获取便利性。
(2)通过一系列的转换来实现将数据从业务模型到分析模型,通过内建的库函数、自定义脚本或其他的扩展方式,实现了各种复杂的转换,并且支持调试环境,查看数据转换的状态。然后对数据进行格式转换、数据类型转换、数据汇总计算和数据拼接,使目标表中存储着清洁一直、全面和面向决策的数据,可以解决脏数据的问题。
(3)通过本数据采集系统,利用informatica三层采集技术与数据采集脚本自动化生成工具,大大提升了数据采集的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是一种数据采集方法的流程示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
如图1所示,本实施例中的一种数据采集方法,具有以下步骤:
s1、制定需求:根据数据需求方对数据的数据需要,对数据进行分析,编写数据字典,汇总数据库信息。
s2、生成采集脚本:将要待采集的需求数据字典表及数据库信息等配置信息输入数据采集脚本自动化生成工具,点击脚本生成按钮,生成informatica三层采集脚本。
s3、脚本验证:包括:
s301、在对应的数据库中创建验证表;
s302、将生成的informatica三层采集脚本按采集流程顺序一、二、三层导入到informatica中;
s303、点击运行一、二、三层采集程序;
s304、运行完毕,查看数据库中表数据是否准确采集到表中,若数据能正常采集到表中,则表明脚本正确;
若数据未能准确的采集到表中,则表明脚本有误,查找错误原因,解决问题。
s4、脚本自动化生成工具优化:对采集脚本自动化生成工具的使用和采集开发人员对采集脚本的二次开发,发现了一些需要持续优化和改进的问题,包括程序bug、运行效率、脚本质量等。同时由于业务场景变化,对采集脚本自动化生成工具提出了新的功能扩展和升级需求,需要开发新的功能模块,以满足多样化的数据采集需求。
s5、脚本上线:在正式环境中,将验证无误的数据采集脚本上线,启动采集程序。
s6、数据巡检及数据质量核查:数据巡检及数据质量核查,保证数据采集正常准确运行。
上述方法的运行基于一种数据采集系统,包括制定需求模块、生成采集脚本模块、脚本验证模块、优化模块和脚本上线模块。
制定需求模块用于汇总数据库信息,供生成采集脚本模块使用,生成脚本模块用于将待采集的需求数据字典表及数据库信息输入数据采集脚本自动化工具,生成informatica三层采集脚本,供脚本验证模块进行验证,优化模块用于对采集脚本的二次开发,脚本上线模块用于将验证无误的数据采集脚本上线,启动采集程序。
其中,脚本验证模块包括:
1)在对应的数据库中创建验证表;
2)将生成的informatica三层采集脚本按采集流程顺序一、二、三层导入到informatica中;
3)点击运行一、二、三层采集程序;
4)运行完毕,查看数据库中表数据是否准确采集到表中,若数据能正常采集到表中,则表明脚本正确;若数据未能准确采集到表中则表明脚本有误。
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明的一种数据采集方法及系统权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。