本技术涉及数据处理,尤其涉及一种资讯数据的数据处理方法、装置、计算机设备及计算机可读存储介质。
背景技术:
1、金融资讯数据在证券行业有着广泛的应用,但金融资讯数据使用的过程当中也面临着诸多挑战。在金融市场领域,信息就是一切,寻找机会、获取收益、规避风险,无一不依赖于有效、全面而精确的资讯信息。虽然各类资讯服务商会为客户提供金融市场资讯整合和推送服务,但目前金融市场资讯通常由冗长、专业且晦涩的专业语言写成,阅读需要耗费大量的精力,客户难以准确、快速的把握金融市场资讯中的关键信息。现有的技术方案不能很好地解决金融资讯外部数据处理规范不统一的问题。
技术实现思路
1、本技术提供了一种资讯数据的数据处理方法、装置、计算机设备及计算机可读存储介质,以解决现有数据处理方法数据规范不统一的技术问题。
2、第一方面,本技术实施方式提供了一种资讯数据的数据处理方法,所述数据分析方法包括:
3、获取资讯数据源;
4、利用预设编码规则对所述资讯数据源进行统一编码得到整合资讯数据源,并将所述整合资讯数据源存储在元数据库中;
5、利用所述元数据库对etl数据处理初始模型训练得到etl数据处理模型;
6、利用所述etl数据处理模型中的kettle执行器访问所述元数据库并对所述整合资讯数据源进行数据清洗及转换,得到目标资讯数据;
7、将所述目标资讯数据存储在数据存储模块中。
8、进一步地,所述资讯数据源包括结构化数据源、非结构化数据源及半结构化数据源。
9、进一步地,所述利用预设编码规则对所述资讯数据源进行统一编码得到整合资讯数据源,包括:
10、利用预设编码规则对所述资讯数据源进行统一编码得到整合资讯数据源,所述编码规则包括公司编码规则、行业编码规则、证券编码规则及板块编码规则。
11、进一步地,所述并将所述整合资讯数据源存储在元数据库中,包括:
12、将所述整合资讯数据源存储在元数据库中,所述元数据库包括数据源配置模块、数据字典模块和数据血缘管理模块。
13、进一步地,所述利用etl数据处理模型中的kettle执行器访问所述元数据库并对所述整合资讯数据源进行数据清洗及转换,得到目标资讯数据之前,还包括:
14、基于quartz方法建立集群调度中心模块并设置负载均衡机制;
15、根据所述负载均衡机制对多个所述kettle执行器进行评分,得到多个kettle执行器分数信息;
16、利用所述集群调度中心模块读取多个所述etl数据处理模型的定时任务信息,根据所述定时任务信息和所述kettle执行器分数信息生成调度任务以及待调度kettle执行器;
17、向所述待调度kettle执行器发送所述调度任务。
18、进一步地,所述将所述目标资讯数据存储在数据存储模块中之前,还包括:
19、利用数据校验模型及定时执行策略对所述目标资讯数据进行字段校验、记录行校验及三方校验,定期得到校验执行结果,根据所述校验执行结果生成校验不通过推送信息;
20、所述校验执行结果包括校验不通过数据量信息、通过率信息及异常数据明细信息。
21、进一步地,所述将所述目标资讯数据存储在数据存储模块中,还包括:
22、按照预设命名规范将所述目标资讯数据分成多个目标资讯模块数据,将所述多个目标资讯模块数据存储在数据存储模块中,所述数据存储模块包括存储模型设计机制以及数据分层设计机制。
23、第二方面,本技术还提供了一种资讯数据的数据处理装置,其特征在于,所述资讯数据的数据处理装置包括:
24、数据获取模块,用于获取资讯数据源;
25、数据编码模块,用于利用预设编码规则对所述资讯数据源进行统一编码得到整合资讯数据源,并将所述整合资讯数据源存储在元数据库中;
26、模型训练模块,用于利用所述元数据库对etl数据处理初始模型训练得到etl数据处理模型;
27、数据处理模块,用于利用所述etl数据处理模型中的kettle执行器访问所述元数据库并对所述整合资讯数据源进行数据清洗及转换,得到目标资讯数据;
28、数据存储模块,用于将所述目标资讯数据存储在数据存储模块中。
29、进一步地,所述数据获取模块包括:
30、数据分类单元,用于获取资讯数据源,所述资讯数据源包括结构化数据源、非结构化数据源及半结构化数据源。
31、进一步地,所述数据编码模块包括:
32、编码规则单元,用于利用预设编码规则对所述资讯数据源进行统一编码得到整合资讯数据源,所述编码规则包括公司编码规则、行业编码规则、证券编码规则及板块编码规则。
33、元数据库单元,用于将所述整合资讯数据源存储在元数据库中,所述元数据库包括数据源配置模块、数据字典模块和数据血缘管理模块。
34、进一步地,数据处理模块包括:
35、集中调度单元,用于基于quartz方法建立集群调度中心模块并设置负载均衡机制;根据所述负载均衡机制对多个所述kettle执行器进行评分,得到多个kettle执行器分数信息;利用所述集群调度中心模块读取多个所述etl数据处理模型的定时任务信息,根据所述定时任务信息和所述kettle执行器分数信息生成调度任务以及待调度kettle执行器;向所述待调度kettle执行器发送所述调度任务。
36、进一步地,数据存储模块包括:
37、数据校验单元,用于利用数据校验模型及定时执行策略对所述目标资讯数据进行字段校验、记录行校验及三方校验,定期得到校验执行结果,根据所述校验执行结果生成校验不通过推送信息;所述校验执行结果包括校验不通过数据量信息、通过率信息及异常数据明细信息。
38、分类存储单元,用于按照预设命名规范将所述目标资讯数据分成多个目标资讯模块数据,将所述多个目标资讯模块数据存储在数据存储模块中,所述数据存储模块包括存储模型设计机制以及数据分层设计机制。
39、第三方面,本技术还提供了一种计算机设备,所述计算机设备包括存储器和处理器;
40、所述存储器,用于存储计算机程序;
41、所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上所述的资讯数据的数据处理方法。
42、第四方面,本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上所述的资讯数据的数据处理方法。
43、相比于现有技术,本技术实施方式提供的一种资讯数据的数据处理方法,通过获取资讯数据源;利用预设编码规则对所述资讯数据源进行统一编码得到整合资讯数据源,并将所述整合资讯数据源存储在元数据库中;利用所述元数据库对etl数据处理初始模型训练得到etl数据处理模型;利用所述etl数据处理模型中的kettle执行器访问所述元数据库并对所述整合资讯数据源进行数据清洗及转换,得到目标资讯数据;将所述目标资讯数据存储在数据存储模块中。通过上述方式,本发明利用统一的etl数据处理模型对多源异构的资讯数据源进行规范,得到规范的目标资讯数据,解决了资讯数据处理中存在的规范不统一的问题。
44、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。