本说明书涉及计算机,尤其涉及一种数据存储方法、装置、存储介质及电子设备。
背景技术:
1、使用非结构化数据的方法能够对存储量大的数据源进行存储,也可以针对各种类型的数据进行存储,在天文数据、电商、视频监控等场景都有广泛应用,能够满足日益增长的数据存储需求。
2、但由于非结构化数据在实际应用中难以管理,导致在数据库中存储这些非结构数据时,存储效率也往往较低。
3、如何有效地实现对非结构化数据的管理,提高对非结构化数据的存储效率,则是一个亟待解决的问题。
技术实现思路
1、本说明书实施例提供一种数据存储方法、装置、存储介质及电子设备,以部分解决上述现有技术存在的问题。
2、本说明书实施例采用下述技术方案:
3、本说明书提供的一种数据存储方法,包括:
4、针对每个采集周期,获取在该采集周期所采集到的各非结构化数据;
5、针对在该采集周期所采集到每个非结构化数据,根据该非结构化数据对应的元数据,生成该非结构化数据对应的数据标识,其中,若所述元数据发生变化,该非结构化数据对应的数据标识也发生变化;
6、将在该采集周期所采集到每个非结构化数据对应的数据标识与预设的数据标识表中所存储的数据标识进行比对,并将未存储在数据标识表中的数据标识所对应的非结构化数据作为待存储数据;
7、将每个待存储数据对应的数据标识作为结构化数据的标识,对各待存储数据进行存储,并将所述各待存储数据对应的数据标识记录在所述数据标识表中。
8、可选地,针对每个非结构化数据,该结构化数据对应的元数据包括:该非结构化数据的文件路径、该非结构化数据对应的文件名、该非结构化数据的文件大小以及该非结构化数据的最新修改时间。
9、可选地,将每个待存储数据对应的数据标识作为结构化数据的标识,对各待存储数据进行存储,具体包括:
10、将每个待存储数据输入到预设的流式数据处理组件中,以通过所述流式数据处理组件,将各待存储数据转换成预设的数据格式;
11、将转换数据格式后的各待存储数据写入到预设的数据库中进行存储。
12、可选地,将每个待存储数据对应的数据标识作为结构化数据的标识,对各待存储数据进行存储,具体包括:
13、将每个待存储数据输入到预设的流式数据处理组件中,以通过所述流式数据处理组件,分别确定每个待存储数据所对应的线程;
14、通过每个待存储数据所对应的线程,将各待存储数据并行写入到预设的数据库中进行存储。
15、可选地,所述方法还包括:
16、针对在该采集周期所采集到的每个非结构化数据,若确定该非结构化数据对应的数据标识已存储在所述数据标识表中,则将所述数据标识表中记录的该非结构化数据的数据标识所对应的采集时间更新为该采集周期所对应的时间。
17、可选地,所述方法还包括:
18、当确定结束数据采集后,对预设的数据标识表中所存储的数据标识对应的采集时间进行扫描,确定出与数据采集结束时所对应的时间不匹配的采集时间,作为目标时间;
19、确定所述数据标识表中所述目标时间所对应的数据标识,作为待排除标识,并通过所述待排除标识,对数据库中存储的所述待排除标识所对应的数据进行排查。
20、本说明书提供的一种数据存储装置,包括:
21、获取模块,用于针对每个采集周期,获取在该采集周期所采集到的各非结构化数据;
22、生成模块,用于针对在该采集周期所采集到每个非结构化数据,根据该非结构化数据对应的元数据,生成该非结构化数据对应的数据标识,其中,若所述元数据发生变化,该非结构化数据对应的数据标识也发生变化;
23、确定模块,用于将在该采集周期所采集到每个非结构化数据对应的数据标识与预设的数据标识表中所存储的数据标识进行比对,并将未存储在数据标识表中的数据标识所对应的非结构化数据作为待存储数据;
24、存储模块,用于将每个待存储数据对应的数据标识作为结构化数据的标识,对各待存储数据进行存储,并将所述各待存储数据对应的数据标识记录在所述数据标识表中。
25、可选地,所述存储模块还用于,当确定结束数据采集后,对预设的数据标识表中所存储的数据标识对应的采集时间进行扫描,确定出与数据采集结束时所对应的时间不匹配的采集时间,作为目标时间;确定所述数据标识表中所述目标时间所对应的数据标识,作为待排除标识,并通过所述待排除标识,对数据库中存储的所述待排除标识所对应的数据进行排查。
26、本说明书提供的一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种数据存储方法。
27、本说明书提供的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的一种数据存储方法。
28、本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
29、本说明书实施例中通过对目标数据源进行周期性数据采集,来得到目标数据源中的非结构化数据,并将根据每个非结构化数据对应的元数据生成该非结构化数据对应的数据标识,进而,使用每个非结构化数据对应的数据标识与预设的数据标识表中所存储的数据标识进行比对,以得到待存储数据,同时对预设的数据标识表进行实时更新,并将每个待存储数据对应的数据标识作为结构化数据的标识,对各待存储数据进行存储。
30、在此方法中,通过使用基于非结构化数据对应的元数据所生成的唯一数据标识作为判断依据,来确定待存储的非结构数据的方式,可以在筛选待存储的非结构化数据时有效地筛选出未被存储的非结构化数据,并且,在存储非结构化数据的过程中,可以基于生成的数据标识,按照结构化数据的方式对非结构化数据进行存储,这也大大提高了非结构化数据的存储效率,也进一步地提高了后续查询非结构化数据的效率。
1.一种数据存储方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,针对每个非结构化数据,该结构化数据对应的元数据包括:该非结构化数据的文件路径、该非结构化数据对应的文件名、该非结构化数据的文件大小以及该非结构化数据的最新修改时间。
3.如权利要求1所述的方法,其特征在于,将每个待存储数据对应的数据标识作为结构化数据的标识,对各待存储数据进行存储,具体包括:
4.如权利要求1或3所述的方法,其特征在于,将每个待存储数据对应的数据标识作为结构化数据的标识,对各待存储数据进行存储,具体包括:
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
7.一种数据存储装置,其特征在于,包括:
8.如权利要求7所述的装置,其特征在于,所述存储模块还用于,当确定结束数据采集后,对预设的数据标识表中所存储的数据标识对应的采集时间进行扫描,确定出与数据采集结束时所对应的时间不匹配的采集时间,作为目标时间;确定所述数据标识表中所述目标时间所对应的数据标识,作为待排除标识,并通过所述待排除标识,对数据库中存储的所述待排除标识所对应的数据进行排查。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-6任一项所述的方法。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1-6任一项所述的方法。