本发明涉及数据整理,特别涉及一种数据整理方法、装置、介质及设备。
背景技术:
1、数据整理是根据统计研究的任务和要求,对统计调查搜集到的大量原始资料进行审核、分组或汇总等,使之条理化、系统化,得出能够反映总体综合特征的统计资料的工作过程,它是数据统计分析的基础,因此数据整理至关重要。
2、现有技术中的数据整理方法通常是通过一对一固定rule值整理的方式来实现数据的整理,需要按照堆栈方式依次处理每个数据,逐步完成每个数据的整理操作,导致在较多、较复杂数据进行整理时,无法快速精准地进行数据分配整理。
技术实现思路
1、有鉴于此,本发明提供了一种数据整理方法、装置、介质及设备,主要目的在于解决目前的数据整理方法针对较多、较复杂数据进行整理时,无法快速精准地进行数据分配整理的问题。
2、根据本技术的一个方面,提供了一种数据整理方法,该方法包括:
3、获取原始数据集及所述原始数据集中的每个数据元素对应的数据整理需求参数;
4、对每个数据整理需求参数进行需求导向转换,得到与每个所述数据元素对应的数据导向标识,其中,所述数据导向标识中具有类别标识;
5、将每个所述数据元素对应的数据导向标识输入至所述原始数据集中,得到待整理数据集,根据所述数据导向标识中的类别标识对所述待整理数据集进行数据整理操作,得到数据整理结果。
6、可选地,所述对每个数据整理需求参数进行需求导向转换,得到与每个所述数据元素对应的数据导向标识,包括:
7、将每个所述数据元素对应的数据整理需求参数与预设的需求导向映射表进行数据匹配,得到每个所述数据整理需求参数对应的需求导向元素;
8、基于导向变化因子和每个所述数据整理需求参数对应的需求导向元素,得到与每个数据整理需求参数对应的数据元素所对应的数据导向标识。
9、可选地,所述将每个所述数据元素对应的数据导向标识输入至所述原始数据集中,得到待整理数据集,包括:
10、在所述原始数据集中添加每个数据元素对应的数据导向标识,得到待整理数据集。
11、可选地,所述类别标识包括主类别标识和从类别标识,所述根据所述数据导向标识中的类别标识对所述待整理数据集进行数据整理操作,得到数据整理结果,包括:
12、根据每个所述数据元素对应的主类别标识,将具有相同主类别标识的多个数据元素作为一个导向标识集,得到多个导向标识集;
13、根据每个数据元素对应的主类别标识,获取所述每个数据元素的特征数据;
14、根据每个数据元素对应的从类别标识和特征数据,将每个所述导向标识集进行分类,得到多个数据分类子集,将所述多个数据分类子集进行合并,得到数据整理结果。
15、可选地,所述主类别标识包括按文件类型分类标识、按应用领域分类标识、按数据大小分类标识和按数据创建时间分类标识,所述从类别标识包括数据大小阈值和时间阈值。
16、可选地,所述根据每个数据元素对应的主类别标识,获取所述每个数据元素的特征数据之前,所述数据整理方法还包括:
17、将所述原始数据集中的每个数据元素对应的数据内容输入至预设的特征提取模型中,得到每个数据元素对应的特征数据,所述特征数据包括:文件类型、数据应用领域、数据大小和数据创建时间。
18、可选地,所述对每个数据整理需求参数进行需求导向转换,得到与每个所述数据元素对应的数据导向标识之前,所述数据整理方法还包括:
19、统计已分类的历史数据集中每个历史数据子集的分类类别;
20、根据每个历史数据子集的分类类别和每个所述数据子集中每个数据元素对应的特征数据,统计每个所述分类类别对应的特征阈值;
21、基于所述分类类别及对应的特征阈值,生成需求导向元素,基于所述需求导向元素,生成与所述需求导向因素对应的数据整理需求参数;
22、基于所述需求导向因素及其对应的数据整理需求参数,生成预设的需求导向映射表。
23、根据本技术的另一个方面,提供了一种数据整理装置,包括:
24、数据获取模块,用于获取原始数据集及所述原始数据集中的每个数据元素对应的数据整理需求参数;
25、数据导向标识获取模块,用于对每个数据整理需求参数进行需求导向转换,得到与每个所述数据元素对应的数据导向标识,其中,所述数据导向标识中具有类别标识;
26、数据整理模块,用于将每个所述数据元素对应的数据导向标识输入至所述原始数据集中,得到待整理数据集,根据所述数据导向标识中的类别标识对所述待整理数据集进行数据整理操作,得到数据整理结果。
27、可选地,所述数据导向标识获取模块还用于:
28、将每个所述数据元素对应的数据整理需求参数与预设的需求导向映射表进行数据匹配,得到每个所述数据整理需求参数对应的需求导向元素;
29、基于导向变化因子和每个所述数据整理需求参数对应的需求导向元素,得到与每个数据整理需求参数对应的数据元素所对应的数据导向标识。
30、可选地,所述数据整理模块还用于包括:
31、在所述原始数据集中添加每个数据元素对应的数据导向标识,得到待整理数据集。
32、可选地,所述数据整理模块还用于包括:
33、根据每个所述数据元素对应的主类别标识,将具有相同主类别标识的多个数据元素作为一个导向标识集,得到多个导向标识集;
34、根据每个数据元素对应的主类别标识,获取所述每个数据元素的特征数据;
35、根据每个数据元素对应的从类别标识和特征数据,将每个所述导向标识集进行分类,得到多个数据分类子集,将所述多个数据分类子集进行合并,得到数据整理结果。
36、可选地,所述主类别标识包括按文件类型分类标识、按应用领域分类标识、按数据大小分类标识和按数据创建时间分类标识,所述从类别标识包括数据大小阈值和时间阈值。
37、可选地,所述数据整理装置还包括:
38、特征数据获取模块,用于将所述原始数据集中的每个数据元素对应的数据内容输入至预设的特征提取模型中,得到每个数据元素对应的特征数据,所述特征数据包括:文件类型、数据应用领域、数据大小和数据创建时间。
39、可选地,所述数据整理装置还包括:
40、需求导向映射表生成模块,用于统计已分类的历史数据集中每个历史数据子集的分类类别,根据每个历史数据子集的分类类别和每个所述数据子集中每个数据元素对应的特征数据,统计每个所述分类类别对应的特征阈值,基于所述分类类别及对应的特征阈值,生成需求导向元素,基于所述需求导向元素,生成与所述需求导向因素对应的数据整理需求参数,基于所述需求导向因素及其对应的数据整理需求参数,生成预设的需求导向映射表。
41、根据本技术的另一个方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行上述数据整理方法对应的操作。
42、根据本技术的另一个方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
43、所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述数据整理方法对应的操作。
44、借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
45、本技术提供的一种数据整理方法、装置、设备及介质,将原始数据集中每个数据元素对应的数据整理需求参数,转换成能表征分类类别的数据导向标识,根据数据导向标识,对数据集进行分类整理,通过数据导向标识,避免了数据堆栈或者数据逐排的工作量,提升了数据整理速度,也保证数据整理的准确度。
46、上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。