数据表字段关系识别方法、装置、电子设备及存储介质与流程

文档序号:28745201发布日期:2022-02-07 23:11阅读:104来源:国知局
数据表字段关系识别方法、装置、电子设备及存储介质与流程

1.本发明涉及数据处理技术领域,尤其涉及数据表字段关系识别方法、装置、电子设备及存储介质。


背景技术:

2.在数据标准化工作中,随着新的数据表不断接入到数据库中,同时随着大数据技术飞速发展,数据的准确性以及数据表的字段关系识别的质量对数据所能产出的价值至关重要。
3.数据表是由表中的字段和各个字段所对应单元格的数据组成的。其中,数据表中的字段大致分为两类,维度字段和度量字段。维度字段是指“分类字段”,用于描述单元格中数据的属性是什么的字段;度量字段是用于描述数量多少的字段。为了对数据表中的数据准确的分析与判断,需要确认各个维度字段之间的关系。
4.在现有技术中,维度字段与维度字段之间的关系的确定往往需要在构建数据透视表之后才能确定,需要把相应的两个维度字段拖拽到行和列后进行查看,才能确定两者之间的关系。这种确认方式比较复杂,处理流程繁琐,降低数据表处理的效率,导致用户的体验效果较差。


技术实现要素:

5.基于现有技术中存在的问题,本发明提出一种数据表字段关系识别方法、装置、电子设备及存储介质,实现了不需要数据透视表就可以确定出各个维度字段之间的关系,提高了数据表字段关系识别的准确率和效率,为后续数据表校对、字段推荐提供基础,具有提高数据表处理效率和提升用户体验的优点。
6.第一方面,本发明提供一种数据表字段关系识别方法,包括:
7.确定待处理数据表中的各个字段的类型,根据所述字段的类型确定维度字段以及所述维度字段所对应的单元格集合;其中,所述维度字段是用于描述单元格中数据所代表含义的字段;
8.获取各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息;
9.根据各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息,确定各个维度字段之间的关系。
10.进一步,根据本发明提供的数据表字段关系识别方法,所述获取各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息,包括:
11.获取各个维度字段所对应的单元格集合的描述信息、任意两个单元格集合之间的关系信息、任意两个单元格集合构建的交叉表的描述特征和相关性特征以及根据任意两个维度字段的类型确定维度字段所对应单元格集合的枚举值类型;
12.相应的,所述根据各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息,确定各个维度字段之间的关系,包括:
13.根据各个维度字段所对应的单元格集合的描述信息、任意两个单元格集合之间的关系信息、任意两个单元格集合构建的交叉表的描述特征和相关性特征以及根据任意两个维度字段的类型确定维度字段所对应单元格集合的枚举值类型,确定各个维度字段之间的关系。
14.进一步,根据本发明提供的数据表字段关系识别方法,所述获取各个维度字段所对应的单元格集合的描述信息、任意两个单元格集合之间的关系信息、任意两个单元格集合构建的交叉表的描述特征和相关性特征以及根据任意两个维度字段的类型确定所对应单元格集合的枚举值类型,包括:
15.获取第一单元格集合的描述信息、第二单元格集合的描述信息以及第一单元格集合与第二单元格集合之间的关系信息;其中,所述第一单元格集合为第一维度字段所对应的单元格集合,所述第二单元格集合为第二维度字段所对应的单元格集合;所述第一维度字段为所述待处理数据表中的任意一个维度字段,所述第二维度字段为所述待处理数据表中不同于所述第一维度字段的任意一个维度字段;
16.构建所述第一单元格集合与所述第二单元格集合的交叉表,获取所述交叉表的描述特征与相关性特征;
17.根据所述第一维度字段的类型与所述第二维度字段的类型,确定所述第一单元格集合与所述第二单元格集合的枚举值类型。
18.进一步,根据本发明提供的数据表字段关系识别方法,所述根据各个维度字段所对应的单元格集合的描述信息、任意两个单元格集合之间的关系信息、任意两个单元格集合构建的交叉表的描述特征和相关性特征以及根据任意两个维度字段的类型确定所对应单元格集合的枚举值类型,确定各个维度字段之间的关系信息,包括:
19.将所述第一单元格集合的描述信息、第二单元格集合的描述信息、第一单元格集合与第二单元格集合之间的关系信息、交叉表的描述特征、交叉表的相关性特征以及第一单元格集合与第二单元格集合的枚举值类型输入预先训练的第一分类模型,得到所述第一维度字段与所述第二维度字段之间是否具有包含关系的第一概率值;
20.将所述第一单元格集合的描述信息、第二单元格集合的描述信息、第一单元格集合与第二单元格集合之间的关系信息、交叉表的描述特征、交叉表的相关性特征以及第一单元格集合与第二单元格集合的枚举值类型输入预先训练的第二分类模型,得到所述第一维度字段与所述第二维度字段在非包含关系下是否建议组合的第二概率值;
21.根据所述第一概率值和所述第二概率值确定所述第一维度字段与所述第二维度字段之间的关系信息;
22.其中,所述第一分类模型是基于第一样本单元格集合的描述信息、第二样本单元格集合的描述信息、第一样本单元格集合与第二样本单元格集合之间的关系信息、第一样本单元格集合与第二样本单元格集合所构成的交叉表的描述特征、第一样本单元格集合与第二样本单元格集合所构成的交叉表的相关性特征、第一样本单元格集合与第二样本单元格集合的枚举值类型以及第一样本单元格集合与第二样本单元格集合之间是否具有包含关系的标签信息训练得到的;
23.所述第二分类模型是基于第一样本单元格集合的描述信息、第二样本单元格集合的描述信息、第一样本单元格集合与第二样本单元格集合之间的关系信息、第一样本单元格集合与第二样本单元格集合所构成的交叉表的描述特征、第一样本单元格集合与第二样本单元格集合所构成的交叉表的相关性特征、第一样本单元格集合与第二样本单元格集合的枚举值类型以及第一样本单元格集合与第二样本单元格集合之间在非包含关系下是否建议组合的标签信息训练得到的。
24.进一步,根据本发明提供的数据表字段关系识别方法,所述根据所述第一概率值和所述第二概率值确定所述第一维度字段与所述第二维度字段之间的关系信息,包括:
25.在所述第一概率值大于所述第二概率值的情况下,所述第一维度字段与所述第二维度字段之间为包含关系;
26.在所述第一概率值小于所述第二概率值,且所述第二概率值大于或等于预设的第一阈值的情况下,所述第一维度字段与所述第二维度字段之间为非包含且建议组合的关系;
27.在所述第一概率值小于所述第二概率值,且所述第二概率值小于预设的第一阈值的情况下,所述第一维度字段与所述第二维度字段之间为非包含且不建议组合的关系。
28.进一步,根据本发明提供的数据表字段关系识别方法,所述获取第一单元格集合的描述信息、第二单元格集合的描述信息以及第一单元格集合与第二单元格集合之间的关系信息,包括:
29.获取所述第一单元格集合在所述待处理数据表中的索引值;
30.获取所述第一单元格集合的各个单元格中数据的长度最大值;
31.获取所述第一单元格集合的各个单元格中数据的长度最小值;
32.获取所述第一单元格集合的各个单元格中数据的长度平均值;
33.获取所述第一单元格集合的各个单元格中数据的长度标准差;
34.获取所述第一单元格集合中的未重复数据的个数;
35.获取所述第一单元格集合中的单元格的个数;
36.获取第二单元格集合在所述待处理数据表中的索引值;
37.获取所述第二单元格集合的各个单元格中数据的长度最大值;
38.获取所述第二单元格集合的各个单元格中数据的长度最小值;
39.获取所述第二单元格集合的各个单元格中数据的长度平均值;
40.获取所述第二单元格集合的各个单元格中数据的长度标准差;
41.获取所述第二单元格集合中的未重复数据的个数;
42.获取所述第一单元格集合中的未重复数据的个数与所述第二单元格集合中的未重复数据的个数的乘积;
43.获取所述第一单元格集合与所述第二单元格集合之间是否为包含关系的信息。
44.进一步,根据本发明提供的数据表字段关系识别方法,所述构建所述第一单元格集合与所述第二单元格集合的交叉表,获取所述交叉表的描述特征与相关性特征,包括:
45.构建所述第一单元格集合与所述第二单元格集合的交叉表;
46.获取所述交叉表的描述特征,包括:计算所述交叉表中未重复数据的个数、计算所述交叉表中非空单元格的个数;
47.获取所述交叉表的相关性特征,包括:计算所述交叉表卡方检验的p值、计算所述交叉表卡方检验的自由度、计算所述交叉表卡方检验的p值是否小于预设的第二阈值、计算所述交叉表的各个单元格中相关系数的绝对值大于或等于第三阈值的单元格数量与2的商;计算所述交叉表的各个单元格中相关系数的绝对值大于或等于第三阈值的单元格数量占全部单元格数量的百分比、计算所述交叉表的各个单元格中数据的平均值、计算所述交叉表的各个单元格中数据的平均值的标准差。
48.进一步,根据本发明提供的数据表字段关系识别方法,所述确定待处理数据表中的各个字段的类型,根据所述字段的类型确定维度字段以及所述维度字段所对应的单元格集合,包括:
49.确定待处理数据表中的各个字段的类型;
50.对于所述待处理数据表中的任意一个字段,在字段的类型符合第一条件的情况下,将所述字段确定为维度字段;其中,所述第一条件是用于判断所述待处理数据表中各个字段的类型是否属于维度字段的条件;
51.从所述待处理数据表中获取所述维度字段所对应的单元格集合;其中,所述维度字段所对应的单元格集合为所述维度字段在所述待处理数据表中所对应的行或列。
52.进一步,根据本发明提供的数据表字段关系识别方法,所述确定待处理数据表中的各个字段的类型,包括:
53.获取待处理数据表;其中,所述数据表包含字段与单元格,所述单元格包含数据;
54.根据单元格所包含的数据,为所述数据表中的各个单元格确定单元格的类型;
55.根据字段所对应的各个单元格的类型,确定所述字段的类型。
56.第二方面,本发明还提供一种数据表字段关系识别装置,包括:
57.第一确定模块,用于确定待处理数据表中的各个字段的类型,根据所述字段的类型确定维度字段以及所述维度字段所对应的单元格集合;其中,所述维度字段是用于描述单元格中数据所代表含义的字段;
58.获取模块,用于获取各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息;
59.确定模块,用于根据各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息,确定各个维度字段之间的关系。
60.第三方面,本发明还提供一种电子设备,包括:处理器、存储器和总线,其中,
61.所述处理器和所述存储器通过所述总线完成相互间的通信;
62.所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上任一项所述数据表字段关系识别方法的步骤。
63.第四方面,本发明还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上述中任一项所述数据表字段关系识别方法的步骤。
64.本发明提供一种数据表字段关系识别方法、装置、电子设备及存储介质,确定待处理数据表中的各个字段的类型,根据字段类型确定出维度字段以及维度字段对应的单元格集合,然后获取各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息,根据上述获取的信息确定出各个维度字段之间的
关系。本发明提供的数据表字段关系识别方法解决了现有技术中通过数据透视表确定维度字段之间的关系,整个操作流程繁琐,且数据表处理效率低下的技术问题,本发明提高了数据表中字段关系识别的准确率和效率,为后续数据表校对、字段推荐提供了基础,同时提高了数据表处理的效率,提升了用户体验。
附图说明
65.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
66.图1是本发明提供的数据表字段关系识别方法的流程示意图;
67.图2是本发明提供的数据表字段关系识别方法的整体流程示意图;
68.图3是本发明提供的数据表字段关系识别装置的结构示意图;
69.图4是本发明提供的电子设备的结构示意图。
具体实施方式
70.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
71.图1为本发明实施例提供的数据表字段关系识别方法的流程示意图,如图1所示,本发明提供的数据表字段关系识别方法,包括以下步骤:
72.步骤101:确定待处理数据表中的各个字段的类型,根据字段的类型确定维度字段以及维度字段所对应的单元格集合;其中,维度字段是用于描述单元格中数据所代表含义的字段;
73.在多数情况下,数据表中同一列的数据具有相同的属性信息。如同一列中的单元格都用于描述用户的姓名。因此,在本实施例中,单元格集合是指数据表中的某一列。在其他实施例中,单元格集合也可以是指数据表中的某一行。在此种情况下,数据表中同一行的数据具有相同的属性信息,如同一行中的单元格都用于描述用户的姓名。
74.在确认待处理数据表中各个字段的类型后,可以根据各个字段的类型确定出哪些字段属于维度字段,哪些字段属于度量字段。其中,维度字段是用于描述问题是什么的字段,本质上属于“分类字段”,而度量字段是用于描述数量多少的字段,属于量化字段。例如,手机号码类型和身份证号码类型属于维度字段,维度字段还包括其他的字段类型,具体可见下述实施例。数值类型属于度量字段,具体也可见下述实施例。
75.步骤102:获取各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息。
76.在本实施例中,需要获取各个维度字段所对应的单元格集合的相关信息,包括描述信息、关系信息;还需要根据获取的任意两个单元格集合构建交叉表,并获取交叉表的相关信息,包括描述特征和相关性特征。交叉表(cross tabulations)是一种常用的分类汇总
表格,可以利用交叉表查询数据,非常直观明了。交叉表的构建属于现有技术中较成熟的技术,如通过在数据库端用sql将数据组织成交叉表,在此不对其构建的具体过程进行详细介绍。
77.步骤103:根据各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息,确定各个维度字段之间的关系。
78.在本实施例中,根据上一步骤得到的所有信息,确定出各个维度字段之间的关系。其中,维度字段之间的关系是用于描述任意两个维度字段所对应的单元格集合中的数据之间相互影响程度的一种方式,维度字段之间的关系可以是相互包含关系,也可以是非包含关系且建议组合的关系,或者是非包含关系且不建议组合的关系。
79.需要说明的是,各个维度字段之间的关系的确定方式可以通过预设的分类模型进行分析确定,也可以通过判断上述所有信息之间的大小或与预设阈值的关系进行确定。具体可以根据实际需要进行设定,在此不作具体限定。
80.根据本发明提供一种数据表字段关系识别方法,确定待处理数据表中的各个字段的类型,根据字段类型确定出维度字段以及维度字段对应的单元格集合,然后获取各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息,根据上述获取的信息确定出各个维度字段之间的关系。本发明提供的数据表字段关系识别方法解决了现有技术中通过数据透视表确定维度字段之间的关系,整个操作流程繁琐,且数据表处理效率低下的技术问题,本发明提高了数据表中字段关系识别的准确率和效率,为后续数据表校对、字段推荐提供了基础,同时提高了数据表处理的效率,提升了用户体验。
81.基于上述任一实施例,在本实施例中,获取各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息,包括:获取各个维度字段所对应的单元格集合的描述信息、任意两个单元格集合之间的关系信息、任意两个单元格集合构建的交叉表的描述特征和相关性特征以及根据任意两个维度字段的类型确定维度字段所对应单元格集合的枚举值类型;
82.相应的,根据各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息,确定各个维度字段之间的关系,包括:
83.根据各个维度字段所对应的单元格集合的描述信息、任意两个单元格集合之间的关系信息、任意两个单元格集合构建的交叉表的描述特征和相关性特征以及根据任意两个维度字段的类型确定维度字段所对应单元格集合的枚举值类型,确定各个维度字段之间的关系。
84.在本实施例中,在确定维度字段以及维度字段所对应的单元格集合之后,还需要获取维度字段所对应的单元格集合的描述信息、单元格集合之间的关系信息,任意两个单元格集合构建的交叉表的描述特征和相关性特征以及根据任意两个维度字段的类型确定所对应单元格集合的枚举值类型这些信息。其中,本实施例中,单元格集合是指某一字段名称下所对应的一列,而描述信息是指用于描述该列中单元格的一些基本信息,可以包括如单元格中数据长度的平均值、最大值等信息,具体可以通过描述统计功能模块获取。单元格集合之间的关系信息是指根据每列中单元格中的数据信息能够确定出任意两列之间存在的包含关系信息。
85.在本实施例中,还需要根据任意的两个维度字段所对应的单元格集合来构建交叉表,交叉表构建完成后,需要提取交叉表的描述特征和相关性特征,其中,描述特征是指描述交叉表情况的特征信息,可以通过表格中的描述统计功能模块提取描述特征。相关性特征是指用于描述两个单元格集合之间相关性的特征信息,本实施例中可以利用多元统计分析方法中相关性分析方法提取交叉表的相关性特征,其中,相关性特征具体包含的内容见下述实施例,在此不作详细介绍。
86.需要说明的是,多元统计分析方法是研究客观事物中多个变量(或多个因素)之间相互依赖的统计规律性的一种方法,它的重要基础之一是多元正态分析,因此又称多元分析。
87.在本实施例中,还需要选取任意的两个维度字段,根据两个维度字段的类型确定出两个维度字段所对应的单元格集合的枚举值类型。枚举值是指通过预定义列出所有值的标识符来定义一个有序集合的方式,这些值的次序和枚举类型说明中的标识符的次序是一致的。假设枚举值的形式为《标识符1》=《类型1》,如《n1》=《时间类型》,《n2》=《日期类型》,《n3》=《字符串类型》等。本实施例中,选取的两个维度字段的类型分别为时间类型和日期类型,则得到两个单元格集合的枚举值类型为《n2、n1》=《日期类型、时间类型》。
88.在本实施例中,根据上述获取到的所有信息,确定出各个维度字段之间的关系,其中,维度字段之间的关系是用于描述任意两个维度字段所对应的单元格集合中的数据之间相互影响程度的一种方式,维度字段之间的关系可以是相互包含关系,也可以是非包含关系且建议组合的关系,或者是非包含关系且不建议组合的关系,在此不作具体限定。
89.根据本发明提供一种数据表字段关系识别方法,确定待处理数据表中的各个字段的类型,根据字段类型确定出维度字段以及维度字段对应的单元格集合,然后获取各个维度字段所对应的单元格集合的描述信息、任意两个单元格集合之间的关系信息、任意两个单元格集合构建的交叉表的描述特征和相关性特征以及根据任意两个维度字段的类型确定所对应单元格集合的枚举值类型,根据上述信息确定出各个维度字段之间的关系。本发明提供的数据表字段关系识别方法解决了现有技术中通过数据透视表确定维度字段之间的关系,整个操作流程繁琐,且数据表处理效率低下的技术问题,本发明提高了数据表中字段关系识别的准确率和效率,为后续数据表校对、字段推荐提供了基础,同时提高了数据表处理的效率,提升了用户体验。
90.基于上述任一实施例,在本实施例中,获取各个维度字段所对应的单元格集合的描述信息、任意两个单元格集合之间的关系信息、任意两个单元格集合构建的交叉表的描述特征和相关性特征以及根据任意两个维度字段的类型确定所对应单元格集合的枚举值类型,包括:
91.获取第一单元格集合的描述信息、第二单元格集合的描述信息以及第一单元格集合与第二单元格集合之间的关系信息;其中,第一单元格集合为第一维度字段所对应的单元格集合,第二单元格集合为第二维度字段所对应的单元格集合;第一维度字段为待处理数据表中的任意一个维度字段,第二维度字段为所述待处理数据表中不同于所述第一维度字段的任意一个维度字段;
92.构建第一单元格集合与第二单元格集合的交叉表,获取交叉表的描述特征与相关性特征;
93.根据第一维度字段的类型与第二维度字段的类型,确定第一单元格集合与第二单元格集合的枚举值类型。
94.在本实施例中,根据数据表的各个字段的类型确定出维度字段以及维度字段所对应的单元格集合之后,从多个维度字段中选取任意两个维度字段以及所对应的单元格集合,两个维度字段确认为第一维度字段和第二维度字段,其中,第一单元格集合为第一维度字段所对应的单元格集合,在本实施例中为第一维度字段所对应的列。第二单元格集合为第二维度字段所对应的单元格集合,在本实施例中为第二维度字段所对应的列。两者并不相同。如下述表1的数据表,根据维度字段和度量字段的定义可以确定出,除了字段名称为“库龄”的字段属于度量字段,其余均属于维度字段。假如第一维度字段的字段名称为“整车信息”,第二维度字段的字段名称为“车身颜色”,那么,第一单元格集合为“整车信息”所对应的各个单元格构成的集合,具体数据为“zc101947、zc101948、zc101949、zc101937”;第二单元格集合为“车身颜色”所对应的各个单元格构成的集合,具体数据为“冰川蓝、珍珠白、典雅黑、摩卡棕”。需要说明的是,第二维度字段为数据表中不同于第一维度字段的任意一个维度字段,则第二单元格集合为数据表中不同于第一单元格集合的任意一个单元格集合。
95.表1
[0096][0097]
在本实施例中,需要获取第一单元格集合的描述信息、第二单元格集合的描述信息以及第一单元格集合与第二单元格集合之间的关系信息,其中,描述信息是对表格数据的客观记录、归纳、分析和推理得出的信息。描述信息可以是单元格中数据的长度最小值、长度最大值等信息,第一单元格集合的描述信息和第二单元格集合的描述信息具体包含的内容将在下述实施例中详细介绍。
[0098]
在本实施例中,还需要获取第一单元格集合与第二单元格集合之间的关系信息,确定两者之间是否为包含关系,具体可以根据第一单元格集合与第二单元格集合的数据进
行确定,如第一单元格集合中的数据为“品牌”的相关数据,第二单元格集合中的数据为“车系”的相关数据,由于“车系”的数据为该“品牌”下的相关数据,可以确定两者之间的关系为包含关系。需要说明的是,具体确定方式可以根据实际需要进行确定,在此不作具体限定。
[0099]
在本实施例中,还需要根据第一单元格集合和第二单元格集合,构建交叉表,获取交叉表的描述特征和相关性特征,其中,描述特征包括交叉表中未重复数据的单元格的个数、非空单元格的个数等信息,相关性特征具体包含的内容可见下述实施例,在此不作详细赘述。
[0100]
在本实施例中,还需要根据第一维度字段的类型和第二维度字段的类型,确定出第一单元格集合与第二单元格集合的枚举值类型。假设枚举值的形式为《标识符1》=《类型1》,如《n1》=《时间类型》,《n2》=《日期类型》,《n3》=《字符串类型》,若第一维度字段的类型为字符串类型,第二维度字段的类型为日期类型,可以确定出第一单元格集合与第二单元格集合的枚举值类型,如《n2、n3》=《日期类型、字符串类型》,根据预设的形式将两个集合中的相互对应的单元格的枚举值类型确定出来,而且得到的枚举值类型具有一定的次序。
[0101]
根据本发明提供一种数据表字段关系识别方法,从多个单元格集合中确定第一单元格集合和第二单元格集合,获取第一单元格集合的描述信息、第二单元格集合的描述信息以及两者的关系信息,构建交叉表,获取构建交叉表的描述特征与相关性特征,以及第一单元格集合与第二单元格集合的枚举值类型。本发明提供的数据表字段关系识别方法通过获取维度字段所对应单元格集合的相关信息,为后续识别维度字段之间的关系提供数据支持,间接提高了数据表中字段关系识别的准确率和效率,为后续数据表校对、字段推荐提供了基础。
[0102]
基于上述任一实施例,在本实施例中,根据各个维度字段所对应的单元格集合的描述信息、任意两个单元格集合之间的关系信息、任意两个单元格集合构建的交叉表的描述特征和相关性特征以及根据任意两个维度字段的类型确定所对应单元格集合的枚举值类型,确定各个维度字段之间的关系,包括:
[0103]
将第一单元格集合的描述信息、第二单元格集合的描述信息、第一单元格集合与第二单元格集合之间的关系信息、交叉表的描述特征、交叉表的相关性特征以及第一单元格集合与第二单元格集合的枚举值类型输入预先训练的第一分类模型,得到第一维度字段与第二维度字段之间是否具有包含关系的第一概率值;
[0104]
将第一单元格集合的描述信息、第二单元格集合的描述信息、第一单元格集合与第二单元格集合之间的关系信息、交叉表的描述特征、交叉表的相关性特征以及第一单元格集合与第二单元格集合的枚举值类型输入预先训练的第二分类模型,得到第一维度字段与第二维度字段在非包含关系下是否建议组合的第二概率值;
[0105]
根据第一概率值和第二概率值确定第一维度字段与第二维度字段之间的关系;
[0106]
其中,第一分类模型是基于第一样本单元格集合的描述信息、第二样本单元格集合的描述信息、第一样本单元格集合与第二样本单元格集合之间的关系信息、第一样本单元格集合与第二样本单元格集合所构成的交叉表的描述特征、第一样本单元格集合与第二样本单元格集合所构成的交叉表的相关性特征、第一样本单元格集合与第二样本单元格集合的枚举值类型以及第一样本单元格集合与第二样本单元格集合之间是否具有包含关系
的标签信息训练得到的;
[0107]
第二分类模型是基于第一样本单元格集合的描述信息、第二样本单元格集合的描述信息、第一样本单元格集合与第二样本单元格集合之间的关系信息、第一样本单元格集合与第二样本单元格集合所构成的交叉表的描述特征、第一样本单元格集合与第二样本单元格集合所构成的交叉表的相关性特征、第一样本单元格集合与第二样本单元格集合的枚举值类型以及第一样本单元格集合与第二样本单元格集合之间在非包含关系下是否建议组合的标签信息训练得到的。
[0108]
在本实施例中,为了确认第一维度字段与第二维度字段之间的关系,将得到的第一单元格集合的描述信息、第二单元格集合的描述信息、第一单元格集合与第二单元格集合之间的关系信息、交叉表的描述特征、交叉表的相关性特征以及第一单元格集合与第二单元格集合的枚举值类型输入预先训练的第一分类模型中,得到第一维度字段与第二维度字段之间是否具有包含关系的第一概率值,其中,第一分类模型为用于判断包含关系的分类模型;同时,还需要将上述所有的信息输入到第二分类模型中,获取第二概率值,第二分类模型为用于判断在非包含关系下是否建议组合分析的分类模型,然后根据获取到的第一概率值和第二概率值来确定第一维度字段与第二维度字段之间的关系。
[0109]
需要说明的是,维度字段与维度字段之间的关系,可以是包含关系,包含关系通常是属种关系,是指一种从属关系,比如同一类别中,a的范围较小,b的范围较大,且b的范围设定中包含a的范围,则表示a与b具有包含关系;还可以是非包含关系下是否建议组合的关系,如根据第一单元格集合与第二单元格集合的关系信息确定两个字段之间不具有包含关系,可以将获取的所有信息输入第二分类模型中,确定是否建议组合的关系,如时间类型和地域类型的维度字段,两者为非包含关系,可以通过第二分类模型确定两者是否要进行组合。
[0110]
在本实施例中,第一分类模型和第二分类模型都是预先利用随机森林算法对训练样本进行训练得到的,其中,随机森林(random forest)是指利用多棵决策树对训练样本进行训练并预测的一种分类器。利用随机森林算法对预先获取的第一样本单元格集合的描述信息、第二样本单元格集合的描述信息、第一样本单元格集合与第二样本单元格集合之间的关系信息、第一样本单元格集合与第二样本单元格集合所构成的交叉表的描述特征、第一样本单元格集合与第二样本单元格集合所构成的交叉表的相关性特征、第一样本单元格集合与第二样本单元格集合的枚举值类型以及第一样本单元格集合与第二样本单元格集合之间是否具有包含关系的标签信息对分类器进行训练,得到第一分类模型;同理,利用随机森林算法对预先获取的第二训练样本信息对分类器进行训练得到第二分类模型。具体训练方式在此不作详细介绍。
[0111]
需要说明的是,标签信息是指对训练样本的属性进行标注得到的信息,如在训练是否具有包含关系的分类模型时,人工先确定第一样本单元格集合与第二样本单元格集合是否具有包含关系,并作标注处理,确定的具有包含关系的标注信息和不具有包含关系的信息均为标签信息。同理,可以将得到的在非包含关系下建议组合的标注信息和在非包含关系下不建议组合的标注信息确定为第一样本单元格集合与第二样本单元格集合之间是否具有包含关系的标签信息。
[0112]
根据本发明提供的数据表字段关系识别方法,将获取得到的所有信息输入预设训
练得到的第一分类模型中,得到第一概率值,同时,还将得到的所有信息输入第二分类模型中,得到第二概率值,根据第一概率值和第二概率值确定出第一维度字段与第二维度字段之间的关系信息,能够准确识别出维度字段之间的关系,简化维度字段关系识别的流程,提高维度字段关系识别的准确率和效率。
[0113]
基于上述任一实施例,在本实施例中,根据第一概率值和第二概率值确定第一维度字段与第二维度字段之间的关系信息,包括:
[0114]
在第一概率值大于第二概率值的情况下,第一维度字段与第二维度字段之间为包含关系;
[0115]
在第一概率值小于第二概率值,且第二概率值大于或等于预设的第一阈值的情况下,第一维度字段与第二维度字段之间为非包含且建议组合的关系;
[0116]
在第一概率值小于第二概率值,且第二概率值小于预设的第一阈值的情况下,第一维度字段与第二维度字段之间为非包含且不建议组合的关系。
[0117]
在本实施例中,通过比较上述得到的第一概率值与第二概率值之间的大小关系,确定出第一维度字段与第二维度字段之间的关系。假如预设的第一阈值为0.5,在第一概率值大于第二概率值时,直接确定第一维度字段与第二维度字段之间具有包含关系,不需要与预设的第一阈值进行比较;在第一概率值小于第二概率值时,需要将第二概率值与第一阈值进行比较确认,比如得到的第一概率值为0.4,第二概率值为0.6时,即第二概率值0.6大于第一阈值0.5,将第一维度字段与第二维度字段之间的关系确定为非包含关系且建议组合的关系;再比如,得到的第一概率值为0.4,第二概率值为0.45,即第二概率值大于第一概率值,且小于第一阈值0.5,则将第一维度字段与第二维度字段之间的关系确定为非包含关系且不建议组合的关系。需要说明的是,预设的第一阈值的大小可以根据实际需要进行设定,在此不作具体限定。
[0118]
根据本发明提供的数据表字段关系识别方法,通过比较得到的第一概率值与第二概率值以及预设的第一阈值之间的大小关系,能够精准地识别出第一维度字段与第二维度字段之间的关系,提高了维度字段关系识别的速度与准确度,为后续利用字段关系进行数据分析提供了基础,提高了后续数据表的处理速度。
[0119]
基于上述任一实施例,在本实施例中,获取第一单元格集合的描述信息、第二单元格集合的描述信息以及第一单元格集合与第二单元格集合之间的关系信息,包括:
[0120]
获取第一单元格集合在待处理数据表中的索引值;
[0121]
获取第一单元格集合的各个单元格中数据的长度最大值;
[0122]
获取第一单元格集合的各个单元格中数据的长度最小值;
[0123]
获取第一单元格集合的各个单元格中数据的长度平均值;
[0124]
获取第一单元格集合的各个单元格中数据的长度标准差;
[0125]
获取第一单元格集合中的未重复数据的个数;
[0126]
获取第一单元格集合中的单元格的个数;
[0127]
获取第二单元格集合在待处理数据表中的索引值;
[0128]
获取第二单元格集合的各个单元格中数据的长度最大值;
[0129]
获取第二单元格集合的各个单元格中数据的长度最小值;
[0130]
获取第二单元格集合的各个单元格中数据的长度平均值;
[0131]
获取第二单元格集合的各个单元格中数据的长度标准差;
[0132]
获取第二单元格集合中的未重复数据的个数;
[0133]
获取第一单元格集合中的未重复数据的个数与第二单元格集合中的未重复数据的个数的乘积;
[0134]
获取第一单元格集合与第二单元格集合之间是否为包含关系的信息。
[0135]
在本实施例中,确定第一单元格集合的描述信息具体包含的内容和第二单元格集合的描述信息所包含的内容以及第一单元格集合与第二单元格集合的关系信息,其中,关系信息是指第一单元格集合与第二单元格集合是否具有包含关系的信息以及两者结合得到的信息。如第一单元格集合中的未重复数据的个数与第二单元格集合中的未重复数据的个数的乘积,第一单元格集合与第二单元格集合之间是否为包含关系的信息。第一单元格集合的描述信息包括:第一单元格集合在待处理数据表中的索引值、各个单元格中数据的长度最大值、各个单元格中数据的长度最小值、各个单元格中数据的长度平均值、各个单元格中数据的长度标准差、未重复数据的个数、单元格的个数;第二单元格集合的描述信息包括:第二单元格集合在待处理数据表中的索引值、第二单元格集合的各个单元格中数据的长度最大值、第二单元格集合的各个单元格中数据的长度最小值、第二单元格集合的各个单元格中数据的长度平均值、第二单元格集合的各个单元格中数据的长度标准差、第二单元格集合中的未重复数据的个数。
[0136]
需要说明的是,在关系数据库中,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容。索引值是指各个维度字段所对应的位置代号,可以用于确定维度字段的具体位置,如为上述表1所示的数据表中各个字段设定索引值,具体如下表2所示。当第一单元格集合的索引值为1、第二单元格集合的索引值为2时,则可以通过索引值确定出第一单元格集合为表1所示数据表中的第一列,第二单元格集合为表1数据表中的第二列。
[0137]
表2
[0138]
字段索引值字段名称字段类型1整车信息eng2车辆状态vn3车系eng4车型eng5车身颜色n6内饰颜色n7发动机号eng8库龄number
[0139]
在本实施例中,如上述表1所示,根据第一单元格集合的索引值1确定出第一单元格集合的位置后,还获取到第一单元格集合中各个单元格中数据的长度最大值为8、长度最小值为8、长度平均值为8,标准差为0,未重复的数据的个数为4;同理,根据第二单元格集合的索引值2确定出第二单元格集合的位置,获取到第二单元格集合中各个单元格的长度最
大值为4、长度最小值为2、长度平均值为3、长度标准差为1,未重复数据的个数为2。
[0140]
根据上述得到的信息,还获取到第一单元格集合中的未重复数据的个数与第二单元格集合中的未重复数据的个数的乘积为4*2=8;并根据第一单元格集合所对应的第一维度字段的类型和第二单元格集合所对应的第二维度字段的类型,确定两者之间为非包含关系。
[0141]
根据本发明提供的数据表字段关系识别方法,确定出第一单元格集合的描述信息和第二单元格集合的描述信息以及两者之间的关系信息,为后续精准确定出第一维度字段与第二维度字段之间的关系提供数据支持。
[0142]
基于上述任一实施例,在本实施例中,构建第一单元格集合与第二单元格集合的交叉表,获取交叉表的描述特征与相关性特征,包括:
[0143]
构建第一单元格集合与第二单元格集合的交叉表;
[0144]
获取交叉表的描述特征,包括:计算交叉表中未重复数据的个数、计算交叉表中非空单元格的个数;
[0145]
获取交叉表的相关性特征,包括:计算交叉表卡方检验的p值、计算交叉表卡方检验的自由度、计算交叉表卡方检验的p值是否小于预设的第二阈值、计算交叉表的各个单元格中相关系数的绝对值大于或等于第三阈值的单元格数量与2的商;计算交叉表的各个单元格中相关系数的绝对值大于或等于第三阈值的单元格数量占全部单元格数量的百分比、计算交叉表的各个单元格中数据的平均值、计算交叉表的各个单元格中数据的平均值的标准差。
[0146]
在本实施例中,根据确认的第一单元格集合与第二单元格集合构建交叉表,获取交叉表的描述特征和相关性特征,其中,计算交叉表的描述特征至少包括:计算未重复数据的个数、计算交叉表中非空单元格的个数;而计算获取相关性特征至少包括:计算交叉表卡方检验的p值、计算交叉表卡方检验的自由度、计算交叉表卡方检验的p值是否小于预设的第二阈值、计算交叉表的各个单元格中相关系数的绝对值大于或等于第三阈值的单元格数量与2的商;计算交叉表的各个单元格中相关系数的绝对值大于或等于第三阈值的单元格数量占全部单元格数量的百分比、计算交叉表的各个单元格中数据的平均值、计算交叉表的各个单元格中数据的平均值的标准差。其中,第二阈值和第三阈值可以根据经验进行设定,如第二阈值设为0.5,第三阈值设为0.75。需要说明的是,第二阈值和第三阈值的大小,可以根据实际需要进行设定,在此不作具体限定。
[0147]
需要说明的是,交叉表是一种常用的分类汇总的表格,本质上是行和列的交叉,用于将行上的数据作为列指标来呈现,可以在数据库端用sql将数据组织成交叉表,然后将数据以普通报表的形式呈现;还可以通过水晶报表的方式直接实现。卡方检验(chi-square test)是用途非常广的一种假设检验方法,卡方检验实质上是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值则为0,表明理论值完全符合。本实施例中可以通过现有技术中的卡方检验方式对交叉表进行检验处理,得到各个数据值,在此不对其具体的处理过程进行详细介绍。
[0148]
另外,本实施例中,采用多元统计分析法中的相关性分析法提取出交叉表的相关性特征,具体提取方式不作详细介绍。
[0149]
根据本发明提供的数据表字段关系识别方法,确定出根据第一单元格集合与第二单元格集合构建的交叉表的描述体征和相关性特征,为后续精准确定出第一维度字段与第二维度字段之间的关系提供数据支持。
[0150]
基于上述任一实施例中,在本实施例中,确定待处理数据表中的各个字段的类型,根据字段的类型确定维度字段以及维度字段所对应的单元格集合,包括:
[0151]
确定待处理数据表中的各个字段的类型;
[0152]
对于待处理数据表中的任意一个字段,在字段的类型符合第一条件的情况下,将字段确定为维度字段;其中,第一条件是用于判断所述待处理数据表中各个字段的类型是否属于维度字段的条件;
[0153]
从待处理数据表中获取维度字段所对应的单元格集合;其中,维度字段所对应的单元格集合为维度字段在待处理数据表中所对应的行或列。
[0154]
在本实施例中,第一条件是指属于维度字段的各种字段类型,包括以下字段类型中的任意一种:日期时间类型、日期类型、时间类型、字符串类型,其中,字符串类型包括:人名、地名、动名词、英文、文本型数字、其他单个字符串类型、混合类型。当确定出第一字段的类型为字符串类型时,即第一字段的类型符合预设的第一条件,将第一字段确定为维度字段,并根据第一字段在数据表中的位置确定出第一字段对应的单元格集合;其中,字段类型为数值类型的字段不属于维度字段,当确定出第一字段的类型为数值类型,即第一字段的类型不符合第一条件,则不将第一字段确定为维度字段,判断其是否属于度量字段,若属于则将其归为度量字段。需要说明的是,单元格集合可以是第一字段在数据表中所对应的列,也可以是第一字段在数据表中所对应的行,在此不作具体限定。
[0155]
根据本发明提供的数据表字段关系识别方法,通过确定数据表中各个字段的类型,然后判断字段的类型是否符合第一条件,若符合时,确定该字段为维度字段,并根据该字段在数据表中的位置确定出所对应的单元格集合,为后续各个维度字段之间的关系识别提供了数据支持,提高了数据表处理的速度。
[0156]
基于上述任一实施例,在本实施例中,确定待处理数据表中的各个字段的类型,包括:
[0157]
获取待处理数据表;其中,数据表包含字段与单元格,单元格包含数据;
[0158]
根据单元格所包含的数据,为数据表中的各个单元格确定单元格的类型;
[0159]
根据字段所对应的各个单元格的类型,确定字段的类型。
[0160]
在本实施例中,根据获取到的待处理数据表中单元格所包含的数据,确定出各个单元格的类型,然后根据某一字段所对应的所有单元格的类型,确定出该字段的类型,如,第一字段所对应的所有单元格的类型均为日期类型,则将日期类型确定为第一字段的类型。其中,对于字段所对应的所有单元格的类型,当存在多种类型时,可以将出现次数最多的类型确定为该字段的类型,具体确定方式在此不进行具体限定。
[0161]
根据本发明提供的数据表字段关系识别方法,通过确定数据表中各个单元格的类型,然后根据字段所对应的所有单元格的类型确定出字段的类型,通过对各个单元格的类型进行识别处理,确定出字段的类型,为后续各个维度字段之间的关系识别提供了数据支持,提高了数据表处理的速度。
[0162]
基于上述任一实施例,在本实施例中,如图2所示,获取待识别的数据表,确定数据
表中各个字段的类型,根据各个字段的类型确定出维度字段以及维度字段对应的单元格集合,在本实施例中,确定第一单元格集合和第二单元格集合,其中,单元格集合为维度列表,根据得到的第一单元格集合和第二单元格集合确定出各自的描述信息、两者之间的关系信息,根据第一单元格集合与第二单元格集合构建交叉表,确定交叉表的描述特征以及相关性特征,还有第一单元格集合和第二单元格集合的枚举值类型。根据得到的全部特征信息,输入第一分类模型中进行打分,得到第一概率值,同时还输入第二分类模型中进行打分,得到第二概率值,根据第一概率值和第二概率值确定出两个维度列的关系。其中,第一分类模型为包含关系分类模型,第二分类模型为非包含关系下是否建议组合分析的分类模型。
[0163]
需要说明的是,第一单元格集合的描述信息、第二单元格集合的描述信息、第一单元格集合与第二单元格集合之间的关系信息,交叉表的描述特征和相关性特征,以及第一单元格集合与第二单元格集合的枚举值类型,上述相关信息的具体包含内容如上述实施例所述,在此不再详细赘述。
[0164]
需要说明的是,在获取到维度字段之间的关系后,可以根据维度字段之间的关系生成相应的推荐字段,如在两个维度字段不具有包含关系的情况下,根据两个维度字段之间的相关性确定字段推荐分数,根据推荐分数的大小确定出推荐字段,根据得到的推荐字段生成相应的数据透视表,对数据表中的数据进行分析。
[0165]
在已经得到的数据透视表中,还可以通过确定新加入的维度字段与已经存在的维度字段之间的关系,将新加入的维度字段设置在数据透视表中相应的位置。假如新加入的维度字段与已经存在的维度字段为包含关系时,自动定位新加入的字段为同行或同列;假如新加入的维度字段与已经存在的维度字段为非包含关系且不建议组合时,则将新加入的维度字段与已经存在的维度字段设置为一行、一列,不能同时放在一行中。根据本发明提供的数据表字段关系识别方法,能够将新加入的维度字段自动进行定位,提高数据表处理的效率。
[0166]
图3为本发明提供的一种数据表字段关系识别装置,如图3所示,本发明提供的数据表字段关系识别装置,包括:
[0167]
第一确定模块301,用于确定待处理数据表中的各个字段的类型,根据字段的类型确定维度字段以及维度字段所对应的单元格集合;其中,维度字段是用于描述单元格中数据所代表含义的字段;
[0168]
获取模块302,用于获取各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息;
[0169]
第二确定模块303,用于根据各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息,确定各个维度字段之间的关系。
[0170]
根据本发明提供的数据表字段关系识别装置,解决了现有技术中通过数据透视表确定维度字段之间的关系,整个操作流程繁琐,且数据表处理效率低下的技术问题,本发明提高了数据表中字段关系识别的准确率和效率,为后续数据表校对、字段推荐提供了基础,同时提高了数据表处理的效率,提升了用户体验。
[0171]
基于上述任一实施例,在本实施例中,获取模块302还用于:
[0172]
获取各个维度字段所对应的单元格集合的描述信息、任意两个单元格集合之间的
关系信息、任意两个单元格集合构建的交叉表的描述特征和相关性特征以及根据任意两个维度字段的类型确定维度字段所对应单元格集合的枚举值类型;
[0173]
第二确定模块303还用于:
[0174]
根据各个维度字段所对应的单元格集合的描述信息、任意两个单元格集合之间的关系信息、任意两个单元格集合构建的交叉表的描述特征和相关性特征以及根据任意两个维度字段的类型确定维度字段所对应单元格集合的枚举值类型,确定各个维度字段之间的关系。
[0175]
根据本发明提供的数据表字段关系识别装置,解决了现有技术中通过数据透视表确定维度字段之间的关系,整个操作流程繁琐,且数据表处理效率低下的技术问题,本发明提高了数据表中字段关系识别的准确率和效率,为后续数据表校对、字段推荐提供了基础,同时提高了数据表处理的效率,提升了用户体验。
[0176]
基于上述任一实施例,在本实施例中,获取模块302还用于:
[0177]
获取第一单元格集合的描述信息、第二单元格集合的描述信息以及第一单元格集合与第二单元格集合之间的关系信息;其中,第一单元格集合为第一维度字段所对应的单元格集合,第二单元格集合为第二维度字段所对应的单元格集合;第一维度字段为待处理数据表中的任意一个维度字段,第二维度字段为所述待处理数据表中不同于第一维度字段的任意一个维度字段;
[0178]
构建第一单元格集合与所述第二单元格集合的交叉表,获取交叉表的描述特征与相关性特征;
[0179]
根据第一维度字段的类型与第二维度字段的类型,确定第一单元格集合与第二单元格集合的枚举值类型。
[0180]
根据本发明提供的数据表字段关系识别装置,通过获取到第一单元格集合与第二单元格集合的相关性,为后续确定维度字段之间的关系提供了数据支持,同时提高了数据表处理的效率,提升了用户体验。
[0181]
基于上述任一实施例,在本实施例中,第二确定模块303还用于:
[0182]
将第一单元格集合的描述信息、第二单元格集合的描述信息、第一单元格集合与第二单元格集合之间的关系信息、交叉表的描述特征、交叉表的相关性特征以及第一单元格集合与第二单元格集合的枚举值类型输入预先训练的第一分类模型,得到第一维度字段与所述第二维度字段之间是否具有包含关系的第一概率值;
[0183]
将第一单元格集合的描述信息、第二单元格集合的描述信息、第一单元格集合与第二单元格集合之间的关系信息、交叉表的描述特征、交叉表的相关性特征以及第一单元格集合与第二单元格集合的枚举值类型输入预先训练的第二分类模型,得到第一维度字段与第二维度字段在非包含关系下是否建议组合的第二概率值;
[0184]
根据第一概率值和第二概率值确定第一维度字段与第二维度字段之间的关系;
[0185]
其中,第一分类模型是基于第一样本单元格集合的描述信息、第二样本单元格集合的描述信息、第一样本单元格集合与第二样本单元格集合之间的关系信息、第一样本单元格集合与第二样本单元格集合所构成的交叉表的描述特征、第一样本单元格集合与第二样本单元格集合所构成的交叉表的相关性特征、第一样本单元格集合与第二样本单元格集合的枚举值类型以及第一样本单元格集合与第二样本单元格集合之间是否具有包含关系
的标签信息训练得到的;
[0186]
第二分类模型是基于第一样本单元格集合的描述信息、第二样本单元格集合的描述信息、第一样本单元格集合与第二样本单元格集合之间的关系信息、第一样本单元格集合与第二样本单元格集合所构成的交叉表的描述特征、第一样本单元格集合与第二样本单元格集合所构成的交叉表的相关性特征、第一样本单元格集合与第二样本单元格集合的枚举值类型以及第一样本单元格集合与第二样本单元格集合之间在非包含关系下是否建议组合的标签信息训练得到的。
[0187]
根据本发明提供的数据表字段关系识别装置,将获取得到的所有信息输入预设训练得到的第一分类模型中,得到第一概率值,同时,还将得到的所有信息输入第二分类模型中,得到第二概率值,根据第一概率值和第二概率值确定出第一维度字段与第二维度字段之间的关系信息,能够准确识别出维度字段之间的关系,简化维度字段关系识别的流程,提高维度字段关系识别的准确率和效率。
[0188]
基于上述任一实施例,在本实施例中,第二确定模块303还用于:
[0189]
在第一概率值大于第二概率值的情况下,第一维度字段与所述第二维度字段之间为包含关系;
[0190]
在第一概率值小于所述第二概率值,且第二概率值大于或等于预设的第一阈值的情况下,第一维度字段与第二维度字段之间为非包含且建议组合的关系;
[0191]
在第一概率值小于第二概率值,且第二概率值小于预设的第一阈值的情况下,第一维度字段与第二维度字段之间为非包含且不建议组合的关系。
[0192]
根据本发明提供的数据表字段关系识别装置,通过比较得到的第一概率值与第二概率值以及预设的第一阈值之间的大小关系,能够精准地识别出第一维度字段与第二维度字段之间的关系,提高了维度字段关系识别的速度与准确度,为后续利用字段关系进行数据分析提供了基础,提高了后续数据表的处理速度。
[0193]
基于上述任一实施例,在本实施例中,获取模块302还用于:
[0194]
获取第一单元格集合在待处理数据表中的索引值;
[0195]
获取第一单元格集合的各个单元格中数据的长度最大值;
[0196]
获取第一单元格集合的各个单元格中数据的长度最小值;
[0197]
获取第一单元格集合的各个单元格中数据的长度平均值;
[0198]
获取第一单元格集合的各个单元格中数据的长度标准差;
[0199]
获取第一单元格集合中的未重复数据的个数;
[0200]
获取第一单元格集合中的单元格的个数;
[0201]
获取第二单元格集合在待处理数据表中的索引值;
[0202]
获取第二单元格集合的各个单元格中数据的长度最大值;
[0203]
获取第二单元格集合的各个单元格中数据的长度最小值;
[0204]
获取第二单元格集合的各个单元格中数据的长度平均值;
[0205]
获取第二单元格集合的各个单元格中数据的长度标准差;
[0206]
获取第二单元格集合中的未重复数据的个数;
[0207]
获取第一单元格集合中的未重复数据的个数与第二单元格集合中的未重复数据的个数的乘积;
[0208]
获取第一单元格集合与第二单元格集合之间是否为包含关系的信息。
[0209]
根据本发明提供的数据表字段关系识别装置,确定出第一单元格集合的描述信息和第二单元格集合的描述信息以及两者之间的关系信息,为后续精准确定出第一维度字段与第二维度字段之间的关系提供数据支持。
[0210]
基于上述任一实施例,在本实施例中,获取模块302还用于:
[0211]
构建第一单元格集合与第二单元格集合的交叉表;
[0212]
获取交叉表的描述特征,包括:计算交叉表中未重复数据的个数、计算交叉表中非空单元格的个数;
[0213]
获取交叉表的相关性特征,包括:计算交叉表卡方检验的p值、计算交叉表卡方检验的自由度、计算交叉表卡方检验的p值是否小于预设的第二阈值、计算交叉表的各个单元格中相关系数的绝对值大于或等于第三阈值的单元格数量与2的商;计算交叉表的各个单元格中相关系数的绝对值大于或等于第三阈值的单元格数量占全部单元格数量的百分比、计算交叉表的各个单元格中数据的平均值、计算交叉表的各个单元格中数据的平均值的标准差。
[0214]
根据本发明提供的数据表字段关系识别装置,确定出根据第一单元格集合与第二单元格集合构建的交叉表的描述体征和相关性特征,为后续精准确定出第一维度字段与第二维度字段之间的关系提供数据支持。
[0215]
基于上述任一实施例,在本实施例中,第一确定模块301还用于:
[0216]
确定待处理数据表中的各个字段的类型;
[0217]
对于待处理数据表中的任意一个字段,在字段的类型符合第一条件的情况下,将字段确定为维度字段;其中,第一条件是用于判断所述待处理数据表中各个字段的类型是否属于维度字段的条件;
[0218]
从待处理数据表中获取维度字段所对应的单元格集合;其中,维度字段所对应的单元格集合为维度字段在待处理数据表中所对应的行或列。
[0219]
根据本发明提供的数据表字段关系识别装置,通过确定数据表中各个字段的类型,然后判断字段的类型是否符合第一条件,若符合时,确定该字段为维度字段,并根据该字段在数据表中的位置确定出所对应的单元格集合,为后续各个维度字段之间的关系识别提供了数据支持,提高了数据表处理的速度。
[0220]
基于上述任一实施例,在本实施例中,第一确定模块301还用于:
[0221]
获取待处理数据表;其中,数据表包含字段与单元格,单元格包含数据;
[0222]
根据单元格所包含的数据,为数据表中的各个单元格确定单元格的类型;
[0223]
根据字段所对应的各个单元格的类型,确定字段的类型。
[0224]
根据本发明提供的数据表字段关系识别装置,通过确定数据表中各个单元格的类型,然后根据字段所对应的所有单元格的类型确定出字段的类型,通过对各个单元格的类型进行识别处理,确定出字段的类型,为后续各个维度字段之间的关系识别提供了数据支持,提高了数据表处理的速度。
[0225]
由于本发明实施例所述装置与上述实施例所述方法的原理相同,对于更加详细的解释内容在此不再赘述。
[0226]
图4为本发明实施例中提供的电子设备实体结构示意图,如图4所示,本发明提供
一种电子设备,包括:处理器(processor)401、存储器(memory)402和总线403;
[0227]
其中,处理器401、存储器402通过总线403完成相互间的通信;
[0228]
处理器401用于调用存储器402中的程序指令,以执行上述各方法实施例中所提供的方法,例如包括:确定待处理数据表中的各个字段的类型,根据字段的类型确定维度字段以及维度字段所对应的单元格集合;其中,维度字段是用于描述单元格中数据所代表含义的字段;获取各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息;根据各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息,确定各个维度字段之间的关系。
[0229]
本发明实施例中提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使所述计算机执行上述各方法实施例中所提供的方法,例如包括:确定待处理数据表中的各个字段的类型,根据字段的类型确定维度字段以及维度字段所对应的单元格集合;其中,维度字段是用于描述单元格中数据所代表含义的字段;获取各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息;根据各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息,确定各个维度字段之间的关系。
[0230]
本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的方法,该方法包括:确定待处理数据表中的各个字段的类型,根据字段的类型确定维度字段以及维度字段所对应的单元格集合;其中,维度字段是用于描述单元格中数据所代表含义的字段;获取各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息;根据各个维度字段所对应的单元格集合的相关信息、构建的交叉表的相关信息以及根据维度字段的类型所确定的信息,确定各个维度字段之间的关系。
[0231]
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0232]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例中所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1