基于大数据和人工智能的数据映射及其纠错方法与流程

文档序号:29963956发布日期:2022-05-11 09:48阅读:423来源:国知局
基于大数据和人工智能的数据映射及其纠错方法与流程

1.本发明涉及数据映射技术领域,更具体地说,它涉及基于大数据和人工智能的数据映射及其纠错方法。


背景技术:

2.在数据采集的过程中,一种比较通用的做法是被采集对象将需要被采集的数据上传到前置数据库或者文件服务器上,采集平台通过大数据采集引擎将数据转换采集到存储中心,在这个过程中,需要建立数据源和目的端之间数据的映射关系,这样才能有效地将数据从数据源采集到中心数据库。
3.对于数据映射关系的建立,传统的做法往往是通过人工建立数据与数据的映射关系,而对于数据源和目的端数据结构比较一致的情况,也可以通过索引或者字段名来自动建立映射关系,但这样的方式有一定的局限性,也容易引发因为人工操作失误或者表名,字段名之间差异性相对较大导致自动映射失败或者出错的问题。同时,因为缺乏有效的检测机制,但映射关系存在错误导致数据采集出错的时候也很难及时发现从而引发数据错乱导致最终结果不可用,不可信。


技术实现要素:

4.针对现有技术存在的不足,本发明的目的在于提供基于大数据和人工智能的数据映射纠错方法及其纠错方法,具有提升数据映射的效率以及准确性的优点。
5.本发明的上述技术目的是通过以下技术方案得以实现的:基于大数据和人工智能的数据映射方法,包括:
6.对数据源和目的端的表名、字段名进行语义识别,得到数据源语义和目的端语义;
7.对每个数据源的每个字段的语义和目的端的所有字段的语义进行相似度比对,得到对应数据源的每个字段的语义相似度列表;
8.根据所述语义相似度列表从映射规则集中确定该数据源与目的端的映射关系;
9.将所有映射关系存储至映射关系库中。
10.可选的,所述根据所述语义相似度列表从映射规则集中确定该数据源与目的端的映射关系,包括:
11.将每个字段的语义相似度列表中各个字段的相似度得分从高到低进行排序;
12.根据语义相似度列表中从高到底的排序判断数据源的字段与目的端的字段的数据类型是否匹配;若匹配,则将相似度最高的目的端字段作为数据源对应字段的目的端;
13.根据该目的端和数据源对应的字段建立映射关系。
14.可选的,所述根据该目的端和数据源对应的字段建立映射关系,包括:
15.判断该目的端的字段与数据源对应的字段的相似度是否达到预设相似度阈值;
16.若未达到阈值,则判断映射规则集中是否存在相同的目的端的字段与数据源对应的字段的映射关系,若存在,则采用映射规则集中的映射方式建立映射关系;
17.若达到阈值,则判断映射规则集中是否存在相等的映射关系表;若存在,则获取该数据集的预设优先方式,根据预设优先方式建立映射关系;若不存在,则使用该目的端的字段与数据源对应的字段建立映射关系。
18.可选的,所述根据预设优先方式建立映射关系,包括:
19.识别预设优先方式内容,若该数据集采用映射规则集优先方式,则根据映射规则集中相等的映射关系表建立映射关系;若该数据集采用相似度优先方式,则使用该目的端的字段与数据源对应的字段建立映射关系。
20.可选的,在所述将所有映射关系存储至映射关系库中之后,还包括:
21.对映射关系库中的映射关系进行分析,根据各个映射关系的出现次数进行排序;
22.将出现次数超过预设出现次数的映射关系,则将该映射关系纳入映射规则集中。
23.基于上述的数据映射方法的纠错方法,包括:
24.判断映射关系库中的所有映射关系是否合理,若不合理,则发出告警并等待干预;
25.将干预后确认的映射关系纳入映射规则集中。
26.可选的,所述判断映射关系库中的所有映射关系是否合理,若不合理,则发出告警并等待干预,包括:
27.判断映射关系库内的每个映射关系的数据源的字段与目的端的字段的数据类型是否相同;若不相同,则发出告警并等待人工干预。
28.可选的,在判断映射关系库内的每个映射关系的数据源的字段与目的端的字段数据类型是否相同之后,还包括:
29.对该映射关系的数据源的字段与目的端的字段的相似度进行分析,得到该映射关系的相似度;
30.判断该映射关系的相似度是否达到预设阈值,若该映射关系的相似度低于预设阈值,则发出告警并等待人工干预。
31.可选的,在判断该映射关系的相似度是否达到预设阈值之后,还包括:
32.通过自然语言对该映射关系中的数据源的字段名及其内容进行匹配度判断;若不匹配,则发出告警并等待人工干预。
33.可选的,所述将干预后确认的映射关系纳入映射规则集中,包括:
34.接收人工干预数据;
35.根据人工干预数据进行判断,若人工干预数据对该映射关系进行确认,则将该映射关系纳入映射规则集中;若人工干预数据对该映射关系进行修改,则将修正后的映射关系纳入映射关系库中,并执行所述判断映射关系库中的所有映射关系是否合理的步骤。
36.综上所述,本发明具有以下有益效果:本方案利用大数据框架结合人工智能机器学习对数据采集中的映射关系建立和检测实现了自动化以及智能化,有效提升了数据映射的效率以及准确性。
附图说明
37.图1为本发明的流程示意图;
38.图2为本发明组装时的结构框图;
39.图3为本发明实施例中计算机设备的内部结构图。
具体实施方式
40.为使本发明的目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。
41.在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
42.在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。术语“垂直的”、“水平的”、“左”、“右”、“上”、“下”以及类似的表述只是为了说明的目的,而不是指示或暗示所指装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
43.下面结合附图和实施例,对本发明进行详细描述。
44.本发明提供了基于大数据和人工智能的数据映射方法,如图1所示,包括:
45.步骤100、对数据源和目的端的表名、字段名进行语义识别,得到数据源语义和目的端语义;
46.步骤200、对每个数据源的每个字段的语义和目的端的所有字段的语义进行相似度比对,得到对应数据源的每个字段的语义相似度列表;
47.步骤300、根据所述语义相似度列表从映射规则集中确定该数据源与目的端的映射关系;
48.步骤400、将所有映射关系存储至映射关系库中。
49.在实际应用中,先通过人工智能分析对数据源和目的端的表名、字段名进行语义识别,分别得到数据源语义和目的端语义,再对每个数据源的每个字段的语义和目的端的所有字段的语义通过人工智能分析计算其相似度,得到对应数据源的每个字段与目的端的所有字段的语义相似度,并制成列表;从该语义相似度列表中选择相似度较高的数据源的字段和目的端的字段,并从映射规则集中查找相同或等同的映射关系,然后将该数据源的所有映射关系存储再映射关系库内。
50.进一步地,所述根据所述语义相似度列表从映射规则集中确定该数据源与目的端的映射关系,包括:
51.将每个字段的语义相似度列表中各个字段的相似度得分从高到低进行排序;
52.根据语义相似度列表中从高到底的排序判断数据源的字段与目的端的字段的数据类型是否匹配;若匹配,则将相似度最高的目的端字段作为数据源对应字段的目的端;
53.根据该目的端和数据源对应的字段建立映射关系。
54.在实际应用中,先将语义相似度列表中根据相似度得分从高到底进行排序,并从高到底判断两个字段之间的数据类型是否相匹配,因为不同数据源之间的数据结构类型可能存在差异因此需要通过数据类型集进行判断,只判断大类(如整形和字符型);若匹配,则将相似度最高的字段作为目的端,并建立对应的映射关系。
55.可选的,所述根据该目的端和数据源对应的字段建立映射关系,包括:
56.判断该目的端的字段与数据源对应的字段的相似度是否达到预设相似度阈值;
57.若未达到阈值,则判断映射规则集中是否存在相同的目的端的字段与数据源对应的字段的映射关系,若存在,则采用映射规则集中的映射方式建立映射关系;
58.若达到阈值,则判断映射规则集中是否存在相等的映射关系表;若存在,则获取该数据集的预设优先方式,根据预设优先方式建立映射关系;若不存在,则使用该目的端的字段与数据源对应的字段建立映射关系。
59.在实际应用中,为了确保映射关系正确,故需要先判断目的端与数据源的相似度是否达到预设相似度,若达到阈值,则在映射规则集中查找该映射关系是否已存在于映射规则集中,若存在,则根据该数据集的预设优先方式进行映射关系建立,若不存在,则直接使用该目的端的字段与数据源对应的字段建立映射关系;若相似度未达到阈值,则将该映射关系与映射规则集中的映射关系进行匹配,若相匹配,则根据映射规则集中的映射关系建立该数据源与目的端的映射关系,若不匹配,则映射失败。
60.可选地,所述根据预设优先方式建立映射关系,包括:
61.识别预设优先方式内容,若该数据集采用映射规则集优先方式,则根据映射规则集中相等的映射关系表建立映射关系;若该数据集采用相似度优先方式,则使用该目的端的字段与数据源对应的字段建立映射关系。
62.在实际应用中,根据该数据集的预先设置的优先选择方式,分别为映射规则集优先方式和相似度优先方式,若为映射规则集优先方式,则根据映射规则集中的映射关系表建立映射关系,若为相似度优先方式,则使用该目的端的字段与数据源对应的字段建立映射关系。
63.进一步地,在所述将所有映射关系存储至映射关系库中之后,还包括:
64.对映射关系库中的映射关系进行分析,根据各个映射关系的出现次数进行排序;
65.将出现次数超过预设出现次数的映射关系,则将该映射关系纳入映射规则集中。
66.在实际应用中,大量的映射关系被建立好以后,则可以通过实时或者定时的大数据分析工具对所有映射关系进行分析,提炼沉淀出一些通用的映射规则,利用这些通用的映射规则来提升智能映射的有效性和准确性。
67.本技术还提供了一种基于上述的数据映射方法的纠错方法,包括:
68.步骤500、判断映射关系库中的所有映射关系是否合理,若不合理,则发出告警并等待干预;
69.步骤600、将干预后确认的映射关系纳入映射规则集中。
70.通过上述映射方法得到的映射关系存储在映射关系库内,只需定时判断映射关系库内的所有映射关系是否合理,对不合理的映射关系进行告警并等待人工干预,根据人工干预结果对不合理的映射关系进行处理,并将处理后的映射关系纳入映射规则集中。
71.进一步地,所述判断映射关系库中的所有映射关系是否合理,若不合理,则发出告警并等待干预,包括:
72.判断映射关系库内的每个映射关系的数据源的字段与目的端的字段的数据类型是否相同;若不相同,则发出告警并等待人工干预;
73.若相同,则对该映射关系的数据源的字段与目的端的字段的相似度进行分析,得到该映射关系的相似度;
74.判断该映射关系的相似度是否达到预设阈值,若该映射关系的相似度低于预设阈值,则发出告警并等待人工干预;
75.若达到预设阈值,则通过自然语言对该映射关系中的数据源的字段名及其内容进行匹配度判断;若不匹配,则发出告警并等待人工干预。
76.在实际应用中,后台会通过大数据实时或者定时地对映射规则进行分析,将一些公共的映射关系抽取出来加入到映射规则集中进行沉淀用来提供智能映射的准确率。此外,也会对已有的映射关系进行大数据分析判断其合理性,并对映射异常的字段进行告警提示等待人工干预;首先对数据类型进行判断,若该映射关系中数据源的字段与目的端的字段数据类型不同,则发出告警并等待人工干预,若相同,则对该映射关系中的相似度进行判断,若相似度未达到预设阈值,则发出告警并等待人工确认,若达到阈值,则通过自然语言对该映射关系中的数据源的字段名及其内容进行匹配度判断;若出现字段名和内容不匹配的映射关系(如字段名为姓名,但内容实际上为地址)进行告警等待人工干预。
77.进一步地,所述将干预后确认的映射关系纳入映射规则集中,包括:
78.接收人工干预数据;
79.根据人工干预数据进行判断,若人工干预数据对该映射关系进行确认,则将该映射关系纳入映射规则集中;若人工干预数据对该映射关系进行修改,则将修正后的映射关系纳入映射关系库中,并执行所述判断映射关系库中的所有映射关系是否合理的步骤。
80.在实际应用中,在实际应用中,若存在不合理的映射关系通过人工干预确认为合理后,可将该映射关系加入映射规则集中,以提升智能映射的有效性和准确性;若人工干预对该映射关系进行修改,则将该映射关系纳入映射关系库内,并重复判断的步骤。
81.如图2所示,本发明还提供了基于大数据和人工智能的数据映射及纠错系统,包括:
82.语义识别模块10,用于对数据源和目的端的表名、字段名进行语义识别,得到数据源语义和目的端语义;
83.相似度列表生成模块20,用于对每个数据源的每个字段的语义和目的端的所有字段的语义进行相似度比对,得到对应数据源的每个字段的语义相似度列表;
84.映射关系生成模块30,用于根据所述语义相似度列表从映射规则集中确定该数据源与目的端的映射关系;
85.映射关系存储模块40,用于将所有映射关系存储至映射关系库中;
86.映射关系分析模块50,用于判断映射关系库中的所有映射关系是否合理,若不合理,则发出告警并等待干预;
87.规则提炼模块60,用于将干预后确认的映射关系纳入映射规则集中。
88.进一步地,所述映射关系生成模块30包括:
89.相似度排序单元,用于将每个字段的语义相似度列表中各个字段的相似度得分从高到低进行排序;
90.数据类型匹配单元,用于根据语义相似度列表中从高到底的排序判断数据源的字段与目的端的字段的数据类型是否匹配;若匹配,则将相似度最高的目的端字段作为数据源对应字段的目的端;
91.映射关系建立单元,用于根据该目的端和数据源对应的字段建立映射关系。
92.进一步地,所述映射关系建立单元,包括:
93.相似度判断单元,用于判断该目的端的字段与数据源对应的字段的相似度是否达到预设相似度阈值;
94.映射获取单元,用于若未达到阈值,则判断映射规则集中是否存在相同的目的端的字段与数据源对应的字段的映射关系,若存在,则采用映射规则集中的映射方式建立映射关系;
95.预设映射建立单元,用于若达到阈值,则判断映射规则集中是否存在相等的映射关系表;若存在,则获取该数据集的预设优先方式,根据预设优先方式建立映射关系;若不存在,则使用该目的端的字段与数据源对应的字段建立映射关系。
96.进一步地,还包括:
97.频率分析模块,用于对映射关系库中的映射关系进行分析,根据各个映射关系的出现次数进行排序;
98.规则纳入模块,用于将出现次数超过预设出现次数的映射关系,则将该映射关系纳入映射规则集中。
99.进一步地,所述映射关系分析模块50包括:
100.数据类型判断单元,用于判断映射关系库内的每个映射关系的数据源的字段与目的端的字段的数据类型是否相同;若不相同,则发出告警并等待人工干预;
101.相似度分析单元,用于对该映射关系的数据源的字段与目的端的字段的相似度进行分析,得到该映射关系的相似度;
102.相似度告警单元,用于判断该映射关系的相似度是否达到预设阈值,若该映射关系的相似度低于预设阈值,则发出告警并等待人工干预;
103.自然语言判断单元,用于通过自然语言对该映射关系中的数据源的字段名及其内容进行匹配度判断;若不匹配,则发出告警并等待人工干预。
104.进一步地,所述规则提炼模块60包括:
105.数据接收单元,用于接收人工干预数据;
106.映射修改单元,用于根据人工干预数据进行判断,若人工干预数据对该映射关系进行确认,则将该映射关系纳入映射规则集中;若人工干预数据对该映射关系进行修改,则将修正后的映射关系纳入映射关系库中,并回到所述判断映射关系库中的所有映射关系是否合理的步骤。
107.关于基于大数据和人工智能的数据映射及纠错系统的具体限定可以参见上文中对于基于大数据和人工智能的数据映射及其纠错方法的限定,在此不再赘述。上述基于大数据和人工智能的数据映射及纠错系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以
软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
108.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机程序被处理器执行时以实现基于大数据和人工智能的数据映射及其纠错方法。
109.本领域技术人员可以理解,图3中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
110.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:对数据源和目的端的表名、字段名进行语义识别,得到数据源语义和目的端语义;
111.对每个数据源的每个字段的语义和目的端的所有字段的语义进行相似度比对,得到对应数据源的每个字段的语义相似度列表;
112.根据所述语义相似度列表从映射规则集中确定该数据源与目的端的映射关系;
113.将所有映射关系存储至映射关系库中;
114.判断映射关系库中的所有映射关系是否合理,若不合理,则发出告警并等待干预;
115.将干预后确认的映射关系纳入映射规则集中。
116.在一个实施例中,所述根据所述语义相似度列表从映射规则集中确定该数据源与目的端的映射关系,包括:
117.将每个字段的语义相似度列表中各个字段的相似度得分从高到低进行排序;
118.根据语义相似度列表中从高到底的排序判断数据源的字段与目的端的字段的数据类型是否匹配;若匹配,则将相似度最高的目的端字段作为数据源对应字段的目的端;
119.根据该目的端和数据源对应的字段建立映射关系。
120.在一个实施例中,所述根据该目的端和数据源对应的字段建立映射关系,包括:
121.判断该目的端的字段与数据源对应的字段的相似度是否达到预设相似度阈值;
122.若未达到阈值,则判断映射规则集中是否存在相同的目的端的字段与数据源对应的字段的映射关系,若存在,则采用映射规则集中的映射方式建立映射关系;
123.若达到阈值,则判断映射规则集中是否存在相等的映射关系表;若存在,则获取该数据集的预设优先方式,根据预设优先方式建立映射关系;若不存在,则使用该目的端的字段与数据源对应的字段建立映射关系。
124.在一个实施例中,所述根据预设优先方式建立映射关系,包括:
125.识别预设优先方式内容,若该数据集采用映射规则集优先方式,则根据映射规则集中相等的映射关系表建立映射关系;若该数据集采用相似度优先方式,则使用该目的端的字段与数据源对应的字段建立映射关系。
126.在一个实施例中,在所述将所有映射关系存储至映射关系库中之后,还包括:
127.对映射关系库中的映射关系进行分析,根据各个映射关系的出现次数进行排序;
128.将出现次数超过预设出现次数的映射关系,则将该映射关系纳入映射规则集中。
129.在一个实施例中,所述判断映射关系库中的所有映射关系是否合理,若不合理,则发出告警并等待干预,包括:
130.判断映射关系库内的每个映射关系的数据源的字段与目的端的字段的数据类型是否相同;若不相同,则发出告警并等待人工干预。
131.在一个实施例中,在判断映射关系库内的每个映射关系的数据源的字段与目的端的字段数据类型是否相同之后,还包括:
132.对该映射关系的数据源的字段与目的端的字段的相似度进行分析,得到该映射关系的相似度;
133.判断该映射关系的相似度是否达到预设阈值,若该映射关系的相似度低于预设阈值,则发出告警并等待人工干预。
134.在一个实施例中,在判断该映射关系的相似度是否达到预设阈值之后,还包括:
135.通过自然语言对该映射关系中的数据源的字段名及其内容进行匹配度判断;若不匹配,则发出告警并等待人工干预。
136.在一个实施例中,所述将干预后确认的映射关系纳入映射规则集中,包括:
137.接收人工干预数据;
138.根据人工干预数据进行判断,若人工干预数据对该映射关系进行确认,则将该映射关系纳入映射规则集中;若人工干预数据对该映射关系进行修改,则将修正后的映射关系纳入映射关系库中,并执行所述判断映射关系库中的所有映射关系是否合理的步骤。
139.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
140.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
141.以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1