本发明涉及多源数据整合,具体是一种用于云端数据存储的多源数据整合方法。
背景技术:
1、经过多年的科技创新和数据技术的不断发展,数据已经成为我们生活和工作中必不可少的一部分,我们面对着海量的数据,这些数据来自各种各样的来源,包括传感器、卫星、社交网络、新闻媒体等。
2、现有的数据整合技术中,数据虽然具有很高的价值,但数据来源的异质性、不确定性以及数据质量的差异性给其利用带来了很大的挑战,尤其当各个数据源头对数据的编码方式不同时,如何将来源不同且编码方式不同的数据统一整合存储,保证数据的准确性、全面性与可靠性,是我们要解决的问题,为此,现提供一种用于云端数据存储的多源数据整合方法。
技术实现思路
1、为了解决上述技术问题,本发明的目的在于提供一种用于云端数据存储的多源数据整合方法。
2、为了实现上述目的,本发明提供如下技术方案:
3、一种用于云端数据存储的多源数据整合方法,其特征在于,包括:
4、步骤s1:建立云端存储中心,在各个数据源头设置上传节点,对各个上传节点进行编号,通过各个上传节点上传各个数据源头的编码方式,根据各个编码方式生成编码对照表集合;
5、步骤s2:将初始数据按照各自的编码方式进行编码后,插入多项式校验码与标签校验码,得到待存储数据,并通过上传节点将待存储数据传输至云端存储中心;
6、步骤s3:根据多项式校验码判断待存储数据在传输过程中是否发生异常,并根据编码对照表以及待存储数据中的标签校验码,将待存储数据进行解码后得到初始数据,并对初始数据重新编码后进行存储。
7、进一步的,其特征在于,所述云端存储中心的建立过程包括:
8、设置验证终端、整合终端与存储终端;
9、所述验证终端通信连接上传节点,用于对数据源头上传的待存储数据进行数据验证;
10、所述整合终端用于对待存储数据进行整合,统一待存储数据的编码格式;
11、所述存储终端由若干个数据库构成,用于存储整合后的待存储数据。
12、进一步的,所述上传节点上传待存储数据的过程包括:
13、记经数据源头编码后的初始数据为已编码数据;
14、设定一个多项式;
15、将已编码数据转化为数据流,所述数据流由二进制码元构成;
16、对数据流进行分组,得到若干个组;
17、将各个组内的数据流转化为十进制的数,将十进制的数代入多项式中,根据多项式获得十进制的结果;
18、根据各个组的十进制的结果,得到最终的十进制结果,记所得到的十进制结果为多项式校验码;
19、将多项式校验码插入已编码数据的末尾,并插入标签校验码,得到待存储数据,将所获得的待存储数据通过上传节点上传至云端存储中心。
20、进一步的,向已编码数据中插入标签校验码的过程包括:
21、获取对应数据源头的上传节点的编号;
22、设定由m个二进制位构成的二进制代码,记为标签校验码;
23、将上传节点的编号进行二进制编码后,赋值于标签校验码的m个二进制位上;
24、当二进制编码后的编号的二进制位个数不足m时,在其首部插入若干个0,使其满足m个二进制位;
25、进而将得到的标签校验码插入已编码数据的头部。
26、进一步的,所述验证终端对待存储数据进行数据验证的过程包括:
27、从待存储数据中剥离出多项式校验码与标签校验码,得到待验证数据;
28、获取多项式,按照上述过程,获得待验证数据的十进制结果;
29、将获得的十进制结果与多项式校验码进行对比,判断对比结果;
30、当对比结果存在不一致时,待存储数据在通信传输过程中存在异常;
31、当对比结果均一致时,待存储数据在通信传输过程中未出现异常,进而根据标签校验码对待存储数据进行解码。
32、进一步的,所述整合终端对待存储数据进行重新编码的过程包括:
33、根据剥离出来的标签校验码,获得待存储数据对应的上传节点的编号;
34、根据上传节点的编号与编码对照表集合对待存储数据进行编码,得到初始数据;
35、获取初始数据中出现的所有英文字母、数字与标点符号,均记为字符,得到字符集合;
36、获得字符集合中各个字符在初始数据中出现的概率,得到概率集合,根据概率集合搭建编码树状图;
37、字符集合中任意一个字符的编码通过编码树状图中一条或若干条连续的支路获得,记一条或若干条支路为字符的码字;
38、根据编码树状图对字符进行编码时,获取码字的位数,将位数进行十六进制编码,记为后缀码,将所述后缀码插入码字的尾部。
39、进一步的,所述编码树状图的搭建过程包括:
40、根据字符集合与概率集合,得到概率的值最小的两个概率,以字符集合为起点,将值最小的两个概率对应的两个字符作为从起点分出的两个支路,并分别编码为0与1;
41、将两个字符的概率相加,得到新的概率;
42、去除概率集合中值最小的两个概率,并向概率集合中加入新的概率,得到新的概率集合;
43、进而获取新的概率集合中值最小的两个概率,并将这两个概率对应的字符作为分出的新的两个支路,分别编码为0与1;
44、再将这两个概率相加,得到相加后的概率,并在新的概率集合中去除这两个概率,加入相加后的概率,以此类推,得到编码树状图。
45、进一步的,所述存储终端对重新编码后的数据进行存储的过程包括:
46、将重新编码后的初始数据与剥离出来的标签校验码相关联,根据不同的标签校验码将各个重新编码后的初始数据存储于不同的数据库中;
47、并对于任意一个数据库,以标签校验码作为开启数据库的查询功能与更新功能的开启指令;
48、随机设定一个由四位阿拉伯数字构成的秘钥,根据秘钥对开启指令进行加密;
49、将秘钥进行二进制编码,并对m个二进制位的标签校验码进行分组,每四位为一组,得到若干个组;
50、将二进制编码后的秘钥依次与第一组上的各个数进行异或运算,得到最终的异或运算结果;
51、并将最终的异或运算结果由二进制转换为十进制,得到数据库的查询密码;
52、完成对重新编码后的初始数据的存储后,将生成的查询密码通信传输至对应的数据源头。
53、与现有技术相比,本发明的有益效果是:
54、本方法通过采集各个数据源头的编码方式,生成编码对照表,并向不同数据源头上传的数据中插入标签校验码,云端存储中心将上传的数据根据编码对照表进行解码,得到初始数据,并将初始数据进行重新编码后得到统一编码方式的数据,最后云端存储中心将重新编码后的初始数据与对应的标签校验码相关联后存于不同的数据库中,并根据标签校验码生成查询密码,将查询密码传输至对应的数据源头,进而保证数据的准确性、全面性与可靠性。