数据比对方法、装置、设备及存储介质与流程

文档序号:34051572发布日期:2023-05-05 15:48阅读:55来源:国知局
数据比对方法、装置、设备及存储介质与流程

本发明实施例涉及计算机,特别是涉及一种数据比对方法、装置、设备及存储介质。


背景技术:

1、当前,人工智能领域的发展越来越迅速,应用领域也越来越广泛。以数据对比领域为例,例如图片对比,由于底库中的数据量巨大,以一张待比对图片所解析得到的全量数据与底库中每一张底库图片的全量数据进行比对,当极大地耗费算力,耗时多。此外,对原始数据进行解析后得到的数据越来越多,导致整体的运算速度也越来越慢,所以亟需更高效的数据比对方法来提高运算速度,节约算力,降低耗时。


技术实现思路

1、鉴于以上所述现有技术的缺点,本发明的目的在于提供一种数据比对方法、装置、设备及存储介质,用于解决当前数据比对方法运算速度慢,算力浪费多,耗时长的技术问题。

2、针对于上述问题,本发明提供了一种数据比对方法,该方法包括:获取待比对数据,基于待比对数据生成待比对长码和待比对短码;将待比对短码与预设短码数据集中的多个预设短码进行第一次比对,确定多个目标短码;基于各目标短码的预设数据标识,确定目标短码对应的多个候选长码,候选长码和目标短码均与预设数据标识关联;将待比对长码与候选长码进行第二次比对,得到多个目标长码;基于各目标长码关联的目标结构化数据生成待比对数据的初始比对结果。

3、于本发明一实施例中,基于各目标短码的预设数据标识,确定目标短码对应的多个候选长码包括:根据预设分区标识确定目标分区位置,预设分区标识基于预设数据标识得到;基于目标分区位置所指向的预设微服务确定预设磁盘,并通过预设微服务根据预设数据标识读取预设磁盘,得到多个候选长码。

4、于本发明一实施例中,将待比对长码与候选长码进行第二次比对,得到多个目标长码包括:通过预设微服务对待比对长码与候选长码进行第二次比对,得到各候选长码的第二相似度;基于第二相似度从多个候选长码中确定多个目标长码。

5、于本发明一实施例中,通过预设微服务根据预设数据标识读取预设磁盘,得到多个候选长码包括:根据预设数据标识和预设磁盘中多个预设组合文件的预设数据标识进行匹配,以得到与预设数据标识匹配的多个目标组合文件,目标组合文件包括预设长码和预设结构化数据;将预设长码确定为候选长码,得到多个候选长码,以及与候选长码关联的预设结构化数据。

6、于本发明一实施例中,基于各目标长码关联的目标结构化数据生成待比对数据的初始比对结果包括:若将候选长码确定为目标长码,将候选长码关联的预设结构化数据确定为目标结构化数据;根据一目标结构化数据和与一目标结构化数据关联的目标长码生成候选比对子结果,得到多个候选比对子结果;基于多个候选比对子结果生成初始比对结果。

7、于本发明一实施例中,基于各目标长码关联的目标结构化数据生成待比对数据的初始比对结果包括:若将候选长码确定为目标长码,将候选长码关联的预设结构化数据确定为目标结构化数据;根据一目标结构化数据生成候选比对子结果,得到多个候选比对子结果;基于多个候选比对子结果生成初始比对结果。

8、于本发明一实施例中,通过预设微服务根据预设数据标识读取预设磁盘之后,得到多个候选长码还包括:若满足预设条件,预设条件包括至少之一,预设磁盘发生磁盘损坏,预设微服务发生服务漂移;根据预设数据标识从分布式共享存储中匹配得到多个候选长码,分布式共享存储中存储有多个预设长码,以及各预设长码关联的预设数据标识;根据各候选长码的预设数据标识从预设数据库中匹配得到多个预设结构化数据,预设数据库中存储有多个预设结构化数据,以及各预设结构化数据关联的预设数据标识。

9、于本发明一实施例中,基于各目标长码关联的目标结构化数据生成待比对数据的初始比对结果之后,方法还包括:将待比对结构化数据与初始比对结果中的各目标结构化数据进行第三次比对,得到各目标结构化数据的第三相似度,待比对结构化数据基于待比对数据生成;若第三相似度大于预设第三相似度阈值,将目标结构化数据确定为中间比对结果。

10、于本发明一实施例中,将待比对短码与预设短码数据集中的多个预设短码进行第一次比对之前,方法还包括:获取多个预设原始数据,基于预设原始数据生成原始特征数据和预设结构化数据,并基于原始特征数据生成预设短码和预设长码;将各预设原始数据的预设结构化数据存储入预设数据库,将各预设原始数据的原始特征数据存储入分布式共享存储中,基于各预设原始数据的预设短码生成预设短码数据集,并将预设短码数据集存入预设内存;基于预设长码和预设结构化数据生成预设组合文件,并将各预设原始数据的预设组合文件存储于预设磁盘中。

11、于本发明一实施例中,基于预设原始数据生成原始特征数据和预设结构化数据,并基于原始特征数据生成预设短码和预设长码之后,方法还包括:为各预设原始数据配置预设数据标识,预设数据标识包括预设特征标识和预设分区标识,预设特征标识用于区分各预设原始数据,预设分区标识用于表征预设原始数据的组合文件所存储的预设磁盘的磁盘分区位置;将各预设原始数据的预设结构化数据和预设数据标识存储入预设数据库,将各预设原始数据的原始特征数据和预设数据标识存储入分布式共享存储中,基于各预设原始数据的预设短码和预设数据标识生成预设短码数据集,并将预设短码数据集存入预设内存;基于预设长码和预设结构化数据生成预设组合文件,并将各预设原始数据的预设组合文件和预设数据标识存储于预设磁盘中。

12、于本发明一实施例中,为各预设原始数据配置预设数据标识之前,方法还包括:获取当前集群中的多个预设微服务的服务总量和多个预设磁盘的分区总量,分区总量大于或等于服务总量;根据分区数量和服务数量确定参考数值,并确定各预设磁盘的磁盘分区所指向的预设微服务,参考数值包括商值和余数值。

13、于本发明一实施例中,基于各预设原始数据的预设短码和预设数据标识生成预设短码数据集包括:基于各预设原始数据的预设结构化数据确定显著特征存在状态;若预设原始数据的显著特征存在状态为存在,将预设原始数据确定为第一原始数据,基于第一原始数据的预设结构化数据确定预设显著特征,并根据预设显著特征将各第一原始数据的预设短码和预设数据标识划分为至少一个有显著特征预设短码数据子集;若预设原始数据的显著特征存在状态为不存在,将预设原始数据确定为第二原始数据,将各第二原始数据的预设短码和预设数据标识划分为无显著特征预设短码数据子集;基于各有显著特征预设短码数据子集和无显著特征预设短码数据子集生成预设短码数据集。

14、于本发明一实施例中,将待比对短码与预设短码数据集中的多个预设短码进行第一次比对,确定多个目标短码包括:基于待比对数据生成待比对结构化数据,并确定待比对显著特征;若待比对显著特征与有显著特征预设短码数据子集所对应的预设显著特征相同,将有显著特征预设短码数据子集中的预设短码确定为筛选后短码;若无显著特征预设短码数据子集不为空,将无显著特征预设短码数据子集中的预设短码确定为筛选后短码;将待比对短码与各筛选后短码进行第一次比对,确定多个目标短码。

15、本发明实施例还提供了一种数据比对装置,该装置包括:获取模块,用于获取待比对数据,基于待比对数据生成待比对长码和待比对短码;第一比对模块,用于将待比对短码与预设短码数据集中的多个预设短码进行第一次比对,确定多个目标短码;候选长码确定模块,基于各所述目标短码的预设数据标识,确定所述目标短码对应的多个候选长码,候选长码和所述目标短码均与所述预设数据标识关联;第二比对模块,用于将待比对长码与候选长码进行第二次比对,得到多个目标长码;结果生成模块,用于基于各目标长码关联的目标结构化数据生成待比对数据的初始比对结果。

16、本发明实施例还提供了一种电子设备,包括处理器、存储器和通信总线;通信总线用于将处理器和存储器连接;处理器用于执行存储器中存储的计算机程序,以实现如上述实施例中任一项的方法。

17、本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序用于使计算机执行如上述实施例中任一项的方法。

18、如上,本发明提供的一种数据比对方法、装置、设备及存储介质,具有以下有益效果:

19、该方法通过获取待比对数据,基于待比对数据生成待比对长码和待比对短码,将待比对短码与预设短码数据集中的多个预设短码进行第一次比对,确定多个目标短码,基于各目标短码的预设数据标识,确定目标短码对应的多个候选长码,将待比对长码与候选长码进行第二次比对,得到多个目标长码,基于各目标长码关联的目标结构化数据生成待比对数据的初始比对结果,通过将数据比对拆分为短码对比和长码比对,由于短码数据量相对较少,可以提升数据比对的运算速度,节约算力,降低耗时,能够加速特征比对及结构化数据的捞取。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1