本发明涉及检索,尤其涉及一种非对称的哈希检索方法及终端。
背景技术:
1、公布号为cn110909027a,名称为“一种哈希检索方法”的中国专利申请文件,通过引入spark分布式集群,将原始数据和查询数据平均分配至spark分布式集群的每个节点进行并行计算,包括排序计算和梯度下降求解最优参数,求得原始数据和查询数据哈希编码用于检索问题。公布号为cn111522903a,名称为“一种深度哈希检索方法、设备及介质”的中国专利申请文件,通过训练多组训练样本及预训练的哈希模型生成并存储各文本样本对应的哈希编码;输入新的检索文本和待检索文本,获取对应哈希编码;计算和存储文本的哈希编码,确定检索结果。
2、上述的第一份专利申请文件的工作只将原始数据分割以降低梯度求解过程的时间消耗,忽略了原始数据样本分割的方式不同会产生不同的哈希函数,而不同的哈希函数会带来检索效果的偏差;并且,简单分割原始数据,未将原始数据样本之间的相似度信息加入到目标函数中,这样会使得原始数据集中的数据样本间的成对的相似度信息丢失,降低了哈希函数的效力。
3、而第二份专利申请文件的工作只针对文本数据训练和学习哈希模型,模型很大程度依赖于数据本身特征,使得模型的泛化能力不够高。
4、综上所述,上述两份现有技术都无法有效地提高检索的准确性和效率。
技术实现思路
1、本发明所要解决的技术问题是:提供一种非对称的哈希检索方法及终端,能够有效地提高检索的准确性和效率。
2、为了解决上述技术问题,本发明采用的一种技术方案为:
3、一种非对称的哈希检索方法,包括步骤:
4、将输入的原始数据划分为查询数据集和检索数据集,并计算所述查询数据集和检索数据集的原始相似度矩阵;
5、分别对所述查询数据集和检索数据集根据初始化投影矩阵进行哈希处理,得到哈希后的查询数据集和哈希后的检索数据集,并根据所述哈希后的查询数据集和哈希后的检索数据集得到最新相似度矩阵;
6、以最小化原始相似度矩阵和最新相似度矩阵的距离为目标,优化所述初始化投影矩阵,得到最优的投影矩阵以及与所述最优的投影矩阵对应的最优的哈希函数;
7、获取待检索的数据,并基于所述最优的哈希函数对所述待检索的数据进行数据检索,得到检索结果。
8、为了解决上述技术问题,本发明采用的另一种技术方案为:
9、一种非对称的哈希检索终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
10、将输入的原始数据划分为查询数据集和检索数据集,并计算所述查询数据集和检索数据集的原始相似度矩阵;
11、分别对所述查询数据集和检索数据集根据初始化投影矩阵进行哈希处理,得到哈希后的查询数据集和哈希后的检索数据集,并根据所述哈希后的查询数据集和哈希后的检索数据集得到最新相似度矩阵;
12、以最小化原始相似度矩阵和最新相似度矩阵的距离为目标,优化所述初始化投影矩阵,得到最优的投影矩阵以及与所述最优的投影矩阵对应的最优的哈希函数;
13、获取待检索的数据,并基于所述最优的哈希函数对所述待检索的数据进行数据检索,得到检索结果。
14、本发明的有益效果在于:通过将输入的原始数据划分为查询数据集和检索数据集,计算二者的原始相似度矩阵,根据哈希后的查询数据集和检索数据集得到最新相似度矩阵,以最小化原始相似度矩阵和最新相似度矩阵的距离为目标,优化初始化投影矩阵,得到最优的投影矩阵以及与最优的投影矩阵对应的最优的哈希函数,能够学习到两个非对称的投影矩阵,用以组成两个不同的哈希函数,在求解的过程中目的是保留哈希过程前后的数据样本之间的相似性,具体表现在最小化哈希前后的相似度矩阵的差异,使得最优的哈希函数能最大程度地保留原始数据间的相似度,从而有效地提高检索的准确性和效率。
1.一种非对称的哈希检索方法,其特征在于,包括步骤:
2.根据权利要求1所述的一种非对称的哈希检索方法,其特征在于,所述计算所述查询数据集和检索数据集的原始相似度矩阵包括:
3.根据权利要求1所述的一种非对称的哈希检索方法,其特征在于,所述分别对所述查询数据集和检索数据集根据初始化投影矩阵进行哈希处理,得到哈希后的查询数据集和哈希后的检索数据集包括:
4.根据权利要求3所述的一种非对称的哈希检索方法,其特征在于,所述以最小化原始相似度矩阵和最新相似度矩阵的距离为目标包括:
5.根据权利要求4所述的一种非对称的哈希检索方法,其特征在于,所述最优的投影矩阵包括与所述查询数据集对应的最优的第一投影矩阵以及与所述检索数据集对应的最优的第二投影矩阵;
6.根据权利要求5所述的一种非对称的哈希检索方法,其特征在于,所述转化后的目标为:
7.根据权利要求4所述的一种非对称的哈希检索方法,其特征在于,所述最优的投影矩阵包括与所述查询数据集对应的最优的第一投影矩阵以及与所述检索数据集对应的最优的第二投影矩阵;
8.根据权利要求7所述的一种非对称的哈希检索方法,其特征在于,所述转化后的目标为:
9.根据权利要求5或7所述的一种非对称的哈希检索方法,其特征在于,所述待检索的数据包括待检索的查询数据或待检索的检索数据;
10.一种非对称的哈希检索终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的一种非对称的哈希检索方法中的各个步骤。