一种基于聚合相似度的深度哈希的不平衡商标检索方法

文档序号:29166791发布日期:2022-03-09 02:54阅读:222来源:国知局
一种基于聚合相似度的深度哈希的不平衡商标检索方法

1.本发明涉及计算机技术领域,更具体地,涉及一种基于聚合相似度的深度哈希的不平衡商标检索方法。


背景技术:

2.商标作为一种重要的知识产权,在社会经济发展中发挥着举足轻重的作用。如何快速有效地从海量的商标中检索出近似商标将非常有助于商标审查人和商标所有者的申请人。因此,针对巨大规模的商标库,研究准确和快速的商标检索方法具有十分重要的现实意义。
3.由于官方专利库数字化起步晚,收录的商标图像不齐全。因此,与其他数据集一样,官方商标数据库也存在数据不平衡的问题。如果训练数据不平衡,大多数现有的学习算法会对多数类产生学习偏差,导致少数类识别性能较差。
4.目前缓解数据不平衡问题的方法可以划分为两大类:欠采样和过采样。然而,对于商标检索这一类任务,务必需要保证数据的真实性;通过捏造合成的操作,即使模型训练得再好,也缺乏现实意义。因此,在进行商标检索任务中,构建的训练算法在优化检索性能的同时,应尽量不加重商标数据的不平衡。
5.随着深度学习的发展,通过深度学习获取哈希码的方法越来与越受到重视,原因有两个。第一,深度学习强大的表征能力可以学习非常复杂的哈希函数。第二,深度学习可以实现端到端的哈希码学习,这在商标检索应用中非常有用。但是,现有的商标图像数据之间不相似的数据对远大于相似对的数量,所以从商标数据对之间的关系方法来全面地进行学习有着一定的局限性。


技术实现要素:

6.为解决背景技术中现有的商标检索方法存在的数据不平衡、检索结果准确率低的问题,本发明提供一种基于聚合相似度的深度哈希的不平衡商标检索方法。该方法结合了深度学习技术和哈希技术的优点,加入内置的聚合相似度机制和稀疏哈希编码模块经过训练后,使同类商标靠近、不同类商标远离,从而提高商标训练的表征能力,解决了数据类间不平衡带来的检索问题。
7.为实现上述目的,本发明的基于聚合相似度的深度哈希的不平衡商标检索方法的技术方案如下:
8.一种基于聚合相似度的深度哈希的不平衡商标检索方法,具体包括以下步骤:
9.s1.构建基于聚合相似度的深度哈希神经网络的网络架构,并初始化所述神经网络参数;
10.s2.通过哈达玛矩阵和bern随机采样的良好属性生成商标哈希簇心c={c1,c2,

,cm},其中,m为商标哈希簇心,即等于商标类的总数目,q表示哈希编码位数;
11.s3.基于s2预设的商标哈希簇心c,构建商标语义哈希簇心c

={c1′
,c2′
,

,cn′
},n为商标训练集的总样本数目;
12.s4.对于商标数据集训练集的训练样本xi,通过稀疏哈希编码模块获得训练集哈希编码集;
13.s5.计算argminl
t
损失并执行反向传播以优化神经网络参数,直至模型收敛,生成基于聚合相似度的深度哈希神经网络。
14.进一步地,所述神经网络的网络架构包括一个基于卷积神经网络的特征提取器、一个基于聚合相似度的哈希编码器和一个基于汉明距离匹配的分类器构成;所述特征提取器选用卷积神经网络架构alexnet作为骨干;所述卷积神经网络架构alexnet由7个权重层构成,包括5个卷积层和2个全连接层;第一、第二和第五个卷积层之后均使用三个最大池化层。
15.进一步地,所述第一个卷积层有96个大小为11*11的滤波器,步长为4个像素,填充为 2个像素;其他卷积层的步长和填充均被设置为1个像素;第二个卷积层有256个大小为5*5 的滤波器;第三、第四和第五卷积层分别有384、384和256个大小为3*3的滤波器;所述特征提取器接收到数据进行处理产生高维特征,每一个全连接层学习一个非线性映射图 z:
16.其中,表示输入x在第l层的隐藏表征,w
l
和b
l
分别表示第l层的权重参数和偏置参数, a
l
表示激活函数单元;
17.所有隐层层激活函数均选用relu单元:a
l
(x)=max(0,x)。
18.进一步地,所述卷积神经网络的最后一层为包含k个隐藏单元的哈希层,所述哈希层通过函数
19.其中,l表示总层数,当alexnet作为特征提取器时,l=8;表示哈希层的隐藏表征;
20.所述哈希层利用双曲线正切tanh激活函数a
l
(x)=tanh(x),将其输出压缩到[-1,1]以内,使得哈希层的隐藏表征编码成二进制位码。
[0021]
进一步地,所述步骤s2更具体为:构建q
×
q哈达玛矩阵根据所述哈达玛矩阵构建商标哈希簇心,具体如公式(1)-(2)所示:
[0022][0023][0024]
其中,当m≤q时,表示商标哈希中心ci;当q≤m≤2q,表示商标哈希中心ci。
[0025]
进一步地,所述步骤s3更具体为:将整体4096维的特征向量稀疏为4096/q段特征向量,其中q是二进制哈希码的维度,即接着由像素特征向量生成二进制哈希编码;商标哈希编码函数具体由公式(3)所示:
[0026][0027]
其中,i=1,2,

,n;k=1,2,

,q;
[0028]
接着引入稀疏编码阈值函数,通过量化步骤降低映射误差;对于中间变量接着引入稀疏编码阈值函数,通过量化步骤降低映射误差;对于中间变量阈值函数如公式(4)所示:
[0029][0030]
其中,δ是一个很小的正超参数。
[0031]
进一步地,所述步骤s5更具体为:
[0032]
s51.商标训练集的总样本数目为n,对于单标签商标数据,训练集中每一商标样本均一一对应其中的一个商标哈希簇心,对于每一训练样本xi对应映射的哈希簇心定义为商标语义哈希簇心ci′
,i=1,2,

,n;
[0033]
s52.给定商标哈希簇心c={c1,c2,

,cm}和训练样本xi,i=1,2,

,n,获得商标的语义簇心集合c

={c1′
,c2′
,

,cn′
};
[0034]
s53.根据商标的语义簇心集合c

和总样本商标哈希编码集合h获得c

和h之间的相似度损失lc;
[0035]
s54.根据所述相似度损失lc和lq获得商标哈希簇心的优化公式;
[0036]
其中,lq表示一个导数难以计算的非光滑函数,通过使用光滑函数进行替换, |x|≈log(cosh),lq计算如式(5)所示:
[0037][0038]
进一步地,所述步骤s53具体为:由kl散度和朴素贝叶斯属性分析,通过求h关于c

的对数最大后验概率来量化以获得c

和h之间的相似度损失lc,具体如式(6)所示:
[0039][0040]
其中,p(c

)为定值,上述公式放缩如下所示:
[0041][0042]
其中,p(h)是先验分布,和p(c

|h)是似然函数;将p(c

|h)建模为gibbs分布:其中α和β为常数,disth为哈希码与对应商标哈希语义簇心之间的汉明距离。
[0043]
所述哈希码与对应商标哈希语义簇心之间的汉明距离由二进制交叉熵bce测量,即disth(c
′i,hi)=bce(c
′i,hi),具体如式(8)所示:
[0044][0045]
进一步地,所述c

和h之间的相似度损失lc中的p(c
′i|hi)取相反数,故相似度损失
lc如式(9)所示:
[0046][0047]
进一步地,所述步骤s54更具体为:根据所述相似度损失lc和lq,获得商标哈希中心的优化公式,具体如公式(10)所示:
[0048][0049]
其中θ为深度散列函数学习的所有参数的集合,λ1为超参数。
[0050]
与现有技术相比,本发明的优点及有益效果为:本发明的深度哈希的不平衡商标检索方法结合了深度学习技术和哈希技术的优点,加入内置的聚合相似度机制和稀疏哈希编码模块经过训练后,使同类商标靠近、不同类商标远离,从而提高商标训练的表征能力,解决了数据类间不平衡带来的检索问题。另外,本发明的深度哈希的不平衡商标检索方法与现有的商标检索方法相比,具有较高的平均准确率。
附图说明
[0051]
图1为基于聚合相似性的深度哈希神经网络网络架构示意图;
[0052]
图2为alexnet网络架构示意图;
[0053]
图3为32数据集不同网络的pr曲线的结果示意图;
[0054]
图4为32数据集精度w.r.t.不同的代码长度示意图;
[0055]
图5为drinklogos-50数据集不同网络的pr曲线的结果示意图;
[0056]
图6为drinklogos-50数据集精度w.r.t.不同的代码长度。
具体实施方式
[0057]
附图仅用于示例性说明,不能理解为对本专利的限制。
[0058]
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。另外,需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
[0059]
实施例1
[0060]
一种基于聚合相似度的深度哈希的不平衡商标检索方法,具体包括以下步骤:
[0061]
s1.构建基于聚合相似度的深度哈希神经网络的网络架构,并初始化所述神经网络参数;
[0062]
s2.通过哈达玛矩阵和bern随机采样的良好属性生成商标哈希簇心c={c1,c2,

,cm},其中,商标哈希簇心m等于商标类的总数目,q为哈希编码位数;
[0063]
s3.基于s2预设的商标哈希簇心c,构建商标语义哈希簇心c

={c1′
,c2′
,

,cn′
},n为商标训练集的总样本数目;
[0064]
s4.对于商标数据集训练集的训练样本xi,通过稀疏哈希编码模块获得训练集哈
希编码集;
[0065]
s5.计算argminl
t
损失并执行反向传播以优化神经网络参数,直至模型收敛,生成基于聚合相似度的深度哈希神经网络。
[0066]
实施例2
[0067]
本实施例基于实施例1,对本发明的一种基于聚合相似度的深度哈希的不平衡商标检索方法的技术方案作进一步说明。
[0068]
一种基于聚合相似度的深度哈希的不平衡商标检索方法,具体包括以下步骤:
[0069]
s1.构建基于聚合相似度的深度哈希神经网络的网络架构,并初始化所述神经网络参数;
[0070]
如图1所示,基于聚合相似度的深度哈希网络asdhn包括一个基于卷积神经网络的特征提取器、一个基于聚合相似度的哈希编码器和一个基于汉明距离匹配的分类器构成。所述特征提取器选用卷积神经网络架构alexnet作为骨干,如图2所示。所述卷积神经网络架构 alexnet由7个权重层构成,包括5个卷积层和2个全连接层;第一、第二和第五个卷积层之后均使用三个最大池化层。
[0071]
所述第一个卷积层有96个大小为11*11的滤波器,步长为4个像素,填充为2个像素;其他卷积层的步长和填充均被设置为1个像素;第二个卷积层有256个大小为5*5的滤波器;第三、第四和第五卷积层分别有384、384和256个大小为3*3的滤波器;所述特征提取器接收到数据进行处理产生高维特征,每一个全连接层学习一个非线性映射图z:接收到数据进行处理产生高维特征,每一个全连接层学习一个非线性映射图z:其中,表示输入x在第l层的隐藏表征,w
l
和b
l
分别表示第l层的权重参数和偏置参数, a
l
表示激活函数单元;所有隐层层激活函数均选用relu单元:a
l
(x)=max(0,x)。
[0072]
为了进行哈希函数学习,本实施例中卷积神经网络的最后一层为包含k个隐藏单元的哈希层,所述哈希层通过函数其中,l表示总层数,当alexnet作为特征提取器时,l=8;表示哈希层的隐藏表征。
[0073]
所述哈希层利用双曲线正切tanh激活函数a
l
(x)=tanh(x),将其输出压缩到[-1,1]以内,使得哈希层的隐藏表征编码成二进制位码。
[0074]
s2.通过哈达玛矩阵和bern随机采样的良好属性生成商标哈希簇心c={c1,c2,

,cm},其中,商标哈希簇心m等于商标类的总数目,q为哈希编码位数;
[0075]
所述商标哈希簇心表示在q维的汉明空间中不同类别的商标图像的哈希簇心满足其中,各个商标类别哈希簇心平均成对距离满足下式。
[0076][0077]
其中,disth是为汉明空间中的汉明距离,m为商标哈希中心的数量也就是图形商标要素分类的数量,t为不同商标哈希中心ci和cj的组合数。想要实现商标类间远离,即任意两个哈希聚合簇心之间距离应至少需要满足不小于q/2。进一步,想要实现商标类间在超维空间中各自独立,则任意两个哈希聚合簇心向量相互垂直,即任意簇心的内积应等于0:《ci
,ci》=0。
[0078]
通过利用哈达玛矩阵的良好属性来生成商标哈希簇心。进一步地,构建q
×
q哈达玛矩阵由哈达玛矩阵自身属性可知,哈达玛矩阵是相互正交的方阵,即对任意不同两行向量的内积值求解都为0。值得注意的是,哈达玛矩阵另外一个更重要的特性是,其任意两行向量之间的汉明距离为了简便计算,q取值为2的幂,即另外,由于哈达玛矩阵是由+1和-1元素构成的方阵。利用哈达玛矩阵构建商标哈希簇心如下:
[0079][0080][0081]
根据上述哈达玛矩阵,当m≤q时,将表示为商标哈希中心ci。当 q≤m≤2q,将表示为商标哈希中心ci。
[0082]
利用上述两种生成方法获取到的商标哈希簇心以后,统一将每一位上的-1值替换成0,使得商标哈希簇心继续满足在当m》q时,使哈希簇心向量的每一位为伯努利随机变量,即由伯努利随机分布和汉明距离的属性容易证得,两两商标哈希簇心的期望e[disth(ci,cj)]满足以下条件:
[0083][0084]
由此分析,参数m、q不管符合哪种数量大小关系,其构建的商标哈希簇心的空间距离均满足上述的商标类别哈希簇心平均成对距离公式。
[0085]
s3.基于s2预设的商标哈希簇心c,构建商标语义哈希簇心c

={c1′
,c2′
,

,cn′
},n为商标训练集的总样本数目;
[0086]
由s2方法可获取商标哈希簇心c={c1,c2,

,cm},满足m为商标哈希簇心,即等于商标类的总数目。回想商标训练集的总样本数目为n,对于单标签商标数据,训练集中每一商标样本均一一对应其中的一个商标哈希簇心,对于每一训练样本xi对应映射的哈希簇心定义为商标语义哈希簇心ci′
,i=1,2,

,n。因此,给定商标哈希簇心c= {c1,c2,

,cm}和训练样本xi,i=1,2,

,n。将对应获得商标的语义簇心集合 c

={c1′
,c2′
,

,cn′
}。
[0087]
s4.对于商标数据集训练集的训练样本xi,通过稀疏哈希编码模块获得训练集哈希编码集;
[0088]
所述稀疏编码模块实现过程为,将整体4096维的特征向量稀疏为4096/q段特征向量,其中q是二进制哈希码的维度,即接着由像素特征向量生成二进制哈希编码;商标哈希编码函数具体由下式所示:
[0089]
[0090]
其中,i=1,2,

,n;k=1,2,

,q;
[0091]
为了使得生成的二进制哈希码更进一步保留更多的语义信息,接着引入稀疏编码阈值函数,通过量化步骤降低映射误差;对于中间变量阈值函数如下式所示:
[0092][0093]
其中,δ是一个很小的正超参数。
[0094]
稀疏编码模块将像素特征向量先划分为q段像素特征向量,再做并行哈希映射,最后进行拼接操作组成q维紧凑二进制代码。与现有的简单全连接相比,稀疏哈希编码减少哈希位之间的像素编码冗余。进一步来讲,在一张静态图像中的单个像素对图像视觉贡献常常是冗余的,很多像素是可以借助相邻像素的灰度值进行推断。然而,原来简单全连接方案中,每个哈希位是基于整个输入像素特征向量生成,这可能不可避免地导致哈希位之间的冗余。
[0095]
s5.计算argminl
t
损失并执行反向传播以优化神经网络参数,直至模型收敛,生成基于聚合相似度的深度哈希神经网络。
[0096]
s51.商标训练集的总样本数目为n,对于单标签商标数据,训练集中每一商标样本均一一对应其中的一个商标哈希簇心,对于每一训练样本xi对应映射的哈希簇心定义为商标语义哈希簇心ci′
,i=1,2,

,n。
[0097]
s52.给定商标哈希簇心c={c1,c2,

,cm}和训练样本xi,i=1,2,

,n,获得商标的语义簇心集合c

={c1′
,c2′
,

,cn′
}。
[0098]
s53.根据商标的语义簇心集合c

和总样本商标哈希编码集合h获得c

和h之间的相似度损失lc;
[0099]
将有商标训练样本通过商标哈希编码函数hi进行映射,获得总样本商标哈希编码集合 h={h1,h2,

,hn}。
[0100]
接着根据kl散度和朴素贝叶斯属性分析,通过求h关于c

的对数最大后验概率来量化以获得c

和h之间的相似度损失lc,具体如下式所示:
[0101][0102]
其中,p(c

)为定值,上述公式放缩如下所示:
[0103][0104]
其中,p(h)是先验分布,和p(c

|h)是似然函数;将p(c

|h)建模为gibbs分布:其中α和β为常数,disth为哈希码与对应商标哈希语义簇心之间的汉明距离。
[0105]
所述哈希码与对应商标哈希语义簇心之间的汉明距离由二进制交叉熵bce测量,即 disth(c
′i,hi)=bce(c
′i,hi),具体如下式所示:
[0106][0107]
容易得知,p(c
′i|hi)越大,则哈希码hi和哈希语义簇心c
′i之间汉明距离越小,即哈希码hi更积极地向哈希语义簇心c
′i靠近。
[0108]
为了适应损失使用习惯,所述c

和h之间的相似度损失lc中的p(c
′i|hi)取相反数,故相似度损失lc如下式所示:
[0109][0110]
s54.根据所述相似度损失lc和lq获得商标哈希中心的优化公式;
[0111]
其中,lq表示一个导数难以计算的非光滑函数,通过使用光滑函数进行替换, |x|≈log(cosh),lq计算如下式所示:
[0112][0113]
根据所述相似度损失lc和lq,获得商标哈希中心的优化公式,具体如下公式所示:
[0114][0115]
其中θ为深度散列函数学习的所有参数的集合,λ1为超参数。
[0116]
实施例3
[0117]
基于实施例1和实施例2的基于聚合相似度的深度哈希网络在商标检索方法,本实施例分别在drinklogos-50数据集(可以在github/xxx.com找到)和公开数据集flickerlogos-32 上进行实验,横向对比了目前在商标检索应用上效果较优的哈希方法。
[0118]
在实验中,采用的硬件平台为ubuntu18.4 lts系统,64gb内存,(nividia)geforce rtx tm
2080 ti显卡*4;软件环境为python 3.7,torchvision 0.5.0,pytorch 1.4。
[0119]
在对比过程中,分别采用本发明的方法和当前商标哈希检索最先进方法,其采用的骨干网络分别为alexnet和resnet。网络已经在imagenet上进行了预训练。采用alexnet骨干网络的模型用星号标记。
[0120]
通过对比可知,在不同的位数的哈希编码中,提出的asdhn结果优于当前先进的商标检索方法。加入稀疏哈希编码模块后性能有更进一步的提升。使用scm的asdhn的性能比 dsh高3-23%。具体来说,在alexnet作为骨干网络算法中(下文直接用星号表示),在32 位代码下获得map为97.2%的最好性能。和在resnet作为骨干网络算法中,在32位代码下获得map为97.4%的最好性能。可以发现,不管使用alexnet还是resnet作为特征提取器,提出的asdhn的性能都明显更稳定,验证了聚合哈希簇心训练方式的优越性。另外,训练商标样本数目大幅度增加后。与flickerlogos-32数据集相比,本发明的检索方法的性能均有提升,而使用dsh的商标检索方法却存在部分性能下降。具体如表1所示。
[0121]
表1图像检索中不同位汉明排序图的比较
[0122][0123]
在p-r评估指标下,flickerlogos-32数据集和drinklogos-50数据集的性能分别如图3 至图6所示。其中带星号的方法表示使用alexnet作为骨干网络,否则表示使用resnet作为骨干网络。由图可知,本发明的方法的p-r曲线均呈现凸型,而dsh的方法在商标数据样本和类标签数均增加的情况下却性能严重受限。由此可得,本发明的方法在训练样本增加的情况下性能可以保持或者提升,本发明的聚合相似度方法在更大规模的商标检索任务中具有良好的泛化性。
[0124]
观察哈希编码不同长度的性能曲线,如图4和图6所示,在长度为32位的情况下商标检索的map性能取得最高,编码位数过短和过长均会影响哈希映射的语义相关性。可见,哈希编码长度过短可能映射不完全,而过长则导致编码冗余。
[0125]
另外,在表2和表3中,本发明的的方法在收敛时间和训练迭代次数最少。结果收敛慢,说明理念模型和现实模型之间存在一定的语义鸿沟。相反,结果收敛快,可以进一步验证提出的聚合相似度商标检索方法的有效性,即预设的模型在映射过程中可以很好地保留图像的语义信息。再者,在和对比方法的收敛时间相近的情况下,本发明的的方法的检索准确率map 有显著的提升。这些良好的检索准确度某种程度说明我们提出的聚合相似度深度哈希网络可以使得各类商标图像在汉明空间中分布紧凑且独立,即尽量达到类内聚合、类间远离的效果。
[0126]
表2 flickerlogos-32数据集:其他图像检索指标的比较
[0127][0128]
表3 drinklogos-50数据集:其他图像检索指标的比较
[0129][0130]
上述实施例中,选取alexnet作为特征提取器,用于对商标图像的高级语义特征表征学习。聚合相似度哈希模块则作为编码器,将商标的高维特征映射到汉明空间,并且遵循相似数据聚合、非相似数据远离的惩罚机制。同时加入了稀疏编码模块来降低哈希映射的编码冗余性。与现有技术相比,asdhn获得了显著的计算效率和检索精度。另外,基于聚合相似度的深度哈希方法在商标检索准确性和检索时间都具有较好的性能。
[0131]
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1