信息的匹配方法及装置与流程

文档序号:27429274发布日期:2021-11-17 21:28阅读:163来源:国知局
信息的匹配方法及装置与流程

1.本发明涉及人工智能技术领域,尤其是涉及到信息的匹配方法、装置、计算机设备及计算机存储介质。


背景技术:

2.随着互联网的不断发展,人们每天产生与接收的信息量成爆炸式增长,无形中造成了信息过载的问题。在大量数据集中寻找相似重复的数据是许多网络平台的重要业务,以网络平台中对象为例,商家可以在网络平台上传对象的图片以及简短的对象文字表述。但是不同商家对同一对象所上传的图片可能差异很大,文字描述也存在很大的区别,使得相似对象信息从图片和文字描述方面上很难被辨别,不利于对对象信息进行相似匹配。
3.目前,针对对象信息的匹配主要包括图片匹配和文字描述匹配两种,基于给定的目标对象信息,图片匹配通常使用局部敏感哈希算法对近似的图片进行检测,进而匹配出与目标对象相似的图片,然而,该方式仅从图片本身出发,并未考虑图片中对象的本质,使得匹配到的对象信息准确率较低;文字描述匹配通常使用短文本匹配算法,加入余弦相似度或文本编辑距离等对近似的文字描述进行检索,然而,该方式一般应用于用于信息检索或问答场景,针对标签短语拼凑的文字描述,使得匹配到的对象信息准确率较低。


技术实现要素:

4.有鉴于此,本发明提供了一种信息的匹配方法、装置、计算机设备及计算机存储介质,主要目的在于解决现有技术中基于图片和文字描述匹配得到的对象信息准确率较低的问题。
5.依据本发明一个方面,提供了一种信息的匹配方法,该方法包括:
6.获取不同模态表征的对象信息;
7.针对每种模态表征的对象信息,调用相应模态表征下预先训练的特征取模型进行特征提取,得到具有不同模态属性的嵌入式向量,所述特征提取模型使用加性角度间隔损失函数进行训练,用于从模态表征的对象信息中提取具有模态属性的嵌入式向量;
8.利用邻近向量混合算法,对所述具有不同模态属性的嵌入式向量进行更新,得到融合有相邻向量特征的对象信息向量;
9.计算所述融合有相邻向量特征的对象信息向量之间的相似度,并根据相似度计算结果确定对象信息之间的匹配程度。
10.在本发明另一实施例中,在所述针对每种模态表征的对象信息,调用相应模态表征下预先训练的特征取模型进行特征提取,得到具有不同模态属性的嵌入式向量之前,所述方法还包括:
11.利用网络模型分别对不同模态表征的对象信息样本集进行处理,得到不同模态表征下对象信息的嵌入式向量,所述对象信息样本集中携带有对象类别标签;
12.针对不同模态表征的对象信息样本,使用加性角度间隔损失函数对所述嵌入式向
量与权重矩阵点乘得到的角度进行扰动,并根据扰动后的角度输出的目标特征向量;
13.使用分类函数对所述目标特征向量进行对象信息的类别标签预测,构建每种模态表征下的特征提取模型。
14.在本发明另一实施例中,所述利用网络模型分别对不同模态表征的对象信息样本集进行处理,得到不同模态表征下对象信息的嵌入式向量,具体包括:
15.将所述不同模态表征的对象信息样本集进行向量化,得到不同模态表征的对象向量;
16.利用网络模型的池化层分别对所述不同模态表征的对象向量进行特征聚合,得到不同模态表征的对象特征向量;
17.基于样本维度的批标准化和基于特征维度的正则化对特征聚类的对象特征向量进行标准化处理,得到不同模态表征下对象信息的嵌入式向量。
18.在本发明另一实施例中,所述针对不同模态表征的对象信息样本,使用加性角度间隔损失函数对所述嵌入式向量与权重矩阵点乘得到的角度进行扰动,并根据扰动后的角度输出目标特征向量,具体包括:
19.针对不同模态表征的对象样本信息,使用加性角度间隔损失函数将所述嵌入式向量与所述嵌入式向量正则化后的权重矩阵进行点乘,得到余弦值;
20.通过对所述余弦值进行反操作得到的角度加上角度间隔进行扰动,并计算扰动后角度的余弦值作为目标特征向量。
21.在本发明另一实施例中,在所述使用分类函数对所述目标特征向量进行对象信息的类别标签预测,构建每种模态表征下的特征提取模型之后,所述方法还包括:
22.利用预先设置的损失函数,结合对象信息预测的类别标签与对象信息样本集的类别标签对每种模态表征下的特征提取模型进行参数调整,更新所述特征提取模型。
23.在本发明另一实施例中,所述利用邻近向量混合算法,对所述具有不同模态属性的嵌入式向量进行更新,得到融合有相邻向量特征的对象信息向量,具体包括:
24.分别计算所述具有不同模态属性的嵌入式向量之间的距离值,若所述距离值大于预设阈值,则确定所述嵌入式向量之间具有相邻关系;
25.利用所述距离值映射的更新力度,对所述具有相邻关系的嵌入式向量进行至少一次更新。
26.在本发明另一实施例中,在所述计算所述融合有相邻向量特征的对象信息向量之间的相似度,并根据相似度计算结果确定对象信息之间的匹配程度之后,所述方法还包括:
27.响应于对目标对象信息进行相似推送或屏蔽的指令,选取与所述目标对象信息之间的匹配程度排名在预设数值之前的对象信息作为相似对象信息,向用户推送或屏蔽所述相似对象信息。
28.依据本发明另一个方面,提供了一种信息的匹配装置,所述装置包括:
29.获取单元,用于获取不同模态表征的对象信息;
30.调用单元,用于针对每种模态表征的对象信息,调用相应模态表征下预先训练的特征取模型进行特征提取,得到具有不同模态属性的嵌入式向量,所述特征提取模型使用加性角度间隔损失函数进行训练,用于从模态表征的对象信息中提取具有模态属性的嵌入式向量;
31.更新单元,用于利用邻近向量混合算法,对所述具有不同模态属性的嵌入式向量进行更新,得到融合有相邻向量特征的对象信息向量;
32.计算单元,用于计算所述融合有相邻向量特征的对象信息向量之间的相似度,并根据相似度计算结果确定对象信息之间的匹配程度。
33.在本发明另一实施例中,所述装置还包括:
34.处理单元,用于在所述针对每种模态表征的对象信息,调用相应模态表征下预先训练的特征取模型进行特征提取,得到具有不同模态属性的嵌入式向量之前,利用网络模型分别对不同模态表征的对象信息样本集进行处理,得到不同模态表征下对象信息的嵌入式向量,所述对象信息样本集中携带有对象类别标签;
35.扰动单元,用于针对不同模态表征的对象信息样本,使用加性角度间隔损失函数对所述嵌入式向量与权重矩阵点乘得到的角度进行扰动,并根据扰动后的角度输出的目标特征向量;
36.构建单元,用于使用分类函数对所述目标特征向量进行对象信息的类别标签预测,构建每种模态表征下的特征提取模型。
37.在本发明另一实施例中,所述处理单元包括:
38.向量化模块,用于将所述不同模态表征的对象信息样本集进行向量化,得到不同模态表征的对象向量;
39.聚合模块,用于利用网络模型的池化层分别对所述不同模态表征的对象向量进行特征聚合,得到不同模态表征的对象特征向量;
40.标准化模块,用于基于样本维度的批标准化和基于特征维度的正则化对特征聚类的对象特征向量进行标准化处理,得到不同模态表征下对象信息的嵌入式向量。
41.在本发明另一实施例中,所述扰动单元包括:
42.点乘模块,用于针对不同模态表征的对象样本信息,使用加性角度间隔损失函数将所述嵌入式向量与所述嵌入式向量正则化后的权重矩阵进行点乘,得到余弦值;
43.扰动模块,用于通过对所述余弦值进行反操作得到的角度加上角度间隔进行扰动,并计算扰动后角度的余弦值作为目标特征向量。
44.在本发明另一实施例中,所述装置还包括:
45.调整单元,用于在所述使用分类函数对所述目标特征向量进行对象信息的类别标签预测,构建每种模态表征下的特征提取模型之后,利用预先设置的损失函数,结合对象信息预测的类别标签与对象信息样本集的类别标签对每种模态表征下的特征提取模型进行参数调整,更新所述特征提取模型。
46.在本发明另一实施例中,所述更新单元包括:
47.计算模块,用于分别计算所述具有不同模态属性的嵌入式向量之间的距离值,若所述距离值大于预设阈值,则确定所述嵌入式向量之间具有相邻关系;
48.更新模块,用于利用所述距离值映射的更新力度,对所述具有相邻关系的嵌入式向量进行至少一次更新。
49.在本发明另一实施例中,所述装置还包括:
50.推送单元,用于在所述计算所述融合有相邻向量特征的对象信息向量之间的相似度,并根据相似度计算结果确定对象信息之间的匹配程度之后,响应于对目标对象信息进
行相似推送或屏蔽的指令,选取与所述目标对象信息之间的匹配程度排名在预设数值之前的对象信息作为相似对象信息,向用户推送或屏蔽所述相似对象信息。
51.依据本发明又一个方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现信息的匹配方法的步骤。
52.依据本发明再一个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现信息的匹配方法的步骤。
53.借由上述技术方案,本发明提供一种信息的匹配方法及装置,通过获取不同模态表征的对象信息,并针对每种模态表征的对象信息,调用相应模态表征下预先训练的特征取模型进行特征提取,得到具有不同模态属性的嵌入式向量,该特征提取模型使用加性角度间隔损失函数进行训练,用于从模态表征的对象信息中提取具有模态属性的嵌入式向量,进一步利用邻近向量混合算法,对具有不同模态属性的嵌入式向量进行更新,得到融合有相邻向量特征的对象信息向量,进而计算融合有相邻向量特征的对象信息向量之间的相似度,并根据相似度计算结果确定对象信息之间的匹配程度。与现有技术中基于图片和文字描述进行的对象信息匹配的方式相比,本技术能够提取出反映对象特征信息的嵌入式向量,并针对具有模态属性的嵌入式向量进行融合,使得对象信息能够融合不同模态间的信息特征,并结合融合有模态表征下的对象信息向量进行对象信息匹配,提高匹配到对象信息的准确率。
附图说明
54.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
55.图1示出了本发明实施例提供的一种信息的匹配方法的流程示意图;
56.图2示出了本发明实施例提供的另一种信息的匹配方法的流程示意图;
57.图3示出了本发明实施例提供的对具有相邻关系的嵌入向量进行更新的流程示意图;
58.图4示出了本发明实施例提供的一种信息的匹配装置的结构示意图;
59.图5示出了本发明实施例提供的另一种信息的匹配装置的结构示意图。
具体实施方式
60.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
61.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
62.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、
大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
63.本发明实施例提供了一种信息的匹配方法,该特征提取模型能够提取出对象信息在不同模态表征下的嵌入式向量,提高匹配到对象信息的准确率,如图1所示,该方法包括:
64.101、获取不同模态表征的对象信息。
65.其中,对象可以为线上页面中抽象出来的目标资源,该目标实物可以为网络平台中售卖的商品,还可以为企业平台中展示的信息,还可以为新闻平台中发布的消息等,由于目标资源的多样性,不同模态表征的对象信息可以包括图片形式的对象信息、文本形式的对象信息、视频形式的对象信息、链接形式的对象信息等,图片形式的对象信息可以表现为对象的整体图、细节图以及材质图等,文本形式的对象信息可以表现为对象名称、对象描述、对象功效等,视频形式的对象信息可以表现为对象介绍视频、对象实物展示视频以及对象使用视频等。
66.可以理解的是,针对每一种对象都能够获取其在不同模态表征的对象信息,由于每种模态表征下的对象信息可能具有多个表现形式,这里可以通过将属于同一模态表征的对象信息多个表现形式进行汇总,作为该模态表征下的对象信息,例如,图片形式的对象可以将对象的整体图、细节图以及材质图汇总后作为图片表征下的对象信息,还可以选取属于同一模态表征的对象信息中具有特点的表现形式,作为该模态表征下的对象信息,例如,文字形式的对象可以选取对象名称和对象描述汇总后作为文字表征下的对象信息。
67.在本发明实施例中,执行主体可以为信息的匹配装置,具体应用在服务器端,现有技术中通过单一模态表征的对象信息来实现对象信息的匹配过程比较片面,很难准确匹配到相似的对象信息。本技术通过将不同模态表征的对象信息进行融合,使得对象信息的匹配过程考虑到不同信息内容下的差异性,能够达到更好的匹配效果,提高匹配到对象信息的准确率。
68.上述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
69.102、针对每种模态表征的对象信息,调用相应模态表征下预先训练的特征取模型进行特征提取,得到具有不同模态属性的嵌入式向量。
70.其中,由于每种模态表征的对象信息可以预先进行离线的模型训练,从而得到具有特征提取功能的模型,因此,在获取每种模态表征的对象信息后,调取相应模态表征下预先训练的特征提取模型,这里特征提取模型可使用人工智能的机器算法对网络模型进行训练,通过对每种模态表征的对象信息进行相应模态属性的特征提取,得到具有模态属性的嵌入式向量,例如,图片表征下的对象信息经过针对图片模态训练的特征提取模型可以输出具有图片属性的嵌入式向量,文本表征下的对象信息经过针对文本模态训练的特征提取模型可以输出具有文本属性的嵌入式向量。
71.为了进一步获取更准确的特征提取效果,用于训练特征提取模型的网络模型可以根据对象信息的模态表征的进行选取,例如,针对图像模态的特征提取模型可以使用图像
编码器,可以使用timm算法库下的eca_nfne_11,针对文本模态的特征提取模型可以使用文本编码器,可以使用huggingface算法库下的xlm

roberta

large等算法,并在模型参数调整过程中使用arcface损失函数来训练模型。
72.可以理解的是,损失函数会对整个网络模型的优化有着导向性作用,本技术中特征提取模型使用加性角度间隔损失函数进行训练,用于从模态表征的对象信息中提取具有模态属性的嵌入式向量,使得提取到嵌入式向量能更准确表征相应模态表征下的对象特征。
73.103、利用邻近向量混合算法,对所述具有不同模态属性的嵌入式向量进行更新,得到融合有相邻向量特征的对象信息向量。
74.本技术中邻近向量混合算法需要利用不同模态属性的嵌入式向量进行匹配,在阈值处理的knn分类算法中,需要保证每个查询至少有两个匹配项,与常规knn分类算法相比,阈值的设置会比较高,相比于直接将学习到的嵌入式向量输入至knn分类算法相比,这里利用每个嵌入式向量的相邻向量对其自身进行更新,以实现更好的信息融合。
75.具体利用邻近向量混合算法,对具有不同模态属性的嵌入式向量进行更新的过程中,可以分别计算具有不同模态属性的嵌入式向量之间的余弦距离,若余弦距离大于预设阈值,则确定嵌入式向量之间具有相邻关系,进一步利用余弦距离所映射的更新力度,对具有相邻关系的嵌入式向量进行更新。
76.可以理解的是,在更新嵌入式向量的过程中,可以仅针对单一模态属性的嵌入式向量进行更新,如对具有图片模态属性的嵌入式向量进行更新,或者对具有文本模态属性的嵌入式向量进行更新,还可以针对不同模态属性的嵌入式向量混合后形成的嵌入式向量。
77.作为一种实施场景,由于每个嵌入式向量的相邻向量可能并非是具有相同模态属性,考虑到不同模态属性之间的相互融合,这里可以使用不同模态属性的向量对嵌入式向量进行更新,具体针对当前嵌入式向量对应的模态属性,通过查询与其相邻且属不同模态属性的嵌入式向量作为相邻嵌入式向量,这里可以使用向量之间距离值是否达到阈值来判断两个嵌入式向量是否相邻,进一步利用该相邻嵌入式向量对当前嵌入式向量进行更新,例如,对于具有图片模态属性的嵌入式向量进行更新过程中,可以使用相邻的文本模态属性的嵌入式向量和/或视频属性的嵌入式向量进行更新。
78.具体在更新嵌入式向量过程中,可以使用嵌入式向量之间的距离值作为更新力度的确定方式,对于距离越近的具有不同模态属性的两个嵌入式向量,说明两个嵌入式向量之间具有更高的相似性,可在更新时针对该相邻嵌入式向量使用较高的更新力度,而对于距离较远的相邻嵌入式向量可使用较低的更新力度。
79.104、计算所述融合有相邻向量特征的对象信息向量之间的相似度,并根据相似度计算结果确定对象信息之间的匹配程度。
80.本技术中,对于融合有相邻向量特征的对象信息向量,该对象信息向量具有多模态融合后的特征,考虑到不同模态表征的特征,能够减小不同信息之间的差异性,使得对象向量信息的表征更准确,提高后续对象信息的匹配精度。具体计算融合有相邻向量特征的对象信息向量之间的相似度的过程相当于计算向量之间的距离,距离计算可以有多种方式,例如,余弦相似度、欧氏距离、曼哈顿距离、皮尔逊相关系数等。
81.需要说明的是,对象信息的匹配程度能够从一定程度上反映多个对象信息之间相似情况,相似度数值越高,说明对象信息越相近,进一步根据对象信息的匹配程度可以向用户推送相似对象,还可以屏蔽相似对象的展示。
82.本发明实施例提供的一种信息的匹配方法,通过获取不同模态表征的对象信息,并针对每种模态表征的对象信息,调用相应模态表征下预先训练的特征取模型进行特征提取,得到具有不同模态属性的嵌入式向量,该特征提取模型使用加性角度间隔损失函数进行训练,用于从模态表征的对象信息中提取具有模态属性的嵌入式向量,进一步利用邻近向量混合算法,对具有不同模态属性的嵌入式向量进行更新,得到融合有相邻向量特征的对象信息向量,进而计算融合有相邻向量特征的对象信息向量之间的相似度,并根据相似度计算结果确定对象信息之间的匹配程度。与现有技术中基于图片和文字描述进行的对象信息匹配的方式相比,本技术能够提取出反映对象特征信息的嵌入式向量,并针对具有模态属性的嵌入式向量进行融合,使得对象信息能够融合不同模态间的信息特征,并结合融合有模态表征下的对象信息向量进行对象信息匹配,提高匹配到对象信息的准确率。
83.本发明实施例提供了另一种信息的匹配方法,该特征提取模型能够提取出对象信息在不同模态表征下的嵌入式向量,提高匹配到对象信息的准确率,如图2所示,所述方法包括:
84.201、获取不同模态表征的对象信息。
85.考虑到不同模态表征的对象信息在相同属性维度上具有不同属性表征,例如,颜色维度上可以表现为不同颜色,尺码维度上可以表现为不同尺码,为了避免不同模态表征对对象信息受到不同属性的表征,还可以基于对象信息在相同属性维度上的属性特征,对对象信息进行预处理,以使得不同模态表征的对象信息具有相同的属性表征,这里可以选取任选属性表征,还可以选取具有代表性的属性特征,还可以选取对象销量最高的属性特征。
86.202、针对每种模态表征的对象信息,调用相应模态表征下预先训练的特征取模型进行特征提取,得到具有不同模态属性的嵌入式向量。
87.在本技术中,每种模态表征下的特征提取模型的构建可以利用预先收集不同模态表征的对象信息样本集对网络模型进行训练,具体构建每种模态表征下的特征提取模型的过程中,可以利用网络模型分别对不同模态表征的对象信息样本集进行处理,得到不同模态表征下对象信息的嵌入式向量,这里对象信息样本集中携带有对象类别标签,然后针对不同模态表征的对象信息样本,使用加性角度间隔损失函数对所述嵌入式向量与权重矩阵点乘得到的角度进行扰动,并根据扰动后的角度输出的目标特征向量,进一步使用分类函数对目标特征向量进行对象信息的类别标签预测,构建每种模态表征下的特征提取模型。
88.具体利用网络模型分别对不同模态表征的对象信息样本集进行处理,得到不同模态表征下对象信息的嵌入式向量过程中,可以将不同模态表征的对象信息样本集进行向量化,得到不同模态表征的对象向量,然后利用网络模型的池化层分别对不同模态表征的对象向量进行特征聚合,得到不同模态表征的对象特征向量,进一步基于样本维度的批标准化和基于特征维度的正则化对特征聚类的对象特征向量进行标准化处理,得到不同模态表征下对象信息的嵌入式向量。
89.示例性的,针对图片模态表征的对象信息样本集进行处理,得到嵌入式向量的应
用场景,首先将一张图片转换成[256,256,3]的数组,3代表rgb三色值,每个元素值为[0,255]之间的某个数值,实现了图片数字化或者向量化的功能;然后将[256,256,3]代表的图片输入到eca_nfnet_l1模型中,输出代表图片的特征,大小[8,8,1792],实现了特征提取的功能,通过gap(全局池化层,global average pooling)对1792个[8,8]的特征层求平均,得到1792维的向量,实现了特征聚合的功能,最后应用基于样本维度的批标准化和基于特征维度的正则化作用于1792维的向量上,得到标准化后的向量表示,即图片模态表征下对象信息的嵌入式向量。
[0090]
示例性的,针对文本模态表征的对象信息样本集进行处理,得到嵌入式向量的应用场景,首先将对象文本按照空格进行分词,简记为[t1,t2,t3

,tn],将分词后的序列输入到xlm

roberta

large模型,得到每个词更新后的向量表示序列[h1,h2

hn],每个向量1024维,实现了文本从单词到向量的转化,向量富含了文本中更多的语义,池化操作对上述向量序列取平均,得到1024维向量,这一步实现了特征聚合,最后应用基于样本维度的批标准化和基于特征维度的正则化作用于1024维的向量上,得到标准化后的向量表示,即文本模态表征下对象信息的嵌入式向量。
[0091]
这里对象信息样本集携带有对象类别标签,具体针对不同模态表征的对象信息样本,使用加性角度间隔损失函数对所述嵌入式向量与权重矩阵点乘得到的角度进行扰动,并根据扰动后的角度输出的目标特征向量过程中,可以针对不同模态表征的对象样本信息,使用加性角度间隔损失函数将嵌入式向量与嵌入式向量正则化后的权重矩阵进行点乘,得到余弦值,进一步通过对余弦值进行反操作得到的角度加上角度间隔进行扰动,并计算扰动后角度的余弦值作为目标特征向量。应说明的是,这里针对不同模态表征的网络模型可以使用不同的角度间隔,例如,图像模型的角度间隔以0.8~1.0为宜,文本模型的角度间隔以0.6~0.8为宜。在使用增加角度间隔时,可以从0.2开始,将图像模型的角度间隔增加到1.0,文本模型的角度间隔增加到0.8。
[0092]
进一步地,为了保证特征提取模型的训练精度,还可以在构建每种模态表征下的特征提取模型之后,利用预先设置的损失函数,结合对象信息预测的类别标签与对象信息样本集的类别标签对每种模态表征下的特征提取模型进行参数调整,更新所述特征提取模型。
[0093]
进一步地,利用上述具有不同模态属性的嵌入式向量可以进行对象信息之间的匹配,具体可以使用图像模态的嵌入式向量进行对象图像之间的匹配,可以使用文本模态的嵌入式向量进行对象文本之间的匹配。为了能够更好展示对象信息之间的匹配结果,还可以将具有不同模态属性的嵌入式向量所形成模态表征下的匹配结果进行合并,具体可将具有图像模态属性和文本模态属性的嵌入式向量合并后在执行匹配过程,以得到合并后对象信息之间的匹配结果。此时,模型最终的倾向可以分以下几种情况,针对待匹配的对象信息,一种是文本模态下输出与目标对象很相似的对象a,一种是图像模态下输出与目标对象很相似的对象g,还有一种是文本模态和图像模态融合后输出与目标对象相似的对象d、e、f,所以最终与目标对象很相似的对象落在a、d、e、f、g之中。
[0094]
203、分别计算所述具有不同模态属性的嵌入式向量之间的距离值,若所述距离值大于预设阈值,则确定所述嵌入式向量之间具有相邻关系。
[0095]
这里距离值为能够表征向量之间的度量值,可以为余弦值距离,还可以为买哈顿
距离,在此不进行限定。
[0096]
204、利用所述距离值映射的更新力度,对所述具有相邻关系的嵌入式向量进行至少一次更新。
[0097]
这里距离值映射的更新力度可作为对具有相邻关系的嵌入式向量进行更新的权重值,具体每次更新嵌入式向量时可以在原有嵌入式向量的基础上,加上在相应更新力度上具有相邻关系的嵌入式向量,以使得更新后嵌入式向量具有更丰富的对象信息内容。
[0098]
具体在实际应用场景中,对具有相邻关系的嵌入向量进行更新的过程如图3所示:以对象a为例,对象a的嵌入式向量e
a
为[

0.588,0.784,0.196],同理还有对象b、c、d的嵌入式向量e
b
、e
c
、e
d
,计算对象a的嵌入式向量e
a
与对象b、c、d节点之间的余弦距离分别是0.53、0.93、0.94,实线表示两者距离的预设阈值(预设阈值可以设置为0.5)内表征嵌入式向量之间属于具有相邻关系,虚线表示在阈值外,不属于相邻关系。对每个嵌入式向量,利用其相邻关系的嵌入式向量对其自身进行更新,更新力度由余弦距离值给定。具体的更新嵌入式向量的过程可以如下:
[0099]
e
a
=normalize(e
a
×
1+e
d
×
0.94+e
b
×
0.93+e
c
×
0.53)
[0100]
e
b
=normalize(e
b
×
1+e
a
×
0.93)
[0101]
e
c
=normalize(e
c
×
1+e
a
×
0.53)
[0102]
e
d
=normalize(e
d
×
1+e
a
×
0.94)
[0103]
其中,normalize为对嵌入向量标准化的过程。上述更新后的嵌入式向量以及各节点之间的关系变化具体如图3中右侧图,具体更新过程如上文所示的公式,每个嵌入式向量根据具有相邻关系的嵌入式向量及余弦值对自身进行更新。这个过程可以重复迭代下去,直到在网络模型的评估指标上不再改善。
[0104]
205、计算所述融合有相邻向量特征的对象信息向量之间的相似度,并根据相似度计算结果确定对象信息之间的匹配程度。
[0105]
考虑到对象信息之间的匹配程度能够反映对象相似度,这里对于目标对象信息的相似推送需求或者屏蔽需求,还可以在确定对象信息之间的匹配程度之后,响应于对目标对象信息进行相似推送或屏蔽的指令,选取与目标对象信息之间的匹配程度排名在预设数值之前的对象信息作为相似对象信息,向用户推送或屏蔽相似对象信息。
[0106]
进一步地,为了节省相似度计算量,还可以预先针对对象库中对象信息向量进行分类,预先设置多个对象分类,每个对象分类具有相应的分类特征,并根据分类特征对对象信息向量进行聚类,将具有相同分类特征的对象信息向量汇总到相同对象分类中,从而得到多个对象分类下的对象信息向量,进一步针对选定对象只需要先确定对象分类后,再针对对象分类下对象信息的嵌入式向量之间的相似度进行计算,以获取与目标对象信息相似的对象信息。
[0107]
本技术中,可通过网络平台来执行上述对象信息的匹配过程,并根据匹配结果向用户推荐对象或者屏蔽对象,具体可以在网络平台中设置相似查找按钮或者相似屏蔽按钮,用户可根据实际浏览需求来选取,当然还可以在查找相似对象后,进一步设置更多的筛选维度,例如,按照价格筛选,按照发货地点筛选,按照评分筛选等。
[0108]
进一步地,作为图1所述方法的具体实现,本发明实施例提供了一种信息的匹配装置,如图4所示,所述装置包括:获取单元31、调用单元32、更新单元33、计算单元34。
[0109]
获取单元31,可以用于获取不同模态表征的对象信息;
[0110]
调用单元32,可以用于针对每种模态表征的对象信息,调用相应模态表征下预先训练的特征取模型进行特征提取,得到具有不同模态属性的嵌入式向量,所述特征提取模型使用加性角度间隔损失函数进行训练,用于从模态表征的对象信息中提取具有模态属性的嵌入式向量;
[0111]
更新单元33,可以用于利用邻近向量混合算法,对所述具有不同模态属性的嵌入式向量进行更新,得到融合有相邻向量特征的对象信息向量;
[0112]
计算单元34,可以用于计算所述融合有相邻向量特征的对象信息向量之间的相似度,并根据相似度计算结果确定对象信息之间的匹配程度。
[0113]
本发明实施例提供的一种信息的匹配装置,通过获取不同模态表征的对象信息,并针对每种模态表征的对象信息,调用相应模态表征下预先训练的特征取模型进行特征提取,得到具有不同模态属性的嵌入式向量,该特征提取模型使用加性角度间隔损失函数进行训练,用于从模态表征的对象信息中提取具有模态属性的嵌入式向量,进一步利用邻近向量混合算法,对具有不同模态属性的嵌入式向量进行更新,得到融合有相邻向量特征的对象信息向量,进而计算融合有相邻向量特征的对象信息向量之间的相似度,并根据相似度计算结果确定对象信息之间的匹配程度。与现有技术中基于图片和文字描述进行的对象信息匹配的方式相比,本技术能够提取出反映对象特征信息的嵌入式向量,并针对具有模态属性的嵌入式向量进行融合,使得对象信息能够融合不同模态间的信息特征,并结合融合有模态表征下的对象信息向量进行对象信息匹配,提高匹配到对象信息的准确率。
[0114]
作为图4中所示信息的匹配装置的进一步说明,图5是根据本发明实施例另一种信息的匹配装置的结构示意图,如图5所示,所述装置还包括:
[0115]
处理单元35,可以用于在所述针对每种模态表征的对象信息,调用相应模态表征下预先训练的特征取模型进行特征提取,得到具有不同模态属性的嵌入式向量之前,利用网络模型分别对不同模态表征的对象信息样本集进行处理,得到不同模态表征下对象信息的嵌入式向量,所述对象信息样本集中携带有对象类别标签;
[0116]
扰动单元36,可以用于针对不同模态表征的对象信息样本,使用加性角度间隔损失函数对所述嵌入式向量与权重矩阵点乘得到的角度进行扰动,并根据扰动后的角度输出的目标特征向量;
[0117]
构建单元37,可以用于使用分类函数对所述目标特征向量进行对象信息的类别标签预测,构建每种模态表征下的特征提取模型。
[0118]
在具体应用场景中,如图5所示,所述处理单元35包括:
[0119]
向量化模块351,可以用于将所述不同模态表征的对象信息样本集进行向量化,得到不同模态表征的对象向量;
[0120]
聚合模块352,可以用于利用网络模型的池化层分别对所述不同模态表征的对象向量进行特征聚合,得到不同模态表征的对象特征向量;
[0121]
标准化模块353,可以用于基于样本维度的批标准化和基于特征维度的正则化对特征聚类的对象特征向量进行标准化处理,得到不同模态表征下对象信息的嵌入式向量。
[0122]
在具体应用场景中,如图5所示,所述扰动单元36包括:
[0123]
点乘模块361,可以用于针对不同模态表征的对象样本信息,使用加性角度间隔损
失函数将所述嵌入式向量与所述嵌入式向量正则化后的权重矩阵进行点乘,得到余弦值;
[0124]
扰动模块362,可以用于通过对所述余弦值进行反操作得到的角度加上角度间隔进行扰动,并计算扰动后角度的余弦值作为目标特征向量。
[0125]
在具体应用场景中,如图5所示,所述装置还包括:
[0126]
调整单元38,可以用于在所述使用分类函数对所述目标特征向量进行对象信息的类别标签预测,构建每种模态表征下的特征提取模型之后,利用预先设置的损失函数,结合对象信息预测的类别标签与对象信息样本集的类别标签对每种模态表征下的特征提取模型进行参数调整,更新所述特征提取模型。
[0127]
在具体应用场景中,如图5所示,所述更新单元33包括:
[0128]
计算模块331,可以用于分别计算所述具有不同模态属性的嵌入式向量之间的距离值,若所述距离值大于预设阈值,则确定所述嵌入式向量之间具有相邻关系;
[0129]
更新模块332,可以用于利用所述距离值映射的更新力度,对所述具有相邻关系的嵌入式向量进行至少一次更新。
[0130]
在具体应用场景中,如图5所示,所述装置还包括:
[0131]
推送单元39,可以用于在所述计算所述融合有相邻向量特征的对象信息向量之间的相似度,并根据相似度计算结果确定对象信息之间的匹配程度之后,响应于对目标对象信息进行相似推送或屏蔽的指令,选取与所述目标对象信息之间的匹配程度排名在预设数值之前的对象信息作为相似对象信息,向用户推送或屏蔽所述相似对象信息。
[0132]
需要说明的是,本实施例提供的一种信息的匹配装置所涉及各功能单元的其他相应描述,可以参考图1、图2中的对应描述,在此不再赘述。
[0133]
基于上述如图1、图2所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1、图2所示的信息的匹配方法。
[0134]
基于这样的理解,本技术的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd

rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施场景所述的方法。
[0135]
基于上述如图1、图2所示的方法,以及图4、图5所示的虚拟装置实施例,为了实现上述目的,本技术实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1、图2所示的信息的匹配方法
[0136]
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(radio frequency,rf)电路,传感器、音频电路、wi

fi模块等等。用户接口可以包括显示屏(display)、输入单元比如键盘(keyboard)等,可选用户接口还可以包括usb接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、wi

fi接口)等。
[0137]
本领域技术人员可以理解,本实施例提供的信息的匹配装置的实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0138]
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模
块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
[0139]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本技术可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本技术的技术方案,与目前现有技术相比,本技术中能够提取出反映对象特征信息的嵌入式向量,并针对具有模态属性的嵌入式向量进行融合,使得对象信息能够融合不同模态间的信息特征,并结合融合有模态表征下的对象信息向量进行对象信息匹配,提高匹配到对象信息的准确率。
[0140]
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本技术所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
[0141]
上述本技术序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本技术的几个具体实施场景,但是,本技术并非局限于此,任何本领域的技术人员能思之的变化都应落入本技术的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1