一种数据处理方法、装置、设备以及存储介质与流程

文档序号:35868149发布日期:2023-10-27 22:24阅读:35来源:国知局
一种数据处理方法、装置、设备以及存储介质与流程

本技术涉及人工智能,尤其涉及一种数据处理方法、装置、设备以及存储介质。


背景技术:

1、随着计算机技术的发展,搜索引擎的功能日趋强大。召回是搜索中的重要环节,根据用户输入的搜索关键对象可以从海量信息资源中召回与搜索关键对象相关的信息资源。在对象搜索场景中,当用户输入了搜索关键对象(query)后,计算机设备可确定海量信息资源中的候选匹配资源(doc)与搜索关键对象之间的相关性,从而基于相关性来对各个对象进行输出显示,以实现对搜索关键对象进行反馈。

2、传统技术中,通常是提取搜索关键对象对应的搜索关键对象特征,提取候选匹配资源(即doc)对应的特征,基于搜索关键对象特征和候选匹配资源(即doc)对应的特征确定两者是否匹配,从而确定是否召回该候选匹配资源。在此过程中,候选匹配资源和搜索关键对象之间的相关性,通常是通过神经网络模型对相应的候选匹配资源进行分类预测得到的;可见,神经网络模型的模型性能与相关性的预测结果息息相关。

3、基于此,目前亟需一个可以提升搜索匹配的精确性的方案。


技术实现思路

1、本技术实施例提供了一种数据处理方法、装置、设备以及存储介质,用于提高搜索匹配的准确度。

2、有鉴于此,本技术一方面提供一种数据处理方法,包括:

3、获取搜索关键对象和候选匹配资源;基于第一特征提取模型获取搜索关键对象的第一特征向量,并基于第二特征提取模型获取候选匹配资源所对应的第二特征向量;基于第一注意力网络、该第一特征向量和该第二特征向量确定第一融合特征向量,该第一融合特征向量用于指示该候选匹配资源中与该搜索关键对象的语义向量关联性超过第一阈值的特征向量;基于第二注意力网络、该第二特征向量和该第一特征向量确定第二融合特征向量,该第二融合特征向量用于指示该搜索关键对象中与该候选匹配资源的语义向量关联性超过第二阈值的特征向量;对该第一融合特征向量和该第二融合特征向量进行向量拼接得到分类模型的输入向量;调用分类模型基于该输入向量确定该搜索关键对象与该候选匹配资源的匹配结果。

4、本技术另一方面提供一种数据处理装置,包括:

5、获取模块,用于获取搜索关键对象和候选匹配资源;

6、特征提取模块,用于基于第一特征提取模型获取搜索关键对象的第一特征向量,并基于第二特征提取模型获取候选匹配资源所对应的第二特征向量;

7、特征融合模块,用于基于第一注意力网络、该第一特征向量和该第二特征向量确定第一融合特征向量,该第一融合特征向量用于指示该候选匹配资源中与该搜索关键对象的语义向量关联性超过第一阈值的特征向量;基于第二注意力网络、该第二特征向量和该第一特征向量确定第二融合特征向量,该第二融合特征向量用于指示该搜索关键对象中与该候选匹配资源的语义向量关联性超过第一阈值的特征向量;

8、特征拼接模块,用于对该第一融合特征向量和该第二融合特征向量进行向量拼接得到分类模型的输入向量;

9、特征分类模块,用于调用分类模型基于该输入向量确定该搜索关键对象与该候选匹配资源的匹配结果。

10、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该特征融合模块,具体用于基于该第一注意力网络对该第一特征向量进行编码和归一化处理得到第一注意力特征向量;

11、基于该第一注意力特征向量与该第二特征向量进行向量融合处理得到该第一融合特征向量。

12、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该特征融合模块,具体用于基于该第二注意力网络对该第二特征向量进行编码和归一化处理得到第二注意力特征向量;

13、基于该第二注意力特征向量与该第一特征向量进行向量融合处理得到该第二融合特征向量。

14、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该特征提取模块,具体用于基于第一长短期记忆递归神经网络(long short-term memory,lstm)获取该搜索关键对象的第一特征向量;

15、或者,

16、基于双向编码转换器(bidirectional encoder representation fromtransformers,bert)模型获取该搜索关键对象的第一特征向量。

17、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该候选匹配资源包括候选文本和候选图像,该特征提取模块,具体用于基于第二lstm或者第二bert获取该候选文本的第一向量,并基于残差网络(residual network 101,resnet-101)获取该候选图像的第二向量;

18、该第一向量和该第二向量拼接得到该第二特征向量。

19、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该获取模块,还用于获取训练样本、初始分类模型、第一初始特征提取模型、第二初始特征提取模型、第一初始注意力网络和第二初始注意力网络,该训练样本包括训练搜索关键对象、训练匹配资源以及匹配结果标注;

20、该特征提取模块,还用于基于该第一初始特征提取模型获取该训练搜索关键对象的第三特征向量,并基于该第二初始特征提取模型获取该训练匹配资源的第四特征向量;

21、该特征融合模块,还用于基于第一初始注意力网络、该第三特征向量和该第四特征向量确定第三融合特征向量,该第三融合特征向量用于指示该训练匹配资源中与该训练搜索关键对象的语义向量关联性超过第三阈值的特征向量;基于第二初始注意力网络、该第三特征向量和该第四特征向量确定第四融合特征向量,该第四融合特征向量用于指示该训练搜索关键对象中与该训练匹配资源的语义向量关联性超过第四阈值的特征向量;

22、该特征拼接模块,还用于将该第三融合特征向量和该第四融合特征向量拼接得到该初始分类模型的输入向量;

23、该特征分类模块,还用于调用该初始分类模型基于该初始分类模型的输入向量预测得到该训练样本的预测匹配结果;

24、该装置还包括处理模块,用于基于该预测匹配结果和该匹配结果标注得到损失值;根据该损失值训练该初始分类模型、第一初始特征提取模型、第二初始特征提取模型、第一初始注意力网络和第二初始注意力网络得到该分类模型、该第一特征提取模型、该第二特征提取模型、该第一注意力网络以及该第二注意力网络。

25、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该获取模块,具体用于获取历史查询结果,该历史查询结果用于指示历史搜索关键对象以及与该历史搜索关键对象相匹配的历史匹配资源;

26、统计该历史搜索关键对象与该历史匹配资源的匹配次数;

27、在该匹配次数大于第五阈值时,确定该历史搜索关键对象与该历史匹配资源的匹配结果为正向匹配,该历史搜索关键对象作为该训练搜索关键对象,该历史匹配资源作为该训练匹配资源,该正向匹配作为该匹配结果标注,该正向匹配用于指示该历史搜索关键对象与该历史匹配资源相互匹配。

28、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该特征融合模块,具体用于基于该第一初始注意力网络对该第三特征向量进行编码和归一化处理得到第三注意力特征向量;

29、基于该第三注意力特征向量与该第四特征向量进行向量融合处理得到该第三融合特征向量。

30、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该特征融合模块,具体用于基于该第二初始注意力网络对该第四特征向量进行编码和归一化处理得到第四注意力特征向量;

31、基于该第四注意力特征向量与该第三特征向量进行向量融合处理得到该第四融合特征向量。

32、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该特征提取模块,还用于基于第一初始lstm获取该训练搜索关键对象的第三特征向量;

33、或者,

34、基于第一初始bert模型获取该训练搜索关键对象的第一特征向量。

35、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该训练匹配资源包括训练文本以及训练图像,该特征提取模块,具体用于基于第二初始lstm或第二初始bert获取该训练文本的第三向量,并基于初始resnet-101获取该训练图像的第四向量;

36、该第三向量和该第四向量拼接得到该第四特征向量。

37、在一种可能的设计中,在本技术实施例的另一方面的另一种实现方式中,该处理模块,具体用于利用负对数损失函数根据该预测匹配结果与该匹配结果标注处理得到该损失值;

38、或者,

39、利用交叉熵损失函数根据该预测匹配结果与该匹配结果标注处理得到该损失值;

40、或者,

41、利用指数损失函数根据该预测匹配结果与该匹配结果标注处理得到该损失值。

42、本技术另一方面提供一种计算机设备,包括:存储器、处理器以及总线系统;

43、其中,存储器用于存储程序;

44、处理器用于执行存储器中的程序,处理器用于根据程序代码中的指令执行上述各方面的方法;

45、总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。

46、本技术的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。

47、本技术的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面所提供的方法。

48、从以上技术方案可以看出,本技术实施例具有以下优点:在搜索过程中,基于多个特征提取模型获取到搜索关键对象与候选匹配资源的信息编码,然后再该利用双向注意力机制强化搜索场景下搜索关键对象与候选匹配资源之间的特征交互深度,并使得两侧的语义编码达到一致,从而达到提升搜索关键对象与候选匹配资源之间的匹配准确度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1