一个利用实体信息增强个性化检索效果的搜索方法与流程

文档序号:20685383发布日期:2020-05-08 18:47阅读:252来源:国知局
一个利用实体信息增强个性化检索效果的搜索方法与流程

本发明涉及一种搜索方法,尤其涉及一个利用实体信息增强个性化检索效果的搜索方法。



背景技术:

个性化搜索一直以来受到广泛关注,旨在利用用户的历史行为辅助判断用户当前查询的意图和偏好,从而对不同用户返回不同的搜索结果序列,提升用户体验。由于歧义以及查询一般短小且简略等问题,用户发出的查询往往不能完全表达其真实意图,而即使是相同的意图,不同的用户也可能有不同的偏好,因此搜索结果的个性化很有必要。

现有技术中,很多是从用户历史中抽取文档主题或子话题,以及用户点击次数等特征来为当前候选文档计算相关性。而后深度学习也被引入到个性化搜索中来。另外,利用层次化循环神经网络从用户历史中动态学习用户画像的表达,从而预测当前文档与用户偏好画像的相关性。则利用对抗神经网络进一步增强了深度模型在个性化搜索中的效果。

现有的个性化搜索方法主要是基于用户的历史搜索记录来学习文档与用户当前查询以及用户画像之间的相关性,但是可能会忽略事物之间存在于现实世界但没有在这些搜索记录中反映的联系,从而影响相关性匹配的学习。很多搜索模型通过引入知识库,利用其中实体间存在的关系以及语义信息来提升匹配的精度。但是个性化搜索领域中缺乏引入实体知识的相关方法。

除了利用实体联系更好地学习相关性以外,引入实体能够更好的满足个性化搜索的一些需求特性。例如利用显式的实体能够更好地表达用户意图,尤其是对于有歧义的查询。同时个性化搜索任务中用户的历史搜索信息也有助于实体链接的判定,进一步帮助用户意图的推测和表达。其次相比于整个网页中的文本信息,用户点击网页中包含的实体更能反映用户的具体偏好信息,因为整个网页的文本信息是更为冗余的。利用这些实体信息能够更好地构建用户偏好画像,从而更好地计算文档的个性化相关性。



技术实现要素:

本发明提出一种利用实体信息增强个性化检索效果的搜索方法,首先对查询进行个性化实体链接,利用历史提升对查询实体链接效果的同时利用实体增强了模型对用户意图建模和表示,然后基于预测的意图更准确地构建用户画像,并利用历史实体信息通过记忆神经网络构建实体增强的精细用户偏好画像,最后利用预测的用户意图和用户画像计算文档的个性化相关性并排序,提升用户体验。排序完成之后,本发明提出利用用户点击反馈以及当前查询对之前查询的实体链接结果进行调整,进一步优化模型对历史搜索意图及偏好的理解,以作用于后续的查询结果个性化。

附图说明

图1为本发明的整体流程图

图2为本发明的个性化实体链接结构图;

图3为用户画像构建结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

知识库近年来被广泛研究,并以其存储大量现实世界中实体间的联系和语义信息的性质,常常被作为外部知识引入到搜索模型中以提升查询和文档之间的匹配精度。例如仅从文本语义相似度的角度来说,文档“陈凯歌”与查询“《霸王别姬》的导演”相关性并不高,但是基于现实世界背景,该文档高度符合该查询意图,利用实体间的联系这一问题能被较好地解决。但是在个性化搜索领域关于引入外部知识的研究还比较缺乏。

除此之外,本发明利用实体更好地对个性化搜索中用户搜索意图进行预测以及用户偏好画像进行构建。例如对于“cherryreviews”的查询,由于语义的歧义性很难判断用户搜索意图究竟是樱花或是樱桃键盘。但是引入实体,并进行个性化实体链接,根据相关的历史查询“famouscherryblossomspotsinasia”,则可预测用户搜索意图为樱花。将用户意图显式表达为樱花实体,则可将描述樱花的网页文档排在前面以满足用户需求。进一步基于预测的用户意图,并利用历史搜索中的实体信息,可对用户更精细的偏好画像进行构建。例如基于预测被链接的樱花实体,可检索出同样包含樱花实体的历史查询,进一步根据该查询下用户点击文档中包含的“日本”、“北海道”等实体,可知用户更精细的偏好是“日本的樱花景观”,则可将日本的樱花旅游景点推荐到搜索结果前列,进一步提升用户体验。

如图1所示,本发明首先对查询进行个性化实体链接,利用历史提升对查询实体链接效果的同时利用实体增强了模型对用户意图建模和表示,然后基于预测的意图更准确地构建用户画像,并利用历史实体信息通过记忆神经网络构建实体增强的精细用户偏好画像,最后利用预测的用户意图和用户画像计算文档的个性化相关性并排序,提升用户体验。排序完成之后,本发明提出利用用户点击反馈以及当前查询对之前查询的实体链接结果进行调整,进一步优化模型对历史搜索意图及偏好的理解,以作用于后续的查询结果个性化。

个性化实体链接如图2所示。用户历史为一系列搜索会话组成:会话由一系列查询以及相应的文档候选集组成:其中h是标识会话的id,xh是会话内的查询数目。当用户在当前会话中发出第t个查询qt后,需要根据用户历史搜索兴趣对候选文档集进行个性化排序使其符合用户在qt下的搜索意图。该过程一直重复至当前会话结束。

将用户历史划分为短期历史和长期历史在个性化搜索中是很有效的。短期历史被定义为当前会话中的历史搜索记录长期历史则被定义为历史会话中的搜索记录

查询q中包含x个与实体相关的文本片段,则查询的候选实体集被定义为:

其中ni标识与查询中第i个文本片段相关的候选实体的id。则查询实体向量表示为:

其中pi,j为实体ei,j的链接概率,ei,j为预训练的实体向量,然后进行训练。

文档的实体向量表示为:

其中ci为实体的在文档中出现的频率。同样地,文档和查询的文本向量表示被定义为:

wi为利用glove预训练的词向量。

如前所述,本发明首先利用用户历史信息对查询进行个性化实体链接,即计算每个候选实体的链接概率,使得用户意图更为清晰明确,以作用于后续的用户画像的构建和文档个性化相关性计算。

实体链接概率的计算主要分为两个部分:实体与查询之间的链接相关性,基于用户历史判定的实体链接相关性:

其中,mlp代表全连接层。

实体与查询之间的链接相关性包括向量相似性以及统计特征:

其中li,j代表统计特征,例如该候选实体的流行度。

基于用户历史的实体链接相关性计算则包括:对用户的历史搜索序列建模以推测当前查询下的隐式意图从而为当前实体链接提供依据;寻找用户历史中的相关查询,利用这些查询中的历史实体信息为当前查询的实体链接提供依据。

序列历史建模首先利用lstm层对用户历史查询行为序列建模,并利用基于当前查询的attention注意力机制为相关历史行为赋予更高的注意力以推测当前的查询意图。首先对于短期历史将历史搜索行为中的查询文本向量与相应的点击文档的文本向量拼接作为lstm层的输入,则可得到短期用户意图ts:

其中为相应点击文档文本向量的平均值。类似地基于长期历史,将上述等式中的替换为与相应的点击文档文本向量的均值可计算得到长期用户意图tl,

历史实体信息建模利用lstm和attention机制对历史查询中与当前查询相关的查询赋予更高的权重,然后利用这些查询中的实体信息作为相关历史实体信息。因此将历史查询的文本向量作为lstm层的输入,在短期历史上的短期相关实体向量es的计算如下:

其中同理基于长期历史,将上述等式中的qs与替换为ql与可以得到长期相关实体向量el

基于个性化历史的实体链接相关性为:

其中g(x,y)=tanh(xt*mlp(y))。

根据预测的用户意图,用户在该意图下的偏好能够更好被建模。同时进一步利用搜索历史中的实体信息,模型能够学习用户更为精细的偏好。由于记忆神经网络对长序列的信息较好的存储能力,本发明采用kery-value(键值对)记忆神经网络存储用户历史信息来对用户画像进行建模,如图3所示为用户偏好画像构建。

实体记忆神经网络被利用来构建实体增强的用户画像。其中key值为历史查询的实体向量,value值为相应历史查询下用户点击文档的实体向量的均值。通过这种方式用户在历史查询意图下体现的精细偏好能够被保留下来。因此在短期历史上有:

其中为相应点击文档的实体向量均值。

然后将当前查询的实体向量作为预测的用户意图向量构建用户偏好画像,这是因为预测的实体链接概率反映了用户的意图。因此基于该实体向量,通过注意力机制从短期实体记忆神经网络中读取一次短期实体画像如下:

由于仅利用当前查询的实体向量从记忆神经网络中检索到的大多是与当前查询直接相关的实体,因此本发明接下来将当前查询的实体向量与读取出的用户画像拼接作为新的用户意图向量,进行二次读取。通过这种方式能够从记忆神经网络中进一步检索出与用户偏好也相关的实体,使得构建的用户画像涵盖用户更广泛的兴趣。因此有:

通过同样的方式,基于长期历史上,将记忆神经网络的键和值替换为和相应的点击文档的实体向量均值,进行二次读取,可得到长期实体画像

文本记忆神经网络则基于原始的文本信息构建用户兴趣画像。其中key值为历史查询的文本向量,value值为相应的点击文档的文本向量均值。因此在短期历史上有:

其中为相应的点击文档的文本向量均值。

由于原始的查询文本可能不能完全反映用户的查询意图,本发明将查询原始文本向量与利用lstm建模的隐式用户意图向量ts拼接作为用户意图向量,利用注意力机制读取用户文本偏好画像。由于词语之间的联系不如实体间的关联性强,这里仅读取一次。因此基于短期历史构建短期用户文本画像

相似地可基于长期历史,将记忆神经网络的键和值替换为和相应点击文档的文本向量均值可构建长期用户文本画像利用预测的用户意图和构建的用户画像,可为文档计算其个性化相关性得分,并据此进行个性化排序。

给定用户历史在查询q下候选文档d的相关性得分可计算为:

其中分别代表预测的用户意图和用户偏好向量。

用户意图相关性计算的是文档与用户意图向量之间的相关性:

其中g(x,y)=tanh(xt*mlp(y))

用户偏好相关性计算的是文档与用户偏好画像之间的相关性:

查询相关性则关注的是文档与当前查询之间的匹配,包括向量相似度与以及传统点击特征。同时为了进一步探究查询链接的实体和文档的实体之间的个性化匹配,本发明引入实体之间的交互匹配特征,因此有:

其中fd表示传统点击特征例如用户历史上在相同查询下对该url的点击次数。

对于实体交互匹配特征fm的计算,本发明提出了两种与实体的交互匹配组件,pedrm和pcerm。为了简化符号表示,将当前查询中所有的候选实体整合到一个列表中,因此有:

在后文中,eq和ed将分别被用来代表查询和文档中的实体编码向量。

pedrm是结合了个性化信息的匹配组价。edrm首先构建查询和文档之间的文本和实体监护矩阵,然后利用高斯核池化层抽取匹配特征:

其中代表拼接操作,me,e为查询实体和文档实体间的交互矩阵,me,w为查询实体和文档文本之间的交互矩阵,mw,e为查询文本和文档实体之间的交互矩阵,mw,w为查询文本和文档文本之间的交互矩阵。

在pedrm中,本发明在交互矩阵中融合了个性化信息。当计算与查询中的实体的交互矩阵是,将预测的实体概率作为实体交互的权重以反映与用户个性化意图的相关性。同时增加实体间的关系与查询向量的交互匹配矩阵r进一步抽取匹配特征:

其中查询与文档实体间的关系可表征为加入实体关系的交互矩阵是因为实体向量间的匹配并不一定能够完全反映查询和文档间的匹配程度。例如查询“obama'swife”,“michelle”和“`u.s.a”都与实体“obama”相关,但只有“michelle”与“obama”间存在“iswife”的关系,符合查询的要求。因此对于交互特征fm的计算有:

pcerm则是一个相对简单的交互匹配组件,仅利用一个3通道的cnn抽取个性化匹配交互特征:

fm=mlp(flat(relu(c))),

其中代表第一维上的拼接操作,wcnn与bcnn为cnn中卷积核的参数,a,b为卷积核大小,flat则代表平滑操作,将矩阵拉平为向量。

当文档个性化相关性计算完成并据此进行排序之后,本发明提出利用当前查询以及当前查询下用户的点击反馈对当前会话中的其他历史查询进行实体链接概率调整,因为同一个会话中的用户意图相对一致。例如利用当前查询以及用户点击文档中的实体“software”,会话中的歧义历史查询“java”可以被认为所指的实体为“javalanguage”。调整后的链接结果可使得后续查询个性化时构建的用户画像更为准确,当用户后续查询“whichidetochoose”,则可将适合java开发的“eclipse”网页排在前面。

但是一旦实体链接概率可被调整,情况将会变得较为复杂。因为一个实体的链接概率有变动,那么由于会话意图之间的一致关系,其他文本片段关联的实体链接概率也能需要被改变。因此本发明的思路是,挑选有最高链接概率的实体作为可靠链接,然后利用该实体调整其他文本片段所关联的候选实体概率。

具体来说,在个性化排序完成之后,首先利用用户点击文档中的实体信息调整当前查询中的实体概率:

其中为点击文档的实体向量均值,上标t标识查询再当前会话中是第t个查询。接下来找到当前查询下候选实体中εt具有最高链接概率的实体如果p<=δ(这里将δ设置为0.5),则调整过程结束,接下来处理用户的第t+1个查询。

如果p>δ,则假设该可靠链接的实体关联的是查询中第a个文本片段,取该文本片段的实体信息:

来调整会话中其它候选实体的概率εk,1<=k<=t-1。根据实体向量相似性和查询文本相似性,对其他实体链接概率有如下调整方式:

接下来找到整个会话中具有最高链接概率的候选实体如果p>δ,并且被选出来的实体关联的文本片段之前没有被选择过,那么重复上述步骤利用这个被选择的实体关联的文本片段实体信息调整其他候选实体的链接概率;否则调整过程结束,接下来处理用户的第t+1个查询。综上,当会话中没有实体的链接概率大于阈值δ或者所有的实体关联的文本片段都已被选择过,调整过程结束。在本发明中,训练模型的输入是以会话为单位的,因此在最小化整个会话的loss值时调整过程中用到的参数w,w1,w2会被训练优化。

本发明以会话为单位训练模型,采用pair-wise的loss函数,因此有:

其中s为用户u的查询会话,为用户在查询q之前的搜索历史,d+代表查询q下候选文档集中的正例文档,d-代表负例文档。

为了更好的对用户意图和用户画像建模,本发明提出利用知识库中的实体信息来增强个性化搜索的效果。本发明首先进行个性化实体链接来消除查询的歧义,使模型更好地学习表达用户的意图。根据预测的用户意图,本发明利用历史搜索记录中的实体信息,并通过记忆网络构建用户画像,从而更好地对用户对个性化偏好进行建模。对文档的个性化得分计算以及排序完成之后本发明利用当前查询和用户的点击反馈来调整历史查询的实体链接结果,以更好地分析用户的历史,这有助于进一步模拟用户的兴趣。本发明利用实体信息,有效地增强了个性化搜索的效果,能够大大提升用户的体验。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1