本发明涉及一种图像模型优化方案,尤其涉及一种基于查询点击图的检索推荐模型优化。
背景技术:
很多学者对用户搜索日志进行了研究分析,主要从查询词关联和查询点击二分图方面建立查询推荐模型。由于用户的知识层次不同,以及进行搜索操作时存在随意性提交不规范的查询词和点击不相关的查询结果,导致查询日志中存在大量不准确、不规范和不具有代表性的查询信息,随着时间推移,这些不准确的信息会逐渐积累,如果利用传统推荐方法,将这些不准确的信息挖掘理解,将会推荐出不准确或者不被用户接受的查询。因此,在大数据时代,从大规模的日志中挖掘出精确、具有代表性的优质查询信息,是构建查询推荐的重要基础。
技术实现要素:
本发明的目的就在于为了解决上述问题而提供一种基于查询点击图的检索推荐模型优化。
本发明通过以下技术方案来实现上述目的:
本发明包括优化目标构建、权重值重构和推荐算法优化;
所述优化目标构建:
根据上述内容分析可知,搜索结果中点击最多的页面是查询最主要的搜索结果;我们先对于查询点击二分图中元素的关系建立形式化描述:
定义1令查询点击二分图G={Q∪U,E,W},其中Q表示查询会话节点集合,U表示查询结果网页集合,E表示图中边的集合,W表示边的权重集合;则对于查询点击二分图中边eij的权重Wij构建方法如下:
查询点击二分图的优化目标:
公式(1)表示:当查询会话节点为qi(qi∈Q)时,二值优化变量cij表示查询点击图是否选择了边eij,而优化目标的损失函数是最大化的选择边的权重和,约束条件是保留边的查询与网页关联权重为最大,即cij=1时,wij≥wik且wij≥wkj;满足此目标时,表示查询点击图中保留了尽量多的关于查询和点击的最大次数;
优化目标公式(1)能够对一个查询或者网页选择出多个相同的最大权重边;若引入每个节点的度d(i)=∑jδ(i,j)且d(j)=∑iδ(i,j),则公式(1)等价于公式(2),其中δ(i,j)代表查询节点qi与网页节点ui之间是否存在边(存在为1,否则为0);
查询点击核心图的优化目标等价形式为:
在优化目标(2)的约束中,显式的允许查询点击核心图中的一个查询节点同时连接到多个网页节点,同时也允许查询点击核心图中的一个网页节点连接多个查询节点;
所述权重值重构:
如定义1中,查询点击二分图G={Q∪U,E,W},首先,设有aij个用户进行了点击操作;此时,传统构建查询与网页连接边的权重W是用查询qi对应的网页uj的点击次数cij表示,即wij=cij;经过分析我们发现,用户在浏览搜索结果时,有的用户比较活跃,点击次数多,有的点击次数少,由于用户活跃度的差异,导致点击数量不能真正反映查询与网页之间的关联度;为了避免这种偏置现象的出现,我们引入用户频数来代替点击次数,即wij=aij;其次,对于同一个查询,用户点击了两个网页u1和u2,并且点击数量相等,如果u1还被更多地查询点击过, 则说明发生在u1上的点击没有u2重要,也就是u1与查询相关度低;因此,可以对每个网页建立逆查询频率,即:
式中N表示查询的数量,Nq表示点击到该网页的查询数量;此时,令wij=cij·iqf(u);
基于此,还可以利用转移概率理论构建权重;首先计算以下两个概率值:
(1)查询会话转移到相关网页的概率:
(2)相关网页到查询会话的转移概率:
由于转移概率具有不对称性,即P(uj|qi)≠P(qi|uj),因此可以采用线性插值或乘积的方法来均衡权重的对称性,如令wij=α·P(qi|uj)+(1-α)P(uj|qi)其中α为可调节参数),或者令wij=P(qi|uj)·P(uj|qi);
所述推荐算法优化:
(1)基础模型:最基本的查询推荐方法是根据查询点击二分图中具有共现点击的查询进行推荐;将这一思想进一步引申,即具有相同点击的查询是相似的,我们要通过随机游走方法将该相似性进行传播;也就是从初始查询出发,在查询点击二分图上根据点击的概率游走到相邻查询,并从相邻查询继续游走;以此迭代,直至结束;随机游走模型有前向和后向两种游走方式;两种游走方式可以用同一组定义来表示;
同样,将查询点击二分图定义为G={Q∪U,E,W},令M表示查询的节点数,N表示网页节点数,wij表示查询qi与网页uj的点击权重;构建概率转移矩阵A=(M+N)×(M+N),则节点转移概率A[i,j]=P(qj|qi),再引入自转移概率s,则新的转移概率P(vj|vi)定义如公式(6);
根据给定的初始节点vi,可以进行前向或后向的随机游走迭代;不同之处是前向游走有可能得到查询q在查询点击二分图上最有可能到达的查询q',考虑了 初始节点vi游走到其它节点的概率,即:而后向游走可能到达初始查询节点q,考虑了从其它节点游走到初始节点vi的概率,即:
(2)问题发现:在上述算法基础上设置参数n和s,n的值表示引入二分图中的节点数量;s表示自转移概率,即在转移过程中不要很快游走到其它节点,将s值设置为0.9;在处理查询推荐时,n的值越大,表示想引入越多的节点进行游走,甚至会包括整个图内所有节点,这样会带来“推荐主题漂移”问题,就是游走到达的查询与用户查询关联度不高;具体存在以下问题:
对于向前游走,经过数次迭代之后,转移概率被传播到较为流行的查询上,导致推荐的查询不准确或者不相关;比如查询“人物周刊”,到最后可能推荐“环球人物”和“时代人物”等较流行的刊物;当采用向后游走传播时,概率会趋向均一化,会推荐出拼写有误或者频率较低的查询;
传统的推荐模型不能有效区分不同意图的查询,随机游走模型中的查询推荐是利用概率的相似传播进行,会导致部分有紧密关联或非常相似的查询被推荐在最前,使得推荐结果较为单一,降低了推荐的多元化;
(3)算法优化:为了解决上述传统随机游走推荐模型存在的问题,提出基于查询点击图的随机游走推荐模型,将传统推荐模型中对描述不精确和没有代表性的推荐进行剪枝;根据随机游走的迭代算法,可以得到查询-网页节点的概率分布情况,此时可以为每个网页挑选对应查询点击图中的查询推荐给用户;
基于查询点击图的随机游走模型推荐算法:
前向和后向的随机游走算法收敛过程如下:
在前向随机游走时,采用随机过程中的马尔科夫链的平稳分布进行转移概率矩阵收敛;给定转移矩阵A,如果存在迭代次数n,当An[i,j]>0时,则由所有节点构成的马尔科夫链是齐次非周期且不可约,具有唯一的平稳分布性;此时前向随机游走迭代模型可以转变为vT(n+1)=vT(n)·A=v(0)·An;当An趋向平稳分布时候A[i,j]=πj,其中每个阶段平稳分布概率是πT=[π1,π2,...,πM+N],所以limn→∞v(n)=π,易知当初始概率v(0)为概率分布时,vT(n)·A必定是平稳概率分布;
在后向随机游走时,最初提出后向随机游走模型的文献中也没有给出收敛性证明;同样我们假设随机矩阵A稳定分布,易知即使初始概率v(0)为概率分布,A·v(n)也不一定是概率分布;因此在迭代过程中归一化向量v,令 因为概率转移矩阵A的行和为1,且A中所有转移概率均大于0,当初始概率v(0)为均一分布时,迭代过程按照概率转移矩阵A的列进行概率归一化处理,即norm(A·v(n))=v(0),此时算法会不断得到均一化的分布概率;如果在整个查询点击二分图是强连通的情况下,任意两个节点是互通的,则迭代过程中向量v的每一项都会大于零,进而不断迭代会将v归一化;形式化为:迭代过程为左侧乘矩阵A,因此第n次迭代后值为: 如果A平稳分布,那么An=[π1,π2,...,πM+1],此时 是与vT同长度的行向量,因为Z是均一化因子,如果v(0)是概率分布,则是均匀分布,系统熵最大的初发状态就是其均匀分布时候的状态,后向随机游走模型本质就是想回到系统最原始的出发状态;而前向随机游走模型是系统通过不断迭代往前扩展,最终找到稳定状态;在查询推 荐应用中,当整个图中具备较多点击的查询节点排在优先位置时,也就是前向随机游走模型得到的平稳状态;而当图中所有节点分布概率相同时,后向随机游走模型达到平稳分布;因此,在推荐过程中,均一概率和热门节点矩阵概率收敛不利于查询推荐;提前设置合适的迭代次数和自转移概率,如n=10,s=0.9,以此控制图中随机游走的范围。
本发明的有益效果在于:
本发明是一种基于查询点击图的检索推荐模型优化,与现有技术相比,本发明首先对用户的搜索行为及意图进行了分析,并对搜索行为的数据提取方法和表示进行了研究,通过对查询会话的深入挖掘,提出了基于用户查询日志的查询词关联方法。其次,重点对传统查询点击二分图推荐模型的理论及计算方法进行了分析。由于查询点击二分图的结构简单、实用性强,并且实施过程不依赖于检索词与网页相似度计算,因此被广泛应用于搜索引擎中。本发明提出了利用点击频率代替点击次数来构建二分图中边的权重,这样可以避免权重不被过多的无效点击而偏置,使推荐系统尽可能达到稳定状态。最后,通过实验及数据分析从三个方面证明了改进模型的优越性。
具体实施方式
下面对本发明作进一步说明:
本发明包括优化目标构建、权重值重构和推荐算法优化;
所述优化目标构建:
根据上述内容分析可知,搜索结果中点击最多的页面是查询最主要的搜索结果;我们先对于查询点击二分图中元素的关系建立形式化描述:
定义1令查询点击二分图G={Q∪U,E,W},其中Q表示查询会话节点集合,U表示查询结果网页集合,E表示图中边的集合,W表示边的权重集合;则对于查询点击二分图中边eij的权重Wij构建方法如下:
查询点击二分图的优化目标:
公式(1)表示:当查询会话节点为qi(qi∈Q)时,二值优化变量cij表示查询点击图是否选择了边eij,而优化目标的损失函数是最大化的选择边的权重和,约束条件是保留边的查询与网页关联权重为最大,即cij=1时,wij≥wik且wij≥wkj;满足此目标时,表示查询点击图中保留了尽量多的关于查询和点击的最大次数;
优化目标公式(1)能够对一个查询或者网页选择出多个相同的最大权重边;若引入每个节点的度d(i)=∑jδ(i,j)且d(j)=∑iδ(i,j),则公式(1)等价于公式(2),其中δ(i,j)代表查询节点qi与网页节点ui之间是否存在边(存在为1,否则为0);
查询点击核心图的优化目标等价形式为:
在优化目标(2)的约束中,显式的允许查询点击核心图中的一个查询节点同时连接到多个网页节点,同时也允许查询点击核心图中的一个网页节点连接多个查询节点;
通过对以上优化目标分析发现,该问题与传统的稳定匹配问题有一定的联系和区别;稳定匹配的核心思想是实现一种稳定状态,在这种状态下,匹配完结时不再存在这样两个集合主体;在现实中,我们熟悉的男女相亲、公司实习生和买家卖家等例子就是基于稳定市场匹配理论的思想发展而来的;其中双边模型和延迟接受算法是稳定匹配理论的两块重要基石;
双边匹配模型很多市场及社会制度的主要功能就是让其中的主体能和另一个主体相匹配:例如,学生和学校,职员和公司,适婚男女之间;这种市场匹配主要分为“单边市场匹配”(Single-SidedMarketMatch)和“双边市场匹配”(Two-Sided Market Match);其中“单边市场匹配”指市场中仅存在一个集合, 集合中的个体根据各自的偏好相互匹配;然而,单边市场匹配中的“室友”现象会导致匹配的不稳定;当假设存在四个“室友”{A,B,C,D},其中A最偏好B,B最偏好C,C最偏好A,且他们把D都列为最不偏好者;在这种情况下,任何两两分组都无法实现稳定,因为和D分在一起的人会结束当前匹配去和已经匹配的人再次匹配,且这次新的匹配将会成功,使得市场一直无法实现稳定(Gale&Shapley,1962);“双边匹配模型”最早由Gale和Shapley(1962)从研究学生申请学校模型和婚姻稳定问题而提出;所谓的“双边市场”是指存在这样一个市场,市场中有两类个体集合,第一类集合中的个体只能和第二类集合中的个体相匹配;他们证明了在这样一个双边市场中,只要个体的偏好具有完备性及可传递性,以及市场足够的自由,能允许个体进行任何潜在可能的匹配,整个过程可以迭代进行,直到所有个体都有匹配对象,使整个市场达到稳定;双边匹配模型存在稳定匹配这一特性,使得其在理论和实践上都得到了广泛的应用;
本章提出的对查询点击二分图改进的推荐模型,与稳定匹配问题中的“单边市场匹配”相似,是关于查询与网页节点数目稳定匹配问题,相似方面如下:
(1)查询会话节点和返回网页节点数目可能不同,因此不能确定所有节点都有匹配对象;
(2)多数查询会话只和自己相关的网页之间存在点击偏好关系,不是与所有网页存在点击偏好;
(3)查询点击二分图中可能出现点击次数(权重)相同的边,此时得不到合理匹配;
所述权重值重构:
如定义1中,查询点击二分图G={Q∪U,E,W},首先,设有aij个用户进行了点击操作;此时,传统构建查询与网页连接边的权重W是用查询qi对应的网页uj的点击次数cij表示,即wij=cij;经过分析我们发现,用户在浏览搜索结果时,有的用户比较活跃,点击次数多,有的点击次数少,由于用户活跃度的差异,导致点击数量不能真正反映查询与网页之间的关联度;为了避免这种偏置现象的出现,我们引入用户频数来代替点击次数,即wij=aij;其次,对于同一个查询,用户点击了两个网页u1和u2,并且点击数量相等,如果u1还被更多地查询点击过,则说明发生在u1上的点击没有u2重要,也就是u1与查询相关度低;因此,可以对每个网页建立逆查询频率,即:
式中N表示查询的数量,Nq表示点击到该网页的查询数量;此时,令 wij=cij·iqf(u);
基于此,还可以利用转移概率理论构建权重;首先计算以下两个概率值:
(1)查询会话转移到相关网页的概率:
(2)相关网页到查询会话的转移概率:
由于转移概率具有不对称性,即P(uj|qi)≠P(qi|uj),因此可以采用线性插值或乘积的方法来均衡权重的对称性,如令wij=α·P(qi|uj)+(1-α)P(uj|qi)其中α为可调节参数),或者令wij=P(qi|uj)·P(uj|qi);
采用本文提出的利用用户频率来构建查询点击二分图中的权重,可以避免权重不被过多的无效点击次数而偏置;这样构建的益处是二分图中所有的边都是整数,便于后续优化算法的求解;另外搜索日志的用户数量是整个查询点击二分图中的权重和,其结果直观便于理解;
所述推荐算法优化:
经过上文对查询点击二分图的数学模型和对应的算法进行分析,我们提出了基于查询点击图的新型推荐算法,该算法过滤了不准确和不具代表性的查询推荐,成功避免了传统推荐算法忽略同一组下查询的等价性和代表性问题;并且避免了过多无效点击次数引起的偏置问题,很好的提升了查询推荐模型的精准度;
(1)基础模型:最基本的查询推荐方法是根据查询点击二分图中具有共现点击的查询进行推荐;将这一思想进一步引申,即具有相同点击的查询是相似的,我们要通过随机游走方法将该相似性进行传播;也就是从初始查询出发,在查询点击二分图上根据点击的概率游走到相邻查询,并从相邻查询继续游走;以此迭代,直至结束;随机游走模型有前向和后向两种游走方式;两种游走方式可以用同一组定义来表示;
同样,将查询点击二分图定义为G={Q∪U,E,W},令M表示查询的节点数,N表示网页节点数,wij表示查询qi与网页uj的点击权重;构建概率转移矩阵A=(M+N)×(M+N),则节点转移概率A[i,j]=P(qj|qi),再引入自转移概率s,则新的转移概率P(vj|vi)定义如公式(6);
根据给定的初始节点vi,可以进行前向或后向的随机游走迭代;不同之处是前向游走有可能得到查询q在查询点击二分图上最有可能到达的查询q',考虑了初始节点vi游走到其它节点的概率,即:而后向游走可能到达初始查询节点q,考虑了从其它节点游走到初始节点vi的概率,即:
(2)问题发现:在上述算法基础上设置参数n和s,n的值表示引入二分图中的节点数量;s表示自转移概率,即在转移过程中不要很快游走到其它节点,将s值设置为0.9;在处理查询推荐时,n的值越大,表示想引入越多的节点进行游走,甚至会包括整个图内所有节点,这样会带来“推荐主题漂移”问题,就是游走到达的查询与用户查询关联度不高;具体存在以下问题:
对于向前游走,经过数次迭代之后,转移概率被传播到较为流行的查询上,导致推荐的查询不准确或者不相关;比如查询“人物周刊”,到最后可能推荐“环球人物”和“时代人物”等较流行的刊物;当采用向后游走传播时,概率会趋向均一化,会推荐出拼写有误或者频率较低的查询;
传统的推荐模型不能有效区分不同意图的查询,随机游走模型中的查询推荐是利用概率的相似传播进行,会导致部分有紧密关联或非常相似的查询被推荐在最前,使得推荐结果较为单一,降低了推荐的多元化;
传统随机游走模型推荐算法如下:
(3)算法优化:为了解决上述传统随机游走推荐模型存在的问题,提出基于查询点击图的随机游走推荐模型,将传统推荐模型中对描述不精确和没有代表性的推荐进行剪枝;根据随机游走的迭代算法,可以得到查询-网页节点的概 率分布情况,此时可以为每个网页挑选对应查询点击图中的查询推荐给用户;
基于查询点击图的随机游走模型推荐算法:
前向和后向的随机游走算法收敛过程如下:
在前向随机游走时,采用随机过程中的马尔科夫链的平稳分布进行转移概率矩阵收敛;给定转移矩阵A,如果存在迭代次数n,当An[i,j]>0时,则由所有节点构成的马尔科夫链是齐次非周期且不可约,具有唯一的平稳分布性;此时前向随机游走迭代模型可以转变为vT(n+1)=vT(n)·A=v(0)·An;当An趋向平稳分布时候A[i,j]=πj,其中每个阶段平稳分布概率是πT=[π1,π2,...,πM+N],所以limn→∞v(n)=π,易知当初始概率v(0)为概率分布时,vT(n)·A必定是平稳概率分布;
在后向随机游走时,最初提出后向随机游走模型的文献中也没有给出收敛性证明;同样我们假设随机矩阵A稳定分布,易知即使初始概率v(0)为概率分布,A·v(n)也不一定是概率分布;因此在迭代过程中归一化向量v,令 因为概率转移矩阵A的行和为1,且A中所有转移概率均大于0,当初始概率v(0)为均一分布时,迭代过程按照概率转移矩阵A的列进行概率归一化处理,即norm(A·v(n))=v(0),此时算法会不断得到均一化的分布概 率;如果在整个查询点击二分图是强连通的情况下,任意两个节点是互通的,则迭代过程中向量v的每一项都会大于零,进而不断迭代会将v归一化;形式化为:迭代过程为左侧乘矩阵A,因此第n次迭代后值为: 如果A平稳分布,那么An=[π1,π2,...,πM+1],此时 是与vT同长度的行向量,因为Z是均一化因子,如果v(0)是概率分布,则是均匀分布,系统熵最大的初发状态就是其均匀分布时候的状态,后向随机游走模型本质就是想回到系统最原始的出发状态;而前向随机游走模型是系统通过不断迭代往前扩展,最终找到稳定状态;在查询推荐应用中,当整个图中具备较多点击的查询节点排在优先位置时,也就是前向随机游走模型得到的平稳状态;而当图中所有节点分布概率相同时,后向随机游走模型达到平稳分布;因此,在推荐过程中,均一概率和热门节点矩阵概率收敛不利于查询推荐;提前设置合适的迭代次数和自转移概率,如n=10,s=0.9,以此控制图中随机游走的范围。
实验及分析
本节通过实验对本章提出的查询点击图推荐模型优化算法性能进行验证。通过实验数据集给定的查询点击图数据分析,主要从查询点击相关度、推荐性能和推荐结果多样化三个方面比较了传统方法和优化后的推荐方法,验证了优化后的基于查询点击图的检索推荐算法的有效性。
实验数据分析
实验数据集采用北京中科实验室提供的网络查询日志,通过对数据集整理和分析,其日志记录文件大小为47MB,用户总查询记录为1135274条,总点击数为3675413条,总查询用词数为176687个。通过对查询词频率的统计分析后得知,检索次数大于5的查询词为28745个,这些词我们归类为高频词,这些高频词对于得查询记录共883752条。由此可知,占总查询词16.3%的高频查询词,却占了77.8%的查询次数。我们在对数据进行预处理时,设置阈值为5,将83.7%的检索次数低于5的低频词过滤掉,这样也只剪掉了22.2%的查询信息。 由于数据集的空间越大会造成推荐模型越复杂,当忽略掉83.7%的查询词后,模型采用的样本空间只是原来的1/6,并且低频查询词对应的是质量不高的查询,如果采用低频词当作迭代初始点,一般达不到推荐效果。对数据的剪枝整理后的基本信息如表1。
表1查询点击日志数据统计信息
根据数据集中挖掘出的查询点击图信息,我们采样了部分不同频率的边进行示例分析。用户在使用搜索引擎时,主要有三种信息交互方式:(1)搜索网站主要域名进行网站搜索;(2)搜索名称或固定术语找到权威网页,如利用百度百科页面进行相关查询;(3)搜索信息的主要描述来找到信息的来源,如利用歌名搜索歌词信息。可以发现,查询点击图保留了点击数量最多的网页,并且是用户最感兴趣的页面,其对应提交的查询词是能准确描述用户需求的。
为了分析优化后的查询点击图在不同频率的分布,我们根据“查询”和“网页”节点之间边的权值,将边进行分类:强权边、高权边、中权边、低权边和弱权边,其各自对应的用户点击频度分别为:[1000,+∞),[100,1000],[10,100],[2,10],[1,1]。通过进一步计算传统二分图和改进二分图在上述五个分类中的分布情况,如表2所示,表中括号内的数字是改进二分图在传统二分图中所占的比例。从该表中可以发现:(1)改进图在强权边和弱权边类型上占的比例要高于其它三个类型,这是因为强权边和弱权边代表的是关联度最强的查询点击;(2)由于高权边、中权边和低权边所占比例较低,说明关联度较低,有可能被去除。
表2传统查询点击二分图及其改进图在不同类型边的分布情况
以上显示和描述了本发明的基本原理和主要特征及本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中 描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。