一种基于搜索关键字的用户兴趣图序列动态管理方法与流程

文档序号:21725492发布日期:2020-08-05 01:16阅读:181来源:国知局
一种基于搜索关键字的用户兴趣图序列动态管理方法与流程

本发明涉及数据挖掘、计算机应用技术领域,具体涉及一种基于搜索关键字的用户兴趣图序列动态管理方法。



背景技术:

用户兴趣挖掘分析对于理解用户意图、发现相似用户、提供个性化推荐等服务具有重要指导意义。目前为止,针对用户兴趣的建模与分析主要用于个性化商品推荐及广告投放中,现有技术以用户购买的具体商品或对该商品的显式打分作为兴趣,而非抽象化的用户对某类话题或商品的兴趣。

以购物为例,实际上,比起用户数据中仅占很小部分的购买行为,用户在网站中更为丰富的搜索、浏览行为轨迹能够最大程度地反映用户的各种购买兴趣,尤其是大量搜索数据中反映的搜索兴趣。然而,从繁杂的搜索、浏览数据中发现用户的兴趣并非易事,面临以下两大挑战:

挑战1:用户的行为数据是异构的,包括显式的搜索关键字、搜索时长、结果页面点击数目等。如何以结构化方式对这类多源异构信息进行组织、建模,还原行为细节,构建用户搜索兴趣模型,是一个基础性的挑战;

挑战2:由于用户行为的高度随机与不确定性,用户搜索目标初始时通常较为模糊,不断调整并提交新的关键字,随着搜索过程进行目标请求逐渐清晰准确;外部随机事件亦会影响用户的搜索路径,改变搜索目标。如何处理用户类似的搜索动态,有效过滤噪音搜索,找出用户真正兴趣是基于搜索关键字的用户兴趣建模、管理的最重要挑战。

目前,尚无相关技术从用户搜索轨迹及交互细节中挖掘相应用户兴趣。现有方法尚未能涉及上述研究挑战。综上,对于基于搜索关键字的用户兴趣建模问题,在应用研究上尚属空白,现有技术层面上也无法解决上述研究挑战。



技术实现要素:

为了克服上述现有技术存在的问题,本发明的目的在于提供一种基于搜索关键字的用户兴趣图序列动态管理方法,首次综合用户丰富的搜索、浏览行为数据,以用户搜索兴趣为基础,设计了系统化完整的用户兴趣图序列动态管理框架。特别地,针对挑战1,本发明将以用户的显式搜索关键字作为潜在兴趣,以sigmoid函数将相应的隐式浏览行为映射为兴趣程度值,量化搜索之间的语义与时间关联,以独立的无向完全图对单个搜索区间进行建模,实现了以图序列为基础的兴趣建模;针对挑战2,本发明以守恒规则为灵感,进一步设计自适应的动态演化策略,反向更新前序图序列,过滤噪音搜索,甄别用户真实兴趣。

为了达到上述目的,本发明采取了以下技术方案予以实施:

一种基于搜索关键字的用户兴趣图序列动态管理方法,步骤如下:

步骤1:收集用户关键字搜索历史,经得用户知情授权情况下,通过爬虫抓取用户的搜索关键字以及隐式交互行为,包括搜索时长、搜索结果页面浏览数目以及结果页面平均浏览时长;

步骤2:以图序列模型对用户搜索行为静态建模,具体如下:

图序列模型由时间轴上排列的无向完全图组成,每个无向完全图g=(n,e,[ts,te])对应用户的一个搜索区间,若两个相邻的搜索间隔时间不超过30分钟,则同处一个搜索区间;其中,n为节点集合,每个节点对应该搜索区间中的一个搜索关键字,作为潜在用户兴趣;e为边集合,代表搜索区间中任意两节点之间的关联强度;[ts,te]表示该搜索区间的持续时间段,分别取搜索区间中第一个搜索的开始时间以及最晚结束的搜索的结束时间作为ts和te;

对于每个搜索节点,综合考虑搜索时长、结果页面浏览数目以及结果页面平均浏览时长对该搜索节点进行量化,节点权重代表用户当前对该关键字的兴趣程度,取值为[0,1],计算为

其中,w表示节点权重,dur,cnum,cdur分别代表该节点对应的搜索时长、用户结果页面浏览数目以及结果页面平均浏览时长,采用sigmoid函数即f(x,hv)对上述异构数据进行数值化映射,hvi(i=1,2,3)对应相应的sigmoid映射参数;显然,用户对该搜索关键字的兴趣程度与搜索时长、结果页面浏览数目及平均浏览时长成正比,w值越大,表示用户对其兴趣程度越大;

对于联结任意两搜索节点的边,其权重取值为[0,1],代表两搜索的关联程度,由两搜索关键字的语义关联及时间关联共同决定,语义相似度越高,两搜索间隔时间越近,则这条边上的权重越大,

其中,si,sj为两个搜索节点,rsim(si,sj),tsim(si,sj)∈[0,1]分别代表两个搜索节点之间的语义相似度与时间相似度,可采用任何已有的相似度计算方法对其进行映射;

至此,保留用户所有自然交互细节的前提下,用户的搜索历史以搜索区间为单位映射成为独立的无向完全图,所有的搜索区间在时间轴上线性排列,构成了图序列模型;

步骤3:基于守恒规则的动态兴趣演化,反向更新前序图序列,自适应过滤噪音搜索,凸显真实用户兴趣,具体如下:

给定当前新的搜索区间gn中的搜索节点gn.snew,假设前序搜索区间go中的搜索节点go.sold在关键字上与其部分或全部匹配,简称为匹配节点,go.sold受相同或相似搜索关键字的影响将得到加强,其权重增量计算为

其中,rsim(go.sold,gn.snew)为两搜索节点的语义相似度,gn.snew.w,go.sold.w分别为两搜索节点当前权重,dist(go,gn)=(gn.ts-go.te)/30表示两搜索节点之间的绝对时间距离,以搜索区间起始时间衡量;

go.sold得到强化的同时,go中其余非匹配节点将总体牺牲等量的权重以满足守恒原则;受两质点间引力公式启发,任意两搜索节点s,s′∈go之间的引力关联计算为f(s,s′)=g*s.w*s′.w*ω2(s,s′),其中g为引力关联因子,w为节点权重,ω(s,s′)为两节点之间边的权重;

令su表示go中不与gn.snew关键字匹配的节点集合,对于任一非匹配节点go.s∈su,其应当贡献给go.sold的权重为

tloss(go.s,go.sold,gn.snew)=min(loss(go.s,go.sold,gn.anew),go.s.w)

其中,go.s.w为非匹配节点go.s的权重,loss(go.s,go.sold,gn.snew)为非匹配节点go.s理论上应有的权重损失函数,f(go.s,go.sold)为两搜索节点间的引力关联,δ(go.sold,gn.snew)为匹配节点go.sold的权重增量;

至此,经动态演化实现前序图序列中节点权重的转移、重新分配之后,搜索节点中的匹配节点go.sm与非匹配节点go.s∈su的权重分别变为

go.sm.w=min(1,go.sm.w+δ(go.sm,gn.snew))

go.s.w=max(0,go.s.w-tloss(go.s,go.sm,gn.snew))

显然,若非匹配节点在动态演化过程中贡献了其所有的权重,那么该非匹配节点作为噪音搜索将从搜索区间中删去;当搜索区间中仅剩一个节点时,该节点已然成为该区间中最突出的节点,代表用户在该区间中的真实兴趣,即使其匹配gn.snew,也不再对其进行加强。

和现有技术相比较,本发明具备如下优点:

1、首次实现了基于搜索关键字、搜索行为、以及浏览交互行为的用户兴趣挖掘,赋予用户兴趣管理更丰富的语义;

2、原创性地通过图序列模型对用户兴趣进行建模,最大程度保留用户自然交互行为细节;

3、模拟用户自身兴趣从模糊到明确的认知过程,设计基于守恒规则的自适应动态演化策略,过滤噪音搜索,甄别用户真实兴趣,兼具理论与应用意义。

附图说明

图1为本发明方法流程图。

图2a为基于搜索关键字的图序列模型示意图。

图2b为图序列模型自适应动态演化实例图。

具体实施方式

下面结合附图和具体实施方式对本发明方法作进一步详细说明:

如图1所示,本实施例一种基于搜索关键字的用户兴趣图序列动态管理方法,以网购兴趣为例,步骤如下:

步骤1:收集用户在淘宝网的关键字搜索历史,经得用户知情授权情况下,通过爬虫抓取用户的搜索关键字以及隐式交互行为,包括搜索时长、搜索结果页面浏览数目以及结果页面平均浏览时长;

步骤2:以图序列模型对用户搜索行为静态建模,具体如下:

如图2a所示,图序列模型由时间轴上排列的无向完全图组成,每个无向完全图g=(n,e,[ts,te])对应用户的一个搜索区间,若两个相邻的搜索间隔时间不超过30分钟,则同处一个搜索区间;其中,n为节点集合,每个节点对应该搜索区间中的一个搜索关键字,作为潜在用户兴趣;e为边集合,代表搜索区间中任意两节点之间的关联强度;[ts,te]表示该搜索区间的持续时间段,分别取搜索区间中第一个搜索的开始时间以及最晚结束的搜索的结束时间作为ts和te;

对于每个搜索节点,综合考虑搜索时长、结果页面浏览数目、以及结果页面平均浏览时长对该搜索节点进行量化,节点权重代表用户当前对该关键字的兴趣程度,取值为[0,1],计算为

其中,w表示节点权重,dur,cnum,cdur分别代表该节点对应的搜索时长、用户结果页面浏览数目以及结果页面平均浏览时长,采用sigmoid函数即f(x,hv)对上述异构数据进行数值化映射,hvi(i=1,2,3)对应相应的sigmoid映射参数;显然,用户对该搜索关键字的兴趣程度与搜索时长、结果页面浏览数目及平均浏览时长成正比,w值越大,表示用户对其兴趣程度越大;

对于联结任意两搜索节点的边,其权重取值为[0,1],代表两搜索的关联程度,由两搜索关键字的语义关联及时间关联共同决定,语义相似度越高,两搜索间隔时间越近,则这条边上的权重越大,

其中,si,sj为两个搜索节点,rsim(si,sj),tsim(si,sj)∈[0,1]分别代表两个搜索节点之间的语义相似度与时间相似度;令di,dj分别代表si,sj包含的词集合,假设sj在si之后发生,sj.ts,si.te分别代表搜索节点sj的起始时间以及si的结束时间,s1,sn分别代表同一搜索区间内第一个和最后一个搜索节点,则语义相似度与时间相似度计算为

至此,保留用户所有自然交互细节的前提下,用户的搜索历史以搜索区间为单位映射成为独立的无向完全图,所有的搜索区间在时间轴上线性排列,构成了图序列模型;

步骤3:基于守恒规则的动态兴趣演化,反向更新前序图序列,自适应过滤噪音搜索,凸显真实用户兴趣,具体如下:

给定当前新的搜索区间gn中的搜索节点gn.snew,假设前序搜索区间go中的搜索节点go.sold在关键字上与其部分或全部匹配,简称为匹配节点,go.sold受相同或相似搜索关键字的影响将得到加强,其权重增量计算为

其中,rsim(go.sold,gn.snew)为两搜索节点的语义相似度,gn.snew.w,go.sold.w分别为两搜索节点当前权重,dist(go,gn)=(gn.ts-go.te)/30表示两搜索节点之间的绝对时间距离,以搜索区间起始时间衡量;

go.sold得到强化的同时,go中其余非匹配节点将总体牺牲等量的权重以满足守恒原则;受两质点间引力公式启发,任意两搜索节点s,s′∈go之间的引力关联计算为f(s,s′)=g*s.w*s′.w*ω2(s,s′),其中g为引力关联因子,w为节点权重,ω(s,s′)为两节点之间边的权重;

令su表示go中不与gn.snew关键字匹配的节点集合,对于任一非匹配节点go.s∈su,其应当贡献给go.sold的权重为

tloss(go.s,go.sold,gn.snew)=min(loss(go.s,go.sold,gn.snew),go.s.w)

其中,go.s.w为非匹配节点go.s的权重,loss(go.s,go.sold,gn.snew)为非匹配节点go.s理论上应有的权重损失函数,f(go.s,go.sold)为两搜索节点间的引力关联,δ(go.sold,gn.snew)为匹配节点go.sold的权重增量;

至此,经动态演化实现前序图序列中节点权重的转移、重新分配之后,搜索节点中的匹配节点go.sm与非匹配节点go.s∈su的权重分别变为

go.sm.w=min(1,go.sm.w+δ(go.sm,gn.snew))

go.s.w=max(0,go.s.w-tloss(go.s,go.sm,gn.snew))

显然,若非匹配节点在动态演化过程中贡献了其所有的权重,那么该非匹配节点作为噪音搜索将从搜索区间中删去;当搜索区间中仅剩一个节点时,该节点已然成为该区间中最突出的节点,代表用户在该区间中的真实兴趣,即使其匹配gn.snew,也不再对其进行加强;

如图2b所示,关键字a在新搜索区间g4中被再次搜索,因此搜索区间g2中的相同搜索a以及相似搜索a1(a1≠a)作为该区间中用户可能更感兴趣的搜索得到加强,其他节点d、e相应削弱,且d作为噪音搜索由于权重为0从图序列中删去。

为验证发明的有效性,组织并收集真实用户实验对模型进行验证。12位被试参与实验,收集其长达9个月真实淘宝数据,包括显式的搜索请求以及隐式的商品页浏览、点击行为,共计2068个搜索请求以及10004个用户浏览的商品页。实验中设计了三种兴趣模式(长期兴趣、兴趣转移、兴趣关联)以间接验证动态演化模型的有效性,每一种兴趣模式均邀请用户本人对查询结果进行标注。以查全率(recall)、查准率(precision)、f度量(f-measure)对结果进行衡量。实验结果表明,对于上述三种兴趣模式查询,本发明均可实现超过80%的f度量值。相比于无动态演化的情况,动态演化策略在仅牺牲了3.9%查全率的情况下,不同兴趣模式的平均查准率、f度量分别提升了22.6%、10.1%,同时筛除了20%的搜索节点,有力地证明了本发明过滤噪音搜索、对用户搜索兴趣建模的有效性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1