基于频繁模式图嵌入的循环神经网络FPGNN预测行为轨迹方法

文档序号:27630841发布日期:2021-11-29 16:09阅读:329来源:国知局
基于频繁模式图嵌入的循环神经网络FPGNN预测行为轨迹方法
基于频繁模式图嵌入的循环神经网络fpgnn预测行为轨迹方法
技术领域
1.本发明涉及数据挖掘技术领域,具体涉及基于频繁模式图嵌入的循环神经网络预测行为轨迹方法。


背景技术:

2.随着互联网的发展和各类网络应用的开发,用户在线上已经沉淀了海量行为数据,例如,视频的观看记录和评分,商品的点击、购买,社交网站的发帖、点赞等。这些用户行为数据中蕴含丰富的价值,对行为轨迹进行研究能改进系统性能,给用户提供更好的服务,在各种商业、社会治理等领域有巨大的应用前景。
3.早期对用户行为建模的方法聚焦于用户的长期静态行为模式,将每个行为当成独立的记录。这些方法丢失了行为作为序列形式体现的结构信息,忽视了用户短期动态行为模式变化。之后针对序列行为建模的方法局部地在一条序列中建模,忽视了序列之间的关系,缺少对行为间关系直接进行全局的有效编码。后续基于图神经网络的方法缓解了此问题,但仍然忽视了用户选择某个行为的不确定性因素。用户行为预测主要有以下三个挑战:其一,涉及复杂的上下文依赖和时间依赖,用户之前的行为会影响后续行为的决策,并且在不同的时间、环境下行为模式是不同的;其二,需要面对数据稀疏问题,行为种类众多,大部分用户只涉及很小一部分行为;其三,用户行为的不确定性,可能由于用户意图的模糊性和随机性,使行为序列中含有不相关的行为,这些不相关的行为导致用户的真实行为意图失去直接关联和行为之间的时间依赖改变。


技术实现要素:

4.本发明的目的是提供一种通过频繁模式挖掘,补充用户的真实意图,降低不确定性行为干扰,采用循环神经网络预测行为轨迹方法。
5.为了达到上述目的,本发明通过以下技术方案来实现:
6.基于频繁模式图嵌入的循环神经网络fpgnn预测行为轨迹方法,其学习与预测特征在于如下步骤:
7.s1)获取原始行为图
8.所述原始行为图为基于用户历史行为记录构建的图形结构;
9.s2)获取真实意图补充图
10.通过基于序列频繁模式挖掘的方法,补充用户的真实意图,降低用户不确定性行为的干扰,包括:
11.(1)在最大时间窗口的限制下,挖掘用户行为数据的序列频繁模式;
12.(2)统计所有序列频繁模式的中间行为的种类和对应数量,中间行为的种类和数量体现了行为之间关系的不确定程度;
13.(3)采用基于信息熵的方法计算行为间连接强度,在原始行为图上补充用户的真
实意图;
14.s3)行为嵌入表示学习
15.利用图形神经网络相关模型来学习结点的关系,从而获得行为的嵌入表示。
16.s4)基于门控循环单元的行为预测
17.根据用户行为序列和行为嵌入表示进行行为编码,并利用循环神经网络来预测用户行为。
18.本发明与现有技术相比,具有以下优点:
19.本发明提供一种基于频繁模式图嵌入的循环神经网络fpgnn,来实现用户行为的预测。在实际场景下构建图结构,通过频繁模式挖掘,在原始行为图上补充用户的真实意图,降低不确定性行为的干扰,并用循环神经网络对用户行为进行预测,该模型在precision、recall和f1值等指标上与现有算法相比效果提升明显。
附图说明
20.图1是本发明基于频繁模式图嵌入的循环神经网络fpgnn元模型示意图。
21.图2是本发明基于频繁模式图嵌入的循环神经网络fpgnn的真实意图补充方法示意图。
22.图3是本发明基于频繁模式图嵌入的循环神经网络fpgnn的嵌入表示维度对模型性能影响图。
具体实施方式
23.下面结合附图,对本发明的实施例作进一步详细的描述。
24.基于频繁模式图嵌入的循环神经网络进行行为预测的方法,包括如下步骤:
25.s1)获取原始行为图
26.基于用户历史行为记录构建的图形结构。原始行为图是一个带权有向图g=(v,e),v是图中结点的集合,每个结点表示一种行为;e是图中边的集合,每条边e∈e是一个带方向的有序对e=<u,v>,表示用户先进行了u行为,再进行了v行为。每条边上的权重w
uv
表示行为间关系强度。
27.s2)获取真实意图补充图
28.用户真实意图补充的关键部分是如何识别中间的不确定性行为和如何度量真实意图之间的连接强度。因此本发明提出了基于序列频繁模式挖掘的方法,补充用户的真实意图,降低用户不确定性行为的干扰。其整体结构如图2所示。包括:
29.(1)在所有用户行为数据上挖掘序列频繁模式。为了保证行为之间的时效性,本发明设置一个最大时间窗口w,挖掘出来的频繁模式时间跨度必须在w窗口内。
30.(2)统计所有序列频繁模式的中间行为的种类和对应数量。对于每个二阶频繁模式<act
i
,act
j
>,统计所有以act
i
为开始,act
j
为结束的频繁序列模式<act
i
,act
i+1
,

,act
j
‑1,act
j
>的中间行为,生成对应的行为

数量表。中间行为的种类和数量体现了用户的真实意图行为act
i
和行为act
j
之间连接的关联强度。
31.(3)采用基于信息熵的方法计算行为间连接强度,在原始行为图上补充用户的真实意图。根据行为act
i
和行为act
j
的行为

数量表计算其连接强度,将其作为行为关系图中
边的权重值。本发明采用基于信息熵的连接强度计算方式:
[0032][0033]
其中,strength
ij
表示行为i和行为j之间的连接强度,set(s)表示所有不同的中间行为,p
act
表示行为act在为行为act
i
和act
j
之间出现的概率。
[0034]
s3)行为嵌入表示学习
[0035]
本发明采用line图嵌入学习算法来学习行为的嵌入向量表示。line具有学习速度快,适用于有向带权图的特点。其通过最优化目标函数来使学到的行为嵌入表示同时保留有图的局部结构信息和全局结构信息。
[0036]
s4)基于门控循环单元的行为预测
[0037]
根据用户行为序列和行为嵌入表示进行行为编码,并利用循环神经网络来预测用户行为。通过在真实意图补充图上学习得到每种行为的嵌入向量表示v
act
∈r
d
,d表示嵌入向量的维度。对于用户u的行为序列actseq
(u)
=<act
(u)t1
,act
(u)t2
,

,act
(u)tn
‑1,act
(u)tn
>,将每个行为act
(u)ti
用相应的嵌入向量v
act(u)ti
替换,并按原序列顺序堆叠,得到行为序列编码e
(u)
∈r
(n
×
d)
。将行为序列编码输入循环神经网络预测用户未来的行为。
[0038]
本发明基于频繁模式图嵌入的循环神经网络fpgnn整体算法流程如下:
[0039][0040][0041]
本发明用三个具有代表性的真实用户行为数据集来评估所提出模型的性能。第一个是用户对电影评分的行为数据movielens(ml);第二个是用户对商品评价的行为数据
amazon beauty(beauty);第三个是用户在电商网站上的购买序列recsys15

buy(recsys)。表1展示了3个数据集的统计信息。
[0042]
表1实验数据集统计信息
[0043][0044]
表2展示了经过基于频繁模式的真实意图补充操作后,行为图上关系的增加比例。
[0045]
表2真实意图补充后关系数量提升表
[0046][0047]
为了评估模型的准确性,我们将fpgnn与6种现有方法以及fpgnn的简化版argnn进行了比较:(1)random:该方法随机选择一个常用的行为进行预测,是最简单的方法。(2)most popular:该方法按行为流行度排序,选择最流行的行为作为预测值,尽管该方法较简单,但在某些领域是一个很有效的方法。(3)itemknn:该方法把与当前行为相似的行为作为预测结果。行为间的相似度被定义为共现矩阵中的行为向量间的余弦相似度,是实际应用中最常见的一种item

item方法。(4)bprmf:该方法是一种基于矩阵分解的方法,它通过sgd最优化一个成对的排序目标函数。(5)gru4rec:该方法使用循环神经网络gru来捕捉用户行为序列之间依赖关系。(6)caser:该方法基于卷积神经网络cnn,在用户行为序列中最近的l个行为的嵌入表示矩阵上同时使用水平和垂直卷积结构来捕捉不同级别的序列模式。(7)argnn:该方法是fpgnn的简化版,除了不包括基于频繁模式挖掘的真实意图补充模块外其余与fpgnn相同。表3总结了我们的方法和其他方法的性能对比。
[0048]
表3各种方法的性能对比
[0049][0050]
表3展示了不同模型在3个数据集上prec@n、recall@n和f1@n指标的性能。从表中可以发现,序列推荐方法如gru4rec、caser、argnn、fpgnn等的性能都要优于没有考虑序列特点的方法,结果证明行为时序信息对行为预测的重要性。在ml数据集上,fpgnn算法除了在f1@5和recall@10指标上取得次优外,其他指标都是最优;在beauty和recsys数据集(3个数据集中最稀疏的两个)上,fpgnn模型在所有指标上均为最优。实验结果证明了本文提出的fpgnn模型通过基于序列频繁模式挖掘的方式,在原始用户行为同构图上补充用户的真实意图,修正行为时间依赖深度的有效性,能克服数据稀疏和用户意图不确定的问题。在ml、beauty和recsys数据集上,argnn都要优于gru4rec,说明用图结构来描述用户行为关系,能充分利用序列间的信息,对行为进行全局的直接编码,相对单条的序列建模能捕捉到更多信息。
[0051]
在图3中展示了在保持其他参数不变的情况下,改变嵌入层维度分别为30,50,64,100,128维时,在3个数据集上f1@10的表现。通过观察ml和beauty数据集上的结果可以发现,并不是嵌入层维度越大,模型性能越好。嵌入层维度增大可能导致过拟合现象的发生,因此只有选择一个的合适嵌入层维度才能取得最好的效果。对比ml、recsys和beauty数据集上可以发现,数据集越稀疏,本文提出的fpgnn模型优势越明显。另外,本文提出的fpgnn模型能用更小的维度表示,在各个数据集上均能取得稳定且优于其它方法的预测效果。
[0052]
综上,本发明提出的基于频繁模式图嵌入的循环神经网络fpgnn,能够更准确地实
现用户行为的预测。
[0053]
以上所述仅是本发明优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1