一种基于用户长短期兴趣的个性化新闻推荐方法

文档序号:32894467发布日期:2023-01-13 00:02阅读:49来源:国知局
一种基于用户长短期兴趣的个性化新闻推荐方法

1.本发明属于新闻推荐领域,具体涉及一种基于用户长短期兴趣的个性化新闻推荐方法。


背景技术:

2.新闻推荐如国外的雅虎新闻、谷歌新闻、msn等平台,每天都会产生大量的新闻,用户被来自全世界各地覆盖的各种各样的新闻所淹没,也在这新闻的海洋里面挑花了眼。为了缓解信息过载,帮助用户确定阅读兴趣并给出推荐列表是最关重要的。所以个性化推荐系统是帮助用户从海量的新闻里面挑选出用户所感兴趣的新闻。
3.近些年推荐系统发展迅速,他们可以自动的向用户推荐一组用户感兴趣的项目,如电影推荐,电商推荐、音乐推荐等。新闻通常从新闻网站获取,如谷歌新闻,msn新闻,并且新闻的时效往往是比较短,更新很快。所以个性化新闻推荐系统对于用户高效阅读时非常重要,但是要实现个性化推荐,就需要精准学习用户兴趣和丰富新闻的表示。
4.传统的个性化推荐方法主要包括基于协同过滤的方法推荐、基于内容的方法推荐和基于混合的方法的推荐等。当用户矩阵比较稀疏的时候,这些传统的方法的推荐效果并不是很好。所以在近些年,深度学习的发展逐渐融入推荐系统中产生了很多的方法。但是仍然存在一些挑战。
5.问题1:现有的个性化推荐方法通常只将新闻标题或者新闻简介作为新闻推荐的特征提取,忽略了正文含有更加丰富的特征和主题信息,不能准确的表征新闻的特征,导致推荐效果不好。
6.问题2:现有的个性化推荐方法都是基于用户的长期兴趣,忽略了用户的短期兴趣,导致用户兴趣不会动态扩展,逐渐变成一个兴趣茧房,导致不能动态把握用户近段时间的阅读兴趣,导致推荐效率不高。
7.问题3:现有的个性化推荐方法存在数据稀疏性的问题,即有些用户阅读行为数据少,因此无法有效利用用户的高阶信息,导致推荐效果不好。


技术实现要素:

8.为了解决背景技术中存在的问题,本发明提供一种基于用户长短期兴趣的个性化新闻推荐方法,包括:
9.s1:从社交新闻平台获取用户的历史阅读数据;所述用户的历史阅读数据包括:用户阅读的历史新闻和用户阅读历史新闻的时间,其中,所述历史新闻包括:新闻的正文、新闻的标题、新闻的类别标签、新闻的子类别标签;
10.s2:创建多维度特征提取模型,并将用户阅读的历史新闻输入多维度特征提取模型进行特征提取得到历史新闻的特征向量和历史新闻的主题;其中,所述多维度特征提取模型包括:注意力网络模块、全连接层、卷积层和lda模块;
11.s3:根据用户阅读历史新闻的时间和历史新闻的特征向量利用循环神经网络计算
得到用户的短期兴趣向量;
12.s4:根据用户阅读的历史新闻和历史新闻的主题利用图卷积神经网络计算得到用户的长期兴趣向量;
13.s5:将用户的长期兴趣向量和用户的短期兴趣向量进行拼接得到用户的兴趣表示向量;
14.s6:获取目标新闻数据,将目标新闻数据输入多维度特征提取模型进行特征提取得到目标新闻的特征向量;
15.s7:根据目标新闻特征向量和用户的兴趣表示向量计算用户对目标新闻的点击概率;并将目标新闻推荐给点击概率超过设定阈值的用户。
16.本发明至少具有以下有益效果
17.本发明通过lda模型对新闻主体进行特征提取,并且还结合类别,子类别以及新闻标题等方面来进行特征提取,最后通过注意力机制融合每个方面的特征得到最终的新闻表示,提高了新闻的表示的丰富度更能反映用户兴趣,提高了新闻的推荐的准确性,本发明通过结合用户近期的阅读历史行为,将近期的新闻进行循环神经网络的迭代,将上一次阅读的信息传递给下一次,最后能够判断用户短期的兴趣和下一次阅读的新闻类型,能够动态的学习用户近期的学习兴趣提高新闻的推荐效果,本发明建立了用户新闻主题的异构图,使用图来提高历史行为数据稀少的用户推荐的准确性,使用异构图获取用户与用户之间的相似性从而来对用户进行相似推荐,因为相似的用户拥有相似的兴趣,所以通过聚合图中的相邻用户的信息增强自身信息,提高新闻推荐的准确性。
附图说明
18.图1为本发明方法流程图;
19.图2为本发明的方法流程框图。
具体实施方式
20.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
21.请参阅图1和图2,本发明提供一种基于用户长短期兴趣的个性化新闻推荐方法,包括:
22.s1:从社交新闻平台获取用户的历史阅读数据;所述用户的历史阅读数据包括:用户阅读的历史新闻和用户阅读历史新闻的时间,其中,所述历史新闻包括:新闻的正文、新闻的标题、新闻的类别标签、新闻的子类别标签;新闻的类别标签表示新闻所属的大的类别,例如,军事、娱乐、体育等,新闻的子类别标签表示新闻在大类别下的小类别,例如,在娱乐下面的小类别有、综艺、音乐、电影等,本领域技术人员可根据社交平台的划分对新闻的类别标签和子类别标签进行划分。
23.所述用户的历史阅读数据可以从公开的数据网站,或者是一些社交新闻平台的api接口进行获取。
24.所获取用户的历史阅读数据需要进行预处理包括:删除重复数据,清理无效信息,填充空值等,通常获取的原始数据都是非结构化的,不能直接用于数据分析,通过简单的数据清晰可以使大部分非结构化数据结构化,减少后续的计算量。
25.s2:创建多维度特征提取模型,并将用户阅读的历史新闻输入多维度特征提取模型进行特征提取得到历史新闻的特征向量和历史新闻的主题;其中,所述多维度特征提取模型包括:注意力网络模块、全连接层、卷积层和lda模块;
26.所述将用户阅读的历史新闻输入多维度特征提取模型进行特征提取得到历史新闻的特征向量和历史新闻的主题包括:
27.s21:将历史新闻的标题嵌入向量表示得到第一历史新闻标题向量,将第一历史新闻标题向量输入卷积层进行降维处理得到第二历史新闻标题向量;
28.c=relu(mce+b)
29.其中,relu表示非线性激活函数,mc表示卷积核的权重参数,b表示卷积核的偏置项,e表示第一历史新闻标题向量,c表示第二历史新闻标题向量。
30.s22:将历史新闻的正文输入lda模块提取历史新闻的主题和每个主题对应的词,将历史新闻的主题对应的词进行嵌入向量表示得到第一历史新闻主题向量;
31.lda模型为每条新闻生成对应的主题分布,并为每个主题生成对应的词分布。lda模型假设新闻主题以及主题词满足狄利克雷分布,狄利克雷分布是多项式分布的共轭先验概率分布,对任意新闻正文d,其主题分布满足如下:
[0032][0033]
θd=dirichlet(β)
[0034]
其中,γ∈r
x
是主题分布的超参数,x代表lda模型语料库中所有的词汇数量,β∈rk表示词分布的超参数,k代表潜在主题的个数,表示新闻正文d的主题分布,θd表示新闻正文d的词分布。本发明通过lda模型对新闻主体进行特征提取,并且还结合类别,子类别以及新闻标题等方面来进行特征提取,最后通过注意力机制融合每个方面的特征得到最终的新闻表示,提高了新闻的表示的丰富度更能反映用户兴趣,提高了新闻的推荐的准确性。
[0035]
s23:将历史新闻的类别标签和子类别标签嵌入向量表示得到第一历史新闻类别向量和第一历史新闻子类别向量;
[0036]
s24:将第一历史新闻主题向量、第一历史新闻类别向量和第一历史新闻子类别向量分别输入全连接层得到第二历史新闻主题向量、第二历史新闻类别向量和第二历史新闻子类别向量;
[0037]
ec=relu(vcec+vc)
[0038]esc
=relu(vce
sc
+vc)
[0039]el
=relu(vce
l
+vc)
[0040]
其中,ec表示第二历史新闻类别向量;ec表示第一历史新闻类别向量;e
sc
表示第二历史新闻子类别向量;e
sc
表示第一历史新闻子类别向量;e
l
表示第二历史新闻主题向量;e
l
表示第一历史新闻主题向量,vc表示全连接层的权重参数,vc表示全连接层的偏置参数。
[0041]
s25:将第二历史新闻标题向量、第二历史新闻主题向量、第二历史新闻类别向量和第二历史新闻子类别向量输入注意力网络模块利用注意力机制计算得到历史新闻的特征向量。
[0042]
注意力网络模块中,首先采用神经网络拟合查询向量与各表示向量之间的相似性程度,然后利用softmax函数对相似性计算结果进行归一化以求得注意力权重系数。
[0043]
所述历史新闻的特征向量包括:
[0044]enews
=γ
t
c+γ
zel
+γcec+γ
scesc
[0045]at
=q
t tanh(vr
t
+v)
[0046][0047]
其中,q
t
是属性查询向量,v是权重参数,v是偏置项,a
t
是标题权重,同理计算γz,γc,γ
sc
,e
news
表示历史新闻的特征向量;γ
t
表示第二历史新闻标题向量的权重参数;γz表示第二历史新闻主题向量的权重参数;γc表示第二历史新闻类别向量的权重参数;γ
sc
表示第二历史新闻子类别向量的权重参数;ec表示第二历史新闻类别向量;e
sc
表示第二历史新闻子类别向量;e
l
表示第二历史新闻主题向量。
[0048]
s3:根据用户阅读历史新闻的时间和历史新闻的特征向量利用循环神经网络计算得到用户的短期兴趣向量;
[0049]
s31:将时间段[t-t,t]内用户阅读的历史新闻作为短期历史新闻;
[0050]
s32:根据用户阅读历史新闻的时间按照时间戳升序对短期历史新闻的历史新闻特征向量进行排序得到用户的短期历史新闻特征序列;
[0051][0052]
其中,ui表式第i个用户的短期历史新闻特征序列,表示第k个时间戳对应的短期历史新闻,k∈[t-t,t];
[0053]
s33:将用户的短期历史新闻特征序列输入gru网络进行前向传播计算得到用户的短期兴趣向量。
[0054]
所以用户的短期兴趣向量包括:
[0055]rt
=sigmoid(wr[h
t-1
,e
t
])
[0056]zt
=sigmoid(wz[h
t-1
,e
t
])
[0057][0058][0059]
其中,

表示哈达玛积运算,wr,wz和表示是循环神经网络的权重参数,sigmoid表示激活函数,h
t-1
表示gru网络第t-1个时间步输出的短期兴趣向量,h
t
表示用户的短期兴趣向量,tanh表示激活函数。本发明通过结合用户近期的阅读历史行为,将近期的新闻进行循环神经网络的迭代,将上一次阅读的信息传递给下一次,最后能够判断用户短期的兴趣和下一次阅读的新闻类型,能够动态的学习用户近期的学习兴趣提高新闻的推荐效果。
[0060]
s4:根据用户阅读的历史新闻和历史新闻的主题利用图卷积神经网络计算得到用户的长期兴趣向量;
[0061]
s41:将用户作为主节点、用户阅读的历史新闻作为根节点、历史新闻的主题作为子节点、用户与历史新闻的阅读关系作为边、主题与历史新闻之间的所属关系作为边创建初始用户-新闻-主题异构图;
[0062]
s42:在初始用户-新闻-主题异构图中随机采样n个主节点的邻居根节点作为第一
根节点;
[0063]
s43:在初始用户-新闻-主题异构图中随机采样m个第一根节点的邻居节点作为第一子节点;
[0064]
s44:利用图卷积神经网络将初始用户-新闻-主题异构图中的主节点与第一根节点进行聚合得到第一用户-新闻-主题异构图;
[0065]
所述将初始用户-新闻-主题异构图中的主节点与第一根节点进行聚合包括:
[0066][0067][0068]
其中,aggregate表示是聚合函数,nv表示主节点v的邻居节点集合,w
t
表示第t层隐藏层的权重参数,w表示单层gnn的权重参数,b表示单层gnn的偏差参数,σ表示激活函数(relu),hv表示聚合后的主节点的更新嵌入。
[0069]
s45:利用图卷积神经网络将第一用户-新闻-主题异构图中的主节点与第一子节点进行聚合得到第二用户-新闻-主题异构图;并将第二用户-新闻-主题异构图作为下一次迭代的初始用户-新闻-主题异构图并重复执行步骤s42-s45直至所有节点聚合完成输出用户的长期兴趣表示向量。
[0070]
这是一个单层的gnn,其中w,b分别是gnn的变化权重和偏移量,且主节点的最终嵌入仅依赖于其附近的邻居。为了更好的获取新闻与用户之间的高阶关系,我们将单层gnn扩展到多层gnn,更加深入和广泛的去进行传播信息,可以通过两层gnn获得二阶的新闻嵌入表示。首先通过上面的公式聚合相邻的新闻表示,得到1跳的相邻用户嵌入和主题嵌入,然后将一跳的结果继续进行聚合,得到二阶的新闻嵌入。一般来说,新闻的h阶表示是其邻居的初始表示的混合直到h跳的嵌入。通过2层gnn,我们可以得到最终的用户表示和嵌入了高阶信息的新闻表示。通过完整的用户阅读历史学习用户的嵌入能够获取到相对稳定的长期用户兴趣u
l
。本发明建立了用户新闻主题的异构图,使用图来提高历史行为数据稀少的用户推荐的准确性,使用异构图获取用户与用户之间的相似性从而来对用户进行相似推荐,因为相似的用户拥有相似的兴趣,所以通过聚合图中的相邻用户的信息增强自身信息,提高新闻推荐的准确性。
[0071]
s5:将用户的长期兴趣向量和用户的短期兴趣向量进行拼接得到用户的兴趣表示向量;
[0072]
u=[us:u
l
]
[0073]
其中,us表示用户的短期兴趣向量,u
l
表示用户的长期兴趣向量。
[0074]
如果只考虑用户短期兴趣,缺乏对用户长期兴趣的学习,可能会陷入用户实时的兴趣点中,导致严重的有偏推荐,使得给用户推荐的内容最终集中于很小的兴趣点,难以满足用户的真实获取信息的需求。
[0075]
如果只考虑用户长期兴趣,缺乏用户短期兴趣的建模学习,就会导致用户兴趣成为一个茧房,使得给用户推荐的内容最终都集中于用户的狭隘的兴趣范围内,难以拓展用户获取一些实时信息的需求。
[0076]
s6:获取目标新闻数据,将目标新闻数据输入多维度特征提取模型进行特征提取得到目标新闻的特征向量;
[0077]
s7:根据目标新闻特征向量和用户的兴趣表示向量计算用户对目标新闻的点击概率;并将目标新闻推荐给点击概率超过设定阈值的用户。
[0078][0079]
其中,ed表示目标新闻的特征向量,u
t
表示用户的兴趣表示向量,表示。用户对目标新闻的点击概率。
[0080]
将本发明中的一种高光谱图像分类方法设计为计算机程序存储在手机、电脑、平板、服务器等智能设备中,通过手机、电脑、平板、服务器等智能设备实时获取目标新闻数据,运行计算机程序将目标新闻数据推荐给用户。
[0081]
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其各种各样的改变,而不偏离本发明权利要求书所限定的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1