基于多模态知识图谱的去偏短视频推荐方法、设备及介质

文档序号:39402558发布日期:2024-09-18 11:35阅读:13来源:国知局
基于多模态知识图谱的去偏短视频推荐方法、设备及介质

本技术涉及短视频推荐领域,尤其涉及一种基于多模态知识图谱的去偏短视频推荐方法、设备及介质。


背景技术:

1、随着智能手机的普及和社交媒体平台的兴起,短视频在近年来越来越受到人们的关注和喜爱。一些知名的短视频平台,如抖音(tiktok)、快手等,已经成为了全球范围内用户数量众多的社交平台。短视频作为一种新兴的娱乐和交流形式,不仅在娱乐行业有广阔的应用前景,同时也在广告营销、教育等领域中发挥着重要的作用。而短视频能有如此强大的魅力得益于其独特的ui创新界面:短视频平台不是提供选择让用户点击,而是主动向用户推荐内容,让用户一次只能看一个视频。这也让短视频能够更容易通过相关算法向该用户推荐感兴趣的短视频。

2、现有的技术中基于内容推荐短视频的方式,当一些视频被越来越多的用户喜欢,其点赞和评论该视频的数量越来越多。现有的短视频推荐技术大多根据用户的点赞、评论、关注等数据判断用户是否对是否内容感兴趣,未结合视频观看时长进行推荐。且依靠简单数据库信息进行推荐,未考虑视频之间的关联关系,推荐内容单一。


技术实现思路

1、本发明的目的在于:为了解决现有的短视频推荐技术存在准确性较低且推荐内容单一的问题,提供一种基于多模态知识图谱的去偏短视频推荐方法、设备及介质。

2、本技术的上述目的是通过以下技术方案得以实现的:

3、s1:获取短视频用户的行为数据,所述行为数据包括:点赞、评论以及观看时间;

4、s2:根据行为数据,构建多模态用户知识图谱;

5、s3:根据行为数据,构建视频观看轨迹;

6、s4:构建多模态变分自编码器模型,通过多模态变分自编码器模型学习视频观看轨迹,训练得到偏差参数并形成去偏见项;

7、s5:将各个所述多模态知识图谱合并至由多个实体连接组成的连接网络中;

8、s6:根据连接网络,利用多头交叉注意力网络学习点击率与视频热度的关系;通过所述关系、连接网络的特征向量以及去偏见项,预测用户对视频的热度得分,得到视频推荐结果。

9、可选的,步骤s1包括:建立数据采集系统,收集并存储各个用户观看短视频的行为数据,从数据采集系统中获取行为数据。

10、可选的,步骤s2包括:

11、s21:收集构建知识图谱所需的元数据,所述元数据包括:视频内容的标签、视频内容的类别;

12、s22:基于元数据,定义知识图谱的实体和属性;

13、s23:根据行为数据,建立点赞、评论以及观看时间与用户和视频内容之间的关联关系,将点赞和评论作为用户和视频内容之间的有向边,观看时间作为有向边的权重;

14、根据用户对视频内容的点赞次数,统计用户在特定时间段内点赞的次数,得到用户点赞次数的特征值

15、根据用户对视频内容的评论内容,利用情感分析方法得到评论的情感程度

16、根据用户对视频内容的观看时间,得到用户观看时间的特征值

17、根据特征值情感程度以及特征值表示用户对观看视频感兴趣的程度vu,t,公式如下:

18、

19、其中表示用户的点赞次数;代表的是评论的感情程度,越接近1则代表越感兴趣,越接近0则代表越不感兴趣;表示用户观看的时间,w1,w2,w3表示权重系数;

20、s24:将定义的实体、属性和关联关系整合起来,构建多模态用户知识图谱;使用图数据库来存储多模态用户知识图谱。

21、可选的,步骤s23包括:

22、定义n个用户和m个视频内容,将用户编号为1到n,视频内容编号为1到m;

23、根据每个用户i和视频内容j之间的关联关系,定义一个有向边e(i,j),其中,点赞与评论可以分别代表两个不同的有向边,观看时间则作为边e(i,j)的权重,具体如下:

24、用户对视频内容的点赞关系:若用户i点赞了内容j,则有向边e(i,j)表示此关系存在;

25、用户对视频内容的评论关系:若用户i评论了视频内容j,则有向边e(i,j)表示此关系存在;

26、观看时间作为有向边的权重:若用户i观看了内容j,且观看时间为t,则将t作为有向边e(i,j)的权重。

27、可选的,步骤s3包括:

28、s31:将每个用户观看的视频按时间戳排序,构建视频轨迹序列;根据行为数据,将点赞、评论、观看时间投影到同一个空间下,形成用户的特征向量;视频轨迹序列中的每个元素表示观看的一个视频,将视频的特征向量作为轨迹的元素;

29、s32:根据用户历史的行为数据以及历史的视频内容,构建视频观看轨迹模型的训练集;

30、s33:使用卷积神经网络,从训练集的视频内容中提取第一视觉特征;使用基于词频和逆文档频率的统计方法,从训练集的视频内容中提取视频的第一文本特征;将第一视觉特征和第一文本特征转换为向量形式;

31、s34:构建用户的视频观看轨迹,公式如下:

32、

33、其中t为视频轨迹序列,代表从i=1到i=n的特征向量fi组成的序列。

34、可选的,步骤s4包括:

35、s41:根据视频标题、视频关键字、视频标签以及行为数据,构建数据集;

36、s42:根据数据集,利用多层感知机模型学习所述数据集中视频的第二视觉特征,并使用基于词频和逆文档频率的统计方法来提取第二文本特征;

37、s43:将第二视觉特征以及第二文本特征转换为向量形式,如下:

38、将第二视觉特征和第二文本特征进行连接,得到视频的综合特征向量,公式如下:

39、v=concatenate(evideo,etext)

40、其中,v表示综合特征向量,evideo代表的是使用预训练多层感知机模型提取的第二视觉特征向量,etext代表的是使用于词频和逆文档频率的统计方法提取的第二文本特征向量;concatenate()表示连接;

41、s44:在多层感知机模型结构中引入偏差参数β;将偏差参数β作为额外的偏置项参数添加到多模态变分自编码器模型的输出层;在多模态变分自编码器模型的训练过程中通过最小化损失函数自动学习偏差参数的值,使用梯度下降优化算法更新偏差参数更新;

42、s45:通过数据集对多模态变分自编码器模型进行训练,通过最大化似然函数来学习模型参数,使模型学习到视频观看轨迹,得到偏差参数并形成去偏见项。

43、可选的,步骤s44包括:

44、根据损失函数的梯度对偏差参数进行更新,公式如下:

45、

46、其中b是偏差参数,α是学习率,表示的是梯度。

47、可选的,步骤s6包括:

48、s61:获取连接网络数据,所述连接网络数据包括:用户信息、视频信息和点击率;根据连接网络数据,构建连接网络;

49、s62:将各个所述多模态知识图谱中的实体与连接网络的实体进行对齐;

50、s63:将连接网络中用户的点赞和评论作为用户和视频内容之间的有向边,观看时间作为有向边的权重;

51、s64:使用多头交叉注意力网络来学习点击率、所述行为数据以及视频热度的关系;同时在多头交叉注意力网络中,采用正则化方式将去偏见项加入到损失函数中,以减少模型对特定视频或者用户的偏好;

52、s65:使用注意力机制来对所述关系进行建模;将图神经网络中的视频特征、文本特征和用户特征提取出来后融合为特征向量;根据行为数据的特征向量和观看视频的综合特征向量,计算相似度;根据相似度,对视频进行排序,并与视频的热度得分进行加权结合,将视频得分从高到低依次推荐给用户,具体如下:

53、使用相似度来衡量用户对视频的喜好和兴趣,公式如下:

54、euclideandistance(vu,t,vu,c)=sqrt(sum((vu,t-vu,c)2))

55、其中euclideandistance(vu,t,vu,c)代表的是欧几里得距离,sum表示求和运算,sqrt表示平方根运算。vu,t和vu,c则分别代表用户对观看视频感兴趣的程度与用户对推荐短视频的喜欢程度;

56、多头注意力的计算步骤如下:

57、构建注意力权重矩阵aij,如下:

58、aij=attention(f(user),g(video))

59、其中,f和g为对用户和视频特征进行映射的函数,user表示用户;video表示视频;attention表示多头注意力;

60、计算多头交叉注意力的输出:

61、h=softmax(aij)*user

62、其中,aij为注意力权重矩阵,h为多头交叉注意力的输出;

63、使用多头交叉注意力网络的输出h进行点击率的预测,如下:

64、ctr=f(h)

65、其中,ctr为点击率的预测结果,f为全连接层和激活函数;

66、将热度得分定义为点击率、观看时长以及评论互动数据的最终得分,根据最终得分,确定视频推荐结果;

67、热度得分包括:点击率vctr,观看时长vt,评论互动数据vl,以及用户反馈vf,热度得分计算公式具体如下:

68、vh=vctr*w1+vt*w2+vl*w3+vf*w4

69、其中,w1~w5为权重系数,vh是热度得分。

70、一种电子设备,包括处理器、存储器、用户接口及网络接口,所述存储器用于存储指令,所述用户接口和网络接口用于给其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行一种基于多模态知识图谱的去偏短视频推荐方法。

71、一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行一种基于多模态知识图谱的去偏短视频推荐方法。

72、本技术提供的技术方案带来的有益效果是:

73、1.构建了关于用户行为数据的知识图谱,以便于获取用户观看视频之间的关联关系,提供多样化的推荐视频;构建了用户的视频观看轨迹,通过多模态变分自编码器模型学习视频观看轨迹,训练得到偏差参数并形成去偏见项,抵消用户对观看视频时间的偏差。结合当前的视频热度,分析用户对视频的热度得分,避免盲目推送热度较大的视频导致降低用户体验的问题。

74、2.使用多头交叉注意力网络来学习点击率、所述行为数据以及视频热度的关系,将不同的特征进行交叉注意力计算,以捕捉它们之间的相互作用,提高模型的预测准确性。

75、3.使用注意力机制来对关系进行建模,用于预测用户可能感兴趣的高热度视频,考虑了用户和视频之间的交互关系。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1