一种基于耦合主题模型的协同滤波方法

文档序号：6539000阅读：306来源：国知局

一种基于耦合主题模型的协同滤波方法
【专利摘要】本发明公开了一种基于耦合主题模型的协同滤波方法，用于在推荐系统中有效结合历史评分信息与用户生成内容(User-generated?Content，简称UGC)，通过进行评分预测进行有效推荐。该方法包括以下步骤：1)获取用户生成内容的记录；2)获取用户对产品的评分记录；3)提取用户文档和产品文档；4)利用耦合主题模型学习用户特征向量和产品特征向量；5)根据特征向量计算目标用户对不同产品的评分，来进行相应的产品推荐。本发明引入对用户生成内容信息的分析，能够直接的显式的发现用户兴趣和产品属性，而且有效解决了评分矩阵的稀疏问题，获得比基于用户评分信息的预测更准确的效果。
【专利说明】一种基于耦合主题模型的协同滤波方法【技术领域】
[0001]本发明涉及互联网产品的信息推荐领域，特别针对网站系统中同时存在用户生成内容信息以及用户评分信息，如何有效利用用户生成内容并同时结合历史评分信息，准确分析用户偏好和产品属性，为目标用户进行个性化信息产品推荐。
【背景技术】
[0002]随着互联网技术与web2.0的深入发展，用户生成内容(User-generatedContent，简称UGC)逐渐成为一种新型的主流网络信息资源。用户生成内容泛指以任何形式在网络上发表的由用户创作的文字、图片、音频、视频等内容，本发明主要针对推荐系统的用户生成内容进行分析，即特定用户对特定产品的UGC，比如推荐系统中用户对产品的标签或评论。
[0003]近年来，矩阵分解方法在推荐系统中得到了比较广泛的应用。矩阵分解对每个用户和产品学习一个相应的特征向量，来分别表征用户偏好和产品属性。然后利用学习到的特征向量进行产品推荐。但是传统矩阵分解方法只考虑了对历史评分信息进行分析，并未挖掘文本内容相关的信息，因此学习到的特征向量可解释性较差。
[0004]主题模型(比如PLSA、LDA等)是一种在文档集上进行主题挖掘的方法。主题模型可以将高维BOW表征的文档映射到K维主题空间，每个文档用一个K维主题向量来表示。
[0005]本发明提出了一种耦合主题模型，其结合矩阵分解与主题模型的优势，同时挖掘历史评分信息与用户生成内容进行个性化产品推荐。本发明学习到的特征向量可以用主题来更好的解释，同时解决了评分信息的稀疏问题。

【发明内容】

[0006]为了解决现有技术存在的问题，本发明的目的是提供一种基于耦合主题模型的协同滤波方法。
[0007]所述基于耦合主题模型的协同滤波方法包括以下步骤:
[0008]步骤SI，获取用户生成内容记录，每个用户生成内容对应特定的用户和产品；
[0009]步骤S2，获取用户对产品的历史评分信息，将部分历史评分信息作为训练集，剩下的作为测试集，分别构建不完全观测评分矩阵，即根据部分用户对部分产品的评分构建不完全观测评分矩阵，得到的训练集评分矩阵R作为耦合主题模型的评分输入；
[0010]步骤S3，根据用户生成内容，提取用户文档Clu和产品文档dv，其中，所述用户文档Clu为与用户有关的用户生成内容，所述产品文档火为与产品有关的用户生成内容，每个文档使用其包括的单词的词频来表示，并将每个文档的词袋表达向量Wu和Wv建模为可见单元，作为耦合主题模型的内容输入；
[0011]步骤S4,结合所述步骤S2得到的训练集评分矩阵R和所述步骤S3得到的用户文档Clu、产品文档dv，利用耦合主题模型学习得到用户特征向量11?和产品特征向量ην;
[0012]步骤S5，根据步骤S4得到的用户特征向量11?和产品特征向量Hv，利用.7/.7,计算用户对不同产品的评分，然后将得到的预测评分与测试集评分进行对比，衡量所述耦合主题模型的可靠性，最后针对特定用户，根据预测评分的高低得到推荐产品列表，从而进行产品推荐。
[0013]本发明引入了对用户生成内容信息的分析，能够直接的显式的发现用户兴趣和产品属性，而且有效地解决了评分矩阵的稀疏问题，获得比基于用户评分信息的预测更准确的效果。
【专利附图】

【附图说明】
[0014]图1是本发明基于耦合主题模型的协同滤波方法的流程图。
[0015]图2是用于协同滤波的耦合主题模型的生成示意图。
[0016]图3是以电影推荐系统为例，介绍用户生成内容的示意图。
【具体实施方式】
[0017]为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。
[0018]本发明基于矩阵分解与主题模型，提出了耦合主题模型。通过将用户和产品映射到隐含主题空间，对每个用户和产品学习一个K维特征向量η，通过引入逻辑斯谪正态先验替代狄利克雷先验，使得学习到主题向量Θ Ok = I，Κ为主题向量的数量)的同
时，可以学习到更加灵活的特征向量n，所述特征向量n不再受限于相应的单纯形(一个
K维的向量θ如果满足> ο,χ" x6k = 1，那么就称该向量分布在κ-1的单纯性上)，这
样不仅使得特征向量的表达性更好，而且用于矩阵分解进行评分预测也更加灵活。
[0019]图1是本发明基于耦合主题模型的协同滤波方法的流程图，如图1所示，所述方法包括以下步骤:
[0020]步骤SI，获取用户生成内容记录，每个用户生成内容对应特定的用户和产品，所述用户生成内容比如可以为用户标签，每个标签对应特定的用户和产品；
[0021]步骤S2，获取用户对产品的历史评分信息，将部分历史评分信息作为训练集，剩下的作为测试集，分别构建不完全观测评分矩阵，即根据部分用户对部分产品的评分构建不完全观测评分矩阵，得到的训练集评分矩阵R作为耦合主题模型的评分输入；
[0022]步骤S3，根据用户生成内容，提取用户文档Clu和产品文档dv，其中，所述用户文档Clu为与用户有关的用户生成内容，所述产品文档火为与产品有关的用户生成内容，每个文档使用其包括的单词的词频来表示，并将每个文档的词袋表达向量(即Wu和Wv)建模为可见单元，作为耦合主题模型的内容输入；
[0023]其中，用户文档反映了用户的偏好信息，产品文档则反映了产品的属性信息。用户文档与产品文档都来自于用户生成内容，这也保证了用户文档与产品文档共享同一词典，使得两者可以映射到同一主题空间。与用户i相关的所有用户生成内容构成用户i的文档‘，与产品j相关的所有用户生成内容构成产品j的文档dv,p如果用dq表示用户i对产品j的用户生成内容文档，那么用户i的文档C^i中单词W的词频表示为:
【权利要求】
1.一种基于耦合主题模型的协同滤波方法，其特征在于，该方法包括以下步骤: 步骤S1，获取用户生成内容记录，每个用户生成内容对应特定的用户和产品；步骤S2，获取用户对产品的历史评分信息，将部分历史评分信息作为训练集，剩下的作为测试集，分别构建不完全观测评分矩阵，即根据部分用户对部分产品的评分构建不完全观测评分矩阵，得到的训练集评分矩阵R作为耦合主题模型的评分输入；步骤S3，根据用户生成内容，提取用户文档Clu和产品文档dv，其中，所述用户文档Clu为与用户有关的用户生成内容，所述产品文档4为与产品有关的用户生成内容，每个文档使用其包括的单词的词频来表示，并将每个文档的词袋表达向量Wu和Wv建模为可见单元，作为耦合主题模型的内容输入；步骤S4,结合所述步骤S2得到的训练集评分矩阵R和所述步骤S3得到的用户文档dv、产品文档4，利用耦合主题模型学习得到用户特征向量11?和产品特征向量ην; 步骤S5，根据步骤S4得到的用户特征向量产品特征向量Hv，利用计算用户对不同产品的评分，然后将得到的预测评分与测试集评分进行对比，衡量所述耦合主题模型的可靠性，最后针对特定用户，根据预测评分的高低得到推荐产品列表，从而进行产品推荐。
2.根据权利要求1所述的方法，其特征在于，所述用户生成内容为用户标签，每个标签对应特定的用户和产品。
3.根据权利要求1所述的方法，其特征在于，所述用户文档反映了用户的偏好信息，所述产品文档反映了产品的属性信息。
4.根据权利要求1所述的方法，其特征在于，所述耦合主题模型观测变量(RjipWv)的生成过程为: 1)对每个用户1: a)从K元正态分布Ν(μu，Σu)中采样一个K维向量作为用户i的特征向量，其中，Iluii为用户i的特征向量，μ υ，Σ υ为正态分布参数； b)对用户文档Clllji中的每个单词Wlljijt； I)从多项分布Mult(Qu i)中采样一个值作为单词W^t的主题分配Z^t,其中，Zu,i，t为单词Wu i t的主题分配，θ u, i为多项分布参数，且θu，i ( Iiu, Jzexpl； Iiu, J /Σ kexp { η u, i,k} ; II)把采样得到的作为选择器，选择第^卩个主题，根据多项分布久? )采样得到单词Wl^t，其中为用户i的文档中第t个单词，P,.为多项分布参数； 2)对每个广品j: a)从K兀正态分布Ν(μ ν, Σ v)米样一个K维向量作为产品j的特征向量」，其中，η V, j为产品j的特征向量，μ ν，Σ ν为正态分布参数； b)对用户文档dVj中的每个单词Wv，j,t； I)从多项分布Mult( 0V j)中采样一个值作为单词Wv，j，t的主题分配zv，j，t，其中，zv，j，t为单词\j，k的主题分配，0v，j为多项分布参数，且9 ν，」=π ( ην，j)=eXρ{ ηv，j} /Σ kexp{ nv；J.k}；II)把采样得到的作为选择器，选择第个主题，根据多项分布睛％')1样得到单词wVjt，其中，wVjt为产品j的文档中第t个单词，PZv:Jit为多项分布参数； 3)从正态分布中采样得到用户i对产品j的评分Rm，其中，该正态分布是以为均值，σ 2为方差。
5.根据权利要求4所述的方法，其特征在于，所述映射函数将特征向量η映射到主题向量θ: Θ = Ji ( η) =exp { n } / Σ kexp{ nk},相当于主题向量Θ服从逻辑斯谪正态分布。
6.根据权利要求1所述的方法，其特征在于，所述步骤S4中，将用户文档Clu的词袋表达向量Wu、产品文档dv的词袋表达向量Wv和训练集评分矩阵R建模为耦合主题模型的输入，即可对每个用户和产品同时学习到相应的主题向量Θ和特征向量η。
7.根据权利要求1所述的方法，其特征在于，所述耦合主题模型中，若用μν, Σν, β , σ ]表示所述稱合主题模型的所有模型参数，用A = Iinu, nv, Zu, Zv]表示所有的隐变量，Zu, Zv表示所有的主题分配，那么所述耦合主题模型的观测变量(R，Du, Dv)的似然函数为:
p(r, Du, Dv)= / / P(nu)P(nv)P(R rIu, nν)P(Du nu)p(dv nv)d nv, 其中，Hu为用户特征向量，nv为产品特征向量。
8.根据权利要求7所述的方法，其特征在于，所述耦合主题模型的参数学习通过求解目标函数Θ = arg max P(/?, Du, Dv \ Θ)得到。
9.根据权利要求8所述的方法，其特征在于，采用变分EM算法进行所述耦合主题模型参数的学习，具有自动学习参数，即无需手动调参的优势。
10.根据权利要求1所述的方法，其特征在于，所述步骤S5中，根据均方根误差标准来衡量所述耦合主题模型的可靠性。
【文档编号】G06Q30/02GK103903163SQ201410069229
【公开日】2014年7月2日申请日期:2014年2月27日优先权日:2014年2月27日
【发明者】王亮, 吴书, 徐松申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王亮;吴书;徐松
技术所有人：中国科学院自动化研究所
我是此专利的发明人

上一篇：一种企业管理综合评价及量化方法
上一篇：一种同时摄取掌纹和掌静脉图像的装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。