专利名称:基于统一概率模型的个性化用户标签建模与推荐方法
技术领域:
本发明属于互联网技术领域,尤其涉及社会标签网站中个性化用户标签的学习理 解和推荐技术,具体为一种基于统一概率模型的个性化用户标签建模与推荐方法。
背景技术:
社会标签(Social tagging)是Web2. 0的一个主要特性,它允许用户自由地标注 各种资源,例如网页、学术论文和多媒体资源。社会标签可以帮助用户分类整理和查询各类 信息,同时,它对于很多实际应用都有很大的价值,包括网络搜索、扩充查询、个性化搜索、 网络资源分类和聚类。随着社会标签网站的出现和快速发展,例如社会标签网站(Flickr、 Picassa> YouTube、Plaxo)、t専客(Blogger、WordPress> Livejournal)、百禾斗(ffikipedia、 PBWiki)、微博(Twitter、Jaiku),标签系统毫无疑问成为组织大规模增长的社区数据的重 要手段之一。近来,标签推荐成为社会标签研究的一大热点。标签推荐就是与用户共享的资源 推荐最相关的标签。标签推荐的作用主要有两方面一是对于社会标签网站来说,标签推荐 可以扩大资源的标签集,从而增加检索资源时的索引集;二是对于用户来说,与其他的推荐 系统类似,标签推荐的目的是增强用户在标注过程中的用户体验,缩短用户的思考时间。实 际应用中的标签推荐更为复杂和具有挑战性。首先,实际社会标签网站中资源受欢迎程度 满足幂定律,这表明绝大部分的资源只被标注过1次或2次,所以很可能有某个资源只被一 个或没有被任何用户标注过。这种情况下,协同过滤便不再适用,所以需要进一步的探讨网 络资源之间的联系和标注在其他类似资源上的标签。其次,不同的用户会使用不同的标签 标注同一个资源,这取决于个人习惯。因此,需要设计一个用户个性化的标签推荐系统来增 加用户体验,鼓励用户标注更多的资源。个性化标签推荐将结合用户的标注历史进行推荐, 目的是针对每一特定的用户,对特定的资源进行标签推荐。目前的个性化标签推荐主要有两种方法⑴基于内容的方法;⑵基于图结构的 方法。其中基于内容的方法通常从文本信息(网页内容、学术论文、标签和资源的描述)中 学习用户的兴趣,进而可以为新用户和新资源进行推荐。基于图结构的方法相比基于内容 的方法通常有更多的假设和约束条件,例如假设所有要被推荐的资源和用户在过去的数据 中都已出现过。然而这种假设在实际应用中通常是无法满足的。这是因为标签推荐系统需 要在系统对网络资源或用户一无所知的情况下仍然可以做出合理的推荐。两种方法相比, 基于内容的方法的优点在于它适用于新用户和新资源,但这种方法的准确率不如基于图结 构的方法。而基于图结构的方法只适用于老用户和老资源,虽然准确率高,但不能处理新用 户和新资源的情况。为了充分利用社会标注系统的网络结构信息,需要对用户、资源和标签之间的关 系进行建模。目前有许多研究在对社会标签网络进行建模。例如,社会标签系统被描述成 一个由用户、标签和资源构成的结点组成的三元网络。这个三元网络被分解成一个二元网 络和一个一元网络来学习其中的潜在结构。有的研究者将社会标签系统模拟成一个三元网络,增加了社会维度(用户),将传统的二元网络下的本体模型扩大至三元。有的研究者 提出了一个社会标签网络图,其中标签被视为连接异构领域不同资源的桥梁,设计了基于 这个网络图的半监督分类算法。这些方法都在一个网络图上研究社会标注系统。另一个 研究社会标注系统的方法是用一个生成模型来模拟社会标签标注过程。例如,Wu等人设 计了一个概率生成模型,模型中,社会标签系统中的三个实体(标签、资源、用户)被映射 到同一个概念空间,用一个多维向量表示这个概念空间,其中每一维对应一个知识类。另 夕卜,基于 LDA(Latent Dirichlet Allocation)禾口 PLSA(Probabilistic Latent Semantic Analysis)的层次贝叶斯模型也被用于模型社会标注。Web2. 0的兴起带动了对于标签推荐的研究进展。有一些方法是基于用户标注的 历史信息。例如AutoTag是由Gilad Mishne特别为博客设计的标签推荐系统。这个系统 首次采用了信息检索方法来估计博客之间的相似性,并为要被推荐的博客寻找相似的博 客,并将标注在这些相似的博客上的标签进行排序,排序依据使用频率,最后得出推荐的标 签。这个系统也考虑到用户信息,使用的信息检索方法较为简单。另一个标签推荐系统是 FolkRank算法,它利用社会标签网络中的图结构信息。这个算法是著名算法PageRank的扩 展。有的研究者通过基于张量分解的方法学习标签的排序,从而进行推荐。还有的研究者 利用张量降维的方法进行标签推荐。上述的基于图结构的方法依赖于较为紧密的社会标签 网络,除了这些方法,一些基于语义的方法也十分有效,例如有Wu等人设计的算法。然而, 这些方法都没有考虑到用户特定的兴趣。Xu等人利用协同标注信息来进行标签推荐。他们的推荐方法拟在推荐那些被大批 用户标注在目标资源上的标签,并且希望可以通过最小化所推荐的标签的概念上的重复来 允许推荐出的标签覆盖资源的各个面,这个算法与Del. icio.us网站所使用的方法类似, 都不能处理新的资源。有的研究者设计P-tag算法自动地为网页生成个性化的标签。这些 自动生成的标签不仅与网页上的文本信息相关也与浏览者桌面上的文件内容相关。有的研 究者针对Flickr网站的标签推荐问题,在Flickr网站上,每当一个用户提交一副图片和一 些标签时,系统会自动显示一个排了序的标签候选集给用户,这个标签候选集是通过之前 用户输入的标签和其他标签共同出现的关系而生成的。但是这个方法依赖于用户手工输入 某些标签,然后系统自动地进一步推荐其他标签,不能完全应用于只有资源但没有任何用 户标注过的问题上。不仅如此,由于他们只考虑了共同出现的数据,所以可能会出现话题漂 移的问题。有人介绍了一种个性化的互动性的标签推荐系统,同样是在Flickr网站,系统 会特殊考虑用户的标注数据来进行推荐。由于这个算法也依赖于标签同现,所以也存在上 面方法的缺点。越来越多的研究者开始关注依赖于用户的信息并且希望可以进一步地从他们的 标注行为中认识用户并且理解他们潜在的兴趣和偏好。有的研究者尝试利用之前用户的标 注信息来进行推荐。用户之前使用过的标签在很大程度上表明了用户的偏好和兴趣,且对 于推荐有很大的帮助。有的研究者分析用户浏览网络的行为来预测用户对于某幅图片应使 用的标签。有的研究者使用一个基于层次化标签聚类的方法进行个性化的标签推荐。其他 一些研究者研究了实时高效的标签推荐系统。还有的研究者设计了为文本搜索和数字图书 馆设计的自动标签系统。由于问题空间巨大,因此效率和准确性一样非常重要。在以上的设计的方法中,他们使用分割图的方法来提高准确率同时降低算法复杂度。在实际应用中,数据集非常大且 用户希望得到实时的推荐结果。因此,如何保证高效率地进行个性化的用户推荐是这个领 域内的一大挑战。同时,社会标注的动态特性也是另一个研究问题。
发明内容
(一)要解决的技术问题本发明要解决的技术问题在于,如何提供一种应用于互联网络中的个性化用户标 签建模与推荐方法,从而界定个性化的标签标注行为,并通过用户标注的历史记录对其标 注的某个资源的标签进行预测。(二)技术方案为解决上述技术问题,本发明提供了一种基于统一概率模型的个性化用户标签建 模与推荐方法,基于统一概率模型的个性化用户标签建模与推荐方法,包括以下步骤S1、统计社会标签网站上用户的标注行为;S2、对用户的标注问题进行形式化定义;S3、建立基于用户标注的话题模型,其为一统一概率模型,称为UdT模型;统一概 率模型是一种将所有模型化的任务都描述在一个模型中的概率模型。S4、建立基于所述UdT模型的标签推荐系统的框架,所述框架是通过学习用户的 兴趣并且根据兴趣中包含的语义信息来进行推荐;S5、验证所述标签推荐系统的框架。其中,所述步骤S2具体包括以下步骤S21、将用户的标注行为形式化为一个三元组,所述三元组包括用户、标签和资源 三个元素;S22、形式化定义标注问题中的话题分布,具体来说,建立对应于用户u e U的T维 话题分布向量0uERt,其中,向量0 的各项满足
权利要求
1.一种基于统一概率模型的个性化用户标签建模与推荐方法,其特征在于,包括以下 步骤51、统计社会标签网站上用户的标注行为;52、对用户的标注问题进行形式化定义;53、建立基于用户标注的话题模型,其为一统一概率模型,称为UdT模型;54、建立基于所述UdT模型的标签推荐系统的框架,所述框架是通过学习用户的兴趣 并且根据兴趣中包含的语义信息来进行推荐;55、验证所述标签推荐系统的框架。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2具体包括以下步骤521、将用户的标注行为形式化为一个三元组,所述三元组包括用户、标签和资源三个 元素;522、形式化定义标注问题中的话题分布,具体来说,建立对应于用户ue U的T维话题 分布向量euGRT,其中,向量eu的各项满足每一个元素0皿表示用户11对话 题z感兴趣的概率;并建立与涉及不同话题的文档deD对应的T维话题分布向量0 GRT, 其中向量e的各项满足H=l《=l,其中每一个元素e z表示文档d涉及话题z的概率;523、建立基于用户兴趣的话题模型,其中,用户兴趣被描述成一个各种话题的组合, 对于不同话题的兴趣有不同的概率,该模型用一个该用户所使用的标签t的多元正态分布 {p(t| 0J来表示,分布{p(t| 0J中概率值最大的标签t在语义上代表了这个话题;524、建立文档的话题模型,该文档的话题模型由两个正态分布组成单词w的概率分 布{p(w| 9)}和标签t的概率分布{p(t| e)},0表示文档d的话题的多元正态分布。
3.根据权利要求2所述的方法,其特征在于,所述步骤S3具体为估计UdT模型中的两类未知参数(1)M个文档的话题的分布e、基于用户兴趣的话题 分布eu,M个文档的伯努利分布\和T个话题的单词分布 ; (2)对于每一个标签tdi,与 其相关的抛硬币结果Sdi、分配的话题zdi,所述抛硬币结果满足伯努利分布\ ;对于文档d 中的每一个单词Wdi,与其相关的话题z' di ;对于用户u使用过的每一个标签tui,与其相关 的话题zui。
4.根据权利要求3所述的方法,其特征在于,所述估计UdT模型中的两类未知参数的方 法为首先估计(a)关于话题z的后验分布,并利用它估计第一个生成过程中的话题分布 eu,然后估计(b)关于抛硬币结果s和话题z的后验分布,然后利用它得到第二个生成过 程中的参数0,X, 和V,其中V为单词的分布,所述第一个生成过程用来模型化用户 兴趣的话题分布;所述第二个生成过程用来模型化标注的文档的话题分布。
5.根据权利要求4所述的方法,其特征在于,在步骤S4中,将UdT模型与语言模型相结 合来建立所述标签推荐系统的框架。
6.根据权利要求5所述的方法,其特征在于,所述将UdT模型与语言模型相结合的方法 如下首先将两个模型计算出的分数归一化,然后根据分数所占的权重将两种分数相加,从 而找到只在一个模型的候选集合中出现的标签;或者先对利用UdT模型推荐的标签进行排序,然后用信息检索方法重新排序挑选排名前一定数量的标签重新进行排序。
全文摘要
本发明公开了一种基于统一概率模型的个性化用户标签建模与推荐方法,包括以下步骤S1、统计社会标签网站上用户的标注行为;S2、对用户的标注问题进行形式化定义;S3、建立基于用户标注的话题模型,其为一统一概率模型,称为UdT模型;S4、建立基于所述UdT模型的标签推荐系统的框架,所述框架是通过学习用户的兴趣并且根据兴趣中包含的语义信息来进行推荐;S5、验证所述标签推荐系统的框架。实验结果表明本发明提出的方法可以有效地发掘用户的兴趣并且提高标签推荐的准确率。
文档编号G06F17/30GK102004774SQ201010546780
公开日2011年4月6日 申请日期2010年11月16日 优先权日2010年11月16日
发明者唐杰, 张宁 申请人:清华大学