基于统一概率模型的个性化用户标签建模与推荐方法

文档序号：6519354阅读：443来源：国知局

专利名称：基于统一概率模型的个性化用户标签建模与推荐方法
技术领域：
本发明属于互联网技术领域，尤其涉及社会标签网站中个性化用户标签的学习理解和推荐技术，具体为一种基于统一概率模型的个性化用户标签建模与推荐方法。
背景技术：
社会标签(Social tagging)是Web2. 0的一个主要特性，它允许用户自由地标注各种资源，例如网页、学术论文和多媒体资源。社会标签可以帮助用户分类整理和查询各类信息，同时，它对于很多实际应用都有很大的价值，包括网络搜索、扩充查询、个性化搜索、网络资源分类和聚类。随着社会标签网站的出现和快速发展，例如社会标签网站(Flickr、 Picassa> YouTube、Plaxo)、t専客(Blogger、WordPress> Livejournal)、百禾斗(ffikipedia、 PBWiki)、微博(Twitter、Jaiku)，标签系统毫无疑问成为组织大规模增长的社区数据的重要手段之一。近来，标签推荐成为社会标签研究的一大热点。标签推荐就是与用户共享的资源推荐最相关的标签。标签推荐的作用主要有两方面一是对于社会标签网站来说，标签推荐可以扩大资源的标签集，从而增加检索资源时的索引集；二是对于用户来说，与其他的推荐系统类似，标签推荐的目的是增强用户在标注过程中的用户体验，缩短用户的思考时间。实际应用中的标签推荐更为复杂和具有挑战性。首先，实际社会标签网站中资源受欢迎程度满足幂定律，这表明绝大部分的资源只被标注过1次或2次，所以很可能有某个资源只被一个或没有被任何用户标注过。这种情况下，协同过滤便不再适用，所以需要进一步的探讨网络资源之间的联系和标注在其他类似资源上的标签。其次，不同的用户会使用不同的标签标注同一个资源，这取决于个人习惯。因此，需要设计一个用户个性化的标签推荐系统来增加用户体验，鼓励用户标注更多的资源。个性化标签推荐将结合用户的标注历史进行推荐，目的是针对每一特定的用户，对特定的资源进行标签推荐。目前的个性化标签推荐主要有两种方法⑴基于内容的方法；⑵基于图结构的方法。其中基于内容的方法通常从文本信息(网页内容、学术论文、标签和资源的描述)中学习用户的兴趣，进而可以为新用户和新资源进行推荐。基于图结构的方法相比基于内容的方法通常有更多的假设和约束条件，例如假设所有要被推荐的资源和用户在过去的数据中都已出现过。然而这种假设在实际应用中通常是无法满足的。这是因为标签推荐系统需要在系统对网络资源或用户一无所知的情况下仍然可以做出合理的推荐。两种方法相比，基于内容的方法的优点在于它适用于新用户和新资源，但这种方法的准确率不如基于图结构的方法。而基于图结构的方法只适用于老用户和老资源，虽然准确率高，但不能处理新用户和新资源的情况。为了充分利用社会标注系统的网络结构信息，需要对用户、资源和标签之间的关系进行建模。目前有许多研究在对社会标签网络进行建模。例如，社会标签系统被描述成一个由用户、标签和资源构成的结点组成的三元网络。这个三元网络被分解成一个二元网络和一个一元网络来学习其中的潜在结构。有的研究者将社会标签系统模拟成一个三元网络，增加了社会维度(用户)，将传统的二元网络下的本体模型扩大至三元。有的研究者提出了一个社会标签网络图，其中标签被视为连接异构领域不同资源的桥梁，设计了基于这个网络图的半监督分类算法。这些方法都在一个网络图上研究社会标注系统。另一个研究社会标注系统的方法是用一个生成模型来模拟社会标签标注过程。例如，Wu等人设计了一个概率生成模型，模型中，社会标签系统中的三个实体(标签、资源、用户)被映射到同一个概念空间，用一个多维向量表示这个概念空间，其中每一维对应一个知识类。另夕卜，基于 LDA(Latent Dirichlet Allocation)禾口 PLSA(Probabilistic Latent Semantic Analysis)的层次贝叶斯模型也被用于模型社会标注。Web2. 0的兴起带动了对于标签推荐的研究进展。有一些方法是基于用户标注的历史信息。例如AutoTag是由Gilad Mishne特别为博客设计的标签推荐系统。这个系统首次采用了信息检索方法来估计博客之间的相似性，并为要被推荐的博客寻找相似的博客，并将标注在这些相似的博客上的标签进行排序，排序依据使用频率，最后得出推荐的标签。这个系统也考虑到用户信息，使用的信息检索方法较为简单。另一个标签推荐系统是 FolkRank算法，它利用社会标签网络中的图结构信息。这个算法是著名算法PageRank的扩展。有的研究者通过基于张量分解的方法学习标签的排序，从而进行推荐。还有的研究者利用张量降维的方法进行标签推荐。上述的基于图结构的方法依赖于较为紧密的社会标签网络，除了这些方法，一些基于语义的方法也十分有效，例如有Wu等人设计的算法。然而，这些方法都没有考虑到用户特定的兴趣。Xu等人利用协同标注信息来进行标签推荐。他们的推荐方法拟在推荐那些被大批用户标注在目标资源上的标签，并且希望可以通过最小化所推荐的标签的概念上的重复来允许推荐出的标签覆盖资源的各个面，这个算法与Del. icio.us网站所使用的方法类似，都不能处理新的资源。有的研究者设计P-tag算法自动地为网页生成个性化的标签。这些自动生成的标签不仅与网页上的文本信息相关也与浏览者桌面上的文件内容相关。有的研究者针对Flickr网站的标签推荐问题，在Flickr网站上，每当一个用户提交一副图片和一些标签时，系统会自动显示一个排了序的标签候选集给用户，这个标签候选集是通过之前用户输入的标签和其他标签共同出现的关系而生成的。但是这个方法依赖于用户手工输入某些标签，然后系统自动地进一步推荐其他标签，不能完全应用于只有资源但没有任何用户标注过的问题上。不仅如此，由于他们只考虑了共同出现的数据，所以可能会出现话题漂移的问题。有人介绍了一种个性化的互动性的标签推荐系统，同样是在Flickr网站，系统会特殊考虑用户的标注数据来进行推荐。由于这个算法也依赖于标签同现，所以也存在上面方法的缺点。越来越多的研究者开始关注依赖于用户的信息并且希望可以进一步地从他们的标注行为中认识用户并且理解他们潜在的兴趣和偏好。有的研究者尝试利用之前用户的标注信息来进行推荐。用户之前使用过的标签在很大程度上表明了用户的偏好和兴趣，且对于推荐有很大的帮助。有的研究者分析用户浏览网络的行为来预测用户对于某幅图片应使用的标签。有的研究者使用一个基于层次化标签聚类的方法进行个性化的标签推荐。其他一些研究者研究了实时高效的标签推荐系统。还有的研究者设计了为文本搜索和数字图书馆设计的自动标签系统。由于问题空间巨大，因此效率和准确性一样非常重要。在以上的设计的方法中，他们使用分割图的方法来提高准确率同时降低算法复杂度。在实际应用中，数据集非常大且用户希望得到实时的推荐结果。因此，如何保证高效率地进行个性化的用户推荐是这个领域内的一大挑战。同时，社会标注的动态特性也是另一个研究问题。

发明内容
(一)要解决的技术问题本发明要解决的技术问题在于，如何提供一种应用于互联网络中的个性化用户标签建模与推荐方法，从而界定个性化的标签标注行为，并通过用户标注的历史记录对其标注的某个资源的标签进行预测。(二)技术方案为解决上述技术问题，本发明提供了一种基于统一概率模型的个性化用户标签建模与推荐方法，基于统一概率模型的个性化用户标签建模与推荐方法，包括以下步骤S1、统计社会标签网站上用户的标注行为；S2、对用户的标注问题进行形式化定义；S3、建立基于用户标注的话题模型，其为一统一概率模型，称为UdT模型；统一概率模型是一种将所有模型化的任务都描述在一个模型中的概率模型。S4、建立基于所述UdT模型的标签推荐系统的框架，所述框架是通过学习用户的兴趣并且根据兴趣中包含的语义信息来进行推荐；S5、验证所述标签推荐系统的框架。其中，所述步骤S2具体包括以下步骤S21、将用户的标注行为形式化为一个三元组，所述三元组包括用户、标签和资源三个元素；S22、形式化定义标注问题中的话题分布，具体来说，建立对应于用户u e U的T维话题分布向量0uERt，其中，向量0 的各项满足
权利要求
1.一种基于统一概率模型的个性化用户标签建模与推荐方法，其特征在于，包括以下步骤51、统计社会标签网站上用户的标注行为；52、对用户的标注问题进行形式化定义；53、建立基于用户标注的话题模型，其为一统一概率模型，称为UdT模型；54、建立基于所述UdT模型的标签推荐系统的框架，所述框架是通过学习用户的兴趣并且根据兴趣中包含的语义信息来进行推荐；55、验证所述标签推荐系统的框架。
2.根据权利要求1所述的方法，其特征在于，所述步骤S2具体包括以下步骤521、将用户的标注行为形式化为一个三元组，所述三元组包括用户、标签和资源三个元素；522、形式化定义标注问题中的话题分布，具体来说，建立对应于用户ue U的T维话题分布向量euGRT，其中，向量eu的各项满足每一个元素0皿表示用户11对话题z感兴趣的概率；并建立与涉及不同话题的文档deD对应的T维话题分布向量0 GRT, 其中向量e的各项满足H=l《=l，其中每一个元素e z表示文档d涉及话题z的概率；523、建立基于用户兴趣的话题模型，其中，用户兴趣被描述成一个各种话题的组合，对于不同话题的兴趣有不同的概率，该模型用一个该用户所使用的标签t的多元正态分布 {p(t| 0J来表示，分布{p(t| 0J中概率值最大的标签t在语义上代表了这个话题；524、建立文档的话题模型，该文档的话题模型由两个正态分布组成单词w的概率分布{p(w| 9)}和标签t的概率分布{p(t| e)}，0表示文档d的话题的多元正态分布。
3.根据权利要求2所述的方法，其特征在于，所述步骤S3具体为估计UdT模型中的两类未知参数(1)M个文档的话题的分布e、基于用户兴趣的话题分布eu，M个文档的伯努利分布\和T个话题的单词分布； (2)对于每一个标签tdi，与其相关的抛硬币结果Sdi、分配的话题zdi，所述抛硬币结果满足伯努利分布\ ；对于文档d 中的每一个单词Wdi，与其相关的话题z' di ；对于用户u使用过的每一个标签tui，与其相关的话题zui。
4.根据权利要求3所述的方法，其特征在于，所述估计UdT模型中的两类未知参数的方法为首先估计(a)关于话题z的后验分布，并利用它估计第一个生成过程中的话题分布 eu，然后估计(b)关于抛硬币结果s和话题z的后验分布，然后利用它得到第二个生成过程中的参数0，X，和V，其中V为单词的分布，所述第一个生成过程用来模型化用户兴趣的话题分布；所述第二个生成过程用来模型化标注的文档的话题分布。
5.根据权利要求4所述的方法，其特征在于，在步骤S4中，将UdT模型与语言模型相结合来建立所述标签推荐系统的框架。
6.根据权利要求5所述的方法，其特征在于，所述将UdT模型与语言模型相结合的方法如下首先将两个模型计算出的分数归一化，然后根据分数所占的权重将两种分数相加，从而找到只在一个模型的候选集合中出现的标签；或者先对利用UdT模型推荐的标签进行排序，然后用信息检索方法重新排序挑选排名前一定数量的标签重新进行排序。
全文摘要
本发明公开了一种基于统一概率模型的个性化用户标签建模与推荐方法，包括以下步骤S1、统计社会标签网站上用户的标注行为；S2、对用户的标注问题进行形式化定义；S3、建立基于用户标注的话题模型，其为一统一概率模型，称为UdT模型；S4、建立基于所述UdT模型的标签推荐系统的框架，所述框架是通过学习用户的兴趣并且根据兴趣中包含的语义信息来进行推荐；S5、验证所述标签推荐系统的框架。实验结果表明本发明提出的方法可以有效地发掘用户的兴趣并且提高标签推荐的准确率。
文档编号G06F17/30GK102004774SQ201010546780
公开日2011年4月6日申请日期2010年11月16日优先权日2010年11月16日
发明者唐杰, 张宁申请人:清华大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：唐杰;张宁
技术所有人：清华大学
我是此专利的发明人

上一篇：高速医药生产线上药液异物图像跟踪识别方法
上一篇：分解集成电路布局的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。