基于主题模型的个性化服务推荐系统和方法
【技术领域】
[0001] 本发明涉及计算机技术应用领域,具体的涉及一种基于主题模型的个性化服务推 荐系统和方法。
【背景技术】
[0002] 随着信息技术特别是网络技术的发展,信息系统的规模越来越大,信息数量也越 来越多,获取信息的工具和方式也越来越丰富,通过网络为用户提供越来越多信息和服务 的同时,信息系统的结构和内容也日益复杂。在海量信息中,很难准确描述出需要的信息特 征,用户常常会面对大量的信息而束手无策,迷失在大量的信息空间中;同时,各信息系统 提供的检索方式,常常不能满足用户描述检索条件的需求。因此,为用户及时、准确地提供 当前所需要的信息内容也变得更加困难。在此背景下,个性化推荐服务(PRS,Pers〇nalized RecommenderServices)技术应运而生,并迅速得到发展。应用该技术,能够通过与用户交 互过程中获取的信息推测用户的兴趣偏好,并能根据用户的兴趣偏好推荐符合用户兴趣偏 好的息。
[0003] 现有的个性化推荐系统技术归纳起来主要分为两类,即基于内容过滤的推荐方 式、协同过滤推荐方式。基于内容过滤的推荐是通过用户个人背景资料信息和商品或服务 内容的特性消息相匹配,通过分析商品内容的结构来推测用户个性偏好,从而产生推荐结 果,但如何得到用户的背景资料,分析出偏好是其难点。协同过滤推荐方式是研究最为深入 且应用最为广泛的方式,这种推荐方式是通过分析用户或者项目之间兴趣偏好的相似性来 提供推荐服务。本发明提供的系统,作为上述两种推荐方式的结合,能有效利用前述推荐方 式的优点,能尽量弥补前二者的缺点。
[0004] 现有已公开的技术中,华为技术有限公司提出的"推荐系统及方法"将基于用户的 推荐和基于项目的推荐结合起来,得到基于用户的项目候选集和基于项目的项目候选集, 然后提取其交集作为推荐候选集,并且通过基于项目和用户的综合评分预测,得到推荐项 目的评分预测。
[0005]中国科学技术大学提出的"基于属性描述的个性化影片推荐系统及方法"和盛乐 信息技术(上海)有限公司提出的"个性化视频推荐系统及方法",都是基于视频的推荐,根 据视频的属性建立用户兴趣模型,通过该模型进行推荐,以提高推荐的准确度和适应性。
[0006] 北京邮电大学提出的"面向领域的个性化智能推荐系统及实现方法"综合使用了 协同过滤推理,领域相关上下文推理,本体推理三种推理方法,并通过推荐学习使其具有主 动学习能力,即具有智能推荐服务功能,能够根据用户对推荐服务的反映进行自我调整,以 改善整体推荐服务质量和提高用户忠诚度。
[0007] 上述的技术中存在以下问题:第一、基于协同过滤的方法,都需要用户评分表,存 在"冷启动"的问题,即由于已知信息的不足导致推荐结果开始是不准确的,随着用户评价 信息的增多,推荐结果才能逐步得到改善。此外还存在随着系统规模的增大、出现数据稀疏 性缺陷,导致推荐服务质量降低的问题。同时,如果从来没有用户对某一商品加以评价,则 这个商品就不可能被推荐。第二、基于内容过滤的方法,对推荐物的描述能力有限,往往需 要用户提供用户数据信息,而忽略了利用用户的社交网络工具作为挖掘用户兴趣的来源, 无法为客户发现新的感兴趣的资源。第三、对用户兴趣进行挖掘时,传统的向量空间模型或 语言模型只是单纯地考虑文档在词空间上的相似度,从没有从语义上进行了兴趣挖掘,更 准确。第四、上述已公开的技术中进行个性化的相关推荐时,往往重视相似度而忽略了内容 的新颖度,提供用户新的信息,而且很少考虑用户交互反馈对推荐内容准确度的影响。
[0008] 本发明旨在设计一种基于主题模型的个性化服务推荐系统和方法,利用社交网络 平台获取数据,通过主题模型对用户的兴趣进行挖掘和建模,从语义上对用户兴趣进行挖 掘,解决了传统基于向量空间模型的兴趣模型维度高,数据稀疏等问题,同时考虑了用户的 长期兴趣和短期兴趣,能更加真实的反应用户兴趣,为用户提供准确的针对用户兴趣的服 务推荐。
【发明内容】
[0009] 本发明提出了一种基于主题模型的个性化服务推荐系统,包括:
[0010] 社交数据获取模块,用于获取用户的社交网络数据;
[0011] 主题模型构建和分析模块,用来构建主题模型;
[0012] 用户兴趣建模模块,用来对获取的所述社交网络数据使用构建好的所述主体模型 进行处理和分析,建立用户兴趣标签云图;
[0013] 服务推荐模块,用来对服务信息通过构建好的所述主题模型进行分析,建立服务 信息主题分布,并通过计算所述服务信息主题分布和所述用户兴趣标签云图的相似度为用 户提供不同方式的推荐服务;
[0014] 用户交互模块,用来向用户提供推荐服务结果展示并提供交互反馈;
[0015] 系统管理控制模块,用来处理和控制系统各部位工作。
[0016] 本发明所述社交数据获取模块包括:
[0017] 用户个人社交网络信息子模块,通过社交网络获取用户个人数据,包括性别、年 龄、兴趣爱好、所在地、所发布信息、所转发信息、关注好友列表;
[0018] 用户好友社交网络信息子模块,过社交网络获取用户好友的数据,包括好友的性 另IJ、年龄、兴趣爱好、所在地、所发布信息、所转发信息、关注好友列表;
[0019] 本地最新网络信息子模块,获取本地最新的社交网络信息和新闻信息。
[0020] 本发明所述用户兴趣建模模块包括:
[0021] 噪声过滤子模块,用于对所述社交网络数据进行过滤,去除与用户兴趣不相关的 社交网络数据;
[0022] 用户兴趣构建子模块,用来对过滤后的所述社交网络数据使用构建好的所述主体 模型,得到用户兴趣主题概率分布;
[0023] 兴趣标签云图构建子模块,用来对所述用户兴趣主题概率分布表示,构建出用户 兴趣标签z?图。
[0024] 本发明所述服务推荐模块包括:
[0025] 服务信息获取子模块,用于获取商品信息或服务信息;
[0026] 服务信息构建子模块,用来对所述商品信息或服务信息使用建立好的所述主题模 型进行分析,建立服务信息主题分布;
[0027] 推荐子模块,用来计算所述服务信息主题分布和所述用户兴趣标签云图的相似度 并为用户提供不同方式的推荐服务;
[0028] 兴趣标签云图更新子模块,用来根据用户反馈信息重新构建用户兴趣云图标签。
[0029] 本发明所述用户兴趣构建子模块包括建立用户的长期兴趣和短期兴趣。
[0030] 本发明所述推荐子模块进一步包括基于内容推荐模块和协同过滤推荐模块。
[0031] 本发明所述主题模型使用维基百科对所述社交网络数据和所述服务信息进行语 义扩充,在维基百科数据上进行主题分析。
[0032] 本发明还提供一种基于主题模型的个性化服务方法,包括如下步骤:
[0033] 获取用户社交网络数据,包括用户个人社交网络信息、用户好友社交网络信息和 本地最新网络信息;
[0034] 构建文档到主题服从狄利克雷(Dirichlet)分布,主题到词服从多项式分布的主 题模型;
[0035] 对获取的所述社交网络数据进行过滤,去除与用户兴趣不相关的社交网络数据, 对过滤后的所述社交网络数据使用构建好的所述主体模型,得到用户兴趣主题概率分布, 并构建用户兴趣标签云图;