一种基于话题和相对熵的网页个性化推荐方法
【技术领域】
[0001] 本发明涉及一种基于话题和相对熵的网页个性化推荐方法,该方法可用于用户兴 趣识别、网页个性化推荐、新闻按需推送等网络应用,属于互联网技术领域。
【背景技术】
[0002] 随着互联网的飞速发展和网上信息资源的不断丰富,万维网(简称Web)已经成为 人们获取信息资讯、了解新闻时事、追索感兴趣内容的最重要场所。然而,Web中海量的网 页信息资源往往体现出动态性、非结构性和无序性等特征,公共网站又多是按大众化需求 汇集大量网页,不同的用户看到相同的内容组织,致使用户体验较差。同时,由于在传统互 联网中用户必须通过主动搜索、主观筛选来寻找自己感兴趣的内容,这种方式不但费时和 低效,而且当用户难以表述自己的主观需求或者自己的主观需求较为模糊时,往往难以找 到自己真正感兴趣的内容。在此背景之下,迫切需要借助合适的个性化推荐方法,来发现用 户兴趣和进行网页的个性化推荐,使互联网从被动接受用户的搜索请求转化为主动感知用 户个性化需求,实现"信息找人、按需服务"的主动兴趣匹配与个性化推荐。
[0003] 网页个性化推荐过程通常包括三个主要环节。首先,建立可使用户兴趣特征显著 化的兴趣模型,并根据用户对网页的历史行为生成反映其兴趣的特征向量。然后,计算用户 对待推荐网页内容的可能评分,或者用户兴趣特征向量与待推荐网页内容间的相似度。最 后,根据评分或相似度的取值,判别网页内容是否符合用户兴趣特征,以决定是否向用户进 行推荐。针对网页个性化推荐,当前采用较多的是基于协同过滤的个性化推荐方法和基于 内容的个性化推荐方法。但是,基于协同过滤的个性化推荐方法存在稀疏性和可扩展性等 问题,并且它需要较大的计算开销,所以常常难以适应设备计算能力有限和用户群频繁变 化的移动场景。而基于内容的个性化推荐方法多采用TF-IDF算法直接抽取网页内容的关 键词,但关键词这种浅表性特征往往难以全面反映内容蕴含的深层语义,并且由于缺乏统 一的关键词映射标准,常常使相似度计算和推荐决策的难度大大增加。
【发明内容】
[0004] 发明目的:针对现有技术中存在的问题与不足,本发明提供了一种基于话题和相 对摘的网页个性化推荐方法。该方法先采用LDA(LatentDirichletAllocation)模型对 网页内容和用户阅读行为进行话题(topic)挖掘,并计算基于"话题"的网页语义特征向量 和用户兴趣特征向量,再利用基于相对熵概念的相似性度量公式,计算待推荐网页语义特 征向量和用户兴趣特征向量之间的相似度,并以此作为网页个性化推荐的决策依据。基于 话题的网页个性化推荐方法避免了基于协同过滤方法的大量计算开销,同时由于它采用话 题而不是关键词来表征网页内容,所以能够使推荐过程及其结果更加全面和精确地反映网 页内容的隐含信息和深层次语义特征。
[0005] 技术方案:一种基于话题和相对熵的网页个性化推荐方法,包括:
[0006] (1)本发明中的"话题"是指从给定网页集合的内容中提取出的、经过规范化处 理的、可反映网页内容的主旨和要义等深层语义特征的主题词或短语的集合。假定共有n(彡1)个网页构成网页资源集合C= {Cl,c2,…,cn},其中m个网页已被用户浏览阅读,它 们构成用户历史阅览网页集合H=IVh2,…,hj,并且满足i/CC',而Y= {yi,y2,…,yn_J =(C-H)为待推荐网页的集合。
[0007] 本发明将借助于话题来决定是否向用户推荐集合Y中的某个(或某些)网页。基 于话题的网页个性化推荐方法主要涉及3个计算过程,包括话题挖掘与网页语义特征向量 计算、用户兴趣特征向量计算、基于相对摘的相似度计算等。
[0008] (2)话题挖掘与网页语义特征向量计算。采用概率语言模型LDA对网页资源集合C 进行话题挖掘,而LDA模型的求解过程则采用如图2所示的吉布斯采样(GibbsSampling) 通过多次迭代来完成。此过程结束时得到由k(多1)个话题构成的话题集合Z= {Zl,z2,… ,zk},并且每个网页Ci (1 <i<n)通过吉布斯采样计算得到一个对应于话题集合Z的语义 特征向量马=(AH、…,Pa),其中Pi,s(l彡s彡k)为网页(^属于话题z3的概率。
[0009] 因为用户历史浏览网页集合H和待推荐网页集合Y均是C的子集,所以H和Y中的 网页也都有对应的语义特征向量。为了从集合C中区分出集合H和集合Y,记H中任一网页 hj(l彡j彡m)对应的语义特征向量为
,其中hpj;s(l彡s彡k) 为网页hj属于话题z3的概率;记Y中任一网页yX(1彡x彡n-m)对应的语义特征向量为
[0010] (3)用户兴趣特征向量计算。经话题挖掘与网页语义特征向量计算之后,用户历史 阅览网页集合H中任一网页卜(1 <j<m)均有对应的语义特征向量为了更精确地反 映用户的兴趣特征,考虑用户针对已阅览网页的不同行为特征(如快速浏览、仔细阅读、反 馈评分、评论和转发等),对H中任一网页hj的语义特征向量赋予初始权重weight(hj,tj), 其中h是网页hd皮用户阅览的时刻。同时,考虑已被阅览网页的语义特征向量在反映用户 当前兴趣特征时的时间衰减因素,即用户离当前时间越久阅览的网页内容越不能反映其当 前兴趣,因此引入时间衰减函数来刻画网页M勺语义特征向量在当前时刻t的权重:
[0012] 其中A为衰减常数。则用户在当前时刻t的兴趣特征向量计算公式如下:
[0014] 其中dQ是用来保证A,各分量之和为1的归一化常量。
[0015] (4)基于相对熵的相似度计算。经话题挖掘与网页语义特征向量计算之后,待推荐 网页集合Y中的每个网页yx(l<x<n-m)均有对应的语义特征向量@}.);1.(为简便起见, 将它记为瓦,即瓦=專n.T )。同时,经用户兴趣特征向量计算之后,得到用户当前时刻的兴 趣特征向量瓦。在此基础上,采用相对摘(也即KL散度)计算特征向量A和特征向量瓦 之间的距离瓦),公式如下:
[0017] 其中IIA)是从特征向量瓦到特征向量良的KL散度,而紅(瓦||及,)是从特 征向量瓦到特征向量瓦的KL散度,它们通常不等,故在此取平均。
[0018] 则待推荐网页yx的语义特征向量艮与用户当前兴趣特征向量瓦之间的相似度 (简称相对熵相似度)的计算公式如下:
[0020] 其中瓦5和A,s分别表示特征向量反和瓦的第S个分量(1彡S彡k),也即是对 于它们对于第S个话题的隶属度。
[0021] 最后再根据所求得的相对熵相似度值,按网页个性化推荐服务所采取的具体策略 (如基于相似度阈值或相似度排序)向用户进行网页个性化推荐。在实际应用中,待推荐网 页集合也可以是网页集合Y= (C-H)的任意非空子集。
[0022] 有益效果:基于话题和相对熵的网页个性化推荐方法可以从原理上避免协同过滤 个性化推荐方法所存在的稀疏性和可扩展性等问题,并且它简化了网页个性化推荐的计算 过程,提升了计算效率和对于实时、在线个性化推荐需求的适应能力,因而更加适用于用户 群频繁变化的移动场景。同时,该方法利用"话题"而不是关键词来对网页内容语义特征和 用户阅读兴趣进行建模,相比于传统的基于内容的个性化推荐方法,更有利于发掘多个看 似不同的网页内容所蕴含的共性语义信息,并将其映射为具有统一标准的话题特征向量, 再借助于基于相对熵概念的相似性度量方法,从而使个性化推荐结果能够更精准地反映网 页内容与用户兴趣间的深层语义关联特征。
【附图说明】
[0023] 图1是概率语言模型LDA的概率图模型,描述了 LDA模型如何生成语料库中所有 文档的对应词集。其中卢是Dirichlet分布的超参数,4为网页CidSiSn)的话题 分布,A表示第s(1彡s彡k)个话题的词语分布,tny表示网页ci的第r个词所分配到的 话题编号,wy表示网页(^的第r个词。
[0024] 图2是本发明对基于LDA模型的话题挖掘进行求解的吉布斯采样过程。其中W是 C中所有网页内容的不同词语所构成的集合,它的元素记为\,而Zto)是话题集合Z的初始 值。n(Wj|zs)表示词语Wj(l彡j彡|w|)出现在话题zs(l彡S彡k)中的次数,nhlci)表示 话题zs(l彡s彡k)出现在网页cjl彡i彡n)出现在中的次数。概率冰《,.,.kb, ,.>,〇表 示在排除网页Ci的第r个词当前所分配的话题编号的前提下,利用网页集合C和词语集合W 的信息,计算网页Ci的第r个词对其余各个话题的概率分布。0表示由网页ci(1 <i<n) 的语义特征向量属作为行向量所组成的矩阵。〇表示由k个话题对W中所有词语的概率分 布作为行向量所组成的矩阵。
[0025] 图3是基于话题和相对熵的网页个性化推荐方法的实现框架。提供网页个性化推 荐服务的应用(如门户网站、新闻推送等),可以向一个或多个用户进行网页推荐。它先对 网页资源数据库中的网页进行话题挖据和语义特征向量计算,再根据所记录的某个用户已 阅览网页及其阅览行为,计算该用户的兴趣特征向量,进而计算待推荐网页的语义特征向 量和该用户的兴趣特征向量之间的相对熵相似度,并根据计算结果进行网页个性化推荐。
【具体实施方式】
[0026] 下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明 而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价 形式的修改均落于本申请所附权利要求所限定的范围。
[0027] 基于话题和相对熵的网页个性化推荐方法