基于用户浏览行为的用户兴趣建模方法

文档序号:6598812阅读:382来源:国知局
专利名称:基于用户浏览行为的用户兴趣建模方法
技术领域
本发明是针对用户兴趣建模方法的研究,主要研究如何基于用户的浏览行为来有 效获取用户的兴趣信息,并设计了用户兴趣建模的相关算法,涉及到流量识别、Web挖掘、用 户行为分析、机器学习、数据挖掘和自然语言等多领域。
背景技术
个性化推荐服务是新一代的信息服务,是信息服务发展的趋势,通过研究不同用 户的兴趣,主动为用户推荐最需要的资源,就能更好地解决互联网信息日益庞大却无法满 足用户需求的矛盾。用户兴趣模型已经成为个性化推荐服务的核心和关键技术。
用户兴趣模型不是对用户个体的一般性描述,而是一种具有面向算法、特定数据 结构、形式化的用户描述。良好的用户兴趣模型可以为个性化推荐服务提供更有力的支持。 现在的用户兴趣建模方法还存在很多不足,主要表现在 (1)大多数用户兴趣建模方法放大或縮小网页对用户兴趣表达的重要性。
(2)目前用户兴趣模型更新所采用的方法要么过于强调用户兴趣的即时性,忽略
了持久性;要么过于注重时间因素,而忽略主动发现用户新的兴趣。 由上可见,采用传统用户兴趣建模方法很难准确的识别用户的兴趣。因此,必须另 辟蹊径。

发明内容
技术问题本发明的目的是设计针对用户浏览行为建立用户兴趣模型的方法。通 过挖掘和分析用户的网络浏览行为,分析其访问模式、行为习惯和喜好趋向,根据用户行为 的分析结果,向用户提供更加富有个性和亲和力的业务。 技术方案本发明提出了一种基于用户浏览行为的用户兴趣建模方法,其特征在 于该方法的步骤为 A.显式构建用户兴趣模型未注册的用户先通过用户注册填写个人信息及兴趣 爱好来构建初始用户兴趣模型,已注册的用户直接登录即可; B.隐式更新用户兴趣模型根据用户浏览过的网页隐式完善和更新用户兴趣模 型,其过程如下 1)训练过程训练过程是指完成训练集文档的向量表示过程,在训练过程中,训 练集实例经过网页预处理、中文分词和特征选取处理后被表示成第一向量的形式,行成特 征向量集,该特征向量集用来描述类别模式,在分类过程中使用; 2)历史网页处理过程历史访问库中存储用户访问web的历史记录,这些历史网 页经过网页预处理、中文分词并表示成第二向量; 3)页面分类所述第一向量和第二向量按照KNN分类算法对待分类的用户历史文 档进行分类,取最相近者的类别作为用户感兴趣的类别; 4)兴趣更新比较用户原有兴趣类别与页面分类得到的新的兴趣类别,按照兴趣模型更新算法对用户兴趣进行更新。 所述显式构建用户兴趣模型的方法如下 a)将用户兴趣树的根结点初始化为用户名,权重置为1 ; b)计算一级兴趣结点的权重统计用户注册时选择的兴趣类别个数n,则每个一 级兴趣类别&的权重为1/n,其中& G C ; c)计算二级兴趣结点的权重统计一级兴趣类别&包含二级兴趣类别Cj的个数
m,则二级兴趣类别Cj的权重为1/nm,其中Cj G & G C, i G [1, n] , j G [1, m]; d)计算特征项T2的权重统计二级兴趣类别Cj中包含的特征项T2个数p,则二
级兴趣类别Cj中每个特征项T2的权重为1/nmp ; 其中,C为兴趣总类别。 所述隐式更新用户兴趣模型的兴趣模型更新还包括如下方法 i.对用户感兴趣的Web文档做网页预处理,提取特征项Tl,计算特征项Tl的权
重,将该文档表示成第二向量,记作Dn6W ; ii.依据兰式距离分类算法,计算D,与用户兴趣树中的每个二级兴趣类别Cj之 间的兰式距离,得到与D,相关度最大的二级兴趣类别,记作Ck,而ck中的特征项T2将ck 表示成第三向量0^; iii.比较Dnsw中的特征项Tl和ck中的特征项T2是否相同,如果特征项t同时出
现在第二向量Dnew和第三向量Dek中,则将第二向量和第三向量中特征项t对应的权值相加, 所得的和作为Ck中特征项t的权值;如果特征项t仅出现在Ck中,则保留该特征项t ;如果
特征项t仅出现在Dnew中,将Dnew中的特征项t及其权值添加到第三向量Dek中; iv.判断Dek包含的特征项T2个数是否大于最大个数阈值l ,若不大于最大个数
阈值,则转步骤v,否则,将Dsk中的特征项T2按照权重递减的顺序排列,取前《个作为q
的特征项T2 ; v.结束; 其中,D,为将web文档表示成的向量,第三向量DA是由ck中的特征项T2所表示 的,Cj(j G [l,m])为二级兴趣类别,Ck(k G [l,m])为与D,相关度最大的二级兴趣类别, m为一级兴趣类别Ci包含二级兴趣类别Cj的个数,l指最大个数阈值。
有益效果 通过对用户兴趣建模方法的研究,能够解决以下问题 a)提供各种统计报表,完成网站日常维护工作。 b)改进Web站点内容和结构上的设计,来改善网站性能。 c)导航用户浏览行为,支持商业智能和市场决策。 d)分析用户访问行为的趋势,了解Web正在发生的变化。 对于用户兴趣模型的研究具有很广泛的意义和应用价值。主要可以应用在 1)个性化推荐服务; 2)网络站点结构解析; 3) Internet用户兴趣热点分析; 4)数字图书馆建设;


图1是基于用户浏览行为的用户兴趣模型总体结构图。
具体实施例方式
下面结合附图对发明的技术方案进行详细说明 本文的关键方法是基于用户浏览行为的用户兴趣建模方法,该方法包括两个部 分显式构建用户兴趣模型和隐式更新用户兴趣模型。显式构建用户兴趣模型是对用户兴 趣模型的初步确立以及初始化的过程,隐式更新用户兴趣模型是在不需要用户参与的情况 下,通过挖掘用户浏览的日志文件来更新和完善用户兴趣模型。 以下详细介绍通过显式构建和隐式更新的方式建立用户兴趣模型的过程。 为了区分用户的不同兴趣类另l」,参考了兴趣分类参考模型0DP(0pen
DirectoryProject)的分类层次结构,把兴趣分类参考模型定义为两级主题分类, 一级分类
是对所有二级分类的共同属性的概括,而二级分类则是从不同角度对一级分类的细化,所
有同层子节点之间是平等的兄弟关系。将单个用户的兴趣表示成与ODP相一致的树形结
构,为了方便计算我们将树中的兴趣类别和特征项分别赋予一定的权重。 1.显式构建用户兴趣模型 当用户初次使用用户兴趣模型时,系统会要求用户进行简单的注册。用户可以填 写个人信息,并手动选择自己感兴趣的兴趣类别。用户兴趣选择的过程实际上是初步从兴 趣分类参考模型的结构中得到用户兴趣树的过程。显式构建用户兴趣树的算法如下
a)将用户兴趣树的根结点初始化为用户名,权重置为1 ; b)计算一级兴趣结点的权重统计用户注册时选择的兴趣类别个数n,则每个
—级兴趣类别&的权重为l/n,其中& G C ; c)计算二级兴趣结点的权重统计一级兴趣类别&包含二级兴趣类别Cj的个数
m,则二级兴趣类别Cj的权重为1/nm,其中Cj G & G C, i G [1, n] , j G [1, m]; d)计算特征项T2的权重统计二级兴趣类别Cj中包含的特征项T2个数p,则二
级兴趣类别Cj中每个特征项T2的权重为1/nmp ; 其中,C为兴趣总类别。 2.隐式更新用户兴趣模型 隐式更新用户兴趣模型是通过挖掘用户浏览的日志文件来更新和完善用户兴趣 模型。此过程不需要用户的显式参与,只是在后台对用户的浏览行为进行记录。通过对用户 浏览记录的挖掘来隐式更新用户兴趣模型。该过程引入中文网页自动分类技术,通过该技 术挖掘用户的兴趣类别,从而更新用户兴趣模型。隐式更新用户兴趣模型主要分为数据采 集、网页预处理、特征提取、特征项权重计算、文档的向量表示、兴趣自动分类等几个过程。 下面将详细阐述隐式更新用户兴趣模型的过程。 (1)数据采集用户兴趣模型的数据来源是校园网中心分析计费系统的用户访问 网络的详细记录。根据用户请求的外网URL(Uniform Resource Locator),计费系统后台会 自动记录用户访问网络的请求,数据存放在文本文件中。 (2)网页预处理需要对两类网页进行处理,一类是每个类别的训练文档,另一类 是用户历史访问的Web文档。对于用户访问日志,首先要获取网页源文件,然后再进行网页预处理,而对于训练文档则直接进行网页预处理操作。网页预处理包括网页净化、中文自动 分词、维数约减等,这些技术目前已相当成熟。 (3)特征提取采用X2统计量的特征选取方法从训练集文档中选取一定数量的 特征项T1。 (4)特征项Tl权重计算采用Wik = TFik*IDFik公式计算特征项Tl的权重。
(5)文档的向量Dnew表示采用向量空间模型(Vector space model,VSM)分别将 训练集文档和用户访问日志文档表示成第一向量和第二向量。 (6)兴趣自动分类采用KNN(k-Nearest Neighbor algorithm)分类算法通过计 算用户浏览过的Web文档与训练集中的文档之间的相关度,从而将Web文档归入到相应的 兴趣类别中。 (7)兴趣模型的更新基于兴趣交集淘汰法和兴趣合集归并法等已有兴趣模型更
新算法,提出了兴趣模型更新改进算法,利用改进算法对用户兴趣模型进行更新。 其中,x 2是指x 2统计量,Wik表示特征项Tl的权重,TFik表示特征项i在文档k
中出现的频率,IDFik表示该特征项Tl的反比文本的频数。 兴趣模型更新改进方法如下 i.对用户感兴趣的Web文档做网页预处理,提取特征项Tl,计算特征项Tl的权 重,将该文档表示成第二向量,记作Dn6W ; ii.依据兰式距离分类算法,计算D,与用户兴趣树中的每个二级兴趣类别Cj之 间的兰式距离,得到与D,相关度最大的二级兴趣类别,记作Ck,而ck中的特征项T2将ck 表示成第三向量0^; iii.比较D^中的特征项Tl和ck中的特征项T2是否相同,如果特征项t同时出
现在第二向量Dnew和第三向量Dek中,则将第二向量和第三向量中特征项t对应的权值相加, 所得的和作为Ck中特征项t的权值;如果特征项t仅出现在Ck中,则保留该特征项t ;如果
特征项t仅出现在Dnew中,将Dnew中的特征项t及其权值添加到第三向量Dek中; iv.判断Dek包含的特征项T2个数是否大于最大个数阈值l ,若不大于最大个数
阈值,则转步骤v,否则,将Dsk中的特征项T2按照权重递减的顺序排列,取前《个作为q
的特征项T2 ; v.结束; 其中,Dnew为将web文档表示成的向量,第三向量Dek是由ck中的特征项T2所表示 的,Cj(j G [l,m])为二级兴趣类别,Ck(k G [l,m])为与D,相关度最大的二级兴趣类别, m为一级兴趣类别Ci包含二级兴趣类别Cj的个数,l指最大个数阈值。
本发明用户兴趣模型总体框架如附图l,完整方法如下 A.显式构建用户兴趣模型未注册的用户先通过用户注册填写个人信息及兴趣 爱好来构建初始用户兴趣模型,已注册的用户直接登录即可; B.隐式更新用户兴趣模型根据用户浏览过的网页隐式完善和更新用户兴趣模 型,其过程如下 1)训练过程训练过程是指完成训练集文档的向量表示过程,在训练过程中,训 练集实例经过网页预处理、中文分词和特征选取处理后被表示成第一向量的形式,行成特 征向量集,该特征向量集用来描述类别模式,在分类过程中使用;
7
2)历史网页处理过程历史访问库中存储用户访问web的历史记录,这些历史网 页经过网页预处理、中文分词并表示成第二向量; 3)页面分类所述第一向量和第二向量按照KNN分类算法对待分类的用户历史文 档进行分类,取最相近者的类别作为用户感兴趣的类别; 4)兴趣更新比较用户原有兴趣类别与页面分类得到的新的兴趣类别,按照兴趣 模型更新算法对用户兴趣进行更新。 如图1所述,根据本方法开发出的基于用户兴趣的个性化元搜索引擎系统采用B/ S架构,开发平台为VS2005+oracle 9i,用户可根据需要方便地接入到现有的需要个性化 服务系统中。部署时可以在一台PC上运行,也可以在多台PC上同时运行。
该系统模型主要分为如下四个部分 (1)用户接口模块提供用户浏览器与元搜索引擎系统交互的界面。在这里用户 把自己的查询请求发送给元搜索引擎,而元搜索引擎则把检索后整合的最终结果返回给用 户。
(2)成员引擎接口代理模块将用户的查询信息转换成各个成员搜索引擎能识别
的标准形式,即根据要调用的成员搜索引擎的特性对用户的查询信息进行相应格式化处
理,并分发到各成员搜索引擎的服务器上,供成员搜索引擎检索相应的结果。
(3)用户兴趣模型模块构建并完善用户兴趣模型,包括用户注册的显式构建兴
趣模型以及对用户的浏览行为进行跟踪的隐式更新用户兴趣模型。
(4)结果整合模块对成员搜索引擎返回的搜索结果进行结构分析,提取结果集,
并根据用户模型及结果排序算法对结果集进行二次处理,然后以友好的方式显示给用户。 该模型已在校园网中心得到了具体的验证。利用该模型将用户感兴趣的信息推荐
给用户准确率达到80%,随着用户使用兴趣模型时间的增长,推荐服务的准确率也在逐渐
提高,个性化服务系统很好的体现了基于用户浏览行为的用户兴趣建模方法的实施效果,
验证了此方法的准确性。
8
权利要求
一种基于用户浏览行为的用户兴趣建模方法,其特征在于该方法的步骤为A.显式构建用户兴趣模型未注册的用户先通过用户注册填写个人信息及兴趣爱好来构建初始用户兴趣模型,已注册的用户直接登录即可;B.隐式更新用户兴趣模型根据用户浏览过的网页隐式完善和更新用户兴趣模型,其过程如下1)训练过程训练过程是指完成训练集文档的向量表示过程,在训练过程中,训练集实例经过网页预处理、中文分词和特征选取处理后被表示成第一向量的形式,行成特征向量集,该特征向量集用来描述类别模式,在分类过程中使用;2)历史网页处理过程历史访问库中存储用户访问web的历史记录,这些历史网页经过网页预处理、中文分词并表示成第二向量;3)页面分类所述第一向量和第二向量按照KNN分类算法对待分类的用户历史文档进行分类,取最相近者的类别作为用户感兴趣的类别;4)兴趣更新比较用户原有兴趣类别与页面分类得到的新的兴趣类别,按照兴趣模型更新算法对用户兴趣进行更新。
2. 根据权利要求1所述的基于用户浏览行为的用户兴趣建模方法,其特征在于所述显 式构建用户兴趣模型的方法如下a) 将用户兴趣树的根结点初始化为用户名,权重置为1 ;b) 计算一级兴趣结点的权重统计用户注册时选择的兴趣类别个数n,则每个一级兴 趣类别&的权重为1/n,其中& G C ;c) 计算二级兴趣结点的权重统计一级兴趣类别Ci包含二级兴趣类别Cj的个数m,则 二级兴趣类别&的权重为1/nm,其中Cj G & G C, i G [1, n] , j G [1, m];d) 计算特征项T2的权重统计二级兴趣类别Cj中包含的特征项T2个数p,则二级兴 趣类别&中每个特征项T2的权重为1/nmp ;其中,C为兴趣总类别。
3. 根据权利要求1所述的基于用户浏览行为的用户兴趣建模方法,其特征在于所述隐 式更新用户兴趣模型的兴趣模型更新还包括如下方法i. 对用户感兴趣的Web文档做网页预处理,提取特征项Tl,计算特征项Tl的权重,将 该文档表示成第二向量,记作Dn6W ;ii. 依据兰式距离分类算法,计算D,与用户兴趣树中的每个二级兴趣类别Cj之间的 兰式距离,得到与Dn 相关度最大的二级兴趣类别,记作ck,而ck中的特征项T2将ck表示 成第三向量-;iii. 比较Dnsw中的特征项Tl和ck中的特征项T2是否相同,如果特征项t同时出现在第二向量Dnew和第三向量0"中,则将第二向量和第三向量中特征项t对应的权值相加,所 得的和作为Ck中特征项t的权值;如果特征项t仅出现在Ck中,则保留该特征项t ;如果特征项t仅出现在Dnew中,将Dnew中的特征项t及其权值添加到第三向量Dek中;iv. 判断Dsk包含的特征项T2个数是否大于最大个数阈值l ,若不大于最大个数阈值, 则转步骤v,否则,将Dek中的特征项T2按照权重递减的顺序排列,取前l个作为Ck的特征项T2 ;v. 结束;其中,Dn 为将web文档表示成的向量,第三向量DA是由ck中的特征项T2所表示的, Cj(j G [1, m])为二级兴趣类别,ck(k G [1, m])为与D旨相关度最大的二级兴趣类别,I 指最大个数阈值。
全文摘要
本发明公布了一种基于用户浏览行为的用户兴趣建模方法,该方法包括两个部分显式构建用户兴趣模型和隐式更新用户兴趣模型。显式构建用户兴趣模型是通过用户注册对用户兴趣模型的初步确立以及初始化的过程,隐式更新用户兴趣模型是在不需要用户参与的情况下,根据访问者对Web页面的访问情况来分析研究用户访问的偏好。该方法能自动发现用户的新兴趣,并能对用户兴趣模型中兴趣度低的特征项进行剔除。这样一方面能更好的监测到用户兴趣的变化,另一方面也能及时控制用户兴趣模型无限制增长,提高了兴趣模型的稳定性。
文档编号G06F17/30GK101770520SQ20101011848
公开日2010年7月7日 申请日期2010年3月5日 优先权日2010年3月5日
发明者姚蓓丽, 孙雁飞, 宫婷, 张顺颐, 王攀 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1