基于大数据的页面定制化方法
【技术领域】
[0001] 本发明涉及大数据,特别涉及一种基于大数据的页面定制化方法。
【背景技术】
[0002] 随着互联网的发展及普及,信息爆炸性增长使用户难以及时准确地发现有用的数 据源,导致人们在获取丰富的数据源过程中受到信息过载的困扰。如何帮助用户从激增的 海量信息中获取有效的数据源,主动地为用户提供更丰富、全面并符合其潜在需求的数据 源,给电子商务领域技术带来了极大的挑战。然而,当前技术中忽略了具体环境对用户兴趣 的影响。另一方面,面对众多资源,现有的方案根据用户对资源的评价信息产生的推送,这 种基于页面记分的推送只能体现用户对页面整体的兴趣情况。然而实际上用户对页面资源 的评价往往是根据它所具有的属性特征产生的,因此根据仅仅根据用户对资源的整体记分 而产生的推送结果往往具有片面性。
【发明内容】
[0003] 为解决上述现有技术所存在的问题,本发明提出了一种基于大数据的页面定制化 方法,包括:
[0004] 根据用户行为数据识别用户的相关上下文信息,收集用户的兴趣特征,基于所述 上下文集合进行协同过滤推送,为目标用户生成推送结果。
[0005] 优选地,所述根据用户行为数据识别用户的相关上下文信息,进一步包括:
[0006] 计算某一具体上下文实例ckq下,用户选择属性类型为的页面的熵值,进而获取 用户在该上下文实例下对某属性类型的页面的选择,根据具体上下文实例下用户对页面的 选择,计算用户在某上下文要素所包含的不同上下文实例下对所选择页面的熵值,其中对 上下文信息熵的计算过程包含以下步骤:
[0007]步骤1:获取并计算用户反馈信息;将用户的反馈信息二值化,对于具有用户记分 的反馈将其定量化为〇和1两种状态值,计算在上下文实例ckq的影响下,用户u在页面资源空 间中对具有属性特征为aij的页面评价值:
[0008] f ckq(aij) = count (ur = 1 | aij)/count (ur = 1)
[0009]其中,1^取1时表示用户的积极反馈即状态值为1的反馈,(:〇11111:(1^ = 1|3^)表示用 户在上下文实例ckq下对具有属性特征为aij的页面所具有的积极反馈次数,count (ur=l)表 示用户在上下文实例ckq下对所有页面所具有的积极反馈次数;
[00?0]步骤2:产生上下文实例Ckq下的评价值集合fc;kq(ai)= {fckqUij),…,fckqUij)}其 中,为页面第i个属性类型下的第j个属性特征;
[0011]步骤3:计算上下文实例的熵值
;其中,I (Ckq)表示用户在上下文实例Ckq下对不同属性类型的页面选择;fd^aj表示在上下文实例 Ckq下,用户u所选择的属性类型ai页面中属于某一特征au的页面的概率;η为页面所具有的 属性类型的个数;
[0012] 步骤4 :计算不同上下文实例分布下相应上下文要素 Ck的熵值
[0013] 其中,p(Ckq)为上下文实例Ckq下在给定上下文要素(^样本中的分布,t为该上下文 要素中所包含的上下文实例样本的个数。
[0014] 本发明相比现有技术,具有以下优点:
[0015] 本发明提出了一种基于大数据的页面定制化方法,通过分析用户兴趣获得用户的 需求,提高用户获取所需信息和信息推送的效率。
【附图说明】
[0016] 图1是根据本发明实施例的基于大数据的页面定制化方法的流程图。
【具体实施方式】
[0017] 下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描 述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利 要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以 便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的 一些或者所有细节也可以根据权利要求书实现本发明。
[0018] 本发明的一方面提供了一种基于大数据的页面定制化方法。图1是根据本发明实 施例的基于大数据的页面定制化方法流程图。
[0019] 本发明建立包含上下文实体、用户实体和页面实体的推送方法。针对上下文与用 户兴趣之间的关系,根据推送方法中各个实体要素之间的联系建立用户兴趣模型,表述用 户上下文及其兴趣之间的关联关系,并分析用户在某个特定上下文中的兴趣;计算上下文 信息熵和上下文关键度值的概念,并计算上下文信息熵值以及上下文要素的关键度值,根 据这些上下文的关键度值来计算用户兴趣。基于上下文的结合协同过滤和关键词过滤的进 行合并推送。首先结合用户对页面的记分和用户对页面属性的兴趣两个方面搜寻目标用户 的邻居,并将上下文相似度匹配和上下文关键度值加入基于用户的协同过滤推送的生成过 程中,利用协同过滤推送方法;根据当前上下文信息以及用户对页面属性的兴趣,采用基于 知识推送的方法生成推送结果;最后通过基于上下文的计算优化方法对两种推送方法产生 的结果进行整合而形成最终结果。
[0020] 在上述所建立的推送方法的基础上,本发明从结构要素和实现过程的角度,建立 基于上下文的页面推送逻辑框架。推送框架由输入、推送过程、输出三个阶段组成;该框架 包含了知识建模、用户兴趣挖掘、推送生成和用户反馈四个层次。
[0021] 首先,推送实现的首要任务就是建立关于用户、上下文和页面的推送方法,然后从 该模型中提取用于推送过程的有效数据,该部分对应于推送的输入阶段;其次,挖掘用户兴 趣,这一过程是推送生成的关键前提;在推送生成部分,将提取的用户兴趣与和当前上下文 相似的用户历史行为数据相结合,同时利用领域知识进行语义匹配,进而产生推送结果;最 后,将推送结果以排序推送、预测值或其它形式呈现给用户,并根据用户的反馈结果更新推 送方法中的用户模型,即为推送的输出阶段。
[0022] 本发明所建立的推送架构获取用户兴趣,然后结合与当前上下文相似的用户行为 记录,基于该领域推送知识的特点采用某种技术生成推送结果。基于推送方法,采用深度信 念网络来分析用户在不同上下文中对页面属性类型的兴趣;然后考虑不同上下文对用户兴 趣产生影响的差异,计算各种上下文对用户兴趣产生影响的差异。
[0023] 基于实体概念间丰富的语义关系和逻辑计算功能,根据该模型能够实现对用户兴 趣的深层次计算。对己建立的推送方法中的用户实体和上下文实体及其之间的关系进行概 率上的扩展,采用概率模型的思想建立基于实体的用户兴趣深度信念网络模型,实现对用 户兴趣的计算,进而获取潜在的用户兴趣来过滤不相关的资源页面,并结合基于知识推送 的方法进行推送,从而为用户提供满足其需求的结果。
[0024] 本发明针对上下文、用户和页面资源之间的关系建立用户兴趣的深度信念网络模 型。构建用户兴趣深度信念网络模型的步骤如下:
[0025] 步骤1:将用户上下文和环境上下文插入深度信念网络作为两个不同的上下文根 节点,分别将对应的用户上下文和环境上下文本体的概念按照它们在实体中的结构依次插 入深度信念网络树中;
[0026] 步骤2:根据上下文实体中的关系属性,连接步骤1中的节点,使得上述节点之间存 在依赖关系;
[0027] 步骤3:将用户兴趣数据作为深度信念网络中的叶子节点加入到深度信念网络底 层中,并将这些代表的用户对页面属性兴趣的叶子节点与页面实体中的页面属性类相关 联。
[0028] 根据上述网络建立过程的描述,将该上下文用户兴趣深度信念网络表示为:
[0029] 深度信任网络=〈Nu,Eu,Pn>
[0030] 其中,Nu为变量集合,Eu为有向边集合,PN为节点变量上的条件概率集合。
[0031] 基于实体的上下文用户兴趣深度信念网络模型由用户兴趣深度信念网络和基于 属性的页面实体两部分构成。
[0032] 在顶层用户兴趣深度信念网络结构中,由上下文要素&、具体上下文实例Ckq,以及 用户兴趣p u三部分相应的构成了网络的输入、状态和输出结构。即根节点为环境上下文和 用户上下文实体中的相应父概念,上下文实体中的各种上下文要素&及相应的各种上下文 实例分别按照实体中的层次结构相应的构成了该模型中的父节点,将实体中的用户兴趣作 为该网络结构中的叶子节点。
[0033] 在底层页面实体描述了页面的属性关系概念及其实例,且这两部分通过实体的语 义映射刻画了用户兴趣与页面之间的联系。将上下文实例作为深度信任网络中的证据节 点,即C 1为Nu中的父节点,用户对页面属性的兴趣则作为计算结果表示为叶子节点,则节点 之间的有向弧E u表示各种上下文之间,以及上下文和用户兴趣之间的概率依赖关系。
[0034] 本发明识别对用户选择行为或兴趣产生影响的重要上下文要素,并通过对这些上 下文要素对用户产生影响的重要程度的计算,进一步分析基于这些重要上下文要素影响下 的用户兴趣。计算某一具体上下文实例c kq下,用户选择属性类型为的页面的熵值,进而 获取用户在该上下文实例下对某属性类型的页面的选择。
[0035] Ialjckq = fckq(aij)l〇gn/fckq(aij)
[0036] 其中,fckq(aij)表示在上下文实例下,用户u所选择的所有页面中属于属性类型aiJ 的页面的概率。根据具体上下文实例下用户对页面的选择,采用用户在某上下文要素所包 含的不同上下文实例下对所选择页面的熵值,来表达该上下文要素所包含的各个实例对用 户选择结果的贡献程度。对上下文信息熵的计算过程包含以下几个步骤。
[0037] 步骤1获取并计算用户反馈信息。
[0038] 将用户的反馈信息二值化,对于具有用户记分的反馈将其定量化为0和1两种状态 值,在上下文实例Ckq的影响下,用户u在页面资源空间中对具有属性特征为aij的页面评价 值的定义为:
[003