专利名称:用户行为数据分析方法和装置的制作方法
技术领域:
本发明涉及互联网技术,特别是涉及一种用户行为数据分析方法和装置。
背景技术:
用户互联网行为主要是指用户使用互联网软件和互联网信息进行交互的行为,包 括用户获取或提供互联网信息等行为。对用户互联网行为数据进行分析可为广告投放和相 关产品推荐提供有效的参考信息,已广泛应用于互联网广告推送等业务。现有技术通常是对获取的互联网用户的一些静态属性,如对互联网用户的性别, 年龄,教育程度和收入水平等静态属性对用户行为进行分析,然后根据用户访问的网站的 内容匹配相关的广告。例如当一个年轻的白领女性用户访问到一个健康保养之类的网站 时,该网站可能给该用户投放保洁公司提供的护肤类的产品广告等。发明人在实现本发明过程中发现,对于广告策划而言,除了抓住主要的显式用户 群,广告主往往希望能够开发潜在的用户群。现有技术针对用户的静态属性进行用户行为 分析,通常只能获取显式用户群的信息,因而不利于广告的精准投放。
发明内容
本发明提供一种用户行为数据分析方法和装置,有利于提高广告投放的精准性。本发明提供了一种用户行为数据分析方法,包括获取第一采样用户群的各用户的互联网历史行为数据,所述互联网历史行为数据 包括任一用户在预设时间段内使用互联网的信息;根据预设的抽样条件对所述第一采样用户群的各用户进行抽样,抽出的用户组成 第二采样用户群;确定所述第二采样用户群的用户相对于所述第一采样用户群的用户,对于预设的 统计项的兴趣程度的差异权值。本发明提供了一种用户行为数据分析装置,包括用户行为数据获取模块,用于获取第一采样用户群的各用户的互联网历史行为数 据,所述互联网历史行为数据包括任一用户在预设时间段内使用互联网的信息;抽样模块,用于根据预设的抽样条件对所述第一采样用户群的各用户进行抽样, 抽出的用户组成第二采样用户群;分析模块,用于确定所述第二采样用户群的用户相对于所述第一采样用户群的用 户,对于预设的统计项的兴趣程度的差异权值。本发明实施例通过对用户的互联网历史行为数据进行分析,评估不同采样用户群 搜索预设的统计项的差异权值,差异权值反映了某一采样用户群中用户的潜在兴趣点,如 果根据用户的潜在兴趣点确定广告投放策略,将有利于提高广告投放的精准性,使得广告 在合适的位置展现给合适的人群,从而达到较佳的广告宣传效果。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其他的附图。图1为本发明用户行为数据分析方法实施例的流程图;图2为本发明用户行为数据分析装置实施例的结构示意图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。图1为本发明用户行为数据分析方法实施例的流程图。如图1所示,本实施例用 户行为数据分析方法包括步骤11、获取第一采样用户群的各用户的互联网历史行为数据,所述互联网历史 行为数据包括任一用户在预设时间段内使用互联网的信息。用户的互联网历史行为主要是指用户使用互联网软件或互联网信息的行为,互联 网历史行为数据为用户在预设时间段内使用互联网的信息,如在过去的一个月内或一周内 用户使用互联网的数据记录。可选的,任一用户的互联网历史行为数据可包括在预设时间 段内的用户通过互联网搜索信息行为的多条数据记录,每条所数据记录包括以下信息的一 种或多种组合用户标识、用户提交的搜索关键词、搜索行为的发生时间、访问的网页地址 信息和用户使用互联网的其他信息等。第一采样用户群可包括全网范围内的所有用户,或者,也可包括访问某一网站的 所有用户,或者,还可由根据某些预设的抽样条件预先抽样出来的用户组成,具体涉及用户 的范围可根据实际需要确定。步骤12、根据预设的抽样条件对第一采样用户群的各用户进行抽样,抽出的用户 组成第二采样用户群。第二采样用户群为在第一采用用户群包括的用户范围内,根据抽样条件确定的新 的用户群。抽样条件可根据实际需要预先设定,例如可采用随机抽样、特定搜索关键词过滤 抽样、访问的特定网页地址信息(如网页的统一定位符⑴niform Resource Location,简称 URL))过滤抽样或其他抽样方式,确定新的用户群(即第二采样用户群)。随机抽样即为随 机选取第一采样用户群中的用户,得到预设抽样数量的用户以组成第二采样用户群。特定 搜索关键词过滤抽样就是根据预设的一个或多个特定搜索关键词,对访问第一采样用户群 中的用户进行采样过滤,由采样过滤后的用户组成第二采样用户群,可选的,还可在采样过 滤后的用户中随机抽取预设数量的用户,由这些用户组成第二采样用户群。访问的特定网 页地址信息是根据预设的特定网页的URL,按照模糊或者精确匹配的方式对第一采样用户 群的各进行采样过滤,采样过滤后的用户可组成第二采样用户群,可选的,还可在采样过滤 后的用户中随机抽取预设数量的用户,由这些用户组成第二采样用户群。上述抽样方式可单独使用,亦可组合使用。在实际应用过程中,广告主在策划广告投放策略过程可将待投放广告自身的特 定,确定相关关键词或相关网页,将一个或多个相关关键词作为特定搜索关键词,和/或, 将一个或多个相关网页的URL作为访问的特定网页地址信息。可选的,如果抽样条件包括 特定搜索关键词,该情形下,可在所述第一采样用户群的各用户中,抽取互联网历史行为数 据中包括上述特定搜索关键词的用户,即抽取在预设时间段内曾采用上述特定搜索关键词 搜索信息的用户。或者,如果抽样条件包括特定网页地址信息,该情形下,可在所述第一采 样用户群的各用户中,抽取互联网历史行为数据中包括所述特定网页地址信息的用户,即 抽取在预设时间段内曾访问上述特定网页地址的用户。抽取出的用户组成第二采样用户 群。步骤13、确定第二采样用户群的用户相对于第一采样用户群的用户,对于预设的 统计项的兴趣程度的差异权值。在确定差异权值时,可选的,可统计第一概率和第二概率,其中,第一概率为第一 采样用户群的多个随机采样子群中用户的互联网历史行为数据包括预设统计项的平均概 率。第二概率为第二概率为第二采样用户群的多个随机采样子群中用户的互联网历史 行为数据包括预设统计项的平均概率。可将第一采样用户群中采用随机抽样的方式,确定多个随机采样子群,每个随机 采样子群中包括的用户为第一采样用户群中的部分用户,且不同随机采样子群包括的用户 不同或不完全相同。第二采样用户群确定随机采样子群的方法相同。不妨将第一采样用户 群的任一随机采样子群的中用户的互联网历史行为数据包括预设统计项的概率,称为“第 一子概率”,将第二采样用户群的任一随机采样子群的中用户的互联网历史行为数据包括 预设统计项的概率,称为“第二子概率”。预设的统计项可包括某个或某些搜索关键词等。如果抽样条件包括特定搜索关键 词,则统计项中包括的搜索关键词可与抽样条件包括的特定搜索关键词不同。抽样条件包 括的特定搜索关键词主要是用于确定特定用户群,对采用用户进行进一步的分类。统计项 包括的搜索关键词主要是用于统计每一类用户群中每个用户的互联网历史行为数据中包 括有该搜索关键词的比例,即相当于统计某个用户群中每个用户在预设时间段内是用该搜 索关键词的概率。统计过程中主要用到的数据结构可为统计字典,如哈希(hash)字典。统计完成之 后,每个随机采样子群统计过程中都可得到类似于表1所示的表格,表1中的“汽车”或“鲜 花”为某一统计项。表1某一采样用户群的某一随机采样子群统计数据示例
权利要求
1.一种用户行为数据分析方法,其特征在于,包括获取第一采样用户群的各用户的互联网历史行为数据,所述互联网历史行为数据包括 任一用户在预设时间段内使用互联网的信息;根据预设的抽样条件对所述第一采样用户群的各用户进行抽样,抽出的用户组成第二 采样用户群;确定所述第二采样用户群的用户相对于所述第一采样用户群的用户,对于预设的统计 项的兴趣程度的差异权值。
2.根据权利要求1所述的用户行为数据分析方法,其特征在于,对所述第一采样用户 群中的各用户进行抽样之前,还包括接收查询请求,所述查询请求包括预设的所述抽样条件和预设的所述统计项;根据所述查询请求获取所述抽样条件和所述统计项。
3.根据权利要求1或2所述的用户行为数据分析方法,其特征在于,所述抽样条件包括特定搜索关键词,根据所述抽样条件对所述第一采样用户群的各用 户进行抽样,包括在所述第一采样用户群的各用户中,抽取互联网历史行为数据中包括所 述特定搜索关键词的用户;或者所述抽样条件包括特定网页地址信息,根据所述抽样条件对所述第一采样用户群的各 用户进行抽样,包括在所述第一采样用户群的各用户中,抽取互联网历史行为数据中包括 所述特定网页地址信息的用户。
4.根据权利要求1或2所述的用户行为数据分析方法,其特征在于,所述抽样条件包括特定搜索关键词,根据所述抽样条件对所述第一采样用户群的各用 户进行抽样,包括建立所述特定搜索关键字到所述第一采样用户群中各用户标识的倒排 索引,在所述倒排索引中抽取互联网历史行为数据中包括所述特定搜索关键词的用户;或 者所述抽样条件包括特定网页地址信息,根据所述抽样条件对所述第一采样用户群的各 用户进行抽样,包括建立所述特定网页地址信息到所述第一采样用户群中各用户标识的 倒排索引,在所述第一采样用户群的各用户中,抽取互联网历史行为数据中包括所述特定 网页地址信息的用户。
5.根据权利要求1所述的用户行为数据分析方法,其特征在于,确定所述第二采样用户群的用户相对于所述第一采样用户群的用户,对于所述统计项 的兴趣程度的差异权值之前,还包括统计第一概率和第二概率,所述第一概率为所述第 一采样用户群的多个随机采样子群中用户的互联网历史行为数据包括所述统计项的平均 概率;所述第二概率为所述第二概率为所述第二采样用户群的多个随机采样子群中用 户的互联网历史行为数据包括所述统计项的平均概率;确定所述第二采样用户群的用户相对于所述第一采样用户群的用户,对于所述统计项 的兴趣程度的差异权值,包括根据所述第一概率和所述第二概率,确定所述第二采样用户 群的用户相对于所述第一采样用户群的用户,对于所述统计项的兴趣程度的差异权值。
6.根据权利要求5所述的用户行为数据分析方法,其特征在于,采用以下公式确定所 述差异权值 差异权值=IoglO (第二概率/第一概率)。
7.根据权利要求5所述的用户行为数据分析方法,其特征在于,所述第一采样用户群 或所述第二采样用户群中,任一随机采样子群中用户的互联网历史行为数据包括所述统计 项的概率等于,相应随机采样子群中各用户在预设时间段内搜索过所述统计项的总次数, 与该随机采样子群中搜索过所述统计项的用户数量的商值。
8.根据权利要求5所述的用户行为数据分析方法,其特征在于,还包括建立并存储以 下信息至少之一各随机采样子群、统计项与相应概率的映射关系;各采样用户群、统计项与相应差异权值的映射关系;各采样用户群、统计项与相应概率分布的映射关系。
9.一种用户行为数据分析装置,其特征在于,包括用户行为数据获取模块,用于获取第一采样用户群的各用户的互联网历史行为数据, 所述互联网历史行为数据包括任一用户在预设时间段内使用互联网的信息;抽样模块,用于根据预设的抽样条件对所述第一采样用户群的各用户进行抽样,抽出 的用户组成第二采样用户群;分析模块,用于确定所述第二采样用户群的用户相对于所述第一采样用户群的用户, 对于预设的统计项的兴趣程度的差异权值。
10.根据权利要求9所述的用户行为数据分析装置,其特征在于,还包括统计模块,用于统计第一概率和第二概率,所述第一概率为所述第一采样用户群的多 个随机采样子群中用户的互联网历史行为数据包括所述统计项的平均概率;所述第二概率 为所述第二概率为所述第二采样用户群的多个随机采样子群中用户的互联网历史行为 数据包括所述统计项的平均概率;所述分析模块,还用于根据所述第一概率和所述第二概率,确定所述第二采样用户群 的用户相对于所述第一采样用户群的用户,对于所述统计项的兴趣程度的差异权值。
全文摘要
本发明涉及一种用户行为数据分析方法和装置。该方法包括获取第一采样用户群的各用户的互联网历史行为数据,所述互联网历史行为数据包括任一用户在预设时间段内使用互联网的信息;根据预设的抽样条件对所述第一采样用户群的各用户进行抽样,抽出的用户组成第二采样用户群;确定所述第二采样用户群的用户相对于所述第一采样用户群的用户,对于预设的统计项的兴趣程度的差异权值。本发明根据用户的互联网历史行为数据评估不同采样用户群搜索预设的统计项的差异权值,差异权值反映了某一采样用户群中用户的潜在兴趣点,如果依此确定广告投放策略,将有利于提高广告投放的精准性。
文档编号G06Q30/00GK102103603SQ20091024287
公开日2011年6月22日 申请日期2009年12月18日 优先权日2009年12月18日
发明者王黎亮 申请人:百度在线网络技术(北京)有限公司