一种用户行为数据的分析方法和装置制造方法
【专利摘要】本发明实施例公开了一种用户行为数据的分析方法和装置,用于准确分析用户行为,提高广告推送对象的针对性。本发明实施例方法包括:获取用户注册到数据源后在数据源中产生的行为数据,其中,数据源中包括注册到数据源中的所有用户各自产生的行为数据,行为数据为记录用户在数据源中的行为的数据信息;从用户在数据源上产生的行为数据中提取用户标签,用户标签是用于表征用户的行为的信息;获取预置的定向人群特征,定向人群特征为满足定向特征要求的人群所具有的特征;根据用户在数据源上产生的行为数据和用户标签从数据源的所有用户中提取符合定向人群特征的目标用户群,目标用户群包括符合定向人群特征的多个用户。
【专利说明】一种用户行为数据的分析方法和装置
【技术领域】
[0001] 本发明涉及计算机【技术领域】,尤其涉及一种用户行为数据的分析方法和装置。
【背景技术】
[0002] 用户在数据源上注册后,用户在数据源上会进行各种行为,比如在A官网上发表 评论,在B官网上拍下宝贝并支付,数据源会保存用户的行为类数据,为了准确描述用户在 数据源中进行的相关行为,需要对用户行为进行分析,通常需要先对用户的注册类数据和 行为类数据进行数据预处理,例如对注册类数据和行为类数据进行过滤、转换、集成等,从 预处理过的用户数据中提取出用户标签(tag)。
[0003] 提取出的用户标签之后,可以根据用户标签与预先设定的兴趣类别进行匹配,以 用户标签与预先设定的兴趣类别的匹配度来反映分析出的用户行为,广告商可以根据分析 出的用户行为向符合广告商要求的用户推送广告,以宣传产品或服务。常用的技术手段可 以是将提取出的用户标签与设定的标准兴趣进行相似性匹配计算,以将用户标签归类到最 准确的兴趣类别下,从而分析出用户行为,进而根据分析出的用户行为向符合广告商要求 的兴趣类型的用户推送广告。
[0004] 但是现有技术中,用户标签的提取是基于用户的注册类数据和行为类数据进行 的,并且仅根据提取出的用户标签与设定的标准兴趣就完成了相似度的计算,但是仅依靠 用户标签并不能完全反映出的用户行为,这将导致在后续计算用户标签和标准兴趣的相似 度时计算出的相似度不能准确的分析出用户行为,并且不同种类的广告商所希望广告被推 送到的用户群也是不同的,但是现有技术中所有兴趣类型所匹配的用户标签并没有任何差 另IJ,广告商按照这样分析出的用户行为进行广告推送,广告推送对象的针对性不高。
【发明内容】
[0005] 本发明实施例提供了一种用户行为数据的分析方法和装置,用于准确分析用户行 为,提高广告推送对象的针对性。
[0006] 为解决上述技术问题,本发明实施例提供以下技术方案:
[0007] 第一方面,本发明实施例提供一种用户行为数据的分析方法,包括:
[0008] 获取用户注册到数据源后在所述数据源中产生的行为数据,其中,所述数据源中 包括注册到所述数据源中的所有用户各自产生的行为数据,所述行为数据为记录用户在所 述数据源中的行为的数据信息;
[0009] 从所述用户在数据源上产生的行为数据中提取用户标签,所述用户标签是用于表 征所述用户的行为的信息;
[0010] 获取预置的定向人群特征,所述定向人群特征为满足定向特征要求的人群所具有 的特征;
[0011] 根据所述用户在数据源上产生的行为数据和所述用户标签从所述数据源的所有 用户中提取符合定向人群特征的目标用户群,所述目标用户群包括符合定向人群特征的多 个用户。
[0012] 第二方面,本发明实施例还提供一种用户行为数据的分析装置,包括:
[0013] 数据获取模块,用于获取用户注册到数据源后在所述数据源中产生的行为数据, 其中,所述数据源中包括注册到所述数据源中的所有用户各自产生的行为数据,所述行为 数据为记录用户在所述数据源中的行为的数据信息;
[0014] 标签提取模块,用于从所述用户在数据源上产生的行为数据中提取用户标签,所 述用户标签是用于表征所述用户的行为的信息;
[0015] 特征获取模块,用于获取预置的定向人群特征,所述定向人群特征为满足定向特 征要求的人群所具有的特征;
[0016] 用户群提取模块,用于根据所述用户在数据源上产生的行为数据和所述用户标签 从所述数据源的所有用户中提取符合定向人群特征的目标用户群,所述目标用户群包括符 合定向人群特征的多个用户。
[0017] 从以上技术方案可以看出,本发明实施例具有以下优点:
[0018] 在本发明实施例中,首先获取用户注册到数据源后在所述数据源中产生的行为数 据,从用户在在数据源上产生的行为数据中提取用户标签,然后获取预置的定向人群特征, 最后根据用户在数据源上产生的行为数据和上述用户标签从数据源的所有用户中提取符 合定向人群特征的目标用户群,其中提取到的目标用户群包括符合定向人群特征的多个用 户。由于可以根据用户在数据源产生的行为数据和提取出的用户标签对数据源中的所有用 户进行用户行为分析,可以提高用户行为分析的准确度,并且可以根据设定的定向人群特 征从数据源中的所有用户提取符合定向人群特征要求的用户,提取到的符合定向人群特征 要求的所有用户构成目标用户群,由于可以根据不同的广告商要求来设定定向人群特征, 故不同广告需求所提取出的目标用户群也是不同的,在进行广告推送时只针对符合定向人 群特征的目标用户群来推送,故提高了广告推送对象的针对性。
【专利附图】
【附图说明】
[0019] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域的技术人员来讲,还可以根据这些附图获得其他的附图。
[0020] 图1为本发明实施例提供的一种用户行为数据的分析方法的流程方框示意图;
[0021] 图2-a为本发明实施例提供的另一种用户行为数据的分析方法的流程示意图;
[0022] 图2_b为本发明实施例提供的规则挖掘的实现方式流程示意图;
[0023] 图2-c为本发明实施例提供的模型训练的实现方式流程示意图;
[0024] 图3_a为本发明实施例提供的一种用户行为数据的分析装置的组成结构示意图;
[0025] 图3_b为本发明实施例提供的另一种用户行为数据的分析装置的组成结构示意 图;
[0026] 图3-c为本发明实施例提供的另一种用户行为数据的分析装置的组成结构示意 图;
[0027] 图3-d为本发明实施例提供的另一种用户行为数据的分析装置的组成结构示意 图;
[0028] 图3_e为本发明实施例提供的另一种用户行为数据的分析装置的组成结构示意 图;
[0029] 图3_f为本发明实施例提供的另一种用户行为数据的分析装置的组成结构示意 图;
[0030] 图3_g为本发明实施例提供的另一种用户行为数据的分析装置的组成结构示意 图;
[0031] 图3_h为本发明实施例提供的另一种用户行为数据的分析装置的组成结构示意 图;
[0032] 图4为本发明实施例提供的用户行为数据的分析方法应用于服务器的组成结构 示意图。
【具体实施方式】
[0033] 本发明实施例提供了一种用户行为数据的分析方法和装置,用于准确分析用户行 为,提高广告推送对象的针对性。
[0034] 为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明 实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述 的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域的 技术人员所获得的所有其他实施例,都属于本发明保护的范围。
[0035] 本发明的说明书和权利要求书及上述附图中的术语"第一"、"第二"等是用于区别 类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情 况下可以互换,这仅仅是描述本发明的实施例中对相同属性的对象在描述时所采用的区分 方式。
[0036] 本发明的说明书和权利要求书及上述附图中的术语"第一"、"第二"等是用于区别 类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情 况下可以互换,这仅仅是描述本发明的实施例中对相同属性的对象在描述时所采用的区分 方式。此外,术语"包括"和"具有"以及他们的任何变形,意图在于覆盖不排他的包含,以 便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清 楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
[0037] 以下分别进行详细说明。
[0038] 本发明移动设备的用户行为数据的分析方法的一个实施例,可以包括:从用户在 数据源上产生的行为数据中提取用户标签;根据所述用户在数据源上产生的行为数据和所 述用户标签从所述数据源的所有用户中提取符合定向人群特征的目标用户群,所述目标用 户群包括符合定向人群特征的多个用户。
[0039] 请参阅图1所示,本发明一个实施例提供的用户行为数据的分析方法,可以包括 如下步骤:
[0040] 101、获取用户注册到数据源后在所述数据源中产生的行为数据。
[0041] 其中,数据源包括注册到所述数据源中的所有用户各自产生的行为数据,行为数 据为记录用户在数据源中的行为的数据信息。
[0042] 在本发明实施例中,数据源(Data Source)是提供某种所需要数据的器件或原始 媒体,即数据的来源,在数据源中存储了所有建立数据库连接的信息,通过提供的数据源名 称可以找到相应的数据库,数据源记录下注册到该数据源的所有用户的行为数据。
[0043] 用户在数据源上注册后,用户在数据源上会进行各种行为,数据源会保存用户的 行为数据,首先从用户在数据源上产生的行为数据中提取用户标签,其中在一个数据源中 可以有多个用户分别产生多个行为数据,并且一个用户也可以在多个数据源中分别产生多 个行为数据,本发明实施例中,数据源的选取可以是一个也可以是多个,并且在选取了多个 数据源时还可以根据各个数据源中产生的数据类型以及数据真实性以及测评结果来为每 个数据源设置权重,则对用户产生的行为数据就可以从选取的多个数据源来提取。
[0044] 102、从用户在数据源上产生的行为数据中提取用户标签。
[0045] 其中,用户标签是用于表征所述用户的行为的信息。
[0046] 在本发明实施例中,用户标签可以反映用户在数据源中的产生的行为数据,并且 对一个数据源中的多个行为数据也可以分别提取到多个用户标签,而一个用户在多个数据 源中产生的多个行为数据也可以提取到多个用户标签,通过对用户在数据源中产生行为数 据的提取可以得到用户标签,需要说明的是,本发明实施例中还可以根据用户在数据源中 的注册数据以及用户在数据源中的行为数据来提取用户标签。
[0047] 在本发明的一些实施例中,可以对首先对用户在数据源中的注册数据和行为数据 进行数据预处理,例如可以对数据进行迁移,将数据从多个数据源迁移到hadoop集群上, 也可以对异常数据清洗,例如将乱码等信息过滤掉,还可以对没有任何意义的数据进行过 滤,还可以对数据进行转换,例如字符集转换成统一的编码,对搜搜等源数据进行解码,还 可以对数据进行集成,例如将所有数据源整理成统一的格式。
[0048] 在本发明的一些实施例中,可以对用户在数据源上产生的行为数据进行分词,从 中提取到关键词作为用户标签。其中分词指的是将一个汉字序列切分成一个一个单独的 词。目前的分词方法效率都很高,单机版的算法对于50M的文件进行分词,20分钟内可完 成,Hadoop版的算法对于67G的文件进行分词(约1亿条记录),在1小时15分钟内可以完 成。
[0049] 本发明实施例中,对关键词提取可以基于TFIDF改进算法进行的。主要思想是如 果某个词或短语在用户产生的行为数据中出现的频率(TF,Term Frequency)高,并且在其 他行为数据中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来区分不 同特征。另外通过逆向文件频率(inverse document frequency, IDF)来一个词语普遍重要 性的度量。对于用户的某个行为数据内的高词语频率,以及该词语在整个数据源中的低文 件频率,可以产生出高权重的TFIDF,此时该词语就可以选择成为用户行为数据的关键词。
[0050] 103、获取预置的定向人群特征。
[0051] 其中,定向人群特征为满足定向特征要求的人群所具有的特征。
[0052] 在本发明实施例中,获取预置的定向人群特征即提取到对数据源中所有用户进行 筛选的筛选标准,那么对于筛选标准的不同,获取到的定向人群特征也是不同的,其中定向 人群特征描述了满足定向特征要求的人群所应该具有的特征。定向人群特征的设定与本 发明实施例提供的用户行为数据的分析方法需要具体应用到哪些领域也有关系,例如本发 明实施例提供的用户行为数据的分析方法应用到广告的推送中时,那么对于不同的广告商 提出不同的广告推送对象需求时,可以设定满足广告商需求的定向人群特征,例如,广告商 为母婴产品厂商,那么针对母婴产品厂商希望设定的定向人群特征必定是母婴类人群,如 果广告商为游戏产品厂商,那么针对游戏产品厂商设定的定向人特征必定是喜欢游戏类人 群,故本发明实施例中需要根据具体的应用场景来设定定向人群特征。
[0053] 104、根据用户在数据源上产生的行为数据和上述用户标签从数据源的所有用户 中提取符合定向人群特征的目标用户群。
[0054] 其中,目标用户群包括符合定向人群特征的多个用户。
[0055] 在本发明实施例中,从用户在数据源上产生的行为数据中提取到用户标签之后, 使用用户在数据源上产生的行为数据和提取出的用户标签就可以分析用户行为,例如可以 通过用户产生的行为数据和用户标签分析出用户的兴趣爱好体系、用户的消费能力、感兴 趣的电商甚至用户的婚恋状态。通过对行为数据结合提取出用户标签对用户行为分析,可 以提高分析出数据源中各个用户的用户行为准确性,与现有技术中仅通过用户标签与标准 兴趣的相似度来分析用户行为相比,准确性更好,另外本发明实施例中可以根据用户产生 的行为数据和用户标签按照设定的定向人群特征来对数据源中的所有用户进行分析,将符 合定向人群特征的多个用户纳入到目标用户群,那么在不同的广告商提出不同的广告推送 对象需求时,可以设定满足广告商需求的定向人群特征,以根据广告商希望的定向人群特 征来筛选出目标用户群,那么按这样筛选出的目标用户群来向用户推送广告,可以有更强 的广告推送对象的针对性,也能够及时迎合用户本身的需要,从而实现广告商和用户的双 赢。例如,广告商为母婴产品厂商,那么母婴产品厂商希望设定的定向人群特征必定是母婴 类人群,则本发明实施例中就可以按照设定的母婴类人群特征来数据源中所有用户进行筛 选,从而提取到符合母婴类人群特征的目标用户群,例如从数据源中提取用户采购母婴产 品的行为数据,从数据源中提取发布婴幼儿照片行为数据,并且对这些行为数据以及产生 行为数据的用户标签进行用户行为分析,可以分析出该用户为女性、感兴趣的电商类别是 母婴产品,则将这些符合母婴类人群特征的用户提取到目标用户群,则当广告商向提取出 的目标用户群来推送母婴产品及相关服务的广告信息时,能够有较高的针对性,同时对于 接收到广告的用户来说,其本身确实关注点就在母婴相关服务上,则可以直接购买该广告 类服务,而无需再去主动搜寻和母婴类服务相关的信息,便于用户的使用。
[0056] 需要说明的是,在本发明实施例中在从数据源的所有用户中提取符合定向人群特 征的目标用户群时,可以按照本发明实际应用场景的需求有多种实现手段,接下来进行详 细说明。
[0057] 在本发明的一些实施例中,根据用户在数据源上产生的行为数据和用户标签从数 据源的所有用户中提取符合定向人群特征的目标用户群,具体可以包括如下步骤:
[0058] A1、按照定向人群特征的要求从数据源中已经划分的类目中提取定向类目;
[0059] A2、统计数据源中用户标签符合定向类目的用户行为次数;
[0060] A3、将数据源中用户行为次数超过定向类目阈值的用户提取到目标用户群中,其 中,目标用户群包括用户行为次数超过定向类目阈值的所有用户。
[0061] 其中,步骤A1至步骤A3描述的是通过规则挖掘的方式从数据源的所有用户中提 取目标用户群,步骤A1中,从数据源中已经划分的类目中提取能够满足定向人群特征的要 求的定向类目,即对于定向人群特征的要求按照数据源中已经划分的类目来设定定向类 目,其中可以选取一个数据源也可以选取多个数据源,根据定向人群特征提取出的定向类 目可以是一个类目也可以是多个类目。在数据源中通常会已经划分出固定的类目,例如腾 讯分析网就已经根据论坛的类型整理出专有的定向类目,在易迅、拍拍等数据源中也设定 专门的定向频道,这些频道中划分有数码、母婴等类型。步骤A2中对数据源中的用户标签 按照定向类目进行统计,统计出用户标签符合定向类目的用户行为次数,将各个用户的行 为次数作为用户符合定向人群的分值。步骤A3中设定有定向类目阈值,将统计出的各个 用户的用户行为次数与定向类目阈值进行比较,可以找出超过定向类目阈值的用户行为次 数,将这些用户行为次数对应的用户提取到目标用户群中。
[0062] 需要说明的是,在本发明实施例中,步骤A2统计数据源中用户标签符合定向类目 的用户行为次数,具体可以包括:通过如下方式计算数据源中用户标签符合定向类目的用 户行为次数number :
[0063]
【权利要求】
1. 一种用户行为数据的分析方法,其特征在于,包括: 获取用户注册到数据源后在所述数据源中产生的行为数据,其中,所述数据源中包括 注册到所述数据源中的所有用户各自产生的行为数据,所述行为数据为记录用户在所述数 据源中的行为的数据信息; 从所述用户在数据源上产生的行为数据中提取用户标签,所述用户标签是用于表征所 述用户的行为的信息; 获取预置的定向人群特征,所述定向人群特征为满足定向特征要求的人群所具有的特 征; 根据所述用户在数据源上产生的行为数据和所述用户标签从所述数据源的所有用户 中提取符合定向人群特征的目标用户群,所述目标用户群包括符合定向人群特征的多个用 户。
2. 根据权利要求1所述的方法,其特征在于,所述根据所述用户在数据源上产生的行 为数据和所述用户标签从所述数据源的所有用户中提取符合定向人群特征的目标用户群, 包括: 按照所述定向人群特征的要求从所述数据源中已经划分的类目中提取定向类目; 统计所述数据源中用户标签符合所述定向类目的用户行为次数; 将所述数据源中用户行为次数超过定向类目阈值的用户提取到所述目标用户群中,所 述目标用户群包括用户行为次数超过定向类目阈值的所有用户。
3. 根据权利要求2所述的方法,其特征在于,所述统计所述数据源中用户标签符合所 述定向类目的用户行为次数,包括: 通过如下方式计算所述数据源中用户标签符合所述定向类目的用户行为次数 number :
其中,共N个数据源,所述λ i为第i个数据源的权重,所述第i个数据源共Μ个定向 类目,所述count为用户在每个数据源上的第j个定向类目下的用户行为次数。
4. 根据权利要求1所述的方法,其特征在于,所述根据所述用户在数据源上产生的行 为数据和所述用户标签从所述数据源的所有用户中提取符合定向人群特征的目标用户群, 包括: 按照所述定向人群特征的要求获取所述定向人群特征具有的关键词; 使用所述关键词与提取出的所述用户标签进行匹配,计算出所述数据源中所有用户标 签与所述关键词匹配成功的用户行为次数; 根据所述数据源中所有用户标签与所述关键词匹配成功的用户行为次数、遗忘因子计 算所述数据源中每个用户的定向人群分值; 将所述数据源中定向人群分值超过定向人群关联阈值的用户提取到所述目标用户群 中,所述目标用户群包括所述数据源中定向人群分值超过定向人群关联阈值的所有用户。
5. 根据权利要求4所述的方法,其特征在于,所述按照所述定向人群特征的要求获取 所述定向人群特征具有的关键词之后,还包括: 根据获取到所述关键词获取与所述关键词有联系但不匹配所述定向人群特征的过滤 词; 所述使用所述关键词与提取出的所述用户标签进行匹配,计算出所述数据源中所有用 户标签与所述关键词匹配成功的用户行为次数,包括: 使用所述关键词、所述过滤词分别与提取出的所述用户标签进行匹配; 计算所述数据源中所有用户标签与所述关键词匹配成功且去除掉与所述过滤词匹配 成功的用户行为次数。
6. 根据权利要求4所述的方法,其特征在于,所述根据所述数据源中所有用户标签与 所述关键词匹配成功的用户行为次数、遗忘因子计算所述数据源中每个用户的定向人群分 值,包括: 通过如下方式计算所述数据源中每个用户的定向人群分值score :
其中,共有N个数据源,所述λ i为第i个数据源的权重,所述Si为第i个数据 源中用户标签与所述关键词匹配成功的用户行为次数,所述F(X)为遗忘因子,所述
所述cur为计算所述score时的当前时间,所述est为用户行为 产生的时间,所述hi为半衰期,所述begin_time为所述数据源中记录的行为数据的起始时 间,所述end_time为所述数据源中记录的行为数据的终止时间,所述γ为所述定向人群分 值的取值范围控制参数,所述b为所述定向人群分值的增长速度控制参数。
7. 根据权利要求1所述的方法,其特征在于,所述根据所述用户在数据源上产生的行 为数据和所述用户标签从所述数据源的所有用户中提取符合定向人群特征的目标用户群, 包括: 按照所述定向人群特征从所述数据源中的所有用户中选取训练样本集; 从所述训练样本集中的用户标签中提取行为特征,所述行为特征的特征值为用于表征 所述行为特征的词语的词频-逆向文件频率TF-IDF ; 对所述行为特征使用分类方法训练分类模型; 使用所述分类模型对所述数据源中的所有用户进行分类,得到所述目标用户群,所述 目标用户群包括经过所述分类模型筛选的所有用户。
8. 根据权利要求7所述的方法,其特征在于,所述TF-IDF通过如下方式计算:
其中,所述tf (t,d)为所述数据源中用户行为次数,所述t为用于表征所述行为特征的 词语,所述d为所述数据源中行为数据,所述N为所有用户的用户行为次数,所述ni为被选 取做训练样本集的用户行为次数。
9. 根据权利要求1所述的方法,其特征在于,所述根据所述用户在数据源上产生的行 为数据和所述用户标签从所述数据源的所有用户中提取符合定向人群特征的目标用户群 之后,还包括: 获取所述目标用户群中所有用户的人群特征分布; 将所述人群特征分布中超过特征分布范围的所述目标用户群中的用户过滤掉,得到第 一修正目标用户群,所述第一修正目标用户群包括所述人群特征分布中在所述特征分布范 围内的所述目标用户群中的用户。
10. 根据权利要求1所述的方法,其特征在于,所述根据所述用户在数据源上产生的行 为数据和所述用户标签从所述数据源的所有用户中提取符合定向人群特征的目标用户群 之后,还包括: 对用户在所述数据源上产生的行为数据进行更新; 按照更新后的行为数据对符合定向人群特征的目标用户群进行修正,得到第二修正目 标用户群,所述第二修正目标用户群包括从更新后的行为数据中提取到更新的用户标签以 及根据更新后的行为数据和更新的用户标签提取到的符合定向人群特征的多个用户。
11. 根据权利要求1所述的方法,其特征在于,所述根据所述用户在数据源上产生的行 为数据和所述用户标签从所述数据源的所有用户中提取符合定向人群特征的目标用户群 之后,还包括: 对所述目标用户群中多个用户与所述定向人群特征的关联性进行验证; 对所述目标用户群中所述关联性小于关联性阈值的用户对应的数据源中的行为数据 进行修正; 按照修正后的行为数据对符合定向人群特征的目标用户群进行修正,得到第三修正目 标用户群,所述第三修正目标用户群包括从修正后的行为数据中提取到修正的用户标签以 及根据修正后的行为数据和修正的用户标签提取到的符合定向人群特征的多个用户。
12. -种用户行为数据的分析装置,其特征在于,包括: 数据获取模块,用于获取用户注册到数据源后在所述数据源中产生的行为数据,其中, 所述数据源中包括注册到所述数据源中的所有用户各自产生的行为数据,所述行为数据为 记录用户在所述数据源中的行为的数据信息; 标签提取模块,用于从所述用户在数据源上产生的行为数据中提取用户标签,所述用 户标签是用于表征所述用户的行为的信息; 特征获取模块,用于获取预置的定向人群特征,所述定向人群特征为满足定向特征要 求的人群所具有的特征; 用户群提取模块,用于根据所述用户在数据源上产生的行为数据和所述用户标签从所 述数据源的所有用户中提取符合定向人群特征的目标用户群,所述目标用户群包括符合定 向人群特征的多个用户。
13. 根据权利要求12所述的装置,其特征在于,所述用户群提取模块,包括: 定向类目提取子模块,用于按照所述定向人群特征的要求从所述数据源中已经划分的 类目中提取定向类目; 第一用户行为统计子模块,用于统计所述数据源中用户标签符合所述定向类目的用户 行为次数; 第一用户群提取子模块,用于将所述数据源中用户行为次数超过定向类目阈值的用户 提取到所述目标用户群中,所述目标用户群包括用户行为次数超过定向类目阈值的所有用 户。
14. 根据权利要求13所述的装置,其特征在于,所述第一用户行为统计子模块,具体用 于通过如下方式计算所述数据源中用户标签符合所述定向类目的用户行为次数number :
其中,共N个数据源,所述λ i为第i个数据源的权重,所述第i个数据源共Μ个定向 类目,所述count为用户在每个数据源上的第j个定向类目下的用户行为次数。
15. 根据权利要求12所述的装置,其特征在于,所述用户群提取模块,包括: 关键词获取子模块,用于按照所述定向人群特征的要求获取所述定向人群特征具有的 关键词; 第二用户行为统计子模块,用于使用所述关键词与提取出的所述用户标签进行匹配, 计算出所述数据源中所有用户标签与所述关键词匹配成功的用户行为次数; 人群分值计算子模块,用于根据所述数据源中所有用户标签与所述关键词匹配成功的 用户行为次数、遗忘因子计算所述数据源中每个用户的定向人群分值; 第二用户群提取子模块,用于将所述数据源中定向人群分值超过定向人群关联阈值的 用户提取到所述目标用户群中,所述目标用户群包括所述数据源中定向人群分值超过定向 人群关联阈值的所有用户。
16. 根据权利要求15所述的装置,其特征在于,所述用户群提取模块,还包括:过滤词 获取子模块,其中, 所述过滤词获取子模块,用于根据获取到所述关键词获取与所述关键词有联系但不匹 配所述定向人群特征的过滤词; 所述第二用户行为统计子模块,具体用于使用所述关键词、所述过滤词分别与提取出 的所述用户标签进行匹配;计算所述数据源中所有用户标签与所述关键词匹配成功且去除 掉与所述过滤词匹配成功的用户行为次数。
17. 根据权利要求15所述的装置,其特征在于,所述人群分值计算子模块,用于通过如 下方式计算所述数据源中每个用户的定向人群分值score :
其中,共有N个数据源,所述λ i为第i个数据源的权重,所述Si为第i个数据 源中用户标签与所述关键词匹配成功的用户行为次数,所述F(X)为遗忘因子,所述
,所述cur为计算所述score时的当前时间,所述est为用户行为 产生的时间,所述hi为半衰期,所述begin_time为所述数据源中记录的行为数据的起始时 间,所述end_time为所述数据源中记录的行为数据的终止时间,所述γ为所述定向人群分 值的取值范围控制参数,所述b为所述定向人群分值的增长速度控制参数。
18. 根据权利要求17所述的装置,其特征在于,所述用户群提取模块,包括: 样本选取子模块,用于按照所述定向人群特征从所述数据源中的所有用户中选取训练 样本集; 行为特征提取子模块,用于从所述训练样本集中的用户标签中提取行为特征,所述行 为特征的特征值为用于表征所述行为特征的词语的词频-逆向文件频率TF-IDF ; 模型训练子模块,用于对所述行为特征使用分类方法训练分类模型; 用户分类子模块,用于使用所述分类模型对所述数据源中的所有用户进行分类,得到 所述目标用户群,所述目标用户群包括经过所述分类模型筛选的所有用户。
19. 根据权利要求18所述的装置,其特征在于,所述行为特征提取子模块提取到的行 为特征的TFIDF通过如下方式计算:
其中,所述tf (t,d)为所述数据源中用户行为次数,所述t为用于表征所述行为特征的 词语,所述d为所述数据源中行为数据,所述N为所有用户的用户行为次数,所述ni为被选 取做训练样本集的用户行为次数。
20. 根据权利要求12所述的装置,其特征在于,所述用户行为数据的分析装置,还包 括: 特征分布获取模块,用于获取所述目标用户群中所有用户的人群特征分布; 第一用户群修正模块,用于将所述人群特征分布中超过特征分布范围的所述目标用户 群中的用户过滤掉,得到第一修正目标用户群,所述第一修正目标用户群包括所述人群特 征分布中在所述特征分布范围内的所述目标用户群中的用户。
21. 根据权利要求12所述的装置,其特征在于,所述用户行为数据的分析装置,还包 括: 行为数据更新模块,用于对用户在所述数据源上产生的行为数据进行更新; 第二用户群修正模块,用于按照更新后的行为数据对符合定向人群特征的目标用户群 进行修正,得到第二修正目标用户群,所述第二修正目标用户群包括从更新后的行为数据 中提取到更新的用户标签以及根据更新后的行为数据和更新的用户标签提取到的符合定 向人群特征的多个用户。
22. 根据权利要求12所述的装置,其特征在于,所述用户行为数据的分析装置,还包 括: 关联性验证模块,用于对所述目标用户群中多个用户与所述定向人群特征的关联性进 行验证; 行为数据修正模块,用于对所述目标用户群中所述关联性小于关联性阈值的用户对应 的数据源中的行为数据进行修正; 第三用户群修正模块,用于按照修正后的行为数据对符合定向人群特征的目标用户群 进行修正,得到第三修正目标用户群,所述第三修正目标用户群包括从修正后的行为数据 中提取到修正的用户标签以及根据修正后的行为数据和修正的用户标签提取到的符合定 向人群特征的多个用户。
【文档编号】G06Q30/02GK104090888SQ201310670424
【公开日】2014年10月8日 申请日期:2013年12月10日 优先权日:2013年12月10日
【发明者】宋亚娟, 李勇, 肖磊, 柳金晶, 王滔, 赖晓平, 王洁 申请人:深圳市腾讯计算机系统有限公司