基于可预测用户特征属性的用户画像方法及系统与流程

文档序号:29691975发布日期:2022-04-16 12:00阅读:129来源:国知局
基于可预测用户特征属性的用户画像方法及系统与流程

1.本发明涉及计算机处理技术领域,尤其涉及基于可预测用户特征属性的用 户画像方法及系统。


背景技术:

2.用户画像表现为一种用于勾画目标用户、联系用户诉求与设计方向的有效 工具,其在各领域均得到了广泛的应用。构建用户画像的过程本质上是以短文 本(或加上图片)描述虚拟用户组的过程,可理解为把用户特征抽象成短语标 签,同一短语标签可认为该类用户具有相似的目标、需求以及行为等。市面上 存在两类用户画像构建过程:一类为产品设计人员、运营人员根据用户需求从 用户群体中抽象出典型用户,另一类为根据每个用户在产品、服务中的行为、 观点等数据,生成描述用户的标签集合。具体实现时,将用户画像作为用于刻 画用户特征的标签(tag)集合,比如,年龄、性别等静态属性,当然也可以 包括用户的兴趣特征,如旅游、服饰等。用户画像的构建和更新对于后续的信 息的定向传播,比如广告的定向投放有着重要的意义。
3.市面上的用户画像一般表现为用户浏览、购买、使用等行为产生的特征标 签,即根据用户在站内的行为,比如,将访问的媒体类目、商品类目等行为日 志保存下来,然后在一定时间窗口内,遍历所有的用户行为日志,按照某种权 重衰减函数对其进行计算,获取用户特征标签,比如,该特征标签包括:用户 偏好特征标签和用户基础属性特征标签,并基于智能终端上的内容投放分析得 出的用户偏好特征标签,通过统计分析等方式得出,对于用户基础属性(用户 的性别、年龄段、出生地等)的数据来源及对应标签大部分属于预测及估计, 得到当前最新的用户画像。
4.本技术发明人发现,该方式存在的问题是获取的数据非常片面,比如,站 内的用户数据,对于用户在其他网站上的访问行为则一无所知;同时,对于互 联网行业来说,难以做到用户实名注册,所以对于年龄、性别等用户静态属性 只能通过相关统计算法进行猜测,可靠性不高。现有各种应用程序的数据持有 者的用户数据基本都是封闭的,未能在全网层面打通共享各数据孤岛。这就对 数据使用者造成无法在全网范围内准确了解用户的行为偏好、并结合其行业需 求对数据进行个性化的数据挖掘,对生成符合行业应用的用户画像造成一定困 难。


技术实现要素:

5.本技术通过提供一种基于可预测用户特征属性的用户画像方法及系统,解 决了现有技术中对用户访问数据的片面性、应用程序之间数据封闭,实现了根 据用户终端所安装的应用程序预测用户性别、年龄的技术效果,进一步根据用 户终端的已知标签构建用户画像,以便为各用户终端实施精准推荐的有益效果。
6.第一方面,本技术实施例提供了一种基于可预测用户特征属性的用户画像 方法,所述方法包括:
7.s1:构建互联网用户终端的特征数据库,获取各用户终端所安装的多个应 用程序,为不同的应用程序指定不同的用户属性权重,并对各应用程序中已上 报的包含性别、年龄在内的用户特征属性进行类别细化,后按照预定的标签自 动归并,将类别进行统一;
8.s2:获取用户特征数据库中的若干样本数据,并将年龄段特征、性别特征 作为标签,对样本数据分别进行标注;
9.s3:基于年龄段特征,对标注数据中的应用程序列表进行one-hot编码, 获取基于年龄段的特征矩阵;基于性别特征,对标注数据中的应用程序列表进 行one-hot编码,获取基于性别的特征矩阵;将基于年龄段的特征矩阵和/或 性别的特征矩阵作为后续xgboost算法的特征输入,由此形成一定数量的用于 预测用户终端特征属性的样本数据;
10.s4:采用xgboost算法并进行适用性改进,将获取的样本数据进行模型训 练;通过xgboost算法训练年龄段的特征矩阵和性别的特征矩阵,经训练成熟 得到年龄段及性别的预测模型;
11.s5:根据年龄段预测模型及性别的预测模型,对任一用户终端已安装的应 用程序,进行用户年龄段和性别预测,获取用户的年龄段和性别,同时基于包 括地域、城市等级、终端类型、消费水平中的其中一个或多个在内的用户特征 属性,形成用户多维度兴趣标签,构建生成用户画像,以便对用户进行精准推 荐。
12.进一步地,所述步骤s3中,获取基于年龄段的特征矩阵的方法包括:
13.s31:对各用户终端的应用程序进行one-hot编码,对已安装的应用程序 编码1,未安装的应用程序编码0,获取标注数据中所有用户终端所安装应用 程序的特征矩阵(1):
[0014][0015]
s32:将年龄段特征带入矩阵(1)中,获得特征矩阵(2),如下表示:
[0016][0017]
s33:将各应用程序的基于年龄段特征的用户属性权重带入矩阵(2)中, 获得基于年龄段的特征矩阵(3),如下表示:
[0018][0019]
进一步地,所述步骤s3中,获取基于性别的特征矩阵的方法包括:
[0020]
s34:将性别特征带入矩阵(1)中,获得特征矩阵(4),如下表示:
[0021][0022]
s35:将各应用程序的基于性别特征的用户属性权重带入矩阵(4)中,获 得基于性别的特征矩阵(5),如下表示:
[0023][0024]
进一步地,所述步骤s4中,通过xgboost算法训练年龄段的特征矩阵和 性别的特征矩阵,得到年龄段及性别的预测模型的方法包括:
[0025]
s41:接收已标注的样本数据集,样本数据集中包括n个用户终端,每个 用户终端中的包括m个特征数据,样本数据集表示为:d={(xi,yi)}(|d|= n,xi∈rm,yi∈r;
[0026]
s42:将年龄段的特征矩阵和/或性别的特征矩阵进行xgboost算法的模型 训练,训练xgboost算法中的k棵树,通过xgboost算法训练最终获得一个由 k个cart决策树:fk(x)=ω
q(x)
相加得到的集成模型,并作为年龄段及性别 的预测模型,其中,模型的输出,表示年龄段或性别的预测,预测模型表示为:
[0027][0028]
表示xgboost模型的输出,γ为回归树空间,表示cart决策树的集合, 定义为:γ={f(x)=ωa(x)}(q:rm→
t,ω∈r
t
);
[0029]
其中,f(x)表示一个cart决策树,由树结构q和t个叶子节点组成,q表 示每棵树结构所映射到相应叶子节点的索引,x表示某一用户终端,q(x)表示 用户终端所在叶子节点,每个叶子节点都有一个连续值与它对应称为叶子结点 的权重ω,ω
q(x)
为回归树对样本数据的输出,表示每个终端用户的取值,并 作为预测值,每个fk对应一棵独立的树结构q及其叶子节点权重ω,所有权值构 成该树的权重向量ω∈r
t

[0030]
树结构q通过用户终端的特征属性判别,将任意具有m维特征属性的样本 数据映射到其中某一个叶节点上;每一个决策树函数fk对应一个特有的树结构 q以及对应的叶节点权重向量ω;对于一个样本数据,xgboos模型获取最终的 预测值的过程为:在每一棵决策树上将该样本映射到对应的叶节点上,再将 该样本对应的k个叶节点的权重相加;
[0031]
所述xgboost算法采用的xgboost目标函数为:
[0032][0033]
其中,利用xgboost目标函数衡量模型的预测值与真实值之间的偏差,在 训练过程中,通过xgboost目标函数使目标函数值尽可能的小;表示预测值, yi表示目标值;l表示训练目标函数,用于衡量预测值与目标值yi之间的偏差, 为正则项,用于控制模型训练的复杂度,定义为:ω 表示模型复杂度惩罚项,γ、λ表示惩罚系数,t表示叶子节点数;||ω||2表示每 棵树叶子节点上的输出分数的平方,相当于对l2正则。
[0034]
进一步地,所述步骤s3之前,还包括接收标注数据后,基于标注数据中 的应用程序列表,筛选出应用程序数量靠前的n个应用程序,n≥3000,并记 录安装5个及以上应用程序的用户终端,作为可实现one-hot编码的用户终端。
[0035]
第二方面,本技术实施例提供了一种第一方面任意一项所述的基于可预测 用户特征属性的用户画像方法的系统,包括:
[0036]
数据库模块,配置为构建互联网用户终端的特征数据库,获取各用户终端 所安装的应用程序,为不同的应用程序指定不同的用户属性权重,并对各应用 程序中已上报的包含性别、年龄在内的用户特征属性进行类别细化,后按照标 签自动归并,将类别进行统一;
[0037]
预处理模块,配置为获取用户特征数据库中的若干样本数据,并将年龄段 特征、性别特征作为标签,对样本数据分别进行标注;
[0038]
特征编码模块,配置为基于年龄段特征,对标注数据中的应用程序列表进 行one-hot编码,获取基于年龄段的特征矩阵;基于性别特征,对标注数据中 的应用程序列表进行one-hot编码,获取基于性别的特征矩阵;将基于年龄段 的特征矩阵和/或性别的特征矩阵作为后续xgboost算法的特征输入,由此形 成一定数量的用于预测用户终端特征属性的样本数据;
[0039]
模型训练模块,配置为采用xgboost算法并进行适用性改进,将获取的样 本数据进行模型训练;将年龄段的特征矩阵和性别的特征矩阵输入到预设的 xgboost模型中,经训练成熟得到年龄段及性别的预测模型;
[0040]
画像生成模块,配置为根据年龄段预测模型及性别的预测模型,对任一用 户终端已安装的应用程序,进行用户年龄段和性别预测,获取用户的年龄段和 性别,同时基于包括地域、城市等级、终端类型、消费水平中的其中一个或多 个在内的用户特征属性,形成用户多维度兴趣标签,构建生成用户画像,以便 对用户进行精准推荐。
[0041]
第三方面,本技术实施例提供了一种电子设备,包括:
[0042]
一个或多个存储器,用于存储可执行程序代码;
[0043]
处理器,连接至所述存储器,用于存储一个或多个程序;
[0044]
通过读取所述可执行程序代码,运行与所述可执行程序代码对应的计算机 程序,以执行如第一方面中任一项所述的基于可预测用户特征属性的用户画像 方法。
[0045]
第四方面,本技术实施例提供了一种存储介质,包括:存储有可执行程序 代码,至少一处理器读取所述可执行程序代码,来运行与所述可执行程序代码 对应的计算机程序,以执行如第一方面中任一项所述的基于可预测用户特征属 性的用户画像方法。
[0046]
本技术实施例中提供的多个技术方案,至少具有如下技术效果:
[0047]
1,本发明通过预测出的包括年龄段和性别在内的用户特征属性,结合用 户所在地域、城市等级、机型、用户行为等特征,如消费水平等对其进一步分 析,生成用户画像,为精准营销、个性化服务、网络舆情治理等诸多方面提供 良好的数据的基础。
[0048]
2,本发明利用xgboost模型中的提升树算法思想,应用到年龄段以及性 别预测,提高了预测的准确率,更能精准的生成用户画像。
[0049]
3,本发明进行数据基于互联网中的用户终端,通过各用户终端联网动作, 采集用户终端以及对应应用程序,从而获取用户终端已上报的应用程序安装列 表,采集其所在地域、城市等级、机型、用户消费水平等;且获取其覆盖用户 最多的top n个app,标注其年龄阶段、性别等,进行数据预处理。
[0050]
4,本发明通过已标注年龄阶段、及性别的用户所使用app列表的数据, 利用xgboost算法,根据已有数据训练,获得年龄段预测模型、性别预测模型, 在获取相关数据时,未知年龄、性别的情况下,可根据此模块预测年龄段及性 别,为精准用户画像提供良好基础。
[0051]
5,本发明通过预测的年龄段以及性别,结合用户提供的相关信息,做相 关用户分析,为用户产生多个标签,构建符合不同场景所需的用户画像。
附图说明
[0052]
图1为本技术实施例一中基于可预测用户特征属性的用户画像方法的流程 图;
[0053]
图2为本技术实施例一中同一用户安装同一软件公司所开发的应用程序示 意图;图3为本技术实施例二中基于可预测用户特征属性的用户画像系统的流程 图。
具体实施方式
[0054]
背景技术进一步补充,构建用户画像可基于不同机制。
[0055]
基于设计与思维的用户画像构建方法:通过调查问卷、访谈等方式,了解 用户的共性与差异,分析并设计形成不同的用户画像。鉴于此构建方法固有的 特殊性和复杂性,研究通常从4种视角分别提出具体的构建过程:目标导向视 角、角色导向视角、参与导向视角以及虚构导向视角。其中,目标导向视角、 角色导向视角、参与导向视角的共同之处在于构建过程都有数据为基础,而虚 构导向视角却不以数据为基础,仅凭借设计人员的直觉和假设。其中,目标导 向视角能够集中设计思路,并作为沟通工具完成讨论,但它却低估用户参与的 价值。
[0056]
基于本体或概念的用户画像构建方法:基于本体的方法,考虑用户上下文 信息和概要信息领域相关的现有文献、应用程序和本体等,研究学术论文推荐 系统中用户画像方法,用户被表示为一个个基于主体的本体,而文章转化为对 应的词向量与值进行匹配。基
于概念的方法,基于搜索引擎日志和点击记录, 并使用排序学习方法,构建基于概念的用户画像,其中概念向量既有正值也有 负值。但是其局限性为需要对不同领域分别构建相应的本体结构、需要专家参 与,费时费力且成本高。
[0057]
基于主体或话题的用户画像构建方法,基于主题的构建方法,利用朴素贝 叶斯、lda方法等算法分类用户的话题表示用户。基于话题的构建方法,通过 利用用户相关文本和主题特征信息进行构建,将对同一话题感兴趣的一类人聚 集到一起,以获得这类人群的信息,然后借助算法提取该类人群标签,但是无 法真正的将用户本身的特征引入到模型中,分析正面、负面情感时可能存在偏 差。
[0058]
基于兴趣或偏好的构建方法,利用用户经常浏览或关注的信息刻画用户, 能够充分利用不同用户相似的兴趣偏好,总结多种针对用户兴趣的用户画像构 建方法,并在此基础上提出基于用户所喜欢商品的描述信息、用户对于特定商 品的交互历时这两类信息,构建用户画像的方法,根据用户的搜索行为动态的 调整用户偏好,同时使用加权的词汇表示用户的偏好概要,并在搜索系统中验 证动态性的有效性,但是不能很好的处理用户兴趣、爱好中的动态性、实时性; 只能从有限的历史行为中估计用户的兴趣和偏好。
[0059]
基于多维或融合的构建方法,通过多种特征类型的数据从多个维度对用户 进行刻画,同时利用文本特征和社交特征构建用户画像并进行年龄分类研究。 针对一些平台的用户性别推断问题,提出一种新的名称分类器,而不是仅仅依 赖于一个名称数据库,从用户名中提取特征,并使用这些特征名称分配给一个 性别。现有研究人员提出一种多视角融合框架构建用户画像,利用双通道对不 同特性的用户分别建模预测,针对不同类型的数据提出多种特征萃取方法,以 构建用户多源的特征体系(包括类别、聚类特征和数值特征等),但是计算量 大且复杂。
[0060]
基于上述构建用户画像方法的各种缺陷问题,本技术提出了一种基于可预 测用户特征属性的用户画像方法。为了更好的理解技术方案,下面将结合说明 书附图以及具体的实施方式对上述技术方案进行详细的说明。
[0061]
实施例一
[0062]
参考图1所示,本技术实施例提供了一种基于可预测用户特征属性的用户 画像方法,具体包括如下步骤:
[0063]
步骤s1:构建互联网用户终端的特征数据库,获取各用户终端所安装的多 个应用程序,为不同的应用程序指定不同的用户属性权重,并对各应用程序中 已上报的包含性别、年龄在内的用户特征属性进行类别细化,后按照预定标签 自动归并,将类别进行统一。
[0064]
其中,参考图2所示,针对如何获取各个终端上的应用程序,本技术实施 例基于软件公司开发的多个应用程序,由于同一用户可能会安装多个该软件公 司所开发的应用程序。因此可理解为,软件公司针对应用程序的内容以及用户 数据分别设于不同的数据库,比如,{应用程序1数据库,应用程序2数据库, 应用程序3数据库,

,用户数据}。进一步地,任意用户在安装某一应用程序 时,会出现弹窗显示需要用户授权,该授权确认动作,即为通过该应用程序的 安装即可获取到该终端的一些相关信息,例如,安装聊天交友社交软件“轻 甜”,用户下载安装后,会有弹窗显示用户协议、隐私条款及权限说明,在用 户安装允许的情况下,软件公司实现对所需信息进行收集。本技术实施例利用 软件公司自有的用户数据库,即整合各个应用程序的服务端所需的用户信息, 利用本技术实施例的技术,便于
广告投放。进而利用用户分类后,筛选出高价 值用户便于广告投放优化。
[0065]
本实施例基于开源大数据中的海量用户终端数据分析,针对各个用户终端 所安装的应用程序,对用户终端所属用户的性别以及年龄段进行预测,并结合 用户终端所在的其他相关属性,对用户终端上对用户进行精准推荐。其他相关 属性可以是但不限于地域、城市等级、终端类型、消费水平,可理解为,当根 据用户终端上已注册的应用程序预测出用户终端的性别和年龄段后,进一步根 据用户终端id确定的其他用户特征属性,当然也可以理解为,根据已知的用 户终端id,即可获取到未注册应用程序就可以得到的用户特征属性。进一步地, 各用户终端所显示的数据结构为{用户终端id,应用程序={app1,app2, app3,

,appn},年龄id,性别,地域,城市等级,终端类型,消费水平
……
}。 当然,应用程序包括但不局限于app、微信小程序。
[0066]
本步骤中为不同的应用程序指定不同的用户属性权重。可以理解为,各应 用程序在开发初期都根据用户需求定位对应的较为稳定的用户群体。针对稳定 的用户群体,用户的各种属性在整个用户群体中占比应该是个稳定的数值。比 如,在一个应用程序的用户群体中,男性用户占所有用户中的56%,而女性用 户占所有用户中的44%。基于此本实施例中为各应用程序确定固定的用户属性 权重。当然这种确定可以是根据经验的确定,也可以是根据对用户群体的实际 统计计算确定。进一步地,本实施例中的用户属性权重包括但不限于性别权重、 年龄段权重。性别权重指男性用户和女性用户在整体用户群体中分别所占的比 重。年龄段权重指处于不同年龄段的用户在整体用户群体中所占的比重。具体 应用程序所指定的用户属性权重具体如下的数据结构:{应用程序id,应用程 序名称,男性用户比例,女性用户比例,年龄段1用户比例,年龄段2用户比 例
……
}。
[0067]
步骤s2:获取用户特征数据库中的若干样本数据,并将年龄段特征、性别 特征作为标签,对样本数据分别进行标注。
[0068]
本步骤以年龄数据以及性别数据作为标签进行标注,进一步地,还包括对 年龄数据分段,通过分段将年龄数据分为多个种类,优选地,将年龄数据分为 6段,得到6种年龄段数据:0-17岁、18-24岁、25-34岁、35-44岁、45-55 岁、55岁以上。步骤s1之前还包括对性别数据分类:男、女。年龄数据分段 如下表1所示,
[0069]
年龄段id说明age10-17岁age218-24岁age325-34岁age435-44岁age545-55岁age655岁以上
[0070]
表1
[0071]
本步骤中,样本数据预处理时,提取样本数据中的年龄特征和性别特征 对各年龄特征进行分段标注,根据年龄特征标注年龄段类别,对性别特征进行 标注,将性别特征标注为男或女,各样本数据可如下数据结构{用户终端id, ageid,性别,appid

},可以看出,各样本数据中包括年龄段特征和性别特 征,可以分别提取基于年龄段特征所对应的应用程序,基于性别特征所对应的 应用程序,各标注样本如下数据结构{用户终端id,ageid,
app1,app2,app3,

, appn}、{用户终端id,性别,app1,app2,app3,

,appn}。
[0072]
步骤s3:基于年龄段特征,对标注数据中的应用程序列表进行one-hot 编码,获取基于年龄段的特征矩阵;基于性别特征,对标注数据中的应用程序 列表进行one-hot编码,获取基于性别的特征矩阵;将基于年龄段的特征矩阵 和/或性别的特征矩阵作为后续xgboost算法的特征输入,由此形成一定数量 的用于预测用户终端特征属性的样本数据。
[0073]
在步骤s3之前,还包括接收标注数据后,基于标注数据中的应用程序列 表,筛选出应用程序数量靠前的n个应用程序,n≥3000,并记录安装5个及 以上应用程序的用户终端,作为可实现one-hot编码的用户终端。
[0074]
各用户终端如数据结构{应用程序id,用户终端id}所示,进一步统计合 并如数据结构{应用程序id,用户数量}所示,以此筛选出靠前n多个的应用程 序,当然不局限于此,还可以包括应用程序id以及应用程序名称。
[0075]
记录安装5个及以上应用程序的用户终端,当然不局限于5个,本实施例 为实验测试后,优选参数5,当任一用户终端至少5个时,可对该用户进行性 别、年龄段预测。实现预测的用户终端可如下数据结构{用户终端id,应用程 序1,应用程序2,应用程序3,

}。
[0076]
进一步地,步骤s3中,获取基于年龄段的特征矩阵的方法包括:
[0077]
s31:对各用户终端的应用程序进行one-hot编码,对已安装的应用程序 编码1,未安装的应用程序编码0,获取标注数据中所有用户终端所安装应用 程序的特征矩阵(1):
[0078][0079]
s32:将年龄段特征带入矩阵(1)中,获得特征矩阵(2),如下表示:
[0080][0081]
s33:将各应用程序的基于年龄段特征的用户属性权重带入矩阵(2)中, 获得基于年龄段的特征矩阵(3),如下表示:
[0082][0083]
举例说明,某用户终端user1,所安装的应用程序上标注的年龄26,属于 age3位于
年龄段25-34岁,用户终端上安装的应用程序分别为应用程序1、应 用程序2、

、应用程序n,各应用程序编码{1,1,0,

,0},进一步可以表 示为{user1,1,1,0,

,0}。在对应年龄段内应用程序的特征矩阵中,已安 装的应用程序编码为1,未安装的应用程序编码为0。以此类推各个年龄段内 其他用户终端的应用程序。在预设的特征矩阵中,每个应用程序的权重默认均 为1,并根据具体场景进行调整。如果本步骤中应用程序列表中的应用程序1 在特征矩阵中的权重为0.5,则在对应编码处乘以0.5即可,其他应用程序以 此类推。对应年龄段的特征矩阵如下:
[0084]
进一步如下:
[0085]
本步骤中,若应用 程序中app1在该特征矩阵中的权重为0.5时,特征矩阵变为:
[0086]
进一步转换得 到:
[0087][0088]
在步骤s3中,获取基于性别的特征矩阵的方法包括:
[0089]
s34:将性别特征带入矩阵(1)中,获得特征矩阵(4),如下表示:
[0090][0091]
s35:将各应用程序的基于性别特征的用户属性权重带入矩阵(4)中,获 得基于性别的特征矩阵(5),如下表示:
[0092][0093]
进一步地,基于性别种类分类,对标注数据中的应用程序列表进行one-hot 编码,获取性别种类的特征矩阵。基于各性别种类内已安装的应用程序,比如, 用户a的终端id=1,其终端的应用程序上标注的形变为男,终端的应用程序分 别为应用程序1、应用程序2、应用程序3
……
应用程序n,在对应性别种类内 应用程序的特征矩阵中,已安装的应用程序编码为1,未安装的应用程序编码 为0。且在性别种类所在的特征矩阵中,如果每个应用程序的权重默认均为1, 根据具体场景调整,对应性别种类的特征矩阵如下:
[0094][0095]
步骤s4:采用xgboost算法并进行适用性改进,将获取的样本数据进行模 型训练;通过xgboost算法训练年龄段的特征矩阵和性别的特征矩阵,经成熟 训练得到年龄段及性别的预测模型。
[0096]
进一步地,在步骤s4中,通过xgboost算法训练年龄段的特征矩阵和性 别的特征矩阵,得到年龄段及性别的预测模型的方法包括:
[0097]
s41:接收已标注的样本数据集,样本数据集中包括n个用户终端,每个 用户终端中的包括m个特征数据,样本数据集表示为:d={(xi,yi)}(|d|= n,xi∈rm,yi∈r。
[0098]
s42:将年龄段的特征矩阵和/或性别的特征矩阵进行xgboost算法的模型 训练,训练xgboost算法中的k棵树,通过xgboost算法训练最终获得一个由 k个cart决策树:fk(x)=ω
q(x)
相加得到的集成模型,并作为年龄段及性别 的预测模型,其中,模型的输出表示年龄段或性别的预测,预测模型表示为:
[0099][0100]
表示xgboost模型的输出,γ为回归树空间,表示cart决策树的集合, 定义为:γ={f(x)=ω
q(x)
}(q:rm→
t,ω∈r
t
);
[0101]
其中,f(x)表示一个cart决策树,由树结构q和t个叶子节点组成,q表 示每棵树结构所映射到相应叶子节点的索引,x表示某一用户终端,q(x)表示 用户终端所在叶子节点,每个叶子节点都有一个连续值与它对应称为叶子结点 的权重ω,ω
q(x)
为回归树对样本数据的输出,表示每个终端用户的取值,并 作为预测值,每个fk对应一棵独立的树结构q及其叶子节点权重ω,所有权值构 成该树的权重向量ω∈r
t

[0102]
其中,树结构q通过用户终端的特征属性判别,将任意具有m维特征的样 本数据映射到其中某一个叶节点上;每一个决策树函数fk对应一个特有的树结 构q以及对应的叶节
点权重向量ω;对于一个样本数据,xgboos模型获取最终 的预测值的过程为:在每一棵决策树上将该样本映射到对应的叶节点上,再 将该样本对应的k个叶节点的权重相加。
[0103]
所述xgboost算法采用的xgboost目标函数为:
[0104][0105]
其中,利用xgboost目标函数衡量模型的预测值与真实值之间的偏差,在 训练过程中,通过xgboost目标函数使目标函数值尽可能的小;表示预测值, yi表示目标值;l表示训练目标函数,用于衡量预测值与目标值yi之间的偏差, 为正则项,用于控制模型训练的复杂度,定义为:ω 表示模型复杂度惩罚项,γ、λ表示惩罚系数,t表示叶子节点数;||ω||2表示每 棵树叶子节点上的输出分数的平方,相当于对l2正则。可以看出,xgboost 模型中的惩罚项对应模型复杂度,考虑到了每颗树的节点个数,以及每颗树叶 子节点输出得分平方和,且此惩罚项更便于做并行化计算的优化。
[0106]
进一步地说明,将年龄段的特征矩阵输入到预设的xgboost模型中,经训 练得到年龄段预测模型。其中,对已标注年龄段的特征数据进行年龄段预测模 型训练时,输出年龄段。其中,输出的年龄段分类结果包括6种:0-17岁、18-24 岁、25-34岁、35-44岁、45-55岁、55岁以上,通过模型所输出的年龄段的 概率值,获取分类结果,即输出哪个年龄段的概率值最大,则表示输出为对应 年龄段种类。
[0107]
本步骤中,通过xgboost算法对性别的特征矩阵训练,经训练得到性别预 测模型。其中,对已标注性别的特征数据进行性别预测模型训练时,输出性别 种类。其中,输出的性别种类的概率值大于0.4593821时,表示输出的性别种 类为女性,小于该值则表示性别种类为男性,其他输出为未知。
[0108]
本步骤中,进一步阐述如何利用xgboost模型进行训练得到预测值,分析 如下:
[0109]
xgboost模型为梯度提升树(gbdt:gradienttree boosting)的高效实现, 也可以理解为xgboost模型是一套提升树可扩展的机器学习系统。xgboost模 型中,通过不断的进行特征分裂来生成一颗树,每一轮学习一颗树,拟合上一 轮模型的预测值与真实值之间的残差。当训练完成得到k颗树时,预测一个带 预测样本的分数。根据这个带预测样本的特征,在每颗树中会落到对应的一个 叶子节点,每个叶子节点对应一个分数,最后将每颗树对应的分数加起来表示 为样本的预测值。
[0110]
进一步举例说明:本实施例假设一个家庭的多个用户为接收的多个标注数 据,每个用户的用户终端构成一个样本数据集,利用xgboost模型预测一家人 中对电子游戏的喜好程度,考虑年轻与年老相比,年轻更喜欢电子游戏;男性 和女性相比,男性更喜欢电子游戏,因此可以根据所属年龄段区分大人和小孩, 然后再通过性别区分开是男是女,逐一对各个人对电子游戏的喜好程度进行打 分。
[0111]
进一步利用树模型中的决策规则对标注用户样本集内的各家庭成员进行 分类,训练得出树模型1和树模型2,通过对相应叶子节点上的分值进行加和, 得到最终的预测结果。所以小孩的预测分数就是两棵树模型中所有结点的分数 相加:2+0.9=2.9。大人的预测分数同理:-1+(-0.9)=-1.9。因此, 小孩喜欢玩电子游戏的程度为2.9,预测老人喜欢玩电子游戏的程度为-1.9, 从而表示小孩更喜欢玩电子游戏。
[0112]
进一步地说明式中第一项用于控制树模型中叶子 节点的个数;第二项用于控制叶节点的权重分布;γ和λ两参数用于调节正则 项中两部分之间的比例。
[0113]
根据定义的xgboost目标函数,使用训练样本集对xgboost算法进行模型 训练;在xgboost算法中,训练是以树模型迭代增加的方式进行的,即训练过 程中的每一步,增加一个cart决策树函数,使得损失函数进一步减小。利用 累加和的方式来训练xgboost模型,进一步地使用泰勒二次展开、列降采样、 分裂查找等算法对其进行优化,以此提升训练速度及精度。
[0114]
进一步地,本步骤中,通过已标注年龄段、及性别的用户终端所安装的应 用程序列表作为已有数据进行训练,分别获取年龄段预测模型和性别预测模型, 从而在获取相关数据时,未知年龄、性别的情况下,可根据年龄段预测模型和 性别预测模型分别预测年龄段及性别,为精准用户画像提供良好基础。
[0115]
步骤s5:根据年龄段预测模型以及性别预测模型,对任一用户终端已安装 的应用程序,进行用户年龄段和性别预测,获取用户的年龄段和性别,同时基 于包括地域、城市等级、终端类型、消费水平在内的用户特征属性,形成用户 多维度兴趣标签,构建生成用户画像,以便对用户进行精准推荐。
[0116]
本步骤基于多维或融合构建画像方法中的通过多种特征类型的数据从多 个维度对用户进行刻画。进一步地,通过预测出的用户年龄段、性别,结合用 户所在地域、城市等级、机型、用户行为等特征,如消费水平等对其进一步分 析,生成用户画像,为精准营销、个性化服务、网络舆情治理等诸多方面提供 良好的数据的基础;且结合提升树算法的思想,可预测年龄段及性别,且提高 了其准确率,进而更能精准的生成用户画像。
[0117]
实施例二
[0118]
参考图3所示,本技术实施例提供了一种基于可预测用户特征属性的用户 画像系统,应用实施例一中的方法,包括:
[0119]
数据库模块100,配置为构建互联网用户终端特征数据库,获取各用户终 端所安装的应用程序,为不同的应用程序指定不同的用户属性权重,并对各应 用程序中已上报的用户特征属性进行类别细化,后按照标签自动归并,将类别 进行统一;
[0120]
预处理模块200,配置为获取用户特征数据库中的若干样本数据,并将年 龄段特征、性别特征作为标签,对样本数据分别进行标注;
[0121]
特征编码模块300,配置为基于年龄段特征,对标注数据中的应用程序列 表进行one-hot编码,获取基于年龄段的特征矩阵;基于性别特征,对标注数 据中的应用程序列表进行one-hot编码,获取基于性别的特征矩阵;
[0122]
模型训练模块400,配置为将年龄段的特征矩阵输入到预设的xgboost模 型中,经训练得到年龄段预测模型,将性别的特征矩阵输入到预设的xgboost 模型中,经训练得到性别预测模型;
[0123]
画像生成模块500,配置为根据年龄段预测模型以及性别预测模型,对任 一用户终端已安装的应用程序,进行用户年龄段和性别预测,获取用户的年龄 段和性别,同时基于包括地域、城市等级、终端类型、消费水平在内的用户特 征属性,形成用户多维度兴趣标
签,生成用户画像,以便对用户进行精准推荐。
[0124]
实施例三
[0125]
本技术实施例提供了一种电子设备,包括:一个或多个存储器,用于存储 可执行程序代码;处理器,连接至所述存储器,用于存储一个或多个程序;通 过读取所述可执行程序代码,运行与所述可执行程序代码对应的计算机程序, 以执行如实施例一中任一项所述的基于可预测用户特征属性的用户画像方法。
[0126]
本技术实施例提供了一种存储介质,存储有可执行程序代码,至少一处理 器读取所述可执行程序代码,来运行与所述可执行程序代码对应的计算机程序, 以执行如实施例一中任一项所述的基于可预测用户特征属性的用户画像方法。
[0127]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计 算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0128]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产 品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入 式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算 机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一 个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0129]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中 的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能。
[0130]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0131]
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基 本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要 求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0132]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发 明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及 其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1