本发明涉及一种实体和实体属性动态聚合构造人物画像的方法及设备。
背景技术:
在大数据中人物画像又称用户画像(userprofile),作为一种勾画目标人物、联系人物诉求与设计方向的有效工具,人物画像在各个领域得到了广泛应用。通过人物画像可以抽象出一个人物的信息全貌,通过一系列的特征属性来对人物进行标签化,以此来对人物的行为偏好进行直观的认识。
构建人物画像需对人物的特征属性数据进行收集、汇聚、融合;数据来源除了包括人口属性等的静态信息数据外,需要从人物平时的行为数据中获得即动态行为数据,这部分可以是结构化数据或半结构化数据,从中获取人物相关的实体及实体属性;人物的特征属性可以是直接获取到的实体属性标签化后的属性、也可以是通过对行为数据进行统计分析获取到的结果标签化后的属性。面对繁多杂乱的人物特征属性数据需要先将和人物有关的实体归类聚合到该人物的标签体系上的某一标签。在实体和实体属性归类上,传统的做法是通过人工进行业务顺理,归类聚合同一实体及相应的实体属性,这是一项工作量巨大的任务,而且工作效率低下。
技术实现要素:
本发明要解决的技术问题,在于提供一种实体和实体属性动态聚合构造人物画像的方法,解决工作量巨大,工作效率低下的问题。
本发明之一是这样实现的:一种实体和属性动态聚合构造人物画像的方法,包括:
步骤1、在标签冷启动阶段,构建初始标签体系;
步骤2、从人物相关的动态行为数据中抽取时间和实体或实体属性;
步骤3、根据标签体系,将抽取的实体或实体属性进行聚合归类;
步骤4、根据时间维度对实体行为进行分析的统计类标签,以图数据模型持久化标签数据;
步骤5、计算每个实体的特征属性权重以及相应标签权重;
步骤6、根据每个特征属性权重以及相应标签权重绘制人物画像。
进一步地,所述步骤5中标签权重计算方法:在某一个实体下有相关的m个标签数据,则xij为第i个月第j个标签的数值;
异质标签同质化,把标签的绝对值转化为相对值,并令xij=|xij|,
计算第j项标签下第i个月占该标签的比重:
计算第j项标签的熵值:
计算信息熵冗余度:dj=1-ej;
计算各项标签的权值:
进一步地,所述步骤5中特征属性权重的计算方法为:计算得到该特征属性下的各种时间维度下的综合得分:
进一步地,所述实体抽取为基于bilstm+crf的方法进行抽取。
本发明之二是这样实现的:一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
步骤1、在标签冷启动阶段,构建初始标签体系;
步骤2、从人物相关的动态行为数据中抽取时间和实体或实体属性;
步骤3、根据标签体系,将抽取的实体或实体属性进行聚合归类;
步骤4、根据时间维度对实体行为进行分析的统计类标签,以图数据模型持久化标签数据;
步骤5、计算每个实体的特征属性权重以及相应标签权重;
步骤6、根据每个特征属性权重以及相应标签权重绘制人物画像。
进一步地,所述步骤5中标签权重计算方法:在某一个实体下有相关的m个标签数据,则xij为第i个月第j个标签的数值;
异质标签同质化,把标签的绝对值转化为相对值,并令xij=|xij|,
计算第j项标签下第i个月占该标签的比重:
计算第j项标签的熵值:
计算信息熵冗余度:dj=1-ej;
计算各项标签的权值:
进一步地,所述步骤5中特征属性权重的计算方法为:计算得到该特征属性下的各种时间维度下的综合得分:
进一步地,所述实体抽取为基于bilstm+crf的方法进行抽取。
本发明具有如下优点:在从人物动态行为数据中抽取出的实体并进行归类统计的过程中,通过句子相似度进行实体类型分类,可以有效的加快实体分类的效率。特征属性和标签的动态增加也可以更好的描述人物画像,挖掘出人物更多特征。另外,通过标签以及特征属性的权重的计算可以更好从定量的角度的展示出人物特征以及偏好。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明方法执行流程图。
具体实施方式
本发明实体和属性动态聚合构造人物画像的方法,包括:
步骤1、在标签冷启动阶段,构建初始标签体系;
步骤2、从人物相关的动态行为数据中抽取时间和实体或实体属性,所述实体抽取为基于bilstm+crf的方法进行抽取;
步骤3、根据标签体系,将抽取的实体或实体属性进行聚合归类;
步骤4、根据时间维度对实体行为进行分析的统计类标签,以图数据模型持久化标签数据;
步骤5、计算每个实体的特征属性权重以及相应标签权重,
所述标签权重计算方法:在某一个实体下有相关的m个标签数据,则xij为第i个月第j个标签的数值;
异质标签同质化,把标签的绝对值转化为相对值,并令xij=|xij|,
计算第j项标签下第i个月占该标签的比重:
计算第j项标签的熵值:
计算信息熵冗余度:dj=1-ej;
计算各项标签的权值:
所述特征属性权重的计算方法为:计算得到该特征属性下的各种时间维度下的综合得分:
步骤6、根据每个特征属性权重以及相应标签权重绘制人物画像。
本发明计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
步骤1、在标签冷启动阶段,构建初始标签体系;
步骤2、从人物相关的动态行为数据中抽取时间和实体或实体属性,所述实体抽取为基于bilstm+crf的方法进行抽取;
步骤3、根据标签体系,将抽取的实体或实体属性进行聚合归类;
步骤4、根据时间维度对实体行为进行分析的统计类标签,以图数据模型持久化标签数据;
步骤5、计算每个实体的特征属性权重以及相应标签权重,
所述标签权重计算方法:在某一个实体下有相关的m个标签数据,则xij为第i个月第j个标签的数值;
异质标签同质化,把标签的绝对值转化为相对值,并令xij=|xij|,
计算第j项标签下第i个月占该标签的比重:
计算第j项标签的熵值:
计算信息熵冗余度:dj=1-ej;
计算各项标签的权值:
所述特征属性权重的计算方法为:计算得到该特征属性下的各种时间维度下的综合得分:
步骤6、根据每个特征属性权重以及相应标签权重绘制人物画像。
1.对人物相关的动态行为数据进行实体抽取,抽取出在某一时间点产生关系的实体(单一时间的实体是为了统计时间段内的实体数量)。
1.1.记录数据可以是结构化的数据和半结构化的数据,这些数据中记录了人物在某一时刻的某一行为,如xx在xx时间,在xx地方消费了xx商品,价格xx元。例子里的实体指代的就是所关注的某种商品。
2.构建初始的标签体系。
3.实体抽取。目前实体抽取的方法中深度学习的方法有着较好的精确度,而且相对于传统的序列标注的方法,如隐马尔可夫模型和条件随机场模型,深度学习不需要构建特征模板。因而,实体抽取基于bilstm+crf的方法进行抽取。
4.实体归类(将实体归纳到某个指标中。需要统计某一指标内实体的数量,因而需要进行归类)。按照各个维度的特征属性中的细分标签通过相似度计算匹配出相关实体,将实体按照标签进行归类(如特征属性为消费偏好内有奢侈品这一指标,像lv、名贵珠宝这些品牌实体都是属于奢侈品范畴的,就是通过计算品牌实体和奢侈品进行相似度分析其是否奢侈品)。这个步骤可以通过word2vec词嵌入向量实现。而这一步的准确率很大程度上要求在训练word2vec词嵌入模型的时候需要覆盖范围较广的语料库进行训练。
4.1.训练word2vec词嵌入模型需要进行分词与去停用词,将文本的分词结果存储在一个列表中,一行就代表一个文本。可以自定义训练的词特征维度数量。
4.2.词的相似度可以直接通过训练好的word2vec模型进行相似度比较,以python3为例,model.similarity(‘足球’,’运动’)则可以直接比较两个词的相似程度。可以设置阈值,如果相似程度超过该阈值并且相似度的值最大则认为是这个类别,这个阈值可设为0.5。
5.按时间段对标签(标签是指特征属性内的细分维度。比如某一特征属性为爱好,那么爱好内的运动、电影、绘画等都是指标)内的实体进行统计,统计标签所属实体出现的数量(即为xij)并进行存储。时间段可选取一年。
6.动态增加特征属性以及标签。
6.1标签的动态增加。设置相似度阈值,实体和标签的相似度高于该阈值则可归到特征属性的某个标签中,而具体归于哪个标签由相似度最高的标签决定。如果和特征属性的所有标签的相似度均低于相似度阈值,则可重新划分一个标签。可将不相似的实体进行重新聚类,根据聚类的结果对标签进行重新命名,并通过相似度计算所属特征属性。
6.2特征属性的增加可以采取6.1同样的做法。
6.3特征属性和标签的数量不能无限扩充,可根据实际业务需要进行限制。
7.计算特征属性和标签权重。
7.1.熵值法计算步骤:假设某一个人一年12个月,在某一个特征属性下有m个标签数据,则xij为第i个月第j个标签的数值。
7.2.标签的归一化处理:异质标签同质化,由于各项标签的计量单位并不统一,因此在用它们计算综合标签前,先要对它们进行标准化处理,即把标签的绝对值转化为相对值,并令xij=|xij|,从而解决各项不同质标签值的同质化问题。而且,由于正向标签和负向标签数值代表的含义不同(正向标签数值越高越好,负向标签数值越低越好),因此,对于高低标签我们用不同的算法进行数据标准化处理。
7.3.计算第j项标签下第i个月占该标签的比重:
7.4.计算第j项标签的熵值:
7.5.计算信息熵冗余度:
dj=1-ej
7.6.计算各项标签的权值:
7.7.计算得到该特征属性下的各个月份的综合得分:
7.8.将si代入xij中,按照步骤7.2至7.6进行计算每个特征属性的权重。
8.构成人物标签的就是各个特征属性,通过各个特征属性以及标签的权重绘制人物画像。可通过图谱对人物画像进行可视化,权重大的特征属性或者标签则图形大些,这样可以很直观的观察人物倾向偏好。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。