内容分类对应的描述性标签属性;
[0020]评估临时用户画像的成熟度,当达到成熟时采用临时用户画像替代原来的用户画像。
[0021]优选的是,计算有效时间期限内的用户行为和/或内容与用户画像中根据行为分类和/或内容分类生成的描述性标签属性的匹配度的步骤具体包括:将有效时间期限内的用户行为和/或内容归入对应的行为分类和/或内容分类的最底层类目;比较该最底层类目是否属于与描述性标签属性相对应的行为分类和/或内容分类的最底层类目,若属于则计入最大分值;若该最底层类目不属于与描述性标签属性相对应的行为分类和/或内容分类的最底层类目,则进一步判断该最底层类目是否与描述性标签属性相对应的行为分类和/或内容分类的最底层类目从属于同一个上级类目,若从属于同一个上级类目则计入中间分值;若该最底层类目不属于与描述性标签属性相对应的行为分类和/或内容分类的任何一级类目,则计入零分值;将所有分值求和作为所述匹配度。
[0022]优选的是,当所述匹配度大于阈值的情况下,首先统计有效时间期限内的用户行为和/或内容在行为分类和/或内容分类中的分布,进而根据统计结果更新用户画像中根据行为分类和/或内容分类生成的描述性标签属性,再使所述临时用户画像继承用户画像中根据行为分类和/或内容分类生成的描述性标签属性。
[0023]优选的是,评估临时用户画像的成熟度的具体步骤包括:提取最近若干个临时用户画像,比较其中最新的临时用户画像与其它临时用户画像中非从用户画像继承的描述性标签属性的重合率,当平均重合率大于重合阈值时则认为最新的临时用户画像达到成熟。
[0024]优选的是,应用所述临时用户画像进行用户偏好分析以及信息和/或服务提供。
[0025]本发明进而提供了一种基于大数据的用户画像管理系统,其特征在于,包括:
[0026]用户画像提供模块,用于根据在先积累的用户数据建立包括描述性标签属性的用户画像;
[0027]临时用户画像建立模块,用于建立临时用户画像;所述临时用户画像从所述用户画像中继承根据自然分类生成的描述性标签属性;
[0028]用户数据接口,获得有效时间期限内的用户行为和/或内容;
[0029]匹配度判断模块,用于判断有效时间期限内的用户行为和/或内容与用户画像中根据行为分类和/或内容分类生成的描述性标签属性的匹配度;
[0030]临时用户画像更新模块,当所述匹配度大于阈值的情况下,所述临时用户画像更新模块使所述临时用户画像继承用户画像中根据行为分类和/或内容分类生成的描述性标签属性;当匹配度小于阈值的情况下,临时用户画像更新模块统计有效时间期限内的用户行为和/或内容在行为分类和/或内容分类中的分布,在临时用户画像中生成与行为分类和/或内容分类对应的描述性标签属性;
[0031]用户画像更新模块,用于评估临时用户画像的成熟度,当达到成熟时采用临时用户画像替代原来的用户画像。
[0032]优选的是,所述匹配度判断模块计算有效时间期限内的用户行为和/或内容与用户画像中根据行为分类和/或内容分类生成的描述性标签属性的匹配度具体包括:将有效时间期限内的用户行为和/或内容归入对应的行为分类和/或内容分类的最底层类目;比较该最底层类目是否属于与描述性标签属性相对应的行为分类和/或内容分类的最底层类目,若属于则计入最大分值;若该最底层类目不属于与描述性标签属性相对应的行为分类和/或内容分类的最底层类目,则进一步判断该最底层类目是否与描述性标签属性相对应的行为分类和/或内容分类的最底层类目从属于同一个上级类目,若从属于同一个上级类目则计入中间分值;若该最底层类目不属于与描述性标签属性相对应的行为分类和/或内容分类的任何一级类目,则计入零分值;将所有分值求和作为所述匹配度。
[0033]优选的是,当所述匹配度大于阈值的情况下,用户画像更新模块首先统计有效时间期限内的用户行为和/或内容在行为分类和/或内容分类中的分布,进而根据统计结果更新用户画像中根据行为分类和/或内容分类生成的描述性标签属性,临时用户画像更新模块再使所述临时用户画像继承用户画像中根据行为分类和/或内容分类生成的描述性标签属性。
[0034]优选的是,用户画像更新模块评估临时用户画像的成熟度的具体包括:提取最近若干个临时用户画像,比较其中最新的临时用户画像与其它临时用户画像中非从用户画像继承的描述性标签属性的重合率,当平均重合率大于重合阈值时则认为最新的临时用户画像达到成熟。
[0035]优选的是,所述用户画像管理系统还包括:画像应用模块,用于应用所述临时用户画像进行用户偏好分析以及信息和/或服务提供。
[0036]通过本发明,能够实现根据用户行为和/或内容数据对用户画像的有效维护,特别是在用户行为和/或内容发生阶越式突变的情况下,利用临时用户画像可以匹配有效时间内用户的行为和内容偏好,并且实现对用户画像的选择性继承;通过评估临时用户画像成熟度,加快用户画像更新,在阶越式突变的情况下能够快速淘汰分布统计规律上占有优势但已经不符合用户当前内容和行为的累积数据的影响。
[0037]说明书附图
[0038]图1是本发明优选实施例的方法流程示意图;
[0039]图2是本发明优选实施例的系统结构示意图。
【具体实施方式】
[0040]下面通过实施例,对本发明的技术方案做进一步具体的说明。
[0041]参见图1所示的流程图,本发明所述的基于大数据的用户画像建立方法,包括以下步骤:
[0042]首先,步骤101中,根据在先积累的用户数据建立包括描述性标签属性的用户画像。用户通过用户设备UT(如智能手机、电脑、个人数字终端)联网接入到由一个或者多个服务提供商所提供的网页或者APP等网络服务,例如新闻客户端、微博、网上购物网站、电子机票平台、旅店预定网站、在线音乐播放器等等。在使用这些网络服务过程中,首先用户的访问本身以及输入信息、点击链接、通过交互界面操作实现例如加关注、取消关注、打分、保存为书签、加入购物车、取出购物车、形成订单、取消订单、付款、退款等等交互操作的用户行为都可在得到授权的前提下由用户设备采集和记录,并进行定量的统计,从而形成行为数据。用户所加关注的微博ID、用户打分的歌曲、用户保存为书签的网页上的内容、用户加入购物车或者形成订单的商品等等则会被保存或提炼形成内容数据。自然数据表示包括用户性别、年龄等用户自身固有的属性,可以在用户注册等环节中向用户收集。
[0043]系统以日志文件或数据流的形式获得用户全部的行为数据与内容数据;对于非实时性的应用需求,可以按日或更长的时间周期向大数据系统导入较大规模的用户日志文件,文件大小可达到数个GB量级;对于实时性应用需求,则系统以数据流的方式动态不间断采集当前正在发生的用户行为和/或内容数据;而对于介于实时性和非实时性之间的应用需求,可以以较高的频率向大数据系统提供MB级别的用户日志文件,一般数分钟就向系统提供一次。
[0044]通过将用户的自然数据、行为数据和内容数据归入分类体系中的类目,并统计这些数据在类目中的分布,建立描述性标签属性构成的用户画像。