一种基于大数据的用户画像建立方法和用户画像管理系统的制作方法
【技术领域】
[0001]本发明涉及网络数据分析与处理领域,尤其涉及一种基于大数据的用户画像建立方法和用户画像管理系统。
【背景技术】
[0002]大数据技术是以任何系统的全部数据资源为对象并从中发现数据之间表现的相关性关系的信息处理技术,目前已经广泛应用于互联网的流程优化、目标化消息及广告推送、用户个性化服务与改善等方面,成为了网络服务背后强大的后台支撑。
[0003]用户画像是大数据技术的重要应用,其目标是在很多的维度上建立针对用户的描述性标签属性,从而利用这些标签属性对用户多方面的真实个人特征进行勾勒,进而,可以利用用户画像发掘用户需求,分析用户偏好,并通过匹配用户画像提供给用户更高效和更有针对性的信息输送以及更贴近个人习惯的用户体验。
[0004]建立用户画像的数据源是与用户相关的全部数据,对与用户相关的全部数据按照封闭的分类体系进行归类,所谓封闭的分类体系是指该体系中的分类类目是有限的并且是封闭的。将用户数据归入封闭的分类体系当中的分类类目,通过数据的不断积累和归入,可以求得数据在分类类目当中分布的统计规律,并将统计规律对应为描述性标签属性。
[0005]用于建立用户画像的数据包括自然数据、行为数据以及内容数据。自然数据表示包括用户性别、年龄等用户自身固有的属性,可以在用户注册等环节中向用户收集。行为数据描述用户所执行的行为,包括访问次数、访问频度、访问停留时间、操作活跃时间、信息输入、用点击链接、交互操作(如加关注、取消关注、打分、保存为书签、加入购物车、取出购物车、形成订单、取消订单、付款、退款等等)。内容数据表示用户行为的对象,例如用户所加关注的微博ID、用户打分的歌曲、用户保存为书签的网页上的内容、用户加入购物车或者形成订单的商品等等。在需要的情况下,会提取原始内容的关键要素作为内容数据,来代表用户行为针对的内容;例如,用户把关于某支乐队即将在I月I日在上海闵行区某体育场举办摇滚演唱会的网页加为书签,则可以提取乐队名称、上海以及演唱会作为关键要素标签,来代表用户加为书签这一行为对应的内容。
[0006]封闭的分类体系具有从最高级别的主分类和其下若干个更低级别的子分类直至最低级别的等级划分。与数据包括自然数据、行为数据以及内容数据相对应,分类体系也包括自然分类、行为分类和内容分类三个方面。例如,关于年龄的自然分类可以包括儿童、少年、青年、中年、中老年、老年等主分类的类目,在青年这个类目下又可以划分为18-25岁、25-30岁、30-35岁等子分类的类目。对于行为分类,以用户对网站或网络服务每次的访问停留时间为例,可以分为短暂停留、普通停留、长时间停留等主分类类目,在长时间停留类目下又包括停留1-1.5小时、停留1.5-2.5小时、停留2.5小时以上等子分类级别的类目。对于内容分类,由于网络信息环境中存在海量的内容,可以采用更多级别和类目进行归类,并且可以将同一个内容同时归类到不同的类目之下,例如某支乐队即将在I月I日在上海举办演唱会的网页内容,可以归入“艺术-音乐-摇滚-X乐队”的类目,也可以同时归入“上海-闵行-某体育场”的类目。
[0007]描述性标签属性代表了用户数据长期的积累过程中在从主分类到子分类各个类目当中呈现的分布统计规律。例如,根据用户自然分类生成关于用户性别、年龄等自身固有属性的描述性标签属性;用户在对网站或网络服务长期和反复访问过程中,将每次的访问停留时间的记录归入上面介绍的类目,通过积累达到大数据的规模,即可以统计用户的访问停留时间在各个类目中分布的规律,例如如果用户的访问停留时间记录70%以上分布在“长时间停留”下的“停留2.5小时以上”类目,则可以为该用户加上“深度使用用户”的描述性标签属性。相类似的,如果用户浏览、关注的内容记录中,归入“艺术-音乐-摇滚-X乐队”类目的内容记录超过一定阈值,则可以将“音乐”、“摇滚”、“X乐队”作为该用户的描述性标签属性。
[0008]因此,当用户数据达到足够的密集程度之后,用户的描述性标签属性会表现为较高的稳定性,也正是通过这种稳定性与用户长期形成的真实个人特征达到了匹配。但是,以上方法也存在灵活变化的适应能力不足的问题,特别是不能适应用户数据发生阶越式突变的情况。
[0009]例如,用户是主要从事家用汽车零部件销售的人员,因此其出于工作需要进行网络浏览、输入关键词等行为主要集中在与汽车零部件相关的内容。然而,如果该用户近期内转为从事建筑工程机械的零部件,则近期的浏览与关键词输入就会突变为与建筑工程机械的零部件相关的内容。但是,将用户画像的描述性标签属性从汽车零部件转为建筑工程机械的零部件并不会由此而立即实现,仍然需要很长过程的积累,直至在与建筑工程机械的零部件对应的子分类下积累了比原来的汽车零部件更多的数据,从而体现出来更强的统计规律性。在转换期间,系统仍然会基于汽车零部件的描述性标签属性而对用户提供这方面的推送或者广告,显然这已经脱离了用户真实的关注。
[0010]现有技术中为了缓解上述问题所采取的手段是根据发生时间的先后为用户数据分配权重,发生时间距离现在越近的用户数据在统计分布规律时所具有的权重越大,发生时间距离现在越远的用户数据在统计分布规律时所具有的权重越小,这样能够加快将体现用户当前阶段真实特征的用户数据转化为描述性标签属性的进程。
[0011]然而,当用户在先积累的用户数据在分布统计规律上的优势过于明显的时候,单纯依靠上述权重调整仍然不能够快速及时实现描述性标签属性与当前用户数据特征的匹配。因而,用户画像更新的滞后性成为了本领域一个难以解决的问题。
【发明内容】
[0012]鉴于上述现有技术中存在的以上缺陷,本发明提出一种基于大数据的用户画像建立方法和用户画像管理系统。本发明利用有效时间期限内的用户行为和/或内容建立一个临时用户画像,并且使该临时用户画像从用户画像当中继承与有效时间期限内的用户行为和/或内容相匹配的描述性标签属性,而当有效时间期限内的用户行为和/或内容与用户画像的描述性标签属性不匹配时,则在临时用户画像中新建描述性标签属性。评估临时用户画像的成熟度,当足够成熟时采用临时用户画像替代原来的用户画像。
[0013]本发明所述的基于大数据的用户画像建立方法,其特征在与,包括以下步骤:
[0014]根据在先积累的用户数据建立包括描述性标签属性的用户画像;
[0015]建立临时用户画像;所述临时用户画像从所述用户画像中继承根据自然分类生成的描述性标签属性;
[0016]获得有效时间期限内的用户行为和/或内容;
[0017]判断有效时间期限内的用户行为和/或内容与用户画像中根据行为分类和/或内容分类生成的描述性标签属性的匹配度;
[0018]当所述匹配度大于阈值的情况下,使所述临时用户画像继承用户画像中根据行为分类和/或内容分类生成的描述性标签属性;
[0019]当匹配度小于阈值的情况下,统计有效时间期限内的用户行为和/或内容在行为分类和/或内容分类中的分布,在临时用户画像中生成与行为分类和/或