本发明涉及基于互联网应用服务技术领域,尤其涉及一种基于数据处理的用户画像自动生成方法和系统。
背景技术:
随着互联网爆炸式的发展,每天都在产生着大量数据,如何快速抓取信息并生成用户画像,也成了重要的课题。
在传统的方法中,需要对用户行为进行人工分类、判定,并在后期提供有针对性的服务或其它处理应对。在海量数据的场景下,数据往往维度多、数据量大,人工很难将用户行为相关的指标统计全面。此外,由于人会出现疲劳等情况,这种传统的人工识别的方法准确率并不高。
在互联网逐渐步入大数据时代后,用户的行为在服务商面前都将是可视化的。服务商的关注点日也开始益聚焦于怎样利用大数据来精准营销,进而深入挖掘潜在的商业价值。于是,“用户画像”的概念也就应运而生。大数据使得服务商能够通过互联网便利地获取用户更为广泛的反馈信息,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。伴随着对人的了解逐步深入,用户画像(userprofile)的概念应运而生,其用于通过用户标签抽象出用户的信息全貌,可以看作服务商应用大数据的根基。典型的用户画像是将用户信息标签化,就是服务商通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌,可以看作是服务商应用大数据技术的基本方式。
然而,目前,对用户标签的识别、用户画像的建立,主要还是通过人工干预和计算机简单处理转换的方式完成,存在有以下不足:1、耗时很长;2、人工成本高;3、生成的结果不够直观;4、信息录入有因人工导致的错误风险。
另外,过于依赖后台工作人员个人因素会导致得到的用户画像结果的差异性很大,而且也没有考虑到标签的时效性,会导致最终得到的用户画像不够精确。
在现有技术中,对用户行为进行分类和预测的方法较为单一,参考效果不理想。由于用户行为包括线上和线下行为,数据来源复杂,存在这样的需求:开发能够针对不同的数据来源、结合多种分类预测技术而综合判定和预测用户属性、并生成用户画像的方案。
技术实现要素:
考虑到现有技术的上述问题,发明人做出了本发明,本发明不需要用户上传图片,系统可以根据获取的大数据分析人物,大致勾画出人物画像并给出人物的幸运分,在人物画像的周围显示人物的智慧值,财力值,能力值,体力值等,用户也可以将人物画像分析分享给微信好友,好友可以打开并查看对方分享的人物剖析结果,经过授权后,同时可以查询自己的人物画像分析结果,从而有利于app推广和增加app的日活。
根据本发明的实施例,提供了一种基于数据处理的用户画像自动生成方法,其特征在于包括如下步骤:
步骤1、收集用户信息,所述用户信息包括用户的静态信息和行为信息;
步骤2、根据所收集的用户信息,生成所述用户的特定标签;
步骤3、根据预定规则,对所生成的标签进行量化,计算得到所述用户的属性值;
步骤4、根据计算出的所述用户的属性值,生成用户画像。
根据本发明的实施例,所述步骤3包括:
步骤3-1、将所述用户的各个标签量化为多个标准值;
步骤3-2、针对于所述用户的某个属性,对所述用户的部分标签的量化后的标准值对进行加权求和,生成所述用户的所述属性的属性值。
根据本发明的实施例,所述标签包括性别标签、学历标签、消费标签、运动标签、职位标签、购物标签、上网查阅标签、兴趣爱好标签、以及活动地方标签,
其中,所述用户画像显示量化值较高的标签、以及属性值。
根据本发明的实施例,如下计算所述属性值:
智慧值=学历标签×80%+购物标签×15%+其他类的标签占5%;
财力值=消费标签×60%+购物标签×30%+其他类标签占×5%;
能力值=职位标签×40%+学历标签×30%+消费标签×20%+其他标签×10%;
体力值=运动标签×50%+购物标签×20%+其他标签×30%;
其中,上述公式中的各个标签代表其量化后的标准值。
根据本发明的实施例,所述静态信息包括公共数据、以及机构内部的客户信息,所述包括人口属性、商业属性数据,
其中,人口属性包括:地域、年龄、性别、文化、职业、收入、生活习惯、消费习惯。
根据本发明的实施例,所述行为信息包括所述用户在网络或应用程序上的行为信息,包括用户的网站浏览行为信息、用户交易行为信息。
根据本发明的实施例,所述步骤1包括:
步骤1-1、对静态和行为信息数据进行预处理,根据预处理后的网络访问信息中获取用户在每个预设行为类别中的行为数据,使获取的同一类别的行为数据具有相同的格式。
根据本发明的实施例,在所述步骤4之后,在社交平台上,根据各个用户之间的评价权限,各个用户可给其它用户的属性进行打分,然后,后台系统根据打分情况,来对用户的属性值进行修正。
根据本发明的实施例,还提供了一种用于执行所述方法的用户画像自动生成系统,其包括:
用户信息收集模块,用于收集用户信息,所述用户信息包括用户的静态信息和行为信息;
用户信息分析模块,用于对用户信息进行分析,生成所述用户的特定标签;
用户属性计算模块,用于按照特定规则,对每种标签进行量化,再进行加权相加,获得用户的属性值;
用户画像生成模块,用于根据用户的标签和属性值,生成用户画像。
根据本发明的实施例,还提供了一种用于执行所述方法的基于数据处理的用户画像自动生成系统,其包括:
页面快照抓取模块,用于抓取所述应用的当前用户界面的页面快照;
唯一属性确定模块,用于通过遍历所提取的全部页面组件的所有属性的属性值,确定在当前用户界面中具有唯一性的属性,其中,各个页面组件的所述具有唯一性的组件属性的属性值互不相同;
组件属性保存模块,用于将各个组件的属性存储至所述共享文档中,所述共享文档中包括页面组件的属性表格,其中,所述共享文档可由测试人员访问,在各个版本迭代中,测试人员可以检查并更新各个页面组件的属性,并且,可通过各个页面组件的属性的唯一性,在所述共享文档中定位相应组件;
测试用例构建模块,用于根据具体测试用例确定与测试用例相关的用户界面中的页面组件,并查找与所述用户界面相关的共享文档,进一步确定所述用户界面中具有唯一性的组件属性,并通过所述具有唯一性的组件属性的属性值确定其所对应的页面组件,由此构建和/或更新与所确定的页面组件相关的测试用例。
根据本发明的实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有用于上述方法的程序,所述程序被处理器执行时,执行根据所述方法的步骤。
本发明的有益效果主要在于:
1、减少用户操作及提高用户体验;
2、增加趣味性,用户之间的互动可有助于进行产品的推广和增加产品的日活;
3、考虑到数据的不同来源,进行差异化的处理,提高了处理的精细度和准确度;
4、以用户画像作为参照信息,大大提高相关业务的办理速度;
5、能够根据样本数据来源的不同,选择不同的分类模型级联和/或并联,使得客户关系管理更加精准。
附图说明
图1为示出根据本发明的实施例的基于数据处理的用户画像自动生成方法的概念示意图;
图2为示出根据本发明的实施例的基于数据处理的用户画像自动生成方法的流程示意图;
图3为根据本发明的实施例的基于数据处理的用户画像自动生成系统的功能模块组成示意图;
图4为根据本发明实施例的安装了应用程序的系统的运行环境的示意图。
具体实施方式
下面,结合附图对技术方案的实施作进一步的详细描述。
本领域的技术人员能够理解,尽管以下的说明涉及到有关本发明的实施例的很多技术细节,但这仅为用来说明本发明的原理的示例、而不意味着任何限制。本发明能够适用于不同于以下例举的技术细节之外的场合,只要它们不背离本发明的原理和精神即可。
另外,为了避免使本说明书的描述限于冗繁,在本说明书中的描述中,可能对可在现有技术资料中获得的部分技术细节进行了省略、简化、变通等处理,这对于本领域的技术人员来说是可以理解的,并且这不会影响本说明书的公开充分性。
下文中,将描述用于进行本发明的实施例。注意,将以下面的次序给出描述:1、发明构思的概要(图1);2、基于数据处理的用户画像自动生成方法(图2);3、基于数据处理的用户画像自动生成系统(图3);4、根据本发明的实施例的安装了应用程序的系统(图4)。
1、发明构思的概要
如图1所示,本发明的构思主要包括以下方面。
一、大量数据收集
通过用户在网络或app上的行为记录,收集用户在网络上行为数据、用户信息、用户偏好记录、用户的交易数据等信息。
二、用户行为属性的分析
通过收集到的大量用户信息进行处理,通过机器学习对用户的行为、偏好进行猜测,同时也通过大概率事件将用户行为属性的信息划分为标签,再将标签通过算法得出用户的智慧值、财力值、能力值、体力值及魅力值等信息
三、用户立体画像的勾画
根据通过对用户行为属性分析划分的标签,按照标签提取,聚合分析后我们可以勾画出用户的立体画像,画像生成后可在周围展示其计算出的智慧值、财力值、能力值、体力值及魅力值。
四、画像的分享
生成画像后用户也可通过微信分享给好友,好友通过授权后可查看用户的画像值,并可给画像值打分。也可自己进行生成画像。增加用户与好友之间的互动。
下面,结合实施例来说明上述发明构思的实现。
2、基于数据处理的用户画像自动生成方法
图2为根据本发明的实施例的基于数据处理的用户画像自动生成方法的流程示意图。
如图2所示,本发明的实施例提供了一种基于数据处理的用户画像自动生成方法,主要包括以下步骤:
步骤s100、收集用户信息,所述用户信息包括用户的静态信息和行为信息;
步骤s200、对用户信息进行分析,生成所述用户的特定标签;
其中,所述标签可包括性别标签、学历标签、消费标签、运动标签、职位标签、购物标签、上网查阅标签、兴趣爱好标签以及活动地方标签,等等;
步骤s300、按照特定规则,对每种标签进行量化,再进行加权相加,获得用户的属性值;
例如,学历标签被可量化为六个档次,最高档次为100分,最少档次为16.67,其他标签类似;
再将标签通过算法得出用户的智慧值、财力值、能力值、体力值等信息,
每个属性值的算法如下:
智慧值=学历标签占80%+购物标签15%+其他类的标签占5%;
财力值=消费标签占60%+购物标签30%+其他类标签占10%;
能力值=职位标签占40%+学历标签占30%+消费标签占20%+其他类标签占10%;
体力值=运动标签占50%+购物标签占20%+其他标签占30%;
步骤s400、根据用户的标签和属性值,生成用户画像;
其中,用户画像包含量化分值较高的标签、以及属性值。
作为示例,所述静态信息是指用户相对稳定(不易随时间变化)的信息,其可包括公共数据(大数据)、或者机构内部的客户信息(用户注册的数据),例如,包括人口属性、商业属性等方面数据;
其中,人口属性包括:地域、年龄、性别、文化、职业、收入、生活习惯、消费习惯等;
其中,所述静态信息可直接对应于特定标签,例如,用户的性别可直接对应于标签“男性”或“女性”,用户的生育记录可对应于标签“妈妈”,等等。
其中,所述行为信息是指在网络或app上的行为信息,包括用户的网站浏览行为信息、用户交易行为信息,等等,
其中,用户浏览行为包括用户浏览的活跃频率、产品喜好、使用习惯等;
可选地,步骤s100包括:
s101、对静态和行为信息数据进行预处理(数据清洗、筛选),根据预处理后的网络访问信息中获取用户在每个预设行为类别中的行为数据,使获取的同一类别的行为数据具有相同的格式。
s102、根据行为信息确定用户的行为类别,如下:
计算用户行为数据在预设的各个维度上的属性;
根据用户行为数据的来源、以及与所述来源相对应的所述属性,选择相应的分类模型;
根据所选的分类模型,对用户行为数据进行分类。
在步骤s101中,为提取出每个类别的行为数据,可对该网络访问信息进行预处理。对网络访问信息的预处理包括对网络访问信息进行变量采集、变量区间处理、极大极小规则处理、缺失值处理和格式处理等;
变量采集为从网络访问信息中采集出用户每次网络访问的访问时间、登录时间、浏览信息、搜索信息以及购买信息等等,比如访问一个具体的电商网站时的访问时间、登录时间、浏览信息、搜索信息以及购买信息。服务器在采集出用户每次访问的访问时间、登录时间、浏览信息、搜索信息以及购买信息等信息时,可调用相关的累加器或计算器等对应统计出用户在预设时间段内的登录次数、购买次数、浏览次数和搜索次数、购买金额,等等。
变量区间处理为根据业务的规则为每个变量划定区间,并将划定的区间映射为具有业务指标,从而作为后续的数值输入,以计算用户行为熵等特征。例如,用户的上述次数登录次数、购买金额可分别被划分到多个区间中的一个,每个区间对应于具体数值,例如,与次数或金额相关的用户行为可对应于规范化的指标(0至100)。
极大极小的规则处理包括对所采集的网络访问信息所包含的数值大小的处理,以降低异常数据对用户的行为分类判断的干扰。具体的,可所对所采集的网络访问信息中的用户的年龄进行极大极小的规则处理。比如,对于年龄为-1、0、或999岁等等,明显不符合正常用户年龄的数据,对其进行极大极小规则处理。
缺失值处理是指所采集网络访问信息中包含的预设行为类别中的行为数据不存在时,可对其进行缺失值处理。如将其标记为“0”,或采用其它信息代替等等。比如,用户采用匿名访问或不登录用户名而直接访问相关的购物网站时,服务器所记录的用户的登录信息则缺失。服务器可对该类信息进行缺失值处理,如可获取用户的访问终端的唯一标识,将该唯一标识作为和用户的登录名进行关联。
格式处理包括对网络访问信息中包含的时间信息的格式的处理,使其格式保持相同。比如,对于所记录的用户的登录时间等时间信息,比如所记录到的时间信息包括20091011和2009-10-11以及2009年10月11日等形式,可将其全部转换成统一格式,如20091011。
作为示例,根据市场上已有的信息,设定一些用户行为作为基本固定标签。已设定的标签规则举例如下:
性别标签:性别标签很简单分为男性标签与女性标签,按照获取用户的行为信息去决定他是男性标签还是女性标签;
学历标签:学历标签分为初中及以下、高中、专科、本科、硕士、博士及以上不同档次;
消费标签:消费分为高档消费、中档消费、低档消费不同档次;
运动标签:运动分为散步、跑步、健身等不同档次;
购物标签:购物标签按照购买物进行区分,分为书籍类、衣服包包类、生活用品类、健身及运动器材类等等;
其他标签也类似做此区分。
针对于上述标签,作为示例,步骤s200包括:
s201、根据用户行为的类别,生成对应场景下的用户标签。
例如,用户对特定网站/网址的访问,表明用户对该网站所对应的特定内容/业务有兴趣、偏好、需求等等。由此可以生成用户在该网站(例如,购物网站)所对应的场景(例如,购物场景)下的用户标签(例如,“运动爱好者”),从而,对于同一用户,可在购物场景下生成并显示一系列对应标签,而在其他场景(例如,社交场景)下生成并显示另外一系列对应标签,从而使后续产生的用户画像具有多维特性,对于同一用户,可根据场景而呈现不同的用户画像。
此外,对用户有些比较复杂的行为,不能按照已设定的区分,可以将对这些行为进行大概率事件分析的模式进行归类。比如,如果获取的用户行为为用户即在高档购物广场中很贵的餐厅吃饭及购买名牌包包、同一天也在低档的大排档消费,则不好判定此用户属于消费标签中的哪一类,这时,可要按照大概率事件去处理,大概率计算公式如下:
p(a)=m/n。其中,“(a)”表示事件。“m”表示事件(a)发生的总数。“n”是总事件发生的总数。
若p大于50%以上,即设定为a事件为大概率事件,即将此类事件划分为到该标签的统计事件的范围中,即,所述标签的量化值取决于所关联的特定事件的发生情况。
可选地,在步骤s400之后,在社交平台上,所生成的用户画像可被公开或被发送给其它用户,其中,各个用户可根据相互之间的浏览权限而查看特定的用户画像;
作为示例,在步骤s400之后可包括:
步骤s500、根据各个用户之间的评价权限,用户可给其它用户的属性值进行打分,然后,后台系统可根据打分情况,来对用户的属性值进行修正;例如,通过对其他用户的打分值取一定权重(例如根据打分用户的数量取10~30%的权重),与当前的属性值进行加权求和,生成更新的属性值,从而进一步更新用户画像,其中,后台系统指运行本方法的系统,即,生成用户画像的系统。
3、基于数据处理的用户画像自动生成系统
图3为根据本发明的实施例的基于数据处理的用户画像自动生成系统的功能模块示意图。如该图所示,根据本发明的实施例,提供了一种基于数据处理的用户画像自动生成系统,其主要包括用户信息收集模块、用户信息分析模块、用户属性计算模块、用户画像生成模块。
其中,所述用户信息收集模块用于收集用户信息,所述用户信息包括用户的静态信息和行为信息;
所述用户信息分析模块用于对用户信息进行分析,生成所述用户的特定标签;
其中,所述标签可包括性别标签、学历标签、消费标签、运动标签、职位标签、购物标签、上网查阅标签、兴趣爱好标签以及活动地方标签,等等;
所述用户属性计算模块用于按照特定规则,对每种标签进行量化,再进行加权相加,获得用户的属性值;
例如,学历标签被可量化为六个档次,最高档次为100分,最少档次为16.67,其他标签类似;
再将标签通过算法得出用户的智慧值、财力值、能力值、体力值等信息,
每个属性值的算法如下:
智慧值=学历标签占80%+购物标签15%+其他类的标签占5%;
财力值=消费标签占60%+购物标签30%+其他类标签占5%;
能力值=职位标签占40%+学历标签占30%+消费标签占20%+其他类标签占10%;
体力值=运动标签占50%+购物标签占20%+其他标签占30%;
所述用户画像生成模块用于根据用户的标签和属性值,生成用户画像。
此外,本发明的不同实施例也可以通过软件模块或存储在一个或多个计算机可读介质上的计算机可读指令的方式实现,其中,所述计算机可读指令是当被处理器或设备组件执行时,执行本发明所述的不同的实施例。类似地,软件模块、计算机可读介质和硬件部件的任意组合都是本发明预期的。所述软件模块可以被存储在任意类型的计算机可读存储介质上,例如ram、eprom、eeprom、闪存、寄存器、硬盘、cd-rom、dvd等等。
4、根据本发明的实施例的安装了应用程序的系统
参照图4,其示出了根据本发明实施例的安装了应用程序的系统的运行环境。
在本实施例中,所述的安装应用程序的系统安装并运行于电子装置中。所述电子装置可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置可包括但不限于存储器、处理器及显示器。该图仅示出了具有上述组件的电子装置,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器在一些实施例中可以是所述电子装置的内部存储单元,例如该电子装置的硬盘或内存。所述存储器在另一些实施例中也可以是所述电子装置的外部存储设备,例如所述电子装置上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器还可以既包括所述电子装置的内部存储单元也包括外部存储设备。所述存储器用于存储安装于所述电子装置的应用软件及各类数据,例如所述安装应用程序的系统的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器在一些实施例中可以是中央处理单元(centralprocessingunit,cpu)、微处理器或其他数据处理芯片,用于运行所述存储器中存储的程序代码或处理数据,例如执行所述安装应用程序的系统等。
所述显示器在一些实施例中可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode,有机发光二极管)触摸器等。所述显示器用于显示在所述电子装置中处理的信息以及用于显示可视化的客户界面,例如应用菜单界面、应用图标界面等。所述电子装置的部件通过系统总线相互通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解,上述实施方式中的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件商品的形式体现出来,该计算机软件商品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明本申请各个实施例所述的方法。
也就是说,根据本发明的实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有用于执行根据本发明的实施例的所述方法的程序,所述程序被处理器执行时,执行所述方法的各个步骤。
由上,将理解,为了说明的目的,这里已描述了本发明的具体实施例,但是,可作出各个修改,而不会背离本发明的范围。本领域的技术人员将理解,流程图步骤中所绘出或这里描述的操作和例程可以多种方式变化。更具体地,可重新安排步骤的次序,可并行执行步骤,可省略步骤,可包括其它步骤,可作出例程的各种组合或省略。因而,本发明仅由所附权利要求限制。