用户画像分群方法和装置与流程

文档序号:12721378阅读:292来源:国知局
用户画像分群方法和装置与流程

本公开实施例涉及数据分析领域,具体地,涉及一种用户画像分群方法和装置。



背景技术:

用户画像分群对于网络营销环境的最大改变在于打破了数据孤岛并真实了解用户,能够将社交网络中的一个个独立用户关联起来并对其进行分组。目前的用户画像分群方法对参数的依赖性非常强,例如K-means算法对k的取值以及初始中心的向量选择的依赖性很大,这使得用户画像分群的结果不稳定。



技术实现要素:

本公开实施例的目的是提供一种用户画像分群方法和装置,能够得到稳定的用户画像分群结果。

为了实现上述目的,本公开实施例提供一种用户画像分群方法,该方法包括:

基于每个用户画像的标签构建标签网络G(V,E),其中V表示所述标签网络中的顶点集合,每个顶点表示一个用户画像,E表示所述标签网络中的边集合,每条边表示与拥有至少一个共同标签的两个用户画像相对应的两个顶点之间的连线;

基于所述标签网络构建线图网络G'(V',E',W'),其中,V'表示所述线图网络中的顶点集合,所述线图网络中的一个顶点表示所述标签网络中的一条边,E'表示所述线图网络中的边集合,所述线图网络中的每条边表示所述线图网络中与所述标签网络中有公共顶点的两条边相对应的两个顶点之间的连线,W'表示所述线图网络中的边的权值集合;

基于所述线图网络,对所述线图网络中的顶点进行社团划分;

将社团划分结果转换成用户画像分群结果。

可选地,所述线图网络中的边的权值通过以下步骤来计算:

计算所述标签网络中的边的权值;

基于所计算的所述标签网络中的边的权值,计算所述标签网络中每两条有公共顶点的边之间的相似度;

将所述线图网络中的每条边的权值设置为等于该边的两个顶点在所述标签网络中对应的两条边之间的相似度。

可选地,所述标签网络中的边的权值通过以下公式计算:

其中,i和j表示所述标签网络中的两个顶点,eij表示顶点i和j之间的边,wij表示边eij的权值。

可选地,所述相似度通过以下公式计算:

其中,i、j、k和m表示所述标签网络中的顶点,eik表示顶点i和k之间的边,ejk表示顶点j和k之间的边,边eik和ejk连接相同的顶点k,Ni表示由顶点i的所有邻居顶点构成的集合,且i∈Ni,Nj表示由顶点j的所有邻居顶点构成的集合,wim表示顶点i和m之间的边eim的权值,wjm表示顶点j和m之间的边ejm的权值。

可选地,所述将社团划分结果转换成用户画像分群结果,包括:

将所述线图网络中被划分到同一个社团的顶点所对应的所述标签网络中的顶点划分到同一个用户画像分群中。

本公开实施例还提供一种用户画像分群装置,该装置包括:

标签网络构建模块,用于基于每个用户画像的标签构建标签网络G(V,E),其中V表示所述标签网络中的顶点集合,每个顶点表示一个用户画像,E表示所述标签网络中的边集合,每条边表示与拥有至少一个共同标签的两个用户画像相对应的两个顶点之间的连线;

线图网络构建模块,用于基于所述标签网络构建线图网络G′(V′,E′,W′),其中,V′表示所述线图网络中的顶点集合,所述线图网络中的一个顶点表示所述标签网络中的一条边,E′表示所述线图网络中的边集合,所述线图网络中的每条边表示所述线图网络中与所述标签网络中有公共顶点的两条边相对应的两个顶点之间的连线,W′表示所述线图网络中的边的权值集合;

社团划分模块,用于基于所述线图网络对所述线图网络中的顶点进行社团划分;

转换模块,用于将社团划分结果转换成用户画像分群结果。

可选地,所述线图网络构建模块通过以下方式计算所述线图网络中的边的权值:

计算所述标签网络中的边的权值;

基于所计算的所述标签网络中的边的权值,计算所述标签网络中每两条有公共顶点的边之间的相似度;

将所述线图网络中的每条边的权值设置为等于该边的两个顶点在所述标签网络中对应的两条边之间的相似度。

可选地,所述线图网络构建模块通过以下公式计算所述标签网络中的边的权值:

其中,i和j表示所述标签网络中的两个顶点,eij表示顶点i和j之间的边,wij表示边eij的权值。

可选地,所述线图网络构建模块通过以下公式计算所述相似度:

其中,i、j、k和m表示所述标签网络中的顶点,eik表示顶点i和k之间的边,ejk表示顶点j和k之间的边,边eik和ejk连接相同的顶点k,Ni表示由顶点i的所有邻居顶点构成的集合,且i∈Ni,Nj表示由顶点j的所有邻居顶点构成的集合,wim表示顶点i和m之间的边eim的权值,wjm表示顶点j和m之间的边ejm的权值。

可选地,所述转换模块用于将所述线图网络中被划分到同一个社团的顶点所对应的所述标签网络中的顶点划分到同一个用户画像分群中。

通过上述技术方案,由于在用户画像分群的过程中并不需要任何的参数,而是仅基于用户画像的标签就能够进行用户画像分群,因此避免了分群结果对参数的依赖性,对于确定的一群标签化用户而言,能够得到稳定的用户画像分群结果。与现有的仅仅根据标签来人为划分用户群组的方法相比,能够大大减小人力成本。另外,通过基于线图网络进行社团划分,能够实现同一用户画像可能会被划分到不同的用户画像分群中的效果,从而使得用户画像分群更为准确。

本公开实施例的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开实施例,但并不构成对本公开实施例的限制。在附图中:

图1是根据本公开一种实施例的用户画像分群方法的流程图。

图2是根据本公开一种实施例构建的标签网络的示意图。

图3是根据本公开一种实施例构建的线图网络的示意图。

图4是根据本公开一种实施例的计算线图网络中的边的权值的流程图。

图5是根据本公开一种实施例的用户画像分群装置的示意框图。

具体实施方式

以下结合附图对本公开实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开实施例,并不用于限制本公开实施例。

根据本公开的一种实施例,提供一种用户画像分群方法,如图1所示,该方法可以包括以下步骤S101至S104。

在步骤S101中,基于每个用户画像的标签构建标签网络G(V,E),其中V表示所述标签网络中的顶点集合,每个顶点表示一个用户画像,E表示所述标签网络中的边集合,每条边表示与拥有至少一个共同标签的两个用户画像相对应的两个顶点之间的连线。

在营销网络或社交网络等中,通常希望分析某个指标数字背后的用户具备哪些特征——他们的人群属性、他们的行为特点,更重要的作用是发现产品问题的背后的原因,并从中发现产品有效改进提升的机会或方向,这就需要进行用户画像分群。

用户分群的“画像”,其焦点工作就是为用户群打“标签”,而标签通常是指人为规定的高度精炼的特征标识,如年龄、性别、地域、用户偏好(例如喜欢打篮球)等,最后将用户分群的所有标签综合来看,就可以勾勒出该用户群的立体“画像”了。

以下以A、B、C和D四个用户为例对步骤S101进行举例说明。

用户A被标识的标签包括a、b、c。用户B被标识的标签包括a、b、c、d。用户C被标识的标签包括b和c。用户D被标识的标签包括d。则基于用户A、B、C和D所拥有的标签构建的标签网络如图2所示。其中,在图2中,用户A、B、C、D被构建成标签网络的四个顶点,形成了顶点集合V;由于用户AC之间、用户BC之间、用户AB之间和用户BD之间分别具有共同的标签,因此它们之间分别有连线,形成了边集合E。

在步骤S102中,基于所述标签网络构建线图网络G′(V′,E′,W′),其中,V′表示所述线图网络中的顶点集合,所述线图网络中的一个顶点表示所述标签网络中的一条边,E′表示所述线图网络中的边集合,所述线图网络中的每条边表示所述线图网络中与所述标签网络中有公共顶点的两条边相对应的两个顶点之间的连线,W′表示所述线图网络中的边的权值集合。

仍然以图2所示的标签网络为例,基于图2所示的标签网络构建的线图网络如图3所示。

图3中的顶点AC、BC、AB和BD构成了顶点集合V′,顶点AC对应于图2所示标签网络中的边eAC,顶点BC对应于图2所示标签网络中的边eBC,顶点AB对应于图2所示标签网络中的边eAB,顶点BD对应于图2所示标签网络中的边eBD

由于图2所示的标签网络中的边eAC和eBC之间有公共顶点C,因此图3中的顶点AC(对应于图2中的边eAC)与顶点BC(对应于图2中的边eBC)之间的连线形成了图3中的一条边;由于图2所示的标签网络中的边eAC和eAB之间有公共顶点A,因此图3中的顶点AC(对应于图2中的边eAC)和顶点AB(对应于图2中的边eAB)之间的连线形成了图3中的另一条边;由于图2所示的标签网络中的边eBC和eAB之间有公共顶点B,因此图3中的顶点BC(对应于图2中的边eBC)和AB(对应于图2中的边eAB)之间的连线形成了图3中的又一条边;由于图2所示的标签网络中的边eBC和eBD之间有公共顶点B,因此图3中的顶点BC(对应于图2中的边eBC)和BD(对应于图2中的边eBD)之间的连线形成了图3中的再一条边;由于图2所示的标签网络中的边eAB和eBD之间有公共顶点B,因此图3中的顶点AB(对应于图2中的边eAB)和BD(对应于图2中的边eBD)之间的连线形成了图3中的再一条边,上述的边形成了线图网络中的边集合E′。

另外,图3所示的边上的数字表示该条边的权值,这些边权值构成了边权值集合W′。本领域技术人员应当理解的是,图3所示的边权值数值仅是示例。

在步骤S103中,基于所述线图网络,对所述线图网络中的顶点进行社团划分;

在步骤S104中,将社团划分结果转换成用户画像分群结果。

通过上述技术方案,由于在用户画像分群的过程中并不需要任何的参数,而是仅基于用户画像的标签就能够进行用户画像分群,因此避免了分群结果对参数的依赖性,对于确定的一群标签化用户而言,能够得到稳定的用户画像分群结果。与现有的仅仅根据标签来人为划分用户群组的方法相比,能够大大减小人力成本。另外,通过基于线图网络进行社团划分,能够实现同一用户画像可能会被划分到不同的用户画像分群中的效果,从而使得用户画像分群更为准确。

在一种可能的实施方式中,如图4所示,所述线图网络中的边的权值可以通过以下步骤S401至S403来计算。

在步骤S401中,计算所述标签网络中的边的权值。

例如,所述标签网络中的边的权值可以通过以下公式来计算:

其中,i和j表示所述标签网络中的两个顶点,eij表示顶点i和j之间的边,wij表示边eij的权值。

通过基于标签网络中的两个顶点之间拥有的共有标签的个数来计算这两个顶点之间的边的权值,能够使步骤S103中对线图网络中的顶点进行社团划分的结果更为准确和稳定。但是,本领域技术人员应当理解的是,所述标签网络中的边的权值可以采用任何其他算法(例如根据现有技术的权值计算算法)来计算,本公开对此不做限制。

在步骤S402中,基于所计算的所述标签网络中的边的权值,计算所述标签网络中每两条有公共顶点的边之间的相似度S。

仍然以图2所示的标签网络为例。由于边eAC和eBC之间有公共顶点C,边eAC和eAB之间有公共顶点A,边eBC和eAB之间有公共顶点B,边eBC和eBD之间有公共顶点B,边eAB和eBD之间有公共顶点B,因此需要计算边eAC和eBC之间的相似度S(AC,BC)、边eAC和eAB之间的相似度S(AC,AB)、边eBC和eAB之间的相似度S(BC,AB)、边eBC和eBD之间的相似度S(BC,BD)、边eAB和eBD之间的相似度S(AB,BD)。

另外,标签网络中每两条有公共顶点的边之间的相似度S可以通过以下公式来计算:

其中,i、j、k和m表示所述标签网络中的顶点,eik表示顶点i和k之间的边,ejk表示顶点j和k之间的边,边eik和ejk连接相同的顶点k,Ni表示由顶点i的所有邻居顶点构成的集合,且i∈Ni,Nj表示由顶点j的所有邻居顶点构成的集合,wim表示顶点i和m之间的边eim的权值,wjm表示顶点j和m之间的边ejm的权值。

其中,wim和wjm可以采用上述的公式(1)来计算。通过基于标签网络中两个顶点之间拥有的共有标签的个数来计算标签网络中每两条拥有公共顶点的边之间的相似度,能够使步骤S103中对线图网络中的顶点进行社团划分的结果更为准确和稳定。

仍然以图2所示的标签网络为例,对于顶点A的两条边AB和AC而言,顶点B的所有邻居顶点构成的集合为NB={A,B,C,D},顶点C的所有邻居顶点构成的集合为NC={A,B,C},则依据公式(2)计算可得边eAC和eAB之间的相似度为S(AB,AC)=15/16。

本领域技术人员应当理解的是,以上关于边相似度的计算公式仅是示例,任何其他计算相似度的算法都可以应用于本公开实施例中对边之间的相似度的计算。本公开实施例对边相似度的计算算法不做限制。

在步骤S403中,将所述线图网络中的每条边的权值设置为等于该边的两个顶点在所述标签网络中对应的两条边之间的相似度。

仍然以图2和图3为例进行说明。由于基于公式(2)计算的标签网络中的边eAC和eAB之间的相似度为S(AB,AC)=15/16,因此图3所示的线图网络中顶点AC与AB之间的边的权值为15/16。

通过步骤S401至S403,就能够使得线图网络中的边的权值与标签网络中两个顶点共有的标签数目相关联,因此使得步骤S103中对线图网络中的顶点进行社团划分的结果更为准确和稳定,进而使得用户画像分群的结果更为准确和稳定。

在一种可能的实施方式中,步骤S103中的所述基于所述线图网络对所述线图网络中的顶点进行社团划分,可以包括:利用社团划分算法对所述线图网络中的顶点进行社团划分。

本公开实施例对社团划分算法不做限制,例如其可以是凝聚方法(agglomerative method),也即添加边的算法,还可以是分裂方法(divisive method),也即移除边的算法。例如,本公开实施例所采用的社团划分算法可以是由Newman和Gievan提出的GN算法、还可以是标签传播算法(Label Propagation Algorithm,LPA)、Fast Unfolding算法、Kernighan-Lin算法、基于Laplace图特征值的谱二分法、K-means算法、基于相似度的三元社团合并算法(Ternary Community Merging Algorithm based on Similarity,STCMA)、基于三元社团的LPA算法(Label Propagation Algorithm based on Ternary Community,TCLPA)等等。

下面以利用标签传播算法来对所述线图网络中的顶点进行社团划分为例描述一下如何进行社团划分。

首先,在标签传播算法初始阶段,为线图网络中的每个顶点赋予一个独一无二的标识L,这个标识为线图网络中的顶点的初始标识值(例如可以是字符串类型的值)。然后,通过多轮迭代计算,通过社交关系(也即线图网络中的边)将线图网络中每个顶点的标识向其他顶点传播,其中,在每轮迭代计算过程中,线图网络中每个顶点根据接收到的来自邻居顶点(有边相连的顶点)的标识来决定自己此轮迭代应该赋予哪个标识,基本原则是:每个标识对应该顶点的一条边,统计同一标识对应的边的权值之和,选取权值之和最大的那个标识赋予自己;若存在两个及以上标识的权值之和相等,则从和最大的多个标识中随机选取一个标识赋予自己。由于每个顶点只保留一个标识,因此每轮迭代计算过程中线图网络中的每个顶点都需重新确认自身的标识。若多轮迭代计算后,绝大多数顶点的标识不再变化,则结束迭代。最后,拥有相同标识的顶点被划分在同一个社团(分组)中。

在一种可能的实施方式中,步骤S104中的所述将社团划分结果转换成用户画像分群结果,可以包括:将所述线图网络中被划分到同一个社团的顶点所对应的所述标签网络中的顶点划分到同一个用户画像分群中。也即线图网络中的顶点的社团划分可以被映射为标签网络中的边的社团划分,例如,如果线图网络中的顶点ij和nm被划分到同一用户画像分群中,则意味着标签网络中的边eij和边emn被划分到同一用户画像分群中,这样标签网络中的顶点(也即用户画像)i、j、m和n就被划分到同一用户画像分群中,这样就能够实现稳定准确的用户画像分群。由于标签网络中的一个顶点的多条边可能会被划分到不同的用户画像分群中,因此能够实现同一用户画像被划分到不同用户画像分群中的效果。

仍然以图2所示的标签网络和图3所示的线图网络为例进行说明。在对图3所示的线图网络进行社团划分之后,假设是将线图网络中的顶点AC和BC(也即标签网络中的边eAC和eBC)划分到同一用户画像分群X中,将线图网络中的顶点AB和BD(也即标签网络中的边eAB和eBD)划分到另一个用户画像分群Y中,则在将社团划分结果转换成用户画像分群结果之后,用户A、B和C被划分到了用户画像分群X中,用户A、B和D被划分到了用户画像分群Y中,这样,用户A和B就同时属于两个不同的用户画像分群X和Y。

根据本公开的另一实施例,提供一种用户画像分群装置,如图5所示,该装置可以包括:

标签网络构建模块501,用于基于每个用户画像的标签构建标签网络G(V,E),其中V表示所述标签网络中的顶点集合,每个顶点表示一个用户画像,E表示所述标签网络中的边集合,每条边表示与拥有至少一个共同标签的两个用户画像相对应的两个顶点之间的连线;

线图网络构建模块502,用于基于所述标签网络构建线图网络G′(V′,E′,W′),其中,V′表示所述线图网络中的顶点集合,所述线图网络中的一个顶点表示所述标签网络中的一条边,E′表示所述线图网络中的边集合,所述线图网络中的每条边表示所述线图网络中与所述标签网络中有公共顶点的两条边相对应的两个顶点之间的连线,W′表示所述线图网络中的边的权值集合;

社团划分模块503,用于基于所述线图网络对所述线图网络中的顶点进行社团划分;

转换模块504,用于将社团划分结果转换成用户画像分群结果。

通过上述技术方案,由于在用户画像分群的过程中并不需要任何的参数,而是仅基于用户画像的标签就能够进行用户画像分群,因此避免了分群结果对参数的依赖性,对于确定的一群标签化用户而言,能够得到稳定的用户画像分群结果。与现有的仅仅根据标签来人为划分用户群组的方法相比,能够大大减小人力成本。另外,通过基于线图网络进行社团划分,能够实现同一用户画像可能会被划分到不同的用户画像分群中的效果,从而使得用户画像分群更为准确。

在一种可能的实施方式中,所述线图网络构建模块502可以通过以下方式计算所述线图网络中的边的权值:计算所述标签网络中的边的权值;基于所计算的所述标签网络中的边的权值,计算所述标签网络中每两条有公共顶点的边之间的相似度;将所述线图网络中的每条边的权值设置为等于该边的两个顶点在所述标签网络中对应的两条边之间的相似度。

其中,所述线图网络构建模块502可以通过以下公式计算所述标签网络中的边的权值:

其中,i和j表示所述标签网络中的两个顶点,eij表示顶点i和j之间的边,wij表示边eij的权值。

其中,所述线图网络构建模块502可以通过以下公式计算所述相似度:

其中,i、j、k和m表示所述标签网络中的顶点,eik表示顶点i和k之间的边,ejk表示顶点j和k之间的边,边eik和ejk连接相同的顶点k,Ni表示由顶点i的所有邻居顶点构成的集合,且i∈Ni,Nj表示由顶点j的所有邻居顶点构成的集合,wim表示顶点i和m之间的边eim的权值,wjm表示顶点j和m之间的边ejm的权值。

在一种可能的实施方式中,所述转换模块504可以用于将所述线图网络中被划分到同一个社团的顶点所对应的所述标签网络中的顶点划分到同一个用户画像分群中。

根据本公开实施例的用户画像分群装置中各个模块所执行的操作的具体实现方式已经在根据本公开实施例的用户画像分群方法中进行了详细描述,此处不再赘述。

以上结合附图详细描述了本公开实施例的优选实施方式,但是,本公开实施例并不限于上述实施方式中的具体细节,在本公开实施例的技术构思范围内,可以对本公开实施例的技术方案进行多种简单变型,这些简单变型均属于本公开实施例的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开实施例对各种可能的组合方式不再另行说明。

此外,本公开实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开实施例的思想,其同样应当视为本公开实施例所公开的内容。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1