本技术属于大数据领域,具体涉及一种用户筛选方法、装置及计算机可读存储介质。
背景技术:
1、本部分旨在为权利要求书中陈述的本技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
2、在大数据和人工智能的飞速发展下,智能营销是基于大数据精准定位、通过数字化媒体渠道触达用户的新营销模式。智能营销中较为重要的步骤为在众多用户中筛选重要用户,针对重要用户进行营销,可以获得较好的营销效果,在一定程度上可以提升智能营销的转化效果和实施效率。
3、相关技术中,对于用户的筛选主要采用了以下方法:一是基于专家规则和业务目标来选择对应的年龄、性别、消费偏好等画像标签来确定投放人群,将对筛选人群进行投放测试,筛选重要性较高的用户,这种方法需要进行长期的测试,依赖业务经验及需要长期测试,稳定性较差且无法进行迭代优化。二是基于种子用户的基本特征,使用机器学习训练模型,对于模型评分高的用户进行营销投放。但通过用户的基本特征筛选的重要用户的方法准确性较低。
4、因此,如何使得筛选的重要用户准确性更高是一个亟待解决的问题。
5、申请内容
6、针对上述现有技术中存在的问题,提出了一种用户筛选方法、装置及计算机可读存储介质,利用这种方法、装置及计算机可读存储介质,能够解决上述问题。
7、本技术提供了以下方案。
8、第一方面,本技术实施例提供了一种用户筛选方法,包括:
9、根据实体集合中实体的实体属性和实体之间的关系生成知识图谱网络;实体包括用户、银行、银行卡、商户和商圈;实体属性包括用户属性、银行属性、银行卡属性、商户属性和商圈属性中的至少一种;实体之间的关系包括银行卡与用户之间的持有关系、银行与银行卡之间的归属关系、银行卡与商户之间的交易关系、商户与商圈之间的归属关系中的至少一种;
10、挖掘知识图谱网络中的关联特征;关联特征包括两个实体之间的关联性、多个实体之间的关联关系和单个实体的中心性中的至少一项;
11、将知识图谱中的关联特征输入训练后的机器学习算法模型,获得实体集合中的重要用户。
12、在一些可能的实施例中,关联特征为所述两个实体之间的关联性,挖掘知识图谱网络中的关联特征,包括:
13、根据实体集合中的两个实体在知识图谱网络之间的共同邻居节点的数量,确定两个实体之间的关联性。
14、在一些可能的实施例中,关联特征为所述两个实体之间的关联性,两个实体分别为第一实体和第二实体,挖掘知识图谱网络中的关联特征,包括:
15、根据实体集合中的第一实体和第二实体在知识图谱网络之间的共同邻居节点的数量和共同邻居节点对应的边权重、第一实体的邻居节点的数量和第一实体的邻居节点对应的边权重、第二实体的邻居节点的数量和第二实体的邻居节点对应的边权重,确定第一实体和第二实体之间的关联性。
16、在一些可能的实施例中,第一实体和第二实体之间的关联性j(u,v)为:
17、
18、其中,u为第一实体对应的节点;v为第二实体对应的节点;n(u)和n(v)分别表示与节点u和v相连的邻居节点集合。|n(u)∩n(v)|表示节点u和v共同的邻居节点数量。|n(u)∪n(v)|表示节点u和v总共的邻居节点数量。l(n(u)∩n(v))表示节点u和v共同邻居节点的边权重之和。l(n(u)∪n(v))表示节点u和v总共邻居节点的边权重之和。
19、在一些可能的实施例中,关联特征为多个实体之间的关联关系,挖掘知识图谱网络中的关联特征,包括:
20、以知识图谱网络的模块度最高为目标,将实体集合分为多个实体子集合;
21、模块度指示在同一个实体子集合中实体的关联性。
22、在一些可能的实施例中,模块度可以根据下述公式进行计算:
23、
24、其中,u和v均为实体在知识图谱网络对应的节点;l(u,v)表示节点u和节点v之间的边权重之和;l(u)表示节点u与其他节点的边权重之和;l(v)表示节点v与其他节点的边权重之和;l_sum表示知识图谱网络中所有边的权重之和;如果节点u和节点v属于同一个社区,δ(cu,cv)取值为1;否则,δ(cu,cv)取值为0。
25、在一些可能的实施例中,关联特征为多个实体之间的关联关系,挖掘知识图谱网络中的关联特征,包括:
26、通过标签传播算法将实体集合分为多个实体子集合,多个实体子集合的标签一致。
27、在一些可能的实施例中,关联特征为单个实体的中心性,挖掘知识图谱网络中的关联特征,包括:
28、使用度中心性算法、影响力最大化算法或网页排名算法确定知识图谱网络中实体的中心性。
29、在一些可能的实施例中,使用网页排名算法确定知识图谱网络中实体的中心性pr(u),可以通过如下公式计算:
30、
31、其中,u和v均为实体在知识图谱网络对应的节点;pr(u)表示节点u的pagerank值;d为阻尼因子,用于平衡随机跳跃和按链接传播的概率;pr(v)为指向节点u的节点v的pagerank值;cout(v)为节点v的出度,即指向其他节点的边数量;l(v)表示节点v指向其他节点边的权重值。
32、在一些可能的实施例中,还包括:提取知识图谱网络中的数据,并将提取后的数据存入知识图谱数据库中;
33、挖掘知识图谱网络中的关联特征,包括:根据知识图谱数据库中的数据挖掘知识图谱网络中的关联特征。
34、在一些可能的实施例中,将知识图谱中的关联特征输入训练后的机器学习算法模型,获得实体集合中的重要用户,包括:
35、将知识图谱中的关联特征和用户特征输入训练后的机器学习算法模型,获得实体集合中的重要用户;用户特征包括人口属性、地域属性、用卡属性、消费能力和消费场景中的至少一种;人口属性包括性别、年龄、职业和学历中的至少一种;用卡属性包括持有银行卡的数量、持有银行卡的等级、持有银行卡的性质和持有银行卡的所属银行中的至少一种。
36、在一些可能的实施例中,该方法还包括通过训练数据中实体的实体属性和实体之间的关系生成训练知识图谱网络;
37、挖掘训练知识图谱网络中的关联特征;
38、根据训练知识图谱中的关联特征和训练数据中的用户特征训练机器学习算法模型;训练后的机器学习算法模型用于获得实体集合中的重要用户;用户特征包括人口属性、地域属性、用卡属性、消费能力和消费场景中的至少一种;人口属性包括性别、年龄、职业和学历中的至少一种;用卡属性包括持有银行卡的数量、持有银行卡的等级、持有银行卡的性质和持有银行卡的所属银行中的至少一种。
39、在一些可能的实施例中,知识图谱网络中的关联特征,还用于获得商户和商户之间的关联性,或商户和用户之间的关联性。
40、第二方面,本技术提供了一种用户筛选装置,包括:
41、生成模块,用于根据实体集合中实体的实体属性和实体之间的关系生成知识图谱网络;实体包括用户、银行、银行卡、商户和商圈;实体属性包括用户属性、银行属性、银行卡属性、商户属性和商圈属性中的至少一种;实体之间的关系包括银行卡与用户之间的持有关系、银行与银行卡之间的归属关系、银行卡与商户之间的交易关系、商户与商圈之间的归属关系中的至少一种;
42、挖掘模块,用于挖掘知识图谱网络中的关联特征;关联特征包括两个实体之间的关联性、多个实体之间的关联关系和单个实体的中心性中的至少一项;
43、输入模块,用于将知识图谱中的关联特征输入训练后的机器学习算法模型,获得实体集合中的重要用户。
44、在一些可能的实施例中,关联特征为所述两个实体之间的关联性,两个实体分别为第一实体和第二实体,挖掘模块具体用于:
45、根据实体集合中的第一实体和第二实体在知识图谱网络之间的共同邻居节点的数量和共同邻居节点对应的边权重、第一实体的邻居节点的数量和第一实体的邻居节点对应的边权重、第二实体的邻居节点的数量和第二实体的邻居节点对应的边权重,确定第一实体和第二实体之间的关联性。
46、在一些可能的实施例中,关联特征为多个实体之间的关联关系,挖掘模块具体用于:
47、以知识图谱网络的模块度最高为目标,将实体集合分为多个实体子集合;
48、模块度指示在同一个实体子集合中实体的关联性。
49、在一些可能的实施例中,关联特征为单个实体的中心性,挖掘模块具体用于:
50、使用度中心性算法、影响力最大化算法或网页排名算法确定知识图谱网络中实体的中心性。
51、第三方面,本技术提供了一种用户筛选装置,包括:
52、至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的用户筛选方法。
53、第四方面,本技术提供了一种计算机可读存储介质,计算机可读存储介质存储有程序,当程序被多核处理器执行时,使得多核处理器执行上述的用户筛选方法。
54、由此可知,本技术提供的用户筛选方法通过多种实体的实体属性和实体之间的关系构成知识图谱网络,并深度挖掘知识图谱网络中的关联特征。通过知识图谱网络中的关联特征,可以获得多种实体之间更多的潜在关系,从而使得本技术中的机器学习算法模型可以学习到更多特征与重要用户之间的映射关系,使得本技术实施例的用户筛选方法筛选得到的重要用户的准确性更高。
55、本技术的其他优点将配合以下的说明和附图进行更详细的解说。
56、应当理解,上述说明仅是本技术技术方案的概述,以便能够更清楚地了解本技术的技术手段,从而可依照说明书的内容予以实施。为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举例说明本技术的具体实施方式。
技术实现思路