回流用户预测模型建立方法、装置及电子设备、存储介质与流程

文档序号:28263875发布日期:2021-12-31 17:37阅读:180来源:国知局
回流用户预测模型建立方法、装置及电子设备、存储介质与流程

1.本技术涉及网络通信技术领域,尤其涉及回流用户预测模型建立方法、装置及电子设备、存储介质。


背景技术:

2.随着通信行业的发展,客户选择通信运营商的余地越来越大。在市场趋于饱和的情况下,发展新客户的成本远大于挽回客户的成本。为了获得更多的市场占有率,挽回流失客户是运营商的重要营销策略。因此,如何从海量的流失客户中,对回流倾向较大的客户进行精准预测定位并对流失客户进行挽回是当前重要的课题。
3.现有技术中,针对在已经流失的用户的挽回方式,主要是根据已流失的用户特征进行统计分析,对符合统计结果符合预设的标准的用户确定为回流倾向较大的客户,然后上述的对回流倾向较大的用户定位不够精确,从而导致对用户进行挽回的营销资源浪费。


技术实现要素:

4.本技术实施例提供一种回流用户预测模型建立方法、装置及电子设备、存储介质,以改善上述的对回流倾向较大的用户定位不够精确的问题。
5.第一方面,本技术实施例提供了一种回流用户预测模型建立方法,包括:
6.采集预先被标识有回流标签的用户在多个维度下的表征用户上网属性的特征字段集合;
7.对多个维度下的表征用户上网属性的特征字段集合进行优化处理,得到有效的特征字段集合;
8.将每个被标识有回流标签的用户对应的有效的特征字段集合作为训练样本输入训练网络模型中训练,以建立回流用户预测模型。
9.第二方面,本技术实施例还提供了一种回流用户预测模型建立装置,包括:
10.数据采集单元,被配置成采集预先被标识有回流标签的用户在多个维度下的表征用户上网属性的特征字段集合;
11.数据处理单元,被配置成对多个维度下的表征用户上网属性的特征字段集合进行优化处理,得到有效的特征字段集合;
12.模型建立单元,被配置成将每个被标识有回流标签的用户对应的有效的特征字段集合作为训练样本输入训练网络模型中训练,以建立回流用户预测模型。
13.第三方面,本技术实施例还提供了一种电子设备,包括:
14.处理器;
15.用于存储所述处理器可执行指令的存储器;
16.其中,所述处理器被配置为执行所述指令,以实现如本技术实施例第一方面所述的回流用户预测模型建立方法。
17.第四方面,本技术实施例还提供了一种存储介质,当所述存储介质中的指令由电
子设备的处理器执行时,使得电子设备能够执行如本技术实施例第一方面所述的回流用户预测模型建立方法。
18.本技术实施例采用的上述至少一个技术方案能够达到以下有益效果:通过采集预先被标识有回流标签的用户在多个维度下的表征用户上网属性的特征字段集合;然后对多个维度下的表征用户上网属性的特征字段集合进行优化处理,得到有效的特征字段集合;最后将每个被标识有回流标签的用户对应的有效的特征字段集合作为训练样本输入训练网络模型中训练,以建立回流用户预测模型,从而利用回流用户预测模型可以对回流倾向较大的用户进行精确定位,从而对定位的用户挽回的成功率更高,节省了营销资源。
附图说明
19.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
20.图1为本技术一种实施例提供的电子设备与多个用户终端的交互示意图;
21.图2为本技术一种实施例提供的回流用户预测模型建立方法的流程图;
22.图3为本技术一种实施例提供的回流用户预测模型建立方法的流程图;
23.图4为本技术一种实施例提供的回流用户预测模型建立方法的流程图;
24.图5为本技术一种实施例提供的回流用户预测模型建立方法的流程图;
25.图6为本技术一种实施例提供的回流用户预测模型建立装置的功能模块框图;
26.图7为本技术一种实施例提供的回流用户预测模型建立装置的功能模块框图;
27.图8为本技术一种实施例提供的回流用户预测模型建立装置的功能模块框图;
28.图9为本技术一种实施例提供的电子设备的电路连接框图。
具体实施方式
29.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
30.以下结合附图,详细说明本技术各实施例提供的技术方案。
31.请参阅图1,本技术实施例提供了一种回流用户预测模型建立方法,应用于电子设备100,其中,电子设备100可以为服务器。如图2所示,电子设备100与多个用户终端200通信连接,以便进行数据交互。所述方法包括:
32.s11:采集预先被标识有回流标签的用户在多个维度下的表征用户上网属性的特征字段集合。
33.可选地,多个维度包括用户基本信息维度、用户消费信息维度、用户位置信息维度、用户终端信息维度中的至少之一。本技术实施例中,多个维度包括用户基本信息、用户消费信息、用户位置信息、用户终端信息。其中,用户基本信息下属的特征字段包括有姓名、年龄、性别、网龄、vip等级等信息字段;用户消费信息下属的特征字段包括月份、总流量、总消费、语音消费等信息字段、数据消费;用户位置信息下属的特征字段包括用户常驻小区、常驻小区属于农村/城镇等信息字段;常驻地址所属区域类型(如、学校、工厂、商业区);用
户终端信息下属的特征字段包括终端品牌、型号、制式、操作系统等信息字段。可以理解地,上述的特征字段可以通过多个用户终端200采集得到。
34.s12:对多个维度下的表征用户上网属性的特征字段集合进行优化处理,得到有效的特征字段集合。
35.通常地,多个维度下的表征用户上网属性的特征字段集合中包括的特征字段的数量级较大,其中,会夹杂一些对预测回流用户无效的特征字段,因此,需要对无效的特征字段进行剔除或更改为有效的特征字段。
36.s13:将每个被标识有回流标签的用户对应的有效的特征字段集合作为训练样本输入训练网络模型中训练,以建立回流用户预测模型。
37.可选地,训练网络模型为随机森林算法模型、决策树算法模型、神经网络模型。以下为以训练网络模型采集随机森林算法模型为例,介绍训练过程:随机森林算法模型原理为多个决策树分类器构成的集成学习,可用于分类和回归,决策树分类器采用的分裂原则是基尼系数。按照基系数不纯度最小原则从m个特征变量中选取一个分类效果最好的特征xi,具体算式为:
[0038][0039]
其中p(i)表示每一类占总类数的比例,并根据以下算式对不同的训练样本分类进行加权:
[0040][0041]
其中,w
h,maj
为加权值,上式表示每个决策树h对不同的训练样本分类有不一样的权重,nmaj表示训练集中训练样本个数,得到每个决策树的分类权重后,对每个训练样本基于该权重计算其投票值,得到最终分类结果。
[0042]
上述的最终分类结果采用简单多数投票法。具体方式为:首先通过构造不同的训练集增加分类模型间的差异,从而提高组合分类模型的外推预测能力。把随机森林算法模型的mtry参数控制在参数组合[15,30,45,60,75],随机森林算法模型的ntree参数控制在参数组合[50,100,200,300,500],把mtry参数、ntree参数作为后续建模的参数;历遍上述的两个参数组合,每个参数组合重复3次,每次重复之前按照boostrap方法抽取不同的样本集;得到一个分类模型序列,再用它们构成一个多分类模型系统,最后采用简单多数投票法,公式如下:
[0043]
h(x)=argmax∑i(h
i
(x)=y)
[0044]
其中,h(x)表示组合分类模型(样本点是否会回流分类),y表示输出变量(目标变量),i(.)为示性函数。利用回流的测试样本的模型准确率来评价当前模型的好坏,即随机把20%作为测试样本,80%作为训练样本,用训练样本来建立模型,统计3次重复试验每个组合的平均准确率,选取最高准确率的h(x)组合。该算法可以对整个模型进行性能判定,若性能没有明显增长,则算法停止,并输出最终的分类结果。
[0045]
该回流用户预测模型建立方法,通过采集预先被标识有回流标签的用户在多个维度下的表征用户上网属性的特征字段集合;然后对多个维度下的表征用户上网属性的特征
字段集合进行优化处理,得到有效的特征字段集合;最后将每个被标识有回流标签的用户对应的有效的特征字段集合作为训练样本输入训练网络模型中训练,以建立回流用户预测模型,从而利用回流用户预测模型可以对回流倾向较大的用户进行精确定位,从而对定位的用户挽回的成功率更高,节省了营销资源。
[0046]
可选地,作为其中一种实施方式,s12包括:
[0047]
根据预设的筛选规则对多个维度下的表征用户上网属性的特征字段进行筛选,得到有效的特征字段集合,其中,筛选规则至少包括以下一个或多个组合:
[0048]
删除特征字段集合中缺失值占比大于预设的第一阈值的特征字段;
[0049]
其中,预设的第一阈值可以为70%、65%、80%。比如,老乡网的数据源经常缺失,导致95%的用户匹配不上“老乡网mou”,该字段失去建模意义,予以剔除。
[0050]
删除特征字段集合中属于某一类别的下的多个选择记录值中,相同的记录值的占比大于预设的第二阈值的特征字段;
[0051]
其中,预设的第二阈值可以为90%、85%、80%。比如,对于95%的用户来说,属于某一类别的下的多个选择记录值“是否出账客户”都是“是”,该字段的特征不明显,予以剔除。
[0052]
删除特征字段集合中变异系数小于预设的第三阈值的特征字段;
[0053]
预设的第三阈值可以为0.1、0.2、0.15。比如“国际漫游主叫mou”的变异系数<0.1,说明该特征字段集合的波动性较小,所含的信息量也就少,难以将样本进行区分,予以剔除。
[0054]
删除特征字段集合中相关系数小于预设的第四阈值的特征字段。
[0055]
其中,预设的第四阈值可以为0.7、0.75、0.8。比如“退费”和用户标签的相关系数仅为0.5,说明两者关联型不高,予以剔除。
[0056]
可选地,如图3所示,作为另一种实施方式,s12包括:
[0057]
s31:将预先被标识有回流标签的用户在多个维度下的表征用户上网属性的特征字段集合进行标准化处理,得到标准化向量。
[0058]
具体地,可以根据算式预先被标识有回流标签的用户在多个维度下的表征用户上网属性的特征字段集合进行标准化处理,得到标准化向量。
[0059]
其中,yi是标准化向量,xi是原始的特征字段,是同一类特征字段的平均值,σ
x
是同一类特征字段的标准差。上述的标准化处理的意义在于,将所有数据都缩放在一个特定的区间,以防少量太大、大小的样本对整体训练产生极大的影响,避免影响后续待建立的模型的泛化能力。
[0060]
s32:根据邻近算法查找到与存在缺失字段的第一标准化向量距离最近的第二标准化向量。
[0061]
可以根据算式查找到与存在缺失字段的第一标准化向量距离最近的第二标准化向量。
[0062]
s33:根据距离确定加权值,其中,加权值随着距离的增大而减小。
[0063]
具体地,可以根据高斯核函数、距离确定权重。
[0064]
s34:根据加权值对在第二标准化向量中的与缺失字段对应的目标字段进行加权,得到填充字段。
[0065]
s35:将填充字段填充至缺失字段。
[0066]
可选地,如图4所示,所述方法还包括:
[0067]
s41:投喂新的训练样本至回流用户预测模型中进行训练。
[0068]
s42:对回流用户预测模型的网络参数进行更新。
[0069]
通过s41-s42,可以不断的强化学习,持续优化回流用户预测模型。
[0070]
可选地,如图4所示,在s11之前,所述方法还包括:
[0071]
s51:对在第一目标时间段存在目标网络的登录账号,在第一时间段后的第二时间段登录账号被注销,在第二时间段后的第三时间段登录账号恢复使用的用户标识回流标签。
[0072]
例如,第一目标时间段可以为5月1日-5月31日,第二时间段可以为6月1日-6月10日,第三时间段可以为6月11日-6月30日。可以理解地,可以向多个用户终端200采集用户对目标网络的登录情况。
[0073]
请参阅图6,本技术实施例还提供了一种回流用户预测模型建立装置600,应用于电子设备100,其中,电子设备100可以为服务器。如图2所示,电子设备100与多个用户终端200通信连接,以便进行数据交互。需要说明的是,本技术实施例所提供的回流用户预测模型建立装置600,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本技术实施例部分未提及之处,可参考上述的实施例中相应内容。回流用户预测模型建立装置600包括数据采集单元601、数据处理单元602、模型建立单元603,其中,
[0074]
数据采集单元601,被配置成采集预先被标识有回流标签的用户在多个维度下的表征用户上网属性的特征字段集合。
[0075]
多个维度可以包括用户基本信息维度、用户消费信息维度、用户位置信息维度、用户终端信息维度中的至少之一。
[0076]
标识回流标签的方式可以为:对在第一目标时间段存在目标网络的登录账号,在所述第一时间段后的第二时间段所述登录账号被注销,在所述第二时间段后的第三时间段所述登录账号恢复使用的用户标识回流标签。
[0077]
数据处理单元602,被配置成对多个维度下的表征用户上网属性的特征字段集合进行优化处理,得到有效的特征字段集合。
[0078]
模型建立单元603,被配置成将每个被标识有回流标签的用户对应的有效的特征字段集合作为训练样本输入训练网络模型中训练,以建立回流用户预测模型。
[0079]
训练网络模型可以为但不限于随机森林算法模型、决策树算法模型、神经网络模型。
[0080]
该回流用户预测模型建立装置600在执行时可以实现以下功能:通过采集预先被标识有回流标签的用户在多个维度下的表征用户上网属性的特征字段集合;然后对多个维度下的表征用户上网属性的特征字段集合进行优化处理,得到有效的特征字段集合;最后将每个被标识有回流标签的用户对应的有效的特征字段集合作为训练样本输入训练网络模型中训练,以建立回流用户预测模型,从而利用回流用户预测模型可以对回流倾向较大
interconnect,外设部件互连标准)总线或eisa(extended industry standardarchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
[0099]
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
[0100]
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成回流用户预测模型建立装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
[0101]
采集预先被标识有回流标签的用户在多个维度下的表征用户上网属性的特征字段集合;
[0102]
对多个维度下的表征用户上网属性的特征字段集合进行优化处理,得到有效的特征字段集合;
[0103]
将每个被标识有回流标签的用户对应的有效的特征字段集合作为训练样本输入训练网络模型中训练,以建立回流用户预测模型。
[0104]
上述如本技术图1所示实施例揭示的回流用户预测模型建立装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
[0105]
该电子设备还可执行图1的方法,并实现回流用户预测模型建立装置在图1所示实施例的功能,本技术实施例在此不再赘述。
[0106]
当然,除了软件实现方式之外,本技术的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
[0107]
本技术实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
[0108]
采集预先被标识有回流标签的用户在多个维度下的表征用户上网属性的特征字
段集合;
[0109]
对多个维度下的表征用户上网属性的特征字段集合进行优化处理,得到有效的特征字段集合;
[0110]
将每个被标识有回流标签的用户对应的有效的特征字段集合作为训练样本输入训练网络模型中训练,以建立回流用户预测模型。
[0111]
总之,以上所述仅为本技术的较佳实施例而已,并非用于限定本技术的保护范围。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
[0112]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0113]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0114]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0115]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1