一种猫池终端识别方法与流程

文档序号:24570997发布日期:2021-04-06 12:17阅读:181来源:国知局
一种猫池终端识别方法与流程

本发明涉及移动通信终端识别技术领域,更具体地,涉及一种猫池终端识别方法。



背景技术:

猫池(外文名:modempool)就是将相当数量的modem使用特殊的拨号请求接入设备连接在一起,可以同时接受多个用户拨号连接的设备。猫池可看作是一种特殊的终端,可以单独认为它是仅仅基于电话的一种扩充装备,而不去区分它的上网或者手机讯号收发效应。正常的一部手机终端只能运行1至2张手机卡,但是通过猫池终端这样的自动化工具则可以把几百张的手机卡运行起来。

在通信业务中,运营商往往通过给代理商发放佣金的方式鼓励运营商发展客户,促进运营商客户量的增加,但在实际应用中,部分代理商采取欺诈的方法套取运营商的佣金,导致运营商客户量虚增。例如,代理商向运营商批量提取手机终端和手机卡后,通过研究运营商销售政策,对费用组成和优惠政策进行研究,采取机卡分离的方式进行销售,对于未能售出的手机终端和手机卡,代理商往往购置猫池设备,通过用猫池终端模拟众多手机终端的imem识别码进行正常通信行为,让运营商误以为该imem识别码的手机终端被激活,营造手机终端被激活和使用的假象。并在猫池设备上通过养卡行为保持众多手机卡处于简单运行状态,从而套取运营商的佣金。代理商通过猫池设备上的模拟手机终端激活和养卡行为获得的佣金往往比正常出售手机终端和手机卡获得的佣金更多,而且速度更快,这就是代理商使用猫池设备的利润驱动力。因此,如何识别出代理商是否采用猫池终端模拟手机终端通信和利用养卡行为进行欺诈,以便于维护运营商的利益成为本领域亟待解决的技术问题。



技术实现要素:

本发明要解决的技术问题是提供一种猫池终端识别方法,通过获取新售激活的手机终端的多个重点指标特征,并与猫池终端的特性进行分析比较,从而判断代理商是否采用猫池终端模拟手机终端通信和利用养卡行为进行欺诈套取佣金,便于维护运营商的合法利益。

为解决上述技术问题,本发明采用的技术方案是:一种猫池终端识别方法,所述方法具体包括以下步骤:

步骤s1:从已出售的手机终端中选取已被激活的手机终端,组成目标手机终端群;

步骤s2:获取所述目标手机终端群中每个手机终端的数据,并进行数据处理,获得与每个所述手机终端相对应的指标特征库;

步骤s3:通过对所述指标特征库中的各个指标特征进行数据可视化处理,获取若干重点指标特征;

步骤s4:由重点指标特征判断所述目标手机终端群中的手机终端是否为猫池终端。

优选的,所述步骤s1中,判定手机终端是否已被激活的原则为:若手机终端产生通话行为或者流量行为,则判定该手机终端已被激活使用。

优选的,所述步骤s2中,获取所述目标手机终端群中每个手机终端的数据,包括:

获取每个手机终端的销售时间、激活时间、激活号码、捆绑号码、通话总时长、计费总时长、总流量、总通话次数数据;

获取基于手机终端使用的手机卡号码的通话时长、计费时长、流量、通话次数数据。

优选的,所述指标特征库包括如下内容:

每个手机终端的计费总时长;

每个手机终端的总流量;

每个手机终端的通话总次数;

每个手机终端的主用终端数和其他终端数;

每个手机终端的终端收入;

每个手机终端的主叫号码通话占比;

每个手机终端的交往圈终端数;

每个手机终端的通话行为集中次数;

每个手机终端的被叫号码归属占比;

每个手机终端的通话基站数;

每个手机终端的激活终端数。

优选的,步骤s3中,对所述指标特征库中的各个指标特征进行数据可视化处理,获取若干重点指标特征,包括:

步骤s31:对所述指标特征库中的所有指标构建直方图,获得每一类指标特征的直方图;

步骤s32:对每类指标特征的直方图进行分析,若某类指标特征在直方图中不符合正态分布,则将该类指标特征作为重点指标特征。

优选的,步骤s3中,所述重点指标特征包括下述指标:终端收入、通话基站数、交往圈终端数、激活终端数、主叫号码通话占比,所述终端收入指标值、通话基站数指标值、交往圈终端数指标值、激活终端数指标值、主叫号码通话占比指标值构成所述目标手机终端群中的手机终端的五维虚拟坐标。

优选的,步骤s4中,由重点指标特征判断所述目标手机终端群中的手机终端是否为猫池终端,包括:

步骤s41:通过聚类算法将目标手机终端群中所有终端手机划分为k个类群,分别获得k个中心点的坐标值;

步骤s42:若其中一个类群中的手机终端的终端收入特征值、通话基站数特征值、交往圈终端数特征值均低于其他类群,而激活终端数特征值、主叫占比特征值均高于其他类群,则将该类群为猫池终端类群,该类群中的手机终端均为猫池终端。

优选的,还包括步骤s5,所述步骤s5包括:

步骤s51:将所述猫池终端类群作为猫池检验库,提取新激活手机终端中的终端收入指标值、通话基站数指标值、交往圈终端数指标值、激活终端数指标值、主叫号码通话占比指标值构成取新激活手机终端五维虚拟坐标;

步骤s52:分别计算新激活手机终端五维虚拟坐标与k个中心点的坐标值之间的欧式距离并比较,若新激活手机终端五维虚拟坐标与猫池检验库的中心点的坐标值之间的欧式距离最小,则将新激活手机终端列为疑似猫池终端;

步骤s53:对疑似猫池终端进行人工筛选,根据筛选结果判断所述新激活手机终端是否为猫池终端。

与现有技术相比,本发明达到的有益效果是:

本发明提供一种猫池终端识别方法,通过获取新售出的已激活手机终端的各项数据,经过数据处理获得手机终端的多项指标特征,再通过数据可视化处理,从中挑选出若干的重点指标特征,由重点指标特征判断所述目标手机终端群中的手机终端是否为猫池终端;通过本发明,可有效的识别判断代理商是否采用猫池终端对运营商进行欺诈从而套取佣金,便于维护运营商的合法利益。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的优选实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明的一种猫池终端识别方法流程图;

具体实施方式

为了更好理解本发明技术内容,下面提供具体实施例,并结合附图对本发明做进一步的说明:

参见图1,本发明提供一种猫池终端识别方法,所述方法具体包括以下步骤:

步骤s1:从已出售的手机终端中选取已被激活的手机终端,组成目标手机终端群;

步骤s2:获取所述目标手机终端群中每个手机终端的数据,并进行数据处理,获得与每个所述手机终端相对应的指标特征库;

步骤s3:通过对所述指标特征库中的各个指标特征进行数据可视化处理,获取若干重点指标特征;

步骤s4:由重点指标特征判断所述目标手机终端群中的手机终端是否为猫池终端。

具体的,所述步骤s1中,判定手机终端是否已被激活的原则为:若手机终端产生通话行为或者流量行为,则判定该手机终端已被激活使用。由于运营商用户群巨大,且猫池终端多发生在新售的手机终端基础上,因此新售手机终端的通话、流量行为是筛选合适的目标手机终端的重要依据。

具体的,猫池终端在收入、流量、激活、使用等指标上会存在相似的特征,且显著有别于正常的手机终端,所以识别猫池终端存在可行性。因此首要获取目标手机终端群中手机终端的各项指标特征,便于跟猫池终端特性进行比较,才能对手机终端是否为猫池终端做出判断,所述步骤s2中,获取所述目标手机终端群中每个手机终端的数据,包括:

获取每个手机终端的销售时间、激活时间、激活号码、捆绑号码、通话总时长、计费总时长、总流量、总通话次数数据;

获取基于手机终端使用的手机卡号码的通话时长、计费时长、流量、通话次数数据。

具体的,所述指标特征库包括如下内容:每个手机终端的计费总时长;每个手机终端的总流量;每个手机终端的通话总次数;每个手机终端的主用终端数和其他终端数;每个手机终端的终端收入;每个手机终端的主叫号码通话占比;每个手机终端的交往圈终端数;每个手机终端的通话行为集中次数;每个手机终端的被叫号码归属占比;每个手机终端的通话基站数;每个手机终端的激活终端数。其中计费总时长、总流量、通话总次数可直接由运营商的数据库获取,剩余其它指标特征的获取过程如下:

主用终端数和其他终端数:若手机终端上某一电话卡号码同时满足该手机卡号码在该手机终端上的通话时长大于该手机卡号码总通话时长的20%、该手机卡号码在该手机终端上的使用流量大于该电话卡号码总使用流量的20%,则该手机终端的主用终端数加1,否则该手机终端的其他终端数加1;

终端收入:通过下式计算每个手机终端的终端收入:

其中,s为每个手机终端的终端收入,n为该手机终端使用过的手机卡号码个数,tx总为该手机卡号码总通话时长,tx为该手机卡号码在该手机终端上的通话时长,arpux为该手机卡号码一个时期内给运行商的贡献业务收入;

主叫号码通话占比:数据库获取每个手机终端的主叫次数和被叫次数以及相应的手机卡号码,使用每个手机终端的主叫次数除以该手机终端的所有通话次数,获得每个手机终端的主叫号码通话占比;

交往圈终端数:数据库获取基于每个手机终端的所有的号码在该手机终端上进行通话目标,生成每个手机终端的交往圈终端数;

通话行为集中次数:数据库获取该每个手机终端的用户清单,统计每个手机终端在一个月中有几次出现这样的情况:在同一天,同一基站下,向同一人通话,且通话时间在30s以内,且通话次数大于2次,以获取每个手机终端的通话行为集中次数;

被叫号码归属占比:数据库统计每个手机终端被叫号码所属的渠道,同时获取每个手机终端被叫号码的数量,再用每个手机终端所有的被叫号码的数量除以被叫号码所属的渠道数,得到被叫号码归属占比。

通话基站数:数据库统计每个手机终端使用过的基站,获得每个手机终端的通话基站数;

激活终端数:数据库统计激活每个手机终端的手机卡号码又额外激活了另外多少个手机终端,获得每个手机终端的激活终端数;

上述各项指标特征的获取涉及到了手机终端上各个手机卡号码的相关数据,可反应出各个手机卡号码的相关使用情况,因此,各项指标特征对判别终端上是否存在养卡行为具有一定的效用。

具体的,数据探索是对数据进行初步研究,以便更好地理解它的特殊性质。数据探索的一种常用方法是“可视化”。数据可视化是指以图形或表格的形式显示信息。成功的可视化需要将数据(信息)转换成可视的形式,以便能够借此分析或报告数据的特征和数据项或属性之间的关系;而直方图便是一种可视化技术。在统计学中,直方图是一种对数据分布情况的图形表示,是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量。因此所述步骤s3采用直方图对各项指标特征进行可视化处理,,获取若干重点指标特征,包括:

步骤s31:对所述指标特征库中的所有指标构建直方图,获得每一类指标特征的直方图;

步骤s32:对每类指标特征的直方图进行分析,若某类指标特征在直方图中不符合正态分布,则将该类指标特征作为重点指标特征。

具体的,通过对直方图进行分析后,所述重点指标特征包括下述指标:终端收入、通话基站数、交往圈终端数、激活终端数、主叫号码通话占比,所述终端收入指标值、通话基站数指标值、交往圈终端数指标值、激活终端数指标值、主叫号码通话占比指标值构成所述目标手机终端群中的手机终端的五维虚拟坐标。

具体的,由重点指标特征判断所述目标手机终端群中的手机终端是否为猫池终端,包括:

步骤s41:通过聚类算法将目标手机终端群中所有终端手机划分为k个类群,分别获得k个中心点的坐标值;

步骤s42:若其中一个类群中的手机终端的终端收入特征值、通话基站数特征值、交往圈终端数特征值均低于其他类群,而激活终端数特征值、主叫占比特征值均高于其他类群,则将该类群为猫池终端类群,该类群中的手机终端均为猫池终端。

因为聚类算法是把重点指标特征具有相似数据特性的手机终端聚集为一个类群,因此,分别用k个类群中重点指标特征的数据特性与猫池终端特性相比较,将特性相符合的一个类群中的手机终端判定为猫池终端,即实际中,是由猫池终端模拟该类群中的每个手机终端的imem识别码进行通信,营造出该imem识别码所绑定的手机终端被激活的假象,从而套取运营商的佣金。

其中,本实施例在聚类算法中又具体采用k-means算法,需要说明的是,随着所分的类群个数k的增大,分类误差sse会越来越小,但同时分类耗时(迭代次数)会急剧上升,而且所分的类群个数过多,会干扰决策判断,导致业务上的偏差,因此,选择一个合理的k值是非常必要的。具体的,类群个数与迭代次数和平方误差和(sse)的关系如下表1所示:

通过观察表1可知,当类群个数k在低于8的范围内递增时,分类误差sse快速下降,当类群个数k在高于30的范围递增时,分类误差sse平稳下降,但迭代次数迅速上升。因此,在综合考虑分类误差sse要小、迭代次数要少、类群个数不宜过多的情况下,本实施例中优选类群个数k的取值为10,即将所有手机终端依据k-means算法划分为10个类群。

进一步的,可基于现有的10个类群和相应的10个中心点的坐标值对其它新售手机终端进行识别判断,具体为步骤s5,所述步骤s5包括:

步骤s51:将所述猫池终端类群作为猫池检验库,提取新激活手机终端中的终端收入指标值、通话基站数指标值、交往圈终端数指标值、激活终端数指标值、主叫号码通话占比指标值构成取新激活手机终端五维虚拟坐标;

步骤s52:分别计算新激活手机终端五维虚拟坐标与10个中心点的坐标值之间的欧式距离并比较,若新激活手机终端五维虚拟坐标与猫池检验库的中心点的坐标值之间的欧式距离最小,则将新激活手机终端列为疑似猫池终端;

计算欧式距离的具体计算公式为:

其中,dk为所述新激活手机终端五维虚拟坐标点到一个类群中心点的欧式距离,m为所述手机终端的重点指标特征个数即m=5,xy为所述新激活手机终端的五维虚拟坐标值,xky为中心点的坐标值;

步骤s53:对疑似猫池终端进行人工筛选,根据筛选结果判断所述新激活手机终端是否为猫池终端。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1