一种基于海量数据分析模型的SIM卡流量最佳配置方法与流程

文档序号:31713136发布日期:2022-10-04 20:23阅读:57来源:国知局
一种基于海量数据分析模型的SIM卡流量最佳配置方法与流程
一种基于海量数据分析模型的sim卡流量最佳配置方法
技术领域
1.本发明涉及通信技术领域,尤其是一种基于海量数据分析模型的sim卡流量最佳配置方法。


背景技术:

2.随着用电信息采集接入规模的不断扩大,接入采集终端数量的增多,sim卡数量也越来越多;当前,各种采集设备所需要的sim卡流量各不相同,流量套餐种类繁多,每个月sim卡包月租赁费用花费巨大,并呈现逐年递增的趋势,其中不乏长期未使用的“僵尸”卡等无效sim卡。通过完善sim卡日常管理流程、应用大数据分析开展状态管控,并优化sim卡的套餐选择等措施提高利用率,助力公司精益化管理和提质增效。
3.在中国专利文献上公开的“一种多张sim卡流量通用方法及装置”,其公开号为cn113747383a,该发明公开一种多张sim卡流量通用方法及装置,包括:将跨运营商流量池和至少两张sim卡进行绑定,跨运营商流量池绑定了预设套餐,sim卡绑定的套餐的类型和流量大小与预设套餐的类型和流量大小相同;当至少两张sim卡中的其中一张sim卡被使用时,实时接收sim卡的流量使用数据并根据流量使用数据对跨运营商流量池的总流量进行相应的扣除。但是并没涉及到sim卡流量的具体配置方法。


技术实现要素:

4.本发明解决了现有sim卡流量套餐繁多且浪费严重的问题,提出一种基于海量数据分析模型的sim卡流量最佳配置方法,通过用电信息采集系统、营销系统、pms系统的电力数据和三大运营商提供的sim卡流量数据,排查采集异常的终端和sim卡,双向数据比对清洗sim卡关系,同时建立基于专用变的采集设备数据流量使用特征库,寻找sim卡使用特性,运用随机森林算法制作不同采集设备sim卡流量使用模型,配置各类采集设备最佳sim卡流量方案,本发明的配置方法能够选择合适的sim卡套餐,节省大量用于sim卡流量的费用。
5.为了实现上述目的,本发明采用以下技术方案:一种基于海量数据分析模型的sim卡流量最佳配置方法,包括以下步骤:s1,主动排查并采集异常的终端和sim卡;s2,双向数据比对并清洗sim卡关系;s3,建立特征库配置最佳sim卡流量方案。本发明中,针对于日常通过用电采集系统内的全量采集成功率模块排查采集不成功的终端,并安排人员进行现场维修维护的工作方式较为被动,一方面系统内提示采集不成功的终端已经影响到当日线路线损,另一方面系统内显示未上线的终端并没有将采集状态不佳的终端进行统计,故使用rpa机器人进行主动采集;并且采用双向数据比对清洗sim卡关系,同时建立基于专用变的采集设备数据流量使用特征库,寻找sim卡使用特性,运用随机森林算法制作不同采集设备sim卡流量使用模型,配置各类采集设备最佳sim卡流量方案,节省大量的sim卡费用。
6.作为优选,所述步骤s1包括以下步骤:
s11,将当月专变用户的负荷数据从采集系统中导出并计算采集率;s12,通过与营销系统内查询专变用户是否报停的信息进行对比,将采集率低于95%的终端列为采集异常的终端和sim卡记为第一数据库;s13,通过运营商提供的sim卡流量使用数据,排查出流量超出套餐用量两倍的sim卡,通过采集系统进行比对找到对应终端,将此类也列入采集异常的终端和sim卡记为第二数据库。本发明中,采集率100%为一天97条数据,其中,96条为一天15分钟一条的负荷数据,1条为抄表数据;运营商具体为三大运营商。
7.作为优选,所述步骤s2包括以下步骤:s21,运营商数据和电力系统数据分别自查,在运营商数据侧,通过运营商提供的sim卡每月流量数据筛选出流量数据为0的sim卡记为第三数据库;s22,在电力数据侧,从营销系统中查询并导出ip地址与终端不匹配、存在错绑定的终端sim卡对应关系记为第四数据库;s23,结合上述双向数据,将第三数据库的sim卡号在采集系统中找出对应终端局号和户号后,在营销系统通过户号查找该用户是否属于暂停使用变压器用户,剔除暂停用户剩余的sim卡和终端视为异常卡记为第五数据库。本发明中,sim卡与专变终端的绑定通过人为绑定实施,为弱校验关系,日常主要存在非在用且无流量数据的sim卡号与在运终端绑定错误和2张在运sim卡错误绑定2种情况,导致设备逻辑地址与sim卡号不对应的情况,上述步骤能有效解决该问题。
8.作为优选,所述步骤s3包括以下步骤:s31,剔除异常数据,建立样本,将所有专变的终端和sim卡作为对象,剔除上述第一数据库至第五数据库的终端;s32,通过随机森林和向量机两种模型进行运算进行比较,选择随机森林模型作为最优模型;s33,计算不同终端的最大流量方案。本发明中,将所有专变的终端和sim卡作为对象,剔除第一数据库至第五数据库的终端。数据以一天一终端一sim卡的信息作为一个样本,信息包括sim卡运营商、卡的类型(物联卡或通讯卡)、专用变压器的容量、终端的厂家、终端生产的年份、当天使用流量、当天平均湿度和当天平均温度。在样本数据中,专用变压器容量、终端的厂家和终端生产的年份通过采集系统获取;当天使用的流量、卡的类型和运营商由三大运营商提供数据;当天的平均温度和平均湿度从气象网站进行获取。并对样本数据的部分元素进行标签处理,将三大运营商移动、电信、联通分别标记为数字;其他数据终端厂家和卡的类型分别以数字进行标记。将流量数据作为样本的输出,其他均为样本的特征值,并对流量数据,平均温度和湿度做四舍五入处理,特征值共计8项。
9.作为优选,所述步骤s32具体为选取若干个样本作为样本数据集d,从一年的数据中心随机抽取,随机森林和向量机采用相同的样本数据,采用十折交叉验证方法,把数据集d随机分成容量相等的10份子集d1、d2、d3....和d10;取其中一份数据di作为测试数据集testdata i,剩下的9分作为训练数据集traindata i,构成第i组训练测试集合(testdata i,traindata i)(i=1,2,3...9,10),用10组训练集与测试集进行训练和测试,若满足训练与测试精度要求即可进行下一步计算,若不满足则需要设定参数或重新取样,根据测试精度和训练精度选取最优模型。本发明中,在构建随机森林模型与向量机模型时,需要设定相
应的模型参数.经过多次调试和参数敏感性分析后得到最佳参数。
10.作为优选,所述步骤s33具体为获取一个月的天气数据温度ti和湿度rhi,将用户的基本信息拼接后形成样本xi(i=1,2,3....29,30),放入随机森林模型进行计算,得到下个月每天该用户的终端sim卡使用的流量yi,将每日流量进行相加后乘以允许误差系数得到最大月流量ymax,若ymax《15,则选择第一类物联卡套餐,若ymax》15且ymax《30则选择第二类物联卡套餐,若ymax》30,则对终端sim卡进行人工排查。在本发明中,在在数据样本中,平均温度和湿度是作为每日可变的因素,通过天气网站可获取一个月内天气数据。
11.作为优选,每月需对第四数据库和第五数据库的终端进行人工现场排查。保证数据库的时效性。
12.本发明的有益效果是:本发明的方案通过sim卡流量数据,排查采集异常的终端和sim卡,双向数据比对清洗sim卡关系,同时建立基于专用变的采集设备数据流量使用特征库,寻找sim卡使用特性,运用随机森林算法制作不同采集设备sim卡流量使用模型,配置各类采集设备最佳sim卡流量方案,根据不同情况选择合适的sim卡套餐,防止浪费,能够节省大量的sim卡费用。
附图说明
13.图1是本发明的流程图。
具体实施方式
14.实施例:本实施例提出一种基于海量数据分析模型的sim卡流量最佳配置方法,参考图1,主要包括以下的步骤:步骤s1,主动排查并采集异常的终端和sim卡;具体的,在本步骤中,还包括多个子步骤,其中,步骤s11,将当月专变用户的负荷数据从采集系统中导出并计算采集率(采集率100%为一天97条数据);具体的,采用rpa机器人进行采集,且所有电力数据侧的采集均采用rpa机器人;步骤s12,通过与营销系统内查询专变用户是否报停的信息进行对比,将采集率低于95%的终端列为采集异常的终端和sim卡记为第一数据库;步骤s13,通过运营商提供的sim卡流量使用数据,排查出流量超出套餐用量两倍的sim卡,通过采集系统进行比对找到对应终端,将此类也列入采集异常的终端和sim卡记为第二数据库,并进行人工现场主动排查。本发明中,采集率100%为一天97条数据,其中,96条为一天15分钟一条的负荷数据,1条为抄表数据;运营商具体为三大运营商;其中,主动排查采集异常的终端和sim卡明细可参考下表1:表1:主动排查采集异常的终端和sim卡明细
15.步骤s2,双向数据比对并清洗sim卡关系;具体的,包括以下的多个子步骤:步骤s21,运营商数据和电力系统数据分别进行自查,在运营商数据侧,通过运营商提供的sim卡每月流量数据筛选出流量数据为0的sim卡记为第三数据库;步骤s22,在电力数据侧,从营销系统中查询并导出ip地址与终端不匹配、存在错绑定的终端sim卡对应关系记为第四数据库;步骤s23,结合上述双向数据,将第三数据库的sim卡号在采集系统中找出对应终端局号和户号后,在营销系统通过户号查找该用户是否属于暂停使用变压器用户,剔除暂停用户剩余的sim卡和终端视为异常卡记为第五数据库。本发明中,sim卡与专变终端的绑定通过人为绑定实施,为弱校验关系,日常主要存在非在用且无流量数据的sim卡号与在运终端绑定错误和2张在运sim卡错误绑定2种情况,导致设备逻辑地址与sim卡号不对应的情况,上述步骤能有效解决该问题;其中,双向数据比对清洗sim卡关系明细参考下表2:表2:双向数据比对清洗sim卡关系明细
16.步骤s3,建立特征库配置最佳sim卡流量方案;具体的,包括以下多个子步骤:首先,进行步骤s31,剔除异常数据,建立样本,将所有专变的终端和sim卡作为对象,剔除上述第一数据库至第五数据库的终端;步骤s32,通过随机森林和向量机两种模型进行运算进行比较,选择随机森林模型作为最优模型;步骤s33,计算不同终端的最大流量方案。本发明的实施例中,将所有专变的终端和sim卡作为对象,剔除第一数据库至第五数据库的终端。数据以一天一终端一sim卡的信息作为一个样本,信息包括sim卡运营商、卡的类型(物联卡或通讯卡)、专用变压器的容量、终端的厂家、终端生产的年份、当天使用流量、当天平均湿度和当天平均温度。在样本数据中,专用变压器容量、终端的厂家和终端生产的年份通过采集系统获取;当天使用的流量、卡的类型和运营商由三大运营商提供数据;当天的平均温度和平均湿度从气象网站进行获取。并对样本数据的部分元素进行标签处理,将三大运营商移动、电信、联通分别标记为数字;其他数据终端厂家和卡的类型分别以数字进行标记。将流量数据作为样本的输出,其他均为样本的特征值,并对流量数据,平均温度和湿度做四舍五入处理,特征值共计8项。
17.对于步骤s32,具体的,选取若干个样本作为样本数据集d,在本实施例中,选择20万个样本,从一年的数据中心随机抽取,随机森林和向量机采用相同的样本数据,采用十折交叉验证方法,把数据集d随机分成容量相等的10份子集d1、d2、d3....和d10;取其中一份数据di作为测试数据集testdata i,剩下的9分作为训练数据集traindata i,构成第i组训练测试集合(testdata i,traindata i)(i=1,2,3...9,10)。在构建随机森林模型与向量机模型时,需要设定相应的模型参数.经过多次调试和参数敏感性分析后得到最佳参数。
18.随后,用10组训练集与测试集进行训练和测试,若满足训练与测试精度要求即可
进行下一步计算,若不满足则需要设定参数或重新取样,根据测试精度和训练精度选取最优模型。如下表3所示,从测试精度和训练精度上看,随机森林精度更高,因此选用随机森林模型:表3:随机森林和向量机的精度比较
19.步骤s33的具体过程包括:在数据样本中,平均温度和湿度是作为每日可变的因素,通过天气网站可获取一个月内的天气数据温度ti和湿度rhi,将用户的基本信息拼接后形成样本xi(i=1,2,3....29,30.),放入随机森林模型进行计算,得到下个月每天该用户的终端sim卡使用的流量yi,将流量进行相加后乘以允许误差系数得到最大月流量ymax,若ymax《15,则选择第一类物联卡套餐,若ymax》15且ymax《30则选择第二类物联卡套餐,若ymax》30对终端sim卡进行人工排查。在本实施例中,允许误差系数为1.1,当前专变用到的sim卡为2.2元15m物联卡和4.7元30m物联卡套餐,超出流量部分需要单独计算,本实施例中,2.2元15m物联卡对应于第一类物联卡套餐,4.7元30m物联卡套餐对应于第二类物联卡套餐。
20.在步骤s2的过程中需每个月对第四数据库和第五数据库的终端进行人工现场排查。保证数据库的时效性。
21.本发明中,针对于日常通过用电采集系统内的全量采集成功率模块排查采集不成功的终端,并安排人员进行现场维修维护的工作方式较为被动,一方面系统内提示采集不成功的终端已经影响到当日线路线损,另一方面系统内显示未上线的终端并没有将采集状态不佳的终端进行统计,故使用rpa机器人进行主动采集;并且采用双向数据比对清洗sim卡关系,同时建立基于专用变的采集设备数据流量使用特征库,寻找sim卡使用特性,运用随机森林算法制作不同采集设备sim卡流量使用模型,配置各类采集设备最佳sim卡流量方案,节省大量的sim卡费用。
22.上述实施例是对本发明的进一步阐述和说明,以便于理解,并不是对本发明的任何限制,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1