基于改进K-means算法的物联网卡异常检测方法及系统与流程

文档序号:41108734发布日期:2025-02-28 17:55阅读:12来源:国知局
基于改进K-means算法的物联网卡异常检测方法及系统与流程

本发明涉it与软件开发,具体地说涉及一种基于改进k-means算法的物联网卡异常检测方法及系统。


背景技术:

1、目前,随着我国物联网业务的迅猛发展,物联网卡的开卡数量也在快速增加。然而,随着物联网卡业务的增长,物联网卡的管理和安全监管面临着更为严峻的挑战。一些不法分子通过恶意转售、违规挪用或盗用物联网卡,利用其低资费的优势,将其作为普通用户卡进行销售牟利,甚至用于拨打骚扰电话和发送违规短信。这种行为不仅严重干扰了正常的用户业务,还给运营商和用户带来了巨大的经济损失。

2、现有技术通常采取以下方案进行物联网卡异常识别:

3、1.基于历史流量数据进行检测:该技术通过获取物联网卡一段周期内的历史流量数据,通过机器学习方法识别出流量异常使用日期,再以流量异常使用日期为中心,对前后一段时间内的流量使用数据进行聚类并得到聚类中心,最后计算流量异常使用日期与聚类中心的特征距离,若该距离大于预设的距离阈值则判定为异常。这种方法仅对流量的使用进行考量,而物联卡实际的用途还包含短信和语音等,因而忽略了其他异常行为的识别。

4、2.基于黑名单进行异常行为识别:该技术通过判断物联网卡的属性与行为是否处于标识信息黑名单与访问地址黑名单之中来识别物联卡是否处于异常。这种方法存在较为明显的劣势,一方面,该方法依赖于静态黑名单信息,需要手动更新或维护该名单来满足实时识别的需求;另一方面,该方法只能检测已存在于黑名单中的物联卡,对于未知的异常无法提供有效的检测和防护。


技术实现思路

1、本发明提供的一种更加智能高效且自适应不同场景下的物联网卡使用特征的基于改进k-means算法的物联网卡异常检测方法及系统,可至少解决上述技术问题之一。

2、为了解决上述技术问题,本发明采用如下技术方案:

3、基于改进k-means算法的物联网卡异常检测方法,包括以下步骤:

4、s1、对物联网卡的特征数据进行采集与预处理;

5、s2、利用改进的k-means算法对预处理后的特征数据进行聚类分析;

6、s3、根据聚类结果计算异常判定的距离阈值;

7、s4、根据阈值判断待测物联网卡的异常与否。

8、进一步地,所述s1进一步包括:

9、s11、从物联网卡的历史数据中提取三类关键的特征数据,包括流量、短信和语音的使用量;

10、s12、检查并处理提取所得特征数据中的异常值与缺失值;

11、s13、对异常值或缺失值处理之后的特征数据进行归一化处理,以消除不同特征之间的量纲差异,确保在聚类时各特征对距离计算的影响均衡;

12、s14、根据物联网卡的应用场景,选择合适的时间窗口,以捕捉设备在不同时间段的使用模式。

13、进一步地,所述s12中,对异常值进行去除,异常值包括异常高值和异常低值,对缺失值进行补全或删除,对缺失值使用均值、中位数或邻近数据填充,以确保数据的完整性。

14、进一步地,所述s1进一步包括:

15、s21、设定一个初始的k值范围kmin到kmax,并对物联网卡特征数据进行多次k-means聚类,且每次聚类使用不同的k值,聚类过程使用标准的k-means算法,执行以下操作:

16、s211、随机选择k个初始聚类中心;

17、s212、计算每个数据点到聚类中心的距离,将其归类到最近的聚类中心;

18、s213、更新每个聚类的中心点为该类中所有点的均值;

19、s214、重复所述s212和所述s213,直到聚类中心收敛或达到预设迭代次数;

20、s22、对于每一个k值的聚类结果,计算对应的davies-bouldin指数,所述davies-bouldin指数用于衡量聚类的紧密性和分离度,计算公式为:

21、

22、其中:

23、dbi表示davies-bouldin指数;

24、σm表示第m个聚类的平均半径,即类内数据点到中心的平均距离;

25、σn表示第n个聚类的平均半径,即类内数据点到中心的平均距离;

26、d(cm,cn)表示第m和第n个聚类中心之间的距离;

27、s23、根据不同k值的davies-bouldin指数,选择最小dbi值对应的k值作为最优k值;

28、s24、基于所述s23中选取的最优k值为目标k值,重新执行k-means聚类,将物联网卡的特征数据聚类为k个类别,形成k个聚类簇,每一个聚类簇代表一个应用场景的特征模式。

29、进一步地,所述s3进一步包括:

30、s31、计算簇内点到聚类中心的距离,对于每个物联网卡i,计算其到所属聚类簇中心点的欧氏距离,计算公式为:

31、

32、s32、计算簇内点与聚类中心的距离的平均值d和标准差σd;

33、s33、基于平均值和标准差确定异常判断阈值t:

34、

35、其中,k为经验系数,可取1.5-3,表示异常的物联网卡与正常簇中心的距离超出正常范围。

36、进一步地,所述s4进一步包括:

37、s41、对于某张待测的物联网卡,提取其特征数据,计算其到最近聚类中心的距离dtest:

38、

39、s42、比较距离dtest与阈值t,若dtest>t,则判定该物联网卡存在异常行为,该物联网卡为异常卡,若dtest≤t,则判定该物联网卡不存在异常行为,该物联网卡为正常卡。

40、基于改进k-means算法的物联网卡异常检测系统,适用于所述基于改进k-means算法的物联网卡异常检测方法,包括:

41、数据预处理模块,所述数据处理模块用于对物联网卡的三类特征数据的使用量数据进行预处理操作,以确保不同特征数据处在同一尺度上进行分析;

42、聚类分析模块,所述聚类分析模块用于将k-means算法与dbi指数结合形成改进k-means算法,基于改进k-means算法自动优化k值,选出最优的聚类数量;

43、异常检测模块,所述异常检测模块用于计算各聚类簇内的物联网卡到聚类中心的距离均值及标准差,并基于计算结果设定阈值t,判断待测物联网卡使用行为的正常或异常。

44、进一步地,物联网卡的三类特征数据包括流量、短信和语音,根据物联网卡的三类特征数据将物联网卡分配到相应的聚类簇中,每个聚类簇代表物联网卡的某种使用模式或场景特征。

45、进一步地,所述数据预处理模块的预处理操作至少包括数据采集、缺失值填补和数据标准化。

46、进一步地,所述异常检测模块的判断标准为:以聚类簇内各个物联网卡作为训练数据,基于这些训练数据设定阈值t,对于待测物联网卡而言,若该待测物联网卡与最近聚类中心的距离均值及标准差超出阈值t,则判定该待测物联网卡的使用行为异常,该待测物联网卡为异常卡,反之若未超过阈值t,则判定该待测物联网卡的使用行为正常,该待测物联网卡为正常卡。

47、本发明的有益效果体现在:

48、1、基于改进的k-means算法进行异常检测:采用k-means聚类算法对物联网卡的流量、短信、语音等特征数据进行分析,并使用davies-bouldin指数(dbi)自动优化k值,动态调整聚类数目,提升了异常检测的精度和自适应能力,通过确定合理的聚类数目,实现更精确的异常检测。

49、2、多维特征数据输入:基于物联网卡在不同应用场景中的多维特征,包括但不限于流量、短信、语音使用情况,融合流量、短信和语音等多维特征数据进行聚类,建立正常使用行为的特征模型,提高模型对复杂场景的适应性,不依赖于历史规则或人工设置的固定阈值,解决了传统方法中局限于单一数据维度或固定规则的缺陷。

50、3、异常判定机制:通过计算待测物联网卡与聚类中心的距离,使用距离阈值来判定物联网卡是否异常,避免了现有技术依赖历史数据或黑名单的滞后性,实现更灵活的异常检测。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1