一种伪基站短信时空分布模式可视化分析方法与流程

文档序号:18703828发布日期:2019-09-17 23:20阅读:305来源:国知局
一种伪基站短信时空分布模式可视化分析方法与流程
本发明涉及伪基站防范
技术领域
,尤其涉及一种伪基站短信时空分布模式可视化分析方法。
背景技术
:随着信息时代的发展,在拥抱信息社会诸多机遇的同时,网络犯罪呈现日益蔓延的态势,其中,电信网络诈骗犯罪最为突出。借助伪基站实施的电信网络诈骗案件数量上升明显,占比迅速增高,构成电信网络诈骗治理工作的重点领域之一。《2016中国伪基站短信研究报告》指出,仅仅2016年3月份360手机卫士为全国用户拦截伪基站短信共计1.1亿条,不法分子能够利用短信谋求利益,使得垃圾短信不断困扰消费者和电信运营企业,对整个经济社会造成了严重的负面影响。目前,用“伪基站”发送垃圾短信已成为不法分子诈骗、推销的常用手段,并且隐蔽性极高,能够冒用任意号码通过群发短信的方式发送内容不受控的短信息,不仅干扰公共频率资源,而且频繁造成信息内容安全事件的发生,严重侵害了社会秩序。一般而言,伪基站活动强度与人类活动强度具有相关性,伪基站常常活动在人群密集之地,传统对伪基站活动的识别常常是侧重于局部监测和定位,主要依据异常的lac信息发现个别伪基站的出没,同时常常因为技术原因导致定位不精确的现象时有发生。这种依赖实时发现伪基站,再采取打击行动的方式不能及时有效地治理伪基站。技术实现要素:为了解决现有技术中存在的问题,本发明提供了一种伪基站短信时空分布模式可视化分析方法,通过对历史数据进行统计处理,直观地发现大区域范围内伪基站短信时空分布规律,并采用可视化效果予以展示,使执法人员能够根据伪基站活动的热点时段和热点区域提前进行部署,以逸待劳,从而弥补现有伪基站治理技术的滞后性,为执法人员提供高效的行动指南。本发明提供了一种伪基站短信时空分布模式可视化分析方法,包括:步骤s1:获取目标区域内的伪基站短信,作为原始样本数据;每一条所述伪基站短信至少包含伪基站伪装的发送方电话号码、短信具体正文、短信正文md5值、短信接收时间戳、伪基站连接时间戳、伪基站近似位置经度、伪基站近似位置纬度七个字段信息;步骤s2:对所述原始样本数据进行清洗处理,得到有效样本数据;所述清洗处理至少包括剔除错误数据;步骤s3:根据短信接收时间戳,按照一天24小时将每一天的所述有效样本数据均分为24组,按照一小时为一个区间,将每一天24小时的所述有效样本数据分为24组,得到分组样本数据;步骤s4:根据分组样本数据中每一组样本数据的短信个数,确定一天中的伪基站活动热点时段,得到热点时段样本数据;步骤s5:对所述热点时段样本数据进行dbscan聚类处理,并剔除噪声,提取出每个热点时段的伪基站活动热点位置区域热点区域;其中,dbscan聚类处理的扫描半径根据伪基站覆盖范围确定,取值范围为0-500米;步骤s6:根据所述伪基站活动热点位置区域热点区域,通过点聚合处理确定热点位置中心热点区域中心;步骤s7:根据每个热点区域的热点个数,将热点区域划分为不同热度层次,并在电子地图上进行可视化显示。本发明通过数据清洗、数据分类数据分组、dbscan聚类处理、点聚合等一系列数据处理手段,根据大量的伪基站短信样本数据,梳理出伪基站活动的时空特征,从而得到伪基站活动的热点时段和热点区域,并在电子地图上进行可视化显示,帮助执法人员在热点时段和热点区域提前部署,及时采取行动,高效打击伪基站。进一步的,所述步骤s2中的所述错误数据至少包括伪基站近似位置经度和/或伪基站近似位置纬度不在所述目标区域内的短信、所述短信接收时间戳早于伪基站连接时间戳的短信和任一字段存在缺失的短信。具体而言,需要对伪基站短信样本数据中各个字段信息进行检查,以确定是否存在缺失,若存在,则剔除对应的短信样本;对伪基站短信样本数据中的“伪基站近似位置经度”和“伪基站近似位置纬度”字段进行检查,以确定样本数据的经纬度是否在特定目标区域的地理范围内,超出范围的短信样本数据应予以剔除;将伪基站短信样本数据中“短信接收时间戳”和“伪基站连接时间戳”进行比较,若前者早于后者,则说明该短信样本数据存在错位,应予以剔除。通过上述手段剔除有误数据,可以进一步提高最后确定的伪基站热点区域的准确性。进一步的,所述步骤s4中的热点时段样本数据至少包括工作日热点时段样本数据和非工作日热点时段样本数据。发明人通过大量数据研究发现,因为工作日和非工作日人们的作息不同,伪基站的活动情况也不同,所以将样本数据区分为工作日和分工作日两种情况来研究伪基站活动规律,既有更好的精准性。进一步的,所述步骤s5是对热点时段样本数据的经纬度位置信息进行dbscan聚类处理,处理时的扫描半径r为333米,最小包含点数minpts为12个,其中,所述经纬度位置信息包括伪基站近似位置经度和伪基站近似位置纬度;dbscan聚类处理的具体步骤为:步骤s51:将所述热点时段样本数据放入初始集合d中,并将所述初始集合d中所有热点时段样本数据标记为未访问状态;步骤s52:从所述初始集合d中随机选择一个热点时段样本数据p作为起始点,若p为未访问状态,则检查所述热点时段样本数据p的邻域内的其他样本数据个数是否大于或等于minpts,并将热点时段样本数据p标记为已访问状态:若所述热点时段样本数据p的邻域内的其他样本数据个数大于或等于minpts,则创建一个簇c,并将所述热点时段样本数据p加入到所述簇c中,将所述热点时段样本数据p的领域内的其他样本数据加入中间集合n,继续执行步骤s53;若所述热点时段样本数据p的邻域内的其他样本数据个数小于minpts,则将所述热点时段样本数据p标记为噪声,然后从初始集合d中选择另一个未被访问的热点时段样本数据,执行步骤s51和步骤s52;步骤s53:遍历所述中间集合n中的每一个热点时段样本数据p’,若热点时段样本数据p’为未访问状态,则检查所述热点时段样本数据p’的邻域内的其他样本数据个数是否大于或等于minpts,并将热点时段样本数据p’标记为已访问状态,若所述热点时段样本数据p’的邻域内的其他样本数据个数大于或等于minpts,则将所述热点时段样本数据p’的邻域内的其他样本数据加入所述中间集合n,同时若热点时段样本数据p’未归入任何簇,则将热点时段样本数据p’加入所述簇c;步骤s54:重复步骤s51、步骤s52和步骤s53,直到所述初始集合d中所有热点时段样本数据均被标记为噪声或加入簇,由此得到的簇c即为伪基站活动热点位置区域热点区域;其中,所述邻域指以热点时段样本数据p或p’的位置为圆心、以半径为r的圆形区域范围。该步骤是将dbscan聚类算法在本发明中的具体应用,通过该算法的处理,可以从热点时段样本数据中提取出每个热点时段的伪基站活动热点位置区域热点区域,每个热点区域都包含了若干个热点时段样本数据的位置点。不同伪基站发送垃圾短信的覆盖范围不同,有研究表明,大部分伪基站的覆盖范围为0-500米,因此,dbscan聚类算法的扫描半径的取值根据伪基站的覆盖范围确定,其取值范围也为0-500米。对于执法人员而言,在伪基站治理行动中,对伪基站的监测范围不宜过大,且伪基站活动的热点位置越密集,则该区域出现伪基站的概率越大,因此,先确定扫描半径的大小,再确定最小包含点数,即采用定一动一的方式,多次实验获取最合理的参数。进一步的,在所述步骤s6中通过加权平均算法确定热点位置中心热点区域中心;具体为:设每个热点位置区域热点区域内包含m个热点时段样本数据的位置点p1,p2,p3,···pi···pm(1≤i≤m),每一个位置点表示为pi=(xi,yi),则热点位置区域热点区域内的中心点表示为p(x,y);其中,x表示中心点p的经度,y表示中心点p的纬度,xi表示位置点pi的经度,yi表示位置点pi的纬度。进一步的,所述步骤s7中的可视化操作具体为,在电子地图上,根据不同的热度层次以不同颜色显示每个热点区域。其中,所述电子地图可以是现有技术中的百度地图、高德地图等任何具有api接口的电子地图。有益效果本发明通过数据清洗、数据分类数据分组、dbscan聚类处理、点聚合等一系列数据处理手段,根据大量的伪基站短信样本数据,梳理出伪基站短信分布的时空特征,从而得到伪基站活动的热点时段和热点区域,并在电子地图上进行可视化显示,帮助执法人员在热点时段和热点区域提前部署,及时采取行动,高效打击伪基站。附图说明图1为本发明实施例提供的一种伪基站短信时空分布模式可视化分析方法的流程图;图2为每个伪基站短信样本数据各字段信息图;图3为伪基站短信样本数据24个小时段伪基站短信数目分布图;图4为工作日以19:00热点时段的伪基站活动位置分布图;图5为非工作日以20:00热点时段的伪基站活动位置分布图;图6为工作日以19:00热点时段的伪基站活动热点位置区域分布图;图7为非工作日以20:00热点时段的伪基站活动热点位置区域分布图;图8为为工作日以19:00热点时段伪基站活动热点区域可视化效果图;图9为非工作日以20:00热点时段伪基站活动热点区域可视化效果图。具体实施方式为了方便更好地理解本发明的内容,下面结合具体实施例对本发明方案进行进一步阐述。本实施例选用chinavis2017挑战赛i的北京市伪基站短信样本数据集,该数据集为2017年2月23日至2017年4月26日共63天时间,360手机卫士收集到的北京市范围内伪基站发送的垃圾短信。所述北京市伪基站短信样本数据集按照收集日期分为63份,全部文本为csv格式,每个短信样本数据包含的字段如图2所示。本实施例具体选取了2017年4月11日、2017年4月12日和2017年4月15日、2017年4月16日的伪基站短信样本数据分别作为工作日与非工作日实验数据集。首先对样本数据进行清洗处理,然后将实验样本数据按照每一小时为一组进行分组,即8时到9时统计的短信样本数据的记录时间为9时。如图3可知,分别对工作日和非工作日进行时间段划分和热点时段提取:(1)工作日:早上6:00开始,伪基站活动开始频繁起来,发送的垃圾短信数目逐渐增多,在上午11:00达到高峰期;12:00-14:00时间段,伪基站活动强度逐渐降低,但发送的短信数目仍然较多;16:00-19:00时间段,伪基站活动强度渐渐增强,发送的垃圾短信数目越来越多,其中19:00时,垃圾短信数目到达一天之中最多;之后20:00-23:00时间段,伪基站活动强度逐渐降低,直至23:00之后伪基站几乎不活动,发送的垃圾短信数目几乎为0。(2)非工作日:早上6:00开始,伪基站活动开始频繁起来,发送的垃圾短信数目逐渐增多,在上午11:00达到高峰期;12:00-14:00时间段,伪基站活动强度逐渐降低,但发送的短信数目仍然较多;16:00-20:00时间段,伪基站活动强度渐渐增强,发送的垃圾短信数目越来越多,其中20:00时,垃圾短信数目到达一天之中最多;之后20:00-23:00时间段,伪基站活动强度逐渐降低;23:00-次日2:00仍然有部分伪基站活动,不断发送的垃圾短信数目;2:00以后则伪基站不再有所活动。(3)工作日热点时段主要为上午11:00与下午19:00;非工作日热点时段主要为上午11:00前后与下午20:00前后。非工作日伪基站活动强度小于工作日,其发送的垃圾短信数目相对较少,主要原因是发票办证类等垃圾短信集中在工作日出现,而非工作日出现较少。选取4月11日与4月12日的样本数据作为工作日的样本数据,以19时(即18时-19时)作为伪基站活动热点时段,从而得到工作日的热点时段样本数据(图4所示)。将工作日的热点时段样本数据进行dbscan聚类处理(扫描半径为22333米,最小包含点数为1012个),并剔除噪声,得到工作日热点时段的伪基站活动热点位置区域热点区域(图6所示)。选取4月15日与4月16日的样本数据作为非工作日的样本数据,以20时(即19时-20时)作为伪基站活动热点时段,从而得到非工作日的热点时段样本数据(图5所示)。将非工作日的热点时段样本数据进行dbscan聚类处理(扫描半径为22333米,最小包含点数为1012个),并剔除噪声,得到非工作日热点时段的伪基站活动热点位置区域热点区域(图7所示)。调用百度地图api提供的点聚合功能,通过公式和分别得到工作日和非工作日伪基站活动热点位置区域热点区域的中心点。最后,为了更加直观的表现不同热点位置区域热点区域的重要性,引入“热度”概念,根据不同热点位置区域热点区域内包含的位置点个数的不同,将热点位置区域热点区域划分为多个不同热度层次,采用不同的颜色予以显示(如图8和图9所示),其对应关系如下表:层次包含位置点个数的范围含义蓝色0-30低热度区域黄色30-60普通热度区域红色60-90活跃热度区域粉色90-120高热度区域紫色120以上非常高热度区域通过上述处理得到的伪基站短信分布时空特征的可视化结果,可以为执法人员打击伪基站提供参考资料。本发明通过数据清洗、数据分类数据分组、dbscan聚类处理、点聚合等一系列数据处理手段,根据大量的伪基站短信样本数据,梳理出伪基站活动的时空特征,从而得到伪基站活动的热点时段和热点区域,并在电子地图上进行可视化显示,帮助执法人员在热点时段和热点区域提前部署,及时采取行动,高效打击伪基站。以上所述仅为本发明的实施例而已,并不用以限制本发明,凡在本发明精神和原则之内,所作任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1