恶意号码识别方法、装置、存储介质和计算机设备与流程

文档序号:18617948发布日期:2019-09-06 22:13阅读:132来源:国知局
恶意号码识别方法、装置、存储介质和计算机设备与流程
本申请涉及计算机
技术领域
,特别是涉及一种恶意号码识别方法、装置、计算机可读存储介质和计算机设备。
背景技术
:在现代生活中,电话成为人们沟通、联系必不可少的工具,有了电话,人们可以方便、快捷地通信。随之而来的,出现了各式各样的恶意电话,比如营销电话、恶意欺诈电话等等,这些来电号码不但会对人们的生活造成影响,还可能造成财产损失。目前,为了能够有效地识别恶意号码,传统方式是根据恶意号码大范围拨打而具有高频的特性进行统计的,或者,是根据用户的大量标记数据来判断的,这些方式对于那些极低频的恶意号码,比如当天只拨打一次的号码,无法有效地识别出来,导致这些低频的恶意号码识别准确率较低。技术实现要素:基于此,有必要针对现有的针对低频恶意号码的识别方式准确率较低的技术问题,提供一种恶意号码识别方法、装置、计算机可读存储介质和计算机设备。一种恶意号码识别方法,包括:获取候选疑似被扰号码;提取所述候选疑似被扰号码在指定时间段的通话话单;根据所述候选疑似被扰号码的通话话单统计所述候选疑似被扰号码的通话特征;根据所述候选疑似被扰号码的通话特征从所述候选疑似被扰号码中确定疑似被扰号码;统计所述疑似被扰号码的通话话单中通话对象号码的通话特征;根据所述通话对象号码的通话特征从所述通话对象号码中筛选出疑似恶意号码;将疑似恶意号码按相应的历史通话记录和历史基站标识聚类,得到聚类簇;当所述聚类簇中成员个数达到阈值时,将所述聚类簇中的疑似恶意号码识别为恶意号码。一种恶意号码识别装置,所述装置包括:获取模块,用于获取候选疑似被扰号码;提取模块,用于提取所述候选疑似被扰号码在指定时间段的通话话单;第一统计模块,用于根据所述候选疑似被扰号码的通话话单统计所述候选疑似被扰号码的通话特征;确定模块,用于根据所述候选疑似被扰号码的通话特征从所述候选疑似被扰号码中确定疑似被扰号码;第二统计模块,用于统计所述疑似被扰号码的通话话单中通话对象号码的通话特征;筛选模块,用于根据所述通话对象号码的通话特征从所述通话对象号码中筛选出疑似恶意号码;聚类模块,用于将疑似恶意号码按相应的历史通话记录和历史基站标识聚类,得到聚类簇;识别模块,用于当所述聚类簇中成员个数达到阈值时,将所述聚类簇中的疑似恶意号码识别为恶意号码。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述恶意号码识别方法的步骤。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述恶意号码识别的步骤。上述恶意号码识别方法、装置、计算机可读存储介质和计算机设备,从单个用户角度出发,也就是以疑似被扰号码为线索来识别恶意号码,能够识别出低频的恶意号码。先获取候选疑似被扰号码,提取候选疑似被扰号码在指定时间段的通话话单,根据通话话单统计各候选疑似被扰号码的通话特征,依据各个候选疑似被扰号码的通话特征从候选疑似被扰号码中确定疑似被扰号码。在确定了疑似被扰号码之后,就提取该疑似被扰号码的通话话单,以找到与该疑似被扰号码通话过的通话对象号码,在统计这些通话对象号码的通话特征后,可以根据通话对象号码的通话特征从通话对象号码筛选出疑似恶意号码。再进一步结合历史通话记录和连接过的基站标识对筛选出的疑似恶意号码进行聚类,在聚类簇中的成员个数达到阈值时,可以锁定属于同一聚类簇的疑似恶意号码为同一批次的恶意号码,进一步提高了对低频恶意号码识别的准确率。附图说明图1为一个实施例中恶意号码识别方法的应用环境图;图2为一个实施例中恶意号码识别方法的流程示意图;图3为一个实施例中从候选疑似被扰号码中确定疑似被扰号码的流程示意图;图4为一个实施例中根据通话对象号码的通话特征从通话对象号码中筛选出疑似恶意号码的流程示意图;图5为一个实施例中根据疑似恶意号码的聚类特征检测出恶意号码团伙的流程示意图;图6为一个具体的应用场景中恶意号码识别方法的流程示意图;图7为一个实施例中恶意号码识别系统的架构示意图;图8为一个具体的实施例中恶意号码识别方法的流程示意图;图9为一个实施例中恶意号码识别装置的结构框图;图10为一个实施例中计算机设备的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。图1为一个实施例中恶意号码识别方法的应用环境图。参照图1,该恶意号码识别方法应用于恶意号码识别系统。该恶意号码识别系统包括通话终端110和计算机设备120。通话终端110和计算机设备120通过网络连接。通话终端110具体可以是具有通话功能的终端,比如手机、固定电话等中的至少一种。计算机设备120可以是独立的服务器或终端,也可以是多个服务器组成的服务器集群,可以是提供云服务器、云数据库、云存储和cdn等基础云计算服务的云服务器。计算机设备120可获取候选疑似被扰号码,提取候选疑似被扰号码在指定时间段的通话话单,根据候选疑似被扰号码的通话话单统计候选疑似被扰号码的通话特征,根据候选疑似被扰号码的通话特征从候选疑似被扰号码中确定疑似被扰号码,然后统计疑似被扰号码的通话话单中通话对象号码的通话特征;根据通话对象号码的通话特征从通话对象号码中筛选出疑似恶意号码;计算机设备120还可进一步将疑似恶意号码按相应历史通话记录和历史基站标识聚类,得到聚类簇;当聚类簇中成员个数达到阈值时,将聚类簇中的疑似恶意号码识别为恶意号码。计算机设备120还可记录识别出的恶意号码,通话终端110可在每次接收到来电时,将来电号码上报至计算机设备120,由计算机设备120将接收的来电号码与记录的恶意号码匹配,并在匹配成功时,向通话终端110反馈该来电号码为恶意号码,通话终端110就可以向用户给出来电号码为恶意号码的提示。需要说明的是,上述的应用环境只是一个示例,在一些实施例中,计算机设备120可以是通话终端,直接将接收的来电号码与本地记录的恶意号码匹配,并在匹配成功时直接向用户给出来电号码为恶意号码的提示。例如,当计算机设备为手机时,手机可直接利用手机上配置的恶意号码识别装置将接收的来电号码与本地记录的恶意号码匹配,并在匹配成功时直接向用户给出来电号码为恶意号码的提示。如图2所示,在一个实施例中,提供了一种恶意号码识别方法。本实施例主要以该方法应用于上述图1中的计算机设备120来举例说明。参照图2,该恶意号码识别方法具体包括如下步骤:s202,获取候选疑似被扰号码。其中,疑似被扰号码是疑似遭受到恶意电话的电话号码。候选疑似被扰号码是大量电话号码的集合,计算机设备可对候选疑似被扰号码进行分析,从中确定疑似被扰号码。计算机设备可从用于存储用户数据的数据库中获取各个用户使用的电话号码,作为候选疑似被扰号码。s204,提取候选疑似被扰号码在指定时间段的通话话单。其中,候选疑似被扰号码在指定时间段的通话话单是包括候选疑似被扰号码在指定时间段的通话记录的数据。若计算机设备每天做一次恶意号码识别,则计算机设备可提取候选疑似被扰号码当天的通话话单;若计算机设备每周做一次恶意号码识别,则计算机设备可提取候选疑似被扰号码每周的通话话单。具体地,计算机设备可在确定了候选疑似被扰号码后,根据运营商及用户的授权,提取各个候选疑似被扰号码在指定时间段的通话话单。s206,根据候选疑似被扰号码的通话话单统计候选疑似被扰号码的通话特征。其中,通话特征是对通话话单中的通话记录进行统计得到的数据。计算机设备可根据在指定时间段的通话话单统计各个候选疑似被扰号码在指定时间段的通话特征,所统计的候选疑似被扰号码的通话特征包括但不限于候选疑似被扰号码在指定时间段的通话次数、主叫次数、被叫次数、通话对象号码的数量(主叫过的号码的数量与被叫过的号码数量之和)、主叫过的号码的数量、被叫过的号码的数量、平均主叫时长、平均被叫时长,等等。s208,根据候选疑似被扰号码的通话特征从候选疑似被扰号码中确定疑似被扰号码。具体地,计算机设备可在得到各个候选疑似被扰号码在指定时间段的通话特征后,就可根据各自的通话特征从这些号码中确定出疑似被扰号码。在一个实施例中,步骤s208,根据候选疑似被扰号码的通话特征从候选疑似被扰号码中确定疑似被扰号码具体包括:根据候选疑似被扰号码的通话特征,计算候选疑似被扰号码在指定时间段的被叫率、被叫平均时长和被叫号码重复率;当被叫率、被叫平均时长以及被叫号码重复率满足疑似被扰条件时,将候选疑似被扰号码确定为疑似被扰号码。其中,被叫率是被叫次数与通话次数的比例。被叫平均时长是被叫总时长与被叫次数的比例。被叫号码重复率是被叫过的号码的数量与被叫次数的比例。疑似被扰条件,是预设的用于根据候选疑似被扰号码的通话特征判定该候选疑似被扰号码是否为疑似被扰号码的条件。当该候选疑似被扰号码的被叫率较高、且被叫平均时长较短以及被叫号码重复率较低时,可判定该候选疑似被扰号码为疑似被扰号码。比如,疑似被扰条件可以是:(a)被叫率较高:被叫次数/通话次数≥0.8,其中,被叫次数≥15(次);(b)被叫平均时长较短:被叫总时长/被叫次数≤30(秒);(c)被叫号码重复率较低:被叫过的号码的数量/被叫次数≥0.9。在判断候选疑似被扰号码是否为疑似被扰号码时,可根据上述条件中的至少一个来判定。在一个实施例中,当候选疑似被扰号码同时满足这三个条件时,可以判定为疑似被扰号码。具体地,计算机设备可基于用户所使用电话号码在指定时间段的通话话单来统计所使用电话号码的通话特征,从而根据通话特征判断该用户是否为疑似遭受大量恶意电话的骚扰的用户,用户所使用的电话号码可以称之为候选疑似被扰号码。比如,计算机设备可提取候选疑似被扰号码当天的通话话单,根据当天的通话话单统计候选疑似被扰号码的通话特征,根据通话特征计算候选疑似被扰号码当天的被叫率、被叫平均时长和被叫号码重复率,当被叫率、被叫平均时长以及被叫号码重复率满足疑似被扰条件时,将候选疑似被扰号码确定为疑似被扰号码。对于每个候选疑似被扰号码,都基于各自当天的通话话单执行上述步骤,以确定是否为疑似被扰号码。在一个实施例中,计算机设备也可分别为计算得到的候选疑似被扰号码在指定时间段的被叫率、被叫平均时长和被叫号码重复率设置相应的权重系数,按照相应的权重系数对统计的数值进行加权求和,基于加权求和后得到的被扰分数来判定是否为疑似被扰号码。表(1)为一个实施例中根据候选疑似被扰号码当天的通话话单统计的通话特征,包括但不限于候选疑似被扰号码当天的通话次数、主叫次数、被叫次数、通话对象号码的数量(主叫过的号码的数量与被叫过的号码数量之和)、主叫过的号码的数量、被叫过的号码的数量、平均主叫时长、平均被叫时长。疑似被扰号码的通话特征通话特征说明phonenumber疑似被扰号码call_times通话次数src_times主叫次数dst_times被叫次数call_cnt通话对象号码的数量src_cnt主叫过的号码的数量dst_cnt被叫过的号码的数量avg_src_duration平均主叫时长avg_dst_duration平均被叫时长表(1)如图3所示,为一个实施例中从候选疑似被扰号码中确定疑似被扰号码的流程示意图。参照图3,该流程示意图包括3个步骤,首先统计用户所使用号码当天的通话特征,然后根据通话特征计算当天该号码对应的被叫率、被叫平均时长以及被叫号码重复率,以判断该号码是否符合疑似被扰条件,继而确定当天疑似遭受到大量骚扰的用户所使用的号码为疑似被扰号码。s210,统计疑似被扰号码的通话话单中通话对象号码的通话特征。其中,疑似被扰号码的通话话单是包括疑似被扰号码的通话记录的数据,通话对象号码是与使用疑似被扰号码的用户通话过的对象所使用的号码,包括疑似被扰号码对应的主叫号码和被叫号码中的至少一种,可以是在指定时间段与使用疑似被扰号码的用户通话过的对象所使用的号码。通话对象号码的通话特征包括全局通话特征和局部通话特征。在一个实施例中,步骤s210,统计疑似被扰号码的通话话单中通话对象号码的通话特征包括:查询疑似被扰号码在指定时间段的通话话单;根据疑似被扰号码在指定时间段的通话话单确定与疑似被扰号码对应的通话对象号码;提取各通话对象号码在指定时间段的通话话单;根据各通话对象号码在指定时间段的通话话单,统计各通话对象号码的全局通话特征以及各通话对象号码与疑似被扰号码之间的局部通话特征。具体地,计算机设备在从候选疑似被扰号码中确定出疑似被扰号码后,可进一步根据疑似被扰号码在指定时间段的通话话单查找与疑似被扰号码通话过的各个号码,并提取各个通话对象号码在指定时间段的通话话单,根据这些通话对象号码在指定时间段的通话话单统计相应的全局通话特征以及各个通话对象号码与疑似被扰号码之间的局部通话特征。这里需要说明的是,在查询的疑似被扰号码在指定时间段的通话话单与提取的通话对象号码在指定时段的通话话单中,前者与后者的指定时间段可以相同,比如可以都是当天的,也可以不同,比如前者是一周内的,而后者是当天的。其中,全局通话特征是疑似被扰号码的通话话单中通话对象号码的整体通话特征。在一个实施例中,全局通话特征包括通话对象号码的全局通话次数、全局主叫次数、全局被叫次数、通话过的号码的全局数量、主叫过的号码的全局数量、被叫过的号码的全局数量、全局平均主叫时长以及全局平均被叫时长中的至少一种。如表(2)所示,为一个实施例中根据与疑似被扰号码对应的通话对象号码在指定时间段的通话话单统计的全局通话特征,包括该号码在指定时间段的全局通话次数、全局主叫次数、全局被叫次数、通话过的号码的全局数量、主叫过的号码的全局数量、被叫过的号码的全局数量、全局平均主叫时长以及全局平均被叫时长。表(2)局部通话特征是通话对象号码与疑似被扰号码之间的通话特征。在一个实施例中,局部通话特征包括通话对象号码在指定时间段与疑似被扰号码之间的局部通话次数、与疑似被扰号码之间的局部主叫次数、与疑似被扰号码之间的局部被叫次数、与疑似被扰号码之间的局部平均主叫时长和与疑似被扰号码之间的局部平均被叫时长中的至少一种。如表(3)所示,为一个实施例中根据通话对象号码当天的通话话单统计的局部通话特征,包括该通话对象号码当天与疑似被扰号码之间的局部通话次数、与疑似被扰号码之间的局部主叫次数、与疑似被扰号码之间的局部被叫次数、与疑似被扰号码之间的局部平均主叫时长和与疑似被扰号码之间的局部平均被叫时长。表(3)s212,根据通话对象号码的通话特征从通话对象号码中筛选出疑似恶意号码。其中,疑似恶意号码是疑似属于恶意号码集合中的低频恶意号码。计算机设备可依据统计的各个通话对象号码的通话特征从通话对象号码中筛选疑似对疑似被扰号码进行骚扰的号码。在一个实施例中,步骤s212,根据通话对象号码的通话特征从通话对象号码中筛选出疑似恶意号码包括:根据各通话对象号码的全局通话特征计算各通话对象号码在指定时间段的全局主叫率、全局主叫平均时长、全局主叫号码重复率以及全局通话频次;根据各通话对象号码的局部通话特征计算各通话对象号码在指定时间段与疑似被扰号码之间的局部主叫率、与疑似被扰号码之间的局部主叫平均时长、与疑似被扰号码之间局部主叫号码重复率以及与疑似被扰号码之间的局部通话频次;按照全局主叫率、全局主叫平均时长、全局主叫号码重复率以及全局通话频次、局部主叫率、局部主叫平均时长、局部主叫号码重复率以及局部通话频次从各通话对象号码中筛选出疑似恶意号码。其中,全局主叫率是全局主叫次数与全局通话次数的比例,局部主叫率是局部主叫次数与局部通话次数的比例;全局主叫平均时长是全局主叫总时长与全局主叫次数的比例,局部主叫平均时长是全局主叫总时长与局部主叫次数的比例;全局主叫号码重复率是主叫过的号码的全局数量与全局主叫次数的比例,局部主叫号码重复率是主叫过的号码的局部数量与局部主叫次数的比例;全局通话频次可以等于全局通话次数,局部通话频次可以等于局部通话次数。在一个实施例中,计算机设备可获取预先设定的疑似骚扰条件,将统计的通话对象号码的全局主叫率、全局主叫平均时长、全局主叫号码重复率以及全局通话频次、局部主叫率、局部主叫平均时长、局部主叫号码重复率以及局部通话频次与疑似骚扰条件进行对比,在全局主叫率、全局主叫平均时长、全局主叫号码重复率以及全局通话频次、局部主叫率、局部主叫平均时长、局部主叫号码重复率以及局部通话频次满足疑似骚扰条件时,将该通话对象号码判定为疑似恶意号码。需要说明的是,对于每个通话对象号码而言,主叫过的号码的局部数量和被叫过的号码的局部数量可以默认为1,并且这1个主叫过的号码、被叫过的号码均为疑似被扰号码。具体地,当通话对象号码的全局主叫率以及局部主叫率较高、且全局主叫平均时长以及局部主叫平均时长较短、且全局主叫号码重复率以及局部主叫号码重复率较低、且全局通话频次以及局部通话频次较低时,判定该通话对象号码为疑似恶意号码。例如:(a)全局主叫率较高:全局主叫次数/全局通话次数≥0.9;局部主叫率较高:局部主叫次数/局部通话次数≥0.9;(b)全局主叫平均时长较短:全局主叫总时长/全局主叫次数≤30(秒);局部主叫平均时长较短:局部主叫总时长/局部主叫次数≤30(秒);(c)全局主叫号码重复率较低:主叫过的号码的全局数量/全局主叫次数≥0.9;局部主叫号码重复率较低:主叫过的号码的局部数量/局部主叫次数≥0.9;(d)全局通话频次较低:全局通话次数≤10(次);局部通话频次低:局部通话次数≤2(次)。在判断疑似被扰号码的通话话单中各个通话对象号码是否为疑似恶意号码时,均可根据上述四个条件中的至少一个来判定。在一个实施例中,当通话对象号码同时满足这四个条件时,可以判定为该号码为疑似恶意号码。如图4所示,为一个实施例中根据通话对象号码的通话特征从通话对象号码中筛选出疑似恶意号码的流程示意图。参照图4,该流程图包括4个步骤,首先查询疑似被扰号码的通话话单找到与疑似被扰号码通话过的通话对象号码,然后提取通话对象号码在指定时间段的通话话单,根据通话话单统计通话对象号码的全局通话特征和与疑似被扰号码之间的局部通话特征,接着根据全局通话特征和局部特征计算通话对象号码对应的全局主叫率、全局主叫平均时长、全局主叫号码重复率以及全局通话频次、局部主叫率、局部主叫平均时长、局部主叫号码重复率以及局部通话频次,以判断该通话对象号码是否符合疑似骚扰条件,从而将符合疑似骚扰条件的通话对象号码判定为疑似恶意号码。s214,将疑似恶意号码按相应历史通话记录和历史基站标识聚类,得到聚类簇。具体地,计算机设备可按照步骤s210至步骤s212确定每个疑似被扰号码对应的疑似恶意号码,对于确定的疑似恶意号码,可按照各自的历史通话记录和历史基站标识聚类,以将不同的疑似恶意号码聚集在一个类别中,形成聚类簇。其中,历史通话记录是疑似恶意号码的过去一段时间内的通话记录,比如过去14天的通话记录。历史基站标识是疑似恶意号码在过去一段时间内所连接基站的标识,比如基站lac(locationareacode,位置区域码),可以用于表示使用该疑似恶意号码的终端出现过的位置。在一个实施例中,步骤s214,将疑似恶意号码按相应的历史通话记录和历史基站标识聚类,得到聚类簇包括:获取筛选出的各疑似恶意号码的历史通话记录和历史基站标识;确定具有相同历史通话号码和相同历史基站标识的疑似恶意号码;将确定的疑似恶意号码聚类为聚类簇。具体地,计算机设备可提取确定的疑似恶意号码在过去一段时间内容的通话记录和连接过的基站标识,确定两个疑似恶意号码中是否在过去这段时间内有过共同骚扰过的号码以及有过共同出现的基站位置,若是,这说明这两个疑似恶意号码属于一个骚扰团伙,可将这两个疑似恶意号码聚集到一个聚类簇。在一个实施例中,计算机设备还可获取各个疑似恶意号码当天的通话话单以及当天所连接的基站标识,确定两个疑似恶意号码是否在当天共同骚扰过相同的号码以及出现在相同的位置,若是,这说明这两个疑似恶意号码属于一个骚扰团伙,可将这两个疑似恶意号码聚集到一个聚类簇。在一个实施例中,计算机设备可依次遍历各个疑似恶意号码当天的通话记录、所连接基站标识和历史通话记录、历史基站标识,以统计各个疑似恶意号码的聚类特征,并根据聚类特征按照预设的恶意号码聚类条件将疑似恶意号码聚类。疑似恶意号码的聚类特征包括当天骚扰过的号码列表、当天连接过的基站标识列表、历史骚扰过的号码列表、历史连接过的基站标识列表中的至少一种。如表(4)所示,为一个实施例中按照疑似恶意号码的通话记录、基站标识统计的聚类特征,包括当天骚扰的号码列表、当天连接过的基站标识列表、历史骚扰的号码列表、历史连接过的基站标识列表。聚类特征聚类特征说明phone疑似恶意号码relat_cheated_user_list当天骚扰过的号码列表relat_lac_list当天连接过的基站标识列表past_disturb_phone_list历史骚扰过的号码列表past_lac_list历史连接过的基站标识列表表(4)具体地,当两个疑似恶意号码在当天有过共同骚扰过的号码、且在过去有过共同骚扰过的号码、且当天或过去有过共同连接过的基站标识时,判定这两个号码满足恶意号码聚类条件,属于同一个聚类簇。比如,第一疑似恶意号码(phone1)与第二疑似恶意号码(phone2)之间的恶意号码聚类条件可以是:(a)当天有过共同骚扰过的号码:phone1_relat_cheated_user_list∩phone2_relat_cheated_user_list≥1;(b)过去有过共同骚扰过的号码:phone1_past_disturb_phone_list∩phone2_past_disturb_phone_list≥1;(c)过去或当天有过共同骚扰过的号码:phone1_past_lac_list∩phone2_past_lac_list≥1orphone1_relat_lac_list∩phone2_relat_lac_list≥1。在判断疑似恶意号码是否属于某个聚类簇时,均可根据上述三个条件中的至少一个来判定。在一个实施例中,当两个疑似恶意号码同时满足这三个条件时,可将这两个疑似恶意号码聚集到一个聚类簇中。s216,当聚类簇中成员个数达到阈值时,将聚类簇中的疑似恶意号码识别为恶意号码。具体地,当聚类簇中成员个数达到阈值时,也就是多个疑似恶意号码可按照历史通话记录与历史基站标识而聚集,说明这多个疑似恶意号码属于一个团伙的骚扰行为,则可将形成的聚类簇中的疑似恶意号码识别为恶意号码,属于一批次的低频恶意号码。设定的成员个数的阈值比如可以是3,当聚类簇中成员个数大于或等于3个时,则说明聚类簇中的各个疑似恶意号码属于一个恶意号码团伙,这个聚类簇中的疑似恶意号码均会被判定为恶意号码。在一个实施例中,聚类簇中各个疑似恶意号码的聚类特征可与该聚类簇中任意一个疑似恶意号码的聚类特征满足恶意号码聚类条件,也就是聚类簇中两两成员之间均满足恶意号码聚类条件。在另一个实施例中,聚类簇中只要存在聚类特征与疑似恶意号码的聚类特征满足恶意号码聚类条件的号码即可,不需要任意两个成员之间均满足恶意号码聚类条件。如图5所示,为一个实施例中根据疑似恶意号码的聚类特征检测出恶意号码团伙的流程示意图。参照图5,该流程图包括3个步骤,首先提取各个疑似恶意号码的通话记录和基站标识列表,然后统计各个疑似恶意号码的聚类特征,接着按照恶意号码聚类条件进行聚类,从而检测出恶意号码团伙。如图6所示,为一个具体的应用场景中恶意号码识别方法的流程示意图。参照图6,包括以下步骤:1)调用受害用户识别子模块收集各个用户的通话记录;2)调用受害用户识别子模块统计各个用户所使用号码的通话特征,然后根据通话特征判断当前用户所使用号码是否为疑似被扰号码,若否,说明当前用户没有受到恶意电话的骚扰;3)若是,说明当前用户疑似遭受了恶意电话的骚扰,则获取与当前用户通话过的通话对象号码的通话记录;继续通过骚扰特征检测子模块根据通话对象号码的通话记录统计各个通话对象号码的通话特征;4)根据各个通话对象号码的通话特征判断是否属于疑似恶意号码,若否,则通话对象号码中不存在恶意号码,说明当前用户没有受到恶意电话的骚扰;5)若是,说明当前用户疑似遭受了恶意电话的骚扰;继续通过团伙聚类检测子模块获取疑似恶意号码的历史通话记录和历史连接过的基站标识,据以统计疑似恶意号码的聚类特征;6)按照恶意号码聚类条件进行聚类得到聚类簇,接着判断聚类簇中成员个数是否达到阈值,若否,则判定聚类簇中各个疑似恶意号码均不是恶意号码;7)若是,则判定聚类簇中各个疑似恶意号码均为低频的恶意号码并记录下这些恶意号码。如图7所示,为一个实施例中恶意号码识别系统的架构示意图。参照图7,恶意号码识别模块调用受害用户识别子模块确定疑似遭受到批量骚扰的受害用户所使用的号码;恶意号码识别模块调用骚扰特征检测子模块利用调取的通话对象号码的通话记录统计对应的通话特征得到疑似恶意号码;最后通过恶意号码识别模块调用团伙聚类检测子模块获取疑似恶意号码的历史通话记录和历史基站标识,若一批疑似恶意号码存在历史通话记录和历史基站标识的聚集,则说明这一批疑似恶意号码属于一个团伙,并将这一批号码都判定为恶意号码。上述恶意号码识别方法,从单个用户角度出发,也就是以疑似被扰号码为线索来识别恶意号码,能够识别出低频的恶意号码。先获取候选疑似被扰号码,提取候选疑似被扰号码在指定时间段的通话话单,根据通话话单统计各候选疑似被扰号码的通话特征,依据各个候选疑似被扰号码的通话特征从候选疑似被扰号码中确定疑似被扰号码。在确定了疑似被扰号码之后,就提取该疑似被扰号码的通话话单,以找到与该疑似被扰号码通话过的通话对象号码,在统计这些号码的通话特征后,可以根据通话特征从通话对象号码筛选出疑似恶意号码。再进一步结合历史通话记录和连接过的基站标识对筛选出的疑似恶意号码进行聚类,在聚类簇中的成员个数达到阈值时,可以锁定属于同一聚类簇的疑似恶意号码为同一批次的恶意号码,进一步提高了对低频恶意号码识别的准确率。在一个实施例中,恶意号码识别方法还包括以下步骤:记录识别出的恶意号码;将接收到的来电号码与记录的恶意号码匹配;在匹配成功时,提示来电号码为恶意号码。具体地,计算机设备可以是服务器,服务器可将识别出的恶意号码记录下来,并接收通话终端在接收到来电时上报的来电号码,服务器将接收到的来电号码与记录的恶意号码匹配,在匹配成功时,向通话终端下发来电号码为恶意号码的提示,通话终端可向用户提示该来电号码为恶意号码。计算机设备本身也可以是通话终端,通话终端可以记录识别出的恶意号码,在接收到来电时,获取来电号码并与记录的恶意号码匹配,在匹配成功时,直接给出该来电号码为恶意号码的提示,可以提示用户该号码为恶意号码,避免了用户遭受电话骚扰。如图8所示,为一个具体的实施例中恶意号码识别方法的流程示意图,该方法具体包括以下步骤:s802,获取候选疑似被扰号码。s804,提取候选疑似被扰号码在指定时间段的通话话单。s806,根据候选疑似被扰号码的通话话单统计候选疑似被扰号码的通话特征。s808,根据候选疑似被扰号码的通话特征,计算候选疑似被扰号码在指定时间段的被叫率、被叫平均时长和被叫号码重复率。s810,当被叫率、被叫平均时长以及被叫号码重复率满足疑似被扰条件时,将候选疑似被扰号码确定为疑似被扰号码。s812,查询疑似被扰号码在指定时间段的通话话单。s814,根据疑似被扰号码在指定时间段的通话话单确定与疑似被扰号码对应的通话对象号码。s816,提取各通话对象号码在指定时间段的通话话单。s818,根据各通话对象号码在指定时间段的通话话单,统计各通话对象号码的全局通话特征以及各通话对象号码与疑似被扰号码之间的局部通话特征。s820,根据各通话对象号码的全局通话特征计算各通话对象号码在指定时间段的全局主叫率、全局主叫平均时长、全局主叫号码重复率以及全局通话频次。s822,根据各通话对象号码的局部通话特征计算各通话对象号码在指定时间段与疑似被扰号码之间的局部主叫率、与疑似被扰号码之间的局部主叫平均时长、与疑似被扰号码之间局部主叫号码重复率以及与疑似被扰号码之间的局部通话频次。s824,按照全局主叫率、全局主叫平均时长、全局主叫号码重复率以及全局通话频次、局部主叫率、局部主叫平均时长、局部主叫号码重复率以及局部通话频次从各通话对象号码中筛选出疑似恶意号码。s826,获取筛选出的各疑似恶意号码的历史通话记录和历史基站标识。s828,确定具有相同历史通话号码和相同历史基站标识的疑似恶意号码。s830,将确定的疑似恶意号码聚类为聚类簇。s832,当聚类簇中成员个数达到阈值时,将聚类簇中的疑似恶意号码识别为恶意号码。s834,记录识别出的恶意号码。s836,将接收到的来电号码与记录的恶意号码匹配;在匹配成功时,提示来电号码为恶意号码。上述恶意号码识别方法,从单个用户角度出发,也就是以疑似被扰号码为线索来识别恶意号码,能够识别出低频的恶意号码。先获取候选疑似被扰号码,提取候选疑似被扰号码在指定时间段的通话话单,根据通话话单统计各候选疑似被扰号码的通话特征,依据各个候选疑似被扰号码的通话特征从候选疑似被扰号码中确定疑似被扰号码。在确定了疑似被扰号码之后,就提取该疑似被扰号码的通话话单,以找到与该疑似被扰号码通话过的通话对象号码,在统计这些号码的通话特征后,可以根据通话特征从通话对象号码筛选出疑似恶意号码。再进一步结合历史通话记录和连接过的基站标识对筛选出的疑似恶意号码进行聚类,在聚类簇中的成员个数达到阈值时,可以锁定属于同一聚类簇的疑似恶意号码为同一批次的恶意号码,进一步提高了对低频恶意号码识别的准确率。图8为一个实施例中恶意号码识别方法的流程示意图。应该理解的是,虽然图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图8中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。在一个实施例中,如图9所示,提供了一种恶意号码识别装置900,该装置包括获取模块902、提取模块904、第一统计模块906、确定模块908、第二统计模块910、筛选模块912、聚类模块914和识别模块916,其中:获取模块902,用于获取候选疑似被扰号码;提取模块904,用于提取候选疑似被扰号码在指定时间段的通话话单;第一统计模块906,用于根据候选疑似被扰号码的通话话单统计候选疑似被扰号码的通话特征;确定模块908,用于根据候选疑似被扰号码的通话特征从候选疑似被扰号码中确定疑似被扰号码;第二统计模块910,用于统计疑似被扰号码的通话话单中通话对象号码的通话特征;筛选模块912,用于根据通话对象号码的通话特征从通话对象号码中筛选出疑似恶意号码;聚类模块914,用于将疑似恶意号码按相应的历史通话记录和历史基站标识聚类,得到聚类簇;识别模块916,用于当聚类簇中成员个数达到阈值时,将聚类簇中的疑似恶意号码识别为恶意号码。在一个实施例中,确定模块908还用于根据候选疑似被扰号码的通话特征,计算候选疑似被扰号码在指定时间段的被叫率、被叫平均时长和被叫号码重复率;当被叫率、被叫平均时长以及被叫号码重复率满足疑似被扰条件时,将候选疑似被扰号码确定为疑似被扰号码。在一个实施例中,通话对象号码的通话特征包括全局通话特征和局部通话特征;第二统计模块910还用于查询疑似被扰号码在指定时间段的通话话单;根据疑似被扰号码在指定时间段的通话话单确定与疑似被扰号码对应的通话对象号码;提取各通话对象号码在指定时间段的通话话单;根据各通话对象号码在指定时间段的通话话单,统计各通话对象号码的全局通话特征以及各通话对象号码与疑似被扰号码之间的局部通话特征。在一个实施例中,筛选模块912还用于根据各通话对象号码的全局通话特征计算各通话对象号码在指定时间段的全局主叫率、全局主叫平均时长、全局主叫号码重复率以及全局通话频次;根据各通话对象号码的局部通话特征计算各通话对象号码在指定时间段与疑似被扰号码之间的局部主叫率、与疑似被扰号码之间的局部主叫平均时长、与疑似被扰号码之间局部主叫号码重复率以及与疑似被扰号码之间的局部通话频次;按照全局主叫率、全局主叫平均时长、全局主叫号码重复率以及全局通话频次、局部主叫率、局部主叫平均时长、局部主叫号码重复率以及局部通话频次从各通话对象号码中筛选出疑似恶意号码。在一个实施例中,第二统计模块910还用于根据各通话对象号码在指定时间段的通话话单,统计各通话对象号码在指定时间段的全局通话次数、全局主叫次数、全局被叫次数、通话过的号码的全局数量、主叫过的号码的全局数量、被叫过的号码的全局数量、全局平均主叫时长和全局平均被叫时长中的至少一种;统计各通话对象号码与疑似被扰号码之间的局部通话次数、与疑似被扰号码之间的局部主叫次数、与疑似被扰号码之间的局部被叫次数、与疑似被扰号码之间的局部平均主叫时长和与疑似被扰号码之间的局部平均被叫时长。在一个实施例中,聚类模块914还用于获取筛选出的各疑似恶意号码的历史通话记录和历史基站标识;确定具有相同历史通话号码和相同历史基站标识的疑似恶意号码;将确定的疑似恶意号码聚类为聚类簇。在一个实施例中,恶意号码识别装置900还包括记录模块、匹配模块和提示模块;记录模块用于记录识别出的恶意号码;匹配模块用于将接收到的来电号码与记录的恶意号码匹配;提示模块用于在匹配成功时,提示来电号码为恶意号码。上述恶意号码识别装置900,从单个用户角度出发,也就是以疑似被扰号码为线索来识别恶意号码,能够识别出低频的恶意号码。先获取候选疑似被扰号码,提取候选疑似被扰号码在指定时间段的通话话单,根据通话话单统计各候选疑似被扰号码的通话特征,依据各个候选疑似被扰号码的通话特征从候选疑似被扰号码中确定疑似被扰号码。在确定了疑似被扰号码之后,就提取该疑似被扰号码的通话话单,以找到与该疑似被扰号码通话过的通话对象号码,在统计这些号码的通话特征后,可以根据通话特征从通话对象号码筛选出疑似恶意号码。再进一步结合历史通话记录和连接过的基站标识对筛选出的疑似恶意号码进行聚类,在聚类簇中的成员个数达到阈值时,可以锁定属于同一聚类簇的疑似恶意号码为同一批次的恶意号码,进一步提高了对低频恶意号码识别的准确率。图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的计算机设备120。如图10所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现恶意号码识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行恶意号码识别方法。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。在一个实施例中,本申请提供的恶意号码识别装置900可以实现为一种计算机程序的形式,计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该恶意号码识别装置900的各个程序模块,比如,图9所示的获取模块902、提取模块904、第一统计模块906、确定模块908、第二统计模块910、筛选模块912、聚类模块914和识别模块916。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的恶意号码识别方法中的步骤。例如,图10所示的计算机设备可以通过如图9所示的恶意号码识别装置900中的获取模块902执行步骤s202。计算机设备可通过提取模块904执行步骤s204。计算机设备可通过第一统计模块906执行步骤s206。计算机设备可通过确定模块908执行步骤s208。计算机设备可通过第二统计模块910执行步骤s210。计算机设备可通过筛选模块912执行步骤s212。计算机设备可通过聚类模块914执行步骤s214。计算机设备可通过识别模块916执行步骤s216。在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述恶意号码识别方法的步骤。此处恶意号码识别方法的步骤可以是上述各个实施例的恶意号码识别方法中的步骤。在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述恶意号码识别方法的步骤。此处恶意号码识别方法的步骤可以是上述各个实施例的恶意号码识别方法中的步骤。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1