本发明涉及通信安全,特别是涉及一种通信诈骗识别方法、装置、电子设备和存储介质。
背景技术:
1、随着国家和运营商对通讯诈骗的持续高压态势,诈骗分子也在不断研究尝试规避打击的方法和手段。目前通讯诈骗呈现的形式是:1、诈骗用户逐渐由新入网用户向老用户倾斜。2、从诈骗行为上看出现了很多呼叫频次低,单日呼叫量少的涉诈用户。3、出现很多诈骗用户在被运营商的反诈手段识别停机后又进行实名核验复机,然后继续执行诈骗。
2、针对以上问题,运营商急需研究新的反诈技术手段对现有反诈体系进行完善,实现对这些新型诈骗行为进行高精度的甄别。
技术实现思路
1、鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种通信诈骗识别方法、装置、电子设备和存储介质。
2、为了解决上述问题,第一方面,本发明实施例公开了一种通信诈骗识别方法,所述方法包括:
3、获取主叫号码n天内的通话数据,其中,n为大于0的整数,所述通话数据包括被叫号码、通话时间、通话时长、主叫号码通话地、被叫号码通话地;
4、将前n/2天内的所述通话数据作为第一通话数据,将后n/2天内的所述通话数据作为第二通话数据;
5、根据所述第一通话数据、所述第二通话数据,确定通话指标;所述通话指标包括:所述第一通话数据中被叫号码总数、所述第二通话数据中被叫号码总数、所述第一通话数据中短联号码占比、所述第二通话数据中短联号码占比、常联号码相似度、短联号码相似度、长途通话占比中至少一种;所述常联号码相似度为第一通话数据中的常联号码与第二通话数据中的常联号码相似度,所述短联号码相似度为第一通话数据中的短联号码与第二通话数据中的短联号码相似度;
6、判断所述通话指标是否满足第一预设条件;
7、若所述通话指标满足第一预设条件,则确定所述主叫号码为通信诈骗号码。
8、可选的,所述根据所述第一通话数据、所述第二通话数据,确定通话指标,包括:
9、根据所述第一通话数据的所述通话时间、所述通话时长,从所述第一通话数据的被叫号码中确定常联号码和短联号码;以及根据所述第二通话数据的所述通话时间、所述通话时长,从所述第二通话数据的被叫号码中确定常联号码和短联号码;
10、根据所述第一通话数据的常联号码和短联号码、所述第二通话数据的常联号码和短联号码,确定n天内常联号码总数和短联号码总数;以及,确定所述第一通话数据和所述第二通话数据中,重复的常联号码个数和重复的短联号码个数;
11、将所述重复的常联号码个数和所述n天内的常联号码总数的比值,作为常联号码相似度;
12、将所述重复的短联号码个数和所述n天内的短联号码总数的比值,作为短联号码相似度。
13、可选的,所述根据所述第一通话数据的所述通话时间、所述通话时长,从所述第一通话数据的被叫号码中确定常联号码和短联号码,包括:
14、将所述主叫号码分别与所述第一通话数据中的各个被叫号码组成号码对,得到第一号码对集合;
15、根据所述第一通话数据的所述通话时间、所述通话时长,确定所述第一号码对集合中每个号码对的号码对特征,所述号码对特征包括:主叫次数、被叫次数、平均时长、最大时长、通话天数;
16、当号码对的号码对特征满足第二预设条件时,将号码对中的被叫号码标记为常联号码;其中,所述第二预设条件包括:所述主叫次数大于等于第一预设数值,所述被叫次数大于等于第二预设数值,所述平均时长大于等于第三预设数值,所述最大时长大于等于第四预设数值,所述通话天数大于第五预设数值;
17、当号码对的所述号码对特征不满足所述第二预设条件时,将号码对中的被叫号码标记为短联号码;
18、所述根据所述第二通话数据的所述通话时间、所述通话时长,从所述第二通话数据的被叫号码中确定常联号码和短联号码,包括:
19、将所述主叫号码与所述第二通话数据中的各个被叫号码组成号码对,得到第二号码对集合;
20、根据所述第二通话数据的所述通话时间、所述通话时长,确定所述第二号码对集合中每个号码对的所述号码对特征;
21、当号码对的所述号码对特征满足所述第二预设条件时,将号码对中的被叫号码标记为常联号码;
22、当号码对的所述号码对特征不满足所述第二预设条件时,将号码对中的被叫号码标记为短联号码。
23、可选的,所述通话天数为号码对存在呼叫记录的天数,所述平均时长为号码对累计通话时长与所述通话天数的比值。
24、可选的,所述根据所述第一通话数据、所述第二通话数据,确定通话指标,包括:
25、根据所述第一通话数据的短联号码,统计所述第一通话数据中的短联号码总数;
26、根据所述第一通话数据的被叫号码,统计所述第一通话数据中被叫号码总数;
27、将所述第一通话数据中的短联号码总数和所述第一通话数据中被叫号码总数的比值,作为所述第一通话数据中短联号码占比;
28、根据所述第二通话数据的短联号码,统计所述第二通话数据中的短联号码总数;
29、根据所述第二通话数据的被叫号码,统计所述第二通话数据中被叫号码总数;
30、将所述第二通话数据中的短联号码总数和所述第二通话数据中被叫号码总数的比值,作为所述第二通话数据中短联号码占比。
31、可选的,所述根据所述第一通话数据、所述第二通话数据,确定通话指标,包括:
32、根据所述第一通话数据的所述主叫号码通话地和所述被叫号码通话地、所述第二通话数据的所述主叫号码通话地和所述被叫号码通话地,统计n天内长途通话号码个数;
33、根据所述第一通话数据的被叫号码、所述第二通话数据的被叫号码,统计n天内被叫号码总数;
34、将所述n天内长途通话号码个数和所述n天内被叫号码总数的比值,作为长途通话占比。
35、可选的,所述第一预设条件包括:所述长途通话占比大于第六预设数值,所述第一通话数据中被叫号码总数大于等于第七预设数值,所述第二通话数据中被叫号码总数大于等于第八预设数值,所述第一通话数据中短联号码占比和所述第二通话数据中短联号码占比的最大值大于第九预设数值,所述常联号码相似度小于第十预设数值,所述短联号码相似度小于第十一预设数值。
36、第二方面,本发明实施例公开了一种通信诈骗识别装置,所述装置包括:
37、数据获取模块,用于获取主叫号码n天内的通话数据,其中,n为大于0的整数,所述通话数据包括被叫号码、通话时间、通话时长、主叫号码通话地、被叫号码通话地;
38、数据分类模块,用于将前n/2天内的所述通话数据作为第一通话数据,将后n/2天内的所述通话数据作为第二通话数据;
39、通话指标确定模块,用于根据所述第一通话数据、所述第二通话数据,确定通话指标;所述通话指标包括:所述第一通话数据中被叫号码总数、所述第二通话数据中被叫号码总数、所述第一通话数据中短联号码占比、所述第二通话数据中短联号码占比、常联号码相似度、短联号码相似度、长途通话占比中至少一种;所述常联号码相似度为第一通话数据中的常联号码与第二通话数据中的常联号码相似度,所述短联号码相似度为第一通话数据中的短联号码与第二通话数据中的短联号码相似度;
40、通话指标判断模块,用于判断所述通话指标是否满足第一预设条件;
41、判断结果确定模块,用于若所述通话指标满足第一预设条件,则确定所述主叫号码为通信诈骗号码。
42、可选的,所述通话指标确定模块用于:
43、根据所述第一通话数据的所述通话时间、所述通话时长,从所述第一通话数据的被叫号码中确定常联号码和短联号码;以及根据所述第二通话数据的所述通话时间、所述通话时长,从所述第二通话数据的被叫号码中确定常联号码和短联号码;
44、根据所述第一通话数据的常联号码和短联号码、所述第二通话数据的常联号码和短联号码,确定n天内常联号码总数和短联号码总数;以及,确定所述第一通话数据和所述第二通话数据中,重复的常联号码个数和重复的短联号码个数;
45、将所述重复的常联号码个数和所述n天内的常联号码总数的比值,作为常联号码相似度;
46、将所述重复的短联号码个数和所述n天内的短联号码总数的比值,作为短联号码相似度。
47、可选的,所述通话指标确定模块用于:
48、将所述主叫号码分别与所述第一通话数据中的各个被叫号码组成号码对,得到第一号码对集合;
49、根据所述第一通话数据的所述通话时间、所述通话时长,确定所述第一号码对集合中每个号码对的号码对特征,所述号码对特征包括:主叫次数、被叫次数、平均时长、最大时长、通话天数;
50、当号码对的号码对特征满足第二预设条件时,将号码对中的被叫号码标记为常联号码;其中,所述第二预设条件包括:所述主叫次数大于等于第一预设数值,所述被叫次数大于等于第二预设数值,所述平均时长大于等于第三预设数值,所述最大时长大于等于第四预设数值,所述通话天数大于第五预设数值;
51、当号码对的所述号码对特征不满足所述第二预设条件时,将号码对中的被叫号码标记为短联号码;
52、将所述主叫号码与所述第二通话数据中的各个被叫号码组成号码对,得到第二号码对集合;
53、根据所述第二通话数据的所述通话时间、所述通话时长,确定所述第二号码对集合中每个号码对的所述号码对特征;
54、当号码对的所述号码对特征满足所述第二预设条件时,将号码对中的被叫号码标记为常联号码;
55、当号码对的所述号码对特征不满足所述第二预设条件时,将号码对中的被叫号码标记为短联号码。
56、可选的,所述通话天数为号码对存在呼叫记录的天数,所述平均时长为号码对累计通话时长与所述通话天数的比值。
57、可选的,所述通话指标确定模块用于:
58、根据所述第一通话数据的短联号码,统计所述第一通话数据中的短联号码总数;
59、根据所述第一通话数据的被叫号码,统计所述第一通话数据中被叫号码总数;
60、将所述第一通话数据中的短联号码总数和所述第一通话数据中被叫号码总数的比值,作为所述第一通话数据中短联号码占比;
61、根据所述第二通话数据的短联号码,统计所述第二通话数据中的短联号码总数;
62、根据所述第二通话数据的被叫号码,统计所述第二通话数据中被叫号码总数;
63、将所述第二通话数据中的短联号码总数和所述第二通话数据中被叫号码总数的比值,作为所述第二通话数据中短联号码占比。
64、可选的,所述通话指标确定模块用于:
65、根据所述第一通话数据的所述主叫号码通话地和所述被叫号码通话地、所述第二通话数据的所述主叫号码通话地和所述被叫号码通话地,统计n天内长途通话号码个数;
66、根据所述第一通话数据的被叫号码、所述第二通话数据的被叫号码,统计n天内被叫号码总数;
67、将所述n天内长途通话号码个数和所述n天内被叫号码总数的比值,作为长途通话占比。
68、可选的,所述第一预设条件包括:所述长途通话占比大于第六预设数值,所述第一通话数据中被叫号码总数大于等于第七预设数值,所述第二通话数据中被叫号码总数大于等于第八预设数值,所述第一通话数据中短联号码占比和所述第二通话数据中短联号码占比的最大值大于第九预设数值,所述常联号码相似度小于第十预设数值,所述短联号码相似度小于第十一预设数值。
69、第三方面,本发明示出了一种电子设备,所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的通信诈骗识别方法的步骤。
70、第四方面,本发明示出了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的通信诈骗识别方法的步骤。
71、本发明实施例包括以下优点:
72、获取主叫号码n天内的通话数据;将前n/2天内的通话数据作为第一通话数据,将后n/2天内的通话数据作为第二通话数据;根据第一通话数据、第二通话数据,确定通话指标,通话指标包括:第一通话数据中被叫号码总数、第二通话数据中被叫号码总数、第一通话数据中短联号码占比、第二通话数据中短联号码占比、常联号码相似度、短联号码相似度、长途通话占比中至少一种;根据通话指标判断主叫号码是否为通信诈骗号码。通过对第一通话数据的通话指标、第二通话数据的通话指标、第一通话数据与第二通话数据变化情况的通话指标进行综合判断,可以有效解决传统模型中对通话频次低,和前期正常后期突然涉诈这类通信诈骗识别能力差的问题。