诈骗识别模型训练方法、装置、电子设备及存储介质与流程

文档序号:33116638发布日期:2023-02-01 02:58阅读:38来源:国知局
诈骗识别模型训练方法、装置、电子设备及存储介质与流程

1.本技术涉及模型训练技术领域,特别是涉及一种诈骗识别模型训练方法、装置、电子设备及存储介质。


背景技术:

2.随着电信诈骗的不断发展,越来越多诈骗分子使用“猫池”设备(如goip(gsm over internet protocol)设备等)进行电信网络诈骗。
3.通常情况下goip设备本身可以插卡使用,常规组网可以如图1所示,诈骗分子可以在境外通过网络远程控制goip设备进行诈骗,即使被公安抓获了goip设备和手机sim卡和线下跑腿的人,也不会被抓到后端诈骗分子。
4.随着技术的进步,为了方便远程换卡,同时避免goip被抓获时手机sim卡也被抓获,并给侦查工作增加难度,如图2所示,在组网中新增了卡池设备,位于a、b两地的不同goip设备通过网络可实现远程读卡,诈骗分子可以在goip设备上设置实现同一sim卡在不同时间分别出现在a、b两地。
5.当前的猫池涉诈设备检测通常有以下几种方式:
6.1、基于实时通话数据、sip话单分析sip服务器,ip地址进行分析;
7.2、基于历史通话记录,通话位置基站进行分析;
8.3、基于家庭宽带/互联网的流量数据进行分析。
9.现有技术主要侧重于针对图1的传统组网下goip监测,并未对图2组网sim卡在ab两地短时间异常切换的场景进行针对性监测,存在监测盲区。无法有效发现上述短时间内异常切换的goip细分场景。随着电信诈骗的不断发展,大量卡池被应用于诈骗,越来越多的涉诈场景出现了图2这类goip位于a、b两地远程读卡的情况,对公安侦破带来了很大的迷惑性,急需新的监测方式进行针对性识别,打击电信网络诈骗,保障人民群众的人身财产安全。
10.而且,现有技术中对于goip设备的多维度特征数据,采用固定公式和阈值监测远程goip设备,算法参数不可学习,不能自适应当前诈骗模式的行为变化,导致检测不准确、侦查不迅速。


技术实现要素:

11.本技术实施例所要解决的技术问题是提供一种诈骗识别模型训练方法、装置、电子设备及存储介质,以结合获取具有目标设备诈骗行为的多种类型特征的关键特征集和诈骗行为数据集训练目标诈骗识别模型,能够提供细粒度的价值化参考数据,从而可以有效打击电信网络诈骗,保障人民群众的人身财产安全。同时,可以提高诈骗行为的检测准确度及检测效率。
12.第一方面,本技术实施例提供了一种诈骗识别模型训练方法,所述方法包括:
13.根据欺诈业务数据,获取获取具有目标设备诈骗行为的多种类型特征的关键特征
集;
14.根据历史诈骗业务数据和所述关键特征集,获取目标设备对应的诈骗行为数据集;
15.基于所述关键特征集和所述诈骗行为数据集对预先构建的诈骗识别模型进行训练,得到目标诈骗识别模型。
16.可选地,所述根据欺诈业务数据,获取具有目标设备诈骗行为的多种类型特征的关键特征集,包括:
17.提取所述欺诈业务数据中的设备行为类型的第一特征;
18.提取所述欺诈业务数据中的诈骗行为类型的第二特征;
19.提取所述欺诈业务数据中的位置切换速度类型的第三特征;
20.根据所述第一特征、所述第二特征和所述第三特征,生成所述目标设备诈骗行为的关键特征集。
21.可选地,所述提取所述欺诈业务数据中的设备行为类型的第一特征,包括:
22.提取所述欺诈业务数据中同一基站下多个号码在同一时刻以第一信号强度呼叫的第四特征;所述第一信号强度大于信号强度阈值;和/或
23.提取所述欺诈业务数据中同一基站下多个号码在同一时刻开机/关机的第五特征;和/或
24.提取所述欺诈业务数据中多个号码经过n个基站,且基站轨迹相同的第六特征;n为大于等于2的正整数;和/或
25.提取所述欺诈业务数据中号码呼叫间隔时间与机器拨打号码规律相同的第七特征;
26.将所述第四特征、和/或所述第五特征、和/或所述第六特征、和/或所述第七特征作为所述设备行为类型的第一特征。
27.可选地,所述提取所述欺诈业务数据中的诈骗行为类型的第二特征,包括:
28.提取所述欺诈业务数据中主呼叫量大于主叫阈值的第八特征;和/或
29.提取所述欺诈业务数据中主呼叫次数与主被呼叫次数的比值大于比例阈值的第九特征;和/或
30.提取所述欺诈业务数据中主呼叫挂断率大于挂断率阈值的第十特征;和/或
31.提取所述欺诈业务数据中主呼叫振铃时长大于时长阈值的第十一特征;和/或
32.提取所述欺诈业务数据中通话时长低于通话时长阈值的第十二特征;和/或
33.提取所述欺诈业务数据中通话时长在设定时长区间的比例的第十三特征;和/或
34.提取所述欺诈业务数据中呼叫号码的呼叫时间集中于设定时间区域的第十四特征;和/或
35.提取所述欺诈业务数据中被叫号码的重叠度低于重叠度阈值的第十五特征;和/或
36.提取所述欺诈业务数据中在同一时段内从同一基站发出呼叫的第十六特征;和/或
37.提取所述欺诈业务数据中在同一时段内的号码中存在强关联的号码的第十七特征;和/或
38.提取所述欺诈业务数据中拨打特殊号码的第十八特征;和/或
39.提取所述欺诈业务数据中号码活跃天数低于活跃天数阈值的第十九特征;和/或
40.提取所述欺诈业务数据中被叫号码归属地数量大于归属地数量阈值的第二十特征;
41.将所述第八特征、和/或所述第九特征、和/或所述第十特征、和/或所述第十一特征、和/或所述第十二特征、和/或所述第十三特征、和/或所述第十四特征、和/或所述第十五特征、和/或所述第十六特征、和/或所述第十七特征、和/或所述第十八特征、和/或所述第十九特征、和/或所述第二十特征,作为所述诈骗行为类型的第二特征。
42.可选地,所述提取所述欺诈业务数据中的位置切换速度类型的第三特征,包括:
43.提取所述欺诈业务数据中号码位置切换的平均速度大于速度阈值的特征,作为所述位置切换速度类型的第三特征。
44.可选地,所述根据历史诈骗业务数据和所述关键特征集,获取目标设备对应的诈骗行为数据集,包括:
45.对获取的历史诈骗业务数据进行预处理,得到预处理诈骗业务数据;
46.获取所述预处理诈骗业务数据对应的数据标签;
47.根据所述关键特征集计算得到所述预处理诈骗业务数据的目标维度的诈骗数据向量;
48.根据所述诈骗数据向量和所述数据标签,生成所述目标设备对应的诈骗行为数据集。
49.可选地,所述诈骗识别模型包括:若干个分类器,
50.所述基于所述关键特征集和所述诈骗行为数据集对预先构建的诈骗识别模型进行训练,得到目标诈骗识别模型,包括:
51.将所述关键特征集中每个样本的样本关键特征和所述诈骗行为数据集中所述每个样本的样本行为数据输入至所述诈骗识别模型;
52.依次调用若干个所述分类器对所述样本关键特征和所述样本行为数据进行处理,得到所述每个样本在预置标签下的预测概率;
53.根据所述每个样本的真实标签和所述预测概率,计算得到所述诈骗识别模型对应的损失值;
54.在所述损失值处于预设范围内的情况下,将训练后的诈骗识别模型作为所述目标诈骗识别模型。
55.可选地,在所述基于所述关键特征集和所述诈骗行为数据集对预先构建的诈骗识别模型进行训练,得到目标诈骗识别模型之后,还包括:
56.获取待识别号码的信令数据和通信数据;
57.根据所述信令数据和所述通信数据,确定所述待识别号码在预置维度下的号码特征;
58.将所述号码特征输入至所述目标诈骗识别模型,并获取由所述目标诈骗识别模型输出的所述待识别号码在预置号码标签下的预测概率;
59.根据所述预测概率,确定所述待识别号码的号码类型。
60.可选地,在所述基于所述关键特征集和所述诈骗行为数据集对预先构建的诈骗识
别模型进行训练,得到目标诈骗识别模型之后,还包括:
61.获取所述待识别号码对应的真实号码类型;
62.根据所述真实号码类型和预测的所述号码类型,计算得到所述目标诈骗识别模型的预测偏差值;
63.根据所述预测偏差值,调整所述目标诈骗识别模型的模型参数。
64.第二方面,本技术实施例提供了一种诈骗识别模型训练装置,所述装置包括:
65.关键特征集获取模块,用于根据欺诈业务数据,获取获取具有目标设备诈骗行为的多种类型特征的关键特征集;
66.诈骗数据集获取模块,用于根据历史诈骗业务数据和所述关键特征集,获取目标设备对应的诈骗行为数据集;
67.目标诈骗识别模型获取模块,用于基于所述关键特征集和所述诈骗行为数据集对预先构建的诈骗识别模型进行训练,得到目标诈骗识别模型。
68.可选地,所述关键特征集获取模块包括:
69.第一特征提取单元,用于提取所述欺诈业务数据中的设备行为类型的第一特征;
70.第二特征提取单元,用于提取所述欺诈业务数据中的诈骗行为类型的第二特征;
71.第三特征提取单元,用于提取所述欺诈业务数据中的位置切换速度类型的第三特征;
72.关键特征集生成单元,用于根据所述第一特征、所述第二特征和所述第三特征,生成所述目标设备诈骗行为的关键特征集。
73.可选地,所述第一特征提取单元包括:
74.第四特征提取子单元,用于提取所述欺诈业务数据中同一基站下多个号码在同一时刻以第一信号强度呼叫的第四特征;所述第一信号强度大于信号强度阈值;
75.第五特征提取子单元,用于提取所述欺诈业务数据中同一基站下多个号码在同一时刻开机/关机的第五特征;
76.第六特征提取子单元,用于提取所述欺诈业务数据中多个号码经过n个基站,且基站轨迹相同的第六特征;n为大于等于2的正整数;
77.第七特征提取子单元,用于提取所述欺诈业务数据中号码呼叫间隔时间与机器拨打号码规律相同的第七特征;
78.第一特征获取子单元,用于将所述第四特征、和/或所述第五特征、和/或所述第六特征、和/或所述第七特征作为所述设备行为类型的第一特征。
79.可选地,所述第二特征提取单元包括:
80.第八特征提取子单元,用于提取所述欺诈业务数据中主呼叫量大于主叫阈值的第八特征;
81.第九特征提取子单元,用于提取所述欺诈业务数据中主呼叫次数与主被呼叫次数的比值大于比例阈值的第九特征;
82.第十特征提取子单元,用于提取所述欺诈业务数据中主呼叫挂断率大于挂断率阈值的第十特征;
83.第十一特征提取子单元,用于提取所述欺诈业务数据中主呼叫振铃时长大于时长阈值的第十一特征;
84.第十二特征提取子单元,用于提取所述欺诈业务数据中通话时长低于通话时长阈值的第十二特征;
85.第十三特征提取子单元,用于提取所述欺诈业务数据中通话时长在设定时长区间的比例的第十三特征;
86.第十四特征提取子单元,用于提取所述欺诈业务数据中呼叫号码的呼叫时间集中于设定时间区域的第十四特征;
87.第十五特征提取子单元,用于提取所述欺诈业务数据中被叫号码的重叠度低于重叠度阈值的第十五特征;
88.第十六特征提取子单元,用于提取所述欺诈业务数据中在同一时段内从同一基站发出呼叫的第十六特征;
89.第十七特征提取子单元,用于提取所述欺诈业务数据中在同一时段内的号码中存在强关联的号码的第十七特征;
90.第十八特征提取子单元,用于提取所述欺诈业务数据中拨打特殊号码的第十八特征;
91.第十九特征提取子单元,用于提取所述欺诈业务数据中号码活跃天数低于活跃天数阈值的第十九特征;
92.第二十特征提取子单元,用于提取所述欺诈业务数据中被叫号码归属地数量大于归属地数量阈值的第二十特征;
93.第二特征获取子单元,用于将所述第八特征、和/或所述第九特征、和/或所述第十特征、和/或所述第十一特征、和/或所述第十二特征、和/或所述第十三特征、和/或所述第十四特征、和/或所述第十五特征、和/或所述第十六特征、和/或所述第十七特征、和/或所述第十八特征、和/或所述第十九特征、和/或所述第二十特征,作为所述诈骗行为类型的第二特征。
94.可选地,所述第三特征提取单元包括:
95.第三特征获取子单元,用于提取所述欺诈业务数据中号码位置切换的平均速度大于速度阈值的特征,作为所述位置切换速度类型的第三特征。
96.可选地,所述诈骗数据集获取模块包括:
97.预处理数据获取单元,用于对获取的历史诈骗业务数据进行预处理,得到预处理诈骗业务数据;
98.数据标签获取单元,用于获取所述预处理诈骗业务数据对应的数据标签;
99.数据向量计算单元,用于根据所述关键特征集计算得到所述预处理诈骗业务数据的目标维度的诈骗数据向量;
100.诈骗数据集生成单元,用于根据所述诈骗数据向量和所述数据标签,生成所述目标设备对应的诈骗行为数据集。
101.可选地,所述诈骗识别模型包括:若干个分类器,
102.所述目标诈骗识别模型获取模块包括:
103.模型样本输入单元,用于将所述关键特征集中每个样本的样本关键特征和所述诈骗行为数据集中所述每个样本的样本行为数据输入至所述诈骗识别模型;
104.预测概率获取单元,用于依次调用若干个所述分类器对所述样本关键特征和所述
样本行为数据进行处理,得到所述每个样本在预置标签下的预测概率;
105.损失值计算单元,用于根据所述每个样本的真实标签和所述预测概率,计算得到所述诈骗识别模型对应的损失值;
106.目标诈骗识别模型获取单元,用于在所述损失值处于预设范围内的情况下,将训练后的诈骗识别模型作为所述目标诈骗识别模型。
107.可选地,所述装置还包括:
108.号码数据获取模块,用于获取待识别号码的信令数据和通信数据;
109.号码特征确定模块,用于根据所述信令数据和所述通信数据,确定所述待识别号码在预置维度下的号码特征;
110.预测概率获取模块,用于将所述号码特征输入至所述目标诈骗识别模型,并获取由所述目标诈骗识别模型输出的所述待识别号码在预置号码标签下的预测概率;
111.号码类型确定模块,用于根据所述预测概率,确定所述待识别号码的号码类型。
112.可选地,所述装置还包括:
113.真实类型获取模块,用于获取所述待识别号码对应的真实号码类型;
114.预测偏差计算模块,用于根据所述真实号码类型和预测的所述号码类型,计算得到所述目标诈骗识别模型的预测偏差值;
115.模型参数调整模块,用于根据所述预测偏差值,调整所述目标诈骗识别模型的模型参数。
116.第三方面,本技术实施例提供了一种电子设备,包括:
117.处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述的诈骗识别模型训练方法。
118.第四方面,本技术实施例提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项所述的诈骗识别模型训练方法。
119.与现有技术相比,本技术实施例包括以下优点:
120.本技术实施例中,通过根据欺诈业务数据,获取获取具有目标设备诈骗行为的多种类型特征的关键特征集,根据历史诈骗业务数据和所述关键特征集,获取目标设备对应的诈骗行为数据集,基于所述关键特征集和所述诈骗行为数据集对预先构建的诈骗识别模型进行训练,得到目标诈骗识别模型。本技术实施例通过结合具有目标设备诈骗行为的多种类型特征的关键特征集和诈骗行为数据集训练目标诈骗识别模型,能够提供细粒度的价值化参考数据,从而可以有效打击电信网络诈骗,保障人民群众的人身财产安全。同时,可以提高诈骗行为的检测准确度及检测效率。
121.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
122.图1为本技术实施例提供的一种现有的goip设备组网的示意图;
123.图2为本技术实施例提供的另一种现有的goip设备组网的示意图;
124.图3为本技术实施例提供的一种诈骗识别模型训练方法的步骤流程图;
125.图4为本技术实施例提供的一种模型训练流程的示意图;
126.图5为本技术实施例提供的一种模型预测及参数调整流程的示意图;
127.图6为本技术实施例提供的一种诈骗识别模型训练装置的结构示意图;
128.图7为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
129.为使本技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本技术作进一步详细的说明。
130.在本技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术。在本技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
131.参照图1,示出了本技术实施例提供的一种诈骗识别模型训练方法的步骤流程图,如图1所示,该诈骗识别模型训练方法可以包括以下步骤:
132.步骤301:根据欺诈业务数据,获取获取具有目标设备诈骗行为的多种类型特征的关键特征集。
133.本技术实施例可以应用于结合获取具有目标设备诈骗行为的多种类型特征的关键特征集和诈骗行为数据集训练诈骗识别模型的场景中。
134.在本示例中,目标设备可以为“猫池”设备,如goip设备等,在具体实现中,goip是网络通信的一种硬件设备,通过通信嵌入式软件,可以接入gsm(global system for mobile communication,全球移动通信系统)、cdma(code division multiple access,码分多址)、wcdma(wideband code division multiple access,宽带码分多址)、lte(long term evolution,通用移动通信技术的长期演进)频段的手机卡,支持sip(session initiation protocol,信令控制协议)协议,也可以对接到ai(artificial intelligence,人工智能)机器人交互系统。
135.关键特征集是指欺诈业务数据中存在目标设备诈骗行为的特征行成的集合。在本示例中,关键特征集中可以包含多种类型的诈骗行为特征。
136.在进行诈骗识别模型的训练时,可以根据欺诈业务数据获取获取具有目标设备诈骗行为的多种类型特征的关键特征集。在具体实现中,可以长期反欺诈业务的经验积累和建模实验,设计出有效识别目标设备(如goip等)诈骗的关键特征集。在本示例中,关键特征集分为设备行为类型、诈骗行为类型、位置切换速度类型。对于获取获取具有目标设备诈骗行为的多种类型特征的关键特征集的实现过程可以结合下述具体实现方式进行详细描述。
137.在本技术的一种具体实现方式中,上述步骤301可以包括:
138.子步骤a1:提取所述欺诈业务数据中的设备行为类型的第一特征。
139.在本实施例中,第一特征是指欺诈业务数据中的设备行为类型的特征。
140.在获取到欺诈业务数据之后,可以提取欺诈业务数据中的设备行为类型的特征,即第一特征。在本示例中,对于设备行为类型的第一特征可以从行为特征方面入手,如同基站下多号码高强度外呼,同基站下多号码同时开关机,多号码伴随轨迹相同,呼叫间隔时间具备机器拨打的规律等。具体地,可以包括以下几种方式中的至少一种:
141.1、提取欺诈业务数据中同一基站下多个号码在同一时刻以第一信号强度呼叫的
第四特征;所述第一信号强度大于信号强度阈值。
142.在本实施例中,第四特征是指欺诈业务数据中红同一基站下多个号码在同一时刻以第一信号强度呼叫的特征。
143.信号强度阈值是指预先设置的用于判断是否为诈骗号码的呼叫强度的阈值,对于信号强度阈值的具体数值可以根据业务需求而定,本实施例对此不加以限制。
144.在获取到欺诈业务数据之后,可以提取欺诈业务数据中同一基站下多个号码在同一时刻以第一信号强度呼叫的第四特征,该第一信号强度即大于信号强度阈值。在本示例中,同基站(lac(location area code,位置区码)+ci(confidence intervals,置信区间))下多号码外呼:一般来说由于目标设备有多个卡槽(一般支持128卡槽),所以往往会有同基站(lac+ci)下多个号码同时高强度外呼的特征,以作为第四特征。在实际应用中,由于2g基站范围较大(一般覆盖范围为5-10公里),所以也不排除刚好有多个号码同时外呼的情况。
145.2、提取所述欺诈业务数据中同一基站下多个号码在同一时刻开机/关机的第五特征。
146.在获取到欺诈业务数据之后,可以提取欺诈业务数据中同一基站下多个号码在同一时刻开机/关机的第五特征。在本示例中,同基站(lac+ci)下多号码同时开关机:相对比上一个特征,由于一般用户使用过程中不会随意开关机,并且目标设备上电过程中一般会有多个号码同时开机,下电过程中一般会有多个号码同时关机,所以通过该特征可以较为精准地发现目标设备上的号码。
147.3、提取所述欺诈业务数据中多个号码经过n个基站,且基站轨迹相同的第六特征;n为大于等于2的正整数。
148.在获取到欺诈业务数据之后,可以提取欺诈业务数据中多个号码经过n个基站且基站轨迹相同的第六特征。其中,n为大于等于2的正整数。在本示例中,对于车载类目标设备,即目标设备放置在汽车上移动诈骗,往往还具有多个号码经过多个基站且基站轨迹相同的特征。
149.4、提取所述欺诈业务数据中号码呼叫间隔时间与机器拨打号码规律相同的第七特征。
150.在获取到欺诈业务数据之后,可以提取欺诈业务数据中号码呼叫间隔时间与机器拨打号码规律相同的第七特征。在本示例中,由于目标设备是机器根据既定的设置自动拨打号码,而正常用户手动拨打往往需要手动输入被叫号码或寻找通讯录联系人,所以耗时较大,所以目标设备号码的呼叫间隔较短,且多次呼叫间隔均相差不大。
151.5、将所述第四特征、和/或所述第五特征、和/或所述第六特征、和/或所述第七特征作为所述设备行为类型的第一特征。
152.在提取出第四特征、和/或第五特征、和/或第六特征、和/或第七特征之后,
153.则可以将第四特征、和/或第五特征、和/或第六特征、和/或第七特征作为设备行为类型的第一特征。
154.子步骤a2:提取所述欺诈业务数据中的诈骗行为类型的第二特征。
155.第二特征是指欺诈业务数据中诈骗行为类型的特征。
156.在获取到欺诈业务数据之后,可以提取欺诈业务数据中的诈骗行为类型的第二特征。在具体实现中,存在大量目标设备进行广告推销或外卖等场景,与目标设备诈骗混在一
起,需要结合各类常见的诈骗剧本,诈骗手法,骚扰行为特征等剔除骚扰等正常业务,发现诈骗行为。
157.通过长期反欺诈业务的经验积累,发现共计数十个对诈骗号码识别有重要影响的特征,以下列出这些特征属性,并对部分特征作详细解释(下列基于呼叫行为的指标统计都是基于电信全量的2g语音cdma网络a口信令数据)。
158.1、提取所述欺诈业务数据中主呼叫量大于主叫阈值的第八特征。
159.在本实施例中,主叫阈值是指预先设置的用于判断主呼号码为诈骗号码的主呼叫量的阈值,对于主叫阈值的具体数值可以根据业务需求而定,本实施例对此不加以限制。
160.在获取到欺诈业务数据中,可以提取欺诈业务数据中主呼叫量大于主叫阈值的第八特征。在具体实现中,用户主叫呼叫量高出正常值(即主叫阈值),则主呼号码为诈骗号码的可能性就比较大。在本示例中,在获取到欺诈业务数据之后,可以对欺诈业务数据进行识别,以得到欺诈业务数据中主呼叫量大于主叫阈值的特征,即第八特征。
161.2、提取所述欺诈业务数据中主呼叫次数与主被呼叫次数的比值大于比例阈值的第九特征。
162.比例阈值是指预先设置的用于筛选诈骗号码的主呼叫次数与主被呼叫次数的比值的阈值,在具体实现中,对于该比例阈值的具体数值可以根据业务需求而定,本实施例对此不加以限制。
163.在获取到欺诈业务数据之后,可以提取欺诈业务数据中主呼叫次数与主被呼叫次数的比值大于比例阈值的特征,即第九特征。在本示例中,呼叫主叫次数与主被叫次数的比例,诈骗号码的主叫占比一般较正常号码高。因此,可以提取欺诈业务数据中主呼叫次数与主被呼叫次数的比值大于比例阈值的特征,以作为第九特征。
164.3、提取所述欺诈业务数据中主呼叫挂断率大于挂断率阈值的第十特征。
165.挂断率阈值是指预先设置的用于判定主呼号码是否为诈骗号码的主呼号码被挂断的阈值。在本示例中,对于挂断率阈值的具体数值可以根据业务需求而定,本实施例对此不加以限制。
166.在具体实现中,主叫挂断率是指拨打电话被挂断的比例,诈骗号码的挂断率一般较正常号码高。因此,在获取到诈骗业务数据之后,可以获取诈骗业务数据中主呼叫挂断率大于挂断率阈值的特征,以作为第十特征。具体地,可以根据主呼号码的主动拨打次数,以及被挂断的次数,计算得到主呼号码的主呼叫挂断率,即主呼叫挂断率=被挂断次数/主动拨打次数。
167.4、提取所述欺诈业务数据中主呼叫振铃时长大于时长阈值的第十一特征。
168.时长阈值是指预先设置的用于判断主呼叫号码是否为诈骗号码的主呼叫振铃时长的阈值。在具体实现中,时长阈值的具体数值可以根据业务需求而定,本实施例对此不加以限制。
169.在获取到欺诈业务数据之后,可以提取欺诈业务数据中主呼叫振铃时长大于时长阈值的特征,以作为第十一特征。
170.在具体实现中,振铃时长越长则表示号码为诈骗号码的概率越大。振铃时长的平均值或振铃时长的标准差。在获取到欺诈业务数据之后,可以根据欺诈业务数据提取出某个号码对应的欺诈业务数据,并获取每个号码每次拨打电话的振铃时长,然后结合每个号
码的多个振铃时长计算得到每个号码的振铃时长的平均值,或计算得到每个号码的振铃时长的标准差等。然后,可以根据计算得到的振铃时长的平均值或标准差与阈值进行比较,从而可以得到欺诈业务数据中的第十一特征。
171.5、提取所述欺诈业务数据中通话时长低于通话时长阈值的第十二特征。
172.通话时长阈值是指预先设置的用于判定呼叫号码是否为诈骗号码的通话时长的阈值。对于通话时长阈值的具体数值可以根据业务需求而定,本实施例对此不加以限制。
173.在获取到欺诈业务数据之后,可以提取欺诈业务数据中通话时长低于通话时长阈值的特征,以作为第十二特征。在具体实现中,通话时长越短,则表示号码为诈骗号码的概率越大。
174.在某些示例中,可以依据通话时长的平均值提取欺诈业务数据中的第十二特征,例如,针对欺诈业务数据中的每个号码,可以计算该号码的通话时长的平均值,然后将该号码的通话时长的平均值与预先设定的通话时长平均值对应的阈值进行比较,若该号码的通话时长的平均值低于预先设定的通话时长平均值对应的阈值,则提取该号码的特征以作为第十二特征。
175.在某些示例中,可以依据通话时长的标准差提取欺诈业务数据中的第十二特征,例如,针对欺诈业务数据中的每个号码,可以计算该号码的通话时长的标准差,然后将该号码的通话时长的标准差与预先设定的通话时长标准差对应的阈值进行比较,若该号码的通话时长的标准差低于预先设定的通话时长标准差对应的阈值,则提取该号码的特征以作为第十二特征。
176.可以理解地,上述示例仅是为了更好地理解本技术实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
177.6、提取所述欺诈业务数据中通话时长在设定时长区间的比例的第十三特征。
178.设定时长区间是指预先设置的用于判定号码是否为诈骗号码的通话时长分布比例。在具体实现中,通话时间划分为几个区间,如0s,0-10s,10-30s,等,统计用户拨打电话的通话时长在每个区间的比例。进而可以将通话时间在0s,0-10s内的号码视为诈骗号码。
179.在获取到欺诈业务数据之后,可以提取欺诈业务数据中通话时长在设定时长区间的比例的第十三特征。
180.7、提取所述欺诈业务数据中呼叫号码的呼叫时间集中于设定时间区域的第十四特征。
181.设定时间区域是指预先设置的用于判定号码为诈骗号码的通话时间的时间分布区间。在具体实现中,从以往业务数据分析中发现诈骗电话的拨打时间分布有以下特点:诈骗电话在9点到18点时间区间内集中拨打,且12点到14点的午休时间拨打强度同样很高,而19点之后到次日9点之间的时间内呼叫强度基本为零。诈骗电话的呼叫强度时间序列特征与正常号码有明显区分,因此可以作为模型特征之一。
182.在实际应用中,还可以根据被叫号码离散度和主叫号码漫游异地进行诈骗号码的判断。被叫号码离散度:对于正常用户,被叫号码离散度往往不会很高,而诈骗电话广撒网,其被叫号码离散度通常很高。主叫号码漫游异地:当前诈骗号码中漫游异地实施诈骗的占比较高,所以针对漫游异地场景危害度增加。
183.在获取到欺诈业务数据之后,可以提取欺诈业务数据中呼叫号码的呼叫时间集中
于设定时间区域内的特征,以作为第十四特征。
184.8、提取所述欺诈业务数据中被叫号码的重叠度低于重叠度阈值的第十五特征。
185.重叠度阈值是指预先设置的用于判定号码为诈骗号码的被呼叫的重叠度的阈值。对于重叠度阈值的具体数值可以根据业务需求而定,本实施例对此不加以限制。在具体实现中,用户历史时间内(一般7天)被叫号码与当前统计被叫号码的重叠比例,对于诈骗号码,该比例往往接近0。
186.在获取到欺诈业务数据之后,可以提取欺诈业务数据中被叫号码的重叠度低于重叠度阈值的特征,以作为第十五特征。
187.在实际应用中,还可以根据被叫号码归属地与用户发呼本地的占比:与呼叫量高、被叫离散度大的快递外卖等号码相比,诈骗电话的被叫归属地大多不在发呼地,因此该比值往往较低。因此,可以提取欺诈业务数据中被叫号码归属地与用户发呼本地的占比较大的号码的特征,作为第十五特征。
188.9、提取所述欺诈业务数据中在同一时段内从同一基站发出呼叫的第十六特征。
189.在本实施例中,在某一时间段内,存在批量异常使用行为的用户均从同一基站发呼,该基站可视作高危基站,该批号码为诈骗号码的概率提升。
190.在获取到欺诈业务数据之后,可以提取欺诈业务数据中在同一时段内从同一基站发出呼叫的号码较多的特征,以作为第十六特征。
191.在实际应用中,还可以结合主叫号码作为被叫次数、主叫号码作为被叫接通率、主叫号码作为被叫平均通话时长、主叫号码作为被叫通话时长标准差、主叫发呼城市人口数量、主叫号码归属城市人口数量进行关键特征的提取。
192.其中,主叫号码作为被叫次数是指用户作为被叫的话单记录数量,即其他人拨打该号码的次数。针对诈骗号码,号码被呼叫的次数接近于0,在得到欺诈业务数据之后,可以提取欺诈业务数据中主叫号码作为被叫次数低于被叫次数阈值的号码的特征,作为模型训练的关键特征。
193.主叫号码作为被叫接通率是指他人拨打该号码的接通比例,针对诈骗号码,他人拨打该号码的接通比例接近于0。在得到欺诈业务数据之后,可以提取欺诈业务数据中主叫号码作为被叫接通率低于接通率阈值的号码的特征,作为模型训练的关键特征。
194.主叫号码作为被叫平均通话时长是指他人拨打该号码的通话时长平均值。针对诈骗号码,他人拨打该号码的通话时长较短,在得到欺诈业务数据之后,可以提取欺诈业务数据中主叫号码作为被叫平均通话时长低于预先设定的时长阈值的号码的特征,作为模型训练的关键特征。
195.主叫号码作为被叫通话时长标准差是指他人拨打该号码的通话时长标准差。针对诈骗号码,他人拨打该号码的通话时长较短,在得到欺诈业务数据之后,可以提取欺诈业务数据中主叫号码作为被叫通话时长标准差低于预先设定的通话时长标准差对应的阈值的号码的特征,作为模型训练的关键特征。
196.主叫发呼城市人口数量:业务数据分析过程中发现,呼叫量大的号码并不一定是诈骗,也可能是快递或外卖等,但是对于呼叫量大而主叫发呼城市人口数量或gdp相对不高的情况,诈骗号码的可能性增大。实际很多诈骗电话会从小城市拨打。在得到欺诈业务数据之后,可以提取欺诈业务数据中主叫发呼城市人口数量低于人口数量阈值的号码的特征,
作为模型训练的关键特征。
197.主叫号码归属城市人口数量:与主叫发呼城市人口数量特征概念相似,从号码归属地另一维度考虑诈骗号码的可能性。在得到欺诈业务数据之后,可以提取欺诈业务数据中主叫号码归属城市人口数量低于数量阈值的号码的特征,作为模型训练的关键特征。
198.10、提取所述欺诈业务数据中在同一时段内的号码中存在强关联的号码的第十七特征。
199.在得到欺诈业务数据之后,可以提取欺诈业务数据中在同一时段内的号码中存在强关联的号码的第十七特征。在具体实现中,在某一时间段内使用行为有异常的一批用户号码,如果号码文本出现较强的关联,例如连号,仅尾数不同等,则诈骗概率提升。
200.11、提取所述欺诈业务数据中拨打特殊号码的第十八特征。
201.在得到欺诈业务数据之后,可以提取欺诈业务数据中拨打特殊号码的特征,作为模型训练的第十八特征。
202.在具体实现中,目前已知的几类通过拨打10086,114等特殊号码的典型诈骗特征如下:
203.1)拨打114的诈骗场景
204.经研究发现有不法分子利用人们对114查号台的信任,在114查号台登记假冒金融机构的电话号码,制造银行汇款假象,实施代销骗购诈骗活动。
205.在此类诈骗案件中,不法分子往往使用尚未在该地区设立分支机构的金融机构名义,利用手机号码与固定电话号码不好辨别的特点,在114查号台登记手机号码。然后向受害人发送伪造的银行汇款单据,并要求供货。当受害人通过114查号台查到的假金融机构电话咨询时,不法分子便假冒金融机构工作人员,为受害人确认该虚假汇款信息,制造已经汇款的假象,诱骗受害人上当。
206.为此,警方提示各企业单位,在经济活动中,如需核实银行汇款等金融信息,可采取致电该金融机构总部咨询等多种方式加以验证,防范此类电信诈骗。如果号码出现拨打114的行为,则诈骗概率提升。
207.2)拨打10086或10010的诈骗场景
208.诈骗分子一般情况下会采用三家运营商的卡进行诈骗,此时存在以下两种场景:
209.第一种:诈骗前需进行试卡,或查询话费余额,此时诈骗分子不知道手机卡所属的运营商,即使用的是电信卡,但因中国移动的市场份额最大,诈骗分子可能会通过拨打10086进行试卡或查询话费余额,此时10086自动客服会提示“您现在使用的是非中国移动号码致电
…”
,然后诈骗分子有可能拨打中国联通客服10010


210.第二种:诈骗过程中如果被运营商反诈骗平台拦截或关停,诈骗分子可能会通过拨打10086或10010进行投诉。
211.3)拨打1008611诈骗场景
212.同2),诈骗分子可能会通过拨打1008611查询话费余额等。
213.4)拨打银行短号诈骗场景
214.目前诈骗大部分是通过银行转账汇款骗取受害人金钱,诈骗得逞后可能会拨打银行短号确认是否到账等。
215.12、提取所述欺诈业务数据中号码活跃天数低于活跃天数阈值的第十九特征。
216.活跃天数阈值是指预先设置的用于判定号码是否为诈骗号码的号码活跃天数的阈值。对于活跃天数阈值的具体数值可以根据业务需求而定,本实施例对此不加以限制。
217.在具体实现中,正常诈骗号码因各省反诈管制,心虚担心被抓等因素,活跃时间较短。
218.在得到欺诈业务数据之后,可以提取欺诈业务数据中号码活跃天数低于活跃天数阈值的号码的特征,以作为模型训练的第十九特征。
219.13、提取所述欺诈业务数据中被叫号码归属地数量大于归属地数量阈值的第二十特征。
220.归属地数量阈值是指预先设置的用于判定号码是否为诈骗号码的被叫号码的归属地数量的阈值。对于归属地数量阈值的具体数值可以根据业务需求而定,本实施例对此不加以限制。
221.在获取到欺诈业务数据中被叫号码归属地数量大于归属地数量阈值的号码的特征,以作为模型训练的第二十特征。
222.在具体实现中,被叫号码归属地数量可以为被叫号码归属省份数量和被叫号码归属城市数量。其中,被叫号码归属省份数量:诈骗号码由于广撒网,其被叫号码归属省份数量往往异常高于正常号码,但不排除精准拨打省内被叫号码的诈骗分子。被叫号码归属城市数量:与被叫号码归属省份数量的特征概念类似,但分类上更细。
223.14、将所述第八特征、和/或所述第九特征、和/或所述第十特征、和/或所述第十一特征、和/或所述第十二特征、和/或所述第十三特征、和/或所述第十四特征、和/或所述第十五特征、和/或所述第十六特征、和/或所述第十七特征、和/或所述第十八特征、和/或所述第十九特征、和/或所述第二十特征,作为所述诈骗行为类型的第二特征。
224.在获取到第八特征、和/或第九特征、和/或第十特征、和/或第十一特征、和/或第十二特征、和/或第十三特征、和/或第十四特征、和/或第十五特征、和/或第十六特征、和/或第十七特征、和/或第十八特征、和/或第十九特征、和/或第二十特征之后,可以将第八特征、和/或第九特征、和/或第十特征、和/或第十一特征、和/或第十二特征、和/或第十三特征、和/或第十四特征、和/或第十五特征、和/或第十六特征、和/或第十七特征、和/或第十八特征、和/或第十九特征、和/或第二十特征作为诈骗行为类型的第二特征。
225.子步骤a3:提取所述欺诈业务数据中的位置切换速度类型的第三特征。
226.第三特征是指欺诈业务数据中位置切换速度类型的特征。
227.在获取到欺诈业务数据之后,可以提取欺诈业务数据中的位置切换速度类型的第三特征。在具体实现中,可以提取欺诈业务数据中号码位置切换的平均速度大于速度阈值的特征,作为位置切换速度类型的第三特征。
228.在具体实现中,位置切换速度类型即为基于map(mobility anchor point)移动停靠点,是一个在移动节点访问网络中的路由器信令数据的sim(subscriber identity module,客户识别模块)卡位置平均切换速度。
229.根据目前发现的goip设备,均只支持gsm,cdma等2g语音网络制式,不支持volte网络;所以根据电信运营商2g语音网络的规范,当位于a地的goip设备读取卡池中的sim卡时,sim卡将在a地发生一次map位置登记(即开机),当发生一段时间呼叫后,在b地的goip从a地注销(即关机),切换到b地发生一次map位置登记(即开机)。根据2g语音网络规范要求,map
位置登记消息中会携带号码所在的mscid信息,而mscid信息与地市具备一一对应关系,所以可以根据号码的map信令数据,监测在ab两地短时间存在异常切换的用户。为此,可基于map信令数据分析出存在mscid切换的号码,然后需要剔除以下正常场景的用户号码:
230.1、因位于两地边界而触发map mscid频繁切换的正常用户;
231.2、因乘坐汽车、高铁、飞机等交通工具跨地市漫游,而产生map mscid切换的正常用户。
232.场景1可通过开源地图软件,生成一份中国相邻地市表,对于存在mscid切换的号码,基于mscid与地市对应关系可获知该号码切换的地市,通过与中国相邻地市表匹配,实现因相邻地市导致的切换场景。
233.场景2可在场景1过滤筛选之后,根据开源地图软件获取一份中国地市经纬度信息表,得到每个地市的经纬度信息集合。然后根据两次map信令切换地市的经纬度信息计算距离,计算公式如下:
234.设两次map信令切换地市的经纬度信息分别为:
235.(lona,lata)和(lonb,latb),两次切换的平均速度为v,则:
236.v=6371π
×
arccosc/180t。
237.其中,c=sin(lata)sin(latb)+cos(lata)cos(latb)cos(mlona-mlonb)。
238.将sim卡位置切平均切换速度作为样本的高维特征向量中的1个特征值,并输入到后续的ai模型进行训练和预测,由模型自适应判断该平均切换速度是否为异常切换。
239.子步骤a4:根据所述第一特征、所述第二特征和所述第三特征,生成所述目标设备诈骗行为的关键特征集。
240.在提取出欺诈业务数据中的设备行为类型的第一特征、诈骗行为类型的第二特征和位置切换速度类型的第三特征之后,则可以根据提取的第一特征、第二特征、第三特征生成目标设备诈骗行为的关键特征集。
241.本技术实施例通过将目标设备诈骗行为的特征划分为三种类型,每种类型下可以包含多项细粒度的特征,通过此种方式可以涵盖大多数的设备诈骗行为场景,能够提高训练的诈骗识别模型识别诈骗号码的准确度。
242.在根据欺诈业务数据获取获取具有目标设备诈骗行为的多种类型特征的关键特征集之后,执行步骤302。
243.步骤302:根据历史诈骗业务数据和所述关键特征集,获取目标设备对应的诈骗行为数据集。
244.诈骗行为数据集是指历史诈骗业务数据中每个样本的诈骗行为数据生成的集合。
245.在具体实现中,在获取模型训练的诈骗行为数据集时,可以根据历史诈骗业务数据和关键特征集获取到目标设备对应的诈骗行为数据集。对于该实现过程可以结合下述具体实现方式进行详细描述。
246.在本技术的一种具体实现方式中,上述步骤302可以包括:
247.子步骤b1:对获取的历史诈骗业务数据进行预处理,得到预处理诈骗业务数据。
248.在本实施例中,在获取到历史诈骗业务数据之后,可以对历史诈骗业务数据进行预处理,以得到预处理诈骗业务数据。具体地,可以对历史诈骗业务数据进行清洗和重构等处理,以得到预处理诈骗业务数据。
249.在对获取的历史诈骗业务数据进行预处理得到预处理诈骗业务数据之后,执行子步骤b2和子步骤b3。
250.子步骤b2:获取所述预处理诈骗业务数据对应的数据标签。
251.在获取到预处理诈骗业务数据之后,可以对预处理诈骗业务数据进行人工添加数据标签。在本示例中,数据标签可以包括:正常使用场景、goip等设备诈骗场景、普通诈骗场景、推销和骚扰场景等标签。
252.在获取到对预处理诈骗业务数据添加的数据标签之后,执行子步骤b4。
253.子步骤b3:根据所述关键特征集计算得到所述预处理诈骗业务数据的目标维度的诈骗数据向量。
254.在得到预处理诈骗业务数据之后,可以根据步骤301中得到的关键特征集计算得到预处理诈骗业务数据的目标维度的诈骗数据向量。
255.子步骤b4:根据所述诈骗数据向量和所述数据标签,生成所述目标设备对应的诈骗行为数据集。
256.在得到数据标签和诈骗数据向量之后,则可以根据诈骗数据向量和数据标签生成目标设备对应的诈骗行为数据集。在具体实现中,目标设备以goip设备为例,通过对goip诈骗历史数据进行清洗和重构,自主建立用于机器学习的多任务goip诈骗行为数据集:
257.其中,是样本i根据goip诈骗关键特征集计算出来的goip诈骗高维特征向量。yi={y
1,i
,y
2,i
}是多任务样本标签;y
1,i
∈{0,1},0表示该样本不属于诈骗号码,1代表该样本是诈骗号码。y
2,i
∈{0,1,2,3},0表示该样本属于正常使用场景,1表示该样本属于goip诈骗场景,2表示属于普通诈骗场景,3表示推销和骚扰场景;总共有60802个样本,即n=60802。
258.可以理解地,上述示例仅是为了更好地理解本技术实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
259.在根据历史诈骗业务数据和关键特征集获取到目标设备对应的诈骗行为数据集之后,执行步骤303。
260.步骤303:基于所述关键特征集和所述诈骗行为数据集对预先构建的诈骗识别模型进行训练,得到目标诈骗识别模型。
261.在根据历史诈骗业务数据和关键特征集获取到目标设备对应的诈骗行为数据集之后,可以基于关键特征集和诈骗行为数据集对预先构建诈骗识别模型进行训练,以得到目标诈骗识别模型,该目标诈骗识别模型即可以应用于后续的电信诈骗识别场景中。
262.在本示例中,对于诈骗识别模型的构建可以如下所述:
263.首先,自适应的goip诈骗识别ai模型定义为:
[0264][0265]
上述公式(1)中,fk表示第k个cart树基分类器,为基于自建goip诈骗行为数据集和关键特征集的第i个样本的特性向量,表示第i个样本是否
为诈骗的预测概率,表示第i个样本的四种诈骗标签的预测概率。
[0266]
对于诈骗识别模型的训练过程可以结合下述具体实现方式进行详细描述。
[0267]
在本技术的一种具体实现方式中,所述诈骗识别模型包括:若干个分类器,上述步骤303可以包括:
[0268]
子步骤c1:将所述关键特征集中每个样本的样本关键特征和所述诈骗行为数据集中所述每个样本的样本行为数据输入至所述诈骗识别模型。
[0269]
在本实施例中,在获取到关键特征集和诈骗行为数据集之后,可以将关键特征集中每个样本的样本关键特征和诈骗行为数据集中每个样本的样本行为数据输入至诈骗识别模型。进而,执行子步骤c2。
[0270]
子步骤c2:依次调用若干个所述分类器对所述样本关键特征和所述样本行为数据进行处理,得到所述每个样本在预置标签下的预测概率。
[0271]
在将模型样本输入之后,可以依次调用若干个分类器对样本关键特征和样本行为数据进行处理,得到每个样本在预置标签下的预测概率。对于该过程可以如上述公式(1)所示,本实施例在此不再加以赘述。
[0272]
在依次调用若干个分类器对样本关键特征和样本行为数据进行处理,得到每个样本在预置标签下的预测概率之后,执行子步骤c3。
[0273]
子步骤c3:根据所述每个样本的真实标签和所述预测概率,计算得到所述诈骗识别模型对应的损失值。
[0274]
在依次调用若干个分类器对样本关键特征和样本行为数据进行处理,得到每个样本在预置标签下的预测概率之后,可以根据每个样本的真实标签和预测概率计算得到诈骗识别模型的损失值。
[0275]
在本实施例中,诈骗识别模型的损失函数可以采用多任务损失函数。
[0276]
利用自主建立的goip诈骗行为数据集和关键特征集对自适应ai模型进行训练,得到参数可自适应的goip诈骗ai模型。用于求解goip诈骗ai模型的第k个cart树基分类器fk的多任务损失函数为:
[0277][0278][0279][0280]
上述公式中,n为用于训练模型的goip诈骗行为样本数,ω(fk)为正则项,用于限制模型在训练中产生的过拟合,α和β等参数用于缓解数据库的样本标签不平衡,γ为用于引导模型重点学习难识别的样本。
[0281]
在计算得到诈骗识别模型的损失值之后,执行子步骤c4。
[0282]
子步骤c4:在所述损失值处于预设范围内的情况下,将训练后的诈骗识别模型作为所述目标诈骗识别模型。
[0283]
在计算得到诈骗识别模型的损失值之后,可以判断该损失值是否处于预设范围内。
[0284]
若该损失值处于预设范围内,则表示该诈骗识别模型已经收敛,此时可以将训练后的诈骗识别模型作为目标诈骗识别模型。
[0285]
若该损失值未处于预设范围内,则表示该诈骗识别模型未收敛,此时可以对诈骗识别模型继续进行训练,直至诈骗识别模型收敛。
[0286]
在本实施例中,通过诈骗识别模型的训练采用自主设计的损失函数,可以综合计算四个诈骗场景的预测损失,并缓解数据库样本标签不平衡的问题。诈骗识别模型训练后可输出四种诈骗场景的预测概率以及诈骗特征权重等有效数据。
[0287]
在本实施例中,对于模型训练效果可以采用测试样本进行测试,若测试结果符合预期,则满足业务需求。
[0288]
对于诈骗识别模型的训练过程可以结合图4进行如下描述。
[0289]
参照图4,示出了本技术实施例提供的一种模型训练流程的示意图。如图4所示,以goip诈骗识别模型为例,模型训练过程如下:
[0290]
1、获取goip诈骗历史数据;
[0291]
2、自建多任务goip诈骗行为数据库;
[0292]
3、计算自定义的goip设备特征、计算自定义诈骗行为特征,同时基于map信令数据计算sim卡位置切换平均速度;
[0293]
4、建立自适应的goip诈骗识别ai模型,建立过程可以如上述诈骗识别模型的建立过程为例;
[0294]
5、使用自定义的goip多任务损失函数对模型进行训练,自定义的goip多任务损失函数如上述公式(2)、(3)和(4)所示;
[0295]
6、计算模型的精确率、召回率、f1-score,以评估模型的训练程度,若符合预期则模型收敛,结束模型训练过程。
[0296]
在训练得到目标诈骗识别模型之后,即可通过目标诈骗识别模型进行后续的诈骗识别场景中,对于识别过程可以结合下述具体实现方式进行详细描述。
[0297]
在本技术的一种具体实现方式中,在上述步骤303之后,还可以包括:
[0298]
步骤d1:获取待识别号码的信令数据和通信数据。
[0299]
在本实施例中,在目标诈骗识别模型的应用过程中,可以获取待识别号码的信令数据和通信数据,如图5所示,可以获取某号码产生的新的信令数据和通信数据。
[0300]
在获取到待识别号码的信令数据和通信数据之后,执行步骤d2。
[0301]
步骤d2:根据所述信令数据和所述通信数据,确定所述待识别号码在预置维度下的号码特征。
[0302]
在获取到待识别号码的信令数据和通信数据之后,可以根据信令数据和通信数据,确定出待识别号码在预置维度下的号码特征,如图5所示,可以根据某号码的信令数据和通信数据,确定计算该号码的goip设备特征、诈骗行为特征和sim卡位置切换平均速度特征等,并将该号码的这三种类型的特征作为该号码的号码特征。
[0303]
在根据信令数据和通信数据确定出待识别号码在预置维度下的号码特征之后,执行步骤d3。
[0304]
步骤d3:将所述号码特征输入至所述目标诈骗识别模型,并获取由所述目标诈骗识别模型输出的所述待识别号码在预置号码标签下的预测概率。
[0305]
在根据信令数据和通信数据确定出待识别号码在预置维度下的号码特征之后,可以将待识别号码的号码特征输入至目标诈骗识别模型,并获取由目标目标诈骗识别模型输出的待识别号码在预置号码标签下的预测概率。如图5所示,可以使用自适应的goip诈骗识别ai模型进行自动判断,具体公式可以如上述公式(1)所示。
[0306]
步骤d4:根据所述预测概率,确定所述待识别号码的号码类型。
[0307]
在得到待识别号码在预置号码标签下的预测概率之后,可以根据预测概率确定待识别号码的号码类型。如图5所示,通过goip诈骗识别ai模型输出的在预置号码标签(即上述描述的四种标签)下的预测概率之后,即可以确定该号码是否为诈骗号码,以及该号码的诈骗细分场景。
[0308]
在本实施例中,随着目标诈骗识别模型的不断应用,可以根据目标诈骗识别模型的识别结果不断调整目标诈骗识别模型的模型参数。对于该实现过程可以结合下述具体实现方式进行详细描述。
[0309]
在本技术的另一种具体实现方式中,在上述步骤303之后,还可以包括:
[0310]
步骤f1:获取所述待识别号码对应的真实号码类型。
[0311]
在得到待识别号码的预测号码类型之后,可以获取待识别号码对应的真实号码类型。
[0312]
步骤f2:根据所述真实号码类型和预测的所述号码类型,计算得到所述目标诈骗识别模型的预测偏差值。
[0313]
之后,可以结合待识别号码的真实号码类型和预测的号码类型计算得到目标诈骗识别模型的预测偏差值。
[0314]
步骤f3:根据所述预测偏差值,调整所述目标诈骗识别模型的模型参数。
[0315]
最后,可以根据预测偏差值调整目标诈骗识别模型的模型参数。如图5所示,可以根据公安和地市分公司的实际反馈对模型参数进行微调。在具体实现中,自适应多任务的goip诈骗行为识别ai模型训练后,应用到实时的信令数据和通信数据,开展自动研判的日常调度,并将有价值的信息提供给公安和地市分公司作进一步侦查。侦查完毕后,根据公安和地址分公司的反馈和损失函数微调ai模型的参数,即根据诈骗行为的实际变化动态更新ai模型的参数。
[0316]
本技术实施例通过根据侦查反馈和自定义的损失函数对模型参数进行微调,自适应诈骗行为的实际变化。
[0317]
本技术实施例提供的诈骗识别模型训练方法,通过根据欺诈业务数据,获取获取具有目标设备诈骗行为的多种类型特征的关键特征集,根据历史诈骗业务数据和所述关键特征集,获取目标设备对应的诈骗行为数据集,基于所述关键特征集和所述诈骗行为数据集对预先构建的诈骗识别模型进行训练,得到目标诈骗识别模型。本技术实施例通过结合具有目标设备诈骗行为的多种类型特征的关键特征集和诈骗行为数据集训练目标诈骗识别模型,能够提供细粒度的价值化参考数据,从而可以有效打击电信网络诈骗,保障人民群众的人身财产安全。同时,可以提高诈骗行为的检测准确度及检测效率。
[0318]
参照图6,示出了本技术实施例提供的一种诈骗识别模型训练装置的结构示意图,
如图6所示,该诈骗识别模型训练装置600可以包括以下模块:
[0319]
关键特征集获取模块610,用于根据欺诈业务数据,获取获取具有目标设备诈骗行为的多种类型特征的关键特征集;
[0320]
诈骗数据集获取模块620,用于根据历史诈骗业务数据和所述关键特征集,获取目标设备对应的诈骗行为数据集;
[0321]
目标诈骗识别模型获取模块630,用于基于所述关键特征集和所述诈骗行为数据集对预先构建的诈骗识别模型进行训练,得到目标诈骗识别模型。
[0322]
可选地,所述关键特征集获取模块610包括:
[0323]
第一特征提取单元,用于提取所述欺诈业务数据中的设备行为类型的第一特征;
[0324]
第二特征提取单元,用于提取所述欺诈业务数据中的诈骗行为类型的第二特征;
[0325]
第三特征提取单元,用于提取所述欺诈业务数据中的位置切换速度类型的第三特征;
[0326]
关键特征集生成单元,用于根据所述第一特征、所述第二特征和所述第三特征,生成所述目标设备诈骗行为的关键特征集。
[0327]
可选地,所述第一特征提取单元包括:
[0328]
第四特征提取子单元,用于提取所述欺诈业务数据中同一基站下多个号码在同一时刻以第一信号强度呼叫的第四特征;所述第一信号强度大于信号强度阈值;
[0329]
第五特征提取子单元,用于提取所述欺诈业务数据中同一基站下多个号码在同一时刻开机/关机的第五特征;
[0330]
第六特征提取子单元,用于提取所述欺诈业务数据中多个号码经过n个基站,且基站轨迹相同的第六特征;n为大于等于2的正整数;
[0331]
第七特征提取子单元,用于提取所述欺诈业务数据中号码呼叫间隔时间与机器拨打号码规律相同的第七特征;
[0332]
第一特征获取子单元,用于将所述第四特征、和/或所述第五特征、和/或所述第六特征、和/或所述第七特征作为所述设备行为类型的第一特征。
[0333]
可选地,所述第二特征提取单元包括:
[0334]
第八特征提取子单元,用于提取所述欺诈业务数据中主呼叫量大于主叫阈值的第八特征;
[0335]
第九特征提取子单元,用于提取所述欺诈业务数据中主呼叫次数与主被呼叫次数的比值大于比例阈值的第九特征;
[0336]
第十特征提取子单元,用于提取所述欺诈业务数据中主呼叫挂断率大于挂断率阈值的第十特征;
[0337]
第十一特征提取子单元,用于提取所述欺诈业务数据中主呼叫振铃时长大于时长阈值的第十一特征;
[0338]
第十二特征提取子单元,用于提取所述欺诈业务数据中通话时长低于通话时长阈值的第十二特征;
[0339]
第十三特征提取子单元,用于提取所述欺诈业务数据中通话时长在设定时长区间的比例的第十三特征;
[0340]
第十四特征提取子单元,用于提取所述欺诈业务数据中呼叫号码的呼叫时间集中
于设定时间区域的第十四特征;
[0341]
第十五特征提取子单元,用于提取所述欺诈业务数据中被叫号码的重叠度低于重叠度阈值的第十五特征;
[0342]
第十六特征提取子单元,用于提取所述欺诈业务数据中在同一时段内从同一基站发出呼叫的第十六特征;
[0343]
第十七特征提取子单元,用于提取所述欺诈业务数据中在同一时段内的号码中存在强关联的号码的第十七特征;
[0344]
第十八特征提取子单元,用于提取所述欺诈业务数据中拨打特殊号码的第十八特征;
[0345]
第十九特征提取子单元,用于提取所述欺诈业务数据中号码活跃天数低于活跃天数阈值的第十九特征;
[0346]
第二十特征提取子单元,用于提取所述欺诈业务数据中被叫号码归属地数量大于归属地数量阈值的第二十特征;
[0347]
第二特征获取子单元,用于将所述第八特征、和/或所述第九特征、和/或所述第十特征、和/或所述第十一特征、和/或所述第十二特征、和/或所述第十三特征、和/或所述第十四特征、和/或所述第十五特征、和/或所述第十六特征、和/或所述第十七特征、和/或所述第十八特征、和/或所述第十九特征、和/或所述第二十特征,作为所述诈骗行为类型的第二特征。
[0348]
可选地,所述第三特征提取单元包括:
[0349]
第三特征获取子单元,用于提取所述欺诈业务数据中号码位置切换的平均速度大于速度阈值的特征,作为所述位置切换速度类型的第三特征。
[0350]
可选地,所述诈骗数据集获取模块620包括:
[0351]
预处理数据获取单元,用于对获取的历史诈骗业务数据进行预处理,得到预处理诈骗业务数据;
[0352]
数据标签获取单元,用于获取所述预处理诈骗业务数据对应的数据标签;
[0353]
数据向量计算单元,用于根据所述关键特征集计算得到所述预处理诈骗业务数据的目标维度的诈骗数据向量;
[0354]
诈骗数据集生成单元,用于根据所述诈骗数据向量和所述数据标签,生成所述目标设备对应的诈骗行为数据集。
[0355]
可选地,所述诈骗识别模型包括:若干个分类器,
[0356]
所述目标诈骗识别模型获取模块630包括:
[0357]
模型样本输入单元,用于将所述关键特征集中每个样本的样本关键特征和所述诈骗行为数据集中所述每个样本的样本行为数据输入至所述诈骗识别模型;
[0358]
预测概率获取单元,用于依次调用若干个所述分类器对所述样本关键特征和所述样本行为数据进行处理,得到所述每个样本在预置标签下的预测概率;
[0359]
损失值计算单元,用于根据所述每个样本的真实标签和所述预测概率,计算得到所述诈骗识别模型对应的损失值;
[0360]
目标诈骗识别模型获取单元,用于在所述损失值处于预设范围内的情况下,将训练后的诈骗识别模型作为所述目标诈骗识别模型。
[0361]
可选地,所述装置还包括:
[0362]
号码数据获取模块,用于获取待识别号码的信令数据和通信数据;
[0363]
号码特征确定模块,用于根据所述信令数据和所述通信数据,确定所述待识别号码在预置维度下的号码特征;
[0364]
预测概率获取模块,用于将所述号码特征输入至所述目标诈骗识别模型,并获取由所述目标诈骗识别模型输出的所述待识别号码在预置号码标签下的预测概率;
[0365]
号码类型确定模块,用于根据所述预测概率,确定所述待识别号码的号码类型。
[0366]
可选地,所述装置还包括:
[0367]
真实类型获取模块,用于获取所述待识别号码对应的真实号码类型;
[0368]
预测偏差计算模块,用于根据所述真实号码类型和预测的所述号码类型,计算得到所述目标诈骗识别模型的预测偏差值;
[0369]
模型参数调整模块,用于根据所述预测偏差值,调整所述目标诈骗识别模型的模型参数。
[0370]
本技术实施例提供的诈骗识别模型训练装置,通过根据欺诈业务数据,获取获取具有目标设备诈骗行为的多种类型特征的关键特征集,根据历史诈骗业务数据和所述关键特征集,获取目标设备对应的诈骗行为数据集,基于所述关键特征集和所述诈骗行为数据集对预先构建的诈骗识别模型进行训练,得到目标诈骗识别模型。本技术实施例通过结合具有目标设备诈骗行为的多种类型特征的关键特征集和诈骗行为数据集训练目标诈骗识别模型,能够提供细粒度的价值化参考数据,从而可以有效打击电信网络诈骗,保障人民群众的人身财产安全。同时,可以提高诈骗行为的检测准确度及检测效率。
[0371]
本技术实施例还提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述诈骗识别模型训练方法。
[0372]
图7示出了本发明实施例的一种电子设备700的结构示意图。如图7所示,电子设备700包括中央处理单元(cpu)701,其可以根据存储在只读存储器(rom)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序指令,来执行各种适当的动作和处理。在ram703中,还可存储电子设备700操作所需的各种程序和数据。cpu701、rom702以及ram703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
[0373]
电子设备700中的多个部件连接至i/o接口705,包括:输入单元706,例如键盘、鼠标、麦克风等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0374]
上文所描述的各个过程和处理,可由处理单元701执行。例如,上述任一实施例的方法可被实现为计算机软件程序,其被有形地包含于计算机可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由rom702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序被加载到ram703并由cpu701执行时,可以执行上文描述的方法中的一个或多个动作。
[0375]
另外地,本技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程
序,该程序被处理器执行时实现上述诈骗识别模型训练方法。
[0376]
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0377]
本领域内的技术人员应明白,本技术实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本技术实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0378]
本技术实施例是参照根据本技术实施例的方法、终端(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0379]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0380]
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端上,使得在计算机或其他可编程终端上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0381]
尽管已描述了本技术实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术实施例范围的所有变更和修改。
[0382]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端中还存在另外的相同要素。
[0383]
以上对本技术所提供的一种诈骗识别模型训练方法、一种诈骗识别模型训练装置、一种电子设备和一种计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1