一种电信诈骗用户识别模型的处理方法、装置及处理设备

文档序号:33477961发布日期:2023-03-15 11:01阅读:51来源:国知局
一种电信诈骗用户识别模型的处理方法、装置及处理设备

1.本技术涉及数据挖掘领域,具体涉及一种电信诈骗用户识别模型的处理方法、装置及处理设备。


背景技术:

2.电信诈骗,是指电信诈骗分子以非法占有为目的,通过电话、网络或者短信的方式,编造虚假信息,设置骗局,对受害人实施远程、非接触式的欺骗方式,使受害人产生错误认识并处分财产的行为,当下电信诈骗通常以冒充他人及仿冒、伪造各种合法外衣和形式的方式达到欺骗的目的,如冒充各类机构工作人员、伪造招工、冒充招工、刷单和手机定位等具体形式进行诈骗,还有以刮刮乐、六合彩等网络赌博的形式实施诈骗。
3.传统的电信诈骗分子识别,主要是提取电话通信中与电信诈骗行为强相关的行为特征,然后构建用户的行为模式特征表达模型,再挖掘用户长时间内的行为模式生成用户的静态行为模式,之后计算当前用户的行为模式与已知电信诈骗分子的行为模式之间的相似性,据此判断用户是否为电信诈骗分子。
4.但是在现有技术的研究过程中,本技术发明人发现,电信诈骗分子的诈骗手法在不同该时期存在较大的差异,其电话社交结构在时间维度上呈现

快速变化

的特征,传统的电信诈骗分子识别方法只学习了历史特征,当电信诈骗分子的诈骗手法发生变化时则难以准确识别,显然制约了当前电信欺诈识别的应用效果。


技术实现要素:

5.本技术提供了一种电信诈骗用户识别模型的处理方法、装置及处理设备,用于更好地提取电信诈骗分子的行为特征,从而构建出的电信诈骗用户识别模型,可以对灵活多变的电信诈骗用户进行精准识别。
6.第一方面,本技术提供了一种电信诈骗用户识别模型的处理方法,方法包括:
7.根据样本电信通话数据集d构建不同用户的电话社交网络g,其中,电话社交网络g描述了包括通话方id、通话类型、通话日期以及通话时长的特征;
8.根据不同用户的电话社交网络g,构建不同用户的用户间同质社交网络g
uv
,其中,g
uv
=(u,v,e
uv
,f),guv中的连边e
uv
描述为用户u和用户v产生的通话交互,同时边上包含通话属性特征集f,f包括对应的通话类型、通话日期以及通话时长的特征;
9.根据不同用户的用户间同质社交网络g
uv
,基于时间切片m获取不同用户的社交结构特征s;
10.根据不同用户的用户间同质社交网络g
uv
,基于时间切片m获取不同用户的行为模式特征b;
11.融合不同用户的社交结构特征s和不同用户的行为模式特征b,得到不同用户的社交行为模式特征a;
12.在不同用户的社交行为模式特征a通过滑动时间窗口提取窗口内的社交行为模式
特征,得到社交行为模式特征序列;
13.在社交行为模式特征序列的基础上,结合不同用户标注的电信诈骗用户标识,训练电信诈骗用户识别模型,其中,电信诈骗用户标识用于标识对应用户是否为电信诈骗用户,电信诈骗用户识别模型用于根据输入的待识别用户的社交行为模式特征序列来预测待识别用户是否为电信诈骗用户。
14.第二方面,本技术提供了一种电信诈骗用户识别模型的处理装置,装置包括:
15.第一构建单元,用于根据样本电信通话数据集d构建不同用户的电话社交网络g,其中,电话社交网络g描述了包括通话方id、通话类型、通话日期以及通话时长的特征;
16.第二构建单元,用于根据不同用户的电话社交网络g,构建不同用户的用户间同质社交网络g
uv
,其中,g
uv
=(u,v,e
uv
,f),guv中的连边e
uv
描述为用户u和用户v产生的通话交互,同时边上包含通话属性特征集f,f包括对应的通话类型、通话日期以及通话时长的特征;
17.第一获取单元,用于根据不同用户的用户间同质社交网络g
uv
,基于时间切片m获取不同用户的社交结构特征s;
18.第二获取单元,用于根据不同用户的用户间同质社交网络g
uv
,基于时间切片m获取不同用户的行为模式特征b;
19.融合单元,用于融合不同用户的社交结构特征s和不同用户的行为模式特征b,得到不同用户的社交行为模式特征a;
20.提取单元,用于在不同用户的社交行为模式特征a通过滑动时间窗口提取窗口内的社交行为模式特征,得到社交行为模式特征序列;
21.训练单元,用于在社交行为模式特征序列的基础上,结合不同用户标注的电信诈骗用户标识,训练电信诈骗用户识别模型,其中,电信诈骗用户标识用于标识对应用户是否为电信诈骗用户,电信诈骗用户识别模型用于根据输入的待识别用户的社交行为模式特征序列来预测待识别用户是否为电信诈骗用户。
22.第三方面,本技术提供了一种处理设备,包括处理器和存储器,存储器中存储有计算机程序,处理器调用存储器中的计算机程序时执行本技术第一方面或者本技术第一方面任一种可能的实现方式提供的方法。
23.第四方面,本技术提供了一种计算机可读存储介质,计算机可读存储介质存储有多条指令,指令适于处理器进行加载,以执行本技术第一方面或者本技术第一方面任一种可能的实现方式提供的方法。
24.从以上内容可得出,本技术具有以下的有益效果:
25.本技术在训练电信诈骗用户识别模型的过程中,在样本电信通话数据集d的基础上,从电话社交网络g开始,到用户间同质社交网络g
uv
、社交结构特征s、行为模式特征b、社交行为模式特征a最终到社交行为模式特征序列,对各用户的特征进行了精确提取,此外,还引入了时间切片和滑动时间窗口的特征提取机制,由此更能捕捉到各用户在不同时间段内尤其是短时间段内的特征,如此,电信诈骗用户识别模型不仅可以识别电信诈骗用户在不同时间段内的电信诈骗行为,还可以识别出只有短期行为痕迹的电信诈骗用户,因此可以对灵活多变的电信诈骗用户进行精准识别,避免现有识别模型其识别策略较为僵硬的问题。
附图说明
26.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
27.图1为本技术电信诈骗用户识别模型的处理方法的一种流程示意图;
28.图2为本技术电话社交结构时间变化的一种场景示意图;
29.图3为本技术提取社交行为模式特征序列的一种场景示意图;
30.图4为本技术长短记忆网络lstm模型的一种模型示意图;
31.图5为本技术电信诈骗用户识别模型的处理装置的一种结构示意图;
32.图6为本技术处理设备的一种结构示意图。
具体实施方式
33.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
34.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本技术中出现的对步骤进行的命名或者编号,并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤,已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序,只要能达到相同或者相类似的技术效果即可。
35.本技术中所出现的模块的划分,是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本技术中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本技术方案的目的。
36.在介绍本技术提供的电信诈骗用户识别模型的处理方法之前,首先介绍本技术所涉及的背景内容。
37.本技术提供的电信诈骗用户识别模型的处理方法、装置以及计算机可读存储介质,可应用于处理设备,用于更好地提取电信诈骗分子的行为特征,从而构建出的电信诈骗用户识别模型,可以对灵活多变的电信诈骗用户进行精准识别。
38.本技术提及的电信诈骗用户识别模型的处理方法,其执行主体可以为电信诈骗用
户识别模型的处理装置,或者集成了该电信诈骗用户识别模型的处理装置的服务器、物理主机或者用户设备(user equipment,ue)等不同类型的处理设备。其中,电信诈骗用户识别模型的处理装置可以采用硬件或者软件的方式实现,ue具体可以为智能手机、平板电脑、笔记本电脑、台式电脑或者个人数字助理(personal digital assistant,pda)等终端设备,处理设备可以通过设备集群的方式设置。
39.具体来说,处理设备一般为电信运营商内部的设备,用于在电信网络后台根据各用户的通信记录,对疑似电信诈骗用户(电信诈骗分子的用户)进行识别,如此可以对这类用户进行标记、跟踪,来根据具体情况安排相应的处理,此外也可以向正常用户提醒注意电信诈骗,避免接到电话的正常用户受到电信诈骗的危害。
40.下面,开始介绍本技术提供的电信诈骗用户识别模型的处理方法。
41.首先,参阅图1,图1示出了本技术电信诈骗用户识别模型的处理方法的一种流程示意图,本技术提供的电信诈骗用户识别模型的处理方法,具体可包括如下步骤s101至步骤s107:
42.步骤s101,根据样本电信通话数据集d构建不同用户的电话社交网络g,其中,电话社交网络g描述了包括通话方id、通话类型、通话日期以及通话时长的特征;
43.可以理解,本技术将用户分为两类,一类就是正常用户,另一类就是实施电信诈骗行为的用户,记为电信诈骗用户,对于用户的类别,则是要交由训练的电信诈骗用户识别模型来进行识别的。
44.对应用电信诈骗用户识别模型的训练,则需要先配置样本数据,在本技术中,具体为样本电信通话数据集d,即描述了各用户的电信通话情况的样本数据,具体可以描述通话方id(包括发起方id和接听方id)、通话类型(主叫类型或者被叫类型)、通话日期以及通话时长等内容。
45.其中,样本电信通话数据集d中的数据,既可以是历史数据,也可以是人工配置的数据。
46.在不同用户的样本电信通话数据集d的基础上,本技术则构建不同用户的电话社交网络g这一数据模型,用来更为简洁地表征不同用户的电信通话特征,并以特定的电话社交网络的数据结构进行表征,在网络中,对于不同用户则是通过通话方id、通话类型、通话日期以及通话时长等特征进行体现。
47.其中,对于本技术所涉及的用户的相关内容,需要理解的是,在具体应用中,是可以采用加密方式进行加密再进行处理的,或者说,是在加密状态下进行处理的,如此进一步保障了数据安全,避免用户个人隐私的泄露。
48.步骤s102,根据不同用户的电话社交网络g,构建不同用户的用户间同质社交网络g
uv
,其中,g
uv
=(u,v,e
uu
,f),guv中的连边e
uv
描述为用户u和用户v产生的通话交互,同时边上包含通话属性特征集f,f包括对应的通话类型、通话日期以及通话时长的特征;
49.而在样本电信通话数据集d的基础上,初步建立了不同用户的数据模型即电话社交网络g后,则可以考虑用户间行为的因素,继续进行数据模型的加工。
50.具体的,此处则可以在电话社交网络g描述的用户个人通话行为的基础上,将电话社交网络g加工为用户间同质社交网络g
uv
,以此表征用户之间的通话交互行为,对应的,用户间同质社交网络g
uv
中,连边e
uv
描述为用户u和用户v产生的通话交互,同时边上包含通话
属性特征集f,f包括对应的通话类型、通话日期以及通话时长等特征。
51.步骤s103,根据不同用户的用户间同质社交网络g
uv
,基于时间切片m获取不同用户的社交结构特征s;
52.如图2示出的本技术电话社交结构时间变化的一种场景示意图,本技术认为,电信诈骗分子(fraudster)与正常用户(normal user)的电话社交结构在时间维度上存在着不同,因此可以考虑从时间维度出发进行用户特征的构建。
53.对应的,在确定了基础的用户间同质社交网络g
uv
后,则可以开始引入本身配置的时间切片的概念,更为灵活化、精确化地提取用户通话行为特征。
54.具体的,此处记有时间切片m,m指的是个数,即,将一段时间平均切分为m个时间切片(时间段),例如将28天切分为4个时间切片(时间段),每个时间切片(时间段指长度)为7天。
55.以用户间同质社交网络g
uv
描述的用户之间的通话交互行为为基础,在时间切片m划分的不同时间范围内,提取每个用户的社交结构特征s。
56.作为一个具体的实现方案,以用户ui为例,用户ui的社交结构特征si具体可以表示为:
[0057][0058]
其中,用户拨出电话数用户接收电话数j
·
∈[1,m]。
[0059]
可以理解,本技术在用户的社交结构特征的具体配置中,包括了用户的拨出电话数(即用户的出度,记为outd)、用户的接收电话数(即入度,记为ind)还有出度入度比值(记为oid),如此对于用户ui,通过上式提取用户ui在每个时间切片内的出度、入度和出度入度比值,得到用户ui的社交结构特征si。
[0060]
需要理解,此处设置是由于本技术认为,电信诈骗分子每个月的播出电话数、接收电话数以及播出电话数与接收电话数的比例三者的波动比较大,而正常用户比较稳定,因此可以作为两者的有效区分途径。
[0061]
步骤s104,根据不同用户的用户间同质社交网络g
uv
,基于时间切片m获取不同用户的行为模式特征b;
[0062]
此外,除了基于不同用户的用户间同质社交网络g
uv
来捕捉用户的社交结构特征,在另一方面还可以基于不同用户的用户间同质社交网络g
uv
,来捕捉用户的行为模式特征。
[0063]
其中,与社交结构特征类似的,也是涉及到了时间切片的应用,以用户间同质社交网络g
uv
描述的用户之间的通话交互行为为基础,在时间切片m划分的不同时间范围内,提取每个用户的行为模式特征b。
[0064]
作为又一个具体的实现方案,仍以用户ui为例,用户ui的行为模式特征bi具体可以表示为:
[0065][0066]
对于该行为模式特征的表达式,其具体内容的说明如下:
[0067]
(1),消费值price
[0068]
用户ui在每个时间切片内的消费值pricei=(price
i,1
,price
i,2
,...,price
i,m
);
[0069]
(2),好友重叠率ε
[0070]
用户ui的一阶好友重叠率ε
1,i
为用户ui的相邻时间切片的电话社交好友的相似度,定义为:
[0071]
ε
1,i
=[ε

1,1
,ε

1,2
,...,ε

1,(p-1)
],
[0072]
其中,用户ui的p个时间片下的电话社交好友ui=[u
1,i
,u
2,i
,u
3,i
,...,u
p,i
],u
k,i
为用户ui第k个时间片的电话社交好友,u
(k+1),i
指的是用户ui第k+1个时间片的电话社交好友;
[0073]
类似的,用户ui的二阶好友重叠率ε
2,i
为用户ui的间隔一个时间片的电话社交好友的相似度,定义为:
[0074]
ε
2,i
=[ε

2,1
,ε

2,2
,...,ε

2,(p-1)
],
[0075]
类似的,用户ui的三阶好友重叠率ε
3,i
为用户ui的间隔两个时间片的电话社交好友的相似度,定义为:
[0076]
ε
3,i
=[ε

3,1
,ε

3,2
,...,ε

3,(p-1)
],
[0077]
可以理解,好友重叠率计算的是用户在不同时间切片内的用户的电话社交好友的相似度,由于已经将用户的通话记录划分了m个时间切片,并且这里提取的特征是每个时间切片内的好友重叠率,所以可以通过更短的时间间隔对时间切片进一步划分来计算每个时间切片内的好友重叠率。
[0078]
因此,这里本技术将每个时间切片m进一步划分为p个时间切片,用户ui每个时间切片的一阶电话好友重叠率、二阶电话好友重叠率和三阶电话好友重叠率为:
[0079]
ε
order,i
=[ε

1,1
,ε

1,2
,...,ε

1,(p-1)
],order∈[1,3],
[0080]
用户ui每个时间切片内的好友重叠率为:
[0081]
εi=[ε
i,1
,ε
i,2
,...,ε
i,m
]
t
[0082]
=[[ε
1,i
,ε
2,i
,ε
3,i
](first time slice)
[0083]

1,i
,ε
2,i
,ε
3,i
](second time slice)
[0084]

[0085]

1,i
,ε
2,i
,ε
3,i
](the mth time slice)]
[0086]
(3)新增好友数
[0087]
用户ui的一阶新增好友数为用户ui的相邻时间切片的新增的通话好友数量,定义为:
[0088][0089]
其中,u
k,i
为用户ui第k个时间切片的电话社交好友,u
(k+1),i
为用户ui第k+1个时间切片的电话社交好友;
[0090]
类似的,用户ui的二阶新增好友数为用户ui的间隔一个时间切片的新增的通话好友数量,定义为:
[0091][0092]
类似的,用户ui的三阶新增好友数为用户ui的间隔两个时间切片的新增的通话好友数量,定义为:
[0093][0094]
可以理解,新增电话好友数也需要对时间切片进行再次划分,来计算每个时间切片内的新增电话好友数,表示为:
[0095][0096]
(4),平均通话时长avgc、拨出电话平均时长avgcin、接收电话平均时长avgcout
[0097]
用户ui每个时间切片内的平均通话时长avgci=[avgc
i,1
,avgc
i,2
,...,avgc
i,m
];
[0098]
用户ui每个时间切片内的打出电话平均通话时长avgcini=[avgcin
i,1
,avgcin
i,2
,...,avgcin
i,m
];
[0099]
用户ui每个时间切片内的接收电话的平均通话时长avgcouti=[avgcout
i,1
,avgcout
i,2
,...,avgcout
i,m
];
[0100]
可以理解,对于用户的平均通话时长avgc、拨出电话平均时长avgcin、接收电话平均时长avgcout,仍以用户ui为例,首先提取用户ui在每个时间切片内的通话时长,然后根据通话类型判断该通话为拨出电话还是接收电话。
[0101]
用户ui在一个时间切片内的通话时长,拨出电话通话时长和接收电话通话时长分别表示为:
[0102]ci,1
=(c
i,1
,c
i,2
,...,c
i,n
),
[0103]
cin
i,1
=(cin
i,1
,cin
i,2
,...,cin
i,n
),
[0104]
cout
i,1
=(cout
i,1
,cout
i,2
,...,cout
i,n
),
[0105]
其中,n表示用户的通话数量,c
i,n
表示用户ui在第n次通话的通话时长。
[0106]
用户ui在一个时间切片内的平均通话时长、打出电话平均通话时长和接收电话的平均通话时长表示为:
[0107]
[0108][0109][0110]
如此,用户ui每个时间切片内的平均通话时长、打出电话平均通话时长和接收电话的平均通话时长则可以得到前面的公式,即:
[0111]
avgci=[avgc
i,1
,avgc
i,2
,...,avgc
i,m
],
[0112]
avgcini=[avgcin
i,1
,avgcin
i,2
,...,avgcin
i,m
],
[0113]
avgcouti=[avgcout
i,1
,avgcout
i,2
,...,avgcout
i,m
]。
[0114]
(5),通话时间分布
[0115]
用户ui在时间切片内的00:00至08:00的打电话强度ct0i=[ct0
i,1
,ct0
i,2
,...,ct0
i,m
];
[0116]
用户ui在时间切片内的08:00至16:00的打电话强度ct1i=[ct1
i,1
,ct1
i,2
,...,ct1
i,m
];
[0117]
用户ui在时间切片内的16:00至24:00的打电话强度ct2i=[ct2
i,1
,ct2
i,2
,...,ct2
i,m
]。
[0118]
可以理解,由于电信诈骗分子的欺诈行为,更类似于一个职业行为,即电信诈骗分子主要在工作时间实施电话诈骗,因此用户ui在每个时间切片内的打电话时间段的强度可以结合时间段的划分得到上式。
[0119]
可以理解,相较于传统的电信诈骗分子挖掘方案大多数只关注用户社交结构特征,而忽略了用户的行为模式特征,此处本技术则是提取了用户的行为模式特征,并协同社交结构特征来分析电信诈骗分子的行为模式,从而可以更好的表征出电信诈骗份子的用户特征,进而能够增加诈骗分子识别的准确率。
[0120]
步骤s105,融合不同用户的社交结构特征s和不同用户的行为模式特征b,得到不同用户的社交行为模式特征a;
[0121]
在得到两个方面的用户特征,即交结构特征s和行为模式特征b,则可将两者进行融合,得到统一的社交行为模式特征a,以此更好地表征每个用户在社交行为模式方面的特征。
[0122]
作为又一种具体的实现方案,仍以用户ui为例,用户ui的社交行为模式特征为k∈(1,m)。
[0123]
步骤s106,在不同用户的社交行为模式特征a通过滑动时间窗口提取窗口内的社交行为模式特征,得到社交行为模式特征序列;
[0124]
可以理解,为了更好地体现用户特征在不同时间维度的变化,本技术还引入滑动时间窗口机制,通过滑动时间窗口来提取用户在不同时间范围内的社交行为模式特征。
[0125]
具体的,作为又一种具体的实现方案,滑动时间窗口在细观层面还可设为q个时间切片,即滑动时间窗口大小为q个时间切片,从而可以获得更为细腻、精确的社交行为模式特征,仍以用户ui为例,用户ui的社交行为模式特征序列表示为:
[0126]
其中,a
i,1
为第1个滑动时间窗口的社交行为模式特征序列,...,a
i,p
为第q个滑动时间窗口的社交行为模式特征序列。
[0127]
此外,为方便理解此处内容,还可以结合图3示出的本技术提取社交行为模式特征序列的一种场景示意图进行参考。
[0128]
可以理解,在通过前面的社交行为模式特征更好地表征了不同用户的特征后,此处结合滑动时间窗口继续动态地对不同用户的特征进行了表征,如此为后面的模型训练提供了丰富又精细的数据支持。
[0129]
步骤s107,在社交行为模式特征序列的基础上,结合不同用户标注的电信诈骗用户标识,训练电信诈骗用户识别模型,其中,电信诈骗用户标识用于标识对应用户是否为电信诈骗用户,电信诈骗用户识别模型用于根据输入的待识别用户的社交行为模式特征序列来预测待识别用户是否为电信诈骗用户。
[0130]
电信诈骗分子挖掘本质上是二分类问题,即电信社交网络中的用户要么是电信诈骗用户(电信诈骗分子),要么是正常用户,而在获得了不同用户的社交行为模式特征序列后,根据预先对用户标注的电信诈骗用户标识(作为模型的target,标识用户为电信诈骗用户或者正常用户),则可进行电信诈骗用户识别模型的具体训练。
[0131]
其中,应当理解的是,电信诈骗用户识别模型在具体操作中可以设置为不同类型的神经网络模型,本技术具体可以采用长短记忆网络(long short term memory,lstm)模型,其具体可以通过sigmoid激活函数进行结果的输出。
[0132]
长短记忆网络lstm模型是一种序列学习模型,能够学习系列中数据的依赖关系,尤其可以捕捉到上下文之间的关系,如图4示出的本技术长短记忆网络lstm模型的一种模型示意图,其主要包含三个模块:遗忘门、记忆门和输出门。
[0133]
遗忘门,其主要任务为接受一个长期记忆c
t-1
(上一模块输出),并决定要保留和遗忘c
t-1
的部分信息,其中的遗忘因子f
t
由短期记忆h
t-1
以及当前输入x
t
来进行计算:
[0134]ft
=σ(wf[h
t-1
,x
t
]+bf);
[0135]
记忆门,其主要任务为确定需要保留的输入信息,以补充遗忘门丢弃的属性信息:
[0136]it
=σ(wi[h
t-1
,x
t
]+bi),
[0137]
至此,更新旧的状态信息c
t-1
为c
t

[0138][0139]
输出门,其主要任务为决定长期记忆信息c
t
的输出部分,其中输出因子o
t
由h
t-1
以及当前输入x
t
来进行计算:
[0140]ot
=σ(wo[h
t-1
,x
t
]+bo);
[0141]
至此,最终输出h
t
表示为:
[0142]ht
=o
t
*tanh(c
t
);
[0143]
因此,利用长短记忆网络lstm模型提取用户ui的电话社交结构演变模式:
[0144]
[0145]
其中,h0表示模型输入的初始隐藏单元,c0表示模型输入的初始状态单元,表示为模型的输出状态。
[0146]
将长短记忆网络lstm模型的输出送到sigmoid激活函数中,从而实现用户ui的身份识别预测。
[0147]
激活函数是深度神经网络中每一个神经元线性加权计算结果的非线性映射能力,用于结果的输出,而sigmoid激活函数主要用于逻辑回归,实现二分类功能,sigmoid激活函数的公式如下:
[0148][0149]
其中,sigmoid激活函数的取值范围是(0,1);
[0150]
此外,电信诈骗用户识别模型在训练过程中的损失函数,可以采用不同类型的损失函数,作为一个实例,本技术具体采用了binary_crossentropy损失函数。
[0151]
binary_crossentropy损失函数的公式如下:
[0152][0153]
其中,yi是标签,电信诈骗用户的标签为1,正常用户为0,是n个用户的预测概率,是sigmoid激活函数输出的用户所属类别的概率,
[0154]
可以理解,当用户为电信诈骗分子时,yi=1,(1-yi)为0。越大,则越小,损失越小。当用户为正常用户时,yi=0。越小,越小,损失越小。所以当损失函数越小,则表明模型预测的准确值越高。
[0155]
通过损失函数计算得到模型的损失,若损失越小,则表明电信诈骗用户识别模型的预测效果越好,即能够较准确的识别用户的身份;反之,若损失较大,则继续迭代进行长短记忆网络lstm模型的训练,直到模型的损失值达到收敛状态。
[0156]
在达到迭代次数、训练时长、预测精度等预设的训练要求,即可完成电信诈骗用户识别模型的训练,此时,则可投入实际应用,进行电信诈骗用户(电信诈骗分子)的识别。
[0157]
对应的,本技术方法还可以包括:
[0158]
获取待识别用户的电信通话数据集;
[0159]
根据待识别用户的电信通话数据集,处理待识别用户的社交行为模式特征序列;
[0160]
将待识别用户的社交行为模式特征序列输入电信诈骗用户识别模型,以预测待识别用户是否为电信诈骗用户;
[0161]
获取电信诈骗用户识别模型输出的预测结果。
[0162]
可以理解,对于当前待识别用户的用户身份识别,与训练过程类似,也是从获取其电信通话数据集为基础,依次处理得到电话社交网络、用户间同质社交网络、社交结构特征、行为模式特征、社交行为模式特征直至社交行为模式特征序列,接着将当前待识别用户的社交行为模式特征序列输入电信诈骗用户识别模型进行识别,则可得到模型的识别结
果。
[0163]
而得到了当前待识别用户是否为电信诈骗用户的识别结果后,则可继续展开相应的处理,例如可以对该用户进行标记、跟踪,来根据具体情况安排相应的处理,此外也可以向正常用户提醒注意电信诈骗,避免接到该用户电话的正常用户受到电信诈骗的危害。
[0164]
从以上的内容可以看出,本技术在训练电信诈骗用户识别模型的过程中,在样本电信通话数据集d的基础上,从电话社交网络g开始,到用户间同质社交网络g
uv
、社交结构特征s、行为模式特征b、社交行为模式特征a最终到社交行为模式特征序列,对各用户的特征进行了精确提取,此外,还引入了时间切片和滑动时间窗口的特征提取机制,由此更能捕捉到各用户在不同时间段内尤其是短时间段内的特征,如此,电信诈骗用户识别模型不仅可以识别电信诈骗用户在不同时间段内的电信诈骗行为,还可以识别出只有短期行为痕迹的电信诈骗用户,因此可以对灵活多变的电信诈骗用户进行精准识别,避免现有识别模型其识别策略较为僵硬的问题。
[0165]
以上是本技术提供的电信诈骗用户识别模型的处理方法的介绍,为便于更好的实施本技术提供的电信诈骗用户识别模型的处理方法,本技术还从功能模块角度提供了一种电信诈骗用户识别模型的处理装置。
[0166]
参阅图5,图5为本技术电信诈骗用户识别模型的处理装置的一种结构示意图,在本技术中,电信诈骗用户识别模型的处理装置500具体可包括如下结构:
[0167]
第一构建单元501,用于根据样本电信通话数据集d构建不同用户的电话社交网络g,其中,电话社交网络g描述了包括通话方id、通话类型、通话日期以及通话时长的特征;
[0168]
第二构建单元502,用于根据不同用户的电话社交网络g,构建不同用户的用户间同质社交网络g
uv
,其中,g
uv
=(u,v,e
uv
,f),guv中的连边e
uv
描述为用户u和用户v产生的通话交互,同时边上包含通话属性特征集f,f包括对应的通话类型、通话日期以及通话时长的特征;
[0169]
第一获取单元503,用于根据不同用户的用户间同质社交网络g
uv
,基于时间切片m获取不同用户的社交结构特征s;
[0170]
第二获取单元504,用于根据不同用户的用户间同质社交网络g
uv
,基于时间切片m获取不同用户的行为模式特征b;
[0171]
融合单元505,用于融合不同用户的社交结构特征s和不同用户的行为模式特征b,得到不同用户的社交行为模式特征a;
[0172]
提取单元506,用于在不同用户的社交行为模式特征a通过滑动时间窗口提取窗口内的社交行为模式特征,得到社交行为模式特征序列;
[0173]
训练单元507,用于在社交行为模式特征序列的基础上,结合不同用户标注的电信诈骗用户标识,训练电信诈骗用户识别模型,其中,电信诈骗用户标识用于标识对应用户是否为电信诈骗用户,电信诈骗用户识别模型用于根据输入的待识别用户的社交行为模式特征序列来预测待识别用户是否为电信诈骗用户。
[0174]
在一种示例性的实现方式中,用户ui的社交结构特征si表示为:
[0175]
[0176]
其中,用户拨出电话数用户接收电话数j∈[1,m]。
[0177]
在又一种示例性的实现方式中,用户ui的行为模式特征bi表示为:
[0178][0179]
其中,用户ui在每个时间切片内的消费值pricei=(price
i,1
,price
i,2
,...,price
i,m
);
[0180]
用户ui的一阶好友重叠率ε
1,i
为用户ui的相邻时间切片的电话社交好友的相似度,ε
1,i
=[ε

1,1
,ε

1,2
,...,ε

1,(p-1)
],用户ui的p个时间片下的电话社交好友ui=[u
1,i
,u
2,i
,u
3,i
,...,u
p,i
],u
k,i
为用户ui第k个时间片的电话社交好友,u
(k+1),i
指的是用户ui第k+1个时间片的电话社交好友;
[0181]
用户ui的二阶好友重叠率ε
2,i
为用户ui的间隔一个时间片的电话社交好友的相似度,ε
2,i
=[ε

2,1
,ε

2,2
,...,ε

2,(p-1)
],每个时间切片m进一步划分为p个时间切片;
[0182]
用户ui的三阶好友重叠率ε
3,i
为用户ui的间隔两个时间片的电话社交好友的相似度,ε
3,i
=[ε

3,1
,ε

3,2
,...,ε

3,(p-1)
],
[0183]
用户ui的一阶新增好友数的用户ui的相邻时间切片的新增的通话好友数量,u
k,i
为用户ui第k个时间片的电话社交好友,u
(k+1),i
为用户ui第k+1个时间片的电话社交好友;
[0184]
用户ui的二阶新增好友数为用户ui的间隔一个时间片的新增的通话好友数量,
[0185]
用户ui的三阶新增好友数为用户ui的间隔两个时间片的新增的通话好友数量,
[0186]
用户ui每个时间片内的平均通话时长avgci=[avgc
i,1
,avgc
i,2
,...,avgc
i,m
];
[0187]
用户ui每个时间片内的打出电话平均通话时长avgcini=[avgcin
i,1
,avgcin
i,2
,...,avgcin
i,m
];
[0188]
用户ui每个时间片内的接收电话的平均通话时长avgcouti=[avgcout
i,1
,avgcout
i,2
,...,avgcout
i,m
];
[0189]
用户ui在时间片内的00:00至08:00的打电话强度ct0i=[ct0
i,1
,ct0
i,2
,...,
ct0
i,m
];
[0190]
用户ui在时间片内的08:00至16:00的打电话强度ct1i=[ct1
i,1
,ct1
i,2
,...,ct1
i,m
];
[0191]
用户ui在时间片内的16:00至24:00的打电话强度ct2i=[ct2
i,1
,ct2
i,2
,...,ct2
i,m
]。
[0192]
在又一种示例性的实现方式中,用户ui的社交行为模式特征为的社交行为模式特征为k∈(1,m)。
[0193]
在又一种示例性的实现方式中,滑动时间窗口设为q个时间切片,用户ui的社交行为模式特征序列表示为为模式特征序列表示为
[0194]
在又一种示例性的实现方式中,电信诈骗用户识别模型采用长短记忆网络lstm模型,长短记忆网络lstm模型通过sigmoid激活函数进行结果的输出,在训练过程中的损失函数采用binary_crossentropy损失函数;
[0195]
sigmoid激活函数的公式如下:
[0196][0197]
其中,sigmoid激活函数的取值范围是(0,1);
[0198]
binary_crossentropy损失函数的公式如下:
[0199][0200]
其中,yi是标签,电信诈骗用户的标签为1,正常用户为0,是n个用户的预测概率,是sigmoid激活函数输出的用户所属类别的概率,
[0201]
在又一种示例性的实现方式中,装置还包括应用单元508,用于:
[0202]
获取待识别用户的电信通话数据集;
[0203]
根据待识别用户的电信通话数据集,处理待识别用户的社交行为模式特征序列;
[0204]
将待识别用户的社交行为模式特征序列输入电信诈骗用户识别模型,以预测待识别用户是否为电信诈骗用户;
[0205]
获取电信诈骗用户识别模型输出的预测结果。
[0206]
本技术还从硬件结构角度提供了一种处理设备,参阅图6,图6示出了本技术处理设备的一种结构示意图,具体的,本技术处理设备可包括处理器601、存储器602以及输入输出设备603,处理器601用于执行存储器602中存储的计算机程序时实现如图1对应实施例中电信诈骗用户识别模型的处理方法的各步骤;或者,处理器601用于执行存储器602中存储的计算机程序时实现如图5对应实施例中各单元的功能,存储器602用于存储处理器601执行上述图1对应实施例中电信诈骗用户识别模型的处理方法所需的计算机程序。
[0207]
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/
单元被存储在存储器602中,并由处理器601执行,以完成本技术。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。
[0208]
处理设备可包括,但不仅限于处理器601、存储器602、输入输出设备603。本领域技术人员可以理解,示意仅仅是处理设备的示例,并不构成对处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如处理设备还可以包括网络接入设备、总线等,处理器601、存储器602、输入输出设备603等通过总线相连。
[0209]
处理器601可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是处理设备的控制中心,利用各种接口和线路连接整个设备的各个部分。
[0210]
存储器602可用于存储计算机程序和/或模块,处理器601通过运行或执行存储在存储器602内的计算机程序和/或模块,以及调用存储在存储器602内的数据,实现计算机装置的各种功能。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据处理设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0211]
处理器601用于执行存储器602中存储的计算机程序时,具体可实现以下功能:
[0212]
根据样本电信通话数据集d构建不同用户的电话社交网络g,其中,电话社交网络g描述了包括通话方id、通话类型、通话日期以及通话时长的特征;
[0213]
根据不同用户的电话社交网络g,构建不同用户的用户间同质社交网络g
uv
,其中,g
uv
=(u,v,e
uv
,f),guv中的连边e
uv
描述为用户u和用户v产生的通话交互,同时边上包含通话属性特征集f,f包括对应的通话类型、通话日期以及通话时长的特征;
[0214]
根据不同用户的用户间同质社交网络g
uv
,基于时间切片m获取不同用户的社交结构特征s;
[0215]
根据不同用户的用户间同质社交网络g
uv
,基于时间切片m获取不同用户的行为模式特征b;
[0216]
融合不同用户的社交结构特征s和不同用户的行为模式特征b,得到不同用户的社交行为模式特征a;
[0217]
在不同用户的社交行为模式特征a通过滑动时间窗口提取窗口内的社交行为模式特征,得到社交行为模式特征序列;
[0218]
在社交行为模式特征序列的基础上,结合不同用户标注的电信诈骗用户标识,训练电信诈骗用户识别模型,其中,电信诈骗用户标识用于标识对应用户是否为电信诈骗用户,电信诈骗用户识别模型用于根据输入的待识别用户的社交行为模式特征序列来预测待识别用户是否为电信诈骗用户。
[0219]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电信诈骗用户识别模型的处理装置、处理设备及其相应单元的具体工作过程,可以参考如图1对应实施例中电信诈骗用户识别模型的处理方法的说明,具体在此不再赘述。
[0220]
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
[0221]
为此,本技术提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本技术如图1对应实施例中电信诈骗用户识别模型的处理方法的步骤,具体操作可参考如图1对应实施例中电信诈骗用户识别模型的处理方法的说明,在此不再赘述。
[0222]
其中,该计算机可读存储介质可以包括:只读存储器(read only memory,rom)、随机存取记忆体(random access memory,ram)、磁盘或光盘等。
[0223]
由于该计算机可读存储介质中所存储的指令,可以执行本技术如图1对应实施例中电信诈骗用户识别模型的处理方法的步骤,因此,可以实现本技术如图1对应实施例中电信诈骗用户识别模型的处理方法所能实现的有益效果,详见前面的说明,在此不再赘述。
[0224]
以上对本技术提供的电信诈骗用户识别模型的处理方法、装置、处理设备以及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1