一种基于知识图谱的网络诈骗识别方法及系统与流程

文档序号:27386508发布日期:2021-11-15 21:28阅读:693来源:国知局
一种基于知识图谱的网络诈骗识别方法及系统与流程

1.本发明属于知识图谱应用技术领域,具体涉及一种基于知识图谱的网络诈骗识别方法及系统。


背景技术:

2.随着网络通信技术的发展,社交软件(微信、qq、抖音等)、购物软件、移动支付应用等得到人们的广泛使用,同时,也被网络诈骗团伙演变成为一种新型的犯罪工具,其犯罪活动的蔓延性较大,发展迅速,可在极短的时间内广范围发布,侵害面大,造成的损失面广。其中,团伙作案现已演化成为相互合作且独立的产业链,一般采用远程的、非接触式的诈骗,骗取受害者的公私财务。犯罪团伙组织严密,采用企业化的运作,分工明细,诈骗手段多样化,加大侦破案件难度。
3.目前大部分的网络诈骗团伙识别方法主要分为两种:1、对网络诈骗的相关信息进行检索,根据网络诈骗的行为特性进行对比分析,查找待识别的犯罪团伙。2、对历史诈骗数据作为训练数据,提取相关的特征数据,基于机器学习或深度学习的方法进行模型训练,利用该模型检测诈骗案件。其中,第一种方法需要专业的人士分析网络诈骗团伙的行为特征,对于大数据量情况下,需要考虑采用大数据存储工具与分析工具,加大实现难度;第二种方法特征提取人工干预较多,训练集的数据量比较大,训练的模型准确率、召回率无法保障。


技术实现要素:

4.本发明要解决的技术问题是传统网络诈骗团伙识别准确率低且效率低下的技术问题。
5.为此,本发明提供了一种基于知识图谱的网络诈骗识别方法,包括以下步骤:
6.s100,自顶向下构建网络诈骗知识图谱的模式层;
7.s200,对网络诈骗知识图谱的数据层加载数据;
8.s300,基于已构建好的网络诈骗知识图谱,在数据层融合第三方知识库,扩展该网络诈骗知识图谱的数据层的数据量;
9.s400,对网络诈骗知识图谱中重点行为关系的属性频率值进行离散化,归一化,转化为图谱边的权重值;
10.s500,基于网络诈骗案件图谱,利用spark graphx图及lpa算法识别犯罪团伙,再利用pagerank算法识别团伙中核心成员。
11.优选地,所述s100具体包括:构建图谱模式层的本体以及本体所包含的属性数据,建立不同本体之间的关系数据,以实现对数据层的规范约束。
12.优选地,所述本体的属性数据包括网络诈骗案件信息、人员、社交账号、电话号码、银行卡及虚拟账号数据;
13.所述本体之间的关系数据包括涉案、通话、同行、同住、转账、社交关系及持有。
14.优选地,所述网络诈骗案件信息数据包括非结构化案件数据及结构化案件数据;
15.其中,对于非结构化网络诈骗案件数据,经过命名实体识别ner模型抽取实体、关系以及各标签的相关属性信息,信息抽取完成后,将非结构化案件数据相应变为结构化的实体数据、关系数据和属性数据;
16.对结构化的网络诈骗案件数据进行预处理,包括数据清洗、过滤、去重等处理操作,使用数据加载工具将预处理后的结构化数据加载到网络诈骗案件图谱对应的实体、关系和属性数据。
17.优选地,在基于实体识别ner模型抽取信息之前,还包括:基于ner对实体、关系以及各标签的相关属性模型进行训练。
18.优选地,网络诈骗案件的实体的属性包括以下至少之一:涉案人员特征、案件嫌疑人特征、案发时间、作案手段、涉案银行卡号、涉案虚拟账号。
19.优选地,所述重点行为关系的属性包括:通话、同行、同住、转账、分别对通话次数、同行次数、同住次数、转账次数的频次值转化为频率、人员涉案标签个数累加及统计人员涉案的案件数。
20.优选地,所述s500具体包括:对加权后的网络诈骗案件图谱,以人员涉案标签作为起点,利用dijkstra算法求解到核心成员的最短路径,进而挖掘犯罪团伙的组织架构。
21.优选地,在所述网络诈骗知识图谱的数据层基础上融合的第三方知识库具体包括:上级区域或下级区域的网络诈骗案件信息库,实现县级联动、地市联动以及省级联动的跨区域网络诈骗团伙识别。
22.本发明还提供了一种用于基于知识图谱的网络诈骗识别方法的系统,包括:
23.数据建模模块,用于自顶向下构建网络诈骗知识图谱的模式层,对网络诈骗知识图谱的数据层加载数据,并基于已构建好的网络诈骗知识图谱,在数据层融合第三方知识库,扩展该网络诈骗知识图谱的数据层的数据量;
24.数据处理模块,用于对网络诈骗知识图谱中重点行为关系的属性频率值进行离散化,归一化,转化为图谱边的权重值;
25.团伙识别模块,用于基于网络诈骗案件图谱,利用spark graphx图及lpa算法识别犯罪团伙,再利用pagerank算法识别团伙中核心成员。
26.本发明的有益效果:本发明提供的这种基于知识图谱的网络诈骗识别方法及系统,自顶向下构建网络诈骗知识图谱的模式层;对网络诈骗知识图谱的数据层加载数据;基于已构建好的网络诈骗知识图谱,在数据层融合第三方知识库,扩展该网络诈骗知识图谱的数据层的数据量;对网络诈骗知识图谱中重点行为关系的属性频率值进行离散化,归一化,转化为图谱边的权重值;基于网络诈骗案件图谱,利用spark graphx图及lpa算法识别犯罪团伙,再利用pagerank算法识别团伙中核心成员。利用知识图谱的强关联性,通过实体、关系、属性,就能把网络诈骗案件与犯罪团伙有效地组织起来。本发明提供了一种跨区域的网络诈骗团伙识别方法,通过构建网络诈骗案件知识图谱,利用spark graphx图计算的相关算法进行关系挖掘,有效、准确地识别网络诈骗团伙,提升了案件的侦破效率,减少了网络诈骗案件的案发率。
27.以下将结合附图对本发明做进一步详细说明。
附图说明
28.图1是本发明基于知识图谱的网络诈骗识别方法的流程示意图;
29.图2是本发明基于知识图谱的网络诈骗识别方法及系统的模式层结构示意图;
30.图3是本发明基于知识图谱的网络诈骗识别方法及系统的数据层示意图。
具体实施方式
31.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
32.在本发明的描述中,需要理解的是,术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
33.术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征;在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
34.如图1所示,本发明实施例提供了一种基于知识图谱的网络诈骗识别方法及系统,自顶向下构建网络诈骗知识图谱的模式层;对网络诈骗知识图谱的数据层加载数据;基于已构建好的网络诈骗知识图谱,在数据层融合第三方知识库,扩展该网络诈骗知识图谱的数据层的数据量;对网络诈骗知识图谱中重点行为关系的属性频率值进行离散化,归一化,转化为图谱边的权重值;基于网络诈骗案件图谱,利用spark graphx图及lpa算法识别犯罪团伙,再利用pagerank算法识别团伙中核心成员。利用知识图谱的强关联性,通过实体、关系、属性,就能把网络诈骗案件与犯罪团伙有效地组织起来。本发明提供了一种跨区域的网络诈骗团伙识别方法,通过构建网络诈骗案件知识图谱,利用spark graphx图计算的相关算法进行关系挖掘,有效、准确地识别网络诈骗团伙,提升了案件的侦破效率,减少了网络诈骗案件的案发率。
35.具体地:先自顶向下构建网络诈骗案件知识图谱的模式层。然后对网络诈骗案件图谱的数据层加载数据,对结构化的网络诈骗案件数据预处理,非结构化网络诈骗案件数据经过ner模型抽取实体、关系以及各标签的相关属性信息,加载至网络诈骗案件图谱。在上述图谱的基础上,融合第三方知识库,包括:上级、下级或其他区域的网络诈骗案件信息库,实现县级联动、地市联动、省级联动等跨区域的网络诈骗团伙识别。对网络诈骗图谱中重点行为关系的属性频率值进行离散化,归一化,转化为图谱边的权重值,形成有向加权图谱。最后对网络诈骗案件图谱,利用spark graphx图计算lpa算法识别犯罪团伙,pagerank算法识别团伙中核心成员。对加权后的网络诈骗案件图谱,从人员涉案标签作为起点,利用dijkstra算法求解到核心成员的最短路径,进而挖掘犯罪团伙的组织架构。
36.如图2所示,优选的方案,网络诈骗案件知识图谱的模式层,需要行业的分析人员或领域专家,利用已有的领域知识、人工经验,共同协作完成图谱模式层的本体、本体之间
的关系、本体包含的属性的设计与构建。其中本体至少包括:网络诈骗案件、人员、社交账号、电话号码、银行卡、虚拟账号。
37.网络诈骗案件实体的属性包括以下至少之一:涉案人员特征、案件嫌疑人特征、案发时间、作案手段、涉案银行卡号、涉案虚拟账号。
38.涉案人员的属性包括以下至少之一:姓名、身份证号、电话号码、社交账号、银行卡、虚拟账号。本体之间的关系至少包括:涉案、通话、同行、同住、转账、社交关系、持有。涉案人员的涉案关系即本体之间的关系里的涉案的属性包括以下至少之一:人员涉案标签、涉案类型。通话关系的属性包括以下至少之一:通话次数、开始时间、结束时间。同行关系的属性包括以下至少之一:同行次数、开始时间、结束时间。同住关系的属性包括以下至少之一:同住次数、开始时间、结束时间。转账关系的属性包括以下至少之一:转账次数、转账额度、开始时间、结束时间。社会关系的属性包括以下至少之一:社会关系类型、开始时间、结束时间。持有关系的属性包括以下至少之一:持有物品类型、持有物品数量、开始时间、结束时间。
39.如图3所示,在本实施例中,网络诈骗案件知识图谱的模式层是对数据层进行规范约束,数据层是模式层所定义关系的实例。其本体数据至少包括:网络诈骗案件、人员、社交账号、电话号码、银行卡、虚拟账号数据,本体之间的关系数据至少包括:涉案、通话、同行、同住、转账、社交关系、持有。例如张三被诈骗案,查找诈骗中的涉案银行卡号,该银行卡号持有者是王五,然后继续查找到王五所持有微信账号、其他手机号、持有刷单app账号等,以此便可以查到王五转账记录包括王五转账给赵六的转账通话记录,同时赵六持有手机号及银行卡号也都能查询获取。进而又可以查询到赵六转账通话通行给赵四,还可以查询到所持有微信账号、其他手机号、持有刷单app账号等,顺藤摸瓜从而一网打尽。
40.优选的方案,网络诈骗案件图谱的数据层,是模式层所定义关系的实例,其本体数据至少包括:网络诈骗案件、人员、社交账号、电话号码、银行卡、虚拟账号数据,本体之间的关系数据至少包括:涉案、通话、同行、同住、转账、社交关系、持有。
41.网络诈骗案件信息数据分为:非结构化案件数据,结构化案件数据。
42.对于非结构化网络诈骗案件数据,经过命名实体识别ner模型抽取实体、关系以及各标签的相关属性信息,信息抽取完成后,将非结构化案件数据变为结构化的实体数据、关系数据和属性数据。基于ner模型抽取信息之前,还包括:基于ner对实体、关系以及各标签的相关属性模型进行训练。对结构化的网络诈骗案件数据预处理,包括数据清洗、过滤、去重等处理操作,使用数据加载工具将预处理后的结构化数据加载到网络诈骗案件图谱对应的实体、关系和属性数据。
43.人员即本体之间的关系数据至少包括:通话、同行、同住、转账、社交关系、持有。其中,上述通话关系、同行关系,同住关系,转账关系数据分别通过获取通话记录信息、乘坐公共交通信息、住宿记录信息、转账信息,进行相应的sql分析转化操作,统计在案发前后三个月频次数据,预设频次,保留高于该次数的数据,并加载至图谱对应关系数据,用于计算图谱边的权重值。
44.优选的方案,基于上述图谱,在数据层融合第三方知识库,包括:上级、下级或其他区域的网络诈骗案件信息库,可实现县级联动、地市联动、省级联动等跨区域的网络诈骗团伙识别。
45.优选的方案,对网络诈骗图谱中重点行为关系的属性频率值进行离散化,归一化,转化为图谱边的权重值。上述重点行为关系的属性包括:通话、同行、同住、转账,分别对通话次数、同行次数、同住次数、转账次数的频次值转化为频率。人员涉案标签个数累加,统计人员涉案的案件数。转账额度值进行离散化,将连续性特征转化为离散型数据,可更加直观的表达涉案金额的大小。其次,对分段后的离散数据进行归一化,将数据映射到[0,1]之间,避免由于量纲不同引起的误差。
[0046]
优选的方案,对网络诈骗案件图谱,利用spark graphx图计算lpa算法识别犯罪团伙,pagerank算法识别团伙中核心成员。对加权后的网络诈骗案件图谱,从人员涉案标签作为起点,利用dijkstra算法求解到核心成员的最短路径,进而挖掘犯罪团伙的组织架构。其中的标签传播算法lpa是一种基于图的半监督学习算法,是一种聚类的过程。
[0047]
具体包括以下六个步骤:
[0048]
步骤1:spark graphx读取网络诈骗案件图谱数据层中所有数据,可充分利用spark graphx自带的图计算算法。
[0049]
步骤2:查找待侦破的网络诈骗案件的涉案人员,根据人员涉案标签不同进行分类,不同标签的人员进行lpa算法。迭代次数预先设定一个阈值,防止过度运算,实现的不同标签的团体检测。每个标签的团体检测结果图中,同一个团体标签属性中添加相应的标签,最为当前团体的标记。对每个涉案人员的标签进行lpa算法,对比每次的结果图中新增的标签,覆盖所有标签的人员节点即为该网络诈骗案件的犯罪团伙。
[0050]
所述中心度算法pagerank是一种贪心算法,可找出图中比较重要的节点,即识别犯罪团伙中核心成员。预设算法的容忍度、初始跳转概率,获取pagerank降序排序结果的top 5作为犯罪团伙的核心人员。
[0051]
所述dijkstra算法是经典的最小路径求解算法,适用于解决有权图中从一个顶点到其余各顶点的最短路径问题。
[0052]
步骤3:查找待侦破的网络诈骗案件的涉案人员,以该涉案人员节点作为起始节点,上述的5个犯罪团伙的核心人员作为结束节点。
[0053]
步骤4:基于加权后的网络诈骗案件图谱,获取上述犯罪团伙人员节点和关系的最大子图。
[0054]
步骤5:基于上述最大子图,分别以通话、同行、同住、转账四种人员关系的有向加权子图,利用图谱边的权重值,使用dijkstra算法求解起始节点到各个核心成员的最短路径。
[0055]
步骤6:四种不同的人员关系,dijkstra算法求解的最短路径也不尽相同,在求解的最短路径结果集中,除去起始节点和结束节点,涉及同一人员节点的频率>0.7,则认为该人员是犯罪团伙的重要组织成员,以该人员为入口,进而挖掘犯罪团伙的组织成员架构,彻底打击犯罪分子。
[0056]
本发明实施例还提供了一种基于知识图谱的网络诈骗识别方法的系统,包括:
[0057]
数据建模模块,用于自顶向下构建网络诈骗知识图谱的模式层,对网络诈骗知识图谱的数据层加载数据,并基于已构建好的网络诈骗知识图谱,在数据层融合第三方知识库,扩展该网络诈骗知识图谱的数据层的数据量;
[0058]
数据处理模块,用于对网络诈骗知识图谱中重点行为关系的属性频率值进行离散
化,归一化,转化为图谱边的权重值;
[0059]
团伙识别模块,用于基于网络诈骗案件图谱,利用spark graphx图及lpa算法识别犯罪团伙,再利用pagerank算法识别团伙中核心成员。
[0060]
上述使用的基于知识图谱的网络诈骗识别方法与前述的网络诈骗识别方法一致,在此不再赘述。
[0061]
具体实现过程如下:
[0062]
1、自顶向下构建网络诈骗团伙知识图谱的模式层;2、对网络诈骗团伙图谱的数据层加载数据,对结构化的网络诈骗案件数据预处理,非结构化网络诈骗案件数据经过ner模型抽取实体、关系以及各标签的相关属性信息,加载至网络诈骗团伙图谱中;3、在上述图谱的基础上,融合第三方知识库,包括:上级、下级或其他区域的网络诈骗案件信息库,实现县级联动、地市联动、省级联动等跨区域的网络诈骗团伙识别;4、对网络诈骗图谱中重点行为关系的属性频率值进行离散化,归一化,转化为图谱边的权重值,形成有向加权图谱;5、对网络诈骗团伙图谱,利用spark graphx图计算lpa算法识别犯罪团伙,pagerank算法识别团伙中核心成员。对加权后的网络诈骗团伙图谱,从人员涉案标签作为起点,利用dijkstra算法求解到核心成员的最短路径,进而挖掘犯罪团伙的组织架构。本发明提供了一种跨区域的网络诈骗团伙识别方法,通过构建网络诈骗案件知识图谱,利用spark graphx图计算的相关算法进行关系挖掘,有效、准确地识别网络诈骗团伙,提升了案件的侦破效率,减少了网络诈骗案件的案发率。
[0063]
以上例举仅仅是对本发明的举例说明,并不构成对本发明的保护范围的限制,凡是与本发明相同或相似的设计均属于本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1