一种网络诈骗号码检测方法、系统、存储介质及终端设备

文档序号:27216214发布日期:2021-11-03 15:44阅读:162来源:国知局
一种网络诈骗号码检测方法、系统、存储介质及终端设备

1.本技术涉及机器学习和网络安全领域,特别是涉及一种网络诈骗号码检测方法、系统、存储介质及终端设备。


背景技术:

2.随着信息技术及通信技术的不断发展,信息通信诈骗等网络风险行为越来越频繁,技术也越来越先进且多样性,严重影响人们生活和工作。利用大数据,人工智能实现诈骗号码的识别是提升防范打击通信诈骗技术能力的重要方向。
3.目前,对诈骗号码的的检测,通常是基于特定的约束条件约束,或者采用随机森林算法进行的。然而,基于规则的检测方法不利于诈骗行为变化多端的情况,且基于人工设计特定的规则,不够灵活,效果比较有限;随机森林算法其预测准确度较低,因此在对于诈骗风险用户的检出率也相对较低。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提高对网络通信中诈骗号码识别的准确度及鲁棒性的网络诈骗号码检测方法、系统、存储介质及终端设备。
5.本发明实施例提供了一种网络诈骗号码检测方法,所述方法包括以下步骤:
6.通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵;
7.通过所述训练特征矩阵分别对xgboost模型和lightgbm模型进行训练;
8.将所述xgboost模型和lightgbm模型的预测结果通过stacking的方式进行模型融合,以得到logistic模型;
9.通过所述logistic模型对通信过程中的网络风险用户进行识别。
10.进一步地,所述特征工程矩阵的获取方法包括:
11.对实际数据集中通信网络用户的原始数据进行特征提取,并根据提取到的特征数据构建原始特征矩阵;
12.对所述原始特征矩阵进行特征工程处理,以得到特征工程矩阵。
13.进一步地,对实际数据集中通信网络用户的原始数据进行特征提取,并根据提取到的特征数据构建原始特征矩阵的方法包括:
14.对通信网络用户的通话日志、短信日志和网络原始日志进行特征提取;
15.将提取到的所述通话日志、短信日志和网络原始日志的特征信息与用户基础数据进行合并,以得到原始特征矩阵。
16.进一步地,对所述原始特征矩阵进行特征工程处理,以得到特征工程矩阵的方法包括:
17.统计所述原始特征矩阵中正常用户群体和诈骗用户群体的特征维度信息;
18.通过可视化工具获取正常用户群体和诈骗用户群体差异度大于目标值的多个特
征;
19.计算各个特征维度在原始特征矩阵的方差,根据方差选择法提取出方差大于阈值的特征,并删除正常用户和诈骗用户群体差异度小于目标值的特征,从而得到特征工程矩阵。
20.进一步地,通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵的方法包括:
21.根据距离度量计算每个少数类样本的k近邻样本;其中,k为计算近邻样本的个数;
22.根据同类系数模型计算每个少数类样本k近邻样本的同类系数c,并筛选出c>c_method的少数类样本作为采样少数样本;其中,c_method为同类系数阈值;
23.所述采样少数样本与其对应的近邻少数类样本通过随机样本生成模型得到过采样数据集,过采样数据集结合分类器模型采用“嵌入法”进行样本筛选,得到符合的少数类过采样矩阵,并与所述特征工程矩阵融合后得到训练特征矩阵。
24.进一步地,通过所述训练特征矩阵分别对xgboost模型和lightgbm模型进行训练的方法包括:
25.将所述训练特征矩阵所对应的数据集划分为训练集和测试集;其中,所述训练集为用于模型训练的训练数据,所述测试集为用于模型测试的测试数据;
26.将所述训练集及测试集分别输入所述xgboost模型和lightgbm模型进行5折交叉验证训练,使得测试集覆盖整个训练集。
27.进一步地,在交叉验证训练的过程中,
28.设置超参数:损失函数为auc,评估函数为fs_score,模型决策树节点分裂的最大深度参数为6,学习率参数为0.08,正则化参数为2,最大迭代次数为10000轮,早停为100轮;
[0029][0030][0031][0032]
其中,precision为精确率,recall为召回率,tp为真正例,fp为假正例,th
k
为阈值,k为常数。
[0033]
本发明的另一实施例提出一种网络诈骗号码检测系统,解决了现有对诈骗号码的的检测,通常是基于特定的约束条件约束,或者采用随机森林算法进行的;然而,基于规则的检测方法不利于诈骗行为变化多端的情况,且基于人工设计特定的规则,不够灵活,效果比较有限;随机森林算法其预测准确度较低,因此在对于诈骗风险用户的检出率也相对较低的问题。
[0034]
根据本发明实施例的网络诈骗号码检测系统,包括:
[0035]
采样模块,用于通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵;
[0036]
训练模块,用于通过所述训练特征矩阵分别对xgboost模型和lightgbm模型进行训练;
[0037]
融合模块,用于将所述xgboost模型和lightgbm模型的预测结果通过stacking的方式进行模型融合,以得到logistic模型;
[0038]
识别模块,用于通过所述logistic模型对通信过程中的网络风险用户进行识别。
[0039]
本发明的另一个实施例还提出一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如上所述的网络诈骗号码检测方法。
[0040]
本发明的另一个实施例还提出一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上所述的网络诈骗号码检测方法。
[0041]
上述网络诈骗号码检测方法,通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵;通过所述训练特征矩阵分别对xgboost模型和lightgbm模型进行训练;将所述xgboost模型和lightgbm模型的预测结果通过stacking的方式进行模型融合,以得到logistic模型;通过所述logistic模型对通信过程中的网络风险用户进行识别。相比现有技术,本发明能够提高对网络通信中诈骗号码识别的准确度及鲁棒性,满足了实际应用需求。
附图说明
[0042]
图1为本发明实施例提供的网络诈骗号码检测方法的一种流程示意图;
[0043]
图2为本发明实施例提供的网络诈骗号码检测方法的数据流;
[0044]
图3为图1中步骤s11的具体流程示意图;
[0045]
图4为图1中步骤s12的具体流程示意图;
[0046]
图5为图1中步骤s13的模型融合示意图;
[0047]
图6为本发明实施例提供的网络诈骗号码检测系统的结构框图;
[0048]
图7为本发明实施例提供的终端设备的结构图。
具体实施方式
[0049]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0050]
需要说明的是,文中的步骤编号,仅为了方便具体实施例的解释,不作为限定步骤执行先后顺序的作用。本实施例提供的方法可以由相关的服务器执行,且下文均以服务器作为执行主体为例进行说明。
[0051]
如图1至图5所示,本发明实施例提供的网络诈骗号码检测方法,所述方法包括步骤s11至步骤s14:
[0052]
步骤s11,通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵。
[0053]
其中,所述特征工程矩阵的获取方法包括:对实际数据集中通信网络用户的原始数据进行特征提取,并根据提取到的特征数据构建原始特征矩阵;对所述原始特征矩阵进
行特征工程处理,以得到特征工程矩阵。
[0054]
具体的,对实际数据集中通信网络用户的通信信息进行原始特征提取前,主要考虑通信网络用户的基础属性、通话、短信和网络行为。其中,通话/短信特征包括:每个用户的月通话次数、平均通话时长、通话频率、拨出及接听比例、通信时段分布、对端号码长度、对端号码前缀、通话对象数等;网络特征包括用户上下行流量情况、访问网站数、特殊网站访问频率、上下行流量和访问类型等特征。
[0055]
对实际数据集中通信网络用户的通信信息进行原始特征提取时,对通信网络用户的通话日志、短信和网络信息原始日志编写代码,以通过统计函数、聚合功能函数、透视表等功能函数进行原始特征提取,并将三个日志表提取出的特征信息根据用户id进行合并,从而将日志数据转化为结构化数据,即模型训练需要的“样本

特征”形式的数值特征矩阵。此外,对数值特征矩阵进行异常值处理(删除)及缺失值填充(均值填充)等数据清洗工作,得到原始特征矩阵。
[0056]
进一步地,在特征工程矩阵获取时,统计所述原始特征矩阵中正常用户群体和诈骗用户群体的特征维度信息;通过可视化工具获取正常用户群体和诈骗用户群体差异度大于目标值的多个特征;计算各个特征维度在原始特征矩阵的方差,根据方差选择法提取出方差大于阈值的特征,并删除正常用户和诈骗用户群体差异度小于目标值的特征,从而得到特征工程矩阵。
[0057]
可以理解的,通过统计正常用户群体和诈骗用户群体的各个特征维度的数据情况,并通过核密度图、条形图等可视化工具进行对比分析,进一步获得两种类别用户群体特征差异度较大的特征。并在此基础上:计算各个特征维度在样本集的方差,根据方差选择法提取出方差大于阈值的特征;删除正常用户和诈骗用户群体差异度较小的特征,从而得到特征工程处理后的特征工程矩阵。由于通过基于特征方差阈值、正常用户与诈骗用户特征对比等方法进行有效特征筛选,从而降低了特征维度,提搞了模型泛化能力。
[0058]
请参阅图3,通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵的方法包括:
[0059]
步骤s111,根据距离度量计算每个少数类样本的k近邻样本;其中,k为计算近邻样本的个数。
[0060]
步骤s112,根据同类系数模型计算每个少数类样本k近邻样本的同类系数c,并筛选出c>c_method的少数类样本作为采样少数样本;其中,c_method为同类系数阈值,近邻少数类样本为k近邻样本中的少数类样本。
[0061]
步骤s113,将所述采样少数样本与其对应的近邻少数类样本通过随机样本生成模型得到过采样数据集,过采样数据集结合分类器模型采用“嵌入法”进行样本筛选,得到符合的少数类过采样矩阵,并与所述特征工程矩阵融合后得到训练特征矩阵。
[0062]
具体的,由于实际情况中,诈骗用户样本比例远小于正常用户,样本不平衡会导致模型训练学习的内容出现偏差,学习出来的规律更侧重于多数类样本,导致模型分类效果不好。因而设计自调节过采样算法(sa

smote,self adjust

synthetic minority oversampling technique)进行数据平衡,即在不改变数据分布的情况下,生成更多的少数类样本,避免两种类别的样本比例差距过大。sa

smote算法主要根据已有的少数类样本和欧式距离度量方式,得到每个少数类样本的k个邻近样本。对于所有少数类样本,筛选出k近
邻样本中,与目标少数类样本同类系数大于阈值c的少数类样本,然后根据原少数样本与其k近邻样本中同类样本的特征分布情况,随机生成新样本。
[0063]
进一步地,所述同类系数模型为,
[0064][0065]
其中,target_class为少数样本类别,class(i)表示样本i的类别,k为邻近样本数。
[0066]
进一步地,所述随机样本生成模型为,
[0067]
x
new
=x+rand(0,1)*(x
n

x)
[0068]
x为原有的少数类样本特征向量,x
n
为该样本的k近邻样本中的第n个近邻样本的特征向量,rand(0,1)为生成随机的0

1之间的小数。
[0069]
进一步地,通过“嵌入法”生成样本筛选:训练分类算法,分别得到添加过采样样本前的预测评价指标得分和添加当前过采样样本后的算法预测评价指标得分,若添加过采样样本使得预测结果评价指标在验证集上得分提升,则保留当前产生的过采样少数类样本,否则丢弃,直到正负样本比例符合预设比例。其中,在sa

smote算法随机生成少数类样本的过程中,近邻样本数k和少数类k近邻样本同类系数阈值c_method作为超参数,可根据实验进行调优。由于得到过采样后的过采样数据集在原数据分布情况下,增加了少数类样本,从而在一定程度上缓解数据不平衡对训练模型精度的影响。
[0070]
可以理解的,通过自调节过采样平衡算法对诈骗用户样本数据增强,从而在不改变数据分布的情况下避免诈骗用户于正常用户数据比例差距过大,提高模型的学习能力。该算法能针对训练数据有限的情况提高模型的检测性能。
[0071]
步骤s12,通过所述训练特征矩阵分别对xgboost模型和lightgbm模型进行训练。
[0072]
具体的,过采样数据集在原数据分布情况下,增加了少数类样本,增加的样本和原样本一起构成新的训练数据集,从而在一定程度上缓解数据不平衡对训练模型精度的影响。对全量数据集进行特征筛选。特征筛选使用嵌入法,即将训全量数据集形成的练特征矩阵放入xgboost模型和lightgbm模型进行训练。
[0073]
请参阅图4,通过所述训练特征矩阵分别对xgboost模型和lightgbm模型进行训练的方法包括:
[0074]
步骤s121,将所述训练特征矩阵所对应的数据集划分为训练集和测试集;其中,所述训练集为用于模型训练的训练数据,所述测试集为用于模型测试的测试数据。
[0075]
步骤s122,将所述训练集及测试集分别输入所述xgboost模型和lightgbm模型进行5折交叉验证训练,使得验证集覆盖整个训练集。
[0076]
其中,针对分类任务进行5折交叉验证训练时,将每次的4/5训练数据作为训练集,1/5作为测试集,切换测试集重复5次,使得测试集覆盖整个训练集。
[0077]
与传统机器学习中的评价方式不同,在信息诈骗识别任务中,除了正确率,往往更关注在高精确率的情况下更多地识别出诈骗用户。精确率precision是对给定的测试数据集中,分类器正确预测为正类(诈骗用户)的样本占所有预测为正类样本的比例,其计算公式为:
[0078][0079]
其中,tp为真正例(真实标签为正类,预测结果为正类),fp为假正例(真实标签为负类,预测结果为正类)。精确率用于直观地表示分类器标记正例的能力。
[0080]
召回率recall是对给定的测试数据集中,标签为正类的样本,被预测为正类的比例,其计算公式为:
[0081][0082]
其中,fn是假负类(真实标签为正类,预测结果为负类)。
[0083]
因而,对xgboost模型进行相应改进,修改训练逻辑,其评估函数fs_score为模型在精确率超过阈值下,召回率的得分,其计算公式为:
[0084][0085]
其中,precision为精确率,recall为召回率,th
k
为阈值,k为常数。
[0086]
进一步地,交叉验证训练过程中,设置超参数:损失函数为auc,评估函数为fs_score,xgboost里面的决策树节点分裂最大深度参数max_depth为6,学习率参数eta为0.08,l2正则化参数设为2。
[0087]
进一步地,在训练过程中,最大迭代次数设置为10000轮,并设置早停为100轮,即每100轮新训练效果在验证集fs_score得分不能超过当前最优,则停止训练,防止过拟合。
[0088]
进一步地,xgboost为树状集成模型,训练完成后,根据每个特征在树节点分裂的次数得到特征重要性排序。根据排序情况进行特征筛选,从而降低特征维度,提高模型的泛化能力。
[0089]
在此还需要说明的是,为了提高检测模型的泛化能力和稳定性,可对xgboost模型和lightgbm模型进行集体训练之前,通过xgboost模型进行预训练及特征重要性评估和特征筛选。即在xgboost模型预训练及特征重要性评估和特征筛选得到的新训练特征矩阵的基础上,再次训练xgboost和lightgbm两个模型。
[0090]
步骤s13,将所述xgboost模型和lightgbm模型的预测结果通过stacking的方式进行模型融合,以得到logistic模型。
[0091]
可以理解的,基于xgboost与lightgbm模型进行模型训练,并使用stacking方法进行融合,从而提高了移动网络诈骗用户识别方法的准确度和泛化能力。
[0092]
步骤s14,通过所述logistic模型对通信过程中的网络风险用户进行识别。
[0093]
请参阅图5,将两种模型的预测结果通过stacking方式进行模型融合,得到最终的移动网络诈骗用户预测模型。stacking是个二层模型结构,xgboost和lightgbm为第一层,使用logistic模型作为第二层,融合方式为分别以5折交叉验证方法训练xgboost和lightgbm模型,将两个模型对训练集及测试集样本的预测值作为logistic模型的特征进行训练,logistic基于此进行最终类别预测。
[0094]
可以理解的,采用机器学习中xgboost算法和lightgbm算法对电信网络用户行为数据进行模型搭建及训练。xgboost和lightgbm模型都是基于决策树的前向分步加法集成算法,由多棵决策树组成,后面的子模型会根据前面子模型的预测性能进行调整,往往更易于提升模型的整体性能。xgboost中使用二阶泰勒展开式对目标损失函数进行描述,利于模
型最优点的逼近,使得模型的预测更准确。另外,xgboost中,基模型的叶子节点预测值并非是对分到叶子节点样本的目标值进行简单平均,而是通过对目标损失函数进行最优化理论计算所得。目标损失函数中的权值变化实际上是一个负梯度因子乘以一个由二阶梯度加常数的倒数组成的系数。即权值变化会沿着负梯度方向进行优化,并且根据梯度变化幅度(二阶梯度描述梯度变化的情况)动态调节优化幅度,因而,xgboost中的树模型更容易得到最优解,且一定程度上避免了在接近最优点附近出现“震荡”现象。使模型预测更准确。
[0095]
本发明结合电信诈骗识别任务中,针对高精确率下,提高诈骗用户识别召回率的特点,对xgboost和lightgbm进行优化,自定义评估函数fs_score,保证高精确率下,提高诈骗用户识别能力。
[0096]
本发明采用stacking模型融合算法,对上述xgboost和lightgbm模型进行融合,得到准确度高、鲁棒性能较好的诈骗号码预测模型。不同的模型在数据训练过程中,会学习到不同的规则和信息,通过适当的模型融合,可以让最终模型集成内部模型的优点,从而提升预测的准确率,并提高鲁棒性,让其在新数据上的表现也更稳定。
[0097]
在分类任务中,样本不平衡会导致模型训练学习的内容出现偏差,学习出来的规律更侧重于多数类样本,导致模型分类效果不好。本发明针对数据有限的情况下,提出一种自调节过采样平衡算法,在不改变原数据分布的情况下,生成合适的少数类样本,从而提高模型训练效果。
[0098]
上述网络诈骗号码检测方法,通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵;通过所述训练特征矩阵分别对xgboost模型和lightgbm模型进行训练;将所述xgboost模型和lightgbm模型的预测结果通过stacking的方式进行模型融合,以得到logistic模型;通过所述logistic模型对通信过程中的网络风险用户进行识别。相比现有技术,本发明能够提高对网络通信中诈骗号码识别的准确度及鲁棒性,满足了实际应用需求。
[0099]
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0100]
如图6所示,是本发明提供的一种网络诈骗号码检测系统的结构框图,所述系统包括:
[0101]
采样模块21,用于通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵。
[0102]
其中,所述特征工程矩阵的获取方式包括:
[0103]
对实际数据集中通信网络用户的原始数据进行特征提取,并根据提取到的特征数据构建原始特征矩阵;
[0104]
对所述原始特征矩阵进行特征工程处理,以得到特征工程矩阵。
[0105]
具体的,对实际数据集中通信网络用户的原始数据进行特征提取,并根据提取到
的特征数据构建原始特征矩阵,具体为,
[0106]
对通信网络用户的通话日志、短信日志和网络原始日志进行特征提取;
[0107]
将提取到的所述通话日志、短信日志和网络原始日志的特征信息与用户基础数据进行合并,以得到原始特征矩阵。
[0108]
进一步地,对所述原始特征矩阵进行特征工程处理,以得到特征工程矩阵,具体为,
[0109]
统计所述原始特征矩阵中正常用户群体和诈骗用户群体的特征维度信息;
[0110]
通过可视化工具获取正常用户群体和诈骗用户群体差异度大于目标值的多个特征;
[0111]
计算各个特征维度在原始特征矩阵的方差,根据方差选择法提取出方差大于阈值的特征,并删除正常用户和诈骗用户群体差异度小于目标值的特征,从而得到特征工程矩阵。
[0112]
进一步地,所述采样模块21具体用于,根据距离度量计算每个少数类样本的k近邻样本;其中,k为计算近邻样本的个数;
[0113]
根据同类系数模型计算每个少数类样本k近邻样本的同类系数c,并筛选出c>c_method的少数类样本作为采样少数样本;其中,c_method为同类系数阈值;
[0114]
将所述采样少数样本与其对应的近邻少数类样本,以及通过随机样本生成模型生成的随机样本形成采样矩阵,并与所述特征工程矩阵融合后得到训练特征矩阵。
[0115]
训练模块22,用于通过所述训练特征矩阵分别对xgboost模型和lightgbm模型进行训练。
[0116]
具体的,将所述训练特征矩阵所对应的数据集划分为训练集和测试集;其中,所述训练集为用于模型训练的训练数据,所述测试集为用于模型测试的测试数据;
[0117]
将所述训练集及测试集分别输入所述xgboost模型和lightgbm模型进行5折交叉验证训练,使得测试集覆盖整个训练集。
[0118]
进一步地,在交叉验证训练的过程中,
[0119]
设置超参数:损失函数为auc,评估函数为fs_score,模型决策树节点分裂的最大深度参数为6,学习率参数为0.08,正则化参数为2,最大迭代次数为10000轮,早停为100轮;
[0120][0121][0122][0123]
其中,precision为精确率,recall为召回率,tp为真正例,fp为假正例,th
k
为阈值,k为常数。
[0124]
融合模块23,用于将所述xgboost模型和lightgbm模型的预测结果通过stacking的方式进行模型融合,以得到logistic模型。
[0125]
识别模块24,用于通过所述logistic模型对通信过程中的网络风险用户进行识别。
[0126]
本发明实施例所提供的网络诈骗号码检测系统,通过自调节过采样算法进行少数
类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵;通过所述训练特征矩阵分别对xgboost模型和lightgbm模型进行训练;将所述xgboost模型和lightgbm模型的预测结果通过stacking的方式进行模型融合,以得到logistic模型;通过所述logistic模型对通信过程中的网络风险用户进行识别。相比现有技术,本发明能够提高对网络通信中诈骗号码识别的准确度及鲁棒性,满足了实际应用需求。
[0127]
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如上所述的网络诈骗号码检测方法。
[0128]
本发明实施例还提供了一种终端设备,参见图7所示,是本发明提供的一种终端设备的一个优选实施例的结构框图,所述终端设备包括处理器10、存储器20以及存储在所述存储器20中且被配置为由所述处理器10执行的计算机程序,所述处理器10在执行所述计算机程序时实现如上所述的网络诈骗号码检测方法。
[0129]
优选地,所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序1、计算机程序2、
······
),所述一个或者多个模块/单元被存储在所述存储器20中,并由所述处理器10执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
[0130]
所述处理器10可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field

programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器,或者所述处理器10也可以是任何常规的处理器,所述处理器10是所述终端设备的控制中心,利用各种接口和线路连接所述终端设备的各个部分。
[0131]
所述存储器20主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的应用程序等,数据存储区可存储相关数据等。此外,所述存储器20可以是高速随机存取存储器,还可以是非易失性存储器,例如插接式硬盘,智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡和闪存卡(flash card)等,或所述存储器20也可以是其他易失性固态存储器件。
[0132]
需要说明的是,上述终端设备可包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,图7结构框图仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
[0133]
综上,本发明实施例所提供的网络诈骗号码检测方法、系统、存储介质及终端设备,通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵;通过所述训练特征矩阵分别对xgboost模型和lightgbm模型进行训练;将所述xgboost模型和lightgbm模型的预测结果通过stacking的方式进行模型融合,以得到logistic模型;通过所述logistic模型对通信过程中的网络风险用户进行识别。相比现有技术,本发明能够提高对网络通信中诈骗号码识别的准确度及鲁棒性,满足了实际应用需求。
[0134]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1