一种基于深度学习的物联网卡管理方法、装置及相关介质与流程

文档序号:33703563发布日期:2023-03-31 20:38阅读:39来源:国知局
一种基于深度学习的物联网卡管理方法、装置及相关介质与流程

1.本发明涉及计算机软件技术领域,特别涉及一种基于深度学习的物联网卡管理方法、装置及相关介质。


背景技术:

2.由于物联网卡与普通手机流量卡十分相似,因此在市场上经常会出现真假难辨的“流量卡”,这些卡大都是由代理商以流量卡的形式批发到二级市场上进行售卖,而这种行为却是一种违规行为,即物联网卡不得在电商平台网商售卖。并且,该行为还会存在一系列风险问题,比如代理商跑路失联或者售后不完善,导致业务无法进行正常使用,又例如由于缺乏正规流程手续而在使用过程中导致个人财产得不到保证等。除了上述影响个人的缺陷之外,还会对整体行业稳定带来影响之外,以及对社会治安也会造成一定的影响,例如很多不法分子都会通过这种不实名的卡片进行电话欺诈等。
3.目前运营商主要通过人工审查的方式在电商平台上查找违规出售的物联网卡产品,但在海量商品面前,这种方式显得效率低下且成本高昂。因此如何高效率地监管物联网卡行为是本领域技术人员需要解决的问题。


技术实现要素:

4.本发明实施例提供了一种基于深度学习的物联网卡管理方法、装置、计算机设备及存储介质,旨在提升物联网卡管理效率。
5.第一方面,本发明实施例提供了基于深度学习的物联网卡管理方法,包括:
6.采集原始图像数据;
7.通过图像智能识别技术对所述原始图像数据进行图像识别,以提取所述原始图像数据的文字数据,并将所述文字数据作为样本数据;
8.利用机器学习模型对所述样本数据进行文本分词处理,得到目标数据;
9.采用分类回归树算法对所述目标数据进行分类预测;
10.根据所述分类预测的结果对物联网卡进行管理。
11.第二方面,本发明实施例提供了基于深度学习的物联网卡管理装置,包括:
12.信息采集单元,用于采集原始图像数据;
13.图像识别单元,用于通过图像智能识别技术对所述原始图像数据进行图像识别,以提取所述原始图像数据的文字数据,并将所述文字数据作为样本数据;
14.分词处理单元,用于利用机器学习模型对所述样本数据进行文本分词处理,得到目标数据;
15.分类预测单元,用于采用分类回归树算法对所述目标数据进行分类预测;
16.结果管理单元,用于根据所述分类预测的结果对物联网卡进行管理。
17.第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实
现如第一方面所述的基于深度学习的物联网卡管理方法。
18.第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于深度学习的物联网卡管理方法。
19.本发明实施例公开了一种基于深度学习的物联网卡管理方法、装置、计算机设备及存储介质,包括:采集原始图像数据;通过图像智能识别技术对所述原始图像数据进行图像识别,以提取所述原始图像数据的文字数据,并将所述文字数据作为样本数据;利用机器学习模型对所述样本数据进行文本分词处理,得到目标数据;采用分类回归树算法对所述目标数据进行分类预测;根据所述分类预测的结果对物联网卡进行管理。本发明实施例通过采集物联网卡的原始图像数据,并对原始图像数据进行处理得到文字数据,再对文字数据进行分词处理,根据结果进行分类预测并管理物联网卡,从而构建物联网卡商品在线检测模型,以实现对该类商品的快速自动化查找,做到事前预警、事中检测、事后处置跟踪的闭环流程,全面提升对于物联网卡的风险监管效率。
附图说明
20.为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1为本发明实施例提供的一种基于深度学习的物联网卡管理方法的流程示意图;
22.图2为本发明实施例提供的一种基于深度学习的物联网卡管理方法的子流程示意图;
23.图3为本发明实施例提供的一种基于深度学习的物联网卡管理装置的示意性框图;
24.图4为本发明实施例提供的一种基于深度学习的物联网卡管理装置的子示意性框图;
25.图5为本发明实施例提供的一种基于深度学习的物联网卡管理方法中的商品类型与关键词词云图;
26.图6为本发明实施例提供的一种基于深度学习的物联网卡管理方法中的cart分类二叉树识别流程图。
具体实施方式
27.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
28.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
29.还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
30.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
31.下面请参见图1,图1为本发明实施例提供的基于深度学习的物联网卡管理方法的流程示意图,具体包括具体包括:步骤s101~s105。
32.s101、采集原始图像数据;
33.s102、通过图像智能识别技术对所述原始图像数据进行图像识别,以提取所述原始图像数据的文字数据,并将所述文字数据作为样本数据;
34.s103、利用机器学习模型对所述样本数据进行文本分词处理,得到目标数据;
35.s104、采用分类回归树算法对所述目标数据进行分类预测;
36.s105、根据所述分类预测的结果对物联网卡进行管理。
37.本实施例中,首先采集原始图像数据,然后通过对所述原始图像数据进行图像识别,并基于图像识别结果提取其中的文字数据作为样本数据,接着通过机器学习模型对样本数据进行机器学习,以将样本数据分词处理为目标标数据,然后利用分类回归树算法对目标数据进行分类预测,如此便可以依据分类预测结果对物联网卡进行监管,例如当分类预测结果为非物联网卡时,则可以忽略此条信息,而当分类预测结果为物联网卡时,则可以对其进行进一步追踪。另外,可以理解的时,本实施例中所采集的原始图像数据,既可以包含有物联网卡的相关信息,例如带有流量、月租等字样,也可以是未包含有物联网卡的相关信息。当然,还可以将本实施例所提供的方法理解为一种监管模型,而为了提高模型精度,前期构建过程可以采用包含物联网卡相关信息的原始图像数据进行模型学习,并当模型构建完成后,便可以对指定的图像数据进行分类管理,此时则无需在意其中是否包含有物联网卡的相关信息。
38.本实施例通过采集原始图像数据,并对原始图像数据进行处理得到文字数据,再对文字数据进行分词处理,根据结果进行分类预测并管理物联网卡,从而构建物联网卡商品在线检测模型,以实现对该类商品的快速自动化查找,做到事前预警、事中检测、事后处置跟踪的闭环流程,全面提升风险监管效率。
39.在具体实施例中,在采集原始图像数据时,可以从主流热门互联网网站爬取电信物联网流量卡相关数据,爬取数据源主要包括电商,搜索引擎,社交媒体,新闻资讯。优选的,还可以设置定时采集策略,周期性完成多个数据源采集,实现采集原始数据更新。
40.在一实施例中,所述步骤s101,包括:
41.按照下式,基于反卷积的图像去模糊算法对所述原始图像数据进行去模糊处理:
42.b=i*k+n
43.式中,b为模糊的所述原始图像数据,i为去模糊后的所述原始图像数据,k为模糊核,n为图像噪声,*表示卷积运算。
44.本实施例采用图像去模糊算法对所述原始图像数据进行去模糊处理,从而提高原始图像数据的图像分辨率,以解决网络采集低分辨率的问题。
45.在一具体实施例中,首先利用图像模糊核的各种先验约束得到最小化能量函数,
接着利用交替最小化方法求解最小化能量函数,预先定义能量函数e(i,k)=-log(p(i,k|b)),则将该能量函数转化最小能量函数b)),则将该能量函数转化最小能量函数其中f(n),γ(i),γ(k)分别为噪声n,清晰图像i与模糊核k的能量项;λ1,λ2为权重系数。
46.提取模糊边缘区域的模糊约束条件,其中约束方程组为:
[0047][0048]
求解此约束条件,估算准确的模糊核并通过r-l反卷积算法恢复出原始清晰图像,从而提高图像分辨力。
[0049]
在一实施例中,所述步骤s101还包括:
[0050]
按照下式,采用最大类间方差法对经过去模糊处理后的原始图像数据进行阈值分割:
[0051]
g=ω0*(μ
0-μ)2+ω1*(μ
1-μ)2[0052]
式中,g表示原始图像数据中的前景图像和背景图像的方差,ω0表示前景点数占图像比例,μ0表示前景图像的平均灰度,ω1表示背景点数占图像比例,μ1表示背景图像的平均灰度,μ表示图像的总平均灰度;
[0053]
按照像素范围(0,255)对所述原始图像数据进行遍历,并选取方差最大时对应的分割阈值;
[0054]
根据所述分割阈值对所述原始图像数据进行二值化处理。
[0055]
本实施例采用最大类间方差法对经过去模糊处理后的原始图像数据进行阈值分割,并对其进行遍历,以选取方差最大时的分割阈值。在这里,当方差g最大时前景和背景差异最大,此时灰度t是最大阈值,根据最大方差识别出关键文字区域,实现图像的二值化。最大类间方差法是一种自适合于双峰情况的自动求取阈值的方法,又叫大津法,简称otsu。它是按图像的灰度特性,将图像分成背景和目标两部分,背景和目标之间的类间方差越大,说明构成图像的两部分的差别越大,当部分目标错分为背景或部分背景错分为目标都会导致两部分差别变小。因此,使类间方差最大的分割意味着错分概率最小。
[0056]
在一实施例中,如图2所示,所述步骤s102还包括:步骤s201~s204。
[0057]
s201、采用轮廓波变换和剪切波变换分别对所述原始图像数据进行分解,并提取分解后的所述原始图像数据的统计值,以作为第一特征向量;
[0058]
s202、采用核保局投影算法对所述第一特征向量进行降维,得到第二特征向量;
[0059]
s203、通过基于样本紧密度模糊支持向量机对所述第二特征向量计算模糊连接度;
[0060]
s204、根据所述模糊连接度,采用图像识别技术对所述原始图像数据提取所述文字数据。
[0061]
在本实施例中,针对没有网络图像提取结构数据正确率低的情况,通过轮廓波变换和剪切波变换分别对图像进行分解,再提取分解后的统计值作为第一特征向量,并利用
核保局投影算法对该第一特征向量降维为第二特征向量,然后通过基于样本紧密度模糊支持向量机对降维得到的第二特征向量计算模糊连接度,最后根据模糊连接度对原始图像数据提取其中的文字数据。
[0062]
轮廓波变换(contourlet变换)是一种图像二维表示方法,具有多分辨率、局部定位、多方向性、近邻界采样和各向异性等性质,其基函数分布于多尺度、多方向上,少量系数即可有效地捕捉图像中的边缘轮廓,而边缘轮廓正是自然图像中的主要特征。contourlet变换的基本思想是首先用一个类似小波的多尺度分解捕捉边缘奇异点,再根据方向信息将位置相近的奇异点汇集成轮廓段。选用拉普拉斯塔式滤波器结构(lp)对图像多分辨率分解来捕捉奇异点。lp分解首先产生原始信号的一个低通采样逼近及原始图像与低通预测图像之间的一个差值图像,对得到的低通图像继续分解得到下一层的低通图像和差值图像,如此逐步滤波得到图像的多分辨率分解。二维方向滤波器组(dfb)应用于lp分解得到的每一级高频分量上,在任意尺度上可分解得到2的n次方数目的方向子带。图像每次经lp子带分解产生的高通子带输入dfb,逐渐将点奇异连成线形结构,从而捕获图像中的轮廓。lp与dfb结合形成双层滤波器组结构,称为塔形方向滤波器组(pdfb),由于该变换以轮廓段形式的基函数逼近原始图像,因此也称为离散contourlet变换。dfb的优点是对于高频部分的表现更加优秀,而lp分解的每一层将图像分解为高频部分和低频部分,contourlet变换很好地结合了两者的共同优点。
[0063]
剪切波变换(shear transformation)是空间线性变换之一,是仿射变换的一种原始变换。它指的是类似于四边形不稳定性那种性质,方形变平行四边形,任意一边都可以被拉长的过程。
[0064]
核判别保局投影算法(kdlpp)通过核技巧将样本映射到高维空间,在高维空间中有效结合样本局部的流形结构和样本的判别信息构建了新的目标函数,其优点是在保持样本流形结构的基础上,充分利用了样本的类别信息,并采用核方法提取了样本的非线性特征。
[0065]
在一具体实施例中,在通过基于样本紧密度模糊支持向量机对所述第二特征向量计算模糊连接度时,考虑在欧氏空间样本类别的距离度量特性,引入集合(en,de),其中en={(x1,

xn):xi∈r},通过定义模糊连接度提高样本的区分度,从而提高文字特征识别率。
[0066]
在一实施例中,所述步骤s103,包括:
[0067]
对所述样本数据进行语义分析,得到对应的样本字符串;
[0068]
获取物联网卡对应的商品特性和商品类型;
[0069]
计算所述样本字符串中各字符与所述商品特性的关联度;
[0070]
筛除关联度低于预设关联度阈值的字符,并将剩余字符作为目标字符;
[0071]
对所述目标字符进行数据清洗;其中,所述数据清洗包括缺省值处理、数据去重、数据过滤;
[0072]
根据所述商品类型绘制关键词词云,并利用所述关键词词云对所述目标字符提取关键字符,并作为所述目标数据。
[0073]
在本实施例中,对样本数据进行语义分析,提取得到样本数据对应的样本字符串,再通过与物联网卡的商品特性字符串进行关联,并筛除关联度低的字符,例如标点符号、语
气词、介词、连词等等,剩下的字符即作为目标字符,并对其进行数据清洗,然后通过关键词词云提取关键字符作为目标数据,用以后续的分类预测。
[0074]
在一具体实施例中,如图5所示,按照商品类型分类(例如物联网卡、手机卡、物联网设备等),绘制商品类型相对应的关键词词云,用于后续提取关键字符。
[0075]
在一实施例中,所述步骤s104,包括:
[0076]
将所述目标数据划分为第一子目标数据d1和第二子目标数据d2;
[0077]
按照下式计算所述目标数据的基尼系数:
[0078][0079]
式中,d表示所述目标数据,giniindex表示基尼系数,a表示所述目标数据中的各目标特征,a表示各目标特征的值;
[0080]
选择基尼系数最小的目标数据作为最优特征,以及将基尼系数最小的目标数据对应的取值作为最优切换点;
[0081]
按照下式,根据所述最优特征和最优切换点生成cart分类二叉树:
[0082]
d1=(x,y)∈d|a(x)=a,d2=d-d1[0083]
式中,x和y分别表示左节点和右节点;
[0084]
利用所述cart分类二叉树输出所述目标数据的分类预测结果。
[0085]
在本实施例中,通过计算目标数据的基尼系数,确定最优特征和最优切入点,并基于最优特征和最优切入点生成cart分类二叉树,并由cart分类二叉树输出目标数据的分类预测结果。
[0086]
在一具体实施例中,按照如图6所示的cart分类二叉树识别流程输出目标数据的分类预测结果,依据商品主标题是否含有非限制性流量关键词、商品副标题是否含有免月租关键词、商铺类型是否为专营店等分类对目标数据进行识别,将目标数据区分为不同的输出类型。
[0087]
在一实施例中,所述步骤s104还包括:
[0088]
基于10折交叉验证,按照查准率、查全率和综合指标对cart分类二叉树进行评价,其中,综合指标=2*查准率*查全率/(查准率+查全率)。
[0089]
在本实施例中,基于10折交叉验证对cart分类二叉树进行评估,根据识别结果的应用情况进行反馈,从而对cart分类二叉树进行优化,提高分类预测精度。10折交叉验证(10-fold cross-validation),用来测试算法准确性,是常用的测试方法。10折交叉验证将数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证(例如10次10折交叉验证),再求其均值,作为对算法准确性的估计。十折交叉验证之所以选择将数据集分为10份,是因为通过利用大量数据集、使用不同学习技术进行的大量试验,表明10折是获得最好误差估计的恰当选择。
[0090]
图3为本发明实施例提供的基于深度学习的物联网卡管理装置300的示意性框图,该装置300包括:
[0091]
信息采集单元301,用于采集原始图像数据;
[0092]
图像识别单元302,用于通过图像智能识别技术对所述原始图像数据进行图像识
别,以提取所述原始图像数据的文字数据,并将所述文字数据作为样本数据;
[0093]
分词处理单元303,用于利用机器学习模型对所述样本数据进行文本分词处理,得到目标数据;
[0094]
分类预测单元304,用于采用分类回归树算法对所述目标数据进行分类预测;
[0095]
结果管理单元305,用于根据所述分类预测的结果对物联网卡进行管理。
[0096]
在一实施例中,所述信息采集单元301包括:
[0097]
去模糊处理单元,用于按照下式,基于反卷积的图像去模糊算法对所述原始图像数据进行去模糊处理:
[0098]
b=i*k+n
[0099]
式中,b为模糊的所述原始图像数据,i为去模糊后的所述原始图像数据,k为模糊核,n为图像噪声,*表示卷积运算。
[0100]
在一实施例中,所述基于深度学习的物联网卡管理装置300还包括:
[0101]
阈值分割单元,用于按照下式,采用最大类间方差法对经过去模糊处理后的原始图像数据进行阈值分割:
[0102]
g=ω0*(μ
0-μ)2+ω1*(μ
1-μ)2[0103]
式中,g表示原始图像数据中的前景图像和背景图像的方差,ω0表示前景点数占图像比例,μ0表示前景图像的平均灰度,ω1表示背景点数占图像比例,μ1表示背景图像的平均灰度,μ表示图像的总平均灰度;
[0104]
像素遍历单元,用于按照像素范围(0,255)对所述原始图像数据进行遍历,并选取方差最大时对应的分割阈值;
[0105]
二值化处理单元,用于根据所述分割阈值对所述原始图像数据进行二值化处理。
[0106]
在一实施例中,如图4所述,所述图像识别单元302包括:
[0107]
图像分解单元401,用于采用轮廓波变换和剪切波变换分别对所述原始图像数据进行分解,并提取分解后的所述原始图像数据的统计值,以作为第一特征向量;
[0108]
向量降维单元402,用于采用核保局投影算法对所述第一特征向量进行降维,得到第二特征向量;
[0109]
模糊连接度计算单元403,用于通过基于样本紧密度模糊支持向量机对所述第二特征向量计算模糊连接度;
[0110]
数据提取单元404,用于根据所述模糊连接度,采用图像识别技术对所述原始图像数据提取所述文字数据。
[0111]
在一实施例中,所述分词处理单元303包括:
[0112]
语义分析单元,用于对所述样本数据进行语义分析,得到对应的样本字符串;
[0113]
特性类型获取单元,用于获取物联网卡对应的商品特性和商品类型;
[0114]
关联度计算单元,用于计算所述样本字符串中各字符与所述商品特性的关联度;
[0115]
字符筛出单元,用于筛除关联度低于预设关联度阈值的字符,并将剩余字符作为目标字符;
[0116]
数据清洗单元,用于对所述目标字符进行数据清洗;其中,所述数据清洗包括缺省值处理、数据去重、数据过滤;
[0117]
词云绘制单元,用于根据所述商品类型绘制关键词词云,并利用所述关键词词云
对所述目标字符提取关键字符,并作为所述目标数据。
[0118]
在一实施例中,所述分类预测单元404包括:
[0119]
数据划分单元,用于将所述目标数据划分为第一子目标数据d1和第二子目标数据d2;
[0120]
系数计算单元,用于按照下式计算所述目标数据的基尼系数:
[0121][0122]
式中,d表示所述目标数据,giniindex表示基尼系数,a表示所述目标数据中的各目标特征,a表示各目标特征的值;
[0123]
数据选取单元,用于选择基尼系数最小的目标数据作为最优特征,以及将基尼系数最小的目标数据对应的取值作为最优切换点;
[0124]
二叉树生成单元,用于按照下式,根据所述最优特征和最优切换点生成cart分类二叉树:
[0125]
d1=(x,y)∈d|a(x)=a,d2=d-d1[0126]
式中,x和y分别表示左节点和右节点;
[0127]
结果输出单元,用于利用所述cart分类二叉树输出所述目标数据的分类预测结果。
[0128]
在一实施例中,所述分类预测单元404还包括:
[0129]
综合评估单元,用于基于10折交叉验证,按照查准率、查全率和综合指标对cart分类二叉树进行评价,其中,综合指标=2*查准率*查全率/(查准率+查全率)。
[0130]
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
[0131]
本发明实施例还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0132]
本发明实施例还提供了一种计算机设备,可以包括存储器和处理器,存储器中存有计算机程序,处理器调用存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口,电源等组件。
[0133]
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护范围内。
[0134]
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那
些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1