风险应用识别方法、装置、存储介质以及电子设备与流程

文档序号:32155159发布日期:2022-11-11 22:26阅读:140来源:国知局
风险应用识别方法、装置、存储介质以及电子设备与流程

1.本技术涉及计算机技术领域,尤其涉及一种风险应用识别方法、装置、存储介质以及电子设备。


背景技术:

2.随着互联网的发展,黑灰产业规模不断扩大、黑灰产业形态呈现多样化,黑灰产业对网民的威胁和侵害不断扩大。静态代码检测可以对技术类代码层面的黑灰产业做到高效高覆盖打击,但对于非代码层面难以触及的网络黑灰产业的打击受限,如:网络黑账号类、非法交易类、恶意行为类的黑灰产业,无法识别哪些应用存在风险,属于风险应用。因此,如何识别出风险应用,进一步提高识别风险应用的准确率是亟需解决的问题。


技术实现要素:

3.本技术实施例提供了一种风险应用识别方法、装置、计算机存储介质以及电子设备,旨在解决相关技术中如何提高风险应用的识别准确率的技术问题。所述技术方案如下:
4.第一方面,本技术实施例提供了一种风险应用识别方法,所述方法包括:
5.提取待识别应用的至少两个特征维度的特征关键词,计算每个所述特征维度的特征关键词在所设定的各应用品类下的品类得分值;
6.获取所述待识别应用的应用月活值和应用安装包容量值,并计算所述待识别应用的情感得分值;
7.基于所述品类得分值、所述应用月活值、所述应用安装包容量值以及所述情感得分值,并采用预先训练的评分卡,得到所述待识别应用的评分值;
8.若确定所述评分值大于评分阈值,则将所述待识别应用识别为风险应用。
9.第二方面,本技术实施例提供了一种风险应用识别装置,所述装置包括:
10.第一变量提取模块,用于提取待识别应用的至少两个特征维度的特征关键词,计算每个所述特征维度的特征关键词在所设定的各应用品类下的品类得分值;
11.第二变量提取模块,用于获取所述待识别应用的应用月活值和应用安装包容量值,并计算所述待识别应用的情感得分值;
12.评分确定模块,用于基于所述品类得分值、所述应用月活值、所述应用安装包容量值以及所述情感得分值,并采用预先训练的评分卡,得到所述待识别应用的评分值;
13.评分识别模块,用于在确定所述评分值大于评分阈值时,将所述待识别应用识别为风险应用。
14.第三方面,本技术实施例提供了一种计算机存储介质,所述计算机存储介质有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
15.第四方面,本技术实施例提供了一种电子设备,可包括:存储器和处理器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述存储器加载并执行上述的方法步骤。
16.本技术实施例提供的技术方案带来的有益效果至少包括:
17.本技术实施例的方案在执行时,提取待识别应用的至少两个特征维度的特征关键词,计算每个特征维度的特征关键词在所设定的各应用品类下的品类得分值,获取所述待识别应用的应用月活值和应用安装包容量值,并计算所述待识别应用的情感得分值,基于所述品类得分值、所述应用月活值、所述应用安装包容量值以及所述情感得分值,并采用预先训练的评分卡,得到所述待识别应用的评分值,若确定所述评分值大于评分阈值,则将所述待识别应用识别为风险应用。通过本技术的方法,采用预先训练的评分卡对待识别应用多个特征维度的特征值进行评估,得到待识别应用的评分值,以根据该评分值识别待识别应用是否为风险应用,可以提高风险应用的识别准确率,进而可以对黑灰产业进行打击。
附图说明
18.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
19.图1是本技术实施例提供的一种风险应用识别方法的流程示意图;
20.图2是本技术实施例提供的一种风险应用识别方法中评分卡的结构示意图;
21.图3是本技术实施例提供的一种风险应用识别方法的流程示意图;
22.图4是本技术实施例提供的一种风险应用识别装置的结构示意图;
23.图5是本技术实施例提供的一种电子设备的结构示意图;
24.图6是本技术实施例提供的操作系统和用户空间的结构示意图;
25.图7是图5中安卓操作系统的架构图;
26.图8是图5中ios操作系统的架构图。
具体实施方式
27.为使得本技术实施例的发明目的、特征、优点能够更加的明显和易懂,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而非全部实施例。基于本技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
28.下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
29.在本技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本技术中的具体含义。
30.在下述方法实施例中,为了便于说明,仅以各步骤的执行主体为电子设备进行介绍说明。
31.请参见图1,为本技术实施例提供的一种风险应用识别方法的流程示意图。如图1所示,本技术实施例的所述方法可以包括以下步骤:
32.s101,提取待识别应用的至少两个特征维度的特征关键词,计算每个特征维度的特征关键词在所设定的各应用品类下的品类得分值。
33.其中,待识别应用为市面上任意一款可以在手机、平板电脑、智能电视机以及计算机等智能设备上安装并使用的应用。
34.其中,特征关键词用于从多个特征维度描述待识别应用。至少两个特征维度的特征关键词,可以包括但不限于应用名称维度的特征关键词、应用功能维度的特征关键词、应用舆情维度的特征关键词以及应用描述维度的特征关键词。对于应用名称维度的特征关键词,可以从应用名称中提取;对于应用功能维度的特征关键词,可以对应用安装包文件进行解析,得到资源字符串,将资源字符串进行分词处理提取应用功能维度的特征关键词;对于应用舆情维度的特征关键词,可以从舆情文章中提取;对于应用描述维度的特征关键词,可以从软件商店的应用描述信息中提取。
35.具体的,计算每个特征维度的特征关键词在所设定的各应用品类下的品类得分值,可以理解为,由于预先设定有多个应用品类,可以包括社交、地图、银行、支付、购物以及游戏等应用品类,每个应用品类下对应有一个关键词列表,对于提取出的多个特征维度的特征关键词,每个特征维度的特征关键词也可以是一个或多个关键词的集合,计算每个特征维度的特征关键词对应的关键词集合在上述多个应用品类的关键词列表中可以命中的关键词数量,可以将命中的关键词数量作为每个特征维度的特征关键词在每个应用品类下的品类得分值。
36.举例来说:若至少两个特征维度的特征关键词包括:维度1的关键词、维度2的关键词、维度3的关键词,设定的各应用品类包括品类1、品类2、品类3、品类4以及品类5,品类1下的关键词列表为列表1,、品类2下的关键词列表为列表2、品类3下的关键词列表为列表3、品类4下的关键词列表为列表4、品类5下的关键词列表为列表5。可以计算出,维度1的关键词在列表1中命中的关键词数量为0,维度1的关键词在列表2中命中的关键词数量为2,维度1的关键词在列表3中命中的关键词数量为3,维度1的关键词在列表4中命中的关键词数量为1,维度1的关键词在列表5中命中的关键词数量为5,那么可以确定维度1在品类1下的品类得分值为0、维度1在品类2下的品类得分值为2、维度1在品类3下的品类得分值为3、维度1在品类4下的品类得分值为1、维度1在品类5下的品类得分值为5。维度2、维度3的关键词在5个列表中的品类得分值和维度1的计算过程一样,在此不再赘述。
37.s102,获取所述待识别应用的应用月活值和应用安装包容量值,并计算所述待识别应用的情感得分值。
38.其中,应用月活值表示待识别应用在一个月内的用户活跃量,应用安装包容量值表示待识别应用的安装包文件的容量值。应用月活值和应用安装包容量值都可以通过相关技术获取到,在此不再赘述。
39.其中,情感得分值表示通过识别用户对待识别应用的情感得到的情感评分值。
40.具体的,计算待识别应用的情感得分值,首先可以获取待识别应用在各个应用软件商店中用户评论,以及获取待识别应用在舆情文章中的情感倾向,然后可以基于bosonnlp情感词典以及结巴分词计算用户评论和情感倾向的得分。若得分大于0表示正向
情感,得分小于0表示消极情感,得分绝对值越大感情色情越强烈。比如,待识别应用的用户评论为“米赚这个应用很好玩,可以日赚斗金”,可以计算出待识别应用的情感得分值为1.95,待识别应用的用户评论为“米赚这个应用很一般般”,可以计算出待识别应用的情感得分值为0.68,待识别应用的用户评论为“米赚这个应用骗人的,不能提现”,可以计算出待识别应用的情感得分值为-1.37。
41.需要说明的是,步骤s101和步骤s102可同时执行,本技术实施例并不限定步骤s101和步骤s102的执行顺序。
42.s103,基于所述品类得分值、所述应用月活值、所述应用安装包容量值以及所述情感得分值,并采用预先训练的评分卡,得到所述待识别应用的评分值。
43.具体的,可参见如图2所示的评分卡结构示意图,评分卡包括变量、变量分栏以及分栏评分三类数据,每个变量对应有一个或者多个变量值区间,每一个变量值区间都对应有一个分值。对于本技术实施例来说,预先训练的评分卡中可以包括但不限于品类变量、月活变量、安装包容量变量以及情感变量,品类变量下对应有多个变量值区间、月活变量下对应有多个变量值区间、安装包容量变量下对应有多个变量值区间、情感变量下对应有多个变量值区间。则可以确定品类得分值属于品类变量下某个变量值区间,进一步的,可以确定品类得分值在该变量值区间内的分值;可以确定应用月活值属于月活变量下某个变量值区间,进一步的,可以确定应用月活值在该变量值区间内的分值;可以确定应用安装包容量值属于应用安装包容量变量下某个变量值区间,进一步的,可以确定应用安装包容量值在该变量值区间内的分值;可以确定情感得分值属于情感变量下某个变量值区间,进一步的,可以确定情感得分值在该变量值区间内的分值。进一步的,将待识别应用在上述各个变量下的分值相加,则可以得到待识别应用的评分值。
44.s104,若确定所述评分值大于评分阈值,则将所述待识别应用识别为风险应用。
45.可以理解的是,样本应用集合中包括海量样本应用,每个样本应用有对应的评分值,每个样本应用也标记有对应的风险结果,比如每个样本应用都被标记为“有风险”或者“无风险”。因此,评分阈值可以通过样本应用集合中所有样本应用的评分值与风险结果确定,将评分值大于评分阈值的应用标记为有风险应用,将评分值小于或者评分阈值的应用标记为无风险应用。
46.本技术实施例的方案在执行时,提取待识别应用的至少两个特征维度的特征关键词,计算每个特征维度的特征关键词在所设定的各应用品类下的品类得分值,获取所述待识别应用的应用月活值和应用安装包容量值,并计算所述待识别应用的情感得分值,基于所述品类得分值、所述应用月活值、所述应用安装包容量值以及所述情感得分值,并采用预先训练的评分卡,得到所述待识别应用的评分值,若确定所述评分值大于评分阈值,则将所述待识别应用识别为风险应用。通过本技术的方法,采用预先训练的评分卡对待识别应用多个特征维度的特征值进行评估,得到待识别应用的评分值,以根据该评分值识别待识别应用是否为风险应用,可以提高风险应用的识别准确率,进而可以对黑灰产业进行打击。
47.请参见图3,为本技术实施例提供的一种风险应用识别方法的流程示意图。如图3所示,本技术实施例的所述方法可以包括以下步骤:
48.s301,提取样本应用的至少两个特征维度的样本特征关键词,计算每个特征维度的样本特征关键词在所设定的各应用品类下的样本品类得分值。
49.s302,获取所述样本应用的样本应用月活值和样本应用安装包容量值,并计算所述样本应用的样本情感得分值。
50.s303,基于所述样本品类得分值、所述样本应用月活值、所述样本应用安装包容量值以及所述样本情感得分值进行样本变量分箱,计算各样本变量对应的每个参考分箱的参考woe值,并基于各所述参考wo e值确定所述各样本变量的信息价值iv值;
51.s304,基于各iv值确定所述各样本变量的目标分箱数量,基于所述目标分箱数量确定每个分箱的样本woe值。
52.s305,基于所述每个分箱的样本woe值确定评分卡中每个分箱的刻度分值。
53.具体的,步骤s301~s305为评分卡的训练过程,下面对训练过程进行解释说明。
54.对于评分卡的训练过程,首先,也还是提取样本应用的多个特征维度的样本特征关键词,包括步骤s306中提及的几个特征维度的特征关键词;进一步的,计算每个特征维度的样本特征关键词在所设定的各应用品类下的样本品类得分值,计算品类得分值的原理和步骤s308一样,可参见步骤s308的描述,在此不再赘述。同样的,在计算品类得分值之前,还是要将样本特征关键词转化为标准的特征关键词,和步骤s307原理一样,可参见步骤s307的描述,在此也不再赘述。
55.接下来,对于样本应用的样本应用月活值、样本应用安装包容量值,都可以通过现有技术获取到,在此不再赘述。接下来,对于计算样本应用的样本情感得分值,可参见步骤s309,在此不再赘述。
56.然后,基于样本品类得分值、样本应用月活值、样本应用安装包容量值以及样本情感得分值进行样本变量分箱,并计算各样本变量对应的每个分箱的样本woe值,可以理解的是,样本品类得分值对应品类得分变量,样本应用月活值对应应用月活变量、样本应用安装包容量值对应应用安装包容量,样本情感得分值对应情感得分变量。那么,可以通过分箱算法对品类得分变量、应用月活变量、应用安装包容量以及情感得分变量进行变量分箱,并计算出每个变量对应的每个分箱的样本woe(weight of evidence,证据权重)值。woe是一种有监督的编码方式,是一种衡量正常样本(好样本)和违约样本(坏样本)分布的差异方法。第一,对于连续型变量,可以选择等频、等距来分箱,或者自定义间隔来分箱;对于离散型变量,如果分箱太多,则进行分箱合并。第二,统计每个参考分箱里的好样本数和坏样本数。第三,好样本数除以总的好样本数得到每个参考分箱内的好样本比例,坏样本数除以总的坏样本数得到每个参考分箱内的坏样本比例。第四,计算每个参考分箱里的参考woe值,将好样本比例和坏样本比例的比值称为好坏比,参考woe值就等于以无理数e为底好坏比的对数。第五,检查每个参考分箱里的参考woe值是否满足单调性,若不满足,返回第一步。需要说明的是,上述步骤中涉及的好样本数指的是满足每个分箱对应的值范围的样本个数,坏样本数指的是不满足每个分箱对应的值范围的样本个数。第六,计算每个分箱里的iv(information value,信息价值)值,把每个分箱里的iv值进行求和,即得到最终的iv值。好样本比例减去坏样本比例得到一个比例值,再将这个比例值乘以woe值,得到的就是每个参考分箱的iv值。第七,通过变量的分箱数量与iv曲线选择最优的分箱数量进行woe变换,得到每个变量的目标分箱数量,以及每个目标分箱对应的样本woe值。比如说,一个变量可以分为4箱、5箱、6箱或者8箱,4箱对应第一iv值,5箱对应第二iv值,6箱对应第三iv值,8箱对应第四iv值,以箱数作为横轴,以iv值作为总轴绘制iv曲线,观察曲线中的iv值,确定最佳
的分箱数量,将最佳的分箱数量作为目标分箱数量,然后计算这些分箱的woe值,就称为样本woe值。
57.最后,基于每个分箱的样本woe值确定评分卡中每个分箱的刻度分值。可以根据评分卡线性模型score=a-b*ln(odds)来求解评分卡分值刻度。其中odds=p/(1-p),ln(odds)=β0+β1*x1+β2*x2+...+β
p
*x
p
为逻辑回归线性表达式,经过变换可得score=a-b*(β0+β1*x1+β2*x2+...+β
p
*x
p
),变量经过分箱转化后得到对应的woe值,则score=a-b*(β0+β1*ωoe1*δ1+β2*ωoe2*δ2+...+β
p
*ωoe
p

p
)。由此可知,每个变量不同分箱对应的分数是b、woe、ω这三个值的乘积,其中β(逻辑回归分类模型的系数)和woe在前面已知,当前只要计算出a和b,即可得到每个变量不同分箱对应的分数。而a和b是设定阈值,其中,偏移量a=offset,比例因子b=factor,b=offset-factor*ln(o),b+point=offset+factor*ln(o2),b为基本分值,o为基本分值对应的odds,point为当odds增加一倍时评分所增加的分数,将这两个公式进行变换,可得到offset和factor。比如,好坏比为20时,对应的基本分值为100,好坏比每翻1倍,增加10分,则可求解出factor、offset。进一步的,可以求得每个变量对应的每个分箱的刻度分值。
58.s306,从应用名称中提取待识别应用的名称特征关键词,从舆情文章中提取待识别应用的舆情特征关键词,从应用描述信息中提取所述待识别应用的描述特征关键词,从应用资源文件中提取所述待识别应用的功能特征关键词。
59.可以理解的是,可以对应用名称进行分词处理,将应用名称拆分为不同的词,从而可以确定待识别应用的名称特征关键词。比如,有个应用的应用名称为“麻将来了”,则对“麻将来了”进行分词处理,得到“麻将”、“来”、“了”,可以将“麻将”作为该应用的名称特征关键词。
60.具体的,从舆情文章中提取待识别应用的舆情特征关键词,舆情文章可以来自各个网站,不同舆情文章对应用描述维度有一定的差异。比如,某舆情网站专项揭露已对网民造成严重侵害的应用,多为结果特征的描述,舆情特征关键词集中在“跑路、服务器、崩盘”等;某舆情网站主要揭露应用玩法,多为玩法特征的描述,舆情特征关键词集中在“抢单合作、手续费、办事费、收益、空投、认证费”等。提取舆情特征关键词,可以先从舆情文章的标题中提取出待识别应用的应用名称,然后分词提取舆情文章对应的文本内容中的舆情特征关键词。另外,对文本内容分词后还可以剔除停用词,主要是由于对文本内容分词的话,句子中出现的词语都会被划分,而有些词语是没有实际意思的,对于后续的关键词提取就会加大工作量,并且可能提取的关键词是无效的。所以在分词处理以后,可以剔除停用词去优化分词的结果,此时剔除的停用词还可以包括待识别应用的应用名称。
61.可以理解的是,从应用描述信息中提取待识别应用的描述特征关键词,应用描述信息指的是应用在软件商店中的应用描述信息,比如“微信”应用在软件商店中的描述信息“微信是一款全方位的手机通讯应用......,微信的功能包括:......”。描述特征关键词表示从应用开发者角度描述应用的特征关键词。提取描述特征关键词,可以分词提取应用描述信息对应的文本内容中的特征关键词,同样,对应用描述信息对应的文本内容分词处理后,也可以剔除停用词,然后提取特征关键词。比如软件商店中某些资金盘类应用的应用描述信息会突出裂变模式,描述特征关键词为“直推、下级、合伙人、分红、佣金、赚钱”等;某些资金盘类应用以区块为噱头,其应用描述信息会突出描述区块链技术,描述特征关键特征
词为“区块链、挖矿、智能合约、算力”等;还有某些资金盘类应用的应用描述信息会描述其代币载体,这时,描述特征关键词为“*晶、*币、*钻、卷抽、糖果、*豆、*呗”等。
62.可以理解的是,从应用资源文件中提取待识别应用的功能特征关键词,不同类型的应用功能会存在显著差异,这些差异主要从资源文件中体现,因此,应用资源文件指的是资源文件,提取功能特征关键词是从资源文件中提取。比如,投资类应用的功能特征关键词多为“投资、股票、证券、散户、持仓、做空”等;社交类应用的功能特征关键词多为“禁言、群管理、群设置、管理员、打赏、交友”等。
63.s307,将所述名称特征关键词、所述舆情特征关键词、所述描述特征关键词以及所述功能特征关键词分别转化成目标名称特征关键词、目标舆情特征关键词、目标描述特征关键词以及目标功能特征关键词。
64.具体的,由于同类应用可能存在相同功能,但这些相同功能在不同应用中的描述不同,比如“邀请码、邀请人、推荐人”,通常都是应用注册界面上属于推荐功能的推荐选项要填的信息,则可以将这些关键词都标准化成同一个关键词,比如“邀请码”。对于其他应用功能的描述,也都对应同一个标准关键词,那么目标名称特征关键词,就是将名称特征关键词转换为名称维度的特征关键词;目标舆情特征关键词,就是将舆情特征关键词转换为舆情角度的标准关键词后得到的关键词;目标描述特征关键词,就是将描述特征关键词转换为应用描述角度的标准关键词后得到的关键词;目标功能特征关键词,就是将功能特征关键词转换为功能角度的标准关键词后得到的关键词。
65.s308,计算所述目标名称特征关键词、所述目标舆情特征关键词、所述目标描述特征关键词以及所述目标功能特征关键词在所设定的各应用品类下的品类得分值。
66.其中,应用品类表示不用类型的应用类别,包括资金盘品类、社交品类、地图品类、购物品类、游戏品类、音乐品类等。对于每个应用品类而言,都有其对应的关键词列表。比如,资金盘品类对应的关键词列表为“钱包、手续费、矿机、算力、交易所、区块、邀请人、分红、实名认证、认证、糖果、提币、转入、转出”;社交品类对应的关键词列表为“禁言、群管理、退群/退出群、群公告、群收费、群助手、群聊、群号、群设置、工会、认证、管理员、玩伴、周榜、日榜、连麦、打赏、贡献榜、视频聊、语音聊、粉丝、师徒、约聊'、交友”。
67.具体的,计算目标名称特征关键词在各应用品类下的品类得分值,可以理解为,计算目标名称特征关键词分别在各应用品类对应的关键词列表中命中的关键词数量,将命中的关键词数量作为每个应用品类下的得分值。计算目标舆情特征关键词在各应用品类下的品类得分值,可以理解为,计算目标舆情特征关键词分别在各应用品类对应的关键词列表中命中的关键词数量,将命中的关键词数量作为每个应用品类下的得分值。计算目标描述特征关键词在各应用品类下的品类得分值,可以理解为,计算目标描述特征关键词分别在各应用品类对应的关键词列表中命中的关键词数量,将命中的关键词数量作为每个应用品类下的得分值。计算目标功能特征关键词在各应用品类下的品类得分值,可以理解为,计算目标功能特征关键词分别在各应用品类对应的关键词列表中命中的关键词数量,将命中的关键词数量作为每个应用品类下的得分值。若设定有10个应用品类,则对应有10个关键词列表,那么目标名称特征关键词、目标舆情特征关键词、目标描述特征关键词以及目标功能特征关键词在10个应用品类下分别有10个品类得分值。
68.需要说明的是,对于上述步骤s306~s307来说,同时从应用名称维度、舆情维度、
应用描述维度以及应用功能维度提取特征关键词,然后将四种特征维度的特征关键词分别转化为目标特征关键词,再计算每种目标特征关键词分别在所设定的各应用品类下的品类得分值,这是一种最优的实施方式。可选的,还可以从上述四个特征维度中提取任意两个维度的特征关键词,或者从上述四个特征维度中提取任意三个维度的特征关键词。进一步的,将任意两个维度的特征关键词分别转化为目标特征关键词,或者将任意三个维度的特征关键词分别转化为目标特征关键词。进一步的,分别计算任意两个维度的目标特征关键词在所设定的各应用品类下的品类得分值,或者,分别计算任意三个维度的目标特征关键词在所设定的各应用品类下的品类得分值,这都是可行的实施方式,在此不再赘述。
69.s309,获取所述待识别应用的应用月活值和应用安装包容量值。
70.s310,获取所述待识别应用的用户评论语句和所述待识别应用在舆情文章中的情感倾向词,基于所述用户评论语句和所述情感倾向词计算所述待识别应用的情感得分值。
71.具体的,s309和s310,可参见图1中的s102,在此不再赘述。
72.s311,基于每个分箱的刻度分值分别确定品类得分值对应的品类评分值、应用月活值对应的应用月活评分值、应用安装包容量值对应的应用安装包容量评分值以及情感得分值对应的情感评分值。
73.具体的,根据步骤s306~s307,可以得到待识别应用的品类得分值、应用月活值、应用安装包容量值以及情感得分值。由于评分卡中有品类得分变量下每个分箱的刻度分值,有应用月活变量下每个分箱的刻度分值,有应用安装包容量变量下每个分箱的刻度分值,有情感得分变量下每个分箱的刻度分值。那么可以确定品类得分值在评分卡中品类得分变量下所属的分箱,进一步的,将这个分箱的刻度分值作为品类评分值;可以确定品类得分值在评分卡中品类得分变量下所属的分箱,进一步的,将这个分箱的刻度分值作为品类评分值;可以确定应用月活值在评分卡中应用月活变量下所属的分箱,进一步的,将这个分箱的刻度分值作为应用月活评分值;可以确定应用安装包容量值在评分卡中应用安装包变量下所属的分箱,进一步的,将这个分箱的刻度分值作为应用安装包容量评分值;可以确定应情感得分值在评分卡中情感得分变量下所属的分箱,进一步的,将这个分箱的刻度分值作为应用情感评分值。
74.s312,计算品类评分值、应用月活评分值、应用安装包容量评分值以及情感评分值的总和,得到待识别应用的评分值。
75.具体的,将品类评分值、应用月活评分值、应用安装包容量评分值以及情感评分值相加,得到的即是待识别应用的评分值。
76.s313,若确定评分值大于评分阈值,则将待识别应用识别为风险应用。
77.可以理解的是,每个样本应用都会进行评分,得到每个样本应用的评分值,人工也会对每个样本应用的风险结果进行标记,则通过样本应用的评分值与风险结果确定最佳的评分阈值。当待识别应用的评分值大于该评分阈值时,则建议判定该应用存在风险,否则判定该应用风险较小。可以理解的是,评分卡仅作为应用风险程度量化评估,也可视具体场景集合原始提取的特征以及评论的情感识别风险应用。
78.举例来说:针对资金盘类风险应用基于评分卡的评分阈值的设定,在“好坏比20时,对应的基准分值为100,好坏比每翻1倍,增加10分”的业务前提下,可以将评分阈值设定为68。鉴于不同品类风险应用的差异性,还可能是好坏比20时,对应的基准分值为100,好坏
比每翻1倍,增加15分。也就是说,评分卡的刻度分值的设定需结合对具体品类风险应用的业务常识。
79.本技术实施例的方案在执行时,通过提取待识别应用的至少两个特征维度的特征关键词,计算每个特征维度的特征关键词在所设定的各应用品类下的品类得分值,获取所述待识别应用的应用月活值和应用安装包容量值,并计算所述待识别应用的情感得分值,基于所述品类得分值、所述应用月活值、所述应用安装包容量值以及所述情感得分值,并采用预先训练的评分卡,获取评分卡中每个变量下对应的每个分箱的刻度分值,分别确定品类得分值对应的品类评分值、应用月活值对应的应用月活评分值、应用安装包容量值对应的应用安装包容量评分值以及情感得分值对应的情感评分值比较得到所述待识别应用的评分值,计算品类评分值、应用月活评分值、应用安装包容量评分值以及情感评分值的总和,得到待识别应用的评分值。若确定所述评分值大于评分阈值,则将所述待识别应用识别为风险应用,可以提高风险应用的识别准确率,进而可以对黑灰产业进行打击。
80.请参见图4,为本技术实施例提供的一种风险应用识别装置的结构示意图。该风险应用识别装置400可以通过软件、硬件或者两者的结合实现成为电子设备的全部或一部分。装置400包括:
81.第一变量提取模块410,用于提取待识别应用的至少两个特征维度的特征关键词,计算每个所述特征维度的特征关键词在所设定的各应用品类下的品类得分值;
82.第二变量提取模块420,用于获取所述待识别应用的应用月活值和应用安装包容量值,并计算所述待识别应用的情感得分值;
83.评分确定模块430,用于基于所述品类得分值、所述应用月活值、所述应用安装包容量值以及所述情感得分值,并采用预先训练的评分卡,得到所述待识别应用的评分值;
84.评分识别模块440,用于在确定所述评分值大于评分阈值时,将所述待识别应用识别为风险应用。
85.可选的,第一变量提取模块410包括第一提取单元、第二提取单元、第三提取单元以及第四单元中的至少两个单元:
86.第一提取单元,用于当所述特征关键词为名称特征关键词时,从应用名称中提取待识别应用的所述名称特征关键词;
87.第二提取单元,用于当所述特征关键词为舆情特征关键词时,从舆情文章中提取待识别应用的所述舆情特征关键词;
88.第三提取单元,用于当所述特征关键词为描述特征关键词时,从应用描述信息中提取所述待识别应用的所述描述特征关键词;
89.第四提取单元,用于当所述特征关键词为功能特征关键词时,从应用资源文件中提取所述待识别应用的所述功能特征关键词。
90.可选的,第一变量提取模块410包括:
91.第一计算单元,用于将每个特征维度的特征关键词转化为目标特征关键词,计算每个所述目标特征关键词在所设定的各应用品类下的品类得分值;其中,所述目标特征关键词包括目标名称特征关键词、目标舆情特征关键词、目标描述特征关键词以及目标功能特征关键词中的至少两个。
92.可选的,第二变量提取模块420包括:
93.第五提取单元,用于获取所述待识别应用的用户评论语句和所述待识别应用在舆情文章中的情感倾向词,基于所述用户评论语句和所述情感倾向词计算所述待识别应用的情感得分值。
94.可选的,装置400还包括:
95.第一样本提取模块,用于提取样本应用的至少两个特征维度的样本特征关键词,计算每个特征维度的样本特征关键词在所设定的各应用品类下的样本品类得分值;
96.第二样本提取模块,用于获取所述样本应用的样本应用月活值和样本应用安装包容量值,并计算所述样本应用的样本情感得分值;
97.第三样本计算模块,用于基于所述样本品类得分值、所述样本应用月活值、所述样本应用安装包容量值以及所述样本情感得分值进行样本变量分箱,并计算各样本变量对应的每个分箱的样本woe值;
98.第四样本计算模块,用于基于所述每个分箱的样本woe值确定评分卡中每个分箱的刻度分值。
99.可选的,第三样本计算模块包括:
100.第一计算单元,用于计算各样本变量对应的每个参考分箱的参考woe值,并基于各所述参考woe值确定所述各样本变量的信息价值iv值;
101.第二计算单元,用于基于各iv值确定所述各样本变量的目标分箱数量,基于所述目标分箱数量确定每个分箱的样本woe值。
102.可选的,评分确定模块430包括:
103.第一评分单元,用于获取预先训练的评分卡中每个分箱的刻度分值;
104.第二评分单元,用于基于所述每个分箱的刻度分值分别确定所述品类得分值对应的品类评分值、所述应用月活值对应的应用月活评分值、所述应用安装包容量值对应的应用安装包容量评分值以及所述情感得分值对应的情感评分值;
105.第三评分单元,用于计算所述品类评分值、所述应用月活评分值、所述应用安装包容量评分值以及所述情感评分值的总和,得到所述待识别应用的评分值。
106.本技术实施例的方案在执行时,提取待识别应用的至少两个特征维度的特征关键词,计算每个特征维度的特征关键词在所设定的各应用品类下的品类得分值,获取所述待识别应用的应用月活值和应用安装包容量值,并计算所述待识别应用的情感得分值,基于所述品类得分值、所述应用月活值、所述应用安装包容量值以及所述情感得分值,并采用预先训练的评分卡,得到所述待识别应用的评分值,若确定所述评分值大于评分阈值,则将所述待识别应用识别为风险应用。通过本技术的方法,采用预先训练的评分卡对待识别应用多个特征维度的特征值进行评估,得到待识别应用的评分值,以根据该评分值识别待识别应用是否为风险应用,可以提高风险应用的识别准确率,进而可以对黑灰产业进行打击。
107.请参考图5,其示出了本技术一个示例性实施例提供的电子设备的结构方框图。本技术中的电子设备可以包括一个或多个如下部件:处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。
108.处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个电子设备内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或
指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器110可集成中央处理器(central processing unit,cpu)、图像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
109.存储器120可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory,rom)。可选地,该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等,该操作系统可以是安卓(android)系统,包括基于android系统深度开发的系统、苹果公司开发的ios系统,包括基于ios系统深度开发的系统或其它系统。存储数据区还可以存储电子设备在使用中所创建的数据比如电话本、音视频数据、聊天记录数据等。
110.参见图6所示,存储器120可分为操作系统空间和用户空间,操作系统即运行于操作系统空间,原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果,操作系统针对不同第三方应用程序为其分配相应的系统资源。然而,同一第三方应用程序中不同应用场景对系统资源的需求也存在差异,比如,在本地资源加载场景下,第三方应用程序对磁盘读取速度的要求较高;在动画渲染场景下,第三方应用程序则对gpu性能的要求较高。而操作系统与第三方应用程序之间相互独立,操作系统往往不能及时感知第三方应用程序当前的应用场景,导致操作系统无法根据第三方应用程序的具体应用场景进行针对性的系统资源适配。
111.为了使操作系统能够区分第三方应用程序的具体应用场景,需要打通第三方应用程序与操作系统之间的数据通信,使得操作系统能够随时获取第三方应用程序当前的场景信息,进而基于当前场景进行针对性的系统资源适配。
112.以操作系统为android系统为例,存储器120中存储的程序和数据如图7所示,存储器120中可存储有linux内核层320、系统运行时库层340、应用框架层360和应用层380,其中,linux内核层320、系统运行库层340和应用框架层360属于操作系统空间,应用层380属于用户空间。linux内核层320为电子设备的各种硬件提供了底层的驱动,如显示驱动、音频驱动、摄像头驱动、蓝牙驱动、wi-fi驱动、电源管理等。系统运行库层340通过一些c/c++库来为android系统提供了主要的特性支持。如sqlite库提供了数据库的支持,opengl/es库提供了3d绘图的支持,webkit库提供了浏览器内核的支持等。在系统运行时库层340中还提供有安卓运行时库(android runtime),它主要提供了一些核心库,能够允许开发者使用java语言来编写android应用。应用框架层360提供了构建应用程序时可能用到的各种api,开发者也可以通过使用这些api来构建自己的应用程序,比如活动管理、窗口管理、视图管理、通知管理、内容提供者、包管理、通话管理、资源管理、定位管理。应用层380中运行有至
少一个应用程序,这些应用程序可以是操作系统自带的原生应用程序,比如联系人程序、短信程序、时钟程序、相机应用等;也可以是第三方开发者所开发的第三方应用程序,比如游戏类应用程序、即时通信程序、相片美化程序、文件处理程序等。
113.以操作系统为ios系统为例,存储器120中存储的程序和数据如图8所示,ios系统包括:核心操作系统层420(core os layer)、核心服务层440(core services layer)、媒体层460(media layer)、可触摸层480(cocoa touch layer)。核心操作系统层420包括了操作系统内核、驱动程序以及底层程序框架,这些底层程序框架提供更接近硬件的功能,以供位于核心服务层440的程序框架所使用。核心服务层440提供给应用程序所需要的系统服务和/或程序框架,比如基础(foundation)框架、账户框架、广告框架、数据存储框架、网络连接框架、地理位置框架、运动框架等等。媒体层460为应用程序提供有关视听方面的接口,如图形图像相关的接口、音频技术相关的接口、视频技术相关的接口、音视频传输技术的无线播放(airplay)接口等。可触摸层480为应用程序开发提供了各种常用的界面相关的框架,可触摸层480负责用户在电子设备上的触摸交互操作。比如本地通知服务、远程推送服务、广告框架、游戏工具框架、消息用户界面接口(user interface,ui)框架、用户界面uikit框架、地图框架等等。
114.在图6所示出的框架中,与大部分应用程序有关的框架包括但不限于:核心服务层440中的基础框架和可触摸层480中的uikit框架。基础框架提供许多基本的对象类和数据类型,为所有应用程序提供最基本的系统服务,和ui无关。而uikit框架提供的类是基础的ui类库,用于创建基于触摸的用户界面,ios应用程序可以基于uikit框架来提供ui,所以它提供了应用程序的基础架构,用于构建用户界面,绘图、处理和用户交互事件,响应手势等等。
115.其中,在ios系统中实现第三方应用程序与操作系统数据通信的方式以及原理可参考android系统,本技术在此不再赘述。
116.其中,输入装置130用于接收输入的指令或数据,输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据,输出装置140包括但不限于显示设备和扬声器等。在一个示例中,输入装置130和输出装置140可以合设,输入装置130和输出装置140为触摸显示屏,该触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作,以及显示各个应用程序的用户界面。触摸显示屏通常设置在电子设备的前面板。触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合,异型屏与曲面屏的结合,本技术实施例对此不加以限定。
117.除此之外,本领域技术人员可以理解,上述附图所示出的电子设备的结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,电子设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(wireless fidelity,wifi)模块、电源、蓝牙模块等部件,在此不再赘述。
118.在本技术实施例中,各步骤的执行主体可以是上文介绍的电子设备。可选地,各步骤的执行主体为电子设备的操作系统。操作系统可以是安卓系统,也可以是ios系统,或者其它操作系统,本技术实施例对此不作限定。
119.本技术实施例的电子设备,其上还可以安装有显示设备,显示设备可以是各种能
实现显示功能的设备,例如:阴极射线管显示器(cathode ray tubedisplay,简称cr)、发光二极管显示器(light-emitting diode display,简称led)、电子墨水屏、液晶显示屏(liquid crystal display,简称lcd)、等离子显示面板(plasma display panel,简称pdp)等。用户可以利用电子设备101上的显示设备,来查看显示的文字、图像、视频等信息。所述电子设备可以是智能手机、平板电脑、游戏设备、ar(augmented reality,增强现实)设备、汽车、数据存储装置、音频播放装置、视频播放装置、笔记本、桌面计算设备、可穿戴设备诸如电子手表、电子眼镜、电子头盔、电子手链、电子项链、电子衣物等设备。
120.在图5所示的电子设备中,其中电子设备可以是一种终端,处理器110可以用于调用存储器120中存储的风险应用识别程序,并具体执行以下操作:
121.提取待识别应用的至少两个特征维度的特征关键词,计算每个所述特征维度的特征关键词在所设定的各应用品类下的品类得分值;
122.获取所述待识别应用的应用月活值和应用安装包容量值,并计算所述待识别应用的情感得分值;
123.基于所述品类得分值、所述应用月活值、所述应用安装包容量值以及所述情感得分值,并采用预先训练的评分卡,得到所述待识别应用的评分值;
124.若确定所述评分值大于评分阈值,则将所述待识别应用识别为风险应用。
125.在一个实施例中,所述处理器110在执行所述提取待识别应用的至少两个特征维度的特征关键词,计算每个特征维度的特征关键词在所设定的各应用品类下的品类得分值时,具体执行以下操作中的至少两种操作:
126.从应用名称中提取待识别应用的名称特征关键词;
127.从舆情文章中提取待识别应用的舆情特征关键词;
128.从应用描述信息中提取所述待识别应用的描述特征关键词;
129.从应用资源文件中提取所述待识别应用的功能特征关键词;
130.计算所述舆情特征关键词、所述描述特征关键词以及所述功能特征关键词在所设定的各应用品类下的品类得分值。
131.在一个实施例中,所述处理器110在执行所述计算每个所述特征维度的特征关键词在所设定的各应用品类下的品类得分值时,具体执行以下操作:
132.将每个所述特征维度的特征关键词转化为目标特征关键词,计算每个所述目标特征关键词在所设定的各应用品类下的品类得分值;
133.其中,所述目标特征关键词包括目标名称特征关键词、目标舆情特征关键词、目标描述特征关键词以及目标功能特征关键词中的至少两个。
134.在一个实施例中,所述处理器110在执行所述计算所述待识别应用的情感得分值时,具体执行以下操作:
135.获取所述待识别应用的用户评论语句和所述待识别应用在舆情文章中的情感倾向词,基于所述用户评论语句和所述情感倾向词计算所述待识别应用的情感得分值。
136.在一个实施例中,所述处理器110在执行所述提取待识别应用的至少两个特征维度的特征关键词,计算每个特征维度的特征关键词在所设定的各应用品类下的品类得分值之前,还执行以下操作:
137.提取样本应用的至少两个特征维度的样本特征关键词,计算每个特征维度的样本
特征关键词在所设定的各应用品类下的样本品类得分值;
138.获取所述样本应用的样本应用月活值和样本应用安装包容量值,并计算所述样本应用的样本情感得分值;
139.基于所述样本品类得分值、所述样本应用月活值、所述样本应用安装包容量值以及所述样本情感得分值进行样本变量分箱,并计算各样本变量对应的每个分箱的样本woe值;
140.基于所述每个分箱的样本woe值确定评分卡中每个分箱的刻度分值。
141.在一个实施例中,所述存储器120在执行所述计算各样本变量对应的每个分箱的样本woe值时,具体执行以下操作:
142.计算各样本变量对应的每个参考分箱的参考woe值,并基于各所述参考woe值确定所述各样本变量的信息价值iv值;
143.基于各iv值确定所述各样本变量的目标分箱数量,基于所述目标分箱数量确定每个分箱的样本woe值。
144.在一个实施例中,所述处理器110在执行所述基于所述品类得分值、所述应用月活值、所述应用安装包容量值以及所述情感得分值,并采用预先训练的评分卡,得到所述待识别应用的评分值时,具体执行以下操作:
145.获取预先训练的评分卡中每个分箱的刻度分值;
146.基于所述每个分箱的刻度分值分别确定所述品类得分值对应的品类评分值、所述应用月活值对应的应用月活评分值、所述应用安装包容量值对应的应用安装包容量评分值以及所述情感得分值对应的情感评分值;
147.计算所述品类评分值、所述应用月活评分值、所述应用安装包容量评分值以及所述情感评分值的总和,得到所述待识别应用的评分值。
148.本领域的技术人员可以清楚地了解到本技术的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件,其中硬件例如可以是现场可编程门阵列(field-programmable gate array,fpga)、集成电路(integrated circuit,ic)等。
149.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
150.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
151.在本技术所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
152.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
153.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
154.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储器包括:u盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
155.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(read-only memory,rom)、随机存取器(random access memory,ram)、磁盘或光盘等。
156.以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1