1.本技术属于机器学习技术领域,具体涉及一种模型训练方法、装置及电子设备。
背景技术:2.目前,电子设备可以使用训练后的分类模型,识别应用程序是否为恶意广告应用程序,并在识别该应用程序为恶意广告应用程序的情况下拦截该应用程序,以避免用户使用该应用程序。在相关技术中,在训练分类模型的过程中,电子设备可以采用监督训练方式,根据多个应用程序特征,对待训练的分类模型进行模型训练,以得到训练后的分类模型。
3.但是,由于可能会出现多个应用程序特征未覆盖某些应用程序特征的情况,这样可能会出现训练后的分类模型无法识别某些应用程序是否为恶意广告应用程序的情况,因此,导致电子设备识别恶意广告应用程序的识别率较低。
技术实现要素:4.本技术实施例的目的是提供一种模型训练方法、装置及电子设备,能够解决电子设备识别恶意广告应用程序的识别率较低的问题。
5.第一方面,本技术实施例提供了一种模型训练方法,该方法包括:根据n个应用程序的目标程序文件,确定m个目标特征图像,该目标程序文件为安卓安装包apk中的程序文件,该n个应用程序中的每个应用程序的目标程序文件分别对应至少两个目标特征图像,n、m均为正整数;将m个目标特征图像输入至预训练模型中,得到输出的l个目标样本图像,该预训练模型是采用无监督训练方式进行模型训练得到的,l为大于m的正整数;基于l个目标样本图像,对待训练的分类模型进行模型训练,得到目标分类模型。
6.第二方面,本技术实施例提供了一种模型训练装置,该模型训练装置包括:确定模块、处理模块以及训练模块。其中,确定模块,用于根据n个应用程序的目标程序文件,确定m个目标特征图像,该目标程序文件为apk中的程序文件,该n个应用程序中的每个应用程序的目标程序文件分别对应至少两个目标特征图像,n、m均为正整数。处理模块,用于将确定模块确定的m个目标特征图像输入至预训练模型中,得到输出的l个目标样本图像,该预训练模型是采用无监督训练方式进行模型训练得到的,l为大于m的正整数。训练模块,用于基于处理模块处理得到的l个目标样本图像,对待训练的分类模型进行模型训练,得到目标分类模型。
7.第三方面,本技术实施例提供了一种电子设备,该电子设备包括处理器和存储器,该存储器存储可在处理器上运行的程序或指令,该程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
8.第四方面,本技术实施例提供了一种可读存储介质,该可读存储介质上存储程序或指令,该程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
9.第五方面,本技术实施例提供了一种芯片,该芯片包括处理器和通信接口,该通信
接口和处理器耦合,该处理器用于运行程序或指令,实现如第一方面所述的方法。
10.第六方面,本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
11.在本技术实施例中,电子设备可以先根据n个应用程序的目标程序文件(即apk中的程序文件),确定m个目标特征图像,每个应用程序的目标程序文件分别对应至少两个目标特征图像,n、m均为正整数;然后再将该m个目标特征图像输入至预训练模型(该预训练模型是采用无监督训练方式进行模型训练得到的)中,得到输出的l个目标样本图像,l为大于m的正整数;从而电子设备可以基于该l个目标样本图像,对待训练的分类模型进行模型训练,得到目标分类模型。由于电子设备可以先确定每个应用程序的目标程序文件对应的数量较多的目标特征图像(即至少两个目标特征图像),然后再将每个应用程序的目标程序文件对应的至少两个目标特征图像输入至采用无监督训练方式训练得到的预训练模型中,以得到数量更多、且多样化的目标样本图像(即l个目标样本图像),因此,可以减少出现l个目标样本图像未覆盖某些应用程序特征的情况,从而可以减少出现目标分类模型无法识别某些应用程序是否为恶意广告应用程序的情况,如此,可以提高电子设备识别恶意广告应用程序的识别率。
附图说明
12.图1是本技术实施例提供的一种模型训练方法的流程示意图之一;
13.图2是本技术实施例提供的一种模型训练方法的流程示意图之二;
14.图3是本技术实施例提供的一种模型训练方法的流程示意图之三;
15.图4是本技术实施例提供的一种模型训练方法的流程示意图之四;
16.图5是本技术实施例提供的一种模型训练方法的流程示意图之五;
17.图6是本技术实施例提供的一种模型训练装置的结构示意图之一;
18.图7是本技术实施例提供的一种模型训练装置的结构示意图之二;
19.图8是本技术实施例提供的一种电子设备的结构示意图;
20.图9是本技术实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
21.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本技术保护的范围。
22.以下将对本技术实施例涉及的术语进行说明。
23.1、无监督学习(unsupervised learning)、监督学习(supervised learning)以及半监督学习(semi-supervised learning)。
24.无监督学习,是根据未对应有标签的样本对模型进行训练的。常用的无监督学习的算法有矩阵分解算法、独孤森林算法(isolationforest)、主成分分析方法(principal components analysis,pca)、等距映射方法、局部线性嵌入方法、拉普拉斯特征映射方法、黑塞局部线性嵌入方法和局部切空间排列方法等。无监督学习的过程可以理解为是聚类的过程,聚类的目的在于把相似的东西聚在一起,而不关心这一类是什么。
25.监督学习,是根据对应有标签的样本对模型进行训练的,也称为监督训练或有教师学习。常见的有监督学习算法:回归分析和统计分类。最典型的算法是k最邻近分类算法(k-nearestneighbor,knn)和支持向量机(supportvector machine,svm)。
26.半监督学习,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的无标签数据和一部分有标签数据来进行模式识别工作。
27.2、对抗样本
28.对抗样本是指:在原始样本添加一些人眼无法察觉的扰动(这样的扰动不会影响人类的识别,但是会影响模型的识别),得到的新的样本,该新的样本可以致使模型做出错误的判断。
29.3、对抗攻击和白盒模型
30.由于机器学习算法的输入形式是一种数值型向量(numeric vectors),所以攻击者就会通过设计一种有针对性的数值型向量从而让机器学习模型做出误判,这便被称为对抗性攻击(也可以这样理解:将上面生成对抗样本的过程,理解为对抗攻击)。和其他攻击不同,对抗性攻击主要发生在构造对抗样本的时候,之后该对对抗样本就如正常数据一样输入机器学习模型并得到欺骗的识别结果。在构造对抗样本的过程中,无论是图像识别系统还是语音识别系统,根据攻击者掌握机器学习模型信息的多少,可以分为如下两种情况:
31.白盒攻击:攻击者能够获知机器学习所使用的算法,以及算法所使用的参数。攻击者在产生对抗性攻击数据的过程中能够与机器学习的系统有所交互。在攻击者进行白盒攻击时,所采用的的模型为白盒模型。
32.黑盒攻击:攻击者并不知道机器学习所使用的算法和参数,但攻击者仍能与机器学习的系统有所交互,比如可以通过传入任意输入观察输出,判断输出。
33.4、安卓安装包(androidpackage,apk)
34.apk文件包括的子文件主要是androidmanifest.xml文件、classes.dex文件、lib/*.so文件、resources.arsc文件、assets文件、meta-inf文件、res文件等。
35.根据子文件的后缀名可以确定子文件的文件类型。
36.androidmanifest.xml文件的文件类型是xml文件。
37.classes.dex的文件类型是dex文件,在后文中在不至于混淆的情况下,classes.dex简称为dex文件。
38.lib/*.so文件的文件类型是elf格式文件,其中*为通配符,elf格式文件是linux的可执行文件格式。
39.其中,dex文件,包含安卓系统的可执行文件,具体的包括应用程序的全部操作以及运行时的数据。在应用程序的java源码被编译为class文件(class文件是java源码编译而成的二进制文件)后,再使用dx工具将class文件整合为一个dex文件。这样能够共享数据,一定程度上降低了冗余,同时也使得文件结构更加紧凑。
40.dex文件包括文件头(header)、数据索引区)格式为xxx_ids)、类定义区)class_def)、数据区)data)和链接数据区(link_data)。
41.文件头,用于记录整个dex文件的相关属性;
42.数据索引区,存放着字符串、类型数据、方法信息、字段信息等资源数据的索引,通过资源数据的索引能够找到位于数据区的实际数据;
43.类定义区)class_def),记录了类的信息,包括但不限于接口、超类、类数据偏移量等信息;
44.数据区,存放各个类真实的数据;
45.链接数据区,存放静态链接文件中使用的数据。
46.5、其他术语
47.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
48.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的模型训练方法、装置及电子设备进行详细地说明。
49.在相关技术中,电子设备可以使用训练后的分类模型,识别应用程序是否为恶意广告应用程序,并在识别该应用程序为恶意广告应用程序的情况下拦截该应用程序,以避免用户使用该应用程序。在相关技术中,在训练分类模型的过程中,电子设备可以采用监督训练方式,根据多个应用程序特征,对待训练的分类模型进行模型训练,以得到训练后的分类模型。但是,由于可能会出现多个应用程序特征未覆盖某些应用程序特征的情况,这样可能会出现训练后的分类模型无法识别某些应用程序是否为恶意广告应用程序的情况。
50.然而,在本技术实施例中,电子设备可以根据至少一个应用程序的apk中的dex文件,确定多个特征图像,每个应用程序的dex文件对应至少两个特征图像,并将该多个特征图像输入至采用无监督训练方式进行模型训练得到的预训练模型中,得到输出的多个样本图像,从而电子设备可以基于该多个样本图像,对待训练的分类模型进行模型训练,得到需要的分类模型。可以理解,由于电子设备可以先确定每个应用程序的dex文件对应的数量较多的特征图像,然后再将每个应用程序的dex文件对应的至少两个特征图像输入至采用无监督训练方式训练得到的预训练模型中,以得到数量更多、且多样化的多个样本图像,因此,可以减少出现多个样本图像未覆盖某些应用程序特征的情况,从而可以减少出现训练后的分类模型无法识别某些应用程序是否为恶意广告应用程序的情况。
51.图1示出了本技术实施例提供的一种模型训练方法的流程图。如图1所示,本技术实施例提供的模型训练方法可以包括下述的步骤101至步骤103。
52.步骤101、电子设备根据n个应用程序的目标程序文件,确定m个目标特征图像。
53.本技术实施例中,上述目标程序文件为apk中的程序文件,上述n个应用程序中的每个应用程序的目标程序文件分别对应至少两个目标特征图像,n、m均为正整数。
54.可选地,本技术实施例中,电子设备可以先从训练样本集中,获取n个应用程序的压缩文件,然后再将n个应用程序的压缩文件进行解压缩处理,以得到该n个应用程序的apk,从而电子设备可以从该n个应用程序的apk中,获取该n个应用程序的目标程序文件,并根据该n个应用程序的目标程序文件,确定m个目标特征图像。
55.其中,上述训练样本集可以为电子设备中预先存储的样本集,或者电子设备从服务器下载的样本集。
56.其中,上述目标程序文件具体可以为dex文件。
57.其中,上述n个应用程序的目标程序文件中的全部目标程序文件为设置有分类标签的程序文件,或者部分目标程序文件为设置有分类标签的程序文件,或者全部目标程序文件为未设置有分类标签的程序文件。
58.上述分类标签可以为以下任一项:恶意apk标签、非恶意apk标签。
59.可选地,本技术实施例中,针对n个应用程序中的每个应用程序,一个应用程序的目标程序文件对应的至少两个目标特征图像可以包括:
60.根据该一个应用程序的目标程序文件确定的特征图像;
61.根据该一个应用程序的目标程序文件确定的特征图像生成的对抗样本图像。
62.可以理解,针对n个应用程序中的每个应用程序,在一个应用程序的目标程序文件对应的至少两个目标特征图像中,不同目标特征图像是电子设备采用不同方式确定的,从而可以提高该一个应用程序的目标程序文件对应的至少两个目标特征图像的多样性。
63.进一步可选地,针对n个应用程序中的每个应用程序,电子设备可以先根据一个应用程序的目标程序文件,确定c个目标特征图像,然后再根据该c个特征图像,确定d个目标特征图像,c、d均为正整数,以确定该一个应用程序的目标程序文件对应的至少两个目标特征图像。
64.步骤102、电子设备将m个目标特征图像输入至预训练模型中,得到输出的l个目标样本图像。
65.可选地,本技术实施例中,上述预训练模型具体可以为图像双向编码器表示方法(bidirectional encoder representation from image transformers,beit)模型。
66.需要说明的是,针对beit模型的模型结构(和/或模型参数等)的说明,可以参考相关技术中的具体描述,本技术实施例在此不再赘述。
67.本技术实施例中,上述预训练模型是采用无监督训练方式进行模型训练得到的,l为大于m的正整数。
68.可以理解,由于预训练模型是采用无监督训练方式进行模型训练得到的,因此,在将m个目标特征图像输入至预训练模型中之后,预训练模型可以针对每个目标特征图像分别提取多个特征数据,以得到多个特征图像(即目标样本图像),即输入的每个目标特征图像对应输出的多个目标样本图像,也即l是大于m的。
69.可选地,在本技术实施例的一种可能的实现方式中,电子设备可以采用无监督训练方式,根据多个特征图像,对待训练的预训练模型进行模型训练。其中,该多个特征图像可以是:根据上述训练样本集中的多个应用程序的目标程序文件确定的特征图像,或者从服务器下载的特征图像。
70.可选地,在本技术实施例的另一种可能的实现方式中,电子设备可以直接根据m个目标特征图像,对待训练的预训练模型进行模型训练。具体地,结合图1,如图2所示,在上述步骤102之前,本技术实施例提供的模型训练方法还可以包括下述的步骤201。
71.步骤201、电子设备采用无监督训练方式,根据m个目标特征图像,对待训练的第二预设模型进行模型训练,得到预训练模型。
72.可选地,本技术实施例中,上述第二预设模型具体可以为beit模型。
73.在一种示例中,电子设备可以采用无监督训练方式,将m个目标特征图像中的e个
目标特征图像输入至第二预设模型中,以对待训练的第二预设模型进行模型训练。其中,该e个目标特征图像为:m个目标特征图像中,未对应有分类标签的目标特征图像,e为正整数。
74.需要说明的是,上述“未对应有分类标签的目标特征图像”可以理解为:该目标特征图像对应的应用程序的目标程序文件未设置有分类标签。
75.在另一种示例中,电子设备可以采用无监督训练方式,仅将m个目标特征图像输入至第二预设模型中,以对待训练的第二预设模型进行模型训练。可以理解,电子设备并不将任何分类标签输入至第二预设模型中。
76.需要说明的是,针对无监督训练方式的说明,可以参考相关技术中的具体描述,本技术实施例在此不予赘述。
77.如此可知,由于电子设备可以直接根据m个目标特征图像对第二预设模型进行模型训练,而无需根据其他特征图像对第二预设模型进行模型训练,因此,可以避免出现获取其他特征图像的耗时较长的情况,从而可以减少训练得到预训练模型的耗时。
78.并且地,由于电子设备是采用无监督训练方式,根据m个目标特征图像,对待训练的第二预设模型进行模型训练的,即根据大量未对应有分类标签的特征图像进行训练,因此,可以提高预训练模型在新复杂背景特征下的识别恶意广告应用程序的识别率。
79.可选地,本技术实施例中,电子设备可以将m个目标特征图像输入至预训练模型中,以使得预训练模型可以对m个目标特征图像进行特征重构,并得到输出的数量更多、且多样化的l个目标样本图像。
80.步骤103、电子设备基于l个目标样本图像,对待训练的分类模型进行模型训练,得到目标分类模型。
81.可选地,本技术实施例中,上述待训练的分类模型具体可以为采用改进的加宽的残差网络(wide residual networks,wideresnet)算法的模型。
82.其中,针对原始wideresnet算法的fc输出层,电子设备可以将原始wideresnet算法中的forward(x)改成三种输入forward(x,y,z),对三种模态数据进行卷积特征提取,拼接形成3*784维度向量,然后fc映射函数输入向量从784维度替换为3*784维度,以得到改进的wideresnet算法。
83.可选地,本技术实施例中,电子设备可以采用监督训练方式,基于l个目标样本图像,对待训练的分类模型进行模型训练;和/或,电子设备可以采用半监督训练方式,基于l个目标样本图像,对待训练的分类模型进行模型训练。
84.需要说明的是,针对监督训练方式和半监督训练方式的说明,可以参考相关技术中的具体描述,本技术实施例在此不予赘述。
85.以下将针对电子设备对待训练的分类模型进行模型训练为例,进行举例说明。
86.可选地,本技术实施例中,上述步骤103具体可以通过下述的步骤103a和步骤103b中的至少一项实现。
87.步骤103a、电子设备采用监督训练方式,根据l个目标样本图像,对待训练的分类模型进行模型训练。
88.可选地,本技术实施例中,电子设备可以采用监督训练方式,将x个目标样本图像和对应的x个分类标签输入至待训练的分类模型中,以对待训练的分类模型进行模型训练。其中,x个目标样本图像为:l个目标样本图像中,对应有分类标签的样本图像。
89.如此可知,由于电子设备可以采用监督训练方式,对待训练的分类模型进行模型训练,即采用对应有分类标签的目标样本图像对待训练的分类模型进行模型训练,因此,提高电子设备识别恶意广告应用程序的识别率。
90.步骤103b、电子设备采用半监督训练方式,根据l个目标样本图像,对待训练的分类模型进行模型训练。
91.可选地,本技术实施例中,电子设备可以采用半监督训练方式,将x个目标样本图像和对应的x个分类标签输入至待训练的分类模型中,并将y个目标样本图像输入至待训练的分类模型中,以对待训练的分类模型进行模型训练。其中,x个目标样本图像为:l个目标样本图像中,对应有分类标签的样本图像;y个目标样本图像为:l个目标样本图像中,未对应有分类标签的样本图像;x、y均为正整数,x+y=l。
92.需要说明的是,电子设备可以采用上述步骤103a和步骤103b中的至少一种方式,对待训练的分类模型进行模型训练,以得到目标分类模型。
93.如此可知,电子设备可以采用半监督训练方式,对待训练的分类模型进行模型训练,即可以采用不同训练方式对待训练的分类模型进行模型训练,因此,可以提高目标分类模型识别恶意广告应用程序的识别率和鲁棒性。
94.本技术实施例中,电子设备可以先采用不同的方式,根据n个应用程序的目标程序文件确定m个目标特征图像,每个应用程序的目标程序文件分别对应数量较多的目标特征图像(即至少两个目标特征图像),以提高每个应用程序对应的至少两个目标特征图像的多样性;然后再将每个应用程序对应的至少两个目标特征输入至预训练模型中,得到输出的数量更多、且多样化的目标样本图像(即l个目标样本图像),从而电子设备可以基于数量更多、且多样化的l个目标样本图像,对待训练的分类模型进行模型训练,得到目标分类模型。
95.本技术实施例提供的模型训练方法,电子设备可以先根据n个应用程序的目标程序文件(即apk中的程序文件),确定m个目标特征图像,每个应用程序的目标程序文件分别对应至少两个目标特征图像,n、m均为正整数;然后再将该m个目标特征图像输入至预训练模型(该预训练模型是采用无监督训练方式进行模型训练得到的)中,得到输出的l个目标样本图像,l为大于m的正整数;从而电子设备可以基于该l个目标样本图像,对待训练的分类模型进行模型训练,得到目标分类模型。由于电子设备可以先确定每个应用程序的目标程序文件对应的数量较多的目标特征图像(即至少两个目标特征图像),然后再将每个应用程序的目标程序文件对应的至少两个目标特征图像输入至采用无监督训练方式训练得到的预训练模型中,以得到数量更多、且多样化的目标样本图像(即l个目标样本图像),因此,可以减少出现l个目标样本图像未覆盖某些应用程序特征的情况,从而可以减少出现目标分类模型无法识别某些应用程序是否为恶意广告应用程序的情况,如此,可以提高电子设备识别恶意广告应用程序的识别率。
96.下面将举例说明,电子设备是如何确定m个目标特征图像的。
97.可选地,本技术实施例中,上述m个目标特征图像包括p个第一特征图像和t个第二特征图像;上述n个应用程序中的每个应用程序的目标程序文件分别对应至少一个第一特征图像,该n个应用程序中的每个应用程序的目标程序文件分别对应至少一个第二特征图像;p、t均为正整数。具体地,结合图1,如图3所示,上述步骤101具体可以通过下述的步骤101a至步骤101c实现。
98.步骤101a、电子设备根据n个应用程序的目标程序文件,确定p个第一特征图像。
99.可以理解,p个第一特征图像为根据该一个应用程序的目标程序文件确定的特征图像;t个第二特征图像为根据该一个应用程序的目标程序文件确定的特征图像生成的对抗样本图像。
100.本技术实施例中,上述p个第一特征图像包括以下至少一项:根据n个应用程序的目标程序文件得到的特征图像、根据n个应用程序的应用程序编程接口(application programming interface,api)得到的特征图像。
101.本技术实施例中,上述n个应用程序中的每个应用程序的目标程序文件分别对应一个第一特征图像(或多个第一特征图像)。
102.可选地,本技术实施例中,在p个第一特征图像包括根据n个应用程序的目标程序文件得到的特征图像的情况下,若每个应用程序的目标程序文件分别对应一个第一特征图像,则针对n个应用程序中的每个应用程序,电子设备可以根据一个应用程序的目标程序文件,确定f个第一特征图像,f为正整数,以确定该一个应用程序的目标程序文件对应的一个第一特征图像。
103.以下将具体说明:
104.具体地,在p个第一特征图像包括根据n个应用程序的目标程序文件得到的特征图像的情况下,该p个第一特征图像包括n个第三特征图像;每个应用程序的目标程序文件分别对应一个第三特征图像。结合图3,如图4所示,上述步骤101a具体可以通过下述的步骤101a1实现。
105.步骤101a1、电子设备根据n个应用程序的目标程序文件,生成n个第三特征图像。
106.本技术实施例中,上述n个第三特征图像和n个应用程序一一对应。
107.可选地,本技术实施例中,针对n个应用程序中的每个应用程序,电子设备可以根据一个应用程序的目标程序文件,生成一个红绿蓝(red green blue,rgb)图像,以生成一个第三特征图像,从而生成n个第三特征图像。
108.可以理解,每个第三特征图像为rgb图像。
109.需要说明的是,针对电子设备根据应用程序的目标程序文件生成rgb图像的说明,可以参考相关技术中的具体描述,本技术实施例在此不予赘述。
110.如此可知,电子设备可以根据每个应用程序的目标程序文件,生成一个第三特征图像,这样在后续步骤中可以将n个第三特征图像输入至模型中,以快速地对模型进行模型训练。
111.当然,在n个应用程序中可能会存在某个应用程序的目标程序文件的数量为至少两个的情况,此时电子设备可以采用拼接的处理方式,对根据某个应用程序的目标程序文件生成的特征图像进行处理,以下将举例说明。
112.可选地,本技术实施例中,上述n个应用程序包括第一应用程序,该第一应用程序的目标程序文件包括r个子文件,r为大于1的正整数。具体地,上述步骤101a1具体可以通过下述的步骤101a1a和步骤101a1b实现。
113.步骤101a1a、电子设备根据r个子文件,生成r个子特征图像。
114.本技术实施例中,上述r个子特征图像和r个子文件一一对应。
115.可选地,本技术实施例中,电子设备可以先根据第一应用程序的r个子文件中的一
个子文件,生成一个rgb图像,以生成一个子特征图像,再根据该r个子文件中的另一个子文件,生成另一个rgb图像,以生成另一个子特征图像,以及根据该r个子文件中的又一个子文件,生成又一个rgb图像,以生成又一个子特征图像,以此类推,以生成r个子特征图像。
116.可以理解,每个子特征图像为rgb图像。
117.步骤101a1b、电子设备依次拼接r个子特征图像,得到第四特征图像。
118.本技术实施例中,上述第四特征图像为:n个第三特征图像中,与第一应用程序对应的特征图像。
119.可选地,本技术实施例中,电子设备可以按照预定顺序,依次拼接r个子特征图像,得到第四特征图像。
120.其中,预定顺序可以为以下任一项:对应生成时间由早至晚的顺序、对应文件大小由大至小顺序、随机顺序。
121.需要说明的是,上述“对应生成时间”可以理解为:子特征图像对应的子文件的生成时间。上述“对应文件大小”可以理解为:子特征图像对应的子文件的大小。
122.如此可知,由于在第一应用程序的目标程序文件包括至少两个子文件的情况下,电子设备可以一一对应的生成至少两个子特征图像,并依次拼接该至少两个子特征图像,以得到第四特征图像,而不是省略部分子文件,因此,可以使得第四特征图像可以表征第一应用程序的目标程序文件的全部特征,从而可以得到多样化的n个第三特征图像,如此,可以减少出现l个目标样本图像未覆盖某些应用程序特征的情况。
123.可选地,本技术实施例中,在p个第一特征图像包括根据n个应用程序的目标程序文件得到的特征图像的情况下,若每个应用程序的目标程序文件分别对应多个第一特征图像,则针对n个应用程序中的每个应用程序,电子设备可以根据一个应用程序的目标程序文件,确定f个第一特征图像,并根据该f个第一特征图像,确定g个第一特征图像,g为正整数,以确定该一个应用程序的目标程序文件对应的多个第一特征图像。
124.以下将具体说明:
125.具体地,在本技术实施例的一种可能的实现方式中,上述p个第一特征图像还包括n个第五特征图像;每个应用程序的目标程序文件分别对应一个第五特征图像。在上述步骤101a1之后,本技术实施例提供的模型训练方法还可以包括下述的步骤301和步骤302。
126.步骤301、针对n个第三特征图像中的每个第三特征图像,电子设备确定一个第三特征图像中的s个图像区域的s个目标信息熵。
127.本技术实施例中,上述s个目标信息熵和s个图像区域一一对应,s为正整数。
128.可选地,本技术实施例中,电子设备可以将一个第三特征图像划分为s个图像区域,然后再分别确定s个图像区域中的每个图像区域的目标信息熵,以确定s个目标信息熵。
129.其中,电子设备可以根据一个第三特征图像的像素点的像素值,将该一个第三特征图像划分为s个图像区域;或者,电子设备可以采用预设窗口将一个第三特征图像划分为s个图像区域。
130.具体地,上述步骤301具体可以通过下述的步骤301a和步骤301b实现。
131.步骤301a、针对n个第三特征图像中的每个第三特征图像,电子设备采用预设边长的窗口,以预设步长遍历一个第三特征图像,得到s个图像区域。
132.本技术实施例中,上述预设边长大于预设步长。
133.可选地,本技术实施例中,上述预设边长具体可以为32像素。上述预设步长具体可以为16像素。
134.可以理解,电子设备可以采用32像素的窗口,每隔16像素滑动一次,以得到一个图像区域,从而得到s个图像区域。
135.步骤301b、电子设备分别计算s个图像区域中的每个图像区域的信息熵,以得到s个目标信息熵。
136.需要说明的是,针对电子设备计算图像区域的信息熵的说明,可以参考相关技术中的具体描述,本技术实施例在此不予赘述。
137.本技术实施例中,针对n个第三特征图像中的每个第三特征图像,电子设备均可以采用上述步骤301a和步骤301b,以得到每个第三特征图像的目标信息熵。
138.如此可知,由于电子设备可以采用预设边长的窗口,以预设步长遍历一个第三特征图像,以快速地将该一个第三特征图像划分为s个图像区域,因此,电子设备可以快速地计算得到该一个第三特征图像的s个图像区域的s个目标信息熵,如此,可以减少获取目标信息熵的耗时。
139.步骤302、电子设备基于s个目标信息熵,生成一个第五特征图像,以生成n个第五特征图像。
140.可选地,本技术实施例中,针对s个目标信息熵中的每个目标信息熵,电子设备可以将一个目标信息熵标准化为0~255的数值,以得到一个数值,从而得到s个数值,进而电子设备可以将s个数值中的每个数值分别作为一个像素点的像素值,以生成一个第五特征图像。
141.需要说明的是,针对电子设备将一个目标信息熵标准化为0~255的数值的说明,可以参考相关技术中的具体描述,本技术实施例在此不予赘述。
142.本技术实施例中,为了避免因apk采用混淆(例如代码混淆、改变代码文件顺序、改变文件内容顺序等)和加固技术对应用进行安全保护,而导致模型无法识别的情况,
143.如此可知,由于电子设备可以确定每个第三特征图像中的各个图像区域的目标信息熵,以得到每个第三特征图像的局部信息熵,以生成n个第五特征图像,这样在后续步骤中得到的l个目标样本图像也与该n个第五特征图像相关,即该l个目标样本图像也与每个第三特征图像的局部信息熵相关,而不是与每个第三特征图像的全部信息熵相关,因此,可以避免因应用程序的apk采用混淆(例如代码混淆、改变代码文件顺序、改变文件内容顺序等)和加固技术对应用进行安全保护,而导致目标分类模型无法识别的情况,如此,可以提高电子设备识别恶意广告应用程序的识别率。
144.具体地,在本技术实施例的另一种可能的实现方式中,上述p个第一特征图像还包括n个第六特征图像;每个应用程序的目标程序文件分别对应一个第六特征图像。在上述步骤101a1之后,本技术实施例提供的模型训练方法还可以包括下述的步骤401。
145.步骤401、电子设备采用加博尔gabor特征算法,从n个第三特征图像中提取n个第六特征图像。
146.本技术实施例中,上述n个第六特征图像和n个第三特征图像一一对应。
147.可选地,本技术实施例中,电子设备可以采用gabor特征算法,从一个第三特征图像中提取一个第六特征图像,并采用gabor特征算法,从另一个第三特征图像中提取另一个
第六特征图像,以及采用gabor特征算法,从又一个第三特征图像中提取由一个第六特征图像,以此类推,直至提取n个第六特征图像。
148.如此可知,电子设备可以直接采用gabor特征算法,快速地获取到n个第六特征图像。
149.需要说明的是,上述p个第一特征图像可以包括n个第三特征图像;或者,n个第三特征图像和n个第五特征图像;或者,n个第三特征图像和n个第六特征图像;或者,n个第三特征图像、n个第五特征图像以及n个第六特征图像。
150.在p个第一特征图像包括n个第三特征图像、n个第五特征图像以及n个第六特征图像的情况下,针对步骤301和步骤401的执行顺序,本技术实施例在此不作限定。
151.可选地,本技术实施例中,在p个第一特征图像包括根据n个应用程序的api得到的特征图像的情况下,每个应用程序的目标程序文件对应一个第一特征图像,且针对n个应用程序中的每个应用程序,电子设备可以直接根据一个应用程序的api,确定该一个应用程序的目标程序文件对应的一个第一特征图像。
152.以下将具体说明:
153.具体地,在p个第一特征图像包括根据n个应用程序的api得到的特征图像的情况下,该p个第一特征图像包括n个第七特征图像;每个应用程序的目标程序文件分别对应一个第七特征图像。结合图3,如图5所示,上述步骤101a具体可以通过下述的步骤101a2和步骤101a3实现。
154.步骤101a2、在沙箱中运行n个应用程序的目标程序文件的过程中,电子设备获取n个api序列。
155.本技术实施例中,上述n个api序列和n个应用程序一一对应。
156.需要说明的是,针对电子设备获取api序列的说明,可以参考相关技术中的具体描述,本技术实施例在此不予赘述。
157.步骤101a3、电子设备根据n个api序列一一对应的n个api序列特征,生成n个第七特征图像。
158.本技术实施例中,上述n个第七特征图像和n个api序列特征一一对应。
159.可选地,本技术实施例中,电子设备可以先分别提取每个api序列的api序列特征,然后再分别根据每个api序列特征,生成每个第七特征图像。
160.需要说明的是,上述p个第一特征图像可以包括n个第七特征图像;或者,n个第七特征图像和n个第三特征图像;或者,n个第七特征图像、n个第三特征图像以及n个第五特征图像;或者,n个第七特征图像、n个第三特征图像以及n个第六特征图像;或者,n个第七特征图像、n个第三特征图像、n个第五特征图像以及n个第六特征图像。
161.在p个第一特征图像包括n个第七特征图像和n个第三特征图像的情况下,针对步骤101a1和步骤101a2的执行顺序,本技术实施例在此不作限定。
162.步骤101b、电子设备根据p个第一特征图像中对应有分类标签的特征图像,对待训练的q个第一预设模型进行模型训练。
163.本技术实施例中,q为大于1的正整数。
164.本技术实施例中,在q个第一预设模型中,不同第一预设模型对应的算法不同。
165.可选地,本技术实施例中,q个第一预设模型对应的算法可以包括以下至少一项:
改进的wideresnet算法、fgsm算法、onepixelattack算法、advdrop算法、spatialattack算法。
166.可选地,本技术实施例中,电子设备可以将采用监督训练方式,将h个第一特征图像和对应的h个分类标签,分别输入至q个第一预设模型中,以对q个第一预设模型进行模型训练;其中,h个第一特征图像为:p个第一特征图像中,对应有分类标签的特征图像;h为正整数。
167.步骤101c、电子设备将p个第一特征图像分别输入至训练后的q个第一预设模型中,得到输出的t个第二特征图像。
168.可以理解,训练后的q个第一预设模型即为白盒模型,也即电子设备可以采用训练后的q个第一预设模型进行对抗攻击。
169.电子设备可以将p个第一特征图像分别输入至训练后的q个第一预设模型中,以使得q个第一预设模型可以采用不同的算法(即fgsm算法、onepixelattack算法、advdrop算法、spatialattack算法中的至少一个),分别对p个第一特征图像进行处理,得到输出的t个第二特征图像(即对抗样本图像)。
170.如此可知,由于电子设备可以采用不同的方式,确定p个第一特征图像和q个第二特征图像,以使得m个目标特征图像为多模态的特征图像,因此,基于该m个目标特征图像得到的l个目标样本图像也为多模态的特征图像,如此,可以减少出现目标分类模型无法识别某些应用程序是否为恶意广告应用程序的情况。
171.本技术实施例提供的模型训练方法,执行主体可以为模型训练装置。本技术实施例中以模型训练装置执行模型训练方法为例,说明本技术实施例提供的模型训练装置的。
172.图6示出了本技术实施例中涉及的模型训练装置的一种可能的结构示意图。如图6所示,该模型训练装置50可以包括:确定模块51、处理模块52以及训练模块53。
173.其中,确定模块51,用于根据n个应用程序的目标程序文件,确定m个目标特征图像,该目标程序文件为apk中的程序文件,该n个应用程序中的每个应用程序的目标程序文件分别对应至少两个目标特征图像,n、m均为正整数。处理模块52,用于将确定模块51确定的m个目标特征图像输入至预训练模型中,得到输出的l个目标样本图像,该预训练模型是采用无监督训练方式进行模型训练得到的,l为大于m的正整数。训练模块53,用于基于处理模块52处理得到的l个目标样本图像,对待训练的分类模型进行模型训练,得到目标分类模型。
174.在一种可能的实现方式中,上述m个目标特征图像包括p个第一特征图像和t个第二特征图像;每个应用程序的目标程序文件分别对应至少一个第一特征图像,每个应用程序的目标程序文件分别对应至少一个第二特征图像;p、t均为正整数。结合图6,如图7所示,上述确定模块51包括:第一子确定模块511、第一子训练模块512以及第一子处理模块513。其中,第一子确定模块511,用于根据n个应用程序的目标程序文件,确定p个第一特征图像。第一子训练模块512,用于根据第一子确定模块511确定的p个第一特征图像中对应有分类标签的特征图像,对待训练的q个第一预设模型进行模型训练,q为大于1的正整数。第一子处理模块513,用于将p个第一特征图像分别输入至第一子训练模块512训练后的q个第一预设模型中,得到输出的t个第二特征图像。其中,上述p个第一特征图像包括以下至少一项:根据n个应用程序的目标程序文件得到的特征图像、根据n个应用程序的api得到的特征图
像;在q个第一预设模型中,不同第一预设模型对应的算法不同。
175.在一种可能的实现方式中,在p个第一特征图像包括根据n个应用程序的目标程序文件得到的特征图像的情况下,该p个第一特征图像包括n个第三特征图像;每个应用程序的目标程序文件分别对应一个第三特征图像。上述第一子确定模块511包括:第二子处理模块。其中,第二子处理模块,用于根据n个应用程序的目标程序文件,生成n个第三特征图像,该n个第三特征图像和n个应用程序一一对应。
176.在一种可能的实现方式中,上述n个应用程序包括第一应用程序,该第一应用程序的目标程序文件包括r个子文件,r为大于1的正整数。上述第二子处理模块包括:第三子处理模块和第一子拼接模块。其中,第三子处理模块,用于根据r个子文件,生成r个子特征图像,该r个子特征图像和r个子文件一一对应。第一子拼接模块,用于依次拼接第三子处理模块生成的r个子特征图像,得到第四特征图像,该第四特征图像为:n个第三特征图像中,与第一应用程序对应的特征图像。
177.在一种可能的实现方式中,上述p个第一特征图像还包括n个第五特征图像;每个应用程序的目标程序文件分别对应一个第五特征图像。上述第一子确定模块511,还用于针对n个第三特征图像中的每个第三特征图像,确定一个第三特征图像中的s个图像区域的s个目标信息熵,该s个目标信息熵和s个图像区域一一对应,s为正整数。上述第二子处理模块,还用于基于第一子确定模块511确定的s个目标信息熵,生成一个第五特征图像,以生成n个第五特征图像。
178.在一种可能的实现方式中,上述第一子确定模块511包括:第一子遍历模块和第一子计算模块。其中,第一子遍历模块,用于针对n个第三特征图像中的每个第三特征图像,采用预设边长的窗口,以预设步长遍历一个第三特征图像,得到s个图像区域。第一子计算模块,用于分别计算第一子遍历模块遍历得到的s个图像区域中的每个图像区域的信息熵,以得到s个目标信息熵。
179.在一种可能的实现方式中,上述p个第一特征图像还包括n个第六特征图像;每个应用程序的目标程序文件分别对应一个第六特征图像。上述第二子处理模块,还用于采用gabor特征算法,从n个第三特征图像中提取n个第六特征图像,该n个第六特征图像和n个第三特征图像一一对应。
180.在一种可能的实现方式中,在p个第一特征图像包括根据n个应用程序的api得到的特征图像的情况下,该p个第一特征图像包括n个第七特征图像;每个应用程序的目标程序文件分别对应一个第七特征图像。上述第一子确定模块511包括:第一子获取模块和第三子处理模块。其中,第一子获取模块,用于在沙箱中运行n个应用程序的目标程序文件的过程中,获取n个api序列,该n个api序列和n个应用程序一一对应。第三子处理模块,用于根据第一子获取模块获取的n个api序列一一对应的n个api序列特征,生成n个第七特征图像,该n个第七特征图像和n个api序列特征一一对应。
181.在一种可能的实现方式中,上述训练模块53,还用于采用无监督训练方式,根据m个目标特征图像,对待训练的第二预设模型进行模型训练,得到预训练模型。
182.在一种可能的实现方式中,上述训练模块53,具体用于采用半监督训练方式,根据l个目标样本图像,对待训练的分类模型进行模型训练。
183.本技术实施例提供的模型训练装置,由于模型训练装置可以先确定每个应用程序
的目标程序文件对应的数量较多的目标特征图像(即至少两个目标特征图像),然后再将每个应用程序的目标程序文件对应的至少两个目标特征图像输入至采用无监督训练方式训练得到的预训练模型中,以得到数量更多、且多样化的目标样本图像(即l个目标样本图像),因此,可以减少出现l个目标样本图像未覆盖某些应用程序特征的情况,从而可以减少出现目标分类模型无法识别某些应用程序是否为恶意广告应用程序的情况,如此,可以提高模型训练装置识别恶意广告应用程序的识别率。
184.本技术实施例中的模型训练装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device,mid)、增强现实(augmentedreality,ar)/虚拟现实(virtual reality,vr)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)等,还可以为服务器、网络附属存储器(network attached storage,nas)、个人计算机(personal computer,pc)、电视机(television,tv)、柜员机或者自助机等,本技术实施例不作具体限定。
185.本技术实施例中的模型训练装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本技术实施例不作具体限定。
186.本技术实施例提供的模型训练装置能够实现图1至图5的方法实施例实现的各个过程,为避免重复,这里不再赘述。
187.可选地,本技术实施例中,如图8所示,本技术实施例还提供一种电子设备60,包括处理器61和存储器62,存储器62上存储有可在所述处理器61上运行的程序或指令,该程序或指令被处理器61执行时实现上述模型训练方法实施例的各个过程步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
188.需要说明的是,本技术实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
189.图9为实现本技术实施例的一种电子设备的硬件结构示意图。
190.该电子设备100包括但不限于:射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。
191.本领域技术人员可以理解,电子设备100还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
192.其中,处理器110,用于根据n个应用程序的目标程序文件,确定m个目标特征图像,该目标程序文件为apk中的程序文件,该n个应用程序中的每个应用程序的目标程序文件分别对应至少两个目标特征图像,n、m均为正整数;并将m个目标特征图像输入至预训练模型中,得到输出的l个目标样本图像,该预训练模型是采用无监督训练方式进行模型训练得到
的,l为大于m的正整数;以及,基于l个目标样本图像,对待训练的分类模型进行模型训练,得到目标分类模型。
193.本技术实施例提供的电子设备,由于电子设备可以先确定每个应用程序的目标程序文件对应的数量较多的目标特征图像(即至少两个目标特征图像),然后再将每个应用程序的目标程序文件对应的至少两个目标特征图像输入至采用无监督训练方式训练得到的预训练模型中,以得到数量更多、且多样化的目标样本图像(即l个目标样本图像),因此,可以减少出现l个目标样本图像未覆盖某些应用程序特征的情况,从而可以减少出现目标分类模型无法识别某些应用程序是否为恶意广告应用程序的情况,如此,可以提高电子设备识别恶意广告应用程序的识别率。
194.可选地,本技术实施例中,上述m个目标特征图像包括p个第一特征图像和t个第二特征图像;每个应用程序的目标程序文件分别对应至少一个第一特征图像,每个应用程序的目标程序文件分别对应至少一个第二特征图像;p、t均为正整数。
195.处理器110,具体用于根据n个应用程序的目标程序文件,确定p个第一特征图像;并根据p个第一特征图像中对应有分类标签的特征图像,对待训练的q个第一预设模型进行模型训练,q为大于1的正整数;以及,将p个第一特征图像分别输入至训练后的q个第一预设模型中,得到输出的t个第二特征图像。
196.其中,上述p个第一特征图像包括以下至少一项:根据n个应用程序的目标程序文件得到的特征图像、根据n个应用程序的应用程序编程接口api得到的特征图像;在q个第一预设模型中,不同第一预设模型对应的算法不同。
197.如此可知,由于电子设备可以采用不同的方式,确定p个第一特征图像和q个第二特征图像,以使得m个目标特征图像为多模态的特征图像,因此,基于该m个目标特征图像得到的l个目标样本图像也为多模态的特征图像,如此,可以减少出现目标分类模型无法识别某些应用程序是否为恶意广告应用程序的情况。
198.可选地,本技术实施例中,在p个第一特征图像包括根据n个应用程序的目标程序文件得到的特征图像的情况下,该p个第一特征图像包括n个第三特征图像;每个应用程序的目标程序文件分别对应一个第三特征图像。
199.处理器110,具体用于根据n个应用程序的目标程序文件,生成n个第三特征图像,该n个第三特征图像和n个应用程序一一对应。
200.如此可知,电子设备可以根据每个应用程序的目标程序文件,生成一个第三特征图像,这样在后续步骤中可以将n个第三特征图像输入至模型中,以快速地对模型进行模型训练。
201.可选地,本技术实施例中,上述n个应用程序包括第一应用程序,该第一应用程序的目标程序文件包括r个子文件,r为大于1的正整数。
202.处理器110,具体用于根据r个子文件,生成r个子特征图像,该r个子特征图像和r个子文件一一对应;并依次拼接r个子特征图像,得到第四特征图像,该第四特征图像为:n个第三特征图像中,与第一应用程序对应的特征图像。
203.如此可知,由于在第一应用程序的目标程序文件包括至少两个子文件的情况下,电子设备可以一一对应的生成至少两个子特征图像,并依次拼接该至少两个子特征图像,以得到第四特征图像,而不是省略部分子文件,因此,可以使得第四特征图像可以表征第一
应用程序的目标程序文件的全部特征,从而可以得到多样化的n个第三特征图像,如此,可以减少出现l个目标样本图像未覆盖某些应用程序特征的情况。
204.可选地,本技术实施例中,上述p个第一特征图像还包括n个第五特征图像;每个应用程序的目标程序文件分别对应一个第五特征图像。
205.处理器110,还用于针对n个第三特征图像中的每个第三特征图像,确定一个第三特征图像中的s个图像区域的s个目标信息熵,该s个目标信息熵和s个图像区域一一对应,s为正整数;并基于s个目标信息熵,生成一个第五特征图像,以生成n个第五特征图像。
206.如此可知,由于电子设备可以确定每个第三特征图像中的各个图像区域的目标信息熵,以得到每个第三特征图像的局部信息熵,以生成n个第五特征图像,这样在后续步骤中得到的l个目标样本图像也与该n个第五特征图像相关,即该l个目标样本图像也与每个第三特征图像的局部信息熵相关,而不是与每个第三特征图像的全部信息熵相关,因此,可以避免因应用程序的apk采用混淆(例如代码混淆、改变代码文件顺序、改变文件内容顺序等)和加固技术对应用进行安全保护,而导致目标分类模型无法识别的情况,如此,可以提高电子设备识别恶意广告应用程序的识别率。
207.可选地,本技术实施例中,处理器110,具体用于针对n个第三特征图像中的每个第三特征图像,采用预设边长的窗口,以预设步长遍历一个第三特征图像,得到s个图像区域;并分别计算s个图像区域中的每个图像区域的信息熵,以得到s个目标信息熵。
208.如此可知,由于电子设备可以采用预设边长的窗口,以预设步长遍历一个第三特征图像,以快速地将该一个第三特征图像划分为s个图像区域,因此,电子设备可以快速地计算得到该一个第三特征图像的s个图像区域的s个目标信息熵,如此,可以减少获取目标信息熵的耗时。
209.可选地,本技术实施例中,上述p个第一特征图像还包括n个第六特征图像;每个应用程序的目标程序文件分别对应一个第六特征图像。
210.处理器110,还用于采用gabor特征算法,从n个第三特征图像中提取n个第六特征图像,该n个第六特征图像和n个第三特征图像一一对应。
211.如此可知,电子设备可以直接采用gabor特征算法,快速地获取到n个第六特征图像。
212.可选地,本技术实施例中,在p个第一特征图像包括根据n个应用程序的api得到的特征图像的情况下,该p个第一特征图像包括n个第七特征图像;每个应用程序的目标程序文件分别对应一个第七特征图像。
213.处理器110,具体用于在沙箱中运行n个应用程序的目标程序文件的过程中,获取n个api序列,该n个api序列和n个应用程序一一对应;并根据n个api序列一一对应的n个api序列特征,生成n个第七特征图像,该n个第七特征图像和n个api序列特征一一对应。
214.可选地,本技术实施例中,处理器110,具体用于采用无监督训练方式,根据m个目标特征图像,对待训练的第二预设模型进行模型训练,得到预训练模型。
215.如此可知,由于电子设备可以直接根据m个目标特征图像对第二预设模型进行模型训练,而无需根据其他特征图像对第二预设模型进行模型训练,因此,可以避免出现获取其他特征图像的耗时较长的情况,从而可以减少训练得到预训练模型的耗时。
216.并且地,由于电子设备是采用无监督训练方式,根据m个目标特征图像,对待训练
的第二预设模型进行模型训练的,即根据大量未对应有分类标签的特征图像进行训练,因此,可以提高预训练模型在新复杂背景特征下的识别恶意广告应用程序的识别率。
217.可选地,本技术实施例中,处理器110,具体用于采用半监督训练方式,根据l个目标样本图像,对待训练的分类模型进行模型训练。
218.如此可知,电子设备可以采用半监督训练方式,对待训练的分类模型进行模型训练,即可以采用不同训练方式对待训练的分类模型进行模型训练,因此,可以提高目标分类模型识别恶意广告应用程序的识别率和鲁棒性。
219.应理解的是,本技术实施例中,输入单元104可以包括图形处理器(graphics processing unit,gpu)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071,也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
220.存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器109可以包括易失性存储器或非易失性存储器,或者,存储器109可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synch linkdram,sldram)和直接内存总线随机存取存储器(direct rambus ram,drram)。本技术实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。
221.处理器110可包括一个或多个处理单元;可选的,处理器110集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。
222.本技术实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
223.其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器rom、随机存取存储器ram、磁碟或者光盘等。
224.本技术实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接
口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
225.应理解,本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
226.本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
227.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
228.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
229.上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。