本技术涉及计算机领域,具体涉及一种模型训练方法、装置、电子设备和存储介质。
背景技术:
1、随着技术的不断发展,无监督机器学习技术被广泛应用在网页访问的攻击检测中。在进行网页访问的攻击检测前,通常需要利用大量的网页访问请求数据进行模型训练,从而利用训练完成的模型进行网页访问相关的攻击检测。
2、然而现有技术中,往往是基于单一域名的大量网页访问请求数据对模型进行训练,且训练完成的模型往往也只能对上述域名的网页访问请求进行攻击检测。即现有技术中的模型训练方法训练出的模型的泛化性较弱,且训练出训练完成的模型的效率也较低。
技术实现思路
1、本技术实施例提供一种模型训练方法、装置、电子设备和存储介质,可以改善现有技术训练出的模型泛化性较弱的问题。
2、本技术实施例提供一种模型训练方法,用于对待训练模型进行训练,所述待训练模型包括特征表达网络和结果检测网络,所述方法包括:
3、对于多个初选域名,获取每个所述初选域名下的多个网址信息;
4、获取每个所述网址信息对应的标志序列以及所述多个网址信息对应的所述初选域名的域名特征;
5、对于多个所述初选域名中的任一个初选域名,将所述初选域名的标志序列以及所述域名特征输入到所述待训练模型的特征表达网络,以便所述特征表达网络基于所述域名特征对所述标志序列进行处理,得到数字化特征,其中,所述数字化特征经所述结果检测网络处理得到训练检测结果;
6、若基于所述训练检测结果与标注量确定所述待训练模型收敛,则得到初选检测模型;
7、获取目标域名下的多个目标网址信息,并基于所述多个目标网址信息对所述初选检测模型进行训练,直至所述初选检测模型收敛为止,得到目标检测模型。
8、本技术实施例提供一种模型训练装置,所述装置包括:
9、网址获取单元,用于对于多个初选域名,获取每个所述初选域名下的多个网址信息;
10、域名特征获取单元,用于获取每个所述网址信息对应的标志序列以及所述多个网址信息对应的所述初选域名的域名特征;
11、数字化特征单元,用于对于多个所述初选域名中的任一个初选域名,将所述初选域名的标志序列以及所述域名特征输入到所述待训练模型的特征表达网络,以便所述特征表达网络基于所述域名特征对所述标志序列进行处理,得到数字化特征,其中,所述数字化特征经所述结果检测网络处理得到训练检测结果;
12、初选模型单元,用于当基于所述训练检测结果与标注量确定所述待训练模型收敛时,得到初选检测模型;
13、目标模型单元,用于获取目标域名下的多个目标网址信息,并基于所述多个目标网址信息对所述初选检测模型进行训练,直至所述初选检测模型收敛为止,得到目标检测模型。
14、在一种实施方式中,域名特征获取单元,包括:
15、标志序列子单元,用于对每个所述网址信息进行拆分替换,得到所述标志序列,其中,所述标志序列包括多个标志;
16、聚合子单元,用于对于同一初选域名的多个标志序列分别包括的多个标志进行聚合,得到所述初选域名对应的标志集合;
17、域名特征子单元,用于基于所述标志集合,构建所述初选域名的域名特征。
18、在一种实施方式中,标志序列子单元,包括:
19、信息提取次子单元,用于提取所述网址信息中的寻址路径和全部键值对;
20、顺序排列次子单元,用于将所述寻址路径和所述全部键值对按照预设顺序进行排列,得到初始标志序列;
21、字符替换次子单元,用于对于所述初始标志序列,若存在一键值对,该键值对的键在其他网址信息对应有相同名称的键,且该键值对的值的类型,与其他网址信息中所述相同名称的键所对应的值的类型相同,则将所述键值对中的值替换为预设字符,得到所述标志序列,其中,所述预设字符为预设格式与所述键值对中的键的组合。
22、在一种实施方式中,聚合子单元,包括:
23、标志聚合次子单元,用于对于同一初选域名的多个标志序列分别包括的多个标志进行聚合,得到所述初选域名对应的初始标志集合;
24、低频替换次子单元,用于当所述初始标志集合中,存在有出现次数低于设定次数阈值的低频标志时,将所述低频标志替换为设定标志,得到所述初选域名对应的标志集合。
25、在一种实施方式中,所述装置还包括:
26、标志序列更新单元,用于将所述标志序列中的所述低频标志替换为所述设定标志,得到新的标志序列。
27、在一种实施方式中,域名特征子单元,包括:
28、连续向量次子单元,用于对于所述标志集合中的每个标志,基于word2vec预测所述标志的上下文信息,得到每个所述标志的连续向量;
29、向量拼接次子单元,用于将多个所述标志的连续向量进行拼接,得到拼接矩阵,所述拼接矩阵为所述域名特征。
30、在一种实施方式中,数字化特征单元,包括:
31、域名选择子单元,用于从多个所述初选域名中随机选择一初选域名,所述随机选择的初选域名为命中初选域名;
32、投影子单元,用于计算第一初选域名的域名特征投影到所述命中初选域名的命中域名特征的投影结果,其中,所述第一初选域名为所述多个初选域名中除所述命中初选域名以外的任一初选域名;
33、相似度计算子单元,用于基于所述命中域名特征以及所述投影结果,计算所述第一初选域名的任意标志与命中初选域名的任意标志的相似度;
34、统一特征表示子单元,用于基于所述第一初选域名的任意标志与命中初选域名的任意标志的相似度,以及所述第一初选域名的任意标志,计算所述第一初选域名的任意标志在所述命中初选域名的统一特征表示;
35、终选特征表示子单元,用于基于所述第一初选域名的任意标志在所述命中初选域名的统一特征表示,以及所述第一初选域名的同一标志对应的指定域特征表示,计算所述第一初选域名的任意标志的终选特征表示;
36、数字化特征子单元,用于将所述第一初选域名的全部标志的终选特征表示进行拼接,得到所述第一初选域名对应的所述数字化特征。
37、在一种实施方式中,投影子单元,包括:
38、线性矩阵次子单元,用于获取线性变换矩阵;
39、投影结果次子单元,用于对所述线性变换矩阵与所述第一初选域名的域名特征进行矩阵乘法,得到所述投影结果。
40、在一种实施方式中,每个所述初选域名均有自身对应的标志集合;线性矩阵次子单元,包括:
41、交集获取再次单元,用于获取所述第一初选域名的标志集合与所述命中初选域名的标志集合的交集;
42、第一特征再次单元,用于对于所述交集中的每个标志,获取所述标志在所述命中域名特征所对应的第一特征;
43、第二特征再次单元,用于获取所述标志在所述第一初选域名的域名特征所对应的第二特征;
44、乘积计算再次单元,用于计算所述线性变换矩阵与所述第二特征的乘积;
45、差值特征再次单元,用于计算同一标志对应的所述第一特征与所述乘积的差值特征;
46、标志平方再次单元,用于计算同一标志对应的差值特征的模长的平方,记为标志平方;
47、线性矩阵再次单元,用于得到所述交集中的全部标志的所述标志平方的加和取最小值时,所对应的线性变换矩阵。
48、在一种实施方式中,目标模型单元,包括:
49、目标获取子单元,用于获取每个所述目标网址信息对应的目标标志序列以及所述多个目标网址信息对应的所述目标域名的目标域名特征;
50、目标特征子单元,用于将所述目标标志序列以及所述目标域名特征输入到所述初选检测模型的特征表达网络,以便所述特征表达网络基于所述目标域名特征对所述目标标志序列进行处理,得到目标数字化特征,其中,所述目标数字化特征经所述结果检测网络处理得到目标训练检测结果;
51、目标模型子单元,用于当基于所述目标训练检测结果与标注量确定所述初选检测模型收敛时,得到所述目标检测模型。
52、在一种实施方式中,所述装置还包括:
53、应用网址获取单元,用于获取应用网址信息;
54、应用标志序列单元,用于基于所述应用网址信息确定对应的应用标志序列;
55、检测结果单元,用于将所述应用标志序列输入到所述目标检测模型,得到所述目标检测模型输出的检测结果,所述检测结果用于反映所述应用网址信息的网址性质。
56、本技术实施例提供的模型训练方法中,可以对多个初选域名中的每个初选域名,获取每个初选域名下的多个网址信息。然后获取每个网址信息分别对应的标志序列,以及获取每个初选域名分别对应的域名特征。对于每个初选域名,将初选域名的多个标志序列以及域名特征输入到待训练模型的特征表达网络,以便特征表达网络基于域名特征,对标志序列进行处理,得到数字化特征;数字化特征还会经结果检测网络处理得到训练检测结果。若基于训练检测结果以及标注量,确定待训练模型收敛,则可以获得到初选检测模型;随后,可以获取目标域名下的多个目标网址信息,并基于目标网址信息对初选检测模型进行训练,得到目标检测模型。
57、本技术实施例中,可以先利用多个初选域名分别对应的少量网址信息对待训练模型进行训练,得到泛化性较强的初选检测模型。然后,再利用目标域名下的少量目标网址信息对初选检测模型进行针对性训练,得到用于检测目标域名下的网页访问攻击的目标检测模型。本技术实施例通过两段式训练过程,兼顾了模型的泛化性和针对性,提高了模型的训练效率。