本发明涉及网络安全和数据科学领域,更具体地,涉及一种多源异构小样本网络入侵检测数据集的构造和检测方法。
背景技术:
1、在现有的网络入侵检测技术中,大多数方法主要依赖于单一数据源,例如仅使用原始网络数据文件或经过处理和特征提炼的特征结构化文件(feature structured file,fsf)。使用单一数据源的方法在捕捉网络流量的全面性、细节丰富度以及内在关联性方面存在显著的局限。例如,当仅依赖于原始网络数据时,虽然能够捕获原始网络数据,但这种方法可能无法全面揭示流量的宏观特征,如流量分布、会话持续时间等重要信息。此外,由于缺乏更深层次的分析,这种方法在揭示复杂网络攻击模式方面可能效果不佳。相反,如果只使用经过处理和特征提炼的数据,虽然能够提供相关的特征数据,但这会导致丢失网络流量的原始结构和细节信息,从而影响对复杂攻击模式的识别能力。
2、此外,现有技术往往忽视了日志文件在提升网络入侵检测的有效性方面的潜力。日志文件能够提供关于网络、服务器和应用程序行为的相关信息,这对于理解和识别潜在的入侵活动至关重要。因此,这些局限性导致现有技术在面对复杂网络攻击时,其效率和准确性有待进一步提升。
技术实现思路
1、提供了本发明以解决现有技术中存在的上述问题。因此,需要一种多源异构小样本网络入侵检测数据集的构造和检测方法,以通过整合流量特征图(flow feature graph,ffg)和经过流量特征提取(flow feature extraction,ffe)、日志特征提取(log featureextraction,lfe)的特征结构化文件,不仅能够捕获网络流量的细节和结构信息,还能够揭示流量的宏观特征,从而显著提高了网络入侵检测的效率和准确性。
2、根据本发明的第一方面,提供一种多源异构小样本网络入侵检测数据集的构造方法,所述方法包括:
3、从第一数据源中提取日志文件数据,所述第一数据源包括日志信息,所述日志文件数据包括对网络、服务器和应用程序的日志文件,根据所述日志文件数据得到日志的特征结构化文件;
4、对第二数据源进行异构化得到流量内部特征以及流量外部特征的特征结构化文件,所述第二数据源包括原始流量数据;
5、将所述日志的特征结构化文件和流量外部特征的特征结构化文件进行合并得到第一模态特征;
6、对所述流量内部特征进行处理得到第二模态特征;
7、将所述第一模态特征和第二模态特征进行综合特征构建以得到多源异构小样本网络入侵检测数据集。
8、进一步地,所述日志的特征结构化文件包括标志位信息、访问时间戳、用户活动、系统警告与错误、网络配置、资源使用、会话数据、服务请求、通知与警告。
9、进一步地,对第二数据源进行异构化得到流量内部特征,包括:
10、利用五元组来定位所述第二数据源中的数据流,所述数据流的内部特征由至少一条数据段组成,所述五元组包括源ip、源端口、目的ip、目的端口以及协议;
11、选取各条数据流的前16个数据段的前256个字节,若数据段不足或单元长度不足256字节,则采用0填充补足,对所述数据段进行匿名化处理和结构重构,按照设定顺序排列,形成一个流量特征图,用以反映数据流的内部特征。
12、进一步地,所述设定顺序为从左上角到右下角的顺序。
13、进一步地,对第二数据源进行异构化得到流量外部特征的特征结构化文件,包括:
14、基于原始流量的整体特征,通过流量特征提取并形成流量外部特征的特征结构化文件,所述原始流量的整体特征包括数据单元总数、会话持续时间、流量分布、使用的协议和端口。
15、进一步地,将所述日志的特征结构化文件和流量外部特征的特征结构化文件进行合并得到第一模态特征,包括:
16、基于所述日志的特征结构化文件和流量外部特征的特征结构化文件进行特征分类,得到连续特征和离散特征;
17、对所述连续特征进行标准化得到第一向量;
18、对所述离散特征进行唯一编码,通过向量嵌入,为每种类型的离散特征生成固定长度的第二向量;
19、将所述第一向量和第二向量进行拼接后并调整至设定的输出维度。
20、进一步地,对所述流量内部特征进行处理得到第二模态特征,包括:
21、利用ffg处理模块对所述流量内部特征进行处理得到第二模态特征,所述ffg处理模块包括卷积层、池化层和归一化层,所述卷积层与所述池化层之间设置激活函数,所述卷积层用于提取所述流量内部特征的特征向量,所述特征向量经过所述激活函数激活后分别通过所述池化层和归一化层进行池化和归一化后并通过一个全连接层调整至设定的输出维度。
22、根据本发明的第二方面,提供一种网络入侵检测方法,所述方法包括:
23、利用如权利要求1至7中任一项所述的方法所构建的多源异构小样本网络入侵检测数据集进行网络入侵检测。
24、进一步地,基于所述多源异构小样本网络入侵检测数据集,利用ifc处理模块进行网络入侵检测。
25、进一步地,基于所述多源异构小样本网络入侵检测数据集,重复n3次n2堆叠块处理,并使用全连接层和softmax分类层进行最终的分类预测。
26、本发明至少具有以下有益效果:
27、1、多源数据整合与异构化处理:
28、结合了传统的网络流量数据和日志文件数据,通过创新性的处理方法生成了fsf和nfg,实现了从多源数据中提取更全面和详细的特征。本方法不仅捕获了网络流量的细节和结构信息,还揭示了流量的宏观特征,从而克服了依赖单一数据源的局限性。
29、2、fsf的综合利用:
30、从日志和流量数据中提取特征,形成两种类型的fsf,这些文件在捕获细节特征和进行深入分析方面具有独特优势。fsf的使用显著提升了对复杂攻击模式的识别能力。
31、3、高效的特征提取和组合方法:
32、采用ffe和lfe方法,结合离散和连续的特征的处理,提高了特征的准确性和代表性。通过n1和n2堆叠块的多次重复处理,以及ifc及其处理模块,实现了不同模态特征的有效组合和深入学习。
1.一种多源异构小样本网络入侵检测数据集的构造方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述日志的特征结构化文件包括标志位信息、访问时间戳、用户活动、系统警告与错误、网络配置、资源使用、会话数据、服务请求、通知与警告。
3.根据权利要求1所述的方法,其特征在于,对第二数据源进行异构化得到流量内部特征,包括:
4.根据权利要求3所述的方法,其特征在于,所述设定顺序为从左上角到右下角的顺序。
5.根据权利要求1所述的方法,其特征在于,对第二数据源进行异构化得到流量外部特征的特征结构化文件,包括:
6.根据权利要求1所述的方法,其特征在于,将所述日志的特征结构化文件和流量外部特征的特征结构化文件进行合并得到第一模态特征,包括:
7.根据权利要求1所述的方法,其特征在于,对所述流量内部特征进行处理得到第二模态特征,包括:
8.一种网络入侵检测方法,其特征在于,所述方法包括:
9.根据权利要求8所述的方法,其特征在于,基于所述多源异构小样本网络入侵检测数据集,利用ifc处理模块进行网络入侵检测。
10.根据权利要求8所述的方法,其特征在于,基于所述多源异构小样本网络入侵检测数据集,重复n3次n2堆叠块处理,并使用全连接层和softmax分类层进行最终的分类预测。