本发明涉及车联网入侵检测的,具体涉及一种基于堆叠集成算法的车载网络入侵检测方法。
背景技术:
1、互联和自动驾驶汽车是优化交通拥堵、预防事故并提高驾驶安全性和效率的前途技术解决方案。然而,更多的网络连接为攻击者提供了更多的机会,导致车辆安全和乘客安全面临更多风险。此外,消息认证或加密也将导致不适用的性能和不可接受的延迟。考虑到车载系统硬件成本和实时性要求,车联网入侵检测在解决汽车安全问题方面显示出明显的优势。因此,车联网入侵检测已成为现代车联网的重要组成部分,用于识别车载网络上的恶意威胁。在物联网的外部网络中,车辆系统受到各种常见的网络攻击,如拒绝服务(dos)、嗅探和全球定位系统(gps)欺骗攻击。这是因为,在包括各种类型的网络和实体的大型外部车辆网络中,每个节点都是网络攻击的潜在入口。车联网入侵检测已成为现代物联网中识别车辆网络上恶意威胁的重要组成部分。车联网入侵检测通常被整合到外部网络中,作为防御系统的重要组成部分,以识别可能破坏防火墙和身份验证机制的恶意攻击。尽管许多以前的工作在开发车联网入侵检测方面取得了一些成功,但由于网络流量数据量大,可用的网络特征众多,网络攻击模式多样,车联网入侵检测仍然是一个具有挑战性的问题。
2、入侵检测可分为基于特征观察的检测方法、基于信息理论和统计分析的检测方法、基于机器学习和深度学习的检测方法等。基于机器学习方法最近仍然是安全研究界开发有效车联网入侵检测的重点。这些方法学习网络流量的行为并检测异常流量。然而,基于机器学习的入侵检测技术的有效性取决于训练数据集的特征设计和质量。设计适当的数据特征集以准确表征网络流量仍在研究中,因此仍然需要探索各种机器学习算法对不平衡和新型数据的检测能力,并寻找或构建好的算法来应对车联网入侵检测。对于车联网入侵检测来说,其具有更高的时效性要求和更加复杂的系统特殊性,需要更加高效和精确的入侵检测技术来应对这些挑战。联网数据中存在大量的非结构化数据和高维数据,如何从中提取出有用的特征是车联网入侵检测的一个难点问题。目前,许多机器学习算法的特征提取方法还不够有效,需要进一步研究和改进。
技术实现思路
1、本发明的
技术实现要素:
在于提出一种针对车联网入侵检测技术,其首先利用数据预处理和特征工程程序来提高所用数据集的质量,三个基于树的监督学习器随机森林(rf)、极限梯度提升(xgboost)和光梯度提升(lightgbm)学习算法作为基础分类器,利用堆叠(stacking)集成模型构建强分类器可以准确高效地检测在车辆网络上发起的各种类型的网络攻击,并解决了车联网入侵检测中正常数据和异常数据之间样本不平衡,数据流量大且维数多而导致的检测性能差问题。
2、本发明提出一种针对车联网入侵检测技术,包括以下步骤:
3、s1:采集车外网网络数据集;
4、s2:对采集的车外网网络数据进行数据预处理;
5、s3:对数据预处理后的车外网网络数据进行特征工程;
6、s4:通过三个基于树的集成算法进行模型训练;
7、s5:检测车外网网络数据进行正常和异常分类,并处理结果输出。
8、优选的,所述s1中,将采集的车外网网络数据按7比3比例划分训练数据和测试数据,在最终的保留验证之前,测试集将保持不变;对训练集实施十折交叉验证;在十折交叉验证的每次迭代中,90%的原始训练集用于模型训练,10%的原始训练集中用作模型测试的验证集。
9、优选的,所述s2中,数据预处理步骤包括通过k-means聚类进行数据采样、通过过采样技术减少类不平衡和数据归一化。
10、优选的,所述s3中,采用基于信息增益的特征选择和快速相关滤波器组成的综合特征工程方法,在保留重要特征的同时,去除不相关、冗余和有噪声的特征。
11、更优的,所述基于信息增益的特征选择步骤具体包括计算每个特征的重要性,并将其归一化为总和为1,表示相对重要性;然后根据特征的重要性对特征进行排序,并从上到下进行选择,直到所选特征的总重要性达到相关阈值α;对于剩余特征,总特征重要性小于1-α则丢弃。
12、优选的,所述s4中,将s3中得到的特征的总重要性达到相关阈值α特征数据作为训练数据,输入到三个基于树的集成算法进行模型训练,其中所述三个基于树的集成算法选择包括rf、lightgbm和xgboost。
13、更优的,通过超参数优化方法贝叶斯树parzen估计器对所述三种基于树的集成算法的重要超参数进行优化。
14、优选的,所述s5中,将待检测数据输入到元学习器,并在三个基于树的集成算法学习器模型训练时采用十折交叉验证进行模型预测。
15、本发明与现有技术相比,还存在以下优点:
16、本发明适用对规格较大的数据集进行训练检测,还实现了一种组合的特征工程方法,通过删除可能导致过度拟合的不相关和误导性特征来提高训练效率,同时使用堆叠集成方法来组合基础学习器的结果,其中集成模型通常比单个模型具有更好的泛化性,组合单个学习器可以减少估计方差并防止过度拟合。另一方面,由于车载系统对于车联网入侵检测有实时性要求,而基于树模型的机器学习算法具有高效的计算性能,可以处理大规模的数据集,同时具有较快的训练和预测速度,可以满足实时入侵检测的需求。
1.一种基于堆叠集成算法的车载网络入侵检测方法,其特征在于,包括:
2.根据权利要求1所述的一种基于堆叠集成算法的车载网络入侵检测方法,其特征在于,所述s1中,将采集的车外网网络数据按7比3比例划分训练数据和测试数据,在最终的保留验证之前,测试集将保持不变;对训练集实施十折交叉验证;在十折交叉验证的每次迭代中,90%的原始训练集用于模型训练,10%的原始训练集中用作模型测试的验证集。
3.根据权利要求1所述的一种基于堆叠集成算法的车载网络入侵检测方法,其特征在于,所述s2中,数据预处理步骤包括通过k-means聚类进行数据采样、通过过采样技术减少类不平衡和数据归一化。
4.根据权利要求1所述的一种基于堆叠集成算法的车载网络入侵检测方法,其特征在于,所述s3中,采用基于信息增益的特征选择和快速相关滤波器组成的综合特征工程方法,在保留重要特征的同时,去除不相关、冗余和有噪声的特征。
5.根据权利要求4所述的一种基于堆叠集成算法的车载网络入侵检测方法,其特征在于,所述基于信息增益的特征选择步骤具体包括计算每个特征的重要性,并将其归一化为总和为1,表示相对重要性;然后根据特征的重要性对特征进行排序,并从上到下进行选择,直到所选特征的总重要性达到相关阈值α;对于剩余特征,总特征重要性小于1-α则丢弃。
6.根据权利要求1所述的一种基于堆叠集成算法的车载网络入侵检测方法,其特征在于,所述s4中,将s3中得到的特征的总重要性达到相关阈值α的特征数据作为训练数据,输入到三个基于树的集成算法进行模型训练,其中所述三个基于树的集成算法选择包括rf、lightgbm和xgboost。
7.根据权利要求6所述的一种基于堆叠集成算法的车载网络入侵检测方法,其特征在于,通过超参数优化方法贝叶斯树parzen估计器对所述三种基于树的集成算法的重要超参数进行优化。
8.根据权利要求1所述的一种基于堆叠集成算法的车载网络入侵检测方法,其特征在于,所述s5中,将待检测数据输入到元学习器,并在三个基于树的集成算法学习器模型训练时采用十折交叉验证进行模型预测。