一种基于深度强化学习的自动化网络安全检测方法

文档序号：31625353发布日期：2022-09-24 00:27阅读：来源：国知局

技术特征：
1.一种基于深度强化学习的自动化网络安全检测方法，其特征在于，所述方法包括以下步骤：步骤s1：构建环境信息获取模块，所述环境信息获取模块用于从待测网络和待测主机中扫描并发现以下基本信息：操作系统、存活端口、服务信息，按照发现顺序为扫描到的操作系统、存活端口、服务信息进行编号并存储，用于后续处理和更新状态；步骤s2：判断是否达到预设目标，若是，方法结束；若否，进入步骤s3；所述预设目标为实现对特定目标的网络安全检测；步骤s3：基于所述环境信息获取模块，获取从环境中扫描到的基本信息，收集并整理待测主机编号、待测主机配置、待测主机上的权限和待测主机被选择次数，并构建能够被智能体理解的待测环境状态矩阵；步骤s4：构建智能体；基于所述待测环境状态矩阵及奖励模块的奖励信息，确定智能体的行为策略；步骤s5：基于智能体的行为策略，采取行为，确定行为在待测环境中的执行结果和影响，更新所述奖励模块的奖励信息，指导智能体更新神经网络参数，进入步骤s2。2.如权利要求1所述的方法，其特征在于，所述步骤s2，其中：所述预设目标为实现对特定目标的网络安全检测，包括从某一起始主机出发，对网络环境中某台特定主机的网络安全检测和/或对单个主机的网络安全检测。3.如权利要求2所述的方法，其特征在于，所述步骤s3，其中：基于网络安全检测的类型，智能体对待测环境进行扫描：若网络安全检测类型为网络安全检测，则由待测网络的某个待测主机出发，扫描待测网络信息，基于反馈信息确定扫描到的各待测主机的潜在漏洞；基于所述各待测主机的潜在漏洞，确定对各待测主机的探测机制；若网络安全检测类型为单主机网络安全检测，则将所述单主机作为当前待测主机，确定所述当前待测主机的潜在漏洞，为探测机制配置权限，选用与所述当前待测主机的潜在漏洞相对应的行为对所述当前待测主机进行探测。4.如权利要求3所述的方法，其特征在于，状态信息结构确定待测环境状态矩阵，作为智能体的输入，包含了智能体对环境的理解；待测环境状态矩阵表示如下：[h
i
|p0(h
i
)...p
m
(h
i
)|privilege(h
i
)|times(h
i
)]其中，h
i
表示当前待测主机编号，m为所述待测主机的所有配置信息数，privilege(h
i
)表示智能体在当前待测主机上的权限，p
num
(h
i
)表示待测主机h
i
上拥有的配置信息，times(h
i
)表示该待测主机h
i
被选择次数。5.如权利要求4所述的方法，其特征在于，所述步骤s5，所述基于智能体的行为策略，更新所述奖励模块的奖励信息，包括：若智能体成功完成行为，则获得的奖励，所述奖励设计为定值20；若智能体得到特定权限，则获得的奖励，所述奖励设计为定值50；若智能体选择错误行为，则得到惩罚，所述惩罚设计为定值50；所述错误行为包括但不限于无法执行的行为、重复的行为；若智能体行为失败，得到的惩罚，所述惩罚设计为定值20。6.一种基于深度强化学习的自动化网络安全检测装置，其特征在于，所述装置包括：
环境信息模块：配置为构建环境信息获取模块，所述环境信息获取模块用于从待测网络和待测主机中扫描并发现以下基本信息：操作系统、存活端口、服务信息，按照发现顺序为扫描到的操作系统、存活端口、服务信息进行编号并存储，用于后续处理和更新状态；判断模块：配置为判断是否达到预设目标，所述预设目标为实现对特定目标的网络安全检测；待测环境状态矩阵构建模块：配置为基于所述环境信息获取模块，获取从环境中扫描到的基本信息，收集并整理待测主机编号、待测主机配置、待测主机上的权限和待测主机被选择次数，并构建能够被智能体理解的待测环境状态矩阵；智能体构建模块：配置为构建智能体；基于所述待测环境状态矩阵及奖励模块的奖励信息，确定智能体的行为策略；奖惩模块：配置为基于智能体的行为策略，采取行为，确定行为在待测环境中的执行结果和影响，更新所述奖励模块的奖励信息，指导智能体更新神经网络参数，触发判断模块。7.一种基于深度强化学习的自动化网络安全检测系统，其特征在于，包括：处理器，用于执行多条指令；存储器，用于存储多条指令；其中，所述多条指令，用于由所述存储器存储，并由所述处理器加载并执行如权利要求1-5之任一项所述方法。8.一种计算机可读存储介质，其特征在于，所述存储介质中存储有多条指令；所述多条指令，用于由处理器加载并执行如权利要求1-5之任一项所述方法。

技术总结
本发明提供一种基于深度强化学习的自动化网络安全检测方法，所述方法包括：构建环境信息获取模块，所述环境信息获取模块用于从待测网络和待测主机中扫描环境信息；基于所述环境信息获取模块，获取从环境中扫描到的基本信息，构建能够被智能体理解的待测环境状态矩阵；构建智能体；基于获取的所述待测环境状态矩阵及奖励模块的奖励信息，确定智能体的行为策略；基于智能体的行为策略，采取行为，确定行为在待测环境中的执行结果和影响，更新所述奖励模块的奖励信息，指导智能体更新神经网络参数。根据本发明的方案，实现有效的对网络环境进行自动化网络安全检测，以解决人工网络安全检测成本高，专业技术要求高的问题。专业技术要求高的问题。专业技术要求高的问题。

技术研发人员：张旻李倩玉郑敬华胡淼李阳施凡
受保护的技术使用者：中国人民解放军国防科技大学
技术研发日：2022.04.02
技术公布日：2022/9/23

完整全部详细技术资料下载

当前第2页1 2