一种大规模分布式网络安全数据采集方法与系统的制作方法

文档序号：7776582阅读：324来源：国知局

一种大规模分布式网络安全数据采集方法与系统的制作方法
【专利摘要】本发明涉及一种大规模分布式网络安全数据采集方法与系统。所述方法包括多方式数据采集，数据解析与标准化，数据分发传输。所述系统包括采集代理模块，数据采集模块，数据解析模块，数据分发传输模块。本发明在数据采集方面，采用主动、被动、数据流镜像等多种方式，实现了对各类数据的全面采集；在数据解析方面，采用基于策略的数据解析与标准化机制，通过编写解析策略，对原始数据进行抽取、映射、替换、补齐等操作，实现对新增数据格式的快速解析和面向多应用系统的数据标准化；在传输方面，采用多级衔接、多路分发技术，实现了采集系统之间弹性组合、级联部署、多路分发，满足了网络环境纵横扩展、数据信息海量采集的要求。
【专利说明】一种大规模分布式网络安全数据采集方法与系统
【技术领域】
[0001]本发明属于网络安全管理领域，涉及一种大规模分布式网络安全数据采集方法与系统。
【背景技术】
[0002]数据采集是网络安全管理与运维的前提条件。数据采集工具实现对网络系统中各类软、硬件资源产生的安全事件、日志信息、运行状态、系统配置、安全策略等进行全面采集、解析、清洗和标准化，转化为上层系统可识别、可管理、可交换、可共享的有用数据。
[0003]目前，在网络安全管理领域，已经有多种数据采集工具，这些工具能够有效解决某些特定环境下的数据采集和清洗任务，但是随着信息化水平的不断提升，大量的信息系统和先进的信息技术大规模部署和使用，对安全管理提出严峻挑战，同时对数据采集技术也提出了新的要求:一是支持多样化的采集方式，一套网络系统中，采用一套数据采集工具实现对不同网络安全数据的全面采集，而不是部署多套采集工具实现对不同数据源的采集要求；二是支持对多源、异构数据的快速解析和面向多标准的数据重构能力。传统的数据采集工具仅能实现对一种或几种特定格式的数据源进行解析，对新增数据格式，往往需要进行二次定制开发，也不支持面向不同的上层应用系统构建不同的数据标准需求，不能满足安全管理对信息化快速部署和动态变化的需求。三是支持动态可扩展的部署模式，数据采集工具可随着网络规模的扩大、网络层级的衍生、数据量的动态增加而进行动态组合和调整，满足网络环境复杂多变、海量安全事件信息采集需求。

【发明内容】

[0004]针对上述问题，本发明提出了一种大规模分布式网络安全数据采集方法与系统。在数据采集方面，采用主动、被动、来自上一级采集系统发送的数据、数据流镜像4种方式，实现了对各类数据的全面采集；在数据解析方面，采用了基于策略的数据解析与标准化机制，通过编写解析策略，对原始数据进行抽取、映射、替换、补齐等操作，实现对新增数据格式的快速解析和面向多应用系统的数据标准化；在传输方面，采用多级衔接、多路分发技术，实现了采集系统之间弹性组合、级联部署、多路分发，满足了网络环境纵横扩展、数据信息海量采集的要求。
[0005]一种大规模分布式网络安全数据采集方法，包括以下步骤:
[0006]步骤一，多方式数据采集。
[0007]步骤二，数据解析与标准化。
[0008]步骤三，数据分发传输。
[0009]其特征在于:
[0010]步骤一所述的多方式数据采集采取以下4种方式:
[0011]方式一:主动模式。在数据生产地部署采集代理的方法采集指定数据。采集代理工作机制为:对指定目录下的文件进行监听，按照可配置的时间间隔，对该目录下发生更新的文件进行增量读取，同时对该文件的最新读取位置进行更新和维护，避免文件中数据的重复读取。针对以数据库形式存储的原始数据，通过ODBC/JDBC等通用协议获取原始事件，无需在数据生产地部署采集代理。
[0012]方式二:被动模式。原始数据产生后，通过Syslog、Snmp、WebService等方式发送给指定的数据接收者。对于数据采集系统，仅需要被动接收数据即可。
[0013]方式三:来自上一级采集系统发送的数据(采集系统级联)。
[0014]方式四:镜像模式。通过网络交换设备的镜像端口，接收来自网络中传输的任何网络访问流。
[0015]步骤二所述的数据解析采用基于策略文档的方式对日志进行解析，实现对新增设备的支持。针对每一个具体的设备或系统，收集重点关注的日志类型的典型样例制定解析策略。当信息系统中有新增设备或原有设备的日志格式发生变更时，收集新增设备的日志格式或原设备变更的日志格式制定或修改解析策略。
[0016]步骤三所述的数据分发传输还包括以下步骤:
[0017](I)设置分发策略:提供数据复制和数据路由两种分发模式。
[0018](2)建立数据缓存单元，分发各类数据:为每一类上层应用建立一个数据缓存单元，缓存标准化后的数据，防止数据生成过快而上层应用系统接收速率过慢导致数据丢失。
[0019](3)数据传输:提供面向关系型数据库RDB、分布式存储系统HDFS/HBASE、内存数据库Redis、下级数据采集系统等多种目标传输数据的功能，满足不同业务应用系统需求。
[0020]步骤二所述的解析策略依据数据源的形式不同有所区别，主要有两种:一种是针对以文件形式存储或以数据流形式传输的原始日志，策略文档为一系列解析正值表达式构成的XML文档；另一种是针对以数据库形式存储的原始日志，策略文档为一系列SQL语句与解析正值表达式构成的XML文档；
[0021]步骤二所述的解析策略除了具有两个传统的解析功能外，又提供了以下三个方面的功能:
[0022]( I)对原有日志的特殊符号或字段依据字典表进行替换。允许将厂商自己专有的字典表放入到解析策略文件中，对特殊符号和字段进行对照解析。
[0023](2)对原有日志依据预先设定值进行补充完善。解析策略文件允许通过源IP地址关联的方式，为原有日志添加附加信息。
[0024](3)多标准数据重构。允许在解析策略文件中描述不同格式的数据标准，为不同的上层应用系统构建不同的标准化数据。
[0025]一种实现所述大规模分布式网络安全数据采集方法的系统，其特征在于包括:采集代理模块，数据采集模块，数据解析模块，数据分发传输模块。其中，
[0026]采集代理模块，部署在数据生产地，采集并传输指定数据。
[0027]数据采集模块，用于从网络中分散的各类数据源采集原始数据，并转发给数据解析模块。
[0028]数据解析模块，从数据采集模块获取到原始数据后，按照预先配置的解析策略对原始数据进行解析和标准化，并结合分发策略，将标准化的数据分发给分发传输模块。
[0029]数据分发传输模块，依据分发策略对标准化数据进行分组缓存，并依据转发策略向多个不同的传输目标进行数据传输。[0030]所述数据采集系统在多级复杂网络环境下采用级联部署、多路分发的体系架构。
[0031]所述采集代理模块部署在数据生产地采集指定数据，包括:
[0032]目录监听单元，负责对指定目录下的文件变化情况进行实时监听，并将变化情况报送读取模块。主要包含新增文件监听、文件新增内容监听。
[0033]配置文件单元，负责记录源文件存放路径、源文件的读取时间间隔、发送目标地址、目标端口等参数。
[0034]配置加载单元，对配置文件进行加载，为其它单元提供服务。
[0035]读取单元，依据目录监听单元报送的文件变化情况，对指定目录下的源文件新增数据进行读取，并打包发送给发送单元。读取单元负责对最新读取位置进行标识和维护。
[0036]发送单元，按照指定的目标地址和端口对源数据进行发送。
[0037]所述数据采集模块主要包含以下7个处理单元:
[0038]专有协议监听单元，用于监听采集代理或其它采集系统发送的数据流。
[0039]Syslog监听单元,用于开启Syslog服务,接收Syslog数据流。
[0040]Snmp监听单元,用于开启Snmp服务,接收Snmp数据流。
[0041]WebService调用单元,通过调用数据源提供的WebService接口，获取原始数据。
[0042]网络流量监听单元，用于捕获交换设备镜像端口转发的数据流。
[0043]数据库中间件单元，用于向指定的数据库建立连接，并从制定的表中获取数据信
肩、O
[0044]配置文件单元，用于记录以上各个监听单元正常工作所需的基础信息。
[0045]所述数据解析模块包括:
[0046]解析策略文档单元，负责记录解析相关策略，包括:源日志格式的正值表达式描述，关键字段抽取策略，特殊字符或字段转换表，标准化格式描述，数据补齐策略；
[0047]解析引擎单元，依据解析策略文档对原始事件进行解析和标准化。
[0048]数据封装及适配单元，服务于分发控制单元，负责对标准化后的数据进行封装和适配，形成一条event数据。每个event都由两个部分组成:header和body。
[0049]分发控制单元,基于event中的header信息,对event进行分发,支持数据复制和数据路由两种数据分发方式。
[0050]所述数据分发传输模块包括:
[0051]缓存单元，用于分组缓存从数据解析模块发送进来的events。数据解析模块决定了向哪个缓存单元发送哪些events、发送频率以及每次发送的个数。缓存单元的数量依据分发策略可以进行动态增加或减少。由于缓存单元扮演了一个缓存的功能，为了保证事件的快速传递，本发明采用了基于内存型的数据结构作为缓存单元的存储容器，因此缓存单元不提供持久化的数据保存，一旦断电和设备故障，缓存单元中的数据将会丢失。
[0052]传输单元，依据配置信息从缓存单元中提取events，传输到指定的下一跳或最终目标。当传输完成后，从缓存单元中删除该events。多个传输单元构成一个传输单元组。传输单元支持多种传输目标，主要有:下一级数据采集系统；分布式存储系统，如HDFS、HBASE等；关系型数据库RDB ;内存型数据库Redis，支持实时展示。
[0053]传输控制单元，负责从一个指定的传输单元组中激活一个传输单元，并控制传输单元的负载均衡或故障恢复。传输单元组可以通过组中所有传输单元实现负载均衡；也可以在一个传输单元失败时转移到另一个传输单元。支持的负载均衡算法有随机算法、轮训算法或自定义选择算法等。
[0054]触发单元，对传输单元的运行情况进行实时监控和管理，并触发传输控制单元对传输单元进行负载均衡或故障转移。
[0055]与现有技术相比，本发明具有以下优点:
[0056](I)本发明采用多方式的数据采集，提供的数据采集方式可以覆盖目前主流的数据采集方式，满足对各类数据源全面采集的需求。
[0057](2)本发明采用全面的数据解析方式。在原有特殊字段抽取、格式转换等解析基础上，增加了特殊符号或字段依据字典表进行替换、字段补齐完善、面向多标准的数据重构等解析功能，满足了为不同上层应用系统构建不同标准化数据的要求。
[0058](3)采用级联部署、多路分发的体系架构，主要有以下优点:
[0059]在大型复杂网络环境下，数据源比较多且分散，往往需要部署多套采集系统才能满足数据采集要求。采集系统采取级联部署可以减轻数据采集的管理难度。
[0060]在大型网络环境下，众多业务系统和管理系统已经逐步趋向于使用MapReduce、hdfs等分布式大数据计算与存储技术，这些技术擅长处理的是大文件或大数据流，而不是众多的小文件或小数据流。采集系统恰好可以将分散的小数据流或小文件进行汇总后再提交给分布式计算与存储系统，符合大数据应用场景，有利于提高处理效率。
[0061]目前各类应用系统数据采集呈现烟囱架构，各自部署自己的数据采集工具，相互之间的数据不能进行共享，不仅浪费了资源，同时也增加了管理的难度。采用多路分发的技术，各个系统可以共用一套数据采集技术，将数据全面采集后，根据各业务系统的需求，进行数据分发。能更好地适应业务应用和安全管理需求。
【专利附图】

【附图说明】
[0062]图1为本发明实施例数据采集示意图；
[0063]图2为本发明所涉及的数据采集系统组成框图；
[0064]图3为本发明实施例采集代理模块组成图；
[0065]图4为本发明实施例多系统级联部署示意图。
【具体实施方式】
[0066]下面根据附图和具体实施例对本发明做进一步说明。
[0067]一种大规模分布式网络安全数据采集方法，包括以下步骤:
[0068]步骤一，多方式数据采集。
[0069]考虑到网络安全数据源形式多样、分布广泛，本发明在数据采集方面通过4种方式实现对各类数据源的全面采集，数据采集示意图如图1所示，包括以下4种方式:
[0070]方式一:主动模式。原始数据以文件、数据库等形式存储在数据生产地，不支持主动向第三方设备或系统发送数据，同时也不支持在数据生产地开启文件共享、超级权限、FTP等不安全服务。针对上述应用场景，对于以文件形式存储的原始数据，本发明采取在数据生产地部署采集代理的方法采集指定数据。采集代理工作机制为:对指定目录下的文件进行监听，按照可配置的时间间隔，对该目录下发生更新的文件进行增量读取，同时对该文件的最新读取位置进行更新和维护，避免文件中数据的重复读取。针对以数据库形式存储的原始数据，本发明通过ODBC/JDBC等通用协议获取原始事件，无需在数据生产地部署采集代理。
[0071]方式二:被动模式。原始数据产生后，通过Syslog、Snmp、WebService等方式发送给指定的数据接收者。对于数据采集系统，仅需要被动接收数据即可。
[0072]方式三:来自上一级采集系统发送的数据(采集系统级联)。
[0073]方式四:镜像模式。通过网络交换设备的镜像端口，接收来自网络中传输的任何网络访问流。
[0074]步骤二，数据解析与标准化。
[0075]安全管理运维系统需要管理大量异构的安全设备，需要从这些设备上采集各类日志信息。为了对各类日志信息进行统一的检索查询、交叉关联、分析统计等二次处理，往往需要提前对各类日志进行格式统一化。但是，目前业界还未制定统一的日志格式标准，各家的日志格式各不相同，甚至，同一厂家不同产品或同一产品不同版本的日志格式也不相同，而且在某些厂商的产品日志中，包含了众多非通用的数字和符号，需要通过该厂商的专用字典表进行转换才能成为管理员可识别的信息。针对上述问题，传统的解决办法是，针对每一种日志格式，定制开发一种解析算法，该方法耗时耗力，不能满足安全管理对新增设备日志数据快速采集的要求。
[0076]本发明采用了基于策略文档的方式对日志进行解析，克服了传统的需要定制开发的缺点，简单、快捷地实现了对新增设备的支持。
[0077]通过研究发现，虽然各厂商、各设备产生的日志格式各不相同，但是，每一个具体的设备或系统产生的日志的种类和格式是相对固定的，即每个设备基本上包含系统日志、管理日志、安全日志、业务日志等几种固定格式的日志。因此，针对每一个具体的设备或系统，仅需要收集重点关注的日志类型的典型样例，即可制定解析策略。当信息系统中有新增设备或原有设备的日志格式发生变更时，也只需要收集新增设备的日志格式或原设备变更的日志格式，即可制定或修改解析策略。
[0078]依据数据源的形式不同，解析策略有所区别，主要有两种:一种是针对以文件形式存储或以数据流形式传输的原始日志，策略文档为一系列解析正值表达式构成的XML文档；另一种是针对以数据库形式存储的原始日志，策略文档为一系列SQL语句与解析正值表达式构成的XML文档；传统的解析策略仅提供两个方面的解析功能:
[0079](I)从原有日志中抽取指定字段。
[0080](2)对原有字段不符合统一格式的进行格式归一化。
[0081]本发明在提供上述两个解析功能的基础上，又提供了以下三个方面的功能:
[0082]( I)对原有日志的特殊符号或字段依据字典表进行替换。允许将厂商自己专有的字典表放入到解析策略文件中，对特殊符号和字段进行对照解析。
[0083](2)对原有日志依据预先设定值进行补充完善。例如设备的名称、编码、类型、所属部门等基础管理信息，并不会体现在设备产生的原始日志信息中，而后续通过对这些原始日志分析产生的告警、响应等处理往往需要知道这些基础管理信息。本解析策略文件允许通过源IP地址关联的方式，为原有日志添加附加信息。
[0084](3)多标准数据重构。本发明的数据采集方法考虑到为上层多个应用系统提供数据采集功能。由于不同应用系统有不同的数据标准格式，因此，允许在解析策略文件中描述不同格式的数据标准，为不同的上层应用系统构建不同的标准化数据。
[0085]步骤三，数据分发传输。
[0086]目前各类应用系统数据采集呈现烟囱架构，各自部署自己的数据采集工具，相互之间的数据不能进行共享，不仅浪费资源，同时也增加了管理的难度。因此，本发明的数据采集方法设计了数据分发传输模式。数据分发传输包括以下步骤:
[0087](I)设置分发策略。提供两种分发模式:
[0088]数据复制:一份经过格式标准化的数据可能同时被多个上层应用系统所共用，针对这些数据，为各自上层应用提供一份数据复制，并发送给指定的数据缓存单元；
[0089]数据路由:某类原始事件仅被上层某个应用系统单独使用，针对这类数据，仅提供路由功能，将该数据路由到指定的数据缓存单元中。
[0090](2)建立数据缓存单元，分发各类数据。考虑到数据源数据生成速率与上层各类应用系
[0091]统接收数据速率不匹配因素，在数据采集方法中设计了数据缓存功能，为每一类上层应
[0092]用建立一个数据缓存单元，缓存标准化后的数据，防止数据生成过快而上层应用系统接
[0093]收速率过慢导致数据丢失。
[0094](3)数据传输。提供了面向关系型数据库RDB、分布式存储系统HDFS/HBASE、内存数据库Redis、下级数据采集系统等多种目标传输数据的功能，满足不同业务应用系统需求。
[0095]一种实现所述大规模分布式网络安全数据采集方法的系统，其组成如图2所示，包括:采集代理模块、数据采集模块，数据解析模块，数据分发传输模块。其中，
[0096]采集代理模块:针对原始数据以文件形式存储在数据生产地，不支持主动向第三方设备或系统发送数据，同时也不支持在数据生产地开启文件共享、超级权限、FTP等不安全服务的应用场景，本发明采取在数据生产地部署采集代理采集指定数据。采集代理模块组成框图如图3所示，包括:目录监听单元，配置文件，配置加载单元，读取单元，发送单元。
[0097]数据采集模块，负责从网络中分散的各类数据源采集原始数据，并转发给数据解析模块。数据采集模块包括:专有协议监听单元，Syslog监听单元，Snmp监听单元，WebService调用单元,数据库中间件，配置文件。
[0098]数据解析模块，从数据采集模块获取到原始数据后，按照预先配置的解析策略对原始数据进行解析和标准化，并结合分发策略，将标准化的数据分发给分发传输模块。数据解析模块包括:
[0099](I)解析策略文档。负责记录解析相关策略。
[0100](2)解析引擎单元，依据解析策略文档对原始事件进行解析和标准化。
[0101]解析引擎单元的工作过程主要包括:第一步，原始数据匹配；第二步，关键字段抽取；第三步，特殊字段替换；第四步，指定字段补齐。
[0102](3)数据封装及适配单元，服务于分发控制单元，负责对标准化后的数据进行封装和适配，形成一条event数据。每个event都由两个部分组成:header和body。分装功能按照解析策略文档中指定的标准格式，构建body。body中承载了按照目标要求封装好的标准化数据。适配功能按照预设的分发策略完善header。header中主要由内置字段时间戳以及自定义字段，例如:ID、分组标志位等组成。通过适配功能，可以在header中添加主机名、静态标识等信息，为分发控制单元提供分发依据。
[0103](4)分发控制单元,基于event中的header信息,对event进行分发。支持数据复制和数据路由两种数据分发方式。
[0104]数据分发传输模块，依据分发策略对标准化数据进行分组缓存，并依据转发策略向多个不同的传输目标进行数据传输。该模块包括:缓存单元，传输单元，传输控制单元，触发单元。
[0105]本发明的数据采集系统在多级复杂网络环境下采用级联部署、多路分发的体系架构，多个采集系统级联部署模式示意图如图4所示。采集系统-1，采集系统_2，采集系统-3分别接收部署在大型网络系统中的各类数据源，并进行解析、归一和标准化，将分散的数据进行汇总，形成较大的数据流。采集系统-4依据预先配置的策略，对汇总的数据流进行分发，例如将来自数据源-1，数据源-2的数据分发给业务应用一；将来自数据源-1，数据源_2，数据源_3，数据源-4的数据分发给业务应用二；将所有数据源汇总，分发给业务应用三，同时复制一份，传输给下一级的采集系统。分发的目标支持多种类型，包括用于实时展示的内存型数据库redis、基于结构化存储的关系型数据库，用于大数据存储的分布式存储系统等。
【权利要求】
1.一种大规模分布式网络安全数据采集方法，包括以下步骤: 步骤一，多方式数据采集；步骤二，数据解析与标准化；步骤三，数据分发传输；其特征在于: 步骤一所述多方式数据采集采取以下4种方式: 方式一:主动模式；在数据生产地部署采集代理的方法采集指定数据；采集代理工作机制为:对指定目录下的文件进行监听，按照可配置的时间间隔，对该目录下发生更新的文件进行增量读取，同时对该文件的最新读取位置进行更新和维护，避免文件中数据的重复读取；针对以数据库形式存储的原始数据，通过ODBC/JDBC通用协议获取原始事件，无需在数据生产地部署采集代理；方式二:被动模式；原始数据产生后，通过Syslog、Snmp> WebService方式发送给指定的数据接收者；对于数据采集系统，仅需要被动接收数据；方式三:来自上一级采集系统发送的数据；方式四:镜像模式；通过网络交换设备的镜像端口，接收来自网络中传输的任何网络访问流；步骤二所述数据解析采用基于策略文档的方式对日志进行解析，实现对新增设备的支持；针对每一个具体的设备或系统，收集重点关注的日志类型的典型样例制定解析策略；当信息系统中有新增设备或原有设备的日志格式发生变更时，收集新增设备的日志格式或原设备变更的日志格式制定或修改解析策略；步骤三所述数据分发传输还包括以下步骤: (O设置分发策略:提供数据复制和数据路由两种分发模式； (2)建立数据缓存单元，分发各类数据:为每一类上层应用建立一个数据缓存单元，缓存标准化后的数据，防止数据生成过快而上层应用系统接收速率过慢导致数据丢失； (3)数据传输:提供面向关系型数据库RDB、分布式存储系统HDFS/HBASE、内存数据库Redis、下级数据采集系统的目标传输数据的功能，满足不同业务应用系统需求。
2.根据权利要求1所述的一种大规模分布式网络安全数据采集方法，其特征在于，所述解析策略依据数据源的形式不同有所区别，主要有两种:一种是针对以文件形式存储或以数据流形式传输的原始日志，策略文档为一系列解析正值表达式构成的XML文档；另一种是针对以数据库形式存储的原始日志，策略文档为一系列SQL语句与解析正值表达式构成的XML文档。
3.根据权利要求1或2所述的一种大规模分布式网络安全数据采集方法，其特征在于，所述解析策略除了具有两个传统的解析功能外，又提供了以下三个方面的功能: (1)对原有日志的特殊符号或字段依据字典表进行替换；允许将厂商自己专有的字典表放入到解析策略文件中，对特殊符号和字段进行对照解析； (2)对原有日志依据预先设定值进行补充完善；解析策略文件允许通过源IP地址关联的方式，为原有日志添加附加信息； (3)多标准数据重构；允许在解析策略文件中描述不同格式的数据标准，为不同的上层应用系统构建不同的标准化数据。
4.一种大规模分布式网络安全数据采集系统，其特征在于包括:采集代理模块，数据采集模块，数据解析模块，数据分发传输模块；其中，采集代理模块，部署在数据生产地，采集并传输指定数据；数据采集模块，用于从网络中分散的各类数据源采集原始数据，并转发给数据解析模块；数据解析模块，从数据采集模块获取到原始数据后，按照预先配置的解析策略对原始数据进行解析和标准化，并结合分发策略，将标准化的数据分发给分发传输模块；数据分发传输模块，依据分发策略对标准化数据进行分组缓存，并依据转发策略向多个不同的传输目标进行数据传输。
5.根据权利要求4所述的一种大规模分布式网络安全数据采集系统，其特征在于，所述数据采集系统在多级复杂网络环境下采用级联部署、多路分发的体系架构。
6.根据权利要求4所述的一种大规模分布式网络安全数据采集系统，其特征在于，所述采集代理模块包括: 目录监听单元，负责对指定目录下的文件变化情况进行实时监听，并将变化情况报送读取模块；主要包含新增文件监听、文件新增内容监听；配置文件单元，负责记录源文件存放路径、源文件的读取时间间隔、发送目标地址和目标端口参数；配置加载单元，对配置文件进行加载，为其它单元提供服务；读取单元，依据目录监听单元报送的文件变化情况，对指定目录下的源文件新增数据进行读取，并打包发送给发送单元；读取单元负责对最新读取位置进行标识和维护；发送单元，按照指定的目标地址和端口对源数据进行发送。
7.根据权利要求4所述的一种大规模分布式网络安全数据采集系统，其特征在于，所述数据采集模块包括: 专有协议监听单元，用于监听采集代理或其它采集系统发送的数据流； Syslog监听单元,用于开启Syslog服务,接收Syslog数据流； Snmp监听单元,用于开启Snmp服务,接收Snmp数据流； WebService调用单元,通过调用数据源提供的WebService接口，获取原始数据；网络流量监听单元，用于捕获交换设备镜像端口转发的数据流；数据库中间件单元，用于向指定的数据库建立连接，并从制定的表中获取数据信息；配置文件单元，用于记录以上各个监听单元正常工作所需的基础信息。
8.根据权利要求4所述的一种大规模分布式网络安全数据采集系统，其特征在于，所述数据解析模块包括: 解析策略文档单元，负责记录解析相关策略，包括:源日志格式的正值表达式描述，关键字段抽取策略，特殊字符或字段转换表，标准化格式描述，数据补齐策略；解析引擎单元，依据解析策略文档对原始事件进行解析和标准化；数据封装及适配单元，服务于分发控制单元，负责对标准化后的数据进行封装和适配，形成一条event数据；每个event都由header和body两个部分组成；分发控制单元，基于event中的header信息,对event进行分发,支持数据复制和数据路由两种数据分发方式。
9.根据权利要求4所述的一种大规模分布式网络安全数据采集系统，其特征在于，所述数据分发传输模块包括: 缓存单元，用于分组缓存从数据解析模块发送进来的events ;数据解析模块决定了向哪个缓存单元发送哪些events、发送频率以及每次发送的个数；缓存单元的数量依据分发策略进行动态增加或减少；采用基于内存型的数据结构作为缓存单元的存储容器，缓存单元不提供持久化的数据保存，一旦断电和设备故障，缓存单元中的数据将会丢失；传输单元，依据配置信息从缓存单元中提取events，传输到指定的下一跳或最终目标；当传输完成后，从缓存单元中删除该events ;多个传输单元构成一个传输单元组；传输单元支持多种传输目标；传输控制单元，负责从一个指定的传输单元组中激活一个传输单元，并控制传输单元的负载均衡或故障恢复；传输单元组可以通过组中所有传输单元实现负载均衡；也可以在一个传输单元失败时转移到另一个传输单元；支持的负载均衡算法有随机算法、轮训算法或自定义选择算法；触发单元，对传输单元的运行情况进行实时监控和管理，并触发传输控制单元对传输单元进行负载均衡或故障转移。
【文档编号】H04L29/06GK103731298SQ201310572103
【公开日】2014年4月16日申请日期:2013年11月15日优先权日:2013年11月15日
【发明者】郭旭东, 王红艳, 胡佳, 李玉鹏, 沈艳林, 石波, 李红申请人:中国航天科工集团第二研究院七〇六所, 北京航天爱威电子技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭旭东;王红艳;胡佳;李玉鹏;沈艳林;石波;李红;
技术所有人：中国航天科工集团第二研究院七〇六所; 北京航天爱威电子技术有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。