一种一体化网络用户行为分析方法与流程

文档序号:11959560阅读:532来源:国知局

本发明属于网络方法领域,更具体地说,本发明涉及一种一体化网络用户行为分析方法。



背景技术:

在网络用户行为分析及分类方面,国外起步比较早。一般来说,研究方式主要分为两种一一传统和非传统。传统的方法如纸质问卷调查、电话访谈、电子邮件、实验观察等,它们通常是指在一个相对大的范围内通过直接调查的方式搜集研究对象的资料从而进行研宄分析,属于一种经验性的方法。该方法的优势就是能够获得用户大量的第一手资料,获取方式快速直接。不足之处就是对研究对象的选择有一定要求,需具备代表性。另一方面,被调查者往往基于各种因素不愿意如实汇报最真实的数据。但就目前而言,传统的调查仍然不失为一种较为有效的方式。网络的日新月异和计算机技术的迅猛发展势必使得互联网的普及度越来越高,用户数量不断激增,网络用户行为的研究也随之发生了较大的变革。传统的研究方法逐渐力不从心,非传统的方法应运而生,如用户注册信息和研究、Web日志分析、网络挖掘、流量计量法等。



技术实现要素:

本发明所要解决的问题是提供一种一体化网络用户行为分析方法。

为了实现上述目的,本发明采取的技术方案为:

一种一体化网络用户行为分析方法,包括如下步骤:

(1)数据采集

此时部署在接入网的数据采集设备对数据包进行捕获,一方面执行轻量级的在线分析,另一方面数据将被存储在分布式文件系统中供定期的离线分析;

(2)流量分析

高速的用户上网行为数据包存储在HDFS后,部署在HDFS集群节点中的NetFlow便开始读取离线读取数据包,并通过缓存对数据包进行还原至用户会话级别;

(3)协议分析

流量首先会根据用户进行区分,每个数据包都会有相应的用户与之对应,IPFIX插件对数据流进行协议分析;

(4)内容分析

①用户数据包的重组还原

用户数据包的重组还原是内容分析的第一步。调用分布式存储系统的接口,我们能够获取采集到的一体化网络中用户数据包,然后,借助网络安全开发包工具Libnids的TCP重组功能,并结合HTTP协议的特点,我们能够完成对HTTP协议的解析,还原相应的会话信息;

②搜索行为分析

③微博内容分析

通过对应到微博内容的指定字段,然后采用对应的解码方式进行解码能够得到网络中用户微博的数据内容。

优选的,所述步骤(1)中采用的是高效数据捕获框架PF_RING。

优选的,所述步骤(2)中NetFlow在读取某个用户第一个数据包后便会对该包进行标记,初始化后加入NetFlow缓存列表,在随后不断有该用户新的数据包进入时,数据只在同一个数据流中传输,数据流的统计信息也是不断基于同一个用户数据包进行更新的。

优选的,所述步骤(3)中IPFIX的插件实现主要运用基于动态链接库的插件技术。

优选的,所述步骤(4)中在HTTP消息中,主要提取HTTP请求部分,对用户的行为分析。

优选的,所述步骤(4)中用户搜索行为分析采用了基于Mapreduce的编程模型。

有益效果:本发明提供了一种一体化网络用户行为分析方法,采用高效数据捕获框架PF_RING,减少了拷贝次数和中断次数,能够节省拷贝过程中占用的系统内存,极大地增强系统的数据包捕获效能,提高内核处理数据包效率,实现高速数据包的捕获、过滤和分析,NetFlow在读取某个用户第一个数据包后便会对该包进行标记,初始化后加入NetFlow缓存列表,在随后不断有该用户新的数据包进入时,数据只在同一个数据流中传输,数据流的统计信息也是不断基于同一个用户数据包进行更新的,便于后期分析处理,所述在HTTP消息中,主要提取HTTP请求部分,对用户的行为分析,从HTTP请求便掌握了用户自身主动发起的行为动作,所述用户搜索行为分析采用了基于Mapreduce的编程模型,将任务分布式执行,大大提高了运算的速度,该分析方法可行性强、操作简单,适用于现代网络行为的研究。

具体实施方式

一种一体化网络用户行为分析方法,包括如下步骤:

(1)数据采集

此时部署在接入网的数据采集设备对数据包进行捕获,一方面执行轻量级的在线分析,另一方面数据将被存储在分布式文件系统中供定期的离线分析,所述数据采集设备为采用高效数据捕获框架PF_RING;

(2)流量分析

高速的用户上网行为数据包存储在HDFS后,部署在HDFS集群节点中的NetFlow便开始读取离线读取数据包,并通过缓存对数据包进行还原至用户会话级别,所述NetFlow在读取某个用户第一个数据包后便会对该包进行标记,初始化后加入NetFlow缓存列表,在随后不断有该用户新的数据包进入时,数据只在同一个数据流中传输,数据流的统计信息也是不断基于同一个用户数据包进行更新的;

(3)协议分析

流量首先会根据用户进行区分,每个数据包都会有相应的用户与之对应,IPFIX插件对数据流进行协议分析,所述IPFIX的插件实现主要运用基于动态链接库的插件技术;

(4)内容分析

①用户数据包的重组还原

用户数据包的重组还原是内容分析的第一步。调用分布式存储系统的接口,我们能够获取采集到的一体化网络中用户数据包,然后,借助网络安全开发包工具Libnids的TCP重组功能,并结合HTTP协议的特点,我们能够完成对HTTP协议的解析,还原相应的会话信息,在HTTP消息中,主要提取HTTP请求部分,对用户的行为分析;

②搜索行为分析

用户搜索行为分析采用了基于Mapreduce的编程模型;

③微博内容分析

通过对应到微博内容的指定字段,然后采用对应的解码方式进行解码能够得到网络中用户微博的数据内容。

本发明提供了一种一体化网络用户行为分析方法,采用高效数据捕获框架PF_RING,减少了拷贝次数和中断次数,能够节省拷贝过程中占用的系统内存,极大地增强系统的数据包捕获效能,提高内核处理数据包效率,实现高速数据包的捕获、过滤和分析,NetFlow在读取某个用户第一个数据包后便会对该包进行标记,初始化后加入NetFlow缓存列表,在随后不断有该用户新的数据包进入时,数据只在同一个数据流中传输,数据流的统计信息也是不断基于同一个用户数据包进行更新的,便于后期分析处理,所述在HTTP消息中,主要提取HTTP请求部分,对用户的行为分析,从HTTP请求便掌握了用户自身主动发起的行为动作,所述用户搜索行为分析采用了基于Mapreduce的编程模型,将任务分布式执行,大大提高了运算的速度,该分析方法可行性强、操作简单,适用于现代网络行为的研究。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1