一种以大数据流式技术实现网络数据包的分析方法及系统与流程

文档序号:19605136发布日期:2020-01-03 13:27阅读:210来源:国知局
一种以大数据流式技术实现网络数据包的分析方法及系统与流程

本发明实施例涉及网络数据包流技术领域,具体涉及一种以大数据流式技术实现网络数据包的分析方法及系统。



背景技术:

互联网上面存在大量的设备,其中,以网络服务器为例,其最底层网卡驱动会把网络上面收到的数据包交给系统上层的程序(例如:http服务、dpi服务)。

现有技术中,当终端设备从网卡缓存中获取到网络数据包时,一般采用网络协议栈进行处理,将网络数据包传输至硬件链路层、网络层、传输层、bsd(berkeleysoftwaredistribution,伯克利软件发布)socket层、及应用层,每一层分别进行网络数据包的解析处理。

利用现有技术的网络数据包流,可统计从连接开始到连接结束期间的数据包数量和大小,分析每个数据包携带的信息,可便于实时预知用户的需求,评估用户的喜好内容,掌握基本的客户资料,从而方便线下交易的快速搞笑。

但是现有的网络数据包的分析方法还存在以下缺陷:

一般只以用户为主体,特定分析单一用户的网络浏览记录,推送与浏览记录近似的信息,导致信息的推送范窄,灵活性差,对客户需求的分析范围狭窄不全面。



技术实现要素:

为此,本发明实施例提供一种以大数据流式技术实现网络数据包的分析方法及系统,采用以浏览对象和用户本体为本体,正向和反向明确获得特定用户的浏览记录,分析用户的意向,并且统计学的方式收集类似用户的浏览信息,以解决现有技术中导致信息的推送范窄,灵活性差,对客户需求的分析范围狭窄不全面的问题。

为了实现上述目的,本发明的实施方式提供如下技术方案:一种以大数据流式技术实现网络数据包的分析方法,包括如下步骤:

步骤100、接收连接开始和连接结束之间的数据,划分数据包的属性信息,按照时间顺序将数据包先后排序;

步骤200、选择数据包的属性,根据不同的属性组合形式筛选数据流,关联数据包属性的映射关系,统计两个以上相关属性之间的对应关系;

步骤300、根据数据包属性的映射信息,筛选出映射信息相同属性不同的数据流,关联计算两个以上相关属性之间的对应关系。

作为本发明的一种优选方案,在步骤100中,数据包的属性信息包括数据响应时间、源ip地址、目的端口地址、传输类型和关注时长。

作为本发明的一种优选方案,所述源ip地址和目的端口地址分别链接有映射关系,追踪所述源ip地址映射到用户基本信息,追踪所述目的端口地址映射到浏览项关键信息。

作为本发明的一种优选方案,所述用户基本信息主要包括用户姓名、性别、年龄、电话号码和生活所在区域,所述浏览项关键信息主要包括小区所在位置、面积大小、装修情况以及有无学区。

作为本发明的一种优选方案,在步骤200中,根据数据包的属性信息组合,分别获取每一个目的端口地址匹配的源ip地址,统计目的端口地址的源ip地址数量,以及源ip地址映射的用户基本信息,从而分析目的端口地址的受众用户,筛选目的端口地址对应源ip地址信息的具体步骤为:

获取一个目的端口地址相同的数据包,从所有数据包内筛选出同一目的端口地址的数据流;

统计同一目的端口地址数据包中的源ip地址,追踪源ip地址映射的用户基本信息;

统计用户基本信息的年龄分布和性别占比情况,分析每一个浏览项关键信息匹配的受众用户信息。

作为本发明的一种优选方案,在步骤200中,根据数据包的属性信息组合,分别获取每一个用户基本信息匹配的浏览项关键信息,统计源ip地址对应的目的端口地址数量,以及源ip地址匹配的目的端口地址关注时长,分析每一个用户的喜好的步骤具体为:

随机挑选一个源ip地址,获取同一源ip地址数据流中的目的端口地址;

统计同一目的端口地址出现的次数,确定用户对每一条信息的浏览次数,按照次数大小对目的端口地址排序;

计算每一个目的端口地址浏览关注总时长,按照总时长大小对目的端口地址排序;

累加目的端口地址浏览次数和浏览关注总时长参数,按照从大到小的顺序重新对同一源ip地址浏览的不同目的端口地址关注度排序;

统计每个目的端口地址对应的浏览项关键信息,分析用户对应的喜好。

作为本发明的一种优选方案,在步骤300中,确定一个目的端口地址追踪的用户基本信息后,根据当前目的端口地址映射的浏览项关键信息,关联其他基本信息相同的目的端口地址;

再根据关联的目的端口地址筛选数据流,追踪筛选出的目的端口地址映射的信息;

最后,整体统计具有相同信息的目的端口地址对应的浏览喜好,分析同一用户信息喜好的浏览项信息。

作为本发明的一种优选方案,在步骤300中,确定一个源ip地址追踪的浏览项关键信息后,根据当前源ip地址映射的用户基本信息,关联其他基本信息相同的源ip地址;

再根据关联的源ip地址筛选数据流,追踪筛选出的目的端口地址映射的信息;

最后,整体统计具有相同信息的源ip地址对应的浏览喜好,分析同一用户信息喜好的浏览项信息。

另外,本发明还提供了一种以大数据流式技术实现网络数据包的分析系统,包括:

源ip映射模块,用于追踪每个源ip地址对应的用户信息;

目的ip映射模块,用于追踪每个目的端口地址对应的关键信息;

属性筛选单元,用于根据源ip地址或者目的端口地址,确定每个信息的受众用户,以及每个用户的喜好信息;

源ip信息关联模块,用于根据源ip地址的映射信息,关联映射信息相同的用户,统计该用户的浏览记录,计算信息相同的用户浏览的喜好顺序;

目的ip信息关联模块,用于根据目的端口地址的映射信息,关联映射信息相同的目的端口地址,统计该目的端口地址对应的源ip地址的映射信息,分析关键信息相同的浏览项对应的受众用户。

本发明的实施方式具有如下优点:

(1)本发明通过正向统计用户关注的浏览项信息,从而分析用户的喜好对象,方便为用户提供更多类似的浏览项,并且也可以反向分析每一个浏览项对应的用户群体分布,通过正向和反向分析明确获得特定一个用户的浏览记录,分析用户的意向,收集用户的浏览信息,评估用户的主要浏览对象,推送相似的浏览项,实现大数据推送;

(2)本发明以统计学的方式,得到概率性的结果,从而以大概率性结果为依据,收集用户的浏览信息,提高分析用户的意向的准确度,评估用户的主要浏览对象,推送相似的房屋给用户,避免出现分析结果不准确的问题。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施方式中网络数据包流分析系统的结构框图;

图2为本发明实施方式中网络数据包流分析方法的流程示意图。

图中:

1-源ip映射模块;2-目的ip映射模块;3-属性筛选单元;4-源ip信息关联模块;5-目的ip信息关联模块。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,一种以大数据流式技术实现网络数据包的分析系统,包括:

源ip映射模块1,用于追踪每个源ip地址对应的用户信息;

目的ip映射模块2,用于追踪每个目的端口地址对应的关键信息;

属性筛选单元3,用于根据源ip地址或者目的端口地址,确定每个信息的受众用户,以及每个用户的喜好信息;

源ip信息关联模块4,用于根据源ip地址的映射信息,关联映射信息相同的用户,统计该用户的浏览记录,计算信息相同的用户浏览的喜好顺序;

目的ip信息关联模块5,用于根据目的端口地址的映射信息,关联映射信息相同的目的端口地址,统计该目的端口地址对应的源ip地址的映射信息,分析关键信息相同的浏览项对应的受众用户。

为了解释上述分析系统的工作方式,如图2所示,本发明提供了一种以大数据流式技术实现网络数据包的分析方法,本实施方式主要用于统计分析购房app对用户浏览记录的线上浏览查询情况,帮助房地产中介公司开发客户,并且主动掌握客户的购买需求,方便房地产中介公司及时按照客户需求,推送相关的房产。

因此本实施方式首先将缓存的网络数据包流按序排列,并且创建源ip地址与用户基本信息之间的映射关系,以及目的端口地址与浏览项关键信息之间的映射关系,因此根据一个网络数据包的源ip地址后,可直接追踪到用户的基本信息,根据一个网络数据包的目的端口地址后,可直接追踪到该浏览项的关键信息。

在创建映射关系后,可正向统计用户关注的浏览项信息,从而分析用户的喜好对象,方便为用户提供更多类似的浏览项,并且也可以反向分析每一个浏览项对应的用户群体分布,通过正向和反向分析,明确获得特定一个用户的浏览记录,分析用户的意向,收集用户的浏览信息,评估用户的主要浏览对象,推送相似的浏览项,实现大数据推送。

具体包括如下步骤:

步骤100、接收连接开始和连接结束之间的数据,划分数据包的属性信息,按照时间顺序将数据包先后排序。

数据包一般由应用层、传输层、网络层、数据链路层封装而成。在本实施方式中,属性信息包括数据响应时间、源ip地址、目的端口地址、传输类型和关注时长。其中数据响应时间是指用户打开目的端口地址的时间,关注时长是指用户开始至结束关注该目的端口地址的总时长;源端口和源ip地址的作用是标识报文的返回地址,16位的源端口包含初始化通信的端口号,目的端口地址指明报文接收计算机上的应用程序地址接口,16位的目的端口域定义传输的目的;传输层的类型有tcp、udp、tls、dccp、sctp、rsvp、pptp,常用的有tcp,udp。

其中源ip地址和目的端口地址分别链接有映射关系,追踪所述源ip地址映射到用户基本信息,根据购置房屋的能力,限定用户基本信息主要包括用户姓名、性别、年龄、电话号码和生活所在区域。

追踪所述目的端口地址映射到浏览项关键信息,浏览项关键信息主要包括小区所在位置、面积大小、装修情况以及有无学区。

众所周知,小区的位置、面积大小、装修与否以及学区问题,对于不同年龄段的用户来说需求不等,比如说20-25岁之间的年轻人买房时,对学区问题的关注度不高,大多对小区位置、面积大小和装修情况的关注度高。

因此在网络数据包流中,筛选出同一个目的端口地址对应的源ip地址,获得目的端口地址映射的浏览项关键信息与源ip地址映射的用户基本信息之间的关联关系,以每个房子为第一视角,将房子推送给关注度比较高的用户群体,可提高中介公司的房产买卖成交量。

步骤200、选择数据包的属性,根据不同的属性组合形式筛选数据流,关联数据包属性的映射关系,统计两个以上相关属性之间的对应关系。

步骤200具体是指,根据数据包的属性信息组合,分别获取每一个目的端口地址匹配的源ip地址,统计源ip地址数量,以及源ip地址映射的用户基本信息,从而分析目的端口地址映射的浏览项关键信息与源ip地址之间的关联关系,分析每一个目的端口地址的受众用户。从而分析每一个目的端口地址对应的房屋信息与用户信息之间的对应关系,得到该房屋对应的受众群体信息。

一般来说,无学区已装修的房子被最多浏览的对象是20-25岁的年轻人。

具体筛选目的端口地址对应源ip地址信息的具体步骤为:

获取一个目的端口地址相同的数据包,从所有数据包内筛选出同一目的端口地址的数据流;

统计同一目的端口地址数据包中的源ip地址,追踪源ip地址映射的用户基本信息;

统计用户基本信息的年龄分布和性别占比情况,分析每一个浏览项关键信息匹配的受众用户信息。

通过分析每一个目的端口地址对应的房屋面向的用户信息,并且对用户信息的统计,可得到该房屋的受众群体分类,因此可辅助中介公司将该房屋推荐给符合受众群体的新用户,从而提高中介公司与客户之间的沟通效率。

另外在分析每一个目的端口地址对应的源ip地址之后,可统计在该时间段内的网络数据包流中,浏览次数最多的源ip地址,说明该源ip地址对应的用户目前对房屋购买需求大,根据数据包的属性信息组合,反向获取该该源ip地址匹配的浏览项关键信息,统计源ip地址对应的目的端口地址数量,以及源ip地址匹配的目的端口地址关注时长,可具体评估用户的主要浏览对象,方便线下推送类似信息的房屋给该用户。

具体分析每一个用户的喜好的步骤具体为:

随机挑选一个源ip地址,获取同一源ip地址数据流中的目的端口地址。

统计同一目的端口地址出现的次数,确定用户对每一条信息的浏览次数,按照次数大小对目的端口地址排序,此步骤表示该用户对该目的端口地址对应的房屋兴趣比较大。

计算每一个目的端口地址浏览关注总时长,按照总时长大小对目的端口地址排序,同样的对一个目的端口地址的浏览时间长短,也表示该用户对该目的端口地址对应的房屋兴趣。

累加目的端口地址浏览次数和浏览关注总时长参数,按照从大到小的顺序重新对同一源ip地址浏览的不同目的端口地址关注度排序,参数比较大的目的端口地址,则意味着用户对该端口地址对应的房屋兴趣大。

统计每个目的端口地址对应的浏览项关键信息,分析用户对应的喜好。

因此本实施方式通过统计用户对不同目的端口地址的关注度,反映用户对不同房屋的喜好程度,方便中介公司直接分析统计结果,与客户进行线下沟通,可提高中介公司与客户之间的沟通效率,减少沟通成本,提高买卖成交率。

步骤300、根据数据包属性的映射信息,筛选出映射信息相同属性不同的数据流,关联计算两个以上相关属性之间的对应关系。

确定一个目的端口地址追踪的用户基本信息后,以点及面,先根据当前目的端口地址的浏览项基本信息,从网络数据包流内查找与该浏览项基本信息类似或者相符的其他目的端口地址,从而可统计同一类的房屋整体的受众群体,利用统计学方法,提高步骤200中得到的浏览项关键信息匹配的受众用户信息准确度。

具体方式如下:先根据当前目的端口地址映射的浏览项关键信息,关联其他基本信息相同的目的端口地址;再根据关联的目的端口地址筛选数据流,追踪筛选出的目的端口地址映射的信息;最后,整体统计具有相同信息的目的端口地址对应的浏览喜好,分析同一用户信息喜好的浏览项信息。

同样的,确定一个源ip地址追踪的浏览项关键信息后,先根据当前源ip地址映射的用户基本信息,关联其他基本信息相同的源ip地址;再根据关联的源ip地址筛选数据流,追踪筛选出的目的端口地址映射的信息;最后,整体统计具有相同信息的源ip地址对应的浏览喜好,分析同一用户信息喜好的浏览项信息。

因此本实施方式提供的网络数据包流的分析方法灵活性大,准确性高,分别以目的端口地址和源ip地址为第一视角,用于分析相同房屋情况的主要关注用户群体,以及分析某个用户群体具体关注的房屋情况,从而辅助中介公司分别以房屋和用户为本体,均可实现对用户推荐合适刚需的房屋,因此提前掌握分析用户的资料,可提高中介公司与客户之间的沟通效率,减少沟通成本,提高买卖成交率。

另外本实施方式的分析方法,并不单单以特定局面的一个分析方法,而是以统计学的方式,得到概率性的结果,从而以大概率性结果为依据,收集用户的浏览信息,提高分析用户的意向的准确度,评估用户的主要浏览对象,推送相似的房屋给用户,避免出现分析结果不准确的问题。

虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1