一种电信海量数据的关联方法、装置及存储介质与流程

文档序号:24873169发布日期:2021-04-30 12:46阅读:115来源:国知局
一种电信海量数据的关联方法、装置及存储介质与流程
本申请涉及计算机
技术领域
,尤其涉及一种电信海量数据的关联方法、装置及存储介质。
背景技术
:在运营商电信机房链路部署dpi设备,设备生成的报文需要通过分流按五元组哈希策略分发到不同的解码服务器,来解决同源同宿问题,传统的方法只能解决同一机房同源同宿问题,而运营商网络设备实际部署现状,机房错综复杂,存在多机房的情况跨机房同源同宿的问题。传统的方式是通过拉传输解决,在多个机房之间拉传输,而对于运营商一些骨干网,省网,每个机房数据量特别庞大,通过机房之间拉传输,需要保证每两个机房之间均进行连接,4个机房时6条传输,8个机房需拉28条传输,12个机房则需要66条,当n个机房时候,需要的传输数量是n*(n+1)/2。因此,当面对多机房的情况时,拉传输的方式难以实现,难以解决多机房的同源同宿问题。因此,本领域亟需一种电信海量数据的关联方法、装置及存储介质。因此,有鉴于此,提出本申请。技术实现要素:本申请的目的在于提供一种电信海量数据的关联方法、装置及存储介质,解决多机房的同源同宿问题。本申请的第一方面提供了一种电信海量数据的关联方法,包括以下步骤:机房数据流接收,接收数据流,分析所述数据流得出该数据流的五元组数据和sessionid;数据流上传,接收来自各个机房的数据流,所述数据流中包括该数据流的五元组数据和sessionid,将各个机房的数据流汇总为数据集;数据流匹配,根据所述五元组数据和sessionid对所述数据集中的数据流进行匹配,提取匹配成功的数据流,并进行保存。采用上述方案,将多个机房所接收的数据流上传至数据集,根据所述五元组数据和sessionid对所述数据集中的数据流进行匹配,不需要再各个机房之间拉传输,只需要对所述数据集中的数据流进行匹配关联,解决了多机房的同源同宿问题。进一步地,所述数据流包括包括请求数据流和响应数据流,所述请求数据流为用户发出的请求,所述响应数据流与请求数据流相匹配,所述响应数据流为响应所述请求数据流向用户发送的数据流。进一步地,匹配成功的所述数据流可以保存在云端,也可以保存在本地的设备中,如硬盘或磁盘等。进一步地,所述机房数据流接收为在机房接收传入该机房的数据流。进一步地,所述数据流匹配的步骤包括数据流初次匹配,所述数据流初次匹配包括步骤:时间记录上传,记录所述数据流上传至数据集的时间为上传时间;时长阈值接收,所述时长阈值为实际的时间长度;初次数据流提取,提取所述数据集中最早的上传时间为初次上传时间,提取初次上传时间至初次上传时间+时长阈值段传入数据集的数据流,提取从初次上传时间至初次上传时间+时长阈值对应的时间段的数据流为初次数据集合;初次关联,根据所述五元组数据和sessionid对所述初次数据集合中的数据流进行匹配,提取匹配成功的数据流,并进行保存。采用上述方案,分时间段提取处于数据集中的数据流,并根据五元组数据和sessionid进行匹配,相互匹配的数据流的五元组数据和sessionid是相同的,减少大规模数据计算的计算量,可以实现数据流输入后在较短的时间内进行匹配,实现流式计算,防止数据堆积,提高计算效率。优选地,从所述初次上传时间起算,每隔时长阈值,进行一次数据流提取,提取相邻两次提取时间点间传入数据集的数据流。进一步地,所述数据流匹配的步骤包括数据流再次匹配,所述数据流再次匹配包括步骤:再次数据流提取,接收所述数据流再次匹配前一次从数据集中提取数据流的时间,将所述数据流再次匹配前一次从数据集中提取数据流的时间作为前次提取时间,提取前次提取时间至前次提取时间+时长阈值段传入数据集的数据流,提取从前次提取时间至前次提取时间+时长阈值段的数据流为再次数据集合;再次关联,根据所述五元组数据和sessionid对所述再次数据集合中的数据流进行匹配,提取匹配成功的数据流,并进行保存。采用上述方案,实现每隔时长阈值的时间,提取一次数据流,并对该时间段的数据流进行匹配,提高匹配效率。优选地,所述再次关联的步骤还包括:数据流再次接收,接收此次的数据流再次匹配之前未匹配成功的数据流为待定数据流;二次关联,将待定数据流加入再次数据集合中,根据所述五元组数据和sessionid对所述再次数据集合中的数据流进行匹配,提取匹配成功的数据流,并进行保存。采用上述方案,由于本方案的数据流是分时间段进行提取的,因此存在请求数据流和响应数据流分别处于不同的时间段的情况,当出现这种情况时,请求数据流在第一次关联时,不能匹配成功,所述第一次关联可以为初次关联也可以为再次关联;将待定数据流加入再次数据集合中进行匹配,提高数据流匹配的成功率。优选地,所述再次关联的步骤还包括数据流删除,所述数据流删除的步骤包括:判断所述待定数据流是否在二次关联中匹配成功;若是,则提取该数据流和与之匹配的数据流进行保存;若否,删除所述待定数据流。采用上述方案,存在有些请求数据流没有得到响应,因此不能匹配成功,这些数据流是无用的数据流,将这些数据流删除,减少存储空间的占用,提高存储资源利用率。进一步地,所述前次提取时间可以为初次上传时间+时长阈值的时间点,也可以为此次的数据流再次匹配之前的数据流再次匹配的前次提取时间+时长阈值的时间点。进一步地,所述机房数据流接收的步骤还包括单一机房数据流匹配,所述单一机房数据流匹配的步骤包括:将得出五元组数据和sessionid的数据流缓存在本机房;接收缓存时间,判断在所述缓存时间的时间段内是否存在与该数据流相匹配的数据流输入该机房;若是,则提取该数据流和与之匹配的数据流进行保存;若否,将该数据流进行数据流上传。采用上述方案,在实际的匹配中,存在相互匹配的请求数据流和响应数据流从同一机房出入的情况,当该种情况发生时,在机房端直接进行匹配,不需要再上传至数据集,提高网络资源利用率。优选地,所述缓存时间与所述时长阈值相等。本申请的第二方面提供了一种电信海量数据的关联系统,包括:机房数据流接收模块,用于接收数据流,分析所述数据流得出该数据流的五元组数据和sessionid;数据流上传模块,用于接收来自各个机房的数据流,所述数据流中包括该数据流的五元组数据和sessionid,将各个机房的数据流汇总为数据集;数据流匹配模块,用于根据所述五元组数据和sessionid对所述数据集中的数据流进行匹配,提取匹配成功的数据流,并进行保存。采用上述方案,将多个机房所接收的数据流上传至数据集,根据所述五元组数据和sessionid对所述数据集中的数据流进行匹配,不需要再各个机房之间拉传输,只需要对所述数据集中的数据流进行匹配关联,解决了多机房的同源同宿问题。进一步地,所述数据流匹配模块包括数据流初次匹配模块,所述数据流初次匹配模块包括:时间记录上传模块,用于记录所述数据流上传至数据集的时间为上传时间;时长阈值接收模块,用于所述时长阈值为实际的时间长度;初次数据流提取模块,用于提取所述数据集中最早的上传时间为初次上传时间,提取初次上传时间至初次上传时间+时长阈值段传入数据集的数据流,提取从初次上传时间至初次上传时间+时长阈值对应的时间段的数据流为初次数据集合;初次关联模块,用于根据所述五元组数据和sessionid对所述初次数据集合中的数据流进行匹配,提取匹配成功的数据流,并进行保存。进一步地,所述数据流匹配模块包括数据流再次匹配模块,所述数据流再次匹配模块包括:再次数据流提取模块,用于接收所述数据流再次匹配前一次从数据集中提取数据流的时间,将所述数据流再次匹配前一次从数据集中提取数据流的时间作为前次提取时间,提取前次提取时间至前次提取时间+时长阈值段传入数据集的数据流,提取从前次提取时间至前次提取时间+时长阈值段的数据流为再次数据集合;再次关联模块,用于根据所述五元组数据和sessionid对所述再次数据集合中的数据流进行匹配,提取匹配成功的数据流,并进行保存。优选地,所述再次关联模块还包括:数据流再次接收模块,用于接收此次的数据流再次匹配之前未匹配成功的数据流为待定数据流;二次关联模块,用于将待定数据流加入再次数据集合中,根据所述五元组数据和sessionid对所述再次数据集合中的数据流进行匹配,提取匹配成功的数据流,并进行保存。优选地,所述再次关联模块还包括数据流删除模块,所述数据流删除模块包括:判断所述待定数据流是否在二次关联中匹配成功;若是,则提取该数据流和与之匹配的数据流进行保存;若否,删除所述待定数据流。进一步地,所述机房数据流接收模块还包括单一机房数据流匹配模块,所述单一机房数据流匹配模块包括:将得出五元组数据和sessionid的数据流缓存在本机房;接收缓存时间,判断在所述缓存时间的时间段内是否存在与该数据流相匹配的数据流输入该机房;若是,则提取该数据流和与之匹配的数据流进行保存;若否,将该数据流进行数据流上传。本申请的第三方面提供了一种电信海量数据的关联装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的电信海量数据的关联方法。本申请的第四方面提供了一种存储介质,所述存储介质包括一个或多个程序,所述一个或多个程序可以被处理器执行以完成上述的电信海量数据的关联方法。综上所述,本申请具有以下有益效果:1、本申请的电信海量数据的关联方法,将多个机房所接收的数据流上传至数据集,根据所述五元组数据和sessionid对所述数据集中的数据流进行匹配,不需要再各个机房之间拉传输,只需要对所述数据集中的数据流进行匹配关联,解决了多机房的同源同宿问题;2、本申请的电信海量数据的关联方法,分时间段提取处于数据集中的数据流,并根据五元组数据和sessionid进行匹配,相互匹配的数据流的五元组数据和sessionid是相同的,减少大规模数据计算的计算量,可以实现数据流输入后在较短的时间内进行匹配,实现流式计算,防止数据堆积,提高计算效率;3、本申请的电信海量数据的关联方法,由于本方案的数据流是分时间段进行提取的,因此存在请求数据流和响应数据流分别处于不同的时间段的情况,当出现这种情况时,请求数据流在第一次关联时,不能匹配成功,所述第一次关联可以为初次关联也可以为再次关联;将待定数据流加入再次数据集合中进行匹配,提高数据流匹配的成功率;4、本申请的电信海量数据的关联方法,由于存在有些请求数据流没有得到响应,因此不能匹配成功,这些数据流是无用的数据流,将这些数据流删除,减少存储空间的占用,提高存储资源利用率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请电信海量数据的关联方法一种实施方式的流程图;图2为本申请电信海量数据的关联方法另一种实施方式的流程图;图3为图2步骤细化的流程图;图4为所述再次关联步骤一种实施方式的流程图;图5为所述再次关联步骤另一种实施方式的流程图;图6为本申请电信海量数据的关联方法第三种实施方式的流程图;图7为本申请电信海量数据的关联系统一种实施方式的示意图;图8为本申请电信海量数据的关联系统另一种实施方式的示意图;图9为图8模块细化的示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。如图1所示,本申请的第一方面提供了一种电信海量数据的关联方法,包括以下步骤:s100、机房数据流接收,接收数据流,分析所述数据流得出该数据流的五元组数据和sessionid;在具体实施过程中,所述五元组数据包括源ip地址、源端口、目的ip地址、目的端口和传输层协议,所述sessionid存放在服务器内存和客户机的cookie里面。当用户发出请求时,服务器将用户cookie里面记录的sessionid和服务器内存中的sessionid进行比对,从而找到这个用户对应的session进行操作。在具体实施过程中,sessionid是一个会话的key,浏览器第一次访问服务器会在服务器端生成一个session,有一个sessionid和它对应。服务端在创建了session的同时,会为该session生成唯一的sessionid,而sessionid会在随后的请求中会被用来重新获得已经创建的session;session被创建之后,就可以调用session相关的方法往session中增加内容了,而这些内容只会保存在服务器中,发到客户端的只有sessionid;当客户端再次发送请求的时候,会将这个sessionid带上,服务器接受到请求之后就会依据sessionid找到相应的session,从而再次使用之;当客户端第一次请求session对象时候,服务器会为客户端创建一个session,并将通过特殊算法算出一个session的id,用来标识该session对象。在具体实施过程中,所述五元组数据和sessionid通过可以通过dpi设备分析得出,也可以通过人为读取的方式获得。s200、数据流上传,接收来自各个机房的数据流,所述数据流中包括该数据流的五元组数据和sessionid,将各个机房的数据流汇总为数据集;在具体实施过程中,所述数据集可以存储在云端,可以存储在本地的存储设备中。在具体实施过程中,所述数据集以分布式消息队列暂存。在具体实施过程中,所述数据流传输至机房,在机房通过传输软件进行读取,所述传输软件可以为flume、hdfs、kafka或sftp等,所述flume是cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力;所述kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。s300、数据流匹配,根据所述五元组数据和sessionid对所述数据集中的数据流进行匹配,提取匹配成功的数据流,并进行保存。在具体实施过程中,所述数据流的匹配可以为提取待匹配数据流的五元组数据和sessionid,遍历数据集对比五元组数据和sessionid;也可以为根据时间将数据集进行分割,分组进行对比。采用上述方案,将多个机房所接收的数据流上传至数据集,根据所述五元组数据和sessionid对所述数据集中的数据流进行匹配,不需要再各个机房之间拉传输,只需要对所述数据集中的数据流进行匹配关联,解决了多机房的同源同宿问题。在具体实施过程中,所述同源同宿问题即为:一般高速网络数据分析系统都是采用多核服务器,每个cpu核心上会运行一个进程(或线程)并行处理,目前的系统都是由软件把网卡收到的流量分发到每个cpu核心上的报文缓冲区,分发过程中,要求同一个连接的双向数据要分到同一个进程中,这就是同源同宿。在具体实施过程中,所述数据流包括包括请求数据流和响应数据流,所述请求数据流为用户发出的请求,所述响应数据流与请求数据流相匹配,所述响应数据流为响应所述请求数据流向用户发送的数据流。在具体实施过程中,所述机房数据流接收为在机房接收传入该机房的数据流。如图2、3所示,在具体实施过程中,所述s300、数据流匹配的步骤包括s310、数据流初次匹配,所述s310、数据流初次匹配包括步骤:s311、时间记录上传,记录所述数据流上传至数据集的时间为上传时间;s312、时长阈值接收,所述时长阈值为实际的时间长度;s313、初次数据流提取,提取所述数据集中最早的上传时间为初次上传时间,提取初次上传时间至初次上传时间+时长阈值段传入数据集的数据流,提取从初次上传时间至初次上传时间+时长阈值对应的时间段的数据流为初次数据集合;s314、初次关联,根据所述五元组数据和sessionid对所述初次数据集合中的数据流进行匹配,提取匹配成功的数据流,并进行保存。采用上述方案,分时间段提取处于数据集中的数据流,并根据五元组数据和sessionid进行匹配,相互匹配的数据流的五元组数据和sessionid是相同的,减少大规模数据计算的计算量,可以实现数据流输入后在较短的时间内进行匹配,实现流式计算,防止数据堆积,提高计算效率。在具体实施过程中,所述时长阈值可以为3分钟、5分钟或10分钟等。在本发明一个优选的实施方式中,所述时长阈值为5分钟。在具体实施过程中,所述初次上传时间为最早传入所述数据集的数据流的上传时间。优选地,从所述初次上传时间起算,每隔时长阈值,进行一次数据流提取,提取相邻两次提取时间点间传入数据集的数据流。如图2、3所示,在具体实施过程中,所述s300、数据流匹配的步骤包括s320、数据流再次匹配,所述s320、数据流再次匹配包括步骤:s321、再次数据流提取,接收所述数据流再次匹配前一次从数据集中提取数据流的时间,将所述数据流再次匹配前一次从数据集中提取数据流的时间作为前次提取时间,提取前次提取时间至前次提取时间+时长阈值段传入数据集的数据流,提取从前次提取时间至前次提取时间+时长阈值段的数据流为再次数据集合;s322、再次关联,根据所述五元组数据和sessionid对所述再次数据集合中的数据流进行匹配,提取匹配成功的数据流,并进行保存。采用上述方案,实现每隔时长阈值的时间,提取一次数据流,并对该时间段的数据流进行匹配,提高匹配效率。在具体实施过程中,所述数据流再次匹配可以为数据流初次匹配后一次的匹配,也可以为数据流再次匹配之后一次的匹配。在具体实施过程中,所述前次提取时间可以为初次上传时间+时长阈值的时间点,也可以为此次的数据流再次匹配之前的数据流再次匹配的前次提取时间+时长阈值的时间点。在具体实施过程中,若所述前次提取时间为初次上传时间+时长阈值的时间点,初次上传时间为1:00,所述时长阈值为5分钟,则提取1:05-1:10传入数据集的数据流;若所述前次提取时间为此次的数据流再次匹配之前的数据流再次匹配的前次提取时间+时长阈值的时间点,若此次的数据流再次匹配之前的数据流再次匹配的前次提取时间为1:05,所述时长阈值为5分钟,则提取1:10-1:15传入数据集的数据流。如图4所示,在本发明一个优选的实施方式中,所述s322、再次关联的步骤还包括:s3221、数据流再次接收,接收此次的数据流再次匹配之前未匹配成功的数据流为待定数据流;在具体实施过程中,所述待定数据流可以为在数据流初次匹配中未匹配成功的数据流,也可以为在数据流再次匹配未匹配成功的数据流。s3222、二次关联,将待定数据流加入再次数据集合中,根据所述五元组数据和sessionid对所述再次数据集合中的数据流进行匹配,提取匹配成功的数据流,并进行保存。采用上述方案,由于本方案的数据流是分时间段进行提取的,因此存在请求数据流和响应数据流分别处于不同的时间段的情况,当出现这种情况时,请求数据流在第一次关联时,不能匹配成功,所述第一次关联可以为初次关联也可以为再次关联;将待定数据流加入再次数据集合中进行匹配,提高数据流匹配的成功率。如图5所示,在本发明一个优选的实施方式中,所述s322、再次关联的步骤还包括s3223、数据流删除,所述s3223、数据流删除的步骤包括:判断所述待定数据流是否在二次关联中匹配成功;若是,则提取该数据流和与之匹配的数据流进行保存;若否,删除所述待定数据流。采用上述方案,存在有些请求数据流没有得到响应,因此不能匹配成功,这些数据流是无用的数据流,将这些数据流删除,减少存储空间的占用,提高存储资源利用率。如图6所示,在本发明一个优选的实施方式中,所述s100、机房数据流接收的步骤还包括s110、单一机房数据流匹配,所述s110、单一机房数据流匹配的步骤包括:将得出五元组数据和sessionid的数据流缓存在本机房;接收缓存时间,判断在所述缓存时间的时间段内是否存在与该数据流相匹配的数据流输入该机房;若是,则提取该数据流和与之匹配的数据流进行保存;若否,将该数据流进行数据流上传。采用上述方案,在实际的匹配中,存在相互匹配的请求数据流和响应数据流从同一机房出入的情况,当该种情况发生时,在机房端直接进行匹配,不需要再上传至数据集,提高网络资源利用率。在具体实施过程中,若某数据流传入机房的时间为12:00,若缓存时间为5分钟,则在12:00-12:05时间段判断是否有传入机房的数据流与之匹配。在具体实施过程中,所述缓存时间与所述时长阈值相等。采用上述方案,保证本方案各个步骤提取样本的同步性。在具体实施过程中,所述s313、初次数据流提取获得的数据流可以如表一所示:表一#inside_ipinside_portprotocoloutside_ipoutside_portsession_id1120.229.213.094740119.29.29.298028204902952120.230.100.0109270183.232.198.2498020921753693120.229.213.094740119.29.29.298028204902954120.230.100.0139380111.7.70.1078030655830715120.230.100.0109270183.232.198.2498020921753696120.229.213.050060183.240.112.18801915161708如表一所示,数据流1和3的五元组数据和sessionid均相同,因此数据流1和3相匹配,同理数据流2和5相匹配,数据流4和6为待定数据流。在具体实施过程中,所述s321、再次数据流提取获得的数据流可以如表二所示:表二#inside_ipinside_portprotocoloutside_ipoutside_portsession_id4120.230.100.0139380111.7.70.1078030655830716120.229.213.050060183.240.112.188019151617087120.230.100.0139380111.7.70.1078030655830718120.230.100.0313170223.111.217.98022869750189120.230.100.0313170223.111.217.980228697501810120.230.100.017984039.156.54.1180554403202如表二所示,待定数据流4和数据流7相匹配,数据流8和9相匹配,待定数据流6在二次关联中匹配失败,删除待定数据流6;数据流10在此次匹配中没有匹配成功,作为待定数据流在下一次的s320、数据流再次匹配中进行匹配,若再次匹配失败,则删除。如图7所示,本申请的第二方面提供了一种电信海量数据的关联系统,包括:机房数据流接收模块100,用于接收数据流,分析所述数据流得出该数据流的五元组数据和sessionid;数据流上传模块200,用于接收来自各个机房的数据流,所述数据流中包括该数据流的五元组数据和sessionid,将各个机房的数据流汇总为数据集;数据流匹配模块300,用于根据所述五元组数据和sessionid对所述数据集中的数据流进行匹配,提取匹配成功的数据流,并进行保存。采用上述方案,将多个机房所接收的数据流上传至数据集,根据所述五元组数据和sessionid对所述数据集中的数据流进行匹配,不需要再各个机房之间拉传输,只需要对所述数据集中的数据流进行匹配关联,解决了多机房的同源同宿问题。如图8、9所示,在具体实施过程中,所述数据流匹配模块300包括数据流初次匹配模块310,所述数据流初次匹配模块包括:时间记录上传模块311,用于记录所述数据流上传至数据集的时间为上传时间;时长阈值接收模块312,用于所述时长阈值为实际的时间长度;初次数据流提取模块313,用于提取所述数据集中最早的上传时间为初次上传时间,提取初次上传时间至初次上传时间+时长阈值段传入数据集的数据流,提取从初次上传时间至初次上传时间+时长阈值对应的时间段的数据流为初次数据集合;初次关联模块314,用于根据所述五元组数据和sessionid对所述初次数据集合中的数据流进行匹配,提取匹配成功的数据流,并进行保存。如图8、9所示,在具体实施过程中,所述数据流匹配模块300包括数据流再次匹配模块320,所述数据流再次匹配模块320包括:再次数据流提取模块321,用于接收所述数据流再次匹配前一次从数据集中提取数据流的时间,将所述数据流再次匹配前一次从数据集中提取数据流的时间作为前次提取时间,提取前次提取时间至前次提取时间+时长阈值段传入数据集的数据流,提取从前次提取时间至前次提取时间+时长阈值段的数据流为再次数据集合;再次关联模块322,用于根据所述五元组数据和sessionid对所述再次数据集合中的数据流进行匹配,提取匹配成功的数据流,并进行保存。如图8、9所示,在本发明一个优选的实施方式中,所述再次关联模块322还包括:数据流再次接收模块3221,用于接收此次的数据流再次匹配之前未匹配成功的数据流为待定数据流;二次关联模块3222,用于将待定数据流加入再次数据集合中,根据所述五元组数据和sessionid对所述再次数据集合中的数据流进行匹配,提取匹配成功的数据流,并进行保存。如图8、9所示,在本发明一个优选的实施方式中,所述再次关联模块322还包括数据流删除模块3223,所述数据流删除模块3223包括:判断所述待定数据流是否在二次关联中匹配成功;若是,则提取该数据流和与之匹配的数据流进行保存;若否,删除所述待定数据流。如图8所示,在本发明一个优选的实施方式中,所述机房数据流接收模块100还包括单一机房数据流匹配模块110,所述单一机房数据流匹配模块110包括:将得出五元组数据和sessionid的数据流缓存在本机房;接收缓存时间,判断在所述缓存时间的时间段内是否存在与该数据流相匹配的数据流输入该机房;若是,则提取该数据流和与之匹配的数据流进行保存;若否,将该数据流进行数据流上传。本申请的第三方面提供了一种电信海量数据的关联装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的电信海量数据的关联方法。本申请的第四方面提供了一种存储介质,所述存储介质包括一个或多个程序,所述一个或多个程序可以被处理器执行以完成上述的电信海量数据的关联方法。应当指出,对于本领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。应当理解,本申请实施例中,从权、各个实施例、特征可以互相组合结合,都能实现解决前述技术问题。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1