流量数据中信息点的提取方法及装置的制造方法
【技术领域】
[0001]本发明涉及大数据技术领域,尤其涉及一种流量数据中信息点的提取方法及装置。
【背景技术】
[0002]在信息量爆炸的今天,用户每天都在产生大量的流量信息,流量中存在丰富的有价值的数据,这些数据包含了大量的用户信息,这些信息大部分是未被开发使用的,因此,提取这些信息具有十分重要的意义,这些可以被开发使用的数据被称为信息点。
[0003]但是,目前提取流量?目息点,都是在基于已知的知识点的前提下进行提取的,这种提取流量中信息点的方式受限于对日常事务的认知程度,例如想要从流量数据中获取某个对象的参数值,但是仅仅掌握该参数值是以数字10和11开头的整数,那么利用该知识点从流量数据中探测,得到的信息点即该对象的参数值也都是以10和11开头的值,但实际情况是,该参数值还存在大量以12开头的值,可见,这种方式探测得到的信息量建立在对知识点的掌握程度上,挖掘到的信息量较少。
【发明内容】
[0004]本发明解决的技术问题是如何提高流量数据中信息点的获取量。
[0005]为解决上述问题,本发明提供一种流量数据中信息点的提取方法,所述方法包括:
[0006]根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集;其中,所述URL包括关键字和键值;
[0007]从所述URL集中提取URL对应的所述关键字,每条URL对应一组关键字,得到关键字字典表;
[0008]将所述关键字字典表中的每组关键字作为探测关键字,从所述流量数据中获取包含所述探测关键字的URL的键值,以获得流量数据中的信息点。
[0009]可选地,所述根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集,包括:
[0010]将所述已知URL中的键值相关信息转换成第一正则表达式;
[0011]使用所述第一正则表达式从所述流量数据中获取包含所述键值的URL集。
[0012]可选地,所述流量数据中信息点的提取方法,还包括:
[0013]根据所述URL集中的每一组关键字,获得对应的URL的域名和路径,形成一条检测规则,得到检测规则库;
[0014]根据所述检测规则库中的检测规则,从所述流量数据中获得所述检测规则对应的键值,以得到流量数据中的信息点。
[0015]可选地,所述根据所述检测规则库中的检测规则,从所述流量数据中获得所述检测规则对应的键值,包括:
[0016]将所述检测规则转换成第二正则表达式;
[0017]从所述流量数据中获得所述检测规则对应的键值,以获得流量数据中的信息点。
[0018]可选地,所述流量数据中信息点的提取方法,还包括:将所述检测规则库中所述域名不同,且所述路径、关键字和键值均相同的检测规则进行合并。
[0019]本发明实施例还提供一种流量数据中信息点的提取装置,所述装置包括:
[0020]URL集获取单元,适于根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集;其中,所述URL包括关键字和键值;
[0021]关键字字典表形成单元,适于从所述URL集中提取URL对应的所述关键字,每条URL对应一组关键字,得到关键字字典表;
[0022]第一信息点获取单元,适于将所述关键字字典表中的每组关键字作为探测关键字,从所述流量数据中获取包含所述探测关键字的URL的键值,以获得流量数据中的信息点。
[0023]可选地,所述URL集获取单元,适于将所述已知URL中的键值相关信息转换成第一正则表达式,使用所述第一正则表达式从所述流量数据中获取包含所述键值的URL集。
[0024]可选地,所述流量数据中信息点的提取装置,还包括:
[0025]检测规则形成单元,适于根据所述URL集中的每一组关键字,获得对应的URL的域名和路径,形成一条检测规则,得到检测规则库;
[0026]第二信息点获取单元,适于根据所述检测规则库中的检测规则,从所述流量数据中获得所述检测规则对应的键值,以获得流量数据中的信息点。
[0027]可选地,所述第二信息点获取单元,适于:
[0028]将所述检测规则转换成第二正则表达式;
[0029]从所述流量数据中获得所述检测规则对应的键值,以得到流量数据中的信息点。
[0030]可选地,所述流量数据中信息点的提取装置,还包括合并单元,适于将所述检测规则库中所述域名不同,且所述路径、关键字和键值均相同的检测规则进行合并。
[0031]与现有技术相比,本发明实施例的技术方案具有以下有益效果:
[0032]本发明实施例的技术方案通过根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集,从所述URL集中提取每条URL的关键字,每条URL对应一组关键字,得到关键字字典表,将所述关键字字典表中的每组关键字作为探测关键字,从所述流量数据中获取包含所述探测关键字的URL的键值,以获得流量数据中的信息点,从而实现了以较少的已知键值从流量中获取较多的键值,所述键值即信息点,也即提高了信息点的获取量。
[0033]进一步地,通过形成通用的检测规则,可以使用检测规则更快地检测到流量数据中的信息点。
【附图说明】
[0034]图1是本发明实施例中的一种流量数据中信息点的提取方法的流程图;
[0035]图2是本发明实施例中的一种流量数据中信息点的提取方法的流程图;
[0036]图3是本发明实施例中的一种流量数据中信息点的提取装置的结构示意图。
【具体实施方式】
[0037]如前所述,目前提取流量信息点,是在已知需要提取的信息点的前提下在流量数据中提取出相应的信息,这种提取流量中信息点的方式受限于对日常事务的认知程度,获得的信息量较少。
[0038]URL (Uniform Resource Locator,统一资源定位符)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,流量数据中的URL包含了用户的行为数据信息。
[0039]本发明实施例通过根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集,从所述URL集中提取每条URL的关键字,每条URL对应一组关键字,得到关键字字典表,将所述关键字字典表中的每组关键字作为探测关键字,从所述流量数据中获取包含所述探测关键字的URL的键值,以获得流量数据中的信息点,从而实现了以较少的已知键值从流量中获取较多的键值,所述键值即信息点,也即提高了信息点的获取量。
[0040]为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
[0041]图1是本发明实施例中的一种流量数据中信息点的提取方法的流程图。如图所示的流量数据中信息点的提取方法,可以包括:
[0042]步骤S101:根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集;其中,所述URL包括关键字和键值。
[0043]在本发明实施例中,所述关键字为URL中向动态网页传递参数的参数名,所述键值为参数值。
[0044]具体实施中,所述根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集,可以包括:
[0045]将所述已知URL中的键值相关信息转换成第一正则表达式;
[0046]使用所述第一正则表达式从所述流量数据中获取包含所述键值的URL集。
[0047]例如,想要从流量中提取GPS坐标信息,可以选取一个已知的实例知识点作为所述已知URL中的键值相关信息,根据经验,已知信息有:经玮度的数值为浮点数,小数点后位数为4位或4位以上,且上海市的玮度以31开头,经度以121开头。因此,可以将已知信息转换为第一正则表达式,具体为Γ121\\.\\d+, ~31\\.\\d+,通过使用该第一正则表达式,可以从流量数据中获取包含所述键值的URL集,即获得以121或31开头的经玮度数据所对应的每条URL组成的所述URL集。
[0048]步骤S102:从所述URL集中提取URL对应的所述关键字,每条URL对应一组关键字,得到关键字字典表。
[0049]在具体实施中,步骤S101获得了由各条URL组成的URL集,每条URL对应一组关键字,通过提取所述每条URL所对应的一组关键字,形成关键字字典表。
[0050]例如,步骤S101中获取的URL集的其中一条URL为:http:/diditaxi, com/mylocat1n.html ? lat = 31.123412&lon = 121.231241。
[0051]提取该条URL的一组关键字为(lat,1n)。同样地,从所述URL集中的其他条URL也可以提取出关键字,这样就形成了关键字字典表。
[0052]步骤S103:将所述关键字字典表中的每组关键字作为探测关键字,从所述流量数据中获取包含所述探测关键字的URL的键值,以获得流量数据中的信息点。
[0053]在具体实施中,将所述关键字字典表中的每组关键字作为探测关键字,则可以从流量数据中探测到以所述探测关键字为参数名所对应的其他参数值。
[0054]本发明实施例将所掌握的信息量较少的实例来进行初次探测,以此获得关键字形成关键字字典表,再通过将所述关键字字典表中的关键字回到流量中进行二次探测,则可以获取以所述关键字为参数名的对应的其他键值,即参数值,从而获得更多的信息点,相比现有技术,本发明实施例的技术方案实现了以较少的信息获取流量数据中较多的信息点。
[0055]图2是本发明实施例中的一种流量数据中信息点的提取方法的流程图。如图所示,流量数据中信息点的提取方法可以包括:
[0056]步骤S201:根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集;其中,所述URL包括关键字和键值。
[0057]具体实施中,可以通过将所述已知URL中的键值相关信息转换成第一正则表达式获取包含所述键值的URL集。
[0058]步骤S202:从所述URL集中提取URL对应的所述关键字,每条URL对应一组关键字,得到关键字字典表。
[0