一种ip库质量评估及入库方法和系统的制作方法

文档序号:10471199阅读:293来源:国知局
一种ip库质量评估及入库方法和系统的制作方法
【专利摘要】一种IP库质量评估及入库方法与系统,考虑到IP库数据的更新,它通过IP库质量评估,IP库选择,IP库获取,IP库数据量检测,IP库中地域名称检测,处理检测异常模块等流程为实际的IP地址数据库数据分析提供一个可靠的IP维表。
【专利说明】
-种IP库质量评估及入库方法和系统
技术领域
[0001] 本发明设及数据评估及清洗入库领域,特别是一种IP库质量评估及入库方法和系 统。
【背景技术】
[0002] IP库(IP地址数据库),是由专业技术人员经过长时间通过多种技术手段收集而来 的,并且长期有专业人员进行更新、补充。将其获取并进行入库处理,即成为分析数据中常 用的IP维表,该维表是数据分析中最基础、最重要的维表之一。因此IP库的覆盖面和精准度 情况对应分析结果有着重大影响,覆盖面即广度,是指包含IP的个数。精准度是指IP库中的 IP地域信息的精确度(精确到大洲、国家、省份还是城市)。目前,提供IP库的公司很多,他们 提供的IP库的精准度、覆盖面都各有不同,因此选择一个好的IP库至关重要。选择一个高质 量的IP库是一个重要的开始,最终目的还是要结合实际分析项目使用。在实际的使用过程 中,会发现IP库中的提供的国家、省份及城市名称,与实际数据仓库中存储的国家和城市维 表中的名称不统一,运会对设及到IP维表的分析结果产生极大的影响,因此,需要在IP库进 行地区名称统一化处理后,将IP库导入数据仓库即下面所说的IP库入库。IP选择和处理入 库是IP维表建立的核屯、过程,我们还有考虑到IP库数据的更新,要定期下载更新后的IP库, 在下载过程中会出现网络问题导致下载不完全,运样会导致导入到数据仓库的IP地址维表 不完整,从而对设及到IP地址维表的分析产生严重错误。
[0003] 本发明针上述问题,对IP库选择和入库提供了一种IP库质量评估及入库方法和系 统。

【发明内容】

[0004] 本发明目的是,提出一种IP库质量评估及入库方法与系统,它通过IP库质量评估, IP库选择,IP库获取,IP库数据量检测,IP库中地域名称检测,处理检测异常模块等流程为 实际的IP地址数据库数据分析提供一个可靠的IP维表。
[0005] 本发明技术方案是,一种IP库质量评估及入库方法,包括如下步骤:
[0006] S1: IP库质量评估,将包含国内外且每天访问量在千万级的真实测试日志中的IP 地址与待评估的IP库中的IP地址进行关联匹配,得到新的日志信息中包含IP库中的国家、 省份和城市日志信息,然后从IP地址覆盖率、IP地址国家、省份和城市匹配情况对匹配出的 新日志进行评估。
[0007] S11: IP库覆盖率评估,从总体评估整个IP库与测试日志的匹配情况,主要计算日 志中未匹配的IP地址个数与总IP地址个数的占比情况(下称ntDtai)。
[000引S12: IP库国家匹配情况评估,主要评估对象是匹配上IP库的新日志,计算日志中 未匹配上国家的IP地址个数与总IP地址个数的占比情况(下称ncDuntry)。
[0009] S13: IP库省份匹配情况评估,主要评估对象是匹配上IP库的新日志,计算日志中 未匹配上省份的IP地址个数与总IP地址个数的占比情况(下称rVDvince)。
[0010] S14: IP库城市匹配情况评估,主要评估对象是匹配上IP库的新日志,计算日志中 未匹配上城市的IP地址个数与总IP地址个数的占比情况(下称ncity)。
[0011] S2: IP库选择,依据IP库质量评估的结果,结合实际应用,选择一个合适的IP库。具 体选择方案是:首先选择覆盖率高的即ntotal值相对小的IP库,在ntotal值相当的情况下,结 合实际业务需要,若主要分析维度是国家,那么选择nwuntry较小的IP库,若主要分析维度是 省份,那么选择nprovince较小的IP库,若主要分析维度是城市,那么选择nci巧较小的IP库。本 实例中,是选择ntotal值相对小的IP库,在ntotal值相当的情况下选择ncountry较小的IP库。
[0012] S3: IP库入库,将选择的IP库进行处理导入到本公司的数据仓库中处理,最终生成 数据仓库中的IP维表。IP库入库包含IP库获取、IP库数据量检测、国家名称异常检测、省份 和城市名称异常检测、处理检测异常和IP维表生成六个步骤。
[0013] S31: IP库获取,配置IP库下载源地址,将IP库信息下载到本地存入TXT文本中。
[0014] S32: IP库数据量检测,将下载后的IP地址文本,进行初步入库,存入临时表中,将 临时表的数据量与当前数据仓库中IP地址维表的数据量进行对比,若数据量差值很大,转 至化35进行异常处理,否则进行下一步S33国家名称异常检测。注:该步骤主要针对数据更新 中存在的数据下载不完整情况,不针对首次入库。
[0015] S33:国家名称异常检测,该步骤首次要建立一个IP库的国家名称与实际数据仓库 中的国家维表中(下称dim_country)国家名称对应关系表(下称dim_countoy_combine),每 次IP库通过关联国家关系对应表得到dim_country中的国家名称,若关联不上,至ljS35进行 异常处理,否则进行下一步省份&城市名称异常检测。
[0016] S34:省份&城市名称异常检测,该步骤首次要建立一个IP库的省份&城市名称与实 际数据仓库中的国家维表中(下称dim_ci ty)省份&城市名称对应关系表(下称dim_city_ combine),每次IP库通过关联省份&城市名称对应关系表得到dim_city中的省份和城市名 称,若关联不上,到S35进行异常处理,否则进行下一步IP维表生成。
[0017] S35:处理检测异常模块,首先判断异常种类,不同的异常进行不同的处理。数据量 检测异常,首先清空临时表,等待一段时间再下载,执行S32,若重复Ξ遍此操作数据量检测 仍然异常,就邮件通知运维人员,让其核实,若核实下载无误手动将临时表的数据导入到一 个表中(下称〇ds_ip)进行下一步处理;国家名称检测异常:将未匹配上的国家名称邮件给 运维人员,让其找出dim_count;ry中的对应国家名称,并手动添加到dim_coun1:ry_combine 表中;省份&城市名称检测异常:将未匹配上的省份&城市名称邮件给运维人员,让其找出 dim_city中的对应省份&城市名称,并手动添加到省份&城市名称对应关系表中。异常处理 好后执行S3。
[0018] S36: IP维表生成模块,将初步入库的表ods_ip关联dim_countoy_combine表得到 dim_country表中的国家名称,关联dim_city_combine表得到dim_city表中的省份&城市名 称,从而生成国家、省份和城市统一化的ip维表。
[0019] S4: IP库数据更新检查,每天定时下载IP库,比对之前下载的数据,如若不同,表示 数据有更新,重复S3。
[0020] 本发明公开一种IP库质量评估及入库系统,包括:IP库评估单元、IP库选择模块、 IP地址入库单元和IP库数据更新检查单元。
[0021] 所述IP库评估单元,利用包含国内外且每天访问量在千万级的真实测试日志,对 IP库的覆盖率和精准度进行评估。包含IP地址覆盖率评估、IP地址国家匹配情况评估、IP地 址省份匹配情况评估和IP地址城市匹配情况评估四个模块。所述IP库覆盖率评估,从总体 评估整个IP库与测试日志的匹配情况,主要计算未匹配上IP地址的日志数与总日志数、日 志中未匹配的IP地址个数与总IP地址个数的占比情况。所述IP库国家匹配情况评估模块, 主要评估对象是匹配上IP库的新日志,计算未匹配上国家的日志数与总日志数、日志中未 匹配上国家的IP地址个数与总IP地址个数的占比情况。所述IP库省份匹配情况评估模块, 主要评估对象是匹配上IP库的新日志,计算未匹配上省份的日志数与总日志数、日志中未 匹配上省份的IP地址个数与总IP地址个数的占比情况。所述IP库城市匹配情况评估模块, 主要评估对象是匹配上IP库的新日志,计算未匹配上城市的日志数与总日志数、日志中未 匹配上城市的IP地址个数与总IP地址个数的占比情况。
[0022] 所述IP库选择单元,依据IP库质量评估的结果,选择一个合适的IP库。
[0023] 所述IP地址入库单元,将IP库选择模块所选的IP进行入库处理,生成数据仓库中 的IP维表。包含IP库获取、IP库检测、处理检测异常和IP维表生成四个模块。所述IP库获取 模块,根据配置IP库下载源地址,将IP库信息下载到本地存入TXT文本中。所述IP库检测模 块,是对IP库的数据量、国家、省份和城市名称进行检测。所述处理检测异常模块,针对IP库 检测模块检测的不同异常,进行不同的处理。所述IP维表生成模块,通过关联异常处理中维 护的国家名称和省份&城市名称维表,生成国家、省份和城市统一化的ip维表。
[0024] 所述IP库数据更新检查单元,每天定时下载IP库,比对之前下载的数据,如若不 同,提示系统更新IP库数据。
[0025] 有益效果:在现有技术基础上,提出一种IP库质量评估及入库方法与系统,考虑到 IP库数据的更新,它通过IP库质量评估,IP库选择,IP库获取,IP库数据量检测,IP库中地域 名称检测,处理检测异常模块等流程为实际的IP地址数据库数据分析提供一个可靠的IP维 表。
【附图说明】
[0026] 图1是本发明实施例中的IP库质量评估及入库方法的流程示意图。
[0027] 图2是本发明实施例中的IP库质量评估及入库系统的结构示意图。
【具体实施方式】
[0028] 下面结合附图和实施例,对本发明的具体实施方案作进一步详细描述,很显然,所 描述的实施例仅为本发明的一部分实施例,而不是全部实施例。基于本申请的实施例,W及 本发明权利要求的技术实质所做的改变或等同变化,仍落入本申请保护的范围。
[0029] 参阅图1所示,本发明实施例的数据处理流程,具体步骤为:
[0030] 步骤S1: IP库质量评估,主要评估方法是将包含国内外且每天访问量在千万级的 真实测试日志中的IP地址与待评估的IP库中的IP地址进行关联匹配,得到新的日志信息中 包含IP库中的国家、省份和城市日志信息,具体如下表所示,匹配结果有未匹配上的如IP5; 匹配上了,但是IP库里只存在该IP地址是哪个洲的没有明显定位入IP4,匹配上但只定位到 国家如IP3;匹配上但只定位到省份如IP2;匹配到国家、省份和城市如IP1。然后根据匹配结 果从IP覆盖率、IP国家、省份和城市匹配情况四个方面对IP库进行评估。
[0031]
[0032] 步骤Sll: IP库覆盖率评估,从总体评估整个IP库与测试日志的匹配情况,主要计 算日志中未匹配的IP地址个数与总IP地址个数的占比情况(下称ntDtai)。
[0033] 步骤S12: IP库国家匹配情况评估,主要评估对象是匹配上IP库的新日志,计算日 志中未匹配上国家的IP地址个数与总IP地址个数的占比情况(下称nccmntry)。
[0034] 步骤S13: IP库省份匹配情况评估,主要评估对象是匹配上IP库的新日志,计算日 志中未匹配上省份的IP地址个数与总IP地址个数的占比情况(下称rvnvince)。
[0035] 步骤S14: IP库城市匹配情况评估,主要评估对象是匹配上IP库的新日志,计算日 志中未匹配上城市的IP地址个数与总IP地址个数的占比情况(下称ncity)。
[0036] 步骤S2: IP库选择,依据IP库质量评估的结果,结合实际应用,选择一个合适的IP 库。具体选择方案是:首先选择覆盖率高的即ntotal值相对小的IP库,在ntotal值相当的情况 下,结合实际业务需要,若主要分析维度是国家,那么选择nwuntry较小的IP库,若主要分析 维度是省份,那么选择rvovince较小的IP库,若主要分析维度是城市,那么选择nci巧较小的IP 库。本实例中,是选择ntotal值相对小的IP库,在ntotal值相当的情况下选择ncountry较小的IP 库。
[0037] 步骤S3: IP库入库,将选择的IP库进行处理导入到本公司的数据仓库中,最终生成 数据仓库中的IP维表下称dim_ipJP库入库包含IP库获取、IP库数据量检测、国家名称异常 检测、省份和城市名称异常检测、处理检测异常和IP维表生成六个步骤。
[0038] 步骤S31: IP库获取,配置IP库下载源地址,将IP库信息下载到本地存入TXT文本 中。
[0039] 步骤S32: IP库数据量检测,将下载后的IP文本,进行初步入库,存入临时表下称 tmp_ods_ip中,将tmp_ods_ip的数据量与当前数据仓库中dim_ip表的数据量进行对比,计 算绝对差值η,若n〉2000,到步骤S35,否则进行下一步国家名称异常检测。注:该步骤主要针 对数据更新中存在的数据下载不完整情况,不针对首次入库。
[0040] 步骤S33:国家名称异常检测,在执行该步骤之前,若该IP库是首次入库需要建立 IP库的国家名称与实际数据仓库中的国家维表dim_country中国家名称对应关系表dim_ country_combine,其具体如下表所示。每次IP库通过关联国家关系对应表得到dim_ country中的国家名称,若关联不上,表示IP库中出现新的国家,至Ij步骤S35,否则进行下一 步省份&城市名称异常检测。
[0041]
[0042] 步骤S34:省份&城市名称异常检测,在执行该步骤之前,若该IP库是首次入库需要 建立IP库的省份&城市名称与实际数据仓库中的国家维表dim_city中省份&城市名称对应 关系表dim_city_combine,其具体如下表所示,每次IP库通过关联省份&城市名称对应关系 表得到dim_city中的省份和城市名称,若关联不上,表示IP库中出现新的省份或城市,到步 骤S35,否则进行下一步S36进行IP维表生成。
[0043]
[0045] 步骤S35:处理检测异常模块,首先判断异常种类,不同的异常进行不同的处理。数 据量检测异常,首先清空临时表tmp_ods_ip,等待一段时间再下载,执行S32,若重复Ξ遍此 操作数据量检测仍然异常,就邮件通知运维人员,让其人工核实,若核实下载无误手动将临 时表tmp_ods_ip的数据导入到一个表ods_ip中进行下一步处理;国家名称检测异常:将未 匹配上的国家名称邮件给运维人员,让其人工找出dim_country中的对应国家名称,并手动 添加到dim_country_combine表中;省份&城市名称检测异常:将未匹配上的省份&城市名称 邮件给运维人员,让其人工找出dim_city中的对应省份&城市名称,并手动添加到省份&城 市名称对应关系表中。异常处理好后执行步骤S3。
[0046] 步骤S36: IP维表生成模块,将初步入库的表ods_ip关联dim_count;ry_combine表 得到dim_count;ry表中的国家名称,关联dim_city_combine表得到dim_city表中的省份&城 市名称,从而生成国家、省份和城市统一化的ip维表dim_ip。
[0047] 步骤S4:IP库数据更新检查,每天定时下载IP库,比对之前下载的数据,如若不同, 表示数据有更新,重复步骤S3。
[004引参阅图2所示,本发明实施例的系统结构,包括:IP库评估单元Ml、IP库选择单元 M2、IP地址入库单元M3和IP库数据更新检查单元M4。
[0049] IP库评估单元Ml,利用包含国内外且每天访问量在千万级的真实测试日志,对IP 库的覆盖率和精准度进行评估。包含IP覆盖率评估模块M1UIP国家匹配情况评估模块M12、 IP省份匹配情况评估模块M13和IP城市匹配情况评估模块M14。
[0050] IP库覆盖率评估模块Mil,从总体评估整个IP库与测试日志的匹配情况,主要计算 未匹配上IP的日志数与总日志数、日志中未匹配的IP地址个数与总IP地址个数的占比情 况。
[0051 ] IP库国家匹配情况评估模块M12,主要评估对象是匹配上IP库的新日志,计算日志 中未匹配上国家的IP地址个数与总IP地址个数的占比情况。
[0052] IP库省份匹配情况评估模块M13,主要评估对象是匹配上IP库的新日志,计算日志 中未匹配上省份的IP地址个数与总IP地址个数的占比情况。
[0053] IP库城市匹配情况评估模块,主要评估对象是匹配上IP库的新日志,计算日志中 未匹配上城市的IP地址个数与总IP地址个数的占比情况。
[0054] IP库选择单元M2,依据IP库质量评估的结果,选择一个合适的IP库。
[0055] IP地址入库单元M3,将IP库选择模块所选的IP进行入库处理,生成数据仓库中的 IP维表。包含IP库获取模块M31、IP库检测模块M32、处理检测异常模块M33和IP维表生成模 块 M34。
[0056] IP库获取模块M31,根据配置IP库下载源地址,将IP库信息下载到本地存入TXT文 本中。
[0057] IP库检测模块M32,是对IP库的数据量、国家、省份和城市名称进行检测。所述处理 检测异常模块,针对IP库检测模块检测的不同异常,进行不同的处理。
[005引IP维表生成模块M33,通过关联异常处理中维护的国家名称和省份&城市名称维 表,生成国家、省份和城市统一化的ip维表。
[0059] IP库数据更新检查单元M4,每天定时下载IP库,比对之前下载的数据,如若不同, 提示系统更新IP库数据。
【主权项】
1. 一种IP库质量评估及入库方法,其特征是包括如下步骤: S1: IP库质量评估,将包含国内外且每天访问量在千万级的真实测试日志中的IP地址 与待评估的IP库中的IP地址进行关联匹配,得到新的日志信息中包含IP库中的国家、省份 和城市日志信息,然后从IP地址覆盖率、IP地址国家、省份和城市匹配情况对匹配出的新日 志进彳丁评估; Sll: IP库覆盖率评估,从总体评估整个IP库与测试日志的匹配情况,主要计算日志中 未匹配的IP地址个数与总IP地址个数的占比情况,以下称ntotal; S12: IP库国家匹配情况评估,主要评估对象是匹配上IP库的新日志,计算日志中未匹 配上国家的IP地址个数与总IP地址个数的占比情况,以下称n_ntry; S13: IP库省份匹配情况评估,主要评估对象是匹配上IP库的新日志,计算日志中未匹 配上省份的IP地址个数与总IP地址个数的占比情况,以下称1^__; S14: IP库城市匹配情况评估,主要评估对象是匹配上IP库的新日志,计算日志中未匹 配上城市的IP地址个数与总IP地址个数的占比情况,以下称nclty; S2: IP库选择,依据IP库质量评估的结果,结合实际应用,选择一个合适的IP库;具体选 择方案是:首先选择覆盖率高的即ntcltai值相对小的IP库,在ntcltai值相当的情况下,结合实 际业务需要,若主要分析维度是国家,那么选择nc^ ntry较小的IP库,若主要分析维度是省 份,那么选择1^。_。6较小的1?库,若主要分析维度是城市,那么选择11_较小的1?库。本实 例中,是选择motel值相对小的IP库,在n tcltai值相当的情况下选择nc;_try较小的IP库; S3: IP库入库,将选择的IP库进行处理导入到本公司的数据仓库中处理,最终生成数据 仓库中的IP维表;IP库入库包含IP库获取、IP库数据量检测、国家名称异常检测、省份和城 市名称异常检测、处理检测异常和IP维表生成六个步骤; S31: IP库获取,配置IP库下载源地址,将IP库信息下载到本地存入TXT文本中; S32: IP库数据量检测,将下载后的IP地址文本,进行初步入库,存入临时表中,将临时 表的数据量与当前数据仓库中IP地址维表的数据量进行对比,若数据量差值很大,转到S35 进行异常处理,否则进行下一步S33国家名称异常检测;S32步骤针对数据更新中存在的数 据下载不完整情况,不针对首次入库; S33:国家名称异常检测,该步骤首次要建立一个IP库的国家名称与实际数据仓库中的 国家维表、下称dim_country中国家名称对应关系表称dim_country_combine,每次IP库通 过关联国家关系对应表得到dim_country中的国家名称,若关联不上,到S35进行异常处理, 否则进行下一步省份&城市名称异常检测; S34:省份&城市名称异常检测,该步骤首次要建立一个IP库的省份&城市名称与实际数 据仓库中的国家维表、下称dim_city中省份&城市名称对应关系表、下称dim_city_ combine,每次IP库通过关联省份&城市名称对应关系表得到dim_city中的省份和城市名 称,若关联不上,到S35进行异常处理,否则进行下一步IP维表生成; S35:处理检测异常模块,首先判断异常种类,不同的异常进行不同的处理;数据量检测 异常,首先清空临时表,等待一段时间再下载,执行S32,若重复三遍此操作数据量检测仍然 异常,就邮件通知运维人员,让其核实,若核实下载无误手动将临时表的数据导入到一个 表、下称ods_ip中进行下一步处理;国家名称检测异常:将未匹配上的国家名称邮件给运维 人员,让其找出dim_country中的对应国家名称,并手动添加到dim_country_combine表中; 省份&城市名称检测异常:将未匹配上的省份&城市名称邮件给运维人员,让其找出dim_ city中的对应省份&城市名称,并手动添加到省份&城市名称对应关系表中;异常处理好后 执行S3; S36: IP维表生成模块,将初步入库的表ods_ip关联dim_country_combine表得到dim_ country表中的国家名称,关联dim_city_combine表得到dim_city表中的省份&城市名称, 从而生成国家、省份和城市统一化的ip维表; S4: IP库数据更新检查,每天定时下载IP库,比对之前下载的数据,如若不同,表示数据 有更新,重复S3。2. -种IP库质量评估及入库系统,其特征是包括:IP库评估单元、IP库选择模块、IP地 址入库单元和IP库数据更新检查单元; 所述IP库评估单元,利用包含国内外且每天访问量在千万级的真实测试日志,对IP库 的覆盖率和精准度进行评估;包含IP地址覆盖率评估、IP地址国家匹配情况评估、IP地址省 份匹配情况评估和IP地址城市匹配情况评估四个模块;所述IP库覆盖率评估,从总体评估 整个IP库与测试日志的匹配情况,主要计算未匹配上IP地址的日志数与总日志数、日志中 未匹配的IP地址个数与总IP地址个数的占比情况;所述IP库国家匹配情况评估模块,主要 评估对象是匹配上IP库的新日志,计算未匹配上国家的日志数与总日志数、日志中未匹配 上国家的IP地址个数与总IP地址个数的占比情况;所述IP库省份匹配情况评估模块,主要 评估对象是匹配上IP库的新日志,计算未匹配上省份的日志数与总日志数、日志中未匹配 上省份的IP地址个数与总IP地址个数的占比情况;所述IP库城市匹配情况评估模块,主要 评估对象是匹配上IP库的新日志,计算未匹配上城市的日志数与总日志数、日志中未匹配 上城市的IP地址个数与总IP地址个数的占比情况; 所述IP库选择单元,依据IP库质量评估的结果,选择一个合适的IP库; 所述IP地址入库单元,将IP库选择模块所选的IP进行入库处理,生成数据仓库中的IP 维表;包含IP库获取、IP库检测、处理检测异常和IP维表生成四个模块;所述IP库获取模块, 根据配置IP库下载源地址,将IP库信息下载到本地存入TXT文本中;所述IP库检测模块,是 对IP库的数据量、国家、省份和城市名称进行检测;所述处理检测异常模块,针对IP库检测 模块检测的不同异常,进行不同的处理;所述IP维表生成模块,通过关联异常处理中维护的 国家名称和省份&城市名称维表,生成国家、省份和城市统一化的ip维表; 所述IP库数据更新检查单元,每天定时下载IP库,比对之前下载的数据,如若不同,提 示系统更新IP库数据。
【文档编号】G06F17/30GK105824906SQ201610146729
【公开日】2016年8月3日
【申请日】2016年3月15日
【发明人】张燕, 房鹏展
【申请人】焦点科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1