专利名称:一种更新互联网协议ip地址库的方法和装置的制作方法
技术领域:
本申请涉及网络技术领域,特别是涉及一种更新互联网协议IP地址库的方法和装置。
背景技术:
hternet (互联网)依靠 TCP (Transmission Control Protocol,传输控制协议)/ IP (Internet Protocol,互联网协议),在全球范围内实现不同硬件结构、不同操作系统、不 同网络系统的互联。在hternet上,每一个节点都依靠唯一的IP地址互相区分和相互联 系。每一台联网的计算机无权自行设定IP地址,由互联网数字分配机构(IANA,Internet Assigned Numbers Authority) : IP jfttlt白勺iSS。IP地址库顾名思义就是存储了 IP地址的数据库,从理论上说,一个全面、准确的 IP地址库能够帮助使用者正确识别hternet上的每台计算机。然而,目前网上IP地址库 数据不是从IANA直接获得,大都从民间搜集而来,IP地址信息不全、没有详细的实际地址 数据、实际地址只到省、市一级,因此,存在IP地址粒度较粗、实际地址错误的情况。现有技术中,通常采用人工收集的方法对IP地址库进行补充和校正。在实现本申请的过程中,发明人发现现有技术至少存在如下问题由于现有的IP地址库采用人工收集的方法,因此不仅费时、费力,而且所能补充 和校正的数据量有限。
发明内容
本申请提供一种更新互联网协议IP地址库的方法和装置,以提高IP地址的实际 地址的准确性和覆盖率。本申请提出一种更新互联网协议IP地址库的方法,包括以下步骤获取交易信息数据库中的邮寄地址数据,所述邮寄地址数据包括IP地址和地址 fn息;扫描所述邮寄地址数据,获取地址信息相同且IP地址连续的邮寄地址数据对应 的IP地址区段,以及所述IP地址区段对应的实际地址;根据所述IP地址区段对应的实际地址,更新IP地址库。优选地,所述获取地址信息相同且IP地址连续的邮寄地址数据对应的IP地址区 段,以及所述IP地址区段对应的实际地址,具体包括获取地址信息相同且IP地址连续的邮寄地址数据的个数;判断所述地址信息相同且IP地址连续的邮寄地址数据的个数是否大于预设阈 值;如果所述邮寄地址数据的个数大于所述预设阈值,则将所述邮寄地址数据的IP 地址合并到一个IP地址区段,并将所述邮寄地址数据中的相同的地址信息作为所述IP地 址区段对应的实际地址。
优选地,所述扫描邮寄地址数据之前,还包括获取IP地址库数据,IP地址库数据包括IP地址和对应的地名信息;将所述IP地址库数据和所述邮寄地址数据按照IP地址递增或递减的顺序排列;根据所述IP地址库数据的地名信息过滤所述邮寄地址数据,删除地址信息与对 应的IP地址库数据的地名信息不匹配的邮寄地址数据。优选地,所述地名信息包括以下内容中的任意一项
国家地址、省级地址、市级地址和县级地址。优选地,所述根据IP地址区段对应的实际地址,更新IP地址库,具体包括使用所述IP地址区段对应的实际地址,替换所述IP地址区段在所述IP地址库中 对应的地名信息。本申请还提出一种更新IP地址库的装置,包括获取模块,用于获取交易信息数据库中的邮寄地址数据,所述邮寄地址数据包括 IP地址和地址信息;扫描模块,用于扫描所述获取模块获取的邮寄地址数据,获取地址信息相同且IP 地址连续的邮寄地址数据对应的IP地址区段,以及所述IP地址区段对应的实际地址;更新模块,用于根据所述扫描模块获取的IP地址区段对应的实际地址,更新IP地址库。优选地,所述的装置,还包括过滤模块,用于获取IP地址库数据,IP地址库数据包括IP地址和对应的地名信 息;将所述IP地址库数据和所述邮寄地址数据按照IP地址递增或递减的顺序排列,根据所 述IP地址库数据的地名信息过滤所述获取模块获取的邮寄地址数据,删除地址信息与对 应的IP地址库数据的地名信息不匹配的邮寄地址数据。优选地,所述过滤模块,具体用于根据所述IP地址库数据的以下地名信息的任意 一项过滤所述邮寄地址数据 国家地址、省级地址、市级地址和县级地址。优选地,所述扫描模块,具体包括获取子模块,用于获取地址信息相同且IP地址连续的邮寄地址数据的个数;判断子模块,用于判断所述获取子模块获取的地址信息相同且IP地址连续的邮 寄地址数据的个数是否大于预设阈值;合并子模块,用于在所述判断子模块判断所述邮寄地址数据的个数大于所述预设 阈值时,将所述邮寄地址数据的IP地址合并到一个IP地址区段,并将所述邮寄地址数据中 的相同的地址信息作为所述IP地址区段对应的实际地址。优选地,所述更新模块,具体用于使用所述IP地址区段对应的实际地址,替换所 述IP地址区段在所述IP地址库中对应的地名信息。本申请包括以下优点,使用大量的邮寄地址数据对现有的IP地址库中的实际地 址进行自动补充和校验,准确性和覆盖率较高;整个过程只需要对IP地址库数据和邮寄地 址数据进行两次扫描,不需要人工收集,补充和校验的效率高。当然,实施本申请的任一产 品并不一定需要同时达到以上所述的所有优点。
为了更清楚地说明本申请或现有技术中的技术方案,下面将对本申请或现有技术 描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的 一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他的附图。图1为本申请实施例一中的一种更新IP地址库的方法流程图;图2为本申请实施例二中的一种更新IP地址库的方法流程图;图3为本申请实施例三中的一种更新IP地址库的装置结构示意图;图4为本申请实施例四中的一种更新IP地址库的装置结构示意图。
具体实施例方式本申请的主要思想包括,从用户的电子商务交易信息中获取邮寄地址数据,对该 邮寄地址数据进行扫描,获取地址信息相同且IP地址连续的邮寄地址数据对应的IP地址 区段,以及该IP地址区段对应的实际地址,并根据该IP地址区段对应的实际地址,更新IP 地址库。下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整的描述,显 然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施 例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属 于本申请保护的范围。如图1所示,为本申请实施例一中的一种更新IP地址库的方法流程图,包括以下 步骤步骤101,获取交易信息数据库中的邮寄地址数据。用户使用互联网中的计算机在参与网络活动时,会登陆一些电子商务网站,并通 过电子商务网站达成网络交易,从而在电子商务网站服务器的数据库中留下各种交易信 息,例如购买的商品名称、价格、商品的邮寄地址、达成交易的该台计算机的IP地址等。本 实施例通过建立一交易信息数据库用于收集邮寄地址数据。其中,邮寄地址数据包括IP地 址和地址信息。步骤102,扫描邮寄地址数据,获取地址信息相同且IP地址连续的邮寄地址数据 对应的IP地址区段,以及该IP地址区段对应的实际地址。具体地,上述获取地址信息相同且IP地址连续的邮寄地址数据对应的IP地址区 段,以及所述IP地址区段对应的实际地址,具体包括获取地址信息相同且IP地址连续的邮寄地址数据的个数;判断所述地址信息相 同且IP地址连续的邮寄地址数据的个数是否大于预设阈值;如果所述邮寄地址数据的个 数大于预设阈值,则将所述邮寄地址数据的IP地址合并到一个IP地址区段,并将所述邮寄 地址数据中的相同的地址信息作为所述IP地址区段对应的实际地址。上述扫描邮寄地址数据之前,还可以获取IP地址库数据;将所述IP地址库数据和 所述邮寄地址数据按照IP地址递增或递减的顺序排列;根据所述IP地址库数据的地名信 息过滤所述邮寄地址数据,删除地址信息与对应的IP地址库数据的地名信息不匹配的邮 寄地址数据。
其中,IP地址库数据包括IP地址和对应的地名信息,该地名信息包括以下内容中 的任意一项国家地址、省级地址、市级地址和县级地址。步骤103,根据IP地址区段对应的实际地址,更新IP地址库。具体地,上述根据IP地址区段对应的实际地址,更新IP地址库,具体包括使用 IP地址区段对应的实际地址,替换该IP地址区段在IP地址库中对应的地名信息。本申请包括以下优点,使用大量的邮寄地址数据对现有的IP地址库中的实际地 址进行自动补充和校验,准确性和覆盖率较高;整个过程只需要对IP地址库数据和邮寄地 址数据进行两次扫描,不需要人工收集,补充和校验的效率高。当然,实施本申请的任一产 品并不一定需要同时达到以上所述的所有优点。如图2所示,为本申请实施例二中的一种更新IP地址库的方法流程图,包括以下 步骤步骤201,获取IP地址库数据和交易信息数据库中的邮寄地址数据,将IP地址库 数据和邮寄地址数据按照IP地址递增或递减的顺序排列。其中,IP地址库数据包括IP地址和对应的地名信息,通常IP地址的一个区段对应 一个地名信息,例如,从192. 168. 0. 1到192. 169. 5. 252的IP地址的区段对应的地名信息 为中国湖北省武汉市。IP地址库数据通常会在网络上公开,可以直接下载得到。目前,较为 常用的IP地址库数据为纯真版的IP地址库数据,纯真版的IP地址库只用一个文件QQWry. dat就包含了与IP地址相关的所有记录,方便嵌入到其他程序中,也便于升级。交易信息数据库位于购物网站的服务器中,用于存储客户端的IP地址以及客户 端使用者进行购物交易留下的地址信息等。邮寄地址数据包括IP地址和地址信息,其中, 地址信息为用户进行购物交易时留下的邮寄地址。具体地,客户在网上购物时,例如在淘宝网上购物时,成交时会填写邮寄地址,通 过记录客户的IP地址及其邮寄地址,可以获取IP地址库数据和邮寄地址数据。例如,邮寄 地址数据可以是一年内登录淘宝网的IP地址以及各个IP地址对应的邮寄地址。步骤202,根据IP地址库数据的地名信息过滤邮寄地址数据,删除地址信息与对 应的IP地址库数据的地名信息不匹配的邮寄地址数据。其中,IP地址库数据的地名信息包括以下内容中的任意一项国家地址、省级地 址、市级地址和县级地址。由于IP地址是按照区段分配到不同的地域的,因此同一个地域 的IP地址具有临近性,一般在一个或者多个连续的区段内。现有的IP地址库数据的地名 信息多到省级,粒度较粗,但是对于省级地址的判断,正确性一般较高;而邮寄地址数据则 细到了街道、门牌号,单条邮寄地址往往噪音较大,并不能有效的地说明IP的实际地址,因 此需要对邮寄地址数据进行过滤。在具体实现过程中,可以判断邮寄地址数据的地址信息与对应的IP地址库数 据的地名信息是否匹配,如果不匹配,则删除该邮寄地址数据。可以取IP地址库数据 的地名信息的省级地址作为标准,过滤邮寄地址数据中与IP地址库数据中的IP地址 一样但省级地址不一致的数据。例如,某条邮寄地址数据的IP地址为192. 168. 0.2,地 址信息为中国江苏省南京市XX区XX路XX号;而IP地址192. 168. 0. 2所在的IP区段 192. 168. 0. 1-192. 169. 5. 252映射到的IP地址库数据的地名信息为中国湖北省武汉市,因 此,上述邮寄地址数据地址信息与对应的IP地址库数据的地名信息不匹配,需要删除该邮寄地址数据。当然,可以取IP地址库数据的地名信息的国家地址、市级地址或县级地址作为标 准,过滤邮寄地址数据,其方法与上述流程类似。另外,如果某个IP区段在IP地址库数据中没有对应的地名信息,但是存在对应的 邮寄地址数据,则保留该邮寄地址数据。步骤203,扫描邮寄地址数据,根据预设的地址信息的精度,获取地址信息相同且 IP地址连续的邮寄地址数据的个数。具体地,可以设定地址信息的精度,根据该精度判断邮寄地址数据的地址信息是 否相同。预先设定的地址信息的精度可以为市级、县级、区级甚至更加细化的级别,邮寄地 址数据的地址信息是否相同取决于地址信息的精度。例如,两条IP地址连续的邮寄地址数 据的地址信息分别为A省B市C县和A省B市D县,如果预先设定的地址信息的精度为市 级,则上述两条邮寄地址数据的地址信息相同;如果预先设定的地址信息的精度为县级,则 上述两条邮寄地址数据的地址信息不同。同一 IP地址和相邻的IP地址往往对应在一定精度上相同的地址信息,从大量邮 寄地址数据中,能够有效地定位IP区段对应的市、县级实际地址。步骤204,判断地址信息相同且IP地址连续的邮寄地址数据的个数是否大于预设 阈值,如果大于该预设阈值,则执行步骤205 ;否则,则结束流程。步骤205,将地址信息相同且IP地址连续的邮寄地址数据的IP地址合并到一个 IP地址区段,并将上述邮寄地址数据中的相同的地址信息作为该IP地址区段对应的实际 地址。在具体实现过程中,设邮寄地址数据共有η条,对邮寄地址数据从第r+Ι条开始向 第n-r条扫描(其中,r为变量,可以设置为20)。假设当前扫描到第i条邮寄地址数据,在 [i-r,i+r]的范围内,有χ条邮寄地址数据的地址信息相同且IP地址连续。如果x<预设 阈值δ,则判断当前区域地址信息相同的记录数过少,地址信息不足以说明当前IP地址的 实际地址;如果χ彡S,则根据预设的地址信息的精度,确定第i条邮寄地址数据的IP地 址对应的实际地址,该实际地址可以是第i条邮寄地址数据的地址信息到省、市或县级的 地址。如果两条邮寄地址数据的实际地址相同,则它们的IP地址可以合并为一个区段。 一直往下扫描邮寄地址数据,直至出现实际地址不同的邮寄地址数据,将从第一条至最后 一条实际地址相同的IP地址用一个区段表示,将该区段作为最大的实际地址相同的连续 IP区段。步骤206,根据合并得到的IP地址区段对应的实际地址,更新IP地址库。具体地,可以使用合并得到的IP地址区段对应的实际地址,替换该IP地址区段在 IP地址库中对应的地名信息;对于IP地址库中该IP地址区段之外的IP地址对应的地名 信息,不进行任何操作。此外,还可以判断IP地址区段对应的实际地址是否比该IP地址区段在IP地址库 中对应的地名信息详细,当邮寄地址数据中没有判别结果的IP区段时,则以IP地址库数据 中的实际地址作为对应IP地址的实际地址;当邮寄地址数据中有判别结果的IP区段时, 则以邮寄地址数据中的实际地址作为对应IP地址的实际地址。当IP地址库数据和邮寄地
8址数据中均有判别结果的IP区段时,如果IP地址区段对应的实际地址比该IP地址区段在 IP地址库中对应的地名信息邮寄地址数据的实际地址比IP地址库数据的实际地址详细, 则以IP地址区段对应的实际地址替换该IP地址区段在IP地址库中对应的地名信息邮寄 地址的实际地址为准;否则,不对该IP地址区段在IP地址库中对应的地名信息进行任何操 作以IP地址库数据的实际地址为准。本申请包括以下优点,使用大量的邮寄地址数据对现有的IP地址库中的实际地 址进行自动补充和校验,准确性和覆盖率较高;整个过程只需要对IP地址库数据和邮寄地 址数据进行两次扫描,不需要人工收集,补充和校验的效率高。当然,实施本申请的任一产 品并不一定需要同时达到以上所述的所有优点。本申请上述实施例提供了获取IP地址的实际地址的方法和应用场景,相应地,本 申请还通过以下实施例提供了应用上述方法的装置。如图3所示,为本申请实施例三中的一种获取IP地址的实际地址的装置结构示意 图,包括获取模块310,用于获取交易信息数据库中的邮寄地址数据,所述邮寄地址数据包 括IP地址和地址信息。扫描模块320,用于扫描获取模块310获取的邮寄地址数据,获取地址信息相同且 IP地址连续的邮寄地址数据对应的IP地址区段,以及所述IP地址区段对应的实际地址。更新模块330,用于根据扫描模块320获取的IP地址区段对应的实际地址,更新 IP地址库。上述更新模块330,具体用于使用所述IP地址区段对应的实际地址,替换所述IP 地址区段在所述IP地址库中对应的地名信息。本申请包括以下优点,使用大量的邮寄地址数据对现有的IP地址库中的实际地 址进行自动补充和校验,准确性和覆盖率较高;整个过程只需要对IP地址库数据和邮寄地 址数据进行两次扫描,不需要人工收集,补充和校验的效率高。当然,实施本申请的任一产 品并不一定需要同时达到以上所述的所有优点。如图4所示,为本申请实施例四中的一种更新IP地址库的装置结构示意图,包 括获取模块410,用于获取交易信息数据库中的邮寄地址数据,所述邮寄地址数据包 括IP地址和地址信息。扫描模块420,用于扫描所述获取模块获取的邮寄地址数据,获取地址信息相同且 IP地址连续的邮寄地址数据对应的IP地址区段,以及所述IP地址区段对应的实际地址。上述扫描模块420,具体包括获取子模块421,用于获取地址信息相同且IP地址连续的邮寄地址数据的个数。判断子模块422,用于判断获取子模块421获取的地址信息相同且IP地址连续的 邮寄地址数据的个数是否大于预设阈值。合并子模块423,用于在判断子模块422判断所述邮寄地址数据的个数大于所述 预设阈值时,将所述邮寄地址数据的IP地址合并到一个IP地址区段,并将所述邮寄地址数 据中的相同的地址信息作为所述IP地址区段对应的实际地址。更新模块430,用于根据所述扫描模块获取的IP地址区段对应的实际地址,更新IP地址库。上述更新模块430,具体用于使用所述IP地址区段对应的实际地址,替换所述IP 地址区段在所述IP地址库中对应的地名信息。过滤模块440,用于获取IP地址库数据,IP地址库数据包括IP地址和对应的地名 信息;将所述IP地址库数据和所述邮寄地址数据按照IP地址递增或递减的顺序排列,根据 所述IP地址库数据的地名信息过滤获取模块410获取的邮寄地址数据,删除地址信息与对 应的IP地址库数据的地名信息不匹配的邮寄地址数据。上述过滤模块440,具体用于根据所述IP地址库数据的以下地名信息的任意一项 过滤所述邮寄地址数据国家地址、省级地址、市级地址和县级地址。本申请包括以下优点,使用大量的邮寄地址数据对现有的IP地址库中的实际地 址进行自动补充和校验,准确性和覆盖率较高;整个过程只需要对IP地址库数据和邮寄地 址数据进行两次扫描,不需要人工收集,补充和校验的效率高。当然,实施本申请的任一产 品并不一定需要同时达到以上所述的所有优点。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可借助 软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更 佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的 部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若 干指令用以使得一台终端设备(可以是手机,个人计算机,服务器,或者网络设备等)执行 本申请各个实施例所述的方法。以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人 员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应 视本申请的保护范围。本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分 布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上 述实施例的模块可以集成于一体,也可以分离部署;可以合并为一个模块,也可以进一步拆 分成多个子模块。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上公开的仅为本申请的几个具体实施例,但是,本申请并非局限于此,任何本领 域的技术人员能思之的变化都应落入本申请的保护范围。
权利要求
1.一种更新互联网协议IP地址库的方法,其特征在于,包括以下步骤获取交易信息数据库中的邮寄地址数据,所述邮寄地址数据包括IP地址和地址信息; 扫描所述邮寄地址数据,获取地址信息相同且IP地址连续的邮寄地址数据对应的IP 地址区段,以及所述IP地址区段对应的实际地址;根据所述IP地址区段对应的实际地址,更新IP地址库。
2.如权利要求1所述的方法,其特征在于,所述获取地址信息相同且IP地址连续的邮 寄地址数据对应的IP地址区段,以及所述IP地址区段对应的实际地址,具体包括获取地址信息相同且IP地址连续的邮寄地址数据的个数; 判断所述地址信息相同且IP地址连续的邮寄地址数据的个数是否大于预设阈值; 如果所述邮寄地址数据的个数大于所述预设阈值,则将所述邮寄地址数据的IP地址 合并到一个IP地址区段,并将所述邮寄地址数据中的相同的地址信息作为所述IP地址区 段对应的实际地址。
3.如权利要求1所述的方法,其特征在于,所述扫描邮寄地址数据之前,还包括 获取IP地址库数据,IP地址库数据包括IP地址和对应的地名信息;将所述IP地址库数据和所述邮寄地址数据按照IP地址递增或递减的顺序排列; 根据所述IP地址库数据的地名信息过滤所述邮寄地址数据,删除地址信息与对应的 IP地址库数据的地名信息不匹配的邮寄地址数据。
4.如权利要求3所述的方法,其特征在于,所述地名信息包括以下内容中的任意一项 国家地址、省级地址、市级地址和县级地址。
5.如权利要求1所述的方法,其特征在于,所述根据IP地址区段对应的实际地址,更新 IP地址库,具体包括使用所述IP地址区段对应的实际地址,替换所述IP地址区段在所述IP地址库中对应 的地名信息。
6.一种更新IP地址库的装置,其特征在于,包括获取模块,用于获取交易信息数据库中的邮寄地址数据,所述邮寄地址数据包括IP地 址和地址信息;扫描模块,用于扫描所述获取模块获取的邮寄地址数据,获取地址信息相同且IP地址 连续的邮寄地址数据对应的IP地址区段,以及所述IP地址区段对应的实际地址;更新模块,用于根据所述扫描模块获取的IP地址区段对应的实际地址,更新IP地址库。
7.如权利要求6所述的装置,其特征在于,还包括过滤模块,用于获取IP地址库数据,IP地址库数据包括IP地址和对应的地名信息;将 所述IP地址库数据和所述邮寄地址数据按照IP地址递增或递减的顺序排列,根据所述IP 地址库数据的地名信息过滤所述获取模块获取的邮寄地址数据,删除地址信息与对应的IP 地址库数据的地名信息不匹配的邮寄地址数据。
8.如权利要求7所述的装置,其特征在于,所述过滤模块,具体用于根据所述IP地址库数据的以下地名信息的任意一项过滤所 述邮寄地址数据国家地址、省级地址、市级地址和县级地址。
9.如权利要求6所述的装置,其特征在于,所述扫描模块,具体包括获取子模块,用于获取地址信息相同且IP地址连续的邮寄地址数据的个数; 判断子模块,用于判断所述获取子模块获取的地址信息相同且IP地址连续的邮寄地 址数据的个数是否大于预设阈值;合并子模块,用于在所述判断子模块判断所述邮寄地址数据的个数大于所述预设阈值 时,将所述邮寄地址数据的IP地址合并到一个IP地址区段,并将所述邮寄地址数据中的相 同的地址信息作为所述IP地址区段对应的实际地址。
10.如权利要求6所述的装置,其特征在于,所述更新模块,具体用于使用所述IP地址区段对应的实际地址,替换所述IP地址区段 在所述IP地址库中对应的地名信息。
全文摘要
本申请公开了一种更新互联网协议IP地址库的方法和装置,该方法包括以下步骤获取交易信息数据库中的邮寄地址数据,所述邮寄地址数据包括IP地址和地址信息;扫描所述邮寄地址数据,获取地址信息相同且IP地址连续的邮寄地址数据对应的IP地址区段,以及所述IP地址区段对应的实际地址;根据所述IP地址区段对应的实际地址,更新IP地址库。本申请提高了获取IP地址的实际地址的准确性和覆盖率。
文档编号H04L29/12GK102104635SQ20091025923
公开日2011年6月22日 申请日期2009年12月17日 优先权日2009年12月17日
发明者彭翔 申请人:阿里巴巴集团控股有限公司