一种生成集体宿舍ip库的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及通信领域,尤其涉及一种生成集体宿舍IP库的方法和装置。
【背景技术】
[0002]IP(InternetProtocol,网络协议)是为计算机网络相互连接进行通信而设计的 协议,是为了使连接到因特网上的所有计算机实现相互通信的一套规则。每个连接在因特 网上的一台计算机都会被分配一个或多个IP地址用于在网络上进行通讯。全球的IP地址 在从国家往下逐级分配的过程中产生了很强的地域性,因此IP地址经常被用于地域定位, 例如互联网广告的地域定向投放,用户定制的本地新闻推送或其他地域定向服务。
[0003] 集体宿舍,是指机关、学校、企事业单位等的员工、学生居住的房屋。集体宿舍接入 网络通常使用路由器等网络设备,实现多人共享网络,对外使用相同的外网IP地址。集体 宿舍的用户具有相同或相似的身份、工作环境、收入水平和生活习惯,且宿舍成员消费习惯 明显区别于家庭、公司等,因此,针对集体宿舍人群的商业定向广告投放是极具价值的。集 体宿舍接入网络时使用的IP相对固定,这使得集体宿舍定向的解决方案可以参考地域定 向,基于上网行为发生时的IP地址来实现。
[0004] 基于IP地址的集体宿舍定向需要使用集体宿舍IP库,集体宿舍IP库是一张存放 了大量集体宿舍IP地址的列表,列表里每个IP地址代表着使用这个IP上网的电脑属于某 个单位的集体宿舍。因为集体宿舍所用IP无需向互联网服务商报备,目前并没有手段能从 互联网服务商方面得到集体宿舍IP库;而互联网用户分享的集体宿舍IP地址也局限于愿 意分享IP地址和地理信息的用户的数量,并且这种由非专业人员提供的信息的可靠性也 有不足。
【发明内容】
[0005] 本发明要解决的技术问题是如何简单、可靠地生成集体宿舍IP库。
[0006] 为了解决上述问题,本发明提供了一种生成集体宿舍IP库的方法,包括:
[0007]S101、收集指定IP范围内用户的上网行为数据;所述上网行为数据包括cookie、 IP地址、访问的网站,上网时间;
[0008]S102、在所述上网行为数据中,提取已确认过是否为集体宿舍用户的cookie对应 的上网行为数据作为第一数据集合,将其余上网行为数据作为第二数据集合;在所述已确 认过是否为集体宿舍用户的cookie中,计算属于集体宿舍用户的cookie所占的比例,得到 第一比例;
[0009]S103、对于所述第二数据集合中的各cookie,分别选出与该cookie访问各网站的 次数差异最小的P个第一数据集合中的cookie,并计算所选出的P个cookie中属于集体宿 舍用户的cookie所占的第二比例,如果大于或等于所述第一比例,则将该第二数据集合中 的cookie标记为备选用户;P为正整数;
[0010]S104、对于所述上网行为数据中所出现的每个IP地址,分别统计该IP地址所对 应的、上网时间属于预定时间段的上网行为数据所包括的cookie中,标记为备选用户的cookie所占的第三比例,如果大于预定比例阈值,则判断该IP地址为集体宿舍IP地址;
[0011]S105、取所有判断为集体宿舍IP地址的IP地址组成集体宿舍IP库。
[0012] 可选地,所述对于所述第二数据集合中的各cookie,分别选出与该cookie访问各 网站的次数差异最小的P个第一数据集合中的cookie的步骤包括:
[0013] 根据所述上网行为数据分别统计所述上网行为数据中各cookie对于所述上网行 为数据中所包括的每个网站的访问次数;
[0014] 对于所述第二数据集合中的各cookie,分别计算该cookie与所述第一数据集合 中各cookie对各网站访问次数的差异值;
[0015] 对于所述第二数据集合中的各cookie,分别选出最小的P个差异值所对应的 cookie。
[0016] 可选地,所述根据所述上网行为数据分别统计各cookie对于上网行为数据中所 包括的每个网站的访问次数的步骤包括:根据所述上网行为数据分别统计第一数据集合中 每个cookie对于上网行为数据中所包括的各网站的访问次数,形成m行n列的第一矩阵, 其中m为第一数据集合中的cookie个数;n为所述上网行为数据中出现过的网站的总个 数;根据所述上网行为数据分别统计第二数据集合中每个cookie对于上网行为数据中所 包括的各网站的访问次数,形成k行n列的第二矩阵,其中k为第二数据集合中的cookie 个数。
[0017] 可选地,所述对于所述第二数据集合中的各cookie,分别计算该cookie与所述第 一数据集合中各cookie对各网站访问次数的差异值的步骤包括:
[0018] 对第二矩阵的每一行,分别计算该行与第一矩阵一中每一行对应列的差值的平方 和,计算结果作为第二矩阵的该行所表示的cookie与第一矩阵相应行所表示的cookie对 各网站访问次数的差异值。
[0019] 可选地,所述P为所述第一数据集合中cookie个数除以100得到的商向上或向下 取整后的得数,与5中较大者;所述预定比例阈值为50%。
[0020] 本发明还提供了一种生成集体宿舍IP库的装置,包括:
[0021] 收集模块,用于收集指定IP范围内用户的上网行为数据;所述上网行为数据包括 cookie、IP地址、访问的网站,上网时间;
[0022] 预处理模块,用于在所述上网行为数据中,提取已确认过是否为集体宿舍用户的 cookie对应的上网行为数据作为第一数据集合,将其余上网行为数据作为第二数据集合; 在所述已确认过是否为集体宿舍用户的cookie中,计算属于集体宿舍用户的cookie所占 的比例,得到第一比例;
[0023] 标注模块,用于对于所述第二数据集合中的各cookie,分别选出与该cookie访问 各网站的次数差异最小的P个第一数据集合中的cookie,并计算所选出的P个cookie中属 于集体宿舍用户的cookie所占的第二比例,如果大于或等于所述第一比例,则将该第二数 据集合中的cookie标记为备选用户;P为正整数;
[0024]判断模块,用于对于所述上网行为数据中所出现的每个IP地址,分别统计该IP地 址所对应的、上网时间属于预定时间段的上网行为数据所包括的cookie中,标记为备选用 户的cookie所占的第三比例,如果大于预定比例阈值,则判断该IP地址为集体宿舍IP地 址;
[0025] 建库模块,用于取所有判断为集体宿舍IP地址的IP地址组成集体宿舍IP库。
[0026] 可选地,所述标注模块对于所述第二数据集合中的各cookie,分别选出与该 cookie访问各网站的次数差异最小的P个第一数据集合中的cookie是指:
[0027] 所述标注模块根据所述上网行为数据分别统计所述上网行为数据中各cookie 对于所述上网行为数据中所包括的每个网站的访问次数;对于所述第二数据集合中的各 cookie,分别计算该cookie与所述第一数据集合中各cookie对各网站访问次数的差异值; 对于所述第二数据集合中的各cookie,分别选出最小的P个差异值所对应的cookie。
[0028] 可选地,所述标注模块根据所述上网行为数据分别统计各cookie对于上网行为 数据中所包括的每个网站的访问次数是指:
[0029] 所述标注模块根据所述上网行为数据分别统计第一数据集合中每个cookie对于 上网行为数据中所包括的各网站的访问次数,形成m行n列的第一矩阵,其中m为第一数据 集合中的cookie个数;n为所述上网行为数据中出现过的网站的总个数;根据所述上网行 为数据分别统计第二数据集合中每个cookie对于上网行为数据中所包括的各网站的访问 次数,形成k行n列的第二矩阵,其中k为第二数据集合中的cookie个数。
[0030] 可选地,所述标注模块对于所述第二数据集合中的各cookie,分别计算该cookie 与所述第一数据集合中各cookie对各网站访问次数的差异值是指:
[0031] 所述标注模块对第二矩阵的每一行,分别计算该行与第一矩阵一中每一行对应列 的差值的平方和,计算结果作为第二矩阵的该行所表示的cookie与第一矩阵相应行所表 示的cookie对各网站访问次数的差异值。
[0032] 可选地,所述P为所述第一数据集合中cookie个数除以100得到的商向上或向下 取整后的得数,与5中较大者;所述预定比例阈值为50%。
[0033] 本发明的至少一个实施例能够无需专业人员经过长时间、多途径通过多种手段收 集集体宿舍IP地址来生成集体宿舍IP库,并能够保证所生成的集体宿舍IP库的可靠性。
【附图说明】
[0034]图1为实施例一的生成集体宿舍IP库的方法的流程示意图;
[0035] 图2为实施例二的生成集体宿舍IP库的装置的示意框图。
【具体实施方式】
[0036] 下面将结合附图及实施例对本发明的技术方案进行更详细的说明。
[0037] 需要说明的是,如果不冲突,本发明实施例以及实施例中的各个特征可以相互结 合,均在本发明的保护范围之内。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况 下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0038] 实施例一、一种生成集体宿舍IP库的方法,如图1所示,包括:
[0039]S101、收集指定IP范围内用户的上网行为数据;所述上网行为数据可以但不限于 包括cookie、IP地址、访问的网站,上网时间等信息;
[0040]S102、在所述上网行为数据中,提取已确认过是否为集体宿舍用户的cookie对应 的上网行为数据作为第一数据集合,将其余上网行为数据作为第二数据集合;在所述已确 认过是否为集体宿舍用户的cookie中,