计算属于集体宿舍用户的cookie所占的比例,得到 第一比例;
[0041]S103、对于所述第二数据集合中的各cookie,分别选出与该cookie访问各网站的 次数差异最小的P个第一数据集合中的cookie,并计算所选出的P个cookie中属于集体宿 舍用户的cookie所占的第二比例,如果大于或等于所述第一比例,则将该第二数据集合中 的cookie标记为备选用户;P为正整数;
[0042]S104、对于所述上网行为数据中所出现的每个IP地址,分别统计该IP地址所对 应的、上网时间属于预定时间段的上网行为数据所包括的cookie中,标记为备选用户的 cookie所占的第三比例,如果大于预定比例阈值,则判断该IP地址为集体宿舍IP地址;
[0043]S105、取所有判断为集体宿舍IP地址的IP地址组成集体宿舍IP库。
[0044] 本实施例中,所述步骤SlOl可以通过在用户的终端和路由器等网络设备上植入 插件,或在网站上植入代码等方式实现。该步骤可以但不限于使用现有技术方案实现。可 以根据实际需要自行设置所述指定IP范围。
[0045] 本实施例中,所述第一比例可以根据预先调研的结果获得,比如在所收集的上网 行为数据对应的cookie中,随机选取部分cookie对应的用户进行调研,将所调研的用户 的cookie称为参考cookie集合(对于未收集到调研结果的cookie,可以将其更换为上网 行为数据中的其它cookie,或直接从参考cookie集合中剔除)。所述调研结果包括用户的 cookie、近期是否居住在集体宿舍中、调研时间等信息,计算所调研用户中近期居住在集体 宿舍中的比例(即:所调研用户中居住在集体宿舍的人数与调研用户总数的商),相当于计 算参考cookie集合中,属于集体宿舍用户的cookie所占的比例,记为第一比例,可以但不 限于用百分比的形式表示。当然,也可以等需要用到该第一比例时才进行计算。
[0046] 因此,本实施例中通过对部分cookie对应的用户进行是否居住在集体宿舍的确 认,就可以自动判断出上网行为数据包含的IP地址是否为集体宿舍IP地址,并进而生成集 体宿舍IP库,而不用进行大量的、长时间、多途径的人工收集整理;而且结果可靠。
[0047] 本实施例的一种实施方式中,所述对于所述第二数据集合中的各cookie,分别选 出与该cookie访问各网站的次数差异最小的P个第一数据集合中的cookie的步骤具体可 以包括:
[0048] 根据所述上网行为数据分别统计所述上网行为数据中各cookie对于所述上网行 为数据中所包括的每个网站的访问次数;
[0049] 对于所述第二数据集合中的各cookie,分别计算该cookie与所述第一数据集合 中各cookie对各网站访问次数的差异值;
[0050] 对于所述第二数据集合中的各cookie,分别选出最小的P个差异值所对应的 cookie。
[0051] 本实施方式的一种备选方案中,所述根据所述上网行为数据分别统计各cookie 对于上网行为数据中所包括的每个网站的访问次数的步骤具体可以包括:
[0052] 根据所述上网行为数据分别统计第一数据集合中每个cookie对于上网行为数 据中所包括的各网站的访问次数,形成m行n列的第一矩阵,其中m为第一数据集合中的 cookie个数;n为所述上网行为数据中出现过的网站(也就是第一、第二数据集合中各 cookie访问过的网站)的总个数;
[0053] 根据所述上网行为数据分别统计第二数据集合中每个cookie对于上网行为数 据中所包括的各网站的访问次数,形成k行n列的第二矩阵,其中k为第二数据集合中的 cookie个数。
[0054] 当然,在其它实施方式中,也可以不用矩阵形式来记录各cookie对各网站的访问 次数。
[0055] 本备选方案中,对于所述第二数据集合中的各cookie,分别计算该cookie与所述 第一数据集合中各cookie对各网站访问次数的差异值的步骤具体可以包括:
[0056] 对第二矩阵的每一行,分别计算该行与第一矩阵一中每一行对应列的差值的平方 和,计算结果作为第二矩阵的该行所表示的cookie与第一矩阵相应行所表示的cookie对 各网站访问次数的差异值。
[0057] 本备选方案中,计算出的平方和越小,说明两行的相似度越高。
[0058] 当然,在其它备选方案中,也可以用其它方式来计算差异值。
[0059] 本实施例的一种实施方式中,所述P可以但不限于为所述参考cookie中cookie 个数除以100得到的商向上或向下取整后的得数,和5之间较大者,比如商取整是6,则P为 6 ;向取整是4,则P为5 ;是向上取整还是向下取整可自行设置。
[0060] 本实施例的一种实施方式中,所述预定时间段可以但不限于为每天的20时以后、 次日8时前。
[0061] 本实施例的一种实施方式中,所述预定比例阈值可以但不限于为50%。
[0062] 下面用一个具体的例子来说明本实施例;该例子包括步骤一~步骤九。为了方便 说明,本例子中的用户就是指cookie对应的用户。
[0063] 步骤一:收集指定IP范围内用户的上网行为数据。在本例子中,所述指定IP范围 为162. 105. 38. 246至162. 105. 38. 255,共10个IP。所述上网行为数据包括用户的cookie、 使用的IP、时间、访问的网站等信息,如表一所示。
[0064]表一、上网行为数据
[0066] 步骤二,包括步骤2. 1~2. 2。
[0067] 步骤2. 1 :随机选取部分用户进行调研。调研可采用线下调研或网络问卷等形式, 调研用户近期是否居住在集体宿舍中和用户的网络行为日志,并将所调研用户中近期居住 在集体宿舍中的比例记为第一比例。
[0068] 在本例中,随机选取Cookiel~Cookie4所代表的用户进行调研;其中,Cookiel所代表的用户近期居住在集体宿舍中,计算得到第一比例为25 %。所述参考cookie集合包 括Cookiel~Cookie4,所述已知cookie集合包括Cookiel。
[0069] 步骤2.2 :在步骤一收集的上网行为数据中,提取步骤2. 1中选取调研的 Cookiel~C〇〇kie4所对应的上网网络行为数据作为第一数据集合,其余未调研用户(即C〇〇kie5~CookielO)所对应的部分上网行为数据作为第二数据集合。
[0070] 本例中,第一数据集合为Cookiel~Cookie4所代表的用户的上网行为数据;第二 数据集合为Cookie5~CookielO所代表的用户的上网行为数据。
[0071] 步骤三:对第一数据集合,统计每个用户访问的网站和相应的访问次数。假设第一 数据集合中有m个用户,第一、第二数据集合中用户共访问了n个网站(即:上网行为数据 中共包括了n个网站),则将统计数据形成一个m行n列的矩阵,记为第一矩阵。第一矩阵 中m行n列的值即为第m行所代表的用户访问第n列所代表网站的次数。
[0072] 在本例中,统计结果如表二所示。
[0073] 表二、第一数据集合的统计结果
[0074]
[0075] 本例中,第一数据集合中用户共4名,第一、第二数据集合中用户共访问了 4个网 站。由表二中的统计数据生成的第一矩阵如下:
[0077] 第一矩阵为4*4矩阵,第一行至第四行分别代表Cookiel~C〇〇kie4所代表的用 户,第一列至第四列分别代表第一、第二数据集合中所有用户共访问过的4个网站,矩阵中 的值代表该行所代表的用户访问该列所代表的网站的次数。具体含义如表三所示。
[0078] 表三、第一矩阵的含义
[0079]
[0080] 步骤四:对第二数据集合,统计每个用户访问的网站和相应的访问次数。假设第二 数据集合中有k个用户,第一、第二数据集合中用户共访问了n个网站,则将统计数据形成 一个k行n列的矩阵,记为第二矩阵。第二矩阵中k行n列的值即为第k行所代表的用户 访问第n列所代表网站的次数。
[0081] 在本例中,统计结果如表四所示。
[0082] 表四、第二数据集合的统计结果
[0083]
[0085]第二数据集合中用户共6名,第一、第二数据集合中用户共访问过4个网站。由表 二的统计结果生成的第二矩阵如下:
[0087] 其中,第二矩阵为6*4矩阵,第一行至第六行分别代表Cookie5~CookielO所代 表的用户,第一列至第四列分别代表第一、第二数据集合中所有用户共访问过的4个网站, 第二矩阵中的值代表该行所代的表用户访问该列所代表的网站的次数。具体含义如表五所 /Jn〇
[0088] 表五、第二矩阵的含义[0089]
[0090] 当然,也可以在步骤二之前就分别统计出每个cookie访问每个网站的次数;在步 骤二中划分了第一、第二用户集合后,再将统计次数归到相应的矩阵中。
[0091] 步骤五:对第二矩阵中的每一行,计算其与第一矩阵中每一行的两两相似度。所述 两两相似度的计算方法为:计算两行对应列的差值的平方和。所计算出的平方和越小,两两 相似度越高。
[0092] 在本例中,所得结果如表六所示。
[0093] 表六、相似度计算结果
[0094]
[0095] 表六中a行b列中数字代表第二矩阵第a行与第一矩阵中第b行的对应列的差值 平方和。
[0096] 例如,第二矩阵第1行与第一矩阵第1行对应列的差值平方和为7,计算过程为 (1-0) 2+(2-0)2+(0-1)2+ (0-1)2〇
[0097] 步骤六,包括步骤6. 1~6. 2。
[0098] 步骤6. 1 :对第二矩阵中的每一行,