一种网页分类方法及装置的制造方法
【技术领域】
[0001] 本发明涉及互联网通讯技术领域,尤其涉及一种网页分类方法及装置。
【背景技术】
[0002] 网页分类是当下互联网应用中的一个热点问题。对网页进行分类,可以以此来对 用户访问网页的记录进行分析,从而得出用户的上网偏好,以便进一步给用户提供基于该 偏好的互联网服务。
[0003] 网页分类的结果一般由爬虫系统进行爬取后,保存在数据存储系统中。但由于互 联网上的网页数量非常庞大,随着爬取到的网页数目增加,数据的查询和分析会越来越慢。
[0004] 目前已存在许多网页分类的方法,都需要解析网页正文内容进行分类,而且还需 要将网页和类别的对应关系进行记录,导致网页分类的效率低下;另外,由于解析网页正文 需要大量的分析和计算,对系统性能有影响。
【发明内容】
[0005] 本发明要解决的主要技术问题是,提供一种网页分类方法及装置,能够解决采用 目前网页分类方法对进行网页分类的效率低下的问题。
[0006] 为解决上述技术问题,本发明提供一种网页分类方法,包括如下步骤:
[0007] 根据网页样本集合建立特征词分类器,所述网页地址样本合集包括:多个样本网 页地址和各所述样本网页地址对应的网页类型;
[0008] 获取预定数量的网页地址,通过所述特征词分类器确定每个所述网页地址所属的 所述网页类型;
[0009] 对确定出网页类型的所述网页地址进行去冗余处理得到结构字符串,所述结构字 符串为网页地址结构;
[0010] 存储所述网页地址结构及其对应的所述网页类型;
[0011] 在对网页进行分类时,获取待分类网页的网页地址,对该网页地址进行去冗余处 理得到对应的网页地址结构,利用该网页地址结构从存储中查找出所述待分类网页所属的 网页类型。
[0012] 进一步地,所述根据网页样本集合建立特征词分类器的步骤包括:
[0013] 对所述多个样本网页地址对应的网页内容进行分词处理获取多个特征词;
[0014] 获取每个所述特征词属于各所述网页类型的概率;
[0015] 根据获取结果形成所述特征词分类器。
[0016] 进一步地,所述通过所述特征词分类器确定所述网页地址所属的所述网页类型的 步骤包括:
[0017] 从所述网页地址对应的网页内容中提取关键词;
[0018] 根据所述特征词分类器计算所述关键词属于每个所述网页类型的概率;
[0019] 根据计算结果确定所述网页地址所属的所述网页类型。
[0020] 进一步地,所述存储所述网页地址结构及其对应的所述网页类型的步骤包括:
[0021] 统计每种所述网页地址结构属于各个所述网页类型的次数;
[0022] 根据统计结果重新确定每种所述网页地址结构所属的网页类型;
[0023] 存储每种网页地址结构及其对应的网页类型。
[0024] 进一步地,所述根据统计结果重新确定每种所述网页地址结构所属的网页类型的 步骤包括:
[0025] 根据所述网页地址属于各个所述网页类型的次数计算出该网页地址属于各个所 述网页类型的概率;
[0026] 根据计算出的概率确定该网页地址结构所属的网页类型;
[0027] 或者
[0028] 当所述网页地址结构为子目录网页地址结构时,根据该子目录地址结构属于各个 所述网页类型的次数计算出该子目录地址结构属于各个所述网页类型的概率;根据计算出 的概率确定该子目录地址结构所属的网页类型;
[0029] 当所述网页地址结构为上层目录网页地址结构并且存在其下的子目录网页地址 结构时,根据所述上层目录网页地址下的所述子目录网页地址结构所属的所述网页类型确 定所述上层目录网页地址结构所属的所述网页类型。
[0030] 进一步地,所述存储每种网页地址结构及其对应的网页类型的步骤包括:
[0031 ] 以结构树的形式存储每种网页地址结构及其对应的网页类型。
[0032] 同样为了解决上述的技术问题,本发明还提出了一种网页分类装置,包括:特征词 分类器建立模块、获取识别模块、网页地址处理模块、存储模块和网页分类模块;
[0033] 所述特征词分类器建立模块用于根据网页样本集合建立特征词分类器,所述网页 地址样本合集包括:多个样本网页地址和各所述样本网页地址对应的网页类型。
[0034] 所述获取识别模块用于获取预定数量的网页地址,通过所述特征词分类器确定每 个所述网页地址所属的所述网页类型;
[0035] 所述网页地址处理模块用于对所述获取识别模块确定出网页类型的所述网页地 址进行去冗余处理得到结构字符串,所述结构字符串为网页地址结构;
[0036] 所述存储模块用于存储所述网页地址结构及其对应的所述网页类型;
[0037] 所述网页分类模块用于在对网页进行分类时,获取待分类网页的网页地址,对该 网页地址进行去冗余处理得到对应的网页地址结构,利用该网页地址结构从所述存储模块 中查找出所述待分类网页所属的网页类型。
[0038] 进一步地,所述特征词分类器建立模块用于:
[0039] 对所述多个样本网页地址对应的网页内容进行分词处理获取多个特征词;
[0040] 获取每个所述特征词属于各所述网页类型的概率;
[0041] 根据获取结果形成所述特征词分类器。
[0042] 进一步地,所述获取识别模块用于:
[0043] 从所述网页地址对应的网页内容中提取关键词;
[0044] 根据所述特征词分类器计算所述关键词属于每个所述网页类型的概率;
[0045] 根据计算结果确定所述网页地址所属的所述网页类型。
[0046] 进一步地,所述存储模块包括:统计模块、类型确定模块以及执行存储模块;
[0047] 所述统计模块用于统计每种所述网页地址结构属于各个所述网页类型的次数;
[0048] 所述类型确定模块用于根据所述统计模块的统计结果重新确定每种所述网页地 址结构所属的网页类型;
[0049] 所述执行存储模块用于存储每种网页地址结构及其对应的网页类型。
[0050] 进一步地,所述类型确定模块用于:
[0051] 根据所述网页地址属于各个所述网页类型的次数计算出该网页地址属于各个所 述网页类型的概率;
[0052] 根据计算出的概率确定该网页地址结构所属的网页类型;
[0053] 或者
[0054] 当所述网页地址结构为子目录网页地址结构时,根据该子目录地址结构属于各个 所述网页类型的次数计算出该子目录地址结构属于各个所述网页类型的概率;根据计算出 的概率确定该子目录地址结构所属的网页类型;
[0055] 当所述网页地址结构为上层目录网页地址结构并且存在其下的子目录网页地址 结构时,根据所述上层目录网页地址下的所述子目录网页地址结构所属的所述网页类型确 定所述上层目录网页地址结构所属的所述网页类型。
[0056] 进一步地,所述执行存储模块用于以结构树的形式存储每种网页地址结构及其对 应的网页类型。
[0057] 本发明的有益效果是:
[0058] 本发明提供了一种网页分类方法及装置,可以利用网页地址相似性的特性实现对 网页快速高效的分类;具体地,本发明的网页分类方法,包括如下步骤:根据网页样本集合 建立特征词分类器,所述网页地址样本合集包括:多个样本网页地址和各所述样本网页地 址对应的网页类型;获取预定数量的网页地址,通过所述特征词分类器确定每个所述网页 地址所属的所述网页类型;对确定出网页类型的所述网页地址进行去冗余处理得到结构 字符串,所述结构字符串为网页地址结构;存储所述网页地址结构及其对应的所述网页类 型;在对网页进行分类时,获取待分类网页的网页地址,对该网页地址进行去冗余处理得到 对应的网页地址结构,利用该网页地址结构从存储中查找出所述待分类网页所属的网页类 型;本发明方法可以预先获取并存储网页地址结构与网页类型的对应关系,然后在网页分 类时利用待分类网页对应的网页地址结构从预先存储中直接查找出带分类网页所属的网 页类型;不需要对待分类网页的网页内容进行解析也不需要记录网页和类别的对应关系供 后续查询,与现有技术相比,提高了网页分类的速度和效率,并且减小了网页分类对系统性 能的影响,提升了用户体验。
【附图说明】
[0059] 图1为本发明实施例一提供的一种网页分类方法的流程示意图;
[0060] 图2为本发明实施例一提供的一种存储所述网页地址结构及其对应的所述网页 类型的流程示意图;
[0061] 图3为本发明实施例一提供的一种建立URL结构树表的流