一种网页分类方法及装置的制造方法

文档序号：9750822阅读：281来源：国知局

一种网页分类方法及装置的制造方法
【技术领域】
[0001] 本发明涉及互联网通讯技术领域，尤其涉及一种网页分类方法及装置。
【背景技术】
[0002] 网页分类是当下互联网应用中的一个热点问题。对网页进行分类，可以以此来对用户访问网页的记录进行分析，从而得出用户的上网偏好，以便进一步给用户提供基于该偏好的互联网服务。
[0003] 网页分类的结果一般由爬虫系统进行爬取后，保存在数据存储系统中。但由于互联网上的网页数量非常庞大，随着爬取到的网页数目增加，数据的查询和分析会越来越慢。
[0004] 目前已存在许多网页分类的方法，都需要解析网页正文内容进行分类，而且还需要将网页和类别的对应关系进行记录，导致网页分类的效率低下；另外，由于解析网页正文需要大量的分析和计算，对系统性能有影响。

【发明内容】

[0005] 本发明要解决的主要技术问题是，提供一种网页分类方法及装置，能够解决采用目前网页分类方法对进行网页分类的效率低下的问题。
[0006] 为解决上述技术问题，本发明提供一种网页分类方法，包括如下步骤：
[0007] 根据网页样本集合建立特征词分类器，所述网页地址样本合集包括：多个样本网页地址和各所述样本网页地址对应的网页类型；
[0008] 获取预定数量的网页地址，通过所述特征词分类器确定每个所述网页地址所属的所述网页类型；
[0009] 对确定出网页类型的所述网页地址进行去冗余处理得到结构字符串，所述结构字符串为网页地址结构；
[0010] 存储所述网页地址结构及其对应的所述网页类型；
[0011] 在对网页进行分类时，获取待分类网页的网页地址，对该网页地址进行去冗余处理得到对应的网页地址结构，利用该网页地址结构从存储中查找出所述待分类网页所属的网页类型。
[0012] 进一步地，所述根据网页样本集合建立特征词分类器的步骤包括：
[0013] 对所述多个样本网页地址对应的网页内容进行分词处理获取多个特征词；
[0014] 获取每个所述特征词属于各所述网页类型的概率；
[0015] 根据获取结果形成所述特征词分类器。
[0016] 进一步地，所述通过所述特征词分类器确定所述网页地址所属的所述网页类型的步骤包括：
[0017] 从所述网页地址对应的网页内容中提取关键词；
[0018] 根据所述特征词分类器计算所述关键词属于每个所述网页类型的概率；
[0019] 根据计算结果确定所述网页地址所属的所述网页类型。
[0020] 进一步地，所述存储所述网页地址结构及其对应的所述网页类型的步骤包括：
[0021] 统计每种所述网页地址结构属于各个所述网页类型的次数；
[0022] 根据统计结果重新确定每种所述网页地址结构所属的网页类型；
[0023] 存储每种网页地址结构及其对应的网页类型。
[0024] 进一步地，所述根据统计结果重新确定每种所述网页地址结构所属的网页类型的步骤包括：
[0025] 根据所述网页地址属于各个所述网页类型的次数计算出该网页地址属于各个所述网页类型的概率；
[0026] 根据计算出的概率确定该网页地址结构所属的网页类型；
[0027] 或者
[0028] 当所述网页地址结构为子目录网页地址结构时，根据该子目录地址结构属于各个所述网页类型的次数计算出该子目录地址结构属于各个所述网页类型的概率；根据计算出的概率确定该子目录地址结构所属的网页类型；
[0029] 当所述网页地址结构为上层目录网页地址结构并且存在其下的子目录网页地址结构时，根据所述上层目录网页地址下的所述子目录网页地址结构所属的所述网页类型确定所述上层目录网页地址结构所属的所述网页类型。
[0030] 进一步地，所述存储每种网页地址结构及其对应的网页类型的步骤包括：
[0031 ] 以结构树的形式存储每种网页地址结构及其对应的网页类型。
[0032] 同样为了解决上述的技术问题，本发明还提出了一种网页分类装置，包括：特征词分类器建立模块、获取识别模块、网页地址处理模块、存储模块和网页分类模块；
[0033] 所述特征词分类器建立模块用于根据网页样本集合建立特征词分类器，所述网页地址样本合集包括：多个样本网页地址和各所述样本网页地址对应的网页类型。
[0034] 所述获取识别模块用于获取预定数量的网页地址，通过所述特征词分类器确定每个所述网页地址所属的所述网页类型；
[0035] 所述网页地址处理模块用于对所述获取识别模块确定出网页类型的所述网页地址进行去冗余处理得到结构字符串，所述结构字符串为网页地址结构；
[0036] 所述存储模块用于存储所述网页地址结构及其对应的所述网页类型；
[0037] 所述网页分类模块用于在对网页进行分类时，获取待分类网页的网页地址，对该网页地址进行去冗余处理得到对应的网页地址结构，利用该网页地址结构从所述存储模块中查找出所述待分类网页所属的网页类型。
[0038] 进一步地，所述特征词分类器建立模块用于：
[0039] 对所述多个样本网页地址对应的网页内容进行分词处理获取多个特征词；
[0040] 获取每个所述特征词属于各所述网页类型的概率；
[0041] 根据获取结果形成所述特征词分类器。
[0042] 进一步地，所述获取识别模块用于：
[0043] 从所述网页地址对应的网页内容中提取关键词；
[0044] 根据所述特征词分类器计算所述关键词属于每个所述网页类型的概率；
[0045] 根据计算结果确定所述网页地址所属的所述网页类型。
[0046] 进一步地，所述存储模块包括：统计模块、类型确定模块以及执行存储模块；
[0047] 所述统计模块用于统计每种所述网页地址结构属于各个所述网页类型的次数；
[0048] 所述类型确定模块用于根据所述统计模块的统计结果重新确定每种所述网页地址结构所属的网页类型；
[0049] 所述执行存储模块用于存储每种网页地址结构及其对应的网页类型。
[0050] 进一步地，所述类型确定模块用于：
[0051] 根据所述网页地址属于各个所述网页类型的次数计算出该网页地址属于各个所述网页类型的概率；
[0052] 根据计算出的概率确定该网页地址结构所属的网页类型；
[0053] 或者
[0054] 当所述网页地址结构为子目录网页地址结构时，根据该子目录地址结构属于各个所述网页类型的次数计算出该子目录地址结构属于各个所述网页类型的概率；根据计算出的概率确定该子目录地址结构所属的网页类型；
[0055] 当所述网页地址结构为上层目录网页地址结构并且存在其下的子目录网页地址结构时，根据所述上层目录网页地址下的所述子目录网页地址结构所属的所述网页类型确定所述上层目录网页地址结构所属的所述网页类型。
[0056] 进一步地，所述执行存储模块用于以结构树的形式存储每种网页地址结构及其对应的网页类型。
[0057] 本发明的有益效果是：
[0058] 本发明提供了一种网页分类方法及装置，可以利用网页地址相似性的特性实现对网页快速高效的分类；具体地，本发明的网页分类方法，包括如下步骤：根据网页样本集合建立特征词分类器，所述网页地址样本合集包括：多个样本网页地址和各所述样本网页地址对应的网页类型；获取预定数量的网页地址，通过所述特征词分类器确定每个所述网页地址所属的所述网页类型；对确定出网页类型的所述网页地址进行去冗余处理得到结构字符串，所述结构字符串为网页地址结构；存储所述网页地址结构及其对应的所述网页类型；在对网页进行分类时，获取待分类网页的网页地址，对该网页地址进行去冗余处理得到对应的网页地址结构，利用该网页地址结构从存储中查找出所述待分类网页所属的网页类型；本发明方法可以预先获取并存储网页地址结构与网页类型的对应关系，然后在网页分类时利用待分类网页对应的网页地址结构从预先存储中直接查找出带分类网页所属的网页类型；不需要对待分类网页的网页内容进行解析也不需要记录网页和类别的对应关系供后续查询，与现有技术相比，提高了网页分类的速度和效率，并且减小了网页分类对系统性能的影响，提升了用户体验。
【附图说明】
[0059] 图1为本发明实施例一提供的一种网页分类方法的流程示意图；
[0060] 图2为本发明实施例一提供的一种存储所述网页地址结构及其对应的所述网页类型的流程示意图；
[0061] 图3为本发明实施例一提供的一种建立URL结构树表的流

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：于波;
技术所有人：中兴通讯股份有限公司;
我是此专利的发明人

上一篇：一种文件访问方法、装置及智能文件系统的制作方法
上一篇：基因变异与药物关系数据库和数据库系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。