一种站点资源管理方法及装置的制作方法

文档序号:6386042阅读:195来源:国知局
专利名称:一种站点资源管理方法及装置的制作方法
技术领域
本发明涉及互联网应用技术领域,特别涉及一种站点资源管理方法及装置。
背景技术
随着互联网技术,尤其是智能搜索、智能广告推荐等技术的发展,对于网站进行分 析、归类的需求越来越被重视。如此一来,就需要一种将站点的网页资源自动进行分类及组 织的管理方法。现有技术中,通常根据网页的内容对网页的类型进行划分,但因计算机自身 并不具有主动判断能力,使用这一方法的效率不高。发明内容
本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商 业选择。
为此,本发明的第一个目的在于提出一种站点资源管理方法,根据网页结构等因 素针对网页的网页类型进行分类,为对站点网页资源进行管理、分类提供了判断依据。本发 明的第二个目的在于提出一种站点资源管理装置。
为达到上述目的,本发明第一方面的实施例提出了一种站点资源管理方法,包括 以下步骤对web站点进行数据挖掘以获取所述web站点的各个页面;获取所述各个页面 的分块特征;将具有强分块特征的页面分为不同类型的页面;获取所述各个页面的分簇特 征并根据所述分簇特征将所述各个页面分组;根据各个分组中具有强分块特征的页面的类 型确定所述分组中的页面的类型。
根据本发明实施例的站点资源管理方法,通过基于页面基础功能块和资源块特征 信息、页面分簇信息等信息对页面类型进行识别,根据网页页面的结构,对网页的类型进行 智能判断,利用了机器对于比较、匹配运算的高执行效率的特点,显著地提高了分类效率, 节省了时间和人力成本。
在本发明的一个实施例中,所述强分块特征包括导航块、索引块、图片块、文本 块。
在本发明的一个实施例中,所述不同类型的页面包括首页页面、索引页页面、列表 页页面、正文页页面、封面页页面。
在本发明的一个实施例中,获取所述各个页面的分簇特征包括通过通配所述各个 页面的URL pattern获取所述各个页面的分簇特征。
在本发明的一个实施例中,所述通配包括对所述各个页面的URL pattern在不同 粒度上的通配。
在本发明的一个实施例中,获取所述各个页面的分簇特征包括通过对所述各个页 面进行Xpath分簇而获取所述各个页面的分簇特征。
在本发明的一个实施例中,在对所述各个页面进行Xpath分簇时,对所述各个页 面的目标节点的Xpath进行签名。
在本发明的一个实施例中,所述目标节点包括div节点,ul节点、a节点,视频节点 和图片节点。
本发明第二方面的实施例提出了一种站点资源管理装置,包括挖掘模块,用于对 web站点进行数据挖掘以获取所述web站点中各个页面的URL数据;分块特征获取模块,用 于获取所述各个页面的分块特征;分簇特征获取模块,用于获取所述各个页面的分簇特征 并根据所述分簇特征将所述各个页面分组;页面分类模块,用于将具有强分块特征的页面 分为不同类型的页面,以及根据各个分组中具有强分块特征的页面的类型确定所述分组中 的页面的类型。
根据本发明实施例的站点资源管理装置,通过基于页面基础功能块和资源块特征 信息、页面分簇信息等信息对页面类型进行识别,根据网页页面的结构,对网页的类型进行 智能判断,利用了机器对于比较、匹配运算的高执行效率的特点,显著地提高了分类效率, 节省了时间和人力成本。
在本发明的一个实施例中,所述强分块特征包括导航块、索引块、图片块、文本 块。
在本发明的一个实施例中,所述不同类型的页面包括首页页面、索引页页面、列表 页页面、正文页页面、封面页页面。
在本发明的一个实施例中,所述分簇特征获取模块通过通配所述各个页面的URL pattern获取所述各个页面的分簇特征。
在本发明的一个实施例中,所述通配包括对所述各个页面的URL pattern在不同 粒度上的通配。
在本发明的一个实施例中,获取所述各个页面的分簇特征包括通过对所述各个页 面进行Xpath分簇而获取所述各个页面的分簇特征。
在本发明的一个实施例中,在对所述各个页面进行Xpath分簇时,对所述各个页 面的目标节点的Xpath进行签名。
在本发明的一个实施例中,所述目标节点包括div节点,ul节点、a节点,视频节点 和图片节点。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。


本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变 得明显和容易理解,其中
图1为根据本发明一个实施例的站点资源管理方法的流程图2为根据本发明一个实施例的具体对网页进行分类的流程图;以及
图3为根据本发明实施例的一个站点资源管理装置的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面分别参考图1至图2对本发明实施例的站点资源管理方法的流程进行描述。
如图1所示,根据本发明第一方面的实施例的站点资源管理方法,包括以下步骤
SlOl :对web站点进行数据挖掘以获取web站点中各个页面。
具体地,对站点进行数据挖掘包括日志挖掘和站点挖掘两部分。
日志挖掘挖掘网站的url以及url对应的pattern、query、搜索结果页序号、pv 等信息,提供网站内url的基本url数据以及对应的访问热度信息,访问热度用于确定页面的点击量。在一个具体的实施例中,日志挖掘可以利用hadoop平台实现。
站点挖掘从网站首页或频道页开始,定时抓取指定站点或频道的页面以下级页面,分析页面前后连接之间的指向关系,并且补全网站站点各个页面的URL数据以及站点结构数据;在一个具体的实施例中,站点挖掘可以利用站点抓取技术实现。
在本发明的一个实施例中,以站点7y7. com为例,进行日志挖掘和站点挖掘,其中,日志挖掘根据PV分析,得到站点内PV最高的3条URL及其pattern如表I所示
权利要求
1.一种站点资源管理方法,其特征在于,包括以下步骤 对web站点进行数据挖掘以获取所述web站点的各个页面; 获取所述各个页面的分块特征; 将具有强分块特征的页面分为不同类型的页面; 获取所述各个页面的分簇特征并根据所述分簇特征将所述各个页面分组;以及 根据各个分组中具有强分块特征的页面的类型确定所述分组中的页面的类型。
2.根据权利要求1所述的方法,其特征在于,所述强分块特征包括导航块、索引块、图片块、文本块。
3.根据权利要求1或2所述的方法,其特征在于,所述不同类型的页面包括首页页面、索引页页面、列表页页面、正文页页面、封面页页面。
4.根据权利要求1或2所述的方法,其特征在于,获取所述各个页面的分簇特征包括通过通配所述各个页面的URL pattern获取所述各个页面的分簇特征。
5.根据权利要求4所述的方法,其特征在于,所述通配包括对所述各个页面的URLpattern在不同粒度上的通配。
6.根据权利要求4所述的方法,其特征在于,获取所述各个页面的分簇特征包括通过对所述各个页面进行Xpath分簇而获取所述各个页面的分簇特征。
7.根据权利要求6所述的方法,其特征在于,在对所述各个页面进行Xpath分簇时,对所述各个页面的目标节点的Xpath进行签名。
8.根据权利要求7所述的方法,其特征在于,所述目标节点包括div节点,ul节点、a节点,视频节点和图片节点。
9.一种站点资源管理装置,其特征在于,包括 挖掘模块,用于对web站点进行数据挖掘以获取所述web站点中各个页面的URL数据; 分块特征获取模块,用于获取所述各个页面的分块特征; 分簇特征获取模块,用于获取所述各个页面的分簇特征并根据所述分簇特征将所述各个页面分组; 页面分类模块,用于将具有强分块特征的页面分为不同类型的页面,以及根据各个分组中具有强分块特征的页面的类型确定所述分组中的页面的类型。
10.根据权利要求9所述的装置,其特征在于,所述强分块特征包括导航块、索引块、图片块、文本块。
11.根据权利要求9或10所述的装置,其特征在于,所述不同类型的页面包括首页页面、索引页页面、列表页页面、正文页页面、封面页页面。
12.根据权利要求9或10所述的装置,其特征在于,所述分簇特征获取模块通过URL-pattern通配所述各个页面的获取所述各个页面的分簇特征。
13.根据权利要求12所述的装置,其特征在于,所述通配包括对所述各个页面的在不同粒度上的URL-pattern通配。
14.根据权利要求12所述的装置,其特征在于,获取所述各个页面的分簇特征包括通过对所述各个页面进行Xpath分簇而获取所述各个页面的分簇特征。
15.根据权利要求14所述的装置,其特征在于,在对所述各个页面进行Xpath分簇时,对所述各个页面的目标节点的Xpath进行签名。
16.根据权利要求15所述的装置,其特征在于,所述目标节点包括div节点,ul节点、a节点,视频节点和图片节点。
全文摘要
本发明提出了一种站点资源管理方法,包括以下步骤对web站点进行数据挖掘以获取web站点中各个页面;获取web站点各个页面的分块特征;将具有强分块特征的页面分为不同类型的页面;获取各个页面的分簇特征并根据分簇特征将各个页面分组;根据各个分组中具有强分块特征的页面的类型确定分组中的页面的类型。本发明还提出了一种站点资源管理装置。本发明根据网页结构等因素针对网页的网页类型进行分类,为对站点网页资源进行管理、分类提供了判断依据。
文档编号G06F17/30GK103049557SQ20121058785
公开日2013年4月17日 申请日期2012年12月31日 优先权日2012年12月31日
发明者崔建伟, 李伟刚 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1