L信息,确定该待处理网页内各个网页元素的访问信息。
[0051]重要性权重确定模块203,用于根据待处理网页内各个网页元素的访问信息确定网页元素的重要性权重。
[0052]排版信息调整模块204,用于根据所述重要性权重调整待处理网页内网页元素的排版信息。
[0053]其中,重要性权重确定模块203,可以用于根据待处理网页内各个网页元素之间的DOM结构关系和/或语义关系,对网页内的各个网页元素进行分组,根据每组内各个网页元素的访问信息,确定各个分组的综合重要性权重。
[0054]排版信息调整模块204,可以用于根据各个分组的综合重要性权重,以组为整体调整各个分组在待处理网页内的排版信息。
[0055]和/或,重要性权重确定模块203,可以用于根据待处理网页内各个网页元素的访问信息,分别确定单个网页元素的重要性权重。
[0056]排版信息调整模块204,可以用于根据单个网页元素的重要性权重,调整待处理网页内单个网页元素的排版信息。
[0057]重要性权重确定模块203,可以用于在待处理网页内各个网页元素的访问信息变化时,实时地更新网页元素的重要性权重;或者,周期性或非周期性地根据待处理网页内各个网页元素的访问信息,采用离线方式确定网页元素的重要性权重。
[0058]和/或,排版信息调整模块204,可以用于在所述重要性权重变化时,实时地调整待处理网页内网页元素的排版信息;或者,周期性或非周期性地根据所述重要性权重,采用离线方式调整待处理网页内网页元素的排版信息。
[0059]其中,对应关系获取模块201、访问信息确定模块203和重要性权重确定模块204位于服务器侧;排版信息调整模块204可以位于服务器侧,也可以位于浏览器侧。换言之,本发明实施例提供了一种网页信息处理系统,其通过增加代理层(至少能够实现对应关系获取模块201、访问信息确定模块203和重要性权重确定模块204的功能)为用户访互联网网站提供服务器端的代理,在代理层对用户行为进行筛选收集和分析,即,针对用户发送的网页访问请求,通过分析网页访问请求中的当前URL和ReferURL,获取用户对网页中各个网页元素的访问信息,进而根据所述访问信息确定出网页内网页元素的重要性权重,然后在该代理层或者在浏览器端根据所述重要性权重对网页内的网页元素排版信息进行调整,从而使得较为重要的网页元素以较为明显的方式显示在网页中,关于本发明实施例提供的网页信息处理系统也可参见图3。
[0060]图3是本发明实施例提供的网页信息处理系统的组成示意图。
[0061]如图3所示,该网页信息处理系统包括浏览器301、代理服务器302和网站服务器303,浏览器301将网页访问请求发给代理服务器302,代理服务器302—方面将所述网页访问请求访问网站服务器303,从网站服务器303获取原始网页信息,另一方面,代理服务器302根据接收的网页访问请求对用户行为进行筛选收集和分析,即,针对用户发送的网页访问请求,通过分析网页访问请求中的当前URL和ReferURL,获取用户对网页中各个网页元素的访问信息,进而根据所述访问信息确定出网页内网页元素的重要性权重,然后代理服务器302可以根据所述重要性权重对获取的原始网页信息进行调整,即调整原始网页信息内网页元素的排版信息,将调整后的网页内容发给浏览器301,浏览器301直接输出从代理服务器302接收到的网页内容,或者,代理服务器302也可以直接将网页内网页元素的重要性权重信息以及原始网页信息发给浏览器301,浏览器301根据所述重要性权重信息对原始网页信息进行调整,即调整网页内网页元素的排版信息,然后输出调整后的网页内容。
[0062]可见,其中的浏览器301用于将网页访问请求发给代理服务器302,接收代理服务器302返回的网页调整信息,根据所述网页调整信息输出调整后的网页内容。
[0063]代理服务器302,用于接收浏览器301发来的网页访问请求,根据所述网页访问请求从网站服务器303获取原始网页信息,解析浏览器301发来的网页访问请求,根据解析结果获取当前请求访问的当前网页的统一资源定位符(URL)信息与前一次请求访问的前一网页统一资源定位符(ReferURL)信息的对应关系,基于所述对应关系,根据待处理网页的URL信息和该待处理网页中各个网页元素的URL信息,确定该待处理网页内各个网页元素的访问信息,根据待处理网页内各个网页元素的访问信息确定网页元素的重要性权重,根据所述重要性权重向浏览器301返回网页调整信息。
[0064]其中,所述网页调整信息可以是网页元素的重要性权重信息,浏览器301根据所述重要性权重信息对原始网页信息中网页元素排版信息进行调整,然后输出调整后的网页内容;所述网页调整信息也可以是调整后的网页内容,换言之,代理服务器302根据网页元素的重要性权重对原始网页信息中的网页元素排版信息进行调整,然后代理服务器302直接将调整后的网页内容发给浏览器301,浏览器301直接输出调整后的网页内容。
[0065]网站服务器303,用于接收代理服务器302发送的网页访问请求,根据所述网页访问请求返回原始网页信息。
[0066]可见,本发明实施例通过分析大量网页访问请求中当前URL与ReferURL的对应关系,可以挖掘出大量用户对网页内页面元素的访问行为,大量用户的访问行为能够反映出网页内各个网页元素的重要性,因此,结合大量用户的访问行为对页面内的网页元素进行重要性打分,并根据分值进行页面的重排版,可以使得后续的用户能够更高效地获取或访问该页面内的信息。
[0067]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
【主权项】
1.一种网页信息处理方法,其特征在于,该方法包括: 解析网页访问请求,根据解析结果获取当前请求访问的当前网页的统一资源定位符(URL)信息与前一次请求访问的前一网页统一资源定位符(ReferURL)信息的对应关系;基于所述对应关系,根据待处理网页的URL信息和该待处理网页中各个网页元素的URL信息,确定该待处理网页内各个网页元素的访问信息; 根据待处理网页内各个网页元素的访问信息确定网页元素的重要性权重; 根据所述重要性权重调整待处理网页内网页元素的排版信息。
2.根据权利要求1所述的方法,其特征在于,根据待处理网页内各个网页元素的访问信息确定网页元素的重要性权重包括: 根据待处理网页内各个网页元素之间的DOM结构关系和/或语义关系,对网页内的各个网页元素进行分组,根据每组内各个网页元素的访问信息,确定各个分组的综合重要性权重; 根据所述重要性权重调整待处理网页内网页元素的排版信息包括: 根据各个分组的综合重要性权重