超级网页模板生成方法、装置及页面数据传输方法与流程

文档序号:12596231阅读:来源:国知局

技术特征:

1.一种超级网页模板生成方法,其特征在于,包括:

采集预设范围内的多个资源文件;

对所述多个资源文件中的两两资源文件进行相似度运算,当数据相同时将两个资源文件中的其中一个剔除,当数据相似时如果两个资源文件中的其中一个资源文件包含了另一个资源文件的全部或者大部分内容,将该被包含全部或者大部分内容的资源文件剔除;

将保留下来的资源文件进行合并,生成超级网页模板。

2.根据权利要求1所述的方法,其特征在于,其中,所述资源文件为页面数据资源文件;所述预设范围包括:预设WEB站点、预设WEB站点的路径、或预设资源关键词。

3.根据权利要求2所述的方法,其特征在于,

所述对所述多个资源文件中的两两资源文件进行相似度运算包括:

将采集的多个资源文件根据其所包含数据量的大小进行区间分组,数据量在一定区间内的多个资源文件分为一组;

对每组内的多个资源文件中的两两资源文件进行相似度运算。

4.根据权利要求3所述的方法,其特征在于,

所述将保留下来的资源文件进行合并包括:

将区间值最大的一组所保留下来的资源文件进行合并,生成临时网页模板;

将所述临时网页模板分别与其它每组所保留下来的资源文件进行相似度运算,当其中一组中的资源文件的数据与临时网页模板的数据相同或相似时剔除该资源文件,否则将该资源文件合并到所述临时网页模板中,并且以相同方式继续与下一组所保留下来的资源 文件进行相似度运算,最终生成的临时网页模板为超级网页模板。

5.根据权利要求1所述的方法,其特征在于,所述采集预设范围内的多个资源文件,包括:通过预设资源文件大小的下限阈值来过滤掉小资源文件。

6.根据权利要求1所述的方法,其特征在于,对保留下来的资源文件根据不同情况进行不同策略的中段截取保留,去除掉首尾数据。

7.根据权利要求1-6之一所述的方法,其特征在于,还包括:

将生成的超级网页模板进行逐行拆分;

将拆分出的多行资源数据由前至后依次进行两两对比,当数据相同时将两行资源数据中的其中一个剔除,当数据相似时如果两行资源数据中的其中一个行资源数据包含了另一个行资源数据的全部或者大部分内容,将该被包含全部或者大部分内容的行资源数据剔除,最终生成精简的超级网页模板。

8.根据权利要求7所述的方法,其特征在于,还包括:将生成精简的超级网页模板中数据量大的行资源数据拆分为多个块数据;

将每块数据与其他行资源数据进行相似度运算,将与其他行资源数据相同或相似的块数据剔除。

9.一种页面数据传输方法,其特征在于,包括:

获取客户请求的页面的当前非图WEB资源数据;

运用预先建立的与该页面对应的超级网页模板对所述非图WEB资源数据进行差量运算,获取差量数据;其中,所述的超级网页模板是根据权利要求1-8任意一项所述的超级网页模板生成方法生成的;

将所述差量数据发送至客户端。

10.一种超级网页模板的生成装置,其特征在于,包括:

采集模块,用于采集预设范围内的多个资源文件;

相似度识别和剔除模块,用于对所述多个资源文件中的两两资源文件进行相似度运算,识别出数据相同或相似的两个资源文件,当数据相同时将两个资源文件中的其中一个剔除,当数据相似时如果两个资源文件中的其中一个资源文件包含了另一个资源文件的全部或者大部分内容,将该被包含全部或者大部分内容的资源文件剔除;

模板生成模块,用于将保留下来的资源文件进行合并,生成超级网页模板。

11.根据权利要求10所述的生成装置,其特征在于,其中,所述资源文件为页面数据资源文件;所述预设范围包括:预设WEB站点、预设WEB站点的路径、或预设资源关键词。

12.根据权利要求11所述的生成装置,其特征在于,所述相似度识别和剔除模块还包括:

区间分组子模块,用于先将采集的多个资源文件根据其所包含数据量的大小进行区间分组,数据量在一定区间内的多个资源文件分为一组;

相似度识别子模块,用于对每组内的多个资源文件中的两两资源文件进行相似度运算和识别。

13.根据权利要求12所述的生成装置,其特征在于,所述模板生成模块包括:

合并子模块:用于将区间值最大的这一组的保留下来的资源文件进行合并,生成临时网页模板;

相似度运算和生成子模块,用于将该临时网页模板分别与其它 每组所保留下来的资源文件进行相似度运算,当其中一组中的资源文件的数据与临时网页模板的数据相同或相似时剔除该资源文件,否则将该资源文件合并到所述临时网页模板中,并且以相同方式继续与下一组所保留下来的资源文件进行相似度运算,最终生成的临时网页模板为超级网页模板。

14.根据权利要求10所述的生成装置,其特征在于,所述采集预设范围内的多个资源文件,包括:通过预设资源文件大小的下限阈值来过滤掉小资源文件。

15.根据权利要求10所述的生成装置,其特征在于,还包括:中段截取保留模块,用于对保留下来的资源文件根据不同情况进行不同策略的中段截取保留,去除掉首尾数据。

16.根据权利要求10-15之一所述的生成装置,其特征在于,还包括:

行资源拆分和生成模块,用于将生成的超级网页模板进行逐行拆分,将拆分出的多行资源数据由前至后依次进行两两对比,当数据相同时将两行资源数据中的其中一个剔除,当数据相似时如果两行资源数据中的其中一个行资源数据包含了另一个行资源数据的全部或者大部分内容,将该被包含全部或者大部分内容的行资源数据剔除,最终生成精简的超级网页模板。

17.根据权利要求16所述的生成装置,其特征在于,还包括:

块数据拆分和剔除模块,将生成精简的超级网页模板中数据量大的行资源数据拆分为多个块数据,将每块数据与其他行资源数据进行相似度运算,将与其他行资源数据相同或相似的块数据剔除。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1