一种网页识别方法、装置、设备及存储介质与流程

文档序号:23157120发布日期:2020-12-04 13:52阅读:来源:国知局

技术特征:

1.一种网页识别方法,其特征在于,所述方法包括:

根据待识别网页的统一资源定位符url获取所述待识别网页的网页截图;

根据所述网页截图的各行或者各列的像素值之间的差异度确定所述网页截图的图像分割线,并根据所述图像分割线对所述网页截图进行图像分割,得到至少一张目标检测图片;

确定所述至少一张目标检测图片中每一目标检测图片属于目标图片类型的概率,并根据所述每一目标图片的概率确定所述待识别网页属于目标网页类型的概率;

在所述待识别网页属于目标网页类型的概率大于设定的概率阈值时,确定所述待识别网页的类型为目标网页类型。

2.如权利要求1所述的方法,其特征在于,所述根据待识别网页的统一资源定位符url获取所述待识别网页的网页截图,包括:

根据所述url向所述url对应的网页服务器发送url访问请求;

接收所述网页服务器返回的所述url对应的超级文本标记语言html文档;

对所述html文档进行解析,根据解析所述html文档得到的内容进行渲染,获取所述网页截图。

3.如权利要求1所述的方法,其特征在于,根据所述网页截图的各行或者各列的像素值之间的差异度确定所述网页截图的图像分割线,并根据所述图像分割线对所述网页截图进行图像分割,得到至少一张目标检测图片,包括:

根据所述网页截图中第一方向上的每一组像素值中各像素值之间的差异度,确定所述网页截图在第一方向上的图像分割线,其中,第一方向为行方向或者列方向;

基于在所述第一方向上的图像分割线对所述网页截图进行图像分割,得到多个分割图片;

从所述分割图片中选择目标分割图片,并确定所述目标分割图片在第二方向上的图像分割线,其中,当第一方向为行方向时,所述第二方向为列方向,或者,当第一方向为列方向时,所述第二方向为行方向;

基于在所述第二方向上的图像分割线对所述目标分割图片进行图像分割,得到多个分割图片;

将基于所述第一方向上的图像分割线分割得到的多个分割图片,与基于所述第二方向上的图像分割线分割得到的多个分割图片,确定为所述至少一张目标检测图片。

4.如权利要求3所述的方法,其特征在于,根据所述网页截图中第一方向上的每一组像素值中各像素值之间的差异度,确定所述网页截图在第一方向上的图像分割线,包括:

确定所述网页截图中第一方向上的每一组像素值中各像素值之间的差异度;其中,所述第一方向为行方向,每一组像素值为一行像素值,或者,所述第一方向为列方向,每一组像素值为一列像素值;

当所述每一组像素值的差异度小于设定的差异度阈值时,确定所述每一组像素值对应的像素点为所述网页截图的图像分割线。

5.如权利要求3所述的方法,其特征在于,根据所述网页截图中第一方向上的每一组像素值中各像素值之间的差异度,确定所述网页截图在第一方向上的图像分割线,包括:

确定所述网页截图中第一方向上的每一组像素值中各像素值之间的差异度;

根据每一组像素值的差异度得到所述网页截图在所述第一方向上的表示序列;其中,一组像素值对应所述表示序列中的一个位置,相邻组在所述表示序列中位置相邻,当每一组像素值的差异度小于设定的差异度阈值时,所述每一组像素值对应位置的序列值为第一值,当每一组像素值的差异度大于或者等于所述差异度阈值时,所述每一组像素值对应位置的序列值为第二值,且所述第一值与所述第二值不同;

根据所述表示序列确定所述网页截图在所述第一方向上的图像分割线。

6.如权利要求4或5所述的方法,其特征在于,所述确定所述网页截图中第一方向上的每一组像素值中各像素值之间的差异度,包括:

针对每一组像素值,以所述每一组像素值中其中一个像素值为基准像素值,获取所述每一组像素值中其余像素值与所述基准像素值之间的差异度;

基于所述每一组像素值中其余像素值与所述基准像素值之间的差异度,获取所述每一组像素值的差异度。

7.如权利要求5所述的方法,其特征在于,根据所述表示序列确定所述网页截图在所述第一方向上的图像分割线,包括:

获取所述表示序列中序列值连续为第二值的区间的第二数量;

确定所述第二数量是否小于或者等于设定的数量阈值;

若确定所述第二数量大于设定的数量阈值,则执行如下循环过程,直至所述第二数量小于或者等于设定的数量值,每一次循环过程包括如下步骤:

针对序列值连续为第二值的每一区间,若该区间的长度小于或者等于长度阈值,则将该区间的序列值设置为第一值,得到第一更新序列;

针对更新的表示序列中序列值连续为第一值的每一区间,若该区间的长度小于或者等于所述长度阈值,则将该区间的序列值设置为第二值,得到第二更新序列;

确定所述第二更新序列中第二数量是否小于或者等于设定的数量阈值;

若确定所述第二更新序列中第二数量大于设定的数量阈值,则进入下一循环过程;或者,

若确定所述第二更新序列中第二数量小于或者等于设定的数量阈值,则循环结束。

8.一种网页识别装置,其特征在于,所述装置包括:

获取单元,用于根据待识别网页的统一资源定位符url获取所述待识别网页的网页截图,根据所述网页截图的各行或者各列的像素值之间的差异度确定所述网页截图的图像分割线;

确定单元,用于确定所述至少一张目标检测图片中每一目标检测图片属于目标图片类型的概率,根据所述每一目标图片的概率确定所述待识别网页属于目标网页类型的概率;此外,在所述待识别网页属于目标网页类型的概率大于设定的概率阈值时,确定所述待识别网页的类型为目标网页类型;

图像分割单元,用于根据图像分割线对网页截图进行图像分割,得到至少一张目标检测图片。

9.一种网页识别的设备,其特征在于,所述设备包括:

存储器,用于存储程序指令,以及所述待监测网页访问结果页面的页面截图;

处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行权利要求1-7中任一所述的方法包括的步骤。

10.一种存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行权利要求1-7中任一所述的方法包括的步骤。


技术总结
本申请提供一种网页识别方法、装置、设备及存储介质,涉及计算机技术领域,用于实现网页类型的自动检测,降低网页识别的复杂程度。该方法包括:根据待识别网页的统一资源定位符URL获取待识别网页的网页截图;根据网页截图的各行或者各列的像素值之间的差异度确定网页截图的图像分割线,并根据图像分割线对网页截图进行图像分割,得到至少一张目标检测图片;确定至少一张目标检测图片中每一目标检测图片属于目标图片类型的概率,并根据每一目标图片的概率确定待识别网页属于目标网页类型的概率;在待识别网页属于目标网页类型的概率大于设定的概率阈值时,确定待识别网页的类型为目标网页类型。

技术研发人员:张龙;何恐;张晓峰
受保护的技术使用者:绿盟科技集团股份有限公司;北京神州绿盟科技有限公司
技术研发日:2020.08.28
技术公布日:2020.12.04
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1