页面数据抓取方法、装置、电子设备及存储介质与流程

文档序号:38619371发布日期:2024-07-12 11:22阅读:14来源:国知局
页面数据抓取方法、装置、电子设备及存储介质与流程

本公开涉及计算机,具体涉及网页,尤其涉及页面数据抓取方法、装置、电子设备及存储介质。


背景技术:

1、在当前信息爆炸的时代,手机网页中蕴含丰富数据,但传统网页抓取技术未能提供简单、高效的抓取方式,给用户带来了抓取效率低、技术门槛高、开发成本大等挑战。


技术实现思路

1、本公开提供了一种页面数据抓取方法、装置、电子设备及存储介质。

2、根据本公开的一方面,提供了一种页面数据抓取方法,包括:

3、调用定制的页面抓取组件抓取与目标页面对应的页面数据,得到目标页面数据,所述定制的页面抓取组件中增加了对页面源文件中文字内容以及图片信息的导出功能;

4、将所述目标页面数据发送至抓取执行器中。

5、根据本公开的另一方面,提供了一种页面数据抓取方法,包括:

6、接收抓取任务,所述抓取任务指示了待抓取目标页面;

7、根据所述抓取任务控制抓取设备调用定制的页面抓取组件抓取与目标页面对应的页面数据,所述定制的页面抓取组件中增加了对页面源文件中文字内容以及图片信息的导出功能;

8、接收所述抓取设备返回的与目标页面对应的页面数据。

9、根据本公开的另一方面,提供了一种页面数据抓取装置,包括:

10、调用模块,用于调用定制的页面抓取组件抓取与目标页面对应的页面数据,得到目标页面数据,所述定制的页面抓取组件中增加了对页面源文件中文字内容以及图片信息的导出功能;

11、发送模块,用于将所述目标页面数据发送至抓取执行器中。

12、根据本公开的另一方面,提供了一种页面数据抓取装置,包括:

13、第一接收模块,用于接收抓取任务,所述抓取任务指示了待抓取目标页面;

14、抓取模块,用于根据所述抓取任务控制抓取设备调用定制的页面抓取组件抓取与目标页面对应的页面数据,所述定制的页面抓取组件中增加了对页面源文件中文字内容以及图片信息的导出功能;

15、第二接收模块,用于接收所述抓取设备返回的与目标页面对应的页面数据。

16、根据本公开的第五方面,提供了一种电子设备,包括:

17、至少一个处理器;以及

18、与所述至少一个处理器通信连接的存储器;其中,

19、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述技术方案中任一项所述的方法。

20、根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述技术方案中任一项所述的方法。

21、根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述技术方案中任一项所述的方法。

22、本公开提供了页面数据抓取方法、装置、设备以及存储介质,本公开调用定制的页面抓取组件抓取与目标页面对应的页面数据,而定制的页面抓取组件中增加了对页面源文件中文字内容以及图片信息的导出功能,该方式可以自动化的抓取页面数据,从而提高了数据抓取的效率,进而有利于用户能够更快速地获取所需信息。

23、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种页面数据抓取方法,包括:

2.根据权利要求1所述的方法,其中,在调用定制的页面抓取组件抓取与目标页面对应的页面数据之前,所述方法还包括:

3.根据权利要求2所述的方法,其中,所述将所述原始页面组件中与页面显示内容相关的源代码进行修改,得到修改后的页面组件代码,包括:

4.根据权利要求1至3任意一项所述的方法,其中,所述方法还包括:

5.一种页面数据抓取方法,包括:

6.根据权利要求5所述的方法,其中,所述接收抓取任务,包括:

7.根据权利要求6所述的方法,其中,在接收所述抓取设备返回的与目标页面对应的页面数据之后,所述方法还包括:

8.一种页面数据抓取装置,包括:

9.根据权利要求8所述的装置,其中,所述调用模块在调用定制的页面抓取组件抓取与目标页面对应的页面数据之前,还用于获取原始页面组件的源代码;

10.根据权利要求9所述的装置,其中,所述调用模块将所述原始页面组件中与页面显示内容相关的源代码进行修改,得到修改后的页面组件代码,包括:

11.根据权利要求8至10任意一项所述的装置,其中,所述调用模块还用于,在接收到来自抓取执行器下发的目标页面抓取指令之后,调用定制的页面抓取组件抓取与目标页面对应的页面数据。

12.一种页面数据抓取装置,包括:

13.根据权利要求12所述的装置,其中,所述第一接收模块接收抓取任务,包括:

14.根据权利要求13所述的装置,其中,所述第二接收模块在接收所述抓取设备返回的与目标页面对应的页面数据之后,还用于将接收到的与目标页面对应的页面数据按照定制化数据格式模板进行整理,得到格式化数据;

15.一种电子设备,包括:

16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。


技术总结
本公开提供了页面数据抓取方法、装置、电子设备及存储介质,涉及计算机技术领域,尤其涉及网络技术领域。具体实现方案为:调用定制的页面抓取组件抓取与目标页面对应的页面数据,得到目标页面数据,定制的页面抓取组件中增加了对页面源文件中文字内容以及图片信息的导出功能;将目标页面数据发送至抓取执行器中。本公开调用定制的页面抓取组件抓取与目标页面对应的页面数据,由于定制的页面抓取组件中增加了对页面源文件中文字内容以及图片信息的导出功能,从而可以实现自动化的抓取,进而显著提高了数据抓取的效率。

技术研发人员:王鹏
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:
技术公布日:2024/7/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1