一种基于爬虫的动态搜索方法与流程

文档序号:35373637发布日期:2023-09-08 11:33阅读:16来源:国知局

本发明涉及一种基于爬虫的动态搜索方法领域,具体涉及一种基于爬虫的动态搜索方法。


背景技术:

1、目前,爬虫技术大多基于现有给定地址,进行制定网页获取信息,并基于各类分析算法,进行分类汇总信息,对于管理较为严格的网站,并不会提供直接爬虫的渠道,或者需要收取高昂费用才能下载,因此,需要设计一种基于爬虫的动态搜索方法以解决上述存在的问题。


技术实现思路

1、针对现有技术的不足,本发明提供了一种基于爬虫的动态搜索方法,解决了背景技术中提到的问题。

2、为实现以上目的,本发明通过以下技术方案予以实现:

3、一种基于爬虫的动态搜索方法,包括处理模块、配置模块、爬取模块、存储模块、展示模块;

4、所述处理模块:通过处理模块获取微信公众号和文件;

5、所述配置模块:基于处理模块的基础,实现公众号和文档的多级分类;

6、所述爬取模块:基于配置模块的基础,通过爬虫对微信公众号内容进行分块抓取;

7、所述存储模块:基于爬取模块的基础,将爬虫爬取的内容存储在ecs中备份数据,并进行关联;

8、所述展示模块:将获取解析后的数据,读取到本地应用中,通过业务需求,按照前端设计的页面进行有效数据填充,进而达到预期过滤信息,将有效信息集中展示。

9、进一步的,所述配置模块通过数据库配置,形成字典项配置,通过数据表的配置管理,可以指定公众号配置并获取内容。

10、进一步的,所述配置模块中也可动态修改配合,完成不同类型的分类汇总。

11、进一步的,所述爬取模块中,通过爬虫对微信公众号内获取的内容进行信息数目处理,并且删除空白和特殊字符。

12、进一步的,所述存储模块中,将爬虫爬取内容分类解析形成有意义的关键字,将文章链接信息存储在数据库中进行持久化存储。

13、进一步的,通过爬虫公众号,获取里面的历史文章,将文章中包含的链接,进行解析存储,通过解析后存储的文章链接,便可获取公众号内的次级文章内容,进而再度解析次级文章内容。

14、本发明提供了一种基于爬虫的动态搜索方法。与现有技术相比,具备以下有益效果:

15、1、本发明针对微信公众号中文章地址隐藏,且官方未提供可直接爬虫的下载地址或需要购买官方提供的接口,为降低获取信息的成本,本技术在现有提供的微信公众号平台内,进行指定公众获取公众号返回的数据信息,并提取返回数据中的动态链接;

16、2、本发明成本相对低廉,可随公众号文章动态获取对应的文章有效地址,进而避免缺少静态地址而无法获取数据的短板。



技术特征:

1.一种基于爬虫的动态搜索方法,其特征在于:包括处理模块、配置模块、爬取模块、存储模块、展示模块;

2.根据权利要求1所述的一种基于爬虫的动态搜索方法,其特征在于:所述配置模块通过数据库配置,形成字典项配置,通过数据表的配置管理,可以指定公众号配置并获取内容。

3.根据权利要求2所述的一种基于爬虫的动态搜索方法,其特征在于:所述配置模块中也可动态修改配合,完成不同类型的分类汇总。

4.根据权利要求1所述的一种基于爬虫的动态搜索方法,其特征在于:所述爬取模块中,通过爬虫对微信公众号内获取的内容进行信息数目处理,并且删除空白和特殊字符。

5.根据权利要求1所述的一种基于爬虫的动态搜索方法,其特征在于:所述存储模块中,将爬虫爬取内容分类解析形成有意义的关键字,将文章链接信息存储在数据库中进行持久化存储。

6.根据权利要求5所述的一种基于爬虫的动态搜索方法,其特征在于:通过爬虫公众号,获取里面的历史文章,将文章中包含的链接,进行解析存储,通过解析后存储的文章链接,便可获取公众号内的次级文章内容,进而再度解析次级文章内容。


技术总结
本发明提供了一种基于爬虫的动态搜索方法,其特征在于:包括处理模块、配置模块、爬取模块、存储模块、展示模块;所述处理模块:通过处理模块获取微信公众号和文件;所述配置模块:基于处理模块的基础,实现公众号和文档的多级分类;所述爬取模块:基于配置模块的基础,通过爬虫对微信公众号内容进行分块抓取;所述存储模块:基于爬取模块的基础,将爬虫爬取的内容存储在ECS中备份数据,并进行关联;所述展示模块:将获取解析后的数据,读取到本地应用中,将有效信息集中展示。本发明成本相对低廉,可随公众号文章动态获取对应的文章有效地址,进而避免缺少静态地址而无法获取数据的短板。

技术研发人员:汪杰,吕雄辉,陈子健
受保护的技术使用者:招银网络科技(深圳)有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1