一种基于爬虫的动态搜索方法与流程

文档序号：35373637发布日期：2023-09-08 11:33阅读：16来源：国知局

本发明涉及一种基于爬虫的动态搜索方法领域，具体涉及一种基于爬虫的动态搜索方法。

背景技术：

1、目前，爬虫技术大多基于现有给定地址，进行制定网页获取信息，并基于各类分析算法，进行分类汇总信息，对于管理较为严格的网站，并不会提供直接爬虫的渠道，或者需要收取高昂费用才能下载，因此，需要设计一种基于爬虫的动态搜索方法以解决上述存在的问题。

技术实现思路

1、针对现有技术的不足，本发明提供了一种基于爬虫的动态搜索方法，解决了背景技术中提到的问题。

2、为实现以上目的，本发明通过以下技术方案予以实现：

3、一种基于爬虫的动态搜索方法，包括处理模块、配置模块、爬取模块、存储模块、展示模块；

4、所述处理模块：通过处理模块获取微信公众号和文件；

5、所述配置模块：基于处理模块的基础，实现公众号和文档的多级分类；

6、所述爬取模块：基于配置模块的基础，通过爬虫对微信公众号内容进行分块抓取；

7、所述存储模块：基于爬取模块的基础，将爬虫爬取的内容存储在ecs中备份数据，并进行关联；

8、所述展示模块：将获取解析后的数据，读取到本地应用中，通过业务需求，按照前端设计的页面进行有效数据填充，进而达到预期过滤信息，将有效信息集中展示。

9、进一步的，所述配置模块通过数据库配置，形成字典项配置，通过数据表的配置管理，可以指定公众号配置并获取内容。

10、进一步的，所述配置模块中也可动态修改配合，完成不同类型的分类汇总。

11、进一步的，所述爬取模块中，通过爬虫对微信公众号内获取的内容进行信息数目处理，并且删除空白和特殊字符。

12、进一步的，所述存储模块中，将爬虫爬取内容分类解析形成有意义的关键字，将文章链接信息存储在数据库中进行持久化存储。

13、进一步的，通过爬虫公众号，获取里面的历史文章，将文章中包含的链接，进行解析存储，通过解析后存储的文章链接，便可获取公众号内的次级文章内容，进而再度解析次级文章内容。

14、本发明提供了一种基于爬虫的动态搜索方法。与现有技术相比，具备以下有益效果：

15、1、本发明针对微信公众号中文章地址隐藏，且官方未提供可直接爬虫的下载地址或需要购买官方提供的接口，为降低获取信息的成本，本技术在现有提供的微信公众号平台内，进行指定公众获取公众号返回的数据信息，并提取返回数据中的动态链接；

16、2、本发明成本相对低廉，可随公众号文章动态获取对应的文章有效地址，进而避免缺少静态地址而无法获取数据的短板。

技术特征：

1.一种基于爬虫的动态搜索方法，其特征在于：包括处理模块、配置模块、爬取模块、存储模块、展示模块；

2.根据权利要求1所述的一种基于爬虫的动态搜索方法，其特征在于：所述配置模块通过数据库配置，形成字典项配置，通过数据表的配置管理，可以指定公众号配置并获取内容。

3.根据权利要求2所述的一种基于爬虫的动态搜索方法，其特征在于：所述配置模块中也可动态修改配合，完成不同类型的分类汇总。

4.根据权利要求1所述的一种基于爬虫的动态搜索方法，其特征在于：所述爬取模块中，通过爬虫对微信公众号内获取的内容进行信息数目处理，并且删除空白和特殊字符。

5.根据权利要求1所述的一种基于爬虫的动态搜索方法，其特征在于：所述存储模块中，将爬虫爬取内容分类解析形成有意义的关键字，将文章链接信息存储在数据库中进行持久化存储。

6.根据权利要求5所述的一种基于爬虫的动态搜索方法，其特征在于：通过爬虫公众号，获取里面的历史文章，将文章中包含的链接，进行解析存储，通过解析后存储的文章链接，便可获取公众号内的次级文章内容，进而再度解析次级文章内容。

技术总结
本发明提供了一种基于爬虫的动态搜索方法，其特征在于：包括处理模块、配置模块、爬取模块、存储模块、展示模块；所述处理模块：通过处理模块获取微信公众号和文件；所述配置模块：基于处理模块的基础，实现公众号和文档的多级分类；所述爬取模块：基于配置模块的基础，通过爬虫对微信公众号内容进行分块抓取；所述存储模块：基于爬取模块的基础，将爬虫爬取的内容存储在ECS中备份数据，并进行关联；所述展示模块：将获取解析后的数据，读取到本地应用中，将有效信息集中展示。本发明成本相对低廉，可随公众号文章动态获取对应的文章有效地址，进而避免缺少静态地址而无法获取数据的短板。

技术研发人员：汪杰,吕雄辉,陈子健
受保护的技术使用者：招银网络科技（深圳）有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汪杰吕雄辉陈子健
技术所有人：招银网络科技（深圳）有限公司
我是此专利的发明人

上一篇：一种光伏发电预测方法、系统及电子设备与流程
上一篇：一种组装式内浮顶的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。