本发明涉及一种基于爬虫的动态搜索方法领域,具体涉及一种基于爬虫的动态搜索方法。
背景技术:
1、目前,爬虫技术大多基于现有给定地址,进行制定网页获取信息,并基于各类分析算法,进行分类汇总信息,对于管理较为严格的网站,并不会提供直接爬虫的渠道,或者需要收取高昂费用才能下载,因此,需要设计一种基于爬虫的动态搜索方法以解决上述存在的问题。
技术实现思路
1、针对现有技术的不足,本发明提供了一种基于爬虫的动态搜索方法,解决了背景技术中提到的问题。
2、为实现以上目的,本发明通过以下技术方案予以实现:
3、一种基于爬虫的动态搜索方法,包括处理模块、配置模块、爬取模块、存储模块、展示模块;
4、所述处理模块:通过处理模块获取微信公众号和文件;
5、所述配置模块:基于处理模块的基础,实现公众号和文档的多级分类;
6、所述爬取模块:基于配置模块的基础,通过爬虫对微信公众号内容进行分块抓取;
7、所述存储模块:基于爬取模块的基础,将爬虫爬取的内容存储在ecs中备份数据,并进行关联;
8、所述展示模块:将获取解析后的数据,读取到本地应用中,通过业务需求,按照前端设计的页面进行有效数据填充,进而达到预期过滤信息,将有效信息集中展示。
9、进一步的,所述配置模块通过数据库配置,形成字典项配置,通过数据表的配置管理,可以指定公众号配置并获取内容。
10、进一步的,所述配置模块中也可动态修改配合,完成不同类型的分类汇总。
11、进一步的,所述爬取模块中,通过爬虫对微信公众号内获取的内容进行信息数目处理,并且删除空白和特殊字符。
12、进一步的,所述存储模块中,将爬虫爬取内容分类解析形成有意义的关键字,将文章链接信息存储在数据库中进行持久化存储。
13、进一步的,通过爬虫公众号,获取里面的历史文章,将文章中包含的链接,进行解析存储,通过解析后存储的文章链接,便可获取公众号内的次级文章内容,进而再度解析次级文章内容。
14、本发明提供了一种基于爬虫的动态搜索方法。与现有技术相比,具备以下有益效果:
15、1、本发明针对微信公众号中文章地址隐藏,且官方未提供可直接爬虫的下载地址或需要购买官方提供的接口,为降低获取信息的成本,本技术在现有提供的微信公众号平台内,进行指定公众获取公众号返回的数据信息,并提取返回数据中的动态链接;
16、2、本发明成本相对低廉,可随公众号文章动态获取对应的文章有效地址,进而避免缺少静态地址而无法获取数据的短板。
1.一种基于爬虫的动态搜索方法,其特征在于:包括处理模块、配置模块、爬取模块、存储模块、展示模块;
2.根据权利要求1所述的一种基于爬虫的动态搜索方法,其特征在于:所述配置模块通过数据库配置,形成字典项配置,通过数据表的配置管理,可以指定公众号配置并获取内容。
3.根据权利要求2所述的一种基于爬虫的动态搜索方法,其特征在于:所述配置模块中也可动态修改配合,完成不同类型的分类汇总。
4.根据权利要求1所述的一种基于爬虫的动态搜索方法,其特征在于:所述爬取模块中,通过爬虫对微信公众号内获取的内容进行信息数目处理,并且删除空白和特殊字符。
5.根据权利要求1所述的一种基于爬虫的动态搜索方法,其特征在于:所述存储模块中,将爬虫爬取内容分类解析形成有意义的关键字,将文章链接信息存储在数据库中进行持久化存储。
6.根据权利要求5所述的一种基于爬虫的动态搜索方法,其特征在于:通过爬虫公众号,获取里面的历史文章,将文章中包含的链接,进行解析存储,通过解析后存储的文章链接,便可获取公众号内的次级文章内容,进而再度解析次级文章内容。