一种网络数据自动采集智能计算系统及方法

文档序号:39099285发布日期:2024-08-21 11:24阅读:25来源:国知局
一种网络数据自动采集智能计算系统及方法

本发明属于数据科学与大数据,具体为一种网络数据自动采集智能计算系统及方法。


背景技术:

1、毕业生就业的个性化需求与企业招聘信息如何对接匹配是供需双方急需解决的现实问题。采用传统的上网模式,人们在招聘网站上每次只能浏览某种类型工作职位的相关数据,无法准确判断出某个地区某种类型工作职位的总体情况和变化,如不同薪酬水平、不同学历要求、不同工作年限和不同时期等特征的工作职位数量。

2、网络爬虫和大数据挖掘为解决该问题提供了科学可行的技术手段。网络爬虫程序可以根据用户的个性化需求选择性快速获取招聘网站上的相关工作职位数据。大数据挖掘为海量数据的统计分析提供了很多开源工具和分析模型。创新应用大数据技术不仅可以为人们迅速获取网络招聘信息,而且可以帮助人们准确分析某个地区相关职位的整体需求情况和变化,提高人们获取有价值职位信息的效率。


技术实现思路

1、为了解决上述技术问题,本发明提出了一种网络数据自动采集智能计算系统及方法,优势为帮助人们从招聘网站海量数据中快速获取有价值的职位信息,洞悉职位信息的变化,最终实现就业个性化需求与招聘职位之间科学匹配。

2、本发明提供如下技术方案:一种网络数据自动采集智能计算系统,包括用户端和服务器;具体的,所述用户端包括输入模块和输出模块,所述服务器包括采集模块、解析模块、存储模块、计算模块和查询模块;所述输入模块分别与采集模块和查询模块连接,所述采集模块与解析模块连接,所述解析模块与存储模块连接,所述存储模块分别与计算模块和查询模块连接,所述输出模块分别与计算模块和查询模块连接;

3、进一步地,所述输入模块用于用户输入需要在招聘网站上搜索的地区名称和工作职位名称,用户输入信息传输给采集模块,所述输出模块用于输出计算模块的智能计算结果图表,也可以用于输出数据查询模块的模糊查询结果;

4、进一步地,所述采集模块为主题爬虫程序,所述主题爬虫程序接受用户输入的工作职位相关信息,以多线程方式自动搜索指定招聘网站上的网页数据,并能够将获取的网页数据下载到服务器上;

5、进一步地,所述解析模块为网页数据解析程序,所述网页数据解析程序运用文档对象模型、选择器、正则表达式技术解析下载的网页数据,提取出有价值的工作职位的多维特征数据集并存储到本地存储系统;

6、进一步地,所述存储模块为数据存储程序,可以提供数据的存储管理功能;

7、进一步地,所述计算模块为智能计算程序,所述智能计算程序运用数据科学分析模型对多维特征数据集进行统计计算,结果采用图表展示;

8、进一步地,所述查询模块为数据查询程序,所述数据查询程序接受用户查询条件,执行模糊查询,搜索并排序输出本地存储的职位数据。

9、本发明同时提供了一种网络数据自动采集智能计算方法,具体包括如下步骤:

10、(s1)输入条件:用户端输入需要搜索的地区名称和工作职位类型名称;

11、(s2)数据采集:网络爬虫程序根据用户输入条件以多线程方式搜索下载目标网站上的网页数据;

12、(s3)数据解析:数据解析程序提取有价值的工作职位,产生多维特征数据集;

13、(s4)数据存储;接受步骤(s3)传递的数据集,为服务器提供存储管理;

14、(s5)智能计算:读取步骤(s4)保存的数据集,运用大数据技术方法进行统计分析,计算结果采用图表进行渲染;

15、(s6)信息输出:用户端web页面展示智能计算生成的图表,或输出数据查询模块的模糊查询结果。

16、进一步地,所述数据解析方法具体包括如下步骤:

17、(s301)读取网页源码:定义requests库的应答响应对象存放主题爬虫自动获取的网页源码;

18、(s302)数据解码:响应对象内容采用utf-8或gbk字符集进行解码;

19、(s303)生成dom树:定义lxml库的html的节点树,存储响应对象内容;

20、(s304)节点定位:根据用户需求,使用xpath方法定位节点树中的元素、文本和信息节点。根据节点内容是否符合规范格式,自动判断后续执行步骤;

21、(s305)正则表达式匹配:定义正则表达式模式对节点内容进行匹配,提取有效数值;

22、(s306)生成多特征数据集:定义某种数据结构的数据集合保存提取的工作职位的特征信息。

23、进一步地,所述数据存储方法为:根据工作职位的薪酬水平、学历要求、工作年限、实习经验、工作技能、发布时间六个特征按照不同标准设置多等级得分,采用加权平均法计算每条工作职位数据的加权平均值。

24、进一步地,所述智能计算方法为:对爬虫程序每次搜索的工作职位数据分别从薪酬水平、学历要求、工作年限要求、不同时期四个维度自动运用大数据技术进行统计分析,直观比较不同的特征等次及其工作职位的数量分布,以及需求变化。

25、更进一步地,所述智能计算方法为:

26、(s501)读取数据集:读取服务器存储的特征数据集,选择每个工作职位的各个维度的最高值和最低值;

27、(s502)数据特征处理:数据降维处理,将步骤(s501)读取的每条数据计算平均值,采用一维数组存放;

28、(s503)建立计算模型:根据每个维度不同的标准,将步骤(s502)生成的一组数据分割成离散的区间,每个区间有若干个数据(职位名称),打上分割标签;

29、(s504)统计区间频次:统计步骤(s503)分割的每个区间中数据的频次(职位数量);

30、(s505)生成图表:静态模板使用jquery.js和highcharts将步骤(s505)输出的数据渲染为图表。

31、进一步地,所述数据查询模糊查询的记录数据依据其加权平均值由大到小排序输出。

32、本发明软件平台采用mvt模式进行设计,综合运用python、flask、mysql、pandas、numpy、highcharts等技术,开发网络招聘数据自动采集智能计算系统软件。

33、与现有技术相比,采用如上技术方案取得的有益技术效果为:

34、1、本发明可以选择输入某个地区或某个城市名称以及工作职位的类型名称,网络爬虫可以从招聘网站海量数据中自动搜索筛选相关的网页数据,可以将某个地区或某个城市发布的所有同类型职位网页数据全部下载到服务器,解决了人工查找效率低的问题,节约成本。

35、2、本发明使用的数据解析方法运用dom文档对象模型、xpath选择器、re正则表达式等技术从下载的网页数据中自动提取出工作职位有价值的信息形成多特征数据集,数据集保存在服务器上,可以用于智能计算和查询,提高了数据处理和重复使用的效率。

36、3、本发明运用大数据技术建立了多个数据分析模型对特征数据集进行计算,能够从薪酬水平、学历要求、工作年限、不同时期四个维度统计分析不同等次及其工作职位的数量分布,观察工作职位的整体需求以及不同时期的需求变化,发现数据集的价值。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1