本发明涉及大数据,具体为基于相关数据分析的企业与政策匹配系统。
背景技术:
1、企业与政策匹配系统通过企业自行搜索、浏览政策文件或通过政府部门的渠道获取政策信息,通常需要人工按照政策要求逐项核对企业的情况,然而,传统的企业与政策匹配系统往往会有一些弊端。
2、一方面,传统的企业与政策匹配系统利用人工的方式去获取政策信息,不仅浪费时间,还浪费大量人力资源;
3、另一方面,传统的企业与政策匹配系统更多地依赖企业自行查找和申请政策支持,缺乏系统的个性化匹配的功能。
技术实现思路
1、本发明的目的在于提供基于相关数据分析的企业与政策匹配系统,以解决上述背景技术中提出的问题。
2、为实现上述目的,本发明提供如下技术方案:基于相关数据分析的企业与政策匹配系统,其包括数据收集模块、特征提取模块、数据处理模块和企业与政策匹配模块,其中:
3、所述数据收集模块利用爬虫软件收集政策数据,并将政策数据和企业提供的企业数据发送给特征提取模块;
4、所述特征提取模块利用算法模型对政策数据和企业数据进行特征提取,并将提取的数据特征发送给数据处理模块;
5、所述数据处理模块用于将政策数据和企业数据合并成一个数据集并进行标准化处理,将处理好的数据发送给企业与政策匹配模块;
6、所述企业与政策匹配模块利用决策树算法对政策数据和企业数据合并的数据集进行匹配预测,并将预测的结果和数据特征进行文字可视化输出。
7、作为本技术方案的进一步改进,所述数据收集模块包括政策数据收集单元,所述政策数据收集单元使用爬虫软件从官方网站自动化地获取数据,并将爬取的数据发送给特征提取模块中的政策特征提取单元。
8、作为本技术方案的进一步改进,所述数据收集模块包括企业数据收集单元,所述企业数据收集单元通过企业提供的数据来收集企业数据,并将收集到的数据发送给特征提取模块中企业特征提取单元。
9、作为本技术方案的进一步改进,所述特征提取模块包括政策特征提取单元,所述政策特征提取单元接收政策数据收集单元发送的政策数据,利用命名实体识别模型对政策数据进行特征提取,并将提取过的数据特征发送给数据处理模块中的数据合并单元。
10、作为本技术方案的进一步改进,所述特征提取模块包括企业特征提取单元,所述企业特征提取单元接收企业数据收集单元发送的企业数据,利用多层感知器模型对企业数据进行特征提取,并将提取过的数据特征发送给数据处理模块中的数据合并单元。
11、作为本技术方案的进一步改进,所述数据处理模块包括数据合并单元和数据标准化单元,所述数据合并单元接收政策特征提取单元和企业特征提取单元分别发送的政策数据和企业数据,并将政策数据和企业数据合并成一个数据集发送给数据标准化单元;所述数据标准化单元将数据集进行标准化处理,将处理好的数据发送给企业与政策匹配模块中的匹配数据接收单元。
12、作为本技术方案的进一步改进,所述企业与政策匹配模块包括匹配数据接收单元、匹配单元和可视化单元,所述匹配数据接收单元接收数据标准化单元发送的数据,用于处理数据中的缺失值和重复值,将处理好的数据发送给匹配单元;所述匹配单元利用决策树算法对数据进行匹配预测,并将预测结果发送给可视化单元;所述可视化单元将预测结果进行可视化的文字输出。
13、作为本技术方案的进一步改进,所述政策数据收集单元使用爬虫软件从官方网站自动化地获取数据,具体包括:
14、访问目标页面的url,并设置请求头信息;
15、解析网页内容,使用解析技术定位政策信息所在的标签和属性;
16、提取网页的政策数据;
17、对提取的数据进行处理和清洗;
18、将处理后的政策数据以结构化的方式存储;
19、重复以上步骤,遍历网页中的其他政策条目,直至抓取完所有页面。
20、作为本技术方案的进一步改进,所述匹配单元利用决策树算法对数据进行匹配预测,预测的结果包括政策数据类型和数据特征,预测的过程包括:
21、从根节点开始,依次比较样本的特征值与该节点对应的划分特征的取值,根据不同的取值,将样本沿着相应的子节点移动,并记录移动的节点数据;
22、继续重复上一步,根据当前节点的划分特征和取值,将样本移动到下一个子节点,直到到达叶节点;
23、当到达叶节点时,记录叶节点的类别标签。
24、与现有技术相比,本发明的有益效果是:
25、1、该基于相关数据分析的企业与政策匹配系统利用爬虫软件的方式去获取政策信息,利用命名实体识别算法模型对获取的数据进行特征提取,同样利用多层感知器算法模型对企业提供的企业数据进行特征提取,以此来自动的获取准确的企业和政策的数据特征,不仅节省了人力资源,而且提高了时间效率。
26、2、该基于相关数据分析的企业与政策匹配系统根据算法模型提取到企业数据特征和政策数据特征,将企业数据特征和政策数据特征合并为一个数据集中进行数据的标准化和清洗,并利用决策树算法模型对合并的数据集进行匹配政策数据类型和数据特征的预测,并将预测的结果进行可视化的文字输出,让企业决策人员进行参考,以此让系统具有个性化的匹配功能,增加决策人员的决策能力。
1.基于相关数据分析的企业与政策匹配系统,其特征在于:包括数据收集模块(100)、特征提取模块(200)、数据处理模块(300)和企业与政策匹配模块(400),其中:
2.根据权利要求1所述的基于相关数据分析的企业与政策匹配系统,其特征在于:所述数据收集模块(100)包括政策数据收集单元(101),所述政策数据收集单元(101)使用爬虫软件从官方网站自动化地获取数据,并将爬取的数据发送给特征提取模块(200)中的政策特征提取单元(201)。
3.根据权利要求1所述的基于相关数据分析的企业与政策匹配系统,其特征在于:所述数据收集模块(100)包括企业数据收集单元(102),所述企业数据收集单元(102)通过企业提供的数据来收集企业数据,并将收集到的数据发送给特征提取模块(200)中企业特征提取单元(202)。
4.根据权利要求1所述的基于相关数据分析的企业与政策匹配系统,其特征在于:所述特征提取模块(200)包括政策特征提取单元(201),所述政策特征提取单元(201)接收政策数据收集单元(101)发送的政策数据,利用命名实体识别模型对政策数据进行特征提取,并将提取过的数据特征发送给数据处理模块(300)中的数据合并单元(301)。
5.根据权利要求1所述的基于相关数据分析的企业与政策匹配系统,其特征在于:所述特征提取模块(200)包括企业特征提取单元(202),所述企业特征提取单元(202)接收企业数据收集单元(102)发送的企业数据,利用多层感知器模型对企业数据进行特征提取,并将提取过的数据特征发送给数据处理模块(300)中的数据合并单元(301)。
6.根据权利要求1所述的基于相关数据分析的企业与政策匹配系统,其特征在于:所述数据处理模块(300)包括数据合并单元(301)和数据标准化单元(302),所述数据合并单元(301)接收政策特征提取单元(201)和企业特征提取单元(202)分别发送的政策数据和企业数据,并将政策数据和企业数据合并成一个数据集发送给数据标准化单元(302);所述数据标准化单元(302)将数据集进行标准化处理,将处理好的数据发送给企业与政策匹配模块(400)中的匹配数据接收单元(401)。
7.根据权利要求1所述的基于相关数据分析的企业与政策匹配系统,其特征在于:所述企业与政策匹配模块(400)包括匹配数据接收单元(401)、匹配单元(402)和可视化单元(403),所述匹配数据接收单元(401)接收数据标准化单元(302)发送的数据,用于处理数据中的缺失值和重复值,将处理好的数据发送给匹配单元(402);所述匹配单元(402)利用决策树算法对数据进行匹配预测,并将预测结果发送给可视化单元(403);所述可视化单元(403)将预测结果进行可视化的文字输出。
8.根据权利要求2所述的基于相关数据分析的企业与政策匹配系统,其特征在于:所述政策数据收集单元(101)使用爬虫软件从官方网站自动化地获取数据,具体包括:
9.根据权利要求7所述的基于相关数据分析的企业与政策匹配系统,其特征在于:所述匹配单元(402)利用决策树算法对数据进行匹配预测,预测的结果包括政策数据类型和数据特征,预测的过程包括: