本发明涉及大批量数据采集领域,具体涉及一种基于递归神经网络的大批量新闻数据采集方法。
背景技术:
1、随着计算机行业飞速发展,信息数据已覆盖现实中各大领域,形成了维度广、结构复杂的数据来源,从大量无用信息中抽取有用内容造成数据采集人员的工作量越来越大,工作效率降低。因前端页面编写技术不断提升,单一抽取算法局限性慢慢显露。页面动态加载内容增多,静态页面结构复杂,人工编写规则以及自动发现新的页面模板并维护将是一个庞大的工作量消耗人力物力,机器学习也局限于页面结构相似的训练数据,当页面结构相差度较大需重新进行数据训练。
技术实现思路
1、针对现有技术的不足,本发明提供了一种基于递归神经网络的大批量新闻数据采集方法,通过建立网站底层链接的多特征点dom树,为后续筛选分类模型提供输出准确性与便捷性保证。
2、为实现上述目的,本发明提供了一种基于递归神经网络的大批量新闻数据采集方法,包括:
3、s1、建立新闻数据采集链接库;
4、s2、根据所述新闻数据采集链接库基于抽取算法建立新闻数据采集模型;
5、s3、利用所述新闻数据采集模型得到大批量新闻数据采集结果。
6、优选的,所述建立新闻数据采集链接库包括:
7、s1-1、获取新闻数据网站的存活性结果;
8、s1-2、根据所述新闻数据网站的存活性结果建立新闻数据网站链接库;
9、s1-3、利用所述新闻数据网站链接库作为新闻数据采集链接库。
10、进一步的,所述获取新闻数据网站的存活性结果包括:
11、对所述新闻数据网站发送链接请求;
12、判断所述新闻数据网站是否对链接请求存在回应,若是,则分别对所述新闻数据网站的链接请求与链接响应进行解析处理得到新闻数据网站的请求链接源代码与响应链接源代码,否则,放弃处理;
13、利用所述新闻数据网站的请求链接源代码与响应链接源代码作为新闻数据网站的存活性结果。
14、进一步的,根据所述新闻数据网站的存活性结果建立新闻数据网站链接库包括:
15、s1-2-1、判断所述新闻数据网站的存活性结果对应请求链接源代码与响应链接源代码是否存在噪声数据,若是,则对所述请求链接源代码与响应链接源代码进行去噪处理得到更新的请求链接源代码与响应链接源代码,并执行s1-2-2,否则,直接执行s1-2-2;
16、s1-2-2、利用所述请求链接源代码与响应链接源代码建立对应请求链接源代码dom树与响应链接源代码dom树;
17、s1-2-3、利用所述请求链接源代码与对应响应链接源代码建立请求-响应映射;
18、s1-2-4、利用所述请求链接源代码dom树、响应链接源代码dom树与请求-响应映射作为新闻数据网站链接库。
19、优选的,根据所述新闻数据采集链接库基于抽取算法建立新闻数据采集模型包括:
20、s2-1、利用所述新闻数据采集链接库的请求链接源代码dom树与响应链接源代码dom树作为训练集;
21、s2-2、利用所述训练集中请求链接源代码dom树为输入,所述训练集中响应链接源代码dom树为输出,基于递归神经网络进行训练得到初始新闻数据采集模型;
22、s2-3、判断所述初始新闻数据采集模型与新闻数据采集链接库的请求-响应映射是否完全对应,若是,则利用所述初始新闻数据采集模型作为新闻数据采集模型,否则,返回s2-1。
23、优选的,利用所述新闻数据采集模型得到大批量新闻数据采集结果包括:
24、s3-1、利用所述新闻数据采集模型得到新闻数据采集初始结果;
25、s3-2、根据所述新闻数据采集初始结果对新闻数据采集模型进行更新处理得到迭代新闻数据采集模型;
26、s3-3、利用所述迭代新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果;
27、s3-4、利用所述批量化输出结果得到大批量新闻数据采集结果。
28、进一步的,利用所述新闻数据采集模型得到新闻数据采集初始结果包括:
29、s3-1-1、获取待采集新闻数据网站;
30、s3-1-2、利用所述待采集新闻数据网站基于新闻数据采集模型得到新闻数据采集初始结果;
31、s3-1-3、判断所述新闻数据采集初始结果是否存在对应历史新闻数据采集初始结果,若是,则执行s3-1-4,否则,s3-1-5;
32、s3-1-4、判断所述新闻数据采集初始结果与对应历史新闻数据采集初始结果、所述新闻数据采集初始结果对应待采集新闻数据网站与历史新闻数据采集初始结果对应历史采集新闻数据网站是否均为对应,若是,则保留新闻数据采集初始结果,否则,利用所述待采集新闻数据网站与新闻数据采集初始结果共同作为新闻数据采集初始结果;
33、s3-1-5、判断所述新闻数据采集初始结果与待采集新闻数据网站是否对应,若是,则保留所述新闻数据采集初始结果,否则,利用所述待采集新闻数据网站与新闻数据采集初始结果的请求链接源代码与响应链接源代码作为补充训练集,并返回s2-1。
34、进一步的,根据所述新闻数据采集初始结果对新闻数据采集模型进行更新处理得到迭代新闻数据采集模型包括:
35、s3-2-1、利用所述新闻数据采集初始结果对应补充训练集作为迭代训练集;
36、s3-2-2、利用所述迭代训练集为输入,所述迭代训练集对应新闻数据采集初始结果为输出,基于递归神经网络进行训练得到迭代新闻数据采集模型。
37、进一步的,利用所述迭代新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果包括:
38、s3-3-1、判断所述迭代新闻数据采集模型与新闻数据采集模型的输出达成率是否满足浮动阈值,若是,则执行s3-3-2,否则,返回s3-2-1;
39、s3-3-2、判断所述迭代新闻数据采集模型对应请求链接源代码dom树、响应链接源代码dom树与新闻数据采集模型对应请求链接源代码dom树、响应链接源代码dom树是否一致,若是,则保留当前迭代新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果,否则,利用所述迭代新闻数据采集模型与新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果;
40、其中,输出达成率为模型输入与输出的匹配率,浮动阈值为5%。
41、进一步的,利用所述迭代新闻数据采集模型与新闻数据采集模型得到迭代新闻数据采集模型的批量化输出结果包括:
42、基于所述迭代新闻数据采集模型获取第一输出结果;
43、基于所述新闻数据采集模型获取第二输出结果;
44、获取所述第一输出结果与第二输出结果重叠的输出结果建立批量化输出结果。
45、与最接近的现有技术相比,本发明具有的有益效果:
46、建立需采集网站数据的请求响应对应关系,并为后续迭代循环模型的建立提供前置基础,考虑到新闻数据网站的多样性与不确定性,因此在先期神经网络训练后,再根据不匹配的训练集单独训练筛选模型,当前后两个模型输出达成率相匹配时,利用循环模型作为批量采集基础,当模型输出率不稳定时,获取两个模型的输出结果重叠部分作为最终结果,保证结果输出的稳定性同时,又实现了模型输出结果的复验。