本发明涉及计算机,尤其涉及一种epg爬测方法、设备、存储介质及装置。
背景技术:
1、互联网电视作为承载在宽带业务上的一种主流产品,深受大众欢迎。电子节目指南(epg,electrical program guide)是电视用户访问视频资源的唯一入口,其交互质量直接关系到用户体验。但是,由于epg模板问题、内容注入质量等因素,会使得互联网电视业务的epg请求不能正确获取内容,导致缺集、播放失败等问题。但现有的epg爬测机制当爬取内容数量相同的次数,大约有36.8%的内容无法被爬测到,如果要全覆盖,需要爬测更多的次数,测试效率不高,存在盲区。并且,针对具体测试任务的场景,需要手动配置,系统缺乏自主性。并且针对输出的缺集少集、业务资源加载失败等问题,缺少闭环校验机制,不能及时获取到输出告警之后,这些问题是否得到了解决、解决了多少以及什么时候解决的,从而无法进行有效的闭环跟踪,从而导致爬测效果差、数据不准确的问题。
技术实现思路
1、本发明的主要目的在于提供一种epg爬测方法、设备、存储介质及装置,旨在解决现有的epg爬测方案测试效率差无法进行有效的闭环跟踪,从而导致爬测效果差、数据不准确的技术问题。
2、为实现上述目的,本发明提供一种epg爬测方法,所述epg爬测方法包括以下步骤:
3、对epg界面资源进行爬测,获得爬测信息;
4、基于预设epg资源预测模型和所述爬测信息确定优先级结果,并根据所述优先级结果生成epg爬测优先队列;
5、基于所述epg爬测优先队列对所述epg界面资源进行爬测,输出爬测结果。
6、可选地,所述对epg界面资源进行爬测,获得爬测信息的步骤,包括:
7、对机顶盒和服务器交换包进行分析,获得爬虫入口ulr;
8、根据所述爬虫入口ulr对epg界面资源进行爬测,获得首页数据项、点播数据项、直播数据项、回看数据项的url;
9、根据所述首页数据项、点播数据项、直播数据项、回看数据项的url确定爬测信息。
10、可选地,所述基于预设epg资源预测模型和所述爬测信息确定优先级结果,并根据所述优先级结果生成epg爬测优先队列的步骤,包括:
11、根据所述首页数据项、点播数据项、直播数据项、回看数据项的url获取资源数据;
12、基于预设epg资源预测模型对所述资源数据进行分析,获得分析结果;
13、根据所述分析结果确定优先级结果,并根据所述优先级结果生成epg爬测优先队列。
14、可选地,所述基于预设epg资源预测模型对所述资源数据进行分析,获得分析结果的步骤,包括:
15、基于预设epg资源预测模型对所述资源数据进行资源风险预测,获得预测结果;
16、根据所述预测结果判定是否需要构建优先队列,并根据判断结果生成分析结果。
17、可选地,所述基于所述epg爬测优先队列对所述epg界面资源进行爬测,输出爬测结果的步骤之后,还包括:
18、根据所述爬测信息确定遍历爬测队列;
19、将所述epg爬测优先队列从所述遍历爬测队列中剔除,并返回执行所述对epg界面资源进行爬测,获得爬测信息的步骤。
20、可选地,所述对epg界面资源进行爬测,获得爬测信息的步骤之前,还包括:
21、基于预设基分类器和预设元学习器构建初始预测模型;
22、将预设数据集按照预设比例分割为训练数据集和测试数据集;
23、根据预设验证方式、所述训练数据集以及所述测试数据集对所述初始预测模型进行训练,获得预设epg资源预测模型。
24、可选地,所述根据预设验证方式、所述训练数据集以及所述测试数据集对所述初始预测模型进行训练,获得预设epg资源预测模型的步骤,包括:
25、根据预设验证方式和所述训练数据集分别对所述基分类器进行训练,并根据验证过程中获得的训练结果和所述训练数据集生成新的训练数据集;
26、基于所述测试数据集对所述基分类器进行测试,并根据测试过程中获得的测试结果和所述测试数据集生成新的测试数据集;
27、根据所述新的训练数据集和所述新的测试数据集对所述元学习器进行训练,获得预设epg资源预测模型。
28、此外,为实现上述目的,本发明还提出一种epg爬测设备,所述epg爬测设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的epg爬测程序,所述epg爬测程序配置为实现如上文所述的epg爬测的步骤。
29、此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有epg爬测程序,所述epg爬测程序被处理器执行时实现如上文所述的epg爬测方法的步骤。
30、此外,为实现上述目的,本发明还提出一种epg爬测装置,所述epg爬测装置包括:
31、遍历爬测模块,用于对epg界面资源进行爬测,获得爬测信息;
32、模型识别模块,用于基于预设epg资源预测模型和所述爬测信息确定优先级结果,并根据所述优先级结果生成epg爬测优先队列;
33、优先级爬测模块,用于基于所述epg爬测优先队列对所述epg界面资源进行爬测,输出爬测结果。
34、本发明通过对epg界面资源进行爬测,获得爬测信息;基于预设epg资源预测模型和所述爬测信息确定优先级结果,并根据所述优先级结果生成epg爬测优先队列;基于所述epg爬测优先队列对所述epg界面资源进行爬测,输出爬测结果,相较于现有的epg爬测方案测试效率差无法进行有效的闭环跟踪,从而导致爬测效果差、数据不准确,本发明基于预设epg资源预测模型生成优先队列,有效快速聚焦关键内容、特定任务,解决爬测效率不高问题,有效提升epg爬测效率,提高了epg质量问题发现效率以及闭环校验能力。
1.一种epg爬测方法,其特征在于,所述epg爬测方法包括以下步骤:
2.如权利要求1所述的epg爬测方法,其特征在于,所述对epg界面资源进行爬测,获得爬测信息的步骤,包括:
3.如权利要求2所述的epg爬测方法,其特征在于,所述基于预设epg资源预测模型和所述爬测信息确定优先级结果,并根据所述优先级结果生成epg爬测优先队列的步骤,包括:
4.如权利要求3所述的epg爬测方法,其特征在于,所述基于预设epg资源预测模型对所述资源数据进行分析,获得分析结果的步骤,包括:
5.如权利要求4所述的epg爬测方法,其特征在于,所述基于所述epg爬测优先队列对所述epg界面资源进行爬测,输出爬测结果的步骤之后,还包括:
6.如权利要求1所述的epg爬测方法,其特征在于,所述对epg界面资源进行爬测,获得爬测信息的步骤之前,还包括:
7.如权利要求6所述的epg爬测方法,其特征在于,所述根据预设验证方式、所述训练数据集以及所述测试数据集对所述初始预测模型进行训练,获得预设epg资源预测模型的步骤,包括:
8.一种epg爬测设备,其特征在于,所述epg爬测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的epg爬测程序,所述epg爬测程序被所述处理器执行时实现如权利要求1至7中任一项所述的epg爬测方法。
9.一种存储介质,其特征在于,所述存储介质上存储有epg爬测程序,所述epg爬测程序被处理器执行时实现如权利要求1至7中任一项所述的epg爬测方法。
10.一种epg爬测装置,其特征在于,所述epg爬测装置包括: