本申请涉及人工智能,尤其涉及一种网页质量评估方法、装置、设备和介质。
背景技术:
1、网页是了解信息的重要途径,成为当前最重要的信息渠道之一,如通过官网了解公司信息等。然而随信息量增长,各来源的网页数量庞大,网页质量良莠不齐,为提高网络安全和筛选高质量信息等,有必要针对网页进行质量评估,以便于筛查虚假或可疑等低质网页,提升网络安全,降低网页内容分类等后续任务的数据量压力。
2、现有技术中,通常从网页网址与其它网址的连接性或被访问热度进行质量评估,如采用pagerank算法(页面等级算法),由搜索引擎根据网页之间相互的超链接计算网页的相关性和重要性;但相关技术方案需要获取不同网页间的连通数据,以构造关联节点和边来实现质量分析,数据获取的时间成本高,存在较强滞后性,并且访问连接性和热度对于网页质量的代表性较差,如一些非法网页的访问量可能较大,基于现有算法会得到较高的质量评价,但实际场景中其属于低质网页。因此,需提供一种改进的网页质量评估方案,以前置质量评估并提升评估准确性。
技术实现思路
1、本申请提供了一种网页质量评估方法、装置、设备和介质,可以显著提升网页质量评估的准确性。
2、一方面,本申请提供了一种网页质量评估方法,所述方法包括:
3、获取目标网页对应的子网页标题数据和子网页描述数据网页类别;
4、基于所述子网页标题数据和所述子网页描述数据进行特征提取,得到所述目标网页的网页特征;
5、基于所述网页特征进行所述目标网页的分类识别,得到类别预测结果;
6、对所述网页特征和预设筛选类别的类别文本特征进行相似性评价,得到相似性评价结果;
7、确定所述目标网页的网页失效度,所述网页失效度用于表征所述目标网页对应的各子网页中失效子网页的占比;
8、根据所述类别预测结果、所述相似性评价结果和所述网页失效度进行网页质量评价,得到所述目标网页的质量评价结果。
9、另一方面提供了一种网页质量评估装置,所述装置包括:
10、数据获取模块:用于获取目标网页对应的子网页标题数据和子网页描述数据;
11、特征提取模块:用于基于所述子网页标题数据和所述子网页描述数据进行特征提取,得到所述目标网页的网页特征;
12、分类识别模块:用于基于所述网页特征进行所述目标网页的分类识别,得到类别预测结果;
13、相似性评价模块:用于对所述网页特征和预设筛选类别的类别文本特征进行相似性评价,得到相似性评价结果;
14、失效度确定模块:用于确定所述目标网页的网页失效度,所述网页失效度用于表征所述目标网页对应的各子网页中失效子网页的占比;
15、质量评价模块:用于根据所述类别预测结果、所述相似性评价结果和所述网页失效度进行网页质量评价,得到所述目标网页的质量评价结果。
16、另一方面提供了一种计算机设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的网页质量评估方法。
17、另一方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的网页质量评估方法。
18、另一方面提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的网页质量评估方法。
19、另一方面提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的网页质量评估方法。
20、另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令被处理器执行时实现如上述的网页质量评估方法。
21、本申请提供的网页质量评估方法、装置、设备、存储介质、服务器、终端、计算机程序和计算机程序产品,具有如下技术效果:
22、本申请的技术方案获取目标网页对应的子网页标题数据和子网页描述数据网页类别,并基于子网页标题数据和子网页描述数据进行特征提取,得到目标网页的网页特征,实现目标网页的特征表达;然后基于网页特征进行目标网页的分类识别,得到类别预测结果,对网页特征和预设筛选类别的类别文本特征进行相似性评价,得到相似性评价结果,以及确定目标网页的网页失效度,得到目标网页的多维度评价信息;进而根据类别预测结果、相似性评价结果和网页失效度进行网页质量评价,得到目标网页的质量评价结果,能够基于网页本身的内容信息实现质量评价,无需网页间的连通数据,网页质量评价的时间成本低,实现质量评估前置,并且,结合网页内容的分类预测结果、类别相似性结果和网页失效度的多维信息进行质量评估,更贴合实际业务场景,评价信息完善,显著提升网页质量评价准确性。
1.一种网页质量评估方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述子网页标题数据和所述子网页描述数据进行特征提取,得到所述目标网页的网页特征包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述网页特征进行所述目标网页的分类识别,得到类别预测结果包括:
4.根据权利要求3所述的方法,其特征在于,所述网页类别属于异常类别或正常类别,所述根据所述类别预测结果、所述相似性评价结果和所述网页失效度进行网页质量评价,得到所述目标网页的质量评价结果包括:
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述预设筛选类别包括多个预设业务类别,所述对所述网页特征和预设筛选类别的类别文本特征进行相似性评价,得到相似性评价结果包括:
8.根据权利要求1-6中任一项所述的方法,其特征在于,所述确定所述目标网页的网页失效度包括:
9.根据权利要求1-6中任一项所述的方法,其特征在于,所述获取目标网页对应的子网页标题数据和子网页描述数据包括:
10.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法还包括:
11.根据权利要求10所述的方法,其特征在于,所述根据所述类别预测结果、所述相似性评价结果和所述网页失效度进行网页质量评价,得到所述目标网页的质量评价结果包括:
12.一种网页质量评估装置,其特征在于,所述装置包括:
13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-11中任一项所述的网页质量评估方法。
14.一种计算机设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-11中任一项所述的网页质量评估方法。