网页识别方法及网页识别装置的制造方法
【技术领域】
[0001]本发明涉及互联网领域,特别是涉及一种网页识别方法及网页识别装置。
【背景技术】
[0002]随着互联网的爆炸式增长,各种小型网站层出不穷。这其中也包括大量具有“作弊网页”的垃圾网站,这些“作弊网页”没有实际的内容,仅仅通过吸引用户眼球的标题(如色情标题等不良内容标题),骗取用户的点击流量,以达到商业目的。
[0003]目前已有的预定网页(不良网页)计算模型可有效的识别出具有不良内容(如色情内容或欺骗内容等)的垃圾网站,其通过统计机器学习的文本分类算法,利用页面主题内容来估计网页中的不良内容。
[0004]然而,部分垃圾网站的“作弊网页”仅仅通过具有不良内容的标题来骗取用户点击,网页中并无实际的不良内容,因为标题的长度远远小于网页内容的实际长度,现有的预定网页计算模型无法对该“作弊网页”进行识别,从而无法对该垃圾网站的“作弊网页”进行过滤。
【发明内容】
[0005]本发明实施例提供一种可对仅仅吸引用户眼球而没有实际内容的“作弊”网页进行识别的网页识别方法;以解决现有的网页识别方法不能对上述“作弊”网页进行过滤的技术问题。
[0006]本发明实施例提供一种可对仅仅吸引用户眼球而没有实际内容的“作弊”网页进行识别的网页识别装置;以解决现有的网页识别装置不能对上述“作弊”网页进行过滤的技术问题。
[0007]为解决上述问题,本发明提供的技术方案如下:
[0008]本发明实施例提供一种网页识别方法,其包括:
[0009]根据预定词汇数据库,获取网页标题中的预定词汇,所述预定词汇数据库包括所述预定词汇以及与所述预定词汇对应的加权值;
[0010]根据所述预定词汇数据库中的预定词汇的加权值,生成所述网页标题的第一识别值;以及
[0011]根据预设的第一阈值和所述网页标题的第一识别值,对所述网页标题的所属网页进行预定网页的识别。
[0012]本发明实施例还提供一种网页识别装置,其包括:
[0013]词汇获取模块,用于根据预定词汇数据库,获取网页标题中的预定词汇,所述预定词汇数据库包括预定词汇以及与所述预定词汇对应的加权值;
[0014]识别值生成模块,用于根据所述预定词汇数据库中的预定词汇的加权值,生成所述网页标题的第一识别值;以及
[0015]预定网页确定模块,用于根据预设的第一阈值和所述网页标题的第一识别值,对所述网页标题的所属网页进行预定网页的识别。
[0016]相较于现有技术的网页识别方法及网页识别装置,本发明的网页识别方法和网页识别装置通过对网页标题中的预定词汇进行识别,实现了对“作弊”网页的识别,解决了现有的网页识别方法及网页识别装置不能对上述“作弊”网页进行过滤的技术问题。
【附图说明】
[0017]图1为本发明的网页识别方法及网页识别装置所在的电子设备的工作环境结构示意图;
[0018]图2为本发明的网页识别装置的第一优选实施例的结构示意图;
[0019]图3为本发明的网页识别方法的第一优选实施例的流程图;
[0020]图4为本发明的网页识别装置的第二优选实施例的结构示意图;
[0021]图5为本发明的网页识别方法的第二优选实施例的流程图。
【具体实施方式】
[0022]请参照图式,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被视为限制本发明未在此详述的其它具体实施例。
[0023]在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行之作业的步骤及符号来说明,除非另有述明。因此,其将可了解到这些步骤及操作,其中有数次提到为由计算机执行,包括了由代表了以一结构化型式中的数据之电子信号的计算机处理单元所操纵。此操纵转换该数据或将其维持在该计算机之内存系统中的位置处,其可重新配置或另外以本领域技术人员所熟知的方式来改变该计算机之运作。该数据所维持的数据结构为该内存之实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
[0024]如本申请所使用的术语“组件”、“模块”、“系统”、“接口 ”、“进程”等等一般地旨在指计算机相关实体:硬件、硬件和软件的组合、软件或执行中的软件。例如,组件可以是但不限于是运行在处理器上的进程、处理器、对象、可执行应用、执行的线程、程序和/或计算机。通过图示,运行在控制器上的应用和该控制器二者都可以是组件。一个或多个组件可以有在于执行的进程和/或线程内,并且组件可以位于一个计算机上和/或分布在两个或更多计算机之间。
[0025]而且,要求保护的主题可以被实现为使用标准编程和/或工程技术产生软件、固件、硬件或其任意组合以控制计算机实现所公开的主题的方法、装置或制造品。本文所使用的术语“制造品”旨在包含可从任意计算机可读设备、载体或介质访问的计算机程序。当然,本领域技术人员将认识到可以对该配置进行许多修改,而不脱离要求保护的主题的范围或精神。
[0026]图1和随后的讨论提供了对实现本发明所述的网页识别装置所在的电子设备的工作环境的简短、概括的描述。图1的工作环境仅仅是适当的工作环境的一个实例并且不旨在建议关于工作环境的用途或功能的范围的任何限制。实例电子设备112包括但不限于个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境,等等。
[0027]尽管没有要求,但是在“计算机可读指令”被一个或多个电子设备执行的通用背景下描述实施例。计算机可读指令可以经由计算机可读介质来分布(下文讨论)。计算机可读指令可以实现为程序模块,比如执行特定任务或实现特定抽象数据类型的功能、对象、应用编程接口(API)、数据结构等等。典型地,该计算机可读指令的功能可以在各种环境中随意组合或分布。
[0028]图1图示了包括本发明的网页识别装置的一个或多个实施例的电子设备112的实例。在一种配置中,电子设备112包括至少一个处理单元116和存储器118。根据电子设备的确切配置和类型,存储器118可以是易失性的(比如RAM)、非易失性的(比如ROM、闪存等)或二者的某种组合。该配置在图1中由虚线114图示。
[0029]在其他实施例中,电子设备112可以包括附加特征和/或功能。例如,设备112还可以包括附加的存储装置(例如可移除和/或不可移除的),其包括但不限于磁存储装置、光存储装置等等。这种附加存储装置在图1中由存储装置120图示。在一个实施例中,用于实现本文所提供的一个或多个实施例的计算机可读指令可以在存储装置120中。存储装置120还可以存储用于实现操作系统、应用程序等的其他计算机可读指令。计算机可读指令可以载入存储器118中由例如处理单元116执行。
[0030]本文所使用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。存储器118和存储装置120是计算机存储介质的实例。计算机存储介质包括但不限于RAM、ROM、EEPR0M、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备、或可以用于存储期望信息并可以被电子设备112访问的任何其他介质。任意这样的计算机存储介质可以是电子设备112的一部分。
[0031 ] 电子设备112还可以包括允许电子设备112与其他设备通信的通信连接126。通信连接126可以包括但不限于调制解调器、网络接口卡(NIC)、集成网络接口、射频发射器/接收器、红外端口、USB连接或用于将电子设备112连接到其他电子设备的其他接口。通信连接126可以包括有线连接或无线连接。通信连接126可以发射和/或接收通信媒体。
[0032]术语“计算机可读介质”可以包括通信介质。通信介质典型地包含计算机可读指令或诸如载波或其他传输机构之类的“己调制数据信号”中的其他数据,并且包括任何信息递送介质。术语“己调制数据信号”可以包括这样的信号:该信号特性中的一个或多个按