作弊站点识别方法及装置的制造方法
【技术领域】
[0001]本发明涉及计算机移动通信技术领域,具体而言,涉及一种作弊站点识别方法及
目.ο
【背景技术】
[0002]搜索引擎可以通过网络爬虫去抓取资源。网络爬虫是一个自动提取网页的程序,它利用URL (Uniform Resource Locator,统一资源定位符)为搜索引擎从互联网上下载网页。在有限的资源下如何能够抓取到优秀的网页是一个复杂的策略问题。
[0003]通常,搜索引擎认为网页资源是以一个个站点(host)组织在一起的。站点名称的一般格式如host, domain, domaintail:porto名称的主体部分,也就是domain部分,可以选择英文字母、数字以及等字符组成。名称的后缀部分,也就是domaintail部分有诸如com、net、info等信息。Port表示端口信息。多个站点可以属于同一个domain,但是不同站点的内容一般有不同的倾向性,比如map.baidu.com, tieba.baidu.com同属于baidu.com,但是分别是百度的地图和贴吧资源等等,并且从站点的组织结果,我们就能直观的了解到,map对应的是百度地图,tieba对应的是百度贴吧。
[0004]在现有技术中,如果当搜索引擎新发现的站点,由于无法提前知道该站点的数据质量,一般会先进行收录,如果收录后,该站点的数据是用户需要的,那么就得到一个正向的反馈,下一次会进一步收录该站点的数据,反之则减少。因此,一些有作弊倾向的站长会通过批量的生成新站点来加大自身在搜索引擎的收录量,因此,这些站点称之为作弊站点。
[0005]因此,如何识别作弊站点成为现在亟待解决的技术问题。
【发明内容】
[0006]本发明的目的在于提供一种作弊站点识别方法及装置,可以通过一种可量化的方法对作弊站点进行识别,提高作弊站点识别的准确性和时效性。
[0007]为了实现上述目的,本发明实施例采用的技术方案如下:
[0008]第一方面,本发明实施例提供了一种作弊站点识别方法,所述方法包括:获取站点的名称主体,所述名称主体由多个元素组成;根据预定规则,将所述名称主体划分为多个元素单元,每个所述元素单元至少包括所述名称主体中的一个元素;根据所述多个元素单元对应的级别以及预设的各级别的元素单元之间的混乱度,计算所述名称主体的总混乱度;当所计算出的总混乱度超过预定阈值时,判定所述站点为作弊站点。
[0009]结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述元素包括英文字母、数字、特殊符号中的一种或几种,所述特殊符号包括数字符号、标点符号、或各国文字的特定字符。
[0010]结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述根据预定规则,将所述名称主体划分为多个元素单元,包括:如果所述名称主体中包括英文单词或汉字拼音,则将所述英文单词或汉字拼音对应的多个英文字母划入同一个元素单元;如果所述名称主体中包括数字,则将每个单独的数字作为一个单独的元素单元;如果所述名称主体中包括特殊符号,则将每个单独的特殊符号作为一个单独的元素单元。
[0011]结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,预设的各级别的元素单元之间的混乱度包括:各第一级元素单元之间以及各第二级元素单元之间的混乱度均为第一混乱度;第一级元素单元与第二级元素单元之间的混乱度为第二混乱度;第一级元素与第三级元素之间以及第二级元素单元与第三级元素单元之间的混乱度均为第三混乱度;各第三级元素单元之间的混乱度为第四混乱度;其中,所述第一混乱度、第二混乱度、第三混乱度以及第四混乱度之间满足:第一混乱度〈第二混乱度〈第三混乱度〈第四混乱度。
[0012]结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述第一混乱度为1,所述第二混论度为2,所述第三混乱度为3,所述第四混乱度为6。
[0013]结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,仅包含一个英文单词、仅包含一个汉字拼音、或仅包含一个字母的元素单元为第一级元素单元,仅包含一个数字的元素单元为第二级元素单元,仅包含一个特殊符号的元素单元为第三级元素单元。
[0014]结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述根据所述多个元素单元对应的级别以及预设的各级别的元素单元之间的混乱度,计算所述名称主体的总混乱度,包括:根据各元素单元中的内容确定各元素单元对应的级别;根据各元素单元的级别以及预设的各级别的元素单元之间的混乱度,分别计算相邻两个元素单元之间的混乱度;将计算出的相邻两个元素单元之间的混乱度进行加总,得到所述名称主体的总混乱度。
[0015]结合第一方面,本发明实施例提供了第一方面的第七种可能的实施方式,其中,判断所述名称主体是站点级名称主体还是域名级名称主体;如果是站点级名称主体,则当计算出的总混乱度超过所述预定阈值时,判定所述站点为作弊站点;否则当所述名称主体下的所有站点的名称主体的平均总混乱度超过所述预定阈值时,或者当所述名称主体下的所有站点的名称主体的平均总混乱度超过所述预定阈值并且所述名称主体下的所有站点的数量大于预定个数时,判定所述站点为作弊站点。
[0016]第二方面,本发明实施例还提供了一种作弊站点识别装置,运行于服务器,所述装置包括:获取模块,用于获取站点的名称主体,所述名称主体由多个元素组成;处理模块,用于根据预定规则,将所述名称主体划分为多个元素单元,每个所述元素单元至少包括所述名称主体中的一个元素;计算模块,用于根据所述多个元素单元对应的级别以及预设的各级别的元素单元之间的混乱度,计算所述名称主体的总混乱度;判定模块,用于所述计算模块所计算出的总混乱度超过预定阈值时,判定所述站点为作弊站点。
[0017]本发明实施例提供的作弊站点识别方法及装置通过分析站点的名称主体,计算该名称主体对应的总混乱度,根据计算出的总混乱度与预定阈值比较判别出该站点是否为作弊站点,根据名称主体的总混乱度就可以识别站点是否为作弊站点,当总混乱度越大,说明站点不容易被用户分辨、记忆和输入,也就是说站点质量也越差,当总混乱度越小,说明站点的质量也越高。通过一种可量化的方法对作弊站点进行识别,提高了作弊站点识别的准确性和时效性。
[0018]为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
【附图说明】
[0019]为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0020]图1示出了本发明实施例提供的作弊站点识别方法及装置的应用环境示意图;
[0021]图2示出了本发明第一实施例提供的一种作弊站点识别方法的流程示意图;
[0022]图3示出了本发明第二实施例提供的一种作弊站点识别方法的流程示意图;
[0023]图4示出了本发明第二实施例提供的一种作弊站点识别方法的部分步骤的流程示意图;
[0024]图5示出了本发明第三实施例提供的一种作弊站点识别装置的结构框图;
[0025]图6示出了本发明第四实施例提供的一种作弊站点识别装置的结构框图。
【具体实施方式】
[0026]本发明实施例所提供的作弊站点识别方法及装置可应用于如图1所示的计算机设备中,该计算机设备可以是个人电脑、服务器等等中的一种或者一种以上组合而成的系统。该计算机设备还可以是智能手机、平板电脑、膝上型便携计算机、车载电脑、穿戴式移动终端等等中的一种或者一种以上组合而成的系统。
[0027]如图1所示,计算机设备100可以包括存储器102、存储控制器104,一个或多个(图中仅示出一个)处理器106、外设接口 108等。这些组件通过一条或多条通讯总线/信号线116相互通讯。
[0028]存储器102可用于存储软件程序以及模块,如本发明实施例中的作弊站点识别方法及装置对应的程序指令/模块,处理器106通过运行存储在存储器102内的软件程序以及模块,从而执行各种功能应用以及数据处理,如本发明实施例提供的作弊站点识别方法。
[0029]存储器102可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。处理器106以及其他可能的组件对存储器102的访问可在存储控制器104的控制下进行。
[0030]外设接口 108将各种输入/输入装置耦合至处理器106以及存储器102。在一些实施例中,外设接口 108,处理器106以及存储控制器104可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
[0031]可以理解,图1所示的结构仅为示意,计算机设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置,例如可以包括射频模块、音频模块、触控屏幕等。图1中所示的各组件可以采用硬件、软件或其组合实现。
[003