1.本发明涉及互联网技术领域,尤其涉及一种网站识别方法、装置、计算机设备、存储介质。
背景技术:2.随着互联网的普及,及时识别网站类型,对提升网络用户的人身和财产安全具有重要意义。现有的识别网站类型的方法,需要人工不断查看其页面源码,找出能代表网站的目标特征,通过人工参与和提取目标特征,然后进行相应更新,再将目标特征应用于识别网站类型,提取目标特征的效率低,更新缓慢,人力成本高。
3.针对上述技术问题,目前尚未提出有效的解决方案。
技术实现要素:4.基于现有技术的不足之处,本发明提供了一种网站识别方法、装置、计算机设备、存储介质,以至少解决现有技术中提取目标特征的效率低,更新缓慢,人力成本高的问题。
5.第一方面,本技术提出了一种网站识别,所述方法包括:
6.对样本网站按照预设规则进行目标特征提取,为所述目标特征添加对应的样本网站类型标签;
7.将所述目标特征与参考特征进行匹配,并基于目标特征的提取数量,得到筛选后的目标特征;
8.基于所述筛选后的目标特征以及参考特征对待识别网站进行匹配,确定所述待识别网站的类型。
9.在一实施例中,所述对样本网站按照预设规则进行目标特征提取,为所述目标特征添加对应的样本网站类型标签,包括:
10.基于至少两个代码标签项将所述样本网站的代码分类;
11.基于预设初步提取数量和各代码标签项的第一权重,确定各代码标签项所包含的目标特征的预设初步提取数量;
12.基于预设规则和所述各代码标签项所包含的目标特征的预设初步提取数量,对所述样本网站包含的不同代码标签项所对应的代码进行目标特征提取;
13.为所述目标特征添加所述对应的网站类型标签。
14.在一实施例中,所述将所述目标特征与参考特征进行匹配,并基于目标特征的提取数量,得到筛选后的目标特征,包括:
15.基于所述目标特征的提取数量和各代码标签项的第二权重,确定各代码标签项所包含的目标特征的提取数量;
16.将所述目标特征、所述参考特征、所述各代码标签项所包含的目标特征的提取数量输入筛选模型,以输出所述筛选后的目标特征;其中,所述筛选模型计算所述目标特征和所述参考特征的相似度并进行相似度排序,根据所述各代码标签项所包含的目标特征的提
取数量筛选出各代码标签项所包含的相似度排序靠前的目标特征。
17.在一实施例中,所述基于所述筛选后的目标特征以及参考特征对待识别网站进行匹配,确定所述待识别网站的类型,包括:
18.基于所述待识别网站的代码,判断所述筛选后的目标特征以及参考特征中是否存在与所述待识别网站的代码匹配的特征,若是,则基于所述目标特征对应的网站类型标签确定所述待识别网站的类型。
19.在一实施例中,所述将所述目标特征与参考特征进行匹配,并基于目标特征的提取数量,得到筛选后的目标特征之后,还包括:
20.对所述筛选后的目标特征进行测试,获得满足设定精度的目标特征;
21.基于所述满足设定精度的目标特征以及所述参考特征对待识别网站进行匹配,确定所述待识别网站的类型。
22.在一实施例中,所述对所述筛选后的目标特征进行测试,获得满足设定精度的目标特征,包括:
23.在预设测试次数内,使用所述筛选后的目标特征对至少两个测试网站进行匹配,获取测试结果;确定所述测试结果的准确度是否满足所述设定精度,若是,则所述筛选后的目标特征为所述满足设定精度的目标特征。
24.在一实施例中,所述基于所述满足设定精度的目标特征以及参考特征对待识别网站进行匹配,确定所述待识别网站的类型后,还包括:
25.基于所述满足设定精度的目标特征与所述待识别网站的匹配结果,确定所述匹配结果的准确度是否满足所述设定精度,若否,则针对所述满足设定精度的目标特征发出警告,并作为一次异常事件进行次数累加;当所述满足设定精度的目标特征的异常事件次数累加值大于等于预设异常次数时,确认所述满足设定精度的目标特征异常,删除所述满足设定精度的目标特征。
26.第二方面,本技术提供了一种网站识别装置,所述装置包括:
27.提取模块:对样本网站按照预设规则进行目标特征提取,为所述目标特征添加对应的样本网站类型标签;
28.筛选模块:将所述目标特征与参考特征进行匹配,并基于目标特征的提取数量,得到筛选后的目标特征;
29.识别模块:基于所述筛选后的目标特征以及参考特征对待识别网站进行匹配,确定所述待识别网站的类型。
30.第三方面,本技术提供提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的网站识别方法。
31.第四方面,本技术实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的网站识别方法。
32.相比于背景技术,本技术提供的网站识别方法、装置、计算机设备、存储介质,对样本网站按照预设规则进行目标特征提取,为所述目标特征添加对应的样本网站类型标签;将所述目标特征与参考特征进行匹配,并基于目标特征的提取数量,得到筛选后的目标特征;基于所述筛选后的目标特征以及参考特征对待识别网站进行匹配,确定所述待识别网
站的类型。本技术能够根据预设规则进行样本网站的目标特征提取,并使用目标特征确定待识别网站的类型,提取目标特征的效率高,更新及时,人力成本低。
33.本技术的一个或多个实施例的细节在以下附图和描述中提出,以使本技术的其他特征、目的和优点更加简明易懂。
附图说明
34.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
35.图1是本技术一个实施例中网站识别方法的终端硬件结构框;
36.图2是本技术一个实施例中网站识别方法的流程图;
37.图3是本技术一个实施例中提取目标特征的流程图;
38.图4是本技术一个实施例中筛选目标特征的流程图;
39.图5是本技术一个实施例中网站识别方法的流程图;
40.图6是本技术一个实施例中对筛选后的目标特征进行测试的流程图;
41.图7是本技术一个实施例中确定匹配结果的准确度是否满足设定精度的流程图;
42.图8是本技术一个优选实施例中网站识别方法的流程图;
43.图9为本技术实施例的网站识别装置的结构示意图;
44.图10为本技术实施例的计算机设备的结构示意图。
具体实施方式
45.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。基于本技术提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本技术公开的内容相关的本领域的普通技术人员而言,在本技术揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本技术公开的内容不充分。
46.在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本技术所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
47.除非另作定义,本技术所涉及的技术术语或者科学术语应当为本技术所属技术领域内具有一般技能的人士所理解的通常意义。本技术所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本技术所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本技术所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连
接,而是可以包括电气的连接,不管是直接的还是间接的。本技术所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。本技术所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
48.本实施例提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。以运行在终端上为例,图1是本发明实施例的一种网站识别方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,可选地,上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限定。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
49.存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的网站识别方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
50.传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(network interface controller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
51.本实施例提供了一种网站识别方法,图2是根据本技术实施例的网站识别方法的流程图,如图2所示,该流程包括如下步骤:
52.步骤s21,对样本网站按照预设规则进行目标特征提取,为目标特征添加对应的样本网站类型标签。
53.其中,在确定样本网站后,可以通过客户端,根据样本网站的域名地址访问该样本网站,并获取样本网站对应的全部网页代码;也可以通过抓包软件获取样本网站的网页代码,本技术对获取样本网站的网页代码的具体方式不作限定。
54.样本网站类型标签,是技术人员根据样本网站中的具体内容而标记的,用于区分不同网站类型的标签,如:刷单、赌博、钓鱼等。
55.在获取到样本网站对应的全部网页代码后,根据预设规则,对样本网站进行目标特征提取,为提取出来的目标特征添加对应的样本网站类型标签。
56.步骤s22,将目标特征与参考特征进行匹配,并基于目标特征的提取数量,得到筛选后的目标特征。
57.其中,参考特征是预设好的特征,通过将目标特征与参考特征进行匹配,可以筛选出与参考特征更为近似的目标特征。
58.目标特征的提取数量,是技术人员希望从样本网站提取出的目标特征的数量。该
数量可以由技术人员预先设定,也可以根据样本网站的代码量,和/或代码重复率进行计算而得到合适的提取数量。本技术对目标特征的提取数量不做限定。
59.步骤s23,基于筛选后的目标特征以及参考特征对待识别网站进行匹配,确定待识别网站的类型。
60.其中,待识别网站是一定数量的需要确定网站类型的网站集合。可以通过预先获取一定数量的待识别网站的域名地址,从而获取待识别网站的网页代码。由于筛选后的目标特征以及参考特征都携带有相应的网站类型标签,基于筛选后的目标特征以及参考特征,与待识别网站的网页代码进行匹配,根据匹配结果确定待识别网站的类型。
61.通过上述步骤,对样本网站按照预设规则进行目标特征提取,为目标特征添加对应的样本网站类型标签;将目标特征与参考特征进行匹配,并基于目标特征的提取数量,得到筛选后的目标特征;基于筛选后的目标特征以及参考特征对待识别网站进行匹配,确定待识别网站的类型,从而能够根据预设规则进行样本网站的目标特征提取,并使用目标特征确定待识别网站的类型,本方法提取目标特征的效率高,更新及时,人力成本低。
62.在一实施例中,对样本网站按照预设规则进行目标特征提取,为目标特征添加对应的样本网站类型标签,如图3所示,具体包括如下步骤:
63.步骤s211,基于至少两个代码标签项将样本网站的代码分类。
64.其中,代码标签项指的是样本网站的代码对应的类型。以html(hyper text mark-up language,超文本标记语言)文档为例,代码标签项可以为:title,body,head,icon。基于代码标签项,在获取样本网站的代码后,将样本网站的代码分类。
65.步骤s212,基于预设初步提取数量和各代码标签项的第一权重,确定各代码标签项所包含的目标特征的预设初步提取数量。
66.由于本步骤为初步提取,为便于后续筛选目标特征,预设初步提取数量会多于目标特征的提取数量。预设初步提取数量可以由技术人员手动输入,也可以根据待识别网站代码量,代码重复率,和/或提取精度等相关技术参数计算生成。
67.优选的,预设初步提取数量是目标特征的提取数量的两倍。
68.由于样本网站中不同代码标签项所对应的代码所含有的信息量不同,针对各代码标签项分配不同的第一权重,基于预设初步提取数量和各代码标签项的第一权重,可以分别确定各代码标签项所包含的目标特征的预设初步提取数量。
69.步骤s213,基于预设规则和各代码标签项所包含的目标特征的预设初步提取数量,对样本网站包含的不同代码标签项所对应的代码进行目标特征提取。
70.其中,预设规则指的是:基于不同的代码标签项,预设不同的提取规则。以html(hyper text mark-up language,超文本标记语言)文档为例,如针对代码标签项为body的代码,主要从特殊变量名,提示语,请求路径等特征进行相应目标特征提取。
71.基于预设规则和各代码标签项所包含的目标特征的预设初步提取数量,从各代码标签项所包含的代码中提取符合预设初步提取数量的目标特征。
72.步骤s214,为目标特征添加对应的样本网站类型标签。
73.将所提取出的目标特征添加对应的样本网站类型标签,可用于后续对待识别网站的识别。
74.通过上述步骤,根据代码标签项将样本网站的代码分类;基于预设初步提取数量
和各代码标签项的第一权重,确定各代码标签项所包含的目标特征的预设初步提取数量;基于预设规则和各代码标签项所包含的目标特征的预设初步提取数量,对样本网站包含的不同代码标签项所对应的代码进行目标特征提取并为目标特征添加对应的网站类型标签。上述步骤可以根据预设规则实现对样本网站目标特征的快速提取,提取效率高;根据不同的代码标签项分配不同的预设初步提取数量,使提取出的目标特征能够全面反映样本网站的特点。
75.在一实施例中,将目标特征与参考特征进行匹配,并基于目标特征的提取数量,得到筛选后的目标特征,如图4所述,具体包括如下步骤:
76.步骤s221,基于目标特征的提取数量和各代码标签项的第二权重,确定各代码标签项所包含的目标特征的提取数量。
77.由于样本网站中不同代码标签项所对应的代码的信息量不同,针对各代码标签项分配不同的第二权重,基于目标特征的提取数量和各代码标签项的第二权重,可以分别确定各代码标签项所包含的目标特征的提取数量。
78.其中,各代码标签项的第二权重可以与第一权重相同或不同。
79.步骤s222,将目标特征、参考特征、各代码标签项所包含的目标特征的提取数量输入筛选模型,以输出筛选后的目标特征;其中,筛选模型计算目标特征和参考特征的相似度并进行相似度排序,根据各代码标签项所包含的目标特征的提取数量筛选出各代码标签项所包含的相似度排序靠前的目标特征。
80.其中,参考特征是预先设定好的,作为参照的特征。参考特征可以由技术人员根据样本网站或与样本网站具备相同类型标签的网站手动提取生成,也可以是其他现有的用于判断网站类型的特征。本技术对参考特征的具体产生方式不做限定。
81.其中,筛选模型是预先训练好的算法模型,用于根据目标特征、参考特征、各代码标签项所包含的目标特征的提取数量,对步骤s21中初步提取的目标特征进行筛选。筛选模型通过计算每个代码标签项所包含的目标特征与参考特征的相似度,将相似度结果进行聚合并排序,根据各代码标签项的提取数量,筛选出聚合结果排名靠前的目标特征。
82.需要说明的是,此处的筛选并非是简单判断参考特征和目标特征的代码或字符串是否相等,而是通过算法进行相似度分类,同时,筛选模型经过训练调整,不会出现过拟合的情况,避免筛选出与参考特征相同的目标特征。
83.通过上述步骤,基于目标特征的提取数量和各代码标签项的第二权重,确定各代码标签项所包含的目标特征的提取数量;将目标特征、参考特征、各代码标签项所包含的目标特征的提取数量输入筛选模型,以输出筛选后的目标特征;其中,筛选模型计算目标特征和参考特征的相似度并进行相似度排序,根据各代码标签项所包含的目标特征的提取数量筛选出各代码标签项所包含的相似度排序靠前的目标特征。上述步骤实现了对初步提取的目标特征的筛选,使筛选出的目标特征能够精准反映样本网站的特点,可以提高识别网站类型的准确度。
84.在一实施例中,基于筛选后的目标特征以及参考特征对待识别网站进行匹配,确定待识别网站的类型,具体包括:
85.基于待识别网站的代码,判断筛选后的目标特征以及参考特征中是否存在与待识别网站的代码匹配的特征,若是,则基于目标特征对应的网站类型标签确定待识别网站的
类型。
86.其中,实际生产中会对大量网站进行扫描和爬取工作,识别网站类型的目的便是为了在海量网址数据中筛选出特定类型的网站。通过获取待识别网站的代码,与筛选后的目标特征以及参考特征进行匹配,当筛选后的目标特征以及参考特征中存在与待识别网站的代码相匹配的特征,则为待识别网站添加目标特征对应的网站类型标签。
87.在一实施例中,将目标特征与参考特征进行匹配,并基于目标特征的提取数量,得到筛选后的目标特征之后,如图5所示,还包括:
88.步骤s24,对筛选后的目标特征进行测试,获得满足设定精度的目标特征。
89.其中,设定精度指的是使用目标特征对待识别网站进行匹配,得到的匹配结果的准确度。设定精度可以由技术人员预先设定,也可以根据实际生产应用需求,待识别网站的类型,代码量,和/或代码重复率等相关技术参数计算生成,本技术对此不做限定。
90.在得到筛选后的目标特征后,还要通过对目标特征进行测试,验证实际使用效果,获得满足设定精度的目标特征。
91.步骤s25,基于满足设定精度的目标特征以及参考特征对待识别网站进行匹配,确定待识别网站的类型。
92.基于待识别网站的代码,判断满足设定精度的目标特征以及参考特征中是否存在与待识别网站的代码匹配的特征,若是,则基于满足设定精度的目标特征对应的网站类型标签确定待识别网站的类型。
93.上述步骤通过对筛选后的目标特征进行测试,来验证目标特征的实际使用效果,从而获得满足设定精度的目标特征,进一步提高了目标特征的可靠性,可以更准确的识别目标网站。
94.在一实施例中,对筛选后的目标特征进行测试,获得满足设定精度的目标特征,如图6所示,包括:
95.在预设测试次数内,使用筛选后的目标特征对至少两个测试网站进行匹配,获取测试结果;确定测试结果的准确度是否满足设定精度,若是,则筛选后的目标特征为满足设定精度的目标特征。
96.其中,至少两个测试网站是已知网站类型的网站。
97.其中,使用筛选后的目标特征对至少两个测试网站进行匹配,获得目标特征对测试网站的测试结果(即目标特征判断测试网站是否是目标特征所对应的网站类型),技术人员确定针对单个测试网站的测试结果是否正确,从而得到综合测试结果的准确度。
98.为了保证每条目标特征的精度,在预设测试次数内,将会对目标特征进行针对多个测试网站的重复匹配,直到测试结果的准确度满足设定精度。
99.在一个优选实施例中,达到预设测试次数后,筛选后的目标特征对测试网站的测试结果的准确度仍没有达到设定精度,则抛弃该目标特征。
100.在一个优选实施例中,达到预设测试次数后,筛选后的目标特征对测试网站的测试结果的准确度仍没有达到设定精度,则判断测试结果的准确度和设定精度的差值是否大于预设精度差阈值(举例说明:设定精度为95%,匹配结果的准确度为60%,预设精度差阈值为10%,差值为95%-60%=15%,差值大于预设精度差阈值),如是,则抛弃该目标特征。
101.在一个优选实施例中,达到预设测试次数后,筛选后的目标特征对测试网站的测
试结果的准确度仍没有达到设定精度,则判断匹配结果的准确度和设定精度的差值是否大于预设精度差阈值(举例说明:设定精度为95%,匹配结果的准确度为90%,预设精度差阈值为10%,差值为95%-90%=5%,差值小于预设精度差阈值),如否,则接受该目标特征做为满足设定精度的目标特征。
102.在一个优选实施例中,达到预设测试次数后,筛选后的目标特征对测试网站的匹配结果的准确度仍没有达到设定精度,则判断匹配结果的准确度和设定精度的差值是否大于预设精度差阈值(举例说明:设定精度为95%,匹配结果的准确度为90%,预设精度差阈值为10%,差值为95%-90%=5%,差值小于预设精度差阈值),如否,则将上述匹配结果和相关技术参数反馈到技术人员,确定是否接受该目标特征。
103.上述步骤通过对筛选后的目标特征进行测试,获得满足设定精度的目标特征,提高了后续目标特征对待识别网站进行匹配的准确度。针对测试后不满足设定精度的目标特征制定不同的处理策略,可根据实际需求灵活选择,技术人员自主性高。
104.在一实施例中,基于满足设定精度的目标特征以及参考特征对待识别网站进行匹配,确定待识别网站的类型后,如图7所示,还包括:
105.基于满足设定精度的目标特征与待识别网站的匹配结果,确定匹配结果的准确度是否满足设定精度,若否,则针对满足设定精度的目标特征发出警告,并作为一次异常事件进行次数累加;当满足设定精度的目标特征的异常事件次数累加值大于等于预设异常次数时,确认满足设定精度的目标特征异常,删除满足设定精度的目标特征。
106.其中,由于待识别网站本身不断更新,存在目标特征的准确度降低甚至失效的情况,将影响对网站类型的判断。因此,在于基于满足设定精度的目标特征以及参考特征对待识别网站进行匹配,确定待识别网站的类型后,还会分析和统计目标特征对网站类型的匹配结果的准确度,判断匹配结果是否满足设定精度。对匹配结果不满足设定精度的目标特征进行告警并作为一次异常事件进行累加,当异常实际次数大于等于预设异常次数时,确认该目标特征异常,删除该目标特征。
107.在一个优选实施例中,对匹配结果进行抽样来计算匹配结果的准确度,例如当抽样比例为10%时,即针对100个网站的匹配结果,抽出10条匹配结果进行准确度的计算。抽样比例可根据实际应用需求进行调整。
108.在一个优选实施例中,可以按照检测频率执行上述步骤,检测频率可以是时间维度,例如当检测频率为每天一次,即每天计算一次匹配结果的准确度是否满足设定精度。检测频率可以是其他不同的时间维度,包括秒、分、时、日、周、月和年中的至少之一。
109.通过上述步骤,在实际生产中保持对目标特征的监控分析,对异常目标特征及时进行删除处理,避免使用过期、失效目标特征对网站类型判断的不良影响,提高了目标特征的有效性和准确度。
110.下面通过优选实施例对本技术实施例进行描述和说明,图8是根据本技术优选实施例的网站识别方法流程图,如图8所示,该网站识别方法包括:
111.步骤s801,确定样本网站并获取样本网站对应的全部网页代码。
112.步骤s802,基于代码标签项将样本网站的代码分类。
113.本实施例中代码标签项为:title,body,head,icon。
114.步骤s803,基于预设初步提取数量和各代码标签项的第一权重,确定各代码标签
项所包含的目标特征的预设初步提取数量。
115.本实施例中预设初步提取数量是目标特征的提取数量的两倍。技术人员确定目标特征的提取数量为8条,由此确定预设初步提取数量为16条。各代码标签项的第一权重为:title标签项权重为31.25%;body标签项权重为31.25%;head标签项权重为18.75%;icon标签项权重为18.75%;
116.从而确定各代码标签项所包含的目标特征的预设初步提取数量:title标签项提取5条;body标签项提取5条;head标签项提取3条;icon标签项提取3条,总计16条。
117.步骤s804,基于预设规则和各代码标签项所包含的目标特征的预设初步提取数量,对样本网站包含的不同代码标签项所对应的代码进行目标特征提取。
118.步骤s805,为目标特征添加对应的样本网站类型标签。
119.步骤s806,基于目标特征的提取数量和各代码标签项的第二权重,确定各代码标签项所包含的目标特征的提取数量。
120.本实施例中,各代码标签项的第二权重为:title标签项权重为37.5%;body标签项权重为37.5%;head标签项权重为12.5%;icon标签项权重为12.5%。
121.从而确定各代码标签项所包含的目标特征的提取数量:title标签项提取3条;body标签项提取3条;head标签项提取1条;icon标签项提取1条,总计8条。
122.步骤s807,将目标特征、参考特征、各代码标签项所包含的目标特征的提取数量输入筛选模型,以输出筛选后的目标特征;其中,筛选模型计算目标特征和参考特征的相似度并进行相似度排序,根据各代码标签项所包含的目标特征的提取数量筛选出各代码标签项所包含的相似度排序靠前的目标特征。
123.本实施例中筛选后的目标特征为:title标签项3条;body标签项3条;head标签项1条;icon标签项1条,总计8条。
124.步骤s808,对筛选后的目标特征进行测试,获得满足设定精度的目标特征。
125.在预设测试次数内,使用筛选后的目标特征对至少两个测试网站进行匹配,获取测试结果;确定测试结果的准确度是否满足设定精度,若是,则筛选后的目标特征为满足设定精度的目标特征。
126.本实施例中预设测试次数为20次,设定精度为95%,预设精度差阈值10%。
127.达到预设测试次数后,筛选后的目标特征对测试网站的测试结果的准确度仍没有达到设定精度,则判断测试结果的准确度和设定精度的差值是否大于预设精度差阈值。如是,则抛弃该目标特征。如否,则将上述匹配结果和相关技术参数反馈到技术人员,确定是否接受该目标特征。
128.步骤s809,基于满足设定精度的目标特征以及参考特征对待识别网站进行匹配,确定待识别网站的类型。
129.基于待识别网站的代码,判断满足设定精度的目标特征以及参考特征中是否存在与待识别网站的代码匹配的特征,若是,则基于满足设定精度的目标特征对应的网站类型标签确定待识别网站的类型。
130.步骤s810,基于满足设定精度的目标特征与待识别网站的匹配结果,确定匹配结果的准确度是否满足设定精度,若否,则针对满足设定精度的目标特征发出警告,并作为一次异常事件进行次数累加;当满足设定精度的目标特征的异常事件次数累加值大于等于3
次时,确认满足设定精度的目标特征异常,删除满足设定精度的目标特征。
131.需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
132.在本实施例中还提供了一种网站识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
133.图9是本实施例的网站识别装置的结构框图,如图9所示,该网站识别装置90包括:提取模块92、筛选模块94、识别模块96;其中:
134.提取模块92,用于对样本网站按照预设规则进行目标特征提取,为目标特征添加对应的样本网站类型标签;
135.筛选模块94,用于将目标特征与参考特征进行匹配,并基于目标特征的提取数量,得到筛选后的目标特征;
136.识别模块96,用于基于筛选后的目标特征以及参考特征对待识别网站进行匹配,确定待识别网站的类型。
137.在一实施例中,提取模块92用于基于至少两个代码标签项将样本网站的代码分类;基于预设初步提取数量和各代码标签项的第一权重,确定各代码标签项所包含的目标特征的预设初步提取数量;基于预设规则和各代码标签项所包含的目标特征的预设初步提取数量,对样本网站包含的不同代码标签项所对应的代码进行目标特征提取;为目标特征添加对应的网站类型标签。
138.在一实施例中,筛选模块94用于基于目标特征的提取数量和各代码标签项的第二权重,确定各代码标签项所包含的目标特征的提取数量;将目标特征、参考特征、各代码标签项所包含的目标特征的提取数量输入筛选模型,以输出筛选后的目标特征;其中,筛选模型计算目标特征和参考特征的相似度并进行相似度排序,根据各代码标签项所包含的目标特征的提取数量筛选出各代码标签项所包含的相似度排序靠前的目标特征。
139.在一实施例中,识别模块96用于基于待识别网站的代码,判断筛选后的目标特征以及参考特征中是否存在与待识别网站的代码匹配的特征,若是,则基于目标特征对应的网站类型标签确定待识别网站的类型。
140.在一实施例中,筛选模块94用于对筛选后的目标特征进行测试,获得满足设定精度的目标特征;识别模块96用于基于满足设定精度的目标特征以及参考特征对待识别网站进行匹配,确定待识别网站的类型。
141.在一实施例中,筛选模块94用于在预设测试次数内,使用筛选后的目标特征对至少两个测试网站进行匹配,获取测试结果;确定测试结果的准确度是否满足设定精度,若是,则筛选后的目标特征为满足设定精度的目标特征。
142.在一实施例中,还包括:
143.异常特征判断模块,用于基于满足设定精度的目标特征与待识别网站的匹配结果,确定匹配结果的准确度是否满足设定精度,若否,则针对满足设定精度的目标特征发出警告,并作为一次异常事件进行次数累加;当满足设定精度的目标特征的异常事件次数累
加值大于等于预设异常次数时,确认满足设定精度的目标特征异常,删除满足设定精度的目标特征。
144.在本实施例中,通过提取模块对样本网站按照预设规则进行目标特征提取,为目标特征添加对应的样本网站类型标签;通过筛选模块将目标特征与参考特征进行匹配,并基于目标特征的提取数量,得到筛选后的目标特征;通过识别模块基于筛选后的目标特征以及参考特征对待识别网站进行匹配,确定待识别网站的类型。本装置能够根据预设规则进行样本网站的目标特征提取,并使用目标特征确定待识别网站的类型,提取目标特征的效率高,更新及时,人力成本低。
145.需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
146.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储动作检测数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一项网站识别方法实施例中的步骤。
147.本领域技术人员可以理解,图10中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
148.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述任一项网站识别方法实施例中的步骤。
149.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一项网站识别方法实施例中的步骤。
150.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
151.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
152.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并
不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。