网页所属行业分类方法及装置与流程

文档序号:21409170发布日期:2020-07-07 14:44阅读:323来源:国知局
网页所属行业分类方法及装置与流程

本发明涉及计算机技术领域,具体涉及一种网页所属行业分类方法及装置。



背景技术:

随着互联网行业的飞速发展,各种网页能够为用户提供的信息越来越多。然而由于网页越来越多,用户越来越难以从繁多的网页中定位出自己所需的网页。为此需要对各种网页进行分类,以便于用户快速定位自己所需的网页。

现有技术中,在对网页进行分类时,一般依据网页的html(hypertextmarkuplanguage,超文本标记语言)标签,确定网页所属的分类。虽然html标签代表了网页的性质,但是由于html标签受人为因素影响较大,因此使得依据html标签得到的分类结果的准确性较低。

为解决依据html标签分类不准确的问题,目前很多网页分类方法采用了比较流行的人工智能建模方法,然而这种人工智能建模方法,不但需要大量的人工标注数据,而且由于人工智能算法本身的复杂性,在模型训练和预测阶段对服务器的性能要求均较高,因此成本高昂,且整个过程实施部署繁琐,效率低下。



技术实现要素:

针对上述存在的问题,本发明实施例提出一种网页所属行业分类方法及装置。

具体地,本发明实施例提供了以下技术方案:

第一方面,本发明实施例提供了一种网页所属行业分类方法,包括:

获取待分类网页的网页特征信息,所述网页特征信息包括用于体现所述网页所属行业的至少一个维度下的特征关键词;

将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果;其中,所述各行业各个维度下的预设关键词集合中对应存储有相应行业对应维度下的特征关键词;

根据所述各行业在对应维度下的匹配结果,确定所述待分类网页与各行业的匹配度;

根据所述待分类网页与各行业的匹配度,确定所述待分类网页的行业分类结果。

进一步地,所述待分类网页的网页特征信息包括待分类网页的网页地址,和/或,网页标题,和/或,网页内容;以及,

所述将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果,包括:

将所述网页地址与各行业的第一关键词集合进行匹配,获取所述网页地址与所述各行业的第一匹配结果;其中,各行业的第一关键词集合中对应存储有相应行业的网页地址关键词;和/或,

将所述网页标题与各行业的第二关键词集合进行匹配,获取所述网页标题与所述各行业的第二匹配结果;其中,各行业的第二关键词集合中对应存储有相应行业的网页标题关键词;和/或,

将所述网页内容与各行业的第三关键词集合进行匹配,获取所述网页内容与所述各行业的第三匹配结果;其中,各行业的第三关键词集合中对应存储有相应行业的网页内容关键词。

进一步地,所述根据所述各行业在对应维度下的匹配结果,确定所述待分类网页与各行业的匹配度,包括:

根据所述网页地址与所述各行业的第一匹配结果,和/或,所述网页标题与所述各行业的第二匹配结果,和/或,所述网页内容与所述各行业的第三匹配结果,确定所述待分类网页与各行业的匹配度。

进一步地,将所述网页地址与各行业的第一关键词集合进行匹配,获取所述网页地址与所述各行业的第一匹配结果,具体包括:

将所述网页地址与各行业的第一关键词集合进行匹配,根据所述网页地址与各行业的第一关键词集合进行匹配后得到的关键词的个数以及第一权重,按照第一关系模型获取所述网页地址与所述各行业的第一匹配结果;

其中,所述第一权重为表征匹配得到的网页地址关键词重要性的权重;所述第一关系模型为e1=c1*q1;其中,e1表示所述网页地址与所述各行业的第一匹配结果,c1表示所述网页地址与各行业的第一关键词集合进行匹配后得到的关键词的个数,q1表示第一权重。

进一步地,将所述网页标题与各行业的第二关键词集合进行匹配,获取所述网页标题与所述各行业的第二匹配结果,具体包括:

将所述网页标题与各行业的第二关键词集合进行匹配,根据所述网页标题与各行业的第二关键词集合进行匹配后得到的关键词的个数以及第二权重,按照第二关系模型获取所述网页标题与所述各行业的第二匹配结果;

其中,所述第二权重为表征匹配得到的网页标题关键词重要性的权重;所述第二关系模型为e2=c2*l1*(q2-k1*(l1/b1))*(1/c01);其中,e2表示所述网页标题与所述各行业的第二匹配结果,c2表示所述网页标题与各行业的第二关键词集合进行匹配后得到的关键词的个数,l1表示所述网页标题的长度,q2表示第二权重,k1表示基于网页标题长度的预设权重比例调整系数,b1表示网页标题长度归一化系数,c01表示各行业的第二关键词集合中的关键词的总数。

进一步地,将所述网页内容与各行业的第三关键词集合进行匹配,获取所述网页内容与所述各行业的第三匹配结果,具体包括:

将所述网页内容与各行业的第三关键词集合进行匹配,根据所述网页内容与各行业的第三关键词集合进行匹配后得到的关键词的个数以及第三权重,按照第三关系模型获取所述网页内容与所述各行业的第三匹配结果;

其中,所述第三权重为表征匹配得到的网页内容关键词重要性的权重;所述第三关系模型为e3=c3*l2*(q3-k2*(l2/b2))*(1/c02);其中,e3表示所述网页内容与所述各行业的第三匹配结果,c3表示所述网页内容与各行业的第三关键词集合进行匹配后得到的关键词的个数,l2表示所述网页内容的长度,q3表示第三权重,k2表示基于网页内容长度的预设权重比例调整系数,b2表示网页内容长度归一化系数,c02表示各行业的第三关键词集合中的关键词的总数。

进一步地,根据所述网页地址与所述各行业的第一匹配结果,和/或,所述网页标题与所述各行业的第二匹配结果,和/或,所述网页内容与所述各行业的第三匹配结果,确定所述待分类网页与各行业的匹配度,具体包括:

将所述网页地址与所述各行业的第一匹配结果,和/或,所述网页标题与所述各行业的第二匹配结果,和/或,所述网页内容与所述各行业的第三匹配结果,按照各行业分别进行累加求和,得到所述待分类网页与各行业的匹配度。

进一步地,根据所述待分类网页与各行业的匹配度,确定所述待分类网页的行业分类结果,具体包括:

根据所述待分类网页与各行业的匹配度,获取所述待分类网页与各行业的匹配度的总和;

根据所述总和确定匹配度的平均值,并将所述平均值的两倍作为筛选阈值;

根据所述待分类网页与各行业的匹配度,将匹配度大于所述筛选阈值的行业作为所述待分类网页的行业分类结果;

其中,当匹配度大于所述筛选阈值的行业存在两种或两种以上时,将所述两种或两种以上的行业按照匹配度的大小从大到小顺序排列,若每两个相邻的行业之间的匹配度差值均小于或等于所述筛选阈值,则将所有匹配度大于所述筛选阈值的行业均作为所述待分类网页的行业分类结果;若出现两个相邻的行业之间的匹配度差值大于所述筛选阈值,则将两个相邻的行业中匹配度较小的行业去除,并将剩余的匹配度大于所述筛选阈值的行业作为所述待分类网页的行业分类结果。

第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的网页所属行业分类方法。

第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的网页所属行业分类方法。

第五方面,本发明实施例还提供了一种计算机程序产品,其上存储有可执行指令,该指令被处理器执行时使处理器实现如第一方面所述的网页所属行业分类方法的步骤。

由上述技术方案可知,本发明实施例提供的网页所属行业分类方法及装置,将待分类网页在各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取待分类网页在各个维度下的网页特征信息与各行业在对应维度下的匹配结果,然后根据所述各行业在对应维度下的匹配结果,确定待分类网页与各行业的匹配度,进而根据待分类网页与各行业的匹配度,确定所述待分类网页的行业分类结果,由此可见,本发明实施例无需采用人工智能复杂算法,因而无需进行数据标注、模型训练和预测等复杂的处理过程。相比较的,本发明实施例提供了一种简单高效、便于实施的低成本网页分类方法,对服务器性能要求较低,在较大程度上节省了资源和成本。此外,本发明实施例从各个维度下的网页特征出发,将待分类网页在各个维度下的网页特征分别与各行业对应维度下的预设关键词集合进行匹配,并根据各个维度下的匹配结果最终确定待分类网页与各行业的匹配结果,从而可以有效提高网页分类的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。

图1是本发明一实施例提供的网页所属行业分类方法的流程图;

图2是本发明一实施例提供的网页所属行业分类方法的实现原理示意图;

图3是本发明一实施例提供的网页所属行业分类方法的实例示意图;

图4是本发明一实施例提供的网页所属行业分类装置的结构示意图;

图5是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

图1示出了本发明一实施例提供的网页所属行业分类方法的流程图,如图1所示,本发明实施例提供的网页所属行业分类方法,具体包括如下内容:

步骤101:获取待分类网页的网页特征信息,所述网页特征信息包括用于体现所述网页所属行业的至少一个维度下的特征关键词。

在本步骤中,待分类网页的网页特征信息可以为网页地址维度下的特征关键词,也可以为网页标题维度下的特征关键词,也可以为网页内容维度下的特征关键词,还可以为其他维度下的特征关键词,例如,还可以为网页段首维度下的特征关键词。

步骤102:将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果;其中,所述各行业各个维度下的预设关键词集合中对应存储有相应行业对应维度下的特征关键词。

在本步骤中,假设各个维度下的网页特征信息包括网页地址、网页标题和网页内容,则将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果,可以包括:将网页地址与各行业的第一关键词集合进行匹配,获取所述网页地址与所述各行业的第一匹配结果;将所述网页标题与各行业的第二关键词集合进行匹配,获取所述网页标题与所述各行业的第二匹配结果;将所述网页内容与各行业的第三关键词集合进行匹配,获取所述网页内容与所述各行业的第三匹配结果。其中,各行业的第一关键词集合中对应存储有相应行业的网页地址关键词;各行业的第二关键词集合中对应存储有相应行业的网页标题关键词;各行业的第三关键词集合中对应存储有相应行业的网页内容关键词。

步骤103:根据所述各行业在对应维度下的匹配结果,确定所述待分类网页与各行业的匹配度。

在本步骤中,综合考虑待分类网页在各个维度下的网页特征信息与各行业在对应维度下的匹配结果,确定所述待分类网页与各行业的匹配度,从而可以充分反映待分类网页属于各行业的可能性。

步骤104:根据所述待分类网页与各行业的匹配度,确定所述待分类网页的行业分类结果。

在本步骤中,可以将所述待分类网页与各行业的匹配度按照从高到低的方式进行排序,然后确定匹配度位于前几位的行业为所述待分类网页的分类结果。此外,还可以预先设定一个筛选阈值,将匹配度大于所述筛选阈值的行业确定为所述待分类网页的分类结果。

举例来说,假设待分类网页与六个预设行业的匹配度为:{1.9}、{0.9}、{0}、{0}、{0}、{0},则可以选择top2的证券行业和基金行业作为待分类网页的行业分类结果。此外,还可以计算出一个筛选阈值,筛选阈值的计算方式可以为六个匹配度的平均值的两倍,然后将大于筛选阈值(0.93)的行业(证券行业)作为待分类网页的行业分类结果。

由上述技术方案可知,本发明实施例提供的网页所属行业分类方法,将待分类网页在各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取待分类网页在各个维度下的网页特征信息与各行业在对应维度下的匹配结果,然后根据所述各行业在对应维度下的匹配结果,确定待分类网页与各行业的匹配度,进而根据待分类网页与各行业的匹配度,确定所述待分类网页的行业分类结果,由此可见,本发明实施例无需采用人工智能复杂算法,因而无需进行数据标注、模型训练和预测等复杂的处理过程。相比较的,本发明实施例提供了一种简单高效、便于实施的低成本网页分类方法,对服务器性能要求较低,在较大程度上节省了资源和成本。此外,本发明实施例从各个维度下的网页特征出发,将待分类网页在各个维度下的网页特征分别与各行业对应维度下的预设关键词集合进行匹配,并根据各个维度下的匹配结果最终确定待分类网页与各行业的匹配结果,从而可以有效提高网页分类的准确性。

基于上述实施例的内容,在本实施例中,所述待分类网页的网页特征信息包括待分类网页的网页地址,和/或,网页标题,和/或,网页内容;以及,

所述将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果,包括:

将所述网页地址与各行业的第一关键词集合进行匹配,获取所述网页地址与所述各行业的第一匹配结果;其中,各行业的第一关键词集合中对应存储有相应行业的网页地址关键词;和/或,

将所述网页标题与各行业的第二关键词集合进行匹配,获取所述网页标题与所述各行业的第二匹配结果;其中,各行业的第二关键词集合中对应存储有相应行业的网页标题关键词;和/或,

将所述网页内容与各行业的第三关键词集合进行匹配,获取所述网页内容与所述各行业的第三匹配结果;其中,各行业的第三关键词集合中对应存储有相应行业的网页内容关键词。

在本实施例中,从网页地址、网页标题和网页内容这几个维度中的一个或多个出发,将网页地址,和/或,网页标题,和/或,网页内容与各行业对应维度下的关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果,进而根据这些匹配结果确定待分类网页与各行业的匹配度,并根据待分类网页与各行业的匹配度,确定待分类网页的行业分类结果。

例如,在本实施例中,有如下多种实现方式:

①待分类网页的网页特征信息包括待分类网页的网页地址;

相应地,将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果,包括:

将所述网页地址与各行业的第一关键词集合进行匹配,获取所述网页地址与所述各行业的第一匹配结果,并将第一匹配结果作为所述网页特征信息与所述各行业在对应维度下的匹配结果;

②待分类网页的网页特征信息包括待分类网页的网页标题;

相应地,将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果,包括:

将所述网页标题与各行业的第二关键词集合进行匹配,获取所述网页标题与所述各行业的第二匹配结果,并将第二匹配结果作为所述网页特征信息与所述各行业在对应维度下的匹配结果;

③待分类网页的网页特征信息包括待分类网页的网页内容;

相应地,将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果,包括:

将所述网页内容与各行业的第三关键词集合进行匹配,获取所述网页内容与所述各行业的第三匹配结果,并将第三匹配结果作为所述网页特征信息与所述各行业在对应维度下的匹配结果。

④待分类网页的网页特征信息包括待分类网页的网页地址和网页标题;

相应地,将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果,包括:

将所述网页地址与各行业的第一关键词集合进行匹配,获取所述网页地址与所述各行业的第一匹配结果;

将所述网页标题与各行业的第二关键词集合进行匹配,获取所述网页标题与所述各行业的第二匹配结果;

将第一匹配结果和第二匹配结果作为所述网页特征信息与所述各行业在对应维度下的匹配结果。

⑤待分类网页的网页特征信息包括待分类网页的网页地址和网页内容;相应地,将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果,包括:

将所述网页地址与各行业的第一关键词集合进行匹配,获取所述网页地址与所述各行业的第一匹配结果;

将所述网页内容与各行业的第三关键词集合进行匹配,获取所述网页内容与所述各行业的第三匹配结果;

将第一匹配结果和第三匹配结果作为所述网页特征信息与所述各行业在对应维度下的匹配结果。

⑥待分类网页的网页特征信息包括待分类网页的网页标题和网页内容;

相应地,将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果,包括:

将所述网页标题与各行业的第二关键词集合进行匹配,获取所述网页标题与所述各行业的第二匹配结果;

将所述网页内容与各行业的第三关键词集合进行匹配,获取所述网页内容与所述各行业的第三匹配结果;

将第二匹配结果和第三匹配结果作为所述网页特征信息与所述各行业在对应维度下的匹配结果。

⑦待分类网页的网页特征信息包括待分类网页的网页地址、网页标题和网页内容;

相应地,将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果,包括:

将所述网页地址与各行业的第一关键词集合进行匹配,获取所述网页地址与所述各行业的第一匹配结果;

将所述网页标题与各行业的第二关键词集合进行匹配,获取所述网页标题与所述各行业的第二匹配结果;

将所述网页内容与各行业的第三关键词集合进行匹配,获取所述网页内容与所述各行业的第三匹配结果;

将第一匹配结果、第二匹配结果和第三匹配结果作为所述网页特征信息与所述各行业在对应维度下的匹配结果。

在本实施例中,可以根据需要灵活选择不同维度或不同维度组合下的网页特征信息,进而将相应维度或相应维度组合下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果。例如,可以根据需要选择合适维度下网页特征与各行业的匹配结果来确定待分类网页的行业分类结果,进而提高网页分类时的灵活性。举例来说,可以根据对网页分类的速度要求,选择网页地址或网页标题中一个或两个维度的特征进行匹配,由于网页地址和网页标题内容较少,特征关键词较少,因此,选择网页地址或网页标题中一个或两个维度的特征进行匹配,可以有效提高匹配速度,此外,由于网页地址和网页标题也能够较为有针对性地匹配到对应行业,因此,选择网页地址或网页标题中一个或两个维度的特征进行匹配,也可以基本保证最后得到的行业分类结果的准确性。此外,若较为追求准确度,则可以同时选择网页地址、网页标题和网页内容中这三个维度的特征进行匹配,进而提高最后得到的行业分类结果的准确性。

在本实施例中,网页地址一般指网页的url或域名,网页标题一般指网页title,网页内容一般指网页body。

在本实施例中,在获取所述网页地址与所述各行业的第一匹配结果时,可以有多种实现方式。例如,第①种:将所述网页地址与各行业的第一关键词集合进行匹配,根据所述网页地址与各行业的第一关键词集合进行匹配后得到的关键词的个数以及第一权重,获取所述网页地址与所述各行业的第一匹配结果。其中,所述第一权重为表征匹配得到的网页地址关键词重要性的预设权重。需要说明的是,当待分类网页的网页地址能够匹配上相应行业的网页地址关键词时,说明待分类网页属于相应行业网页的可能性比较大,因此,用于表征匹配得到的网页地址关键词重要性的第一权重的取值可以相对高一点,例如可以取值0.5或0.6。

举例来说,假设待分类网页的网页地址为www.aaa.zhenguqan.bbb.csrc.com。此外,假设目前共收集到六个行业的第一关键词集合(也即网页地址关键词集合),这六个行业分别为证券、基金、股票、农业、健康、科技。每个行业分别对应一个第一关键词集合,每个第一关键词集合中的关键词是预先收集得到的。例如,证券行业对应的第一关键词集合中的关键词包括‘zq’,‘zhenguqan’,‘csrc’等一些比较能描述证券类网页url中容易出现的字符。

在本实施例中,假设待分类网页的网页地址与证券、基金、股票、农业、健康、科技六个行业的第一关键词集合分别进行匹配后,得到的与六个行业的第一关键词集合中的关键词的匹配个数分别为{2}、{1}、{0}、{0}、{0}、{0},假设第一权重为0.5,则确定所述网页地址与六个行业的第一匹配结果为{2*0.5=1}、{1*0.5=0.5}、{0}、{0}、{0}、{0}。

此外,在本实施例中,获取第一匹配结果的过程还可以采用其他实现方式,例如第②种:将所述网页地址与各行业的第一关键词集合进行匹配,根据所述网页地址与各行业的第一关键词集合进行匹配后得到的关键词的个数、第一权重,网页地址的长度,以及,各行业的第一关键词集合中的关键词的总数,获取所述网页地址与所述各行业的第一匹配结果。

在本实施例中,在获取所述网页标题与所述各行业的第二匹配结果时,可以有多种实现方式。例如,第①种:将所述网页标题与各行业的第二关键词集合进行匹配,根据所述网页标题与各行业的第二关键词集合进行匹配后得到的关键词的个数以及第二权重,获取所述网页标题与所述各行业的第二匹配结果。其中,所述第二权重为表征匹配得到的网页标题关键词重要性的预设权重。需要说明的是,当待分类网页的网页标题能够匹配上相应行业的网页标题关键词时,说明待分类网页属于相应行业网页的可能性比较大,因此,用于表征匹配得到的网页标题关键词重要性的第二权重的取值也可以设置的偏高一点,但是一般要小于第一权重的取值,这是因为毕竟网页标题没有网页地址那样具备少数针对性。因此,为了保证最后根据第一匹配结果至第三匹配结果确定分类结果时的准确度,第二权重的取值要小于第一权重的取值,例如第二权重可以取值0.3或0.4。

举例来说,假设待分类网页的网页标题为如何躲避投资证券的陷阱。此外,假设目前共收集到六个行业的第二关键词集合(也即网页标题关键词集合),这六个行业分别为证券、基金、股票、农业、健康、科技。每个行业分别对应一个第二关键词集合,第二关键词集合中的关键词是预先收集得到的。例如,证券行业对应的第二关键词集合中的关键词包括‘证券’,‘证监’,‘挂牌’,‘监证会’等。

在本实施例中,假设待分类网页的网页标题与证券、基金、股票、农业、健康、科技六个行业的第二关键词集合分别进行匹配后,得到的与六个行业的第二关键词集合中的关键词的匹配个数分别为{1}、{0}、{0}、{0}、{0}、{0},假设第二权重为0.3,则确定所述网页标题与六个行业的第二匹配结果为{1*0.3=0.3}、{0}、{0}、{0}、{0}、{0}。

此外,本实施例获取第二匹配结果的过程还可以采用其他实现方式,例如第②种:将所述网页标题与各行业的第二关键词集合进行匹配,根据所述网页标题与各行业的第二关键词集合进行匹配后得到的关键词的个数、第二权重,网页标题的长度,以及,各行业的第二关键词集合中的关键词的总数,获取所述网页标题与所述各行业的第二匹配结果。

在本实施例中,在获取所述网页内容与所述各行业的第三匹配结果时,可以有多种实现方式。例如,第①种:将所述网页内容与各行业的第三关键词集合进行匹配,根据所述网页内容与各行业的第三关键词集合进行匹配后得到的关键词的个数以及第三权重,获取所述网页内容与所述各行业的第三匹配结果。其中,所述第三权重为表征匹配得到的网页内容关键词重要性的预设权重。需要说明的是,由于网页内容涵盖的范围较为宽泛,不如网页地址和网页标题有针对性,因此,当待分类网页的网页内容能够匹配上相应行业的网页内容关键词时,这时候待分类网页属于相应行业网页的可能性,与待分类网页的网页地址或网页标题能够匹配上相应行业的网页地址关键词或网页标题关键词进而推断待分类网页属于相应行业网页的可能性相比较来说,还是相对低一些,因此,用于表征匹配得到的网页内容关键词重要性的第三权重可以设置的比第一权重和第二权重低一些,例如可以取值0.1或0.05。

举例来说,假设待分类网页的网页内容为一个500字的小文章,里面包括了一些关于基金和证券信息类的事件描述。假设目前共收集到六个行业的第三关键词集合(也即网页内容关键词集合),这六个行业分别为证券、基金、股票、农业、健康、科技。每个行业分别对应一个第三关键词集合,第三关键词集合中的关键词是预先收集得到的。例如,证券行业对应的第三关键词集合中的关键词包括‘证券’,‘证监’,‘挂牌’,‘监证会’等。

在本实施例中,假设待分类网页的网页内容与证券、基金、股票、农业、健康、科技六个行业的第三关键词集合分别进行匹配后,得到的与六个行业的第三关键词集合中的关键词的匹配个数分别为{6}、{4}、{0}、{0}、{0}、{0},假设第三权重为0.1,则确定所述网页内容与六个行业的第三匹配结果为{6*0.1=0.6}、{4*0.1=0.4}、{0}、{0}、{0}、{0}。

此外,在本实施例中,获取第三匹配结果的过程还可以采用其他实现方式,例如第②种:将所述网页内容与各行业的第三关键词集合进行匹配,根据所述网页内容与各行业的第三关键词集合进行匹配后得到的关键词的个数、第三权重,网页内容的长度,以及,各行业的第三关键词集合中的关键词的总数,获取所述网页内容与所述各行业的第三匹配结果。

在本实施例中,需要说明的是,第二关键词集合(也即网页标题关键词集合)和第三关键词集合(也即网页内容关键词集合)可以共用一个集合。

在本实施例中,从网页地址、网页标题和网页内容中的一个或多个维度出发,将待分类网页的网页地址、网页标题和网页内容分别与各行业对应的网页地址关键词集合、网页标题关键词集合和网页内容关键词集合进行匹配,最后综合这三个维度的匹配结果中的一个或多个最终确定待分类网页与各行业的匹配结果,从而可以有效提高网页分类的灵活性和准确性。

基于上述实施例的内容,在本实施例中,所述根据所述各行业在对应维度下的匹配结果,确定所述待分类网页与各行业的匹配度,包括:

根据所述网页地址与所述各行业的第一匹配结果,和/或,所述网页标题与所述各行业的第二匹配结果,和/或,所述网页内容与所述各行业的第三匹配结果,确定所述待分类网页与各行业的匹配度。

例如,在本实施例中,有如下多种实现方式:

①根据所述网页地址与所述各行业的第一匹配结果,确定所述待分类网页与各行业的匹配度;

②根据所述网页标题与所述各行业的第二匹配结果,确定所述待分类网页与各行业的匹配度;

③根据所述网页内容与所述各行业的第三匹配结果,确定所述待分类网页与各行业的匹配度;

④根据所述网页地址与所述各行业的第一匹配结果,以及,所述网页标题与所述各行业的第二匹配结果,确定所述待分类网页与各行业的匹配度;

⑤根据所述网页地址与所述各行业的第一匹配结果,以及,所述网页内容与所述各行业的第三匹配结果,确定所述待分类网页与各行业的匹配度;

⑥根据所述网页标题与所述各行业的第二匹配结果,以及,所述网页内容与所述各行业的第三匹配结果,确定所述待分类网页与各行业的匹配度;

⑦根据所述网页地址与所述各行业的第一匹配结果,所述网页标题与所述各行业的第二匹配结果,以及,所述网页内容与所述各行业的第三匹配结果,确定所述待分类网页与各行业的匹配度。

在本实施例中,可以根据需要灵活选择不同维度或不同维度组合下的网页特征信息,进而将相应维度或相应维度组合下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果,进而根据所述网页特征信息与所述各行业在对应维度下的匹配结果确定所述待分类网页与各行业的匹配度。

在本实施例中,考虑了网页地址、网页标题和网页内容中一个或多个维度下网页特征与各行业的匹配结果,因此,可以根据需要选择合适维度下网页特征与各行业的匹配结果来确定待分类网页的行业分类结果,进而提高网页分类时的灵活性。例如,可以根据对网页分类的速度要求,选择网页地址或网页标题中一个或两个维度的特征进行匹配,由于网页地址和网页标题内容较少,特征关键词较少,因此,选择网页地址或网页标题中一个或两个维度的特征进行匹配,可以有效提高匹配速度,此外,由于网页地址和网页标题也能够较为有针对性地匹配到对应行业,因此,选择网页地址或网页标题中一个或两个维度的特征进行匹配,也可以基本保证最后得到的行业分类结果的准确性。

此外,如果更在意最后得到的行业分类结果的准确性,那么可以综合考虑三个维度下网页特征与各行业的匹配结果,这样由于综合考虑了网页地址、网页标题和网页内容这三个维度下的网页特征与各行业的匹配结果,因此最终确定的待分类网页的行业分类结果准确度较高。

举例来说,假设所述网页地址与六个行业的第一匹配结果为{1}、{0.5}、{0}、{0}、{0}、{0},所述网页标题与六个行业的第二匹配结果为{0.3}、{0}、{0}、{0}、{0}、{0},所述网页内容与六个行业的第三匹配结果为{0.6}、{0.4}、{0}、{0}、{0}、{0},则根据所述网页地址与所述各行业的第一匹配结果,所述网页标题与所述各行业的第二匹配结果,以及,所述网页内容与所述各行业的第三匹配结果,确定所述待分类网页与六个行业的匹配度为:{1+0.3+0.6=1.9}、{0.5+0+0.4=0.9}、{0}、{0}、{0}、{0}。

图2示意出了本实施例提供的网页所属行业分类方法的实现原理图。如图2所示,整个算法的流程是分别用不同行业的关键词集合去匹配待分类网页中的url,body,title,然后根据匹配到的关键词的个数及其所在位置(位于url或body或title)计算属于相应行业的匹配结果,最后根据属于各行业的匹配结果和预设阈值获取top-n个行业作为待分类网页的行业分类结果。由此可知,本实施例提供了一种简单高效的网页分类方法,大大简化了网页分类的流程,相比于传统的机器学习或者深度学习分类模型,省去了很多标注数据和训练模型的人力成本以及时间成本,并且运行高效部署方便。

基于上述实施例的内容,在本实施例中,将所述网页地址与各行业的第一关键词集合进行匹配,获取所述网页地址与所述各行业的第一匹配结果,具体包括:

将所述网页地址与各行业的第一关键词集合进行匹配,根据所述网页地址与各行业的第一关键词集合进行匹配后得到的关键词的个数以及第一权重,按照第一关系模型获取所述网页地址与所述各行业的第一匹配结果;

其中,所述第一权重为表征匹配得到的网页地址关键词重要性的权重;所述第一关系模型为e1=c1*q1;其中,e1表示所述网页地址与所述各行业的第一匹配结果,c1表示所述网页地址与各行业的第一关键词集合进行匹配后得到的关键词的个数,q1表示第一权重。

在本实施例中,由于结合了匹配得到的网页地址关键词的个数以及网页地址关键词的权重(第一权重),因此,能够得到较为准确的第一匹配结果。假设待分类网页的网页地址与证券、基金、股票、农业、健康、科技六个行业的第一关键词集合分别进行匹配后,得到的与六个行业的第一关键词集合中的关键词的匹配个数分别为{2}、{1}、{0}、{0}、{0}、{0},假设第一权重为0.5,则可以准确确定所述网页地址与六个行业的第一匹配结果为{2*0.5=1}、{1*0.5=0.5}、{0}、{0}、{0}、{0}。

基于上述实施例的内容,在本实施例中,将所述网页标题与各行业的第二关键词集合进行匹配,获取所述网页标题与所述各行业的第二匹配结果,具体包括:

将所述网页标题与各行业的第二关键词集合进行匹配,根据所述网页标题与各行业的第二关键词集合进行匹配后得到的关键词的个数以及第二权重,按照第二关系模型获取所述网页标题与所述各行业的第二匹配结果;

其中,所述第二权重为表征匹配得到的网页标题关键词重要性的权重;所述第二关系模型为e2=c2*l1*(q2-k1*(l1/b1))*(1/c01);其中,e2表示所述网页标题与所述各行业的第二匹配结果,c2表示所述网页标题与各行业的第二关键词集合进行匹配后得到的关键词的个数,l1表示所述网页标题的长度,q2表示第二权重,k1表示基于网页标题长度的预设权重比例调整系数,b1表示网页标题长度归一化系数,c01表示各行业的第二关键词集合中的关键词的总数。

在本实施例中,根据所述网页标题与各行业的第二关键词集合进行匹配后得到的关键词的个数以及第二权重,按照第二关系模型获取所述网页标题与所述各行业的第二匹配结果。举例来说,假设待分类网页的网页标题与证券、基金、股票、农业、健康、科技六个行业的第二关键词集合分别进行匹配后,得到的与六个行业的第二关键词集合中的关键词的匹配个数分别为{1}、{0}、{0}、{0}、{0}、{0},假设第二权重q2为0.3,所述网页标题的长度l1为11,假设基于网页标题长度的预设权重比例调整系数k1为0.03,假设预设网页标题长度归一化系数b1为5,六个行业的第二关键词集合中的关键词的总数分别为{16}、{17}、{18}、{16}、{19}、{15},则按照上述第二关系模型确定所述网页标题与六个行业的第二匹配结果为{0.16}、{0}、{0}、{0}、{0}、{0}。

需要说明的是,在本实施例中,在计算第二匹配结果时,不但考虑了匹配得到的网页标题关键词的个数以及网页标题关键词的权重(第二权重),还进一步考虑了网页标题的长度和各行业的第二关键词集合中的关键词的总数,这样处理的好处是可以得到更能客观准确体现网页标题与各行业匹配情况的第二匹配结果,这是因为在匹配得到的网页标题关键词的个数相同的情况下,若网页标题长度越短,则匹配得到的网页标题关键词的影响程度越大;同理,在匹配得到的网页标题关键词的个数相同的情况下,若网页标题长度越长,则匹配得到的网页标题关键词的影响程度越小。类似地,在匹配得到的网页标题关键词的个数相同的情况下,若相应行业的第二关键词集合中的关键词的总数越小,则匹配得到的网页标题关键词的影响程度越大;同理,在匹配得到的网页标题关键词的个数相同的情况下,若相应行业的第二关键词集合中的关键词的总数越大,则匹配得到的网页标题关键词的影响程度越小。此外,本实施例设置了基于网页标题长度的预设权重比例调整系数,可以用来调整网页标题长度对最终匹配结果的影响程度。此外,本实施例还设置了网页标题长度归一化系数,用于对网页标题长度进行归一化,便于统一衡量不同长度的网页标题对匹配结果的影响情况。

由此可知,本实施例综合考虑了匹配得到的网页标题关键词的个数、网页标题关键词的权重(第二权重)、网页标题的长度、基于网页标题长度的预设权重比例调整系数、网页标题长度归一化系数和各行业的第二关键词集合中的关键词的总数,这样能够得到更能客观准确体现网页标题与各行业匹配情况的第二匹配结果。

基于上述实施例的内容,在本实施例中,将所述网页内容与各行业的第三关键词集合进行匹配,获取所述网页内容与所述各行业的第三匹配结果,具体包括:

将所述网页内容与各行业的第三关键词集合进行匹配,根据所述网页内容与各行业的第三关键词集合进行匹配后得到的关键词的个数以及第三权重,按照第三关系模型获取所述网页内容与所述各行业的第三匹配结果;

其中,所述第三权重为表征匹配得到的网页内容关键词重要性的权重;所述第三关系模型为e3=c3*l2*(q3-k2*(l2/b2))*(1/c02);其中,e3表示所述网页内容与所述各行业的第三匹配结果,c3表示所述网页内容与各行业的第三关键词集合进行匹配后得到的关键词的个数,l2表示所述网页内容的长度,q3表示第三权重,k2表示基于网页内容长度的预设权重比例调整系数,b2表示网页内容长度归一化系数,c02表示各行业的第三关键词集合中的关键词的总数。

在本实施例中,根据所述网页内容与各行业的第三关键词集合进行匹配后得到的关键词的个数以及第三权重,按照第三关系模型获取所述网页内容与所述各行业的第三匹配结果。举例来说,假设待分类网页的网页内容与证券、基金、股票、农业、健康、科技六个行业的第三关键词集合分别进行匹配后,得到的与六个行业的第三关键词集合中的关键词的匹配个数c3分别为{6}、{4}、{0}、{0}、{0}、{0},假设第三权重q3为0.1,假设所述网页内容的长度为100,假设基于网页内容长度的预设权重比例调整系数k2为0.01,假设预设网页内容长度归一化系数b2为20,则按照上述第三关系模型确定所述网页内容与六个行业的第三匹配结果为{1.88}、{1.18}、{0}、{0}、{0}、{0}。

需要说明的是,在本实施例中,在计算第三匹配结果时,不但考虑了匹配得到的网页内容关键词的个数以及网页内容关键词的权重(第三权重),还进一步考虑了网页内容的长度、基于网页内容长度的预设权重比例调整系数、网页内容长度归一化系数和各行业的第三关键词集合中的关键词的总数,这样处理的好处是可以得到更能客观准确体现网页内容与各行业匹配情况的第三匹配结果,这是因为在匹配得到的网页内容关键词的个数相同的情况下,若网页内容长度越短,则匹配得到的网页内容关键词的影响程度越大;同理,在匹配得到的网页内容关键词的个数相同的情况下,若网页内容长度越长,则匹配得到的网页内容关键词的影响程度越小。类似地,在匹配得到的网页内容关键词的个数相同的情况下,若相应行业的第三关键词集合中的关键词的总数越小,则匹配得到的网页内容关键词的影响程度越大;同理,在匹配得到的网页内容关键词的个数相同的情况下,若相应行业的第三关键词集合中的关键词的总数越大,则匹配得到的网页内容关键词的影响程度越小。此外,本实施例设置了基于网页内容长度的预设权重比例调整系数,可以用来调整网页内容长度对最终匹配结果的影响程度。此外,本实施例还设置了网页内容长度归一化系数,用于对网页内容长度进行归一化,便于统一衡量不同长度的网页内容对匹配结果的影响情况。

由此可知,本实施例综合考虑了匹配得到的网页内容关键词的个数、网页内容关键词的权重(第三权重)、网页内容的长度、基于网页内容长度的预设权重比例调整系数、网页内容长度归一化系数和各行业的第三关键词集合中的关键词的总数,这样能够得到更能客观准确体现网页内容与各行业匹配情况的第三匹配结果。

基于上述实施例的内容,在本实施例中,根据所述网页地址与所述各行业的第一匹配结果,和/或,所述网页标题与所述各行业的第二匹配结果,和/或,所述网页内容与所述各行业的第三匹配结果,确定所述待分类网页与各行业的匹配度,具体包括:

将所述网页地址与所述各行业的第一匹配结果,和/或,所述网页标题与所述各行业的第二匹配结果,和/或,所述网页内容与所述各行业的第三匹配结果,按照各行业分别进行累加求和,得到所述待分类网页与各行业的匹配度。

在本实施例中,举例来说,假设所述网页地址与六个行业的第一匹配结果为{1}、{0.5}、{0}、{0}、{0}、{0},所述网页标题与六个行业的第二匹配结果为{0.16}、{0}、{0}、{0}、{0}、{0},所述网页内容与六个行业的第三匹配结果为{1.88}、{1.18}、{0}、{0}、{0}、{0},则根据所述网页地址与所述各行业的第一匹配结果,所述网页标题与所述各行业的第二匹配结果,以及,所述网页内容与所述各行业的第三匹配结果,确定所述待分类网页与六个行业的匹配度为:{1+0.16+1.88=3.04}、{0.5+0+1.18=1.68}、{0}、{0}、{0}、{0}。

本实施例由于综合考虑了所述网页地址与所述各行业的第一匹配结果,所述网页标题与所述各行业的第二匹配结果,以及,所述网页内容与所述各行业的第三匹配结果中的一种或多种确定所述待分类网页与各行业的匹配度,从而可以提高网页分类的灵活性和准确性。

基于上述实施例的内容,在本实施例中,根据所述待分类网页与各行业的匹配度,确定所述待分类网页的行业分类结果,具体包括:

根据所述待分类网页与各行业的匹配度,获取所述待分类网页与各行业的匹配度的总和;

根据所述总和确定匹配度的平均值,并将所述平均值的两倍作为筛选阈值;

根据所述待分类网页与各行业的匹配度,将匹配度大于所述筛选阈值的行业作为所述待分类网页的行业分类结果;

其中,当匹配度大于所述筛选阈值的行业存在两种或两种以上时,将所述两种或两种以上的行业按照匹配度的大小从大到小顺序排列,若每两个相邻的行业之间的匹配度差值均小于或等于所述筛选阈值,则将所有匹配度大于所述筛选阈值的行业均作为所述待分类网页的行业分类结果;若出现两个相邻的行业之间的匹配度差值大于所述筛选阈值,则将两个相邻的行业中匹配度较小的行业去除,并将剩余的匹配度大于所述筛选阈值的行业作为所述待分类网页的行业分类结果。

在本实施例中,在根据所述待分类网页与各行业的匹配度,确定所述待分类网页的行业分类结果时,可以通过设定筛选阈值的方式实现。在确定筛选阈值时,可以根据所述总和确定匹配度的平均值,并将所述平均值的两倍作为筛选阈值。举例来说,假设待分类网页与六个行业的匹配度为:{3.04}、{1.68}、{0}、{0}、{0}、{0},此时计算得到的筛选阈值为1.57,由于匹配度大于所述筛选阈值的行业存在两种(证券行业3.04和基金行业1.68),因此,需要判断这两个行业之间的匹配度差值是否小于或等于所述筛选阈值,由于3.04-1.68=1.36<1.57,因此,将这证券行业和基金行业这两个行业均作为所述待分类网页的行业分类结果。

需要说明的是,当匹配度大于筛选阈值的行业存在a和b两个行业时,判断a和b两个行业之间的匹配度差值,实际上是在判断在当前分类结果下,a和b这两个行业的差距,当两个行业的差距大于筛选阈值时,表示a和b两个行业之间的区分度较大,此时待分类网页只可能属于匹配度较大的a行业。而当两个行业的差距小于或等于筛选阈值时,表示a和b两个行业之间的区分度不大,此时待分类网页既属于a行业又属于b行业,因此此时应该将匹配度大于所述筛选阈值的a行业和b行业均作为待分类网页的行业分类结果。举例来说,假设筛选阈值为0.2,匹配度大于筛选阈值的a和b两个行业的匹配度分别为1.23和0.49,由于1.23-0.49=0.74>0.2,则这个时候该待分类网页只能划分为a行业,只是该待分类网页含有一点b行业的关键词而已。

需要说明的是,上面是以匹配度大于筛选阈值的行业为两个为例进行说明,当匹配度大于筛选阈值的行业为三个或多个时,判断方式类似,就是对每两个相邻的行业进行判断,具体判断过程不再进行举例说明。

下面结合图3所示的处理过程示意图对另一个实例进行解释说明。参见图3,图3示意出另一个实例的网页分类处理过程示意图。图3中的网页源码是由爬虫系统爬取的,带有html标签。首先,对该网页进行预处理操作,比如去除html标签、切词等操作,然后分别用网页的url,title和body去匹配各行业相应关键词集合中的关键词,接着按照本实施例提供的方法进行相应的处理,最后得到超过筛选阈值0.2的行业分类结果为证券,基金和股票,从而实现了待分类网页的行业分类结果。

图4示出了本发明实施例提供的网页所属行业分类装置的结构示意图。如图4所示,本发明实施例提供的网页所属行业分类装置包括:获取模块21、匹配模块22、确定模块23和分类模块24,其中:

获取模块21,用于获取待分类网页的网页特征信息,所述网页特征信息包括用于体现所述网页所属行业的至少一个维度下的特征关键词;

匹配模块22,用于将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果;其中,所述各行业各个维度下的预设关键词集合中对应存储有相应行业对应维度下的特征关键词;

确定模块23,用于根据所述各行业在对应维度下的匹配结果,确定所述待分类网页与各行业的匹配度;

分类模块24,用于根据所述待分类网页与各行业的匹配度,确定所述待分类网页的行业分类结果。

基于上述实施例的内容,在本实施例中,所述待分类网页的网页特征信息包括待分类网页的网页地址,和/或,网页标题,和/或,网页内容;以及,

所述匹配模块22,具体用于:

将所述网页地址与各行业的第一关键词集合进行匹配,获取所述网页地址与所述各行业的第一匹配结果;其中,各行业的第一关键词集合中对应存储有相应行业的网页地址关键词;和/或,

将所述网页标题与各行业的第二关键词集合进行匹配,获取所述网页标题与所述各行业的第二匹配结果;其中,各行业的第二关键词集合中对应存储有相应行业的网页标题关键词;和/或,

将所述网页内容与各行业的第三关键词集合进行匹配,获取所述网页内容与所述各行业的第三匹配结果;其中,各行业的第三关键词集合中对应存储有相应行业的网页内容关键词。

基于上述实施例的内容,在本实施例中,所述确定模块23,具体用于:

根据所述网页地址与所述各行业的第一匹配结果,和/或,所述网页标题与所述各行业的第二匹配结果,和/或,所述网页内容与所述各行业的第三匹配结果,确定所述待分类网页与各行业的匹配度。

基于上述实施例的内容,在本实施例中,所述匹配模块22,具体用于:

将所述网页地址与各行业的第一关键词集合进行匹配,根据所述网页地址与各行业的第一关键词集合进行匹配后得到的关键词的个数以及第一权重,按照第一关系模型获取所述网页地址与所述各行业的第一匹配结果;

其中,所述第一权重为表征匹配得到的网页地址关键词重要性的权重;所述第一关系模型为e1=c1*q1;其中,e1表示所述网页地址与所述各行业的第一匹配结果,c1表示所述网页地址与各行业的第一关键词集合进行匹配后得到的关键词的个数,q1表示第一权重。

基于上述实施例的内容,在本实施例中,所述匹配模块22,具体用于:

将所述网页标题与各行业的第二关键词集合进行匹配,根据所述网页标题与各行业的第二关键词集合进行匹配后得到的关键词的个数以及第二权重,按照第二关系模型获取所述网页标题与所述各行业的第二匹配结果;

其中,所述第二权重为表征匹配得到的网页标题关键词重要性的权重;所述第二关系模型为e2=c2*l1*(q2-k1*(l1/b1))*(1/c01);其中,e2表示所述网页标题与所述各行业的第二匹配结果,c2表示所述网页标题与各行业的第二关键词集合进行匹配后得到的关键词的个数,l1表示所述网页标题的长度,q2表示第二权重,k1表示基于网页标题长度的预设权重比例调整系数,b1表示网页标题长度归一化系数,c01表示各行业的第二关键词集合中的关键词的总数。

基于上述实施例的内容,在本实施例中,所述匹配模块22,具体用于:

将所述网页内容与各行业的第三关键词集合进行匹配,根据所述网页内容与各行业的第三关键词集合进行匹配后得到的关键词的个数以及第三权重,按照第三关系模型获取所述网页内容与所述各行业的第三匹配结果;

其中,所述第三权重为表征匹配得到的网页内容关键词重要性的权重;所述第三关系模型为e3=c3*l2*(q3-k2*(l2/b2))*(1/c02);其中,e3表示所述网页内容与所述各行业的第三匹配结果,c3表示所述网页内容与各行业的第三关键词集合进行匹配后得到的关键词的个数,l2表示所述网页内容的长度,q3表示第三权重,k2表示基于网页内容长度的预设权重比例调整系数,b2表示网页内容长度归一化系数,c02表示各行业的第三关键词集合中的关键词的总数。

基于上述实施例的内容,在本实施例中,所述确定模块23,具体用于:

将所述网页地址与所述各行业的第一匹配结果,和/或,所述网页标题与所述各行业的第二匹配结果,和/或,所述网页内容与所述各行业的第三匹配结果,按照各行业分别进行累加求和,得到所述待分类网页与各行业的匹配度。

基于上述实施例的内容,在本实施例中,所述分类模块24,具体用于:

根据所述待分类网页与各行业的匹配度,获取所述待分类网页与各行业的匹配度的总和;

根据所述总和确定匹配度的平均值,并将所述平均值的两倍作为筛选阈值;

根据所述待分类网页与各行业的匹配度,将匹配度大于所述筛选阈值的行业作为所述待分类网页的行业分类结果;

其中,当匹配度大于所述筛选阈值的行业存在两种或两种以上时,将所述两种或两种以上的行业按照匹配度的大小从大到小顺序排列,若每两个相邻的行业之间的匹配度差值均小于或等于所述筛选阈值,则将所有匹配度大于所述筛选阈值的行业均作为所述待分类网页的行业分类结果;若出现两个相邻的行业之间的匹配度差值大于所述筛选阈值,则将两个相邻的行业中匹配度较小的行业去除,并将剩余的匹配度大于所述筛选阈值的行业作为所述待分类网页的行业分类结果。

由于本实施例提供的网页所属行业分类装置,可以用于执行上述实施例提供的网页所属行业分类方法,其工作原理和有益效果类似,此处不再详述。

基于相同的发明构思,本发明又一实施例提供了一种电子设备,参见图5,所述电子设备具体包括如下内容:处理器301、存储器302、通信接口303和通信总线304;

其中,所述处理器301、存储器302、通信接口303通过所述通信总线304完成相互间的通信;所述通信接口303用于实现各设备之间的信息传输;

所述处理器301用于调用所述存储器302中的计算机程序,所述处理器执行所述计算机程序时实现上述网页所属行业分类方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:获取待分类网页的网页特征信息,所述网页特征信息包括用于体现所述网页所属行业的至少一个维度下的特征关键词;将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果;其中,所述各行业各个维度下的预设关键词集合中对应存储有相应行业对应维度下的特征关键词;根据所述各行业在对应维度下的匹配结果,确定所述待分类网页与各行业的匹配度;根据所述待分类网页与各行业的匹配度,确定所述待分类网页的行业分类结果。

可以理解的是,所述计算机程序可以执行的细化功能和扩展功能可参照上面实施例的描述。

基于相同的发明构思,本发明又一实施例提供了一种非暂态计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述网页所属行业分类方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:获取待分类网页的网页特征信息,所述网页特征信息包括用于体现所述网页所属行业的至少一个维度下的特征关键词;将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果;其中,所述各行业各个维度下的预设关键词集合中对应存储有相应行业对应维度下的特征关键词;根据所述各行业在对应维度下的匹配结果,确定所述待分类网页与各行业的匹配度;根据所述待分类网页与各行业的匹配度,确定所述待分类网页的行业分类结果。

可以理解的是,所述计算机程序可以执行的细化功能和扩展功能可参照上面实施例的描述。

基于相同的发明构思,本发明又一实施例提供了一种计算机程序产品,其上存储有可执行指令,该指令被处理器执行时使处理器实现上述网页所属行业分类方法的全部步骤,例如,该指令被处理器执行时使处理器实现如下内容:获取待分类网页的网页特征信息,所述网页特征信息包括用于体现所述网页所属行业的至少一个维度下的特征关键词;将各个维度下的网页特征信息与各行业对应维度下的预设关键词集合进行匹配,获取所述网页特征信息与所述各行业在对应维度下的匹配结果;其中,所述各行业各个维度下的预设关键词集合中对应存储有相应行业对应维度下的特征关键词;根据所述各行业在对应维度下的匹配结果,确定所述待分类网页与各行业的匹配度;根据所述待分类网页与各行业的匹配度,确定所述待分类网页的行业分类结果。

此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各实施例或者实施例的某些部分所述的网页所属行业分类方法。

此外,在本发明中,诸如“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

此外,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

此外,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1