基于最大间距多任务多示例学习的网页分类方法

文档序号:10687202阅读:236来源:国知局
基于最大间距多任务多示例学习的网页分类方法
【专利摘要】本发明公开了一种基于最大间距多任务多示例学习的网页分类方法。该方法包括:对网页进行多示例化;对若干个网站构建分类器多任务化;为每个类别的网页数据构建一个类包;构建一个类别到多示例包之间的类特定距离公式;为所有多示例学习任务建立一个总的损失函数;总损失函数转换为多任务学习的特定形式;转换多任务损失函数为一个正半定二次优化问题;求解优化问题得到最大间距多任务多示例分类器。本发明涉及了一种不同类别网页距离最大化的多任务多示例网页分类方法,并且把网页转换为合理的多示例表示形式,利用多任务学习方法减低了人工标注的成本,并且利用任务间的相关性提高分类器的性能。
【专利说明】
基于最大间距多任务多示例学习的网页分类方法
技术领域
[0001] 本发明涉及网页分类技术领域,特别是涉及一种基于最大间距多任务多示例学习 的网页分类方法。
【背景技术】
[0002] 随着科技进步以及互联网技术的发展,互联网上的信息越来越丰富,新闻、娱乐和 电商等各类网站都得到了长久的发展,互联网上面的网站每天都会产生大量的网页内容, 为了提升网站用户的体验,很重要的一点就是网页内容的准确分类,一个能够把网页准确 分类的网站,能够让用户逗留时间更长,浏览次数更多。
[0003] 传统的网页分类方法中,先是把整个网页看成一个单独的示例,然后使用一些传 统的单示例分类器来进行网页的分类,但是网页往往是由多段内容组合而成,而在这么多 段内容中,可能有且仅有一段内容是主题相关的,所以进行网页分类的时候,实际上可以利 用的信息是来自于这段主题相关的内容,因此在进行网页分类的时候,可以采用多示例分 类器进行分类。
[0004] 另一方面,为了建立一个高准确度的多示例网页分类器,需要大量已经被分类好 的网页来进行分类器的训练,但是通过人工标记方式来进行分类的网页往往数量很少,如 果用来训练的已分类好的网页数量过少,则训练得出来的网页分类器的精度将会不高。由 于建站的成本越来越低,互联网上面每天都会出现大量相似类型的网站,但是对于这些网 站来说,使用人工标注的形式对大量网页进行分类的成本将会很高,因此,如何为这些网站 建立一个高准确度的多示例网页分类器是一个急需解决的问题。

【发明内容】

[0005] 因为每个网站都或多或少含有已经人工标注好的网页,因此为了解决训练多示例 网页分类器时存在的人工样本过少的问题,本发明同时把相似类型网站的多示例分类器混 合起来训练,把该混合训练问题看成一个多任务学习问题,从而提出了一种基于最大间距 多任务多示例学习的网页分类方法。
[0006] 本发明的基于最大间距多任务多示例学习的网页分类方法包括如下步骤:
[0007] (1)获取每个网站的网页,随机抽取每个网站的少量网页,通过人工标记的方式, 为这些网页进行分类,赋予分类标签,并且把训练单个网站的网页分类器看成一个学习任 务,所以同时为多个网站训练网页分类器可以看成一个多任务学习过程;
[0008] (2)把所有学习任务的所有网页,转换为多示例数据;
[0009] (3)在每个多示例学习任务中,为每个类别的所有网页多示例数据构建一个特殊 的多示例包,简称为类包;
[0010] (4)为每个多示例学习任务单独构建一个类别到多示例包之间的类特定距离公 式;
[0011] (5)为所有多示例学习任务建立一个总的损失函数,损失函数的最小化问题则是 本发明的所需要解决的最优化问题;
[0012] (6)将步骤(5)中的损失函数转换为多任务学习的特定形式,从而将每个学习任务 之间的网页关联性利用起来;
[0013] (7)转换步骤(6)的多任务损失函数为一个正半定二次优化问题,从而使得求解该 优化问题,能够使得不同类别网页之间的间距最大化;
[0014] (8)求解步骤(7)的凸优化问题,可以获得最大化间距多任务多示例网页分类器, 从而对每个网站上面的网页进行分类。
【附图说明】
[0015]图1为本发明的基于最大间距多任务多示例学习的网页分类方法的流程图。
【具体实施方式】
[0006] 本发明的基于最大间距多任务多示例学习的网页分类方法包括如下步骤:
[0007] 第一步,获取每个网站的网页,随机抽取每个网站的少量网页,通过人工标记的方 式,为这些网页进行分类,赋予分类标签,并且把训练单个网站的网页分类器看成一个学习 任务,所以同时为多个网站训练网页分类器可以看成一个多任务学习过程。例如,存在T个 网站需要构建网页分类器,认为此时存在T个学习任务,需要利用这T个学习任务的有标记 的数据进行分类器的训练,从而训练出T个分类器。
[0008] 第二步,把所有学习任务的所有网页,转换为多示例数据。由于网页往往是由多段 内容组合而成,而在这么多段内容中,可能有且仅有一段内容是主题相关的。所以在训练过 程中,可以把网页转换为多示例数据。具体来说,以150个单词或者其他特定字数为一段内 容,把网页的内容分割为多段内容,此时一段内容被看成一个示例数据。将网页内容分割成 多段内容后,每段内容都要经过一些特殊处理,如停顿字符和转义字符的去除,特征的提 取。此时的多示例数据也称为多示例包。
[0009] 第三步,在每个多示例学习任务中,为每个类别的所有网页多示例数据构建一个 特殊的多示例包,简称为类包。将属于同一个类别的所有网页归纳在一起,把该类别的所有 网页都转换为多示例数据,则该类别的所有多示例数据可以组成一个比较大的多示例包, 又因为该多示例包的网页都来自于同一个类别,则可以简称为类包。列如,在第t个学习任 务中,如果可以用来标记的网页类别有K个,则可以构建出K个类包。
[0010] 第四步,为每个多示例学习任务单独构建一个类别到多示例包之间的类特定距离 公式。在进行网页分类的时候,本发明采取的距离公式是类别到多示例包之间的距离公式, 而并非是多示例包到多示例包之间的距离。如果在第t个学习任务中,第k个类包到一个多 示例包之间的距离要小于其他类别到该多示例包之间的距离,则该多示例包属于第k个类 另IJ。因为每个类包的网页都含有各自的数据统计规律,所以在本发明中单独为每个类包到 多示例包之间的距离设定一个类特定距离公式,并且为了把数据统计规律等信息用上,该 类特定距离公式是基于马氏距离公式,如下:
[0012]上式为第t个任务的第k个类别到多示例包的距离公式,Ckt为第t个任务的第k个类 别的类包,Ckt为第t个任务的第k个类别的类包,Bit为第t个任务的第i个多示例包,为类 包Ckt的第j个示例,M kt为马氏距离矩阵,芯(<,瓜)为类包Ckt中的示例到多示例包Blt的欧 式距离矩阵,
,&,是多示例包Bit的中心。在该类 特定距离公式Distt(Ckt,Blt)中,只有马氏距离矩阵M kt是变量,其他都是已知常量或者可以 由已知常量所求,所以类包Ckt到多示例包Blt的距离,由马氏距离矩阵Mkt影响,所以最优化 该马氏距离矩阵M kt,能够得到我们的最大间距多任务多示例网页分类器。
[0013]第五步,为所有多示例学习任务建立一个总的损失函数,损失函数的最小化问题 则是本发明的所需要解决的最优化问题。本发明的目标是建立一个基于最大间距多任务多 示例学习的网页分类器,为了达到该目标,需要在多任务多示例学习的环境下,构建一个损 失函数,该损失函数需要把与第k个类包相关的多示例包聚在一起,并且需要保证第k个类 包与其他多示例的距离最大化,基于以上要求,本发明建立了一个损失函数,如下:
[0015] 上式中,(?)+=max(0,1-?)是数学公式中常用的Hinge Loss,保证了( ?)+取值 范围在0到1之间,该损失函数的最小化可以保证,在T个任务中,所有的多示例包Blt到它们 所属的类包C pt的距离要远远小于到它们不属于的类包Cnt的距离,并且保证了所有的多示 例包Blt到它们所属的类包C pt的距离是最小化的。Cm是训练分类模型时预先输入的一个正则 化参数,用来控制平衡损失函数的各项式的大小。
[0016]第六步,将第五步中的损失函数转换为多任务学习的特定形式,从而将每个学习 任务之间的网页关联性利用起来。在第五步中所建立的损失函数,只是单单把每个多示例 学习任务的损失函数相加起来,所求出来的最小化损失函数并没有把各个多示例学习任务 的相关性利用起来,因此,本发明把第五步中所得的损失函数,通过M kt = Mk〇+Vkt的方式,转 化为一个多任务学习的特定形式。MkQ代表着T个任务中,第k个类别所共享的马氏距离矩阵, 因此该多任务形式的损失函数的最小化,能够把各个任务的相关性利用起来,从而提高了 每个任务的多示例网页分类器的性能,该多任务形式的损失函数如下:
[0017] 在上式的最小化过程中,I是一个单位矩阵,权值参数yk〇和丫1^用来控制马氏距 离矩阵MkQ和V kt的大小,如果ykQ趋向于无穷大,那么由T个任务所共享的马氏距离矩阵Mk0将 会降为一个单位矩阵。如果y kQ趋向于无穷大,并且ykl的大小是固定的,则第k个类别的所 有学习任务将会是独立的,没有任何的关联,训练出来的分类器也是任务无关的。从另一方 面来看,如果Y kl趋向于无穷大,并且ykQ的大小是固定的,则第k个类别的所有学习任务所 训练出来的分类器将会相同或者类似。
[0018] 第七步,转换第六步中的多任务损失函数为一个正半定二次优化问题,从而使得 求解该优化问题,能够使得不同类别网页之间的间距最大化。虽然第六步中的损失函数已 经是多任务形式的了,但是由于该问题不是一个凸优化问题,所以求出来的不是唯一解,因 此,本发明把该最小化问题,转换为一个凸优化问题,即一个正半定二次优化问题,该优化 问题的形式如下:其中,是一个非负误差项。约束M kQ,Vkt>0保证了本发明所求的马氏距 离矩阵是MkQ和V kt正半定的,从而也保证了该优化问题是一个正半定二次优化问题,可以求 出唯一解。
[0020]第八步,求解第七步中的凸优化问题,可以获得最大化间距多任务多示例网页分 类器,从而对每个网站上面的网页进行分类。
【主权项】
1. 一种基于最大间距多任务多示例学习的网页分类方法,其特征在于,包括如下步骤, 第一步、获取每个网站的网页,随机抽取每个网站的少量网页,通过人工标记的方式, 为这些网页进行分类,赋予分类标签,并且把训练单个网站的网页分类器看成一个学习任 务,所以同时为多个网站训练网页分类器可以看成一个多任务学习过程; 第二步、把所有学习任务的所有网页,转换为多示例数据; 第三步、在每个多示例学习任务中,为每个类别的所有网页多示例数据构建一个特殊 的多示例包,简称为类包; 第四步、为每个多示例学习任务单独构建一个类别到多示例包之间的类特定距离公 式; 第五步、为所有多示例学习任务建立一个总的损失函数,损失函数的最小化问题则是 本发明的所需要解决的最优化问题; 第六步、将第五步中的损失函数转换为多任务学习的特定形式,从而将每个学习任务 之间的网页关联性利用起来; 第七步、转换第六步的多任务损失函数为一个正半定二次优化问题,从而使得求解该 优化问题,能够使得不同类别网页之间的间距最大化; 第八步、求解第七步中的凸优化问题,可以获得最大化间距多任务多示例网页分类器, 从而对每个网站上面的网页进行分类。2. 根据权利要求1所述的基于最大间距多任务多示例学习的网页分类方法,其特征在 于,第一步中,如果存在T个网站需要构建网页分类器,则认为此时存在T个学习任务,需要 利用这T个学习任务的有标记的数据进行分类器的训练,从而训练出T个分类器。3. 根据权利要求2所述的基于最大间距多任务多示例学习的网页分类方法,其特征在 于,第二步中,利用在第一步所定义的T个学习任务,把T个学习任务的所有网页转换为多示 例数据,其具体做法为:以150个单词或者其他特定字数为一段内容,把网页的内容分割为 多段内容,此时一段内容被看成一个示例数据,将网页内容分割成多段内容后,每段内容都 要经过一些特殊处理,如停顿字符和转义字符的去除,特征的提取,此时的多示例数据也称 为多示例包。4. 根据权利要求3所述的基于最大间距多任务多示例学习的网页分类方法,其特征在 于,第三步中,利用第二步中生成的T个学习任务的所有多示例数据,将属于同一个类别的 所有网页多示例数据归纳在一起,则该类别的所有多示例数据可以组成一个比较大的多示 例包,又因为生成该多示例包的网页都来自于同一个类别,则可以简称为类包,例如,在第t 个学习任务中,如果可以用来标记的网页类别有K个,则可以构建出K个类包。5. 根据权利要求4所述的基于最大间距多任务多示例学习的网页分类方法,其特征在 于,第四步中,为每个多示例学习任务单独构建一个类别到多示例包之间的类特定距离公 式,在进行网页分类的时候,采取的距离公式是类别到多示例包之间的距离公式,而并非是 多示例包到多示例包之间的距离;如果在第t个学习任务中,第k个类包到一个多示例包之 间的距离要小于其他类别到该多示例包之间的距离,则该多示例包属于第k个类别;单独为 每个类包到多示例包之间的距离设定一个类特定距离公式,该类特定距离公式是基于马氏 距离公式,如下: 上式为第t个任务的第k个类别到多示例包的距离公式,Ckt为第t个任务的第k个类别的 类包,Ckt为第t个任务的第k个类别的类包,Bit为第t个任务的第i个多示例包,为类包Ckt 的第j个示例,Mkt为马氏距离矩阵,&?,&t):为类包Ckt中的示例到多示例包B lt的欧式距离矩阵,石。是多示例包Bit的中心,在该类特定距 离公式Distt(Ckt,Blt)中,只有马氏距离矩阵Mkt是变量,其他都是已知常量或者可以由已知 常量所求,所以类包Ckt到多示例包Blt的距离,由马氏距离矩阵Mkt影响,所以最优化该马氏 距离矩阵M kt,能够得到最大间距多任务多示例网页分类器。6. 根据权利要求5所述的基于最大间距多任务多示例学习的网页分类方法,其特征在 于,第五步中,为所有多示例学习任务建立一个总的损失函数,损失函数的最小化问题则是 本发明的所需要解决的最优化问题,在多任务多示例学习的环境下,构建一个损失函数,该 损失函数需要把与第k个类包相关的多示例包聚在一起,并且需要保证第k个类包与其他多 示例的距离最大化,建立一个损失函数,如下:上式中,(?)+=max(0,1-?)是数学公式中常用的Hinge Loss,保证了( ?)+取值范围 在0到1之间,该损失函数的最小化可以保证,在T个任务中,所有的多示例包Blt到它们所属 的类包C pt的距离要远远小于到它们不属于的类包Cnt的距离,并且保证了所有的多示例包 Blt到它们所属的类包Cpt的距离是最小化的,Cm是训练分类模型时预先输入的一个正则化参 数,用来控制平衡损失函数的各项式的大小。7. 根据权利要求6所述的基于最大间距多任务多示例学习的网页分类方法,其特征在 于,第六步中,将第五步中的损失函数转换为多任务学习的特定形式,从而将每个学习任务 之间的网页关联性利用起来,在第五步中所建立的损失函数,只是单单把每个多示例学习 任务的损失函数相加起来,所求出来的最小化损失函数并没有把各个多示例学习任务的相 关性利用起来,因此,把第五步中所得的损失函数,通过M kt = MkQ+Vkt的方式,转化为一个多 任务学习的特定形式,MkQ代表着T个任务中,第k个类别所共享的马氏距离矩阵,因此该多任 务形式的损失函数的最小化,能够把各个任务的相关性利用起来,从而提高了每个任务的 多示例网页分类器的性能,该多任务形式的损失函数如下: 在上式的最小化过程中,I是一个单位矩阵,权值参数y k〇和y kl用来控制马氏距离矩阵 Mk〇和Vkt的大小,如果ykQ趋向于无穷大,那么由T个任务所共享的马氏距离矩阵M k〇将会降为 一个单位矩阵,如果yk〇趋向于无穷大,并且ykl的大小是固定的,则第k个类别的所有学习 任务将会是独立的,没有任何的关联,训练出来的分类器也是任务无关的,从另一方面来 看,如果y kl趋向于无穷大,并且yk〇的大小是固定的,则第k个类别的所有学习任务所训练 出来的分类器将会相同或者类似。8.根据权利要求7所述的基于最大间距多任务多示例学习的网页分类方法,其特征在 于,第七步中,转换第六步中的多任务损失函数为一个正半定二次优化问题,从而使得求解 该优化问题,能够使得不同类别网页之间的间距最大化,虽然第六步中的损失函数已经是 多任务形式的了,但是由于该问题不是一个凸优化问题,所以求出来的不是唯一解,本发明 把该最小化问题,转换为一个凸优化问题,即一个正半定二次优化问题,在下式中,I是一 个非负误差项。约束M k〇,Vkt>0保证了本发明所求的马氏距离矩阵是Mk〇和Vkt正半定的,从而 也保证了该优化问题是一个正半定二次优化问题,可以求出唯一解,该优化问题的形式如 下:
【文档编号】G06F17/30GK106055705SQ201610466377
【公开日】2016年10月26日
【申请日】2016年6月21日
【发明人】阮奕邦, 肖燕珊, 刘波, 郝志峰, 黎启祥
【申请人】广东工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1