一种基于多示例学习的有害信息识别和网页分类方法
【专利摘要】本发明公开了一种基于多示例学习的网页分类方法,该方法包括:设计了相对大小排序前向比较法来提取网页内有效图像,并根据网页树状结构提取有效图像的相关文本;将一幅有效图像及其相关文本作为网页包中的一个示例,分别采用图像词包模型和文本词包模型生成有效图像及其相关文本的描述,并将二者合并起来作为示例的描述;采用多示例核对毒品网页进行分类。本发明的方法,通过将网页中内含的图像及其相关文本作为网页包中的示例,使算法更符合网页内容的实际分布,并能够充分利用网页的有效信息,深入挖掘图像信息与文本信息的互补性,最终取得比只利用单模态信息进行分类更好的效果。
【专利说明】一种基于多示例学习的有害信息识别和网页分类方法
【技术领域】
[0001] 本发明涉及网络内容安全领域,更具体地涉及一种基于多示例学习的有害信息识 别和网页分类方法。
【背景技术】
[0002] 互联网在促进社会进步与发展的同时,也为各种有害信息的传播提供了极大的便 利。这些有害信息日益危害着正常的社会活动和健康的价值体系,对青少年的健康成长尤 为不利。最大限度地发挥互联网的积极作用,抑制或消除它的消极作用,将有利于净化互联 网环境,促进社会进步,呵护青少年的健康成长。互联网有害信息包括色情、毒品、暴力、恐 怖、反动等,其中毒品信息的危害与其他有害信息的危害相比,有过之而无不及。
[0003] 在互联网中,网页以超文本标记语言(Hyper Text Mark-up Language,HTML)文件 的形式存在,HTML文件本质上是文本文件,因此,通常的网页分类方法主要利用文本信息, 其中最主要的就是词包模型。词包模型的原理是:首先选择一些关键词(key),组成文本词 典;然后统计每一个关键词在文档或网页中的频数,并组成一个向量;采用合适的分类器 对该向量进行分类。
[0004] 随着各种数字设备的广泛普及,网页中的图像数量越来越多,文本数量越来越少, 只利用文本信息对网页进行分类已经不能很好地符合网页的实际形态。因此,非常有必要 综合利用图像信息与文本信息来提高实际网页分类性能。
[0005] 作为一个示例,图1为两个毒品网页,左图为贩卖吸毒工具的网页,右图为贩卖大 麻的网页。可以看出,两个网页中均包含了大量的图像和少量的文本,而且图像与文本排列 得非常整齐。对于这种情况,只利用文本信息已经不能很好地对其进行分类。另外,目前针 对互联网上的毒品信息进行处理的相关专利或文献还非常少,迫切需要一种对毒品等有害 信息进行识别处理的方法,来方便各国政府加强对互联网的监管,保护人们免受相关信息 的诱惑。
【发明内容】
[0006] 有鉴于此,本发明的目的在于提出一种符合网页内图像与本文数量实际分布情况 的网页分类方法和有害信息识别方法,解决网页中有害信息的识别和自动分类的技术问 题。
[0007] 为实现上述目的,作为本发明的一个方面,本发明提出了一种网页分类方法,包括 以下步骤:
[0008] 步骤1 :提取选定网页内的有效图像,并提取所述有效图像的相关文本;
[0009] 步骤2 :将一幅有效图像及其相关文本作为网页包中的一个示例,生成所述有效 图像及其相关文本的描述,并将二者合并起来作为示例的描述;
[0010] 步骤3 :采用多示例核对得到的所述示例进行计算,根据计算的结果对所述选定 网页进行分类。 toon] 其中,所述步骤1中采用相对大小排序前向比较法来提取所述网页内的有效图 像,以及
[0012] 根据网页树状结构来提取所述有效图像的相关文本。
[0013] 其中,所述步骤2包括以下步骤:
[0014] 步骤2a :构建网页训练集,提取所述网页训练集中有效图像的RGB-SIFT特征,聚 类生成视觉词典,并采用硬编码结合和聚合的方式通过图像词包模型生成所述有效图像的 特征向量;
[0015] 步骤2b :利用文本词典,采用文本词包模型生成相关文本的特征向量;
[0016] 步骤2c :将所述有效图像的特征向量与所述相关文本的特征向量合并起来,作为 示例描述。
[0017] 其中,步骤2a中所述的聚类生成视觉词典的步骤采用K-means聚类方法,得到包 含1500个视觉单词的视觉词典。
[0018] 其中,步骤2b中所述的文本词典包含100个对所需分类主题有代表性的关键词和 100个与所需分类主题完全不相关的关键词;
[0019] 所述采用文本词包模型生成相关文本的特征向量的步骤包括:
[0020] 对于所述相关文本,根据所述文本词典统计生成其100维的特征向量;
[0021] 步骤2c中所述将有效图像的特征向量与相关文本的特征向量合并起来的步骤包 括:
[0022] 将所述有效图像的1500维的特征向量与所述相关文本的100维的特征向量直接 串起来,得到1600维的特征向量;以及
[0023] 如果一个网页没有有效图像,则将一个1500维的零向量与所述相关文本的特征 向量合并起来。
[0024] 其中,所述步骤3包括:
[0025] 步骤3a :采用多示例核对得到的所述示例进行计算;
[0026] 步骤3b :将上述步骤得到的多示例核与支持向量机结合,对所述选定网页进行分 类。
[0027] 其中,所述步骤3a包括:
[0028] 将步骤2中生成的一幅有效图像的示例作为一个包中的一个示例,一个网页作为 一个包,对于步骤2中生成的包戽={七,…,^%}和包A =(χ;ι,···,χ;",丨,其中X为相应的示例 表述,采用如下方式度量包B i和包h之间的相似性:
【权利要求】
1. 一种网页分类方法,包括以下步骤: 步骤1:提取选定网页内的有效图像,并提取所述有效图像的相关文本; 步骤2 :将一幅有效图像及其相关文本作为网页包中的一个示例,生成所述有效图像 及其相关文本的描述,并将二者合并起来作为示例的描述; 步骤3 :采用多示例核对得到的所述示例进行计算,根据计算的结果对所述选定网页 进行分类。
2. 根据权利要求1所述的网页分类方法,其中所述步骤1中采用相对大小排序前向比 较法来提取所述网页内的有效图像,以及 根据网页树状结构来提取所述有效图像的相关文本。
3. 根据权利要求1所述的网页分类方法,其中所述步骤2包括以下步骤: 步骤2a:构建网页训练集,提取所述网页训练集中有效图像的RGB-SIFT特征,聚类生 成视觉词典,并采用硬编码结合和聚合的方式通过图像词包模型生成所述有效图像的特征 向量; 步骤2b :利用文本词典,采用文本词包模型生成相关文本的特征向量; 步骤2c :将所述有效图像的特征向量与所述相关文本的特征向量合并起来,作为示例 描述。
4. 根据权利要求3所述的网页分类方法,其中步骤2a中所述的聚类生成视觉词典的步 骤采用K-means聚类方法,得到包含1500个视觉单词的视觉词典。
5. 根据权利要求3所述的网页分类方法,其中步骤2b中所述的文本词典包含100个对 所需分类主题有代表性的关键词和100个与所需分类主题完全不相关的关键词; 所述采用文本词包模型生成相关文本的特征向量的步骤包括: 对于所述相关文本,根据所述文本词典统计生成其100维的特征向量; 步骤2c中所述将有效图像的特征向量与相关文本的特征向量合并起来的步骤包括: 将所述有效图像的1500维的特征向量与所述相关文本的100维的特征向量直接串起 来,得到1600维的特征向量;以及 如果一个网页没有有效图像,则将一个1500维的零向量与所述相关文本的特征向量 合并起来。
6. 根据权利要求1所述的网页分类方法,其中所述步骤3包括: 步骤3a :采用多示例核对得到的所述示例进行计算; 步骤3b :将上述步骤得到的多示例核与支持向量机结合,对所述选定网页进行分类。
7. 根据权利要求6所述的网页分类方法,其中所述步骤3a包括: 将步骤2中生成的一幅有效图像的示例作为一个包中的一个示例,一个网页作为一个 包,对于步骤2中生成的包马= {&,--?,、}和包巧={x;1,…,,其中X为相应的示例表 述,采用如下方式度量包Bi和包h之间的相似性:
其中,KMI(.,.)是多示例核,K(.,.)是传统核,p是一个正整数。
8. 根据权利要求7所述的网页分类方法,其中所述步骤3a还包括以下步骤: 对所述的多示例核按照下式进行归一化处理:
其中,KnmiC,.)是归一化后的多示例核。
9. 根据权利要求6所述的网页分类方法,其中所述步骤3b进一步包括: 将Knmi (Bi,Bp与支持向量机结合,对所述选定网页进行分类,其中所述支持向量机的判 别式如下:
其中,SV为支持向量索引集,Yi (+1或-1)是特征向量Xi的类别标签,a i是相应的权 重,b是偏置,a i的值和b的值皆通过训练得到;K (.,.)是传统核;以及 用KmiC,.)代替K(.,.)后,得到:
10. -种网页有害信息识别方法,包括以下步骤: 步骤1 :提取一个网页内的有效图像,并提取所述有效图像的相关文本; 步骤2 :将一幅有效图像及其相关文本作为网页包中的一个示例,生成所述有效图像 及其相关文本的描述,并将二者合并起来作为示例的描述; 步骤3 : 将步骤2中生成的一幅有效图像的示例作为一个包中的一个示例,一个网页作为一个 包,对于步骤2中生成的包马=(?,…,和包巧=,…,气";:!,其中x为相应的示例表 述,采用如下方式度量包Bi和包h之间的相似性:
其中,KMI(.,.)是多示例核,K(.,.)是传统核,p是一个正整数; 将Knmi (Bi,Bp与支持向量机结合,对所述选定网页中的有害信息进行识别,其中所述支 持向量机的判别式如下:
其中,SV为支持向量索引集,Yi (+1或-1)是特征向量Xi的类别标签,a i是相应的权 重,b是偏置,a i的值和b的值皆通过训练得到;以及 用KmiC,.)代替K(.,.)后,得到:
【文档编号】G06F17/30GK104361059SQ201410609728
【公开日】2015年2月18日 申请日期:2014年11月3日 优先权日:2014年11月3日
【发明者】胡卫明, 胡瑞光 申请人:中国科学院自动化研究所