信息文本过滤方法及系统的制作方法
【专利摘要】本发明涉及一种信息文本过滤方法及系统,方法包括:对待审核的信息文本进行预处理,获得对应的多个词语;调入语义扩展参数表,根据多个词语和语义扩展参数表将待审核的信息文本从词语空间映射到确定的主题空间;调入分类器参数,根据分类器参数对待审核的信息文本进行统计语义分析,给出对应的类别标签,并存入训练样本库。本发明通过对待审核的信息文本进行预处理、词语空间到主题空间的映射和统计语义分析,可以获得待审核的信息文本对应的类别标签,在获得了类别标签后,将类别标签连同待审核的信息文本一并存入训练样本库,自动对已审核的训练集进行扩充,实现训练样本的快速自适应学习,进而提升信息文本过滤的实用性和识别精度。
【专利说明】信息文本过滤方法及系统
【技术领域】
[0001] 本发明涉及信息服务领域,尤其涉及一种信息文本过滤方法及系统。
【背景技术】
[0002] 随着移动互联网的迅猛发展,便捷的信息服务已经深刻地改变了人们的生活和工 作方式。另一方面,由于信息服务的巨大影响力,随之衍生的内容安全问题不容忽视。
[0003] 随着基于统计模式识别方法的内容过滤技术的兴起和成熟,高精度过滤成为现 实,而其前提是大量训练样本的有监督学习。由于人类自然语言的动态变化特性,因此快速 地构建训练样本库,以及对误判决的样本实施快速的自适应学习,对于提升内容过滤装置 的实际应用价值具有重要的意义。
[0004] 但在现实中,现有的内容过滤装置难以快速有效的构建训练样本库,在面对人类 自然语言动态演进时无法快速收敛的自适应学习,难以对内容过滤的分类器进行实时更 新,因此难以保证识别精度。
【发明内容】
[0005] 本发明的目的是提出一种信息文本过滤方法及系统,能够使内容过滤的分类器进 行快速收敛的自适应学习。
[0006] 为实现上述目的,本发明提供了一种信息文本过滤方法,包括:
[0007] 对待审核的信息文本进行预处理,获得所述待审核的信息文本对应的多个词语;
[0008] 调入语义扩展参数表,根据所述多个词语和所述语义扩展参数表将所述待审核的 信息文本从词语空间映射到确定的主题空间;
[0009] 调入分类器参数,根据所述分类器参数对所述待审核的信息文本进行统计语义分 析,给出所述待审核的信息文本对应的类别标签,并将所述待审核的信息文本和对应的类 别标签存入训练样本库。
[0010] 进一步的,在获得所述待审核的信息文本对应的多个词语时,还包括:获得所述多 个词语在所述待审核的信息文本中对应的词频。
[0011] 进一步的,所述语义扩展参数表包括多个预设词语的语义扩展参数,所述语义扩 展参数为所述多个预设词语分别在多个预设主题类别的文档中出现的概率;
[0012] 根据所述多个词语和所述语义扩展参数表将所述待审核的信息文本从词语空间 映射到确定的主题空间的操作具体包括:
[0013] 在所述语义扩展参数表中查询所述多个词语匹配的预设词语分别在所述多个预 设主题类别的文档中出现的概率,确定所述多个词语分别在所述多个预设主题类别下对应 的概率;
[0014] 根据所述多个词语分别在所述多个预设主题类别下对应的概率计算所述待审核 的信息文本分别属于所述多个预设主题类别中每个预设主题类别的概率。
[0015] 进一步的,所述分类器参数包括多个预设主题类别的分类器参数,所述分类器参 数为多种预设判决结果的文档对应于多个预设主题类别的概率;
[0016] 根据所述分类器参数对所述待审核的信息文本进行统计语义分析的操作具体包 括:
[0017] 根据训练样本库中具有每种预设判决结果的信息文本分别占总信息文本的概率、 每种预设判决结果的文档对应于多个预设主题类别的概率和所述待审核的信息文本分别 属于所述多个预设主题类别中每个预设主题类别的概率计算所述待审核的信息文本属于 每种预设判决结果的概率。
[0018] 进一步的,所述给出所述待审核的信息文本对应的类别标签的操作具体为:
[0019] 根据计算出的所述待审核的信息文本属于每种预设判决结果的概率将概率数值 较大的预设判决结果作为所述待审核的信息文本的类别标签。
[0020] 进一步的,还包括信息文本的再学习流程,具体包括:
[0021] 对所述训练样本库中选取的需再学习的信息文本进行预处理,获得所述需再学习 的信息文本对应的多个词语;
[0022] 调入语义扩展参数表,根据所述多个词语和所述语义扩展参数表将所述需再学习 的信息文本从词语空间映射到确定的主题空间;
[0023] 调入分类器参数,根据所述分类器参数对所述需再学习的信息文本进行统计语义 分析,并给出所述需再学习的信息文本对应的新类别标签;
[0024] 从所述训练样本库调取所述需再学习的信息文本对应的原类别标签,并将所述原 类别标签与所述新类别标签进行比较,如果两者符合,则结束所述信息文本的再学习流程, 否则按照预设步长对所述分类器参数进行调整,并基于调整后的分类器参数对所述需再学 习的信息文本进行统计语义分析、新类别标签确定和类别标签比较的操作,直到原类别标 签与新类别标签符合。
[0025] 进一步的,还包括训练样本库的构建流程,具体包括:
[0026] 对待添加的训练信息文本进行预处理;
[0027] 调用关键词列表,并根据所述关键词列表对所述待添加的训练信息文本进行遍历 匹配,统计所述待添加的训练信息文本分别匹配所述关键词列表中各个关键词的匹配数 目;
[0028] 根据预设的关键词匹配类别标签的规则,确定所述待添加的训练信息文本对应的 类别标签,并进行标注;
[0029] 将所述待添加的训练信息文本和标注的类别标签存入所述训练样本库。
[0030] 为实现上述目的,本发明提供了一种信息文本过滤系统,包括:
[0031] 第一预处理模块,用于对待审核的信息文本进行预处理,获得所述待审核的信息 文本对应的多个词语;
[0032] 第一文本映射模块,用于调入语义扩展参数表,根据所述多个词语和所述语义扩 展参数表将所述待审核的信息文本从词语空间映射到确定的主题空间;
[0033] 第一语义分析模块,用于调入分类器参数,根据所述分类器参数对所述待审核的 信息文本进行统计语义分析;
[0034] 第一类别标识模块,用于给出所述待审核的信息文本对应的类别标签;
[0035] 第一入库单元,用于将所述待审核的信息文本和对应的类别标签存入训练样本 库。
[0036] 进一步的,所述第一预处理模块还用于在获得所述待审核的信息文本对应的多个 词语时,获得所述多个词语在所述待审核的信息文本中对应的词频。
[0037] 进一步的,所述语义扩展参数表包括多个预设词语的语义扩展参数,所述语义扩 展参数为所述多个预设词语分别在多个预设主题类别的文档中出现的概率;
[0038] 所述第一文本映射模块具体包括:
[0039] 语义扩展参数表调入单元,用于调入所述语义扩展参数表;
[0040] 语义扩展参数表查询单元,用于在所述语义扩展参数表中查询所述多个词语匹配 的预设词语分别在所述多个预设主题类别的文档中出现的概率,确定所述多个词语分别在 所述多个预设主题类别下对应的概率;
[0041] 主题类别概率确定单元,用于根据所述多个词语分别在所述多个预设主题类别下 对应的概率计算所述待审核的信息文本分别属于所述多个预设主题类别中每个预设主题 类别的概率。
[0042] 进一步的,所述分类器参数包括多个预设主题类别的分类器参数,所述分类器参 数为多种预设判决结果的文档对应于多个预设主题类别的概率;
[0043] 所述第一语义分析模块具体包括:
[0044] 分类器参数调入单元,用于调入所述分类器参数;
[0045] 判决结果概率计算单元,用于根据训练样本库中具有每种预设判决结果的信息文 本分别占总信息文本的概率、每种预设判决结果的文档对应于多个预设主题类别的概率和 所述待审核的信息文本分别属于所述多个预设主题类别中每个预设主题类别的概率计算 所述待审核的信息文本属于每种预设判决结果的概率。
[0046] 进一步的,所述第一类别标识模块具体包括:
[0047] 第一类别标签确定单元,用于根据计算出的所述待审核的信息文本属于每种预设 判决结果的概率将概率数值较大的预设判决结果作为所述待审核的信息文本的类别标签。 [0048] 进一步的,还包括信息文本的再学习子系统,具体包括:
[0049] 第二预处理模块,用于所述训练样本库中选取的需再学习的信息文本进行预处 理,获得所述需再学习的信息文本对应的多个词语;
[0050] 第二文本映射模块,用于调入语义扩展参数表,根据所述多个词语和所述语义扩 展参数表将所述需再学习的信息文本从词语空间映射到确定的主题空间;
[0051] 第二语义分析模块,用于调入分类器参数,根据所述分类器参数对所述需再学习 的信息文本进行统计语义分析;;
[0052] 第二类别标识模块,用于给出所述需再学习的信息文本对应的新类别标签;
[0053] 原类别标签调取模块,用于从所述训练样本库调取所述需再学习的信息文本对应 的原类别标签;
[0054] 类别标签比较模块,用于将所述原类别标签与所述新类别标签进行比较,如果两 者符合,则结束所述信息文本的再学习流程;
[0055] 分类器参数调整模块,用于在原类别标签与新类别标签不符合时,按照预设步长 对所述分类器参数进行调整,并基于调整后的分类器参数触发所述第二类别标识模块、原 类别标签调取模块和类别标签比较模块,直到原类别标签与新类别标签符合。
[0056] 进一步的,还包括训练样本库的构建子系统,具体包括:
[0057] 第三预处理模块,用于对待添加的训练信息文本进行预处理;
[0058] 关键词匹配模块,用于调用关键词列表,并根据所述关键词列表对所述待添加的 训练信息文本进行遍历匹配,统计所述待添加的训练信息文本分别匹配所述关键词列表中 各个关键词的匹配数目;
[0059] 第二类别标签确定模块,用于根据预设的关键词匹配类别标签的规则,确定所述 待添加的训练信息文本对应的类别标签,并进行标注;
[0060] 第二入库模块,用于将所述待添加的训练信息文本和标注的类别标签存入所述训 练样本库。
[0061] 基于上述技术方案,本发明通过对待审核的信息文本进行预处理、词语空间到主 题空间的映射和统计语义分析,可以获得待审核的信息文本对应的类别标签,在获得了类 别标签后,将类别标签连同待审核的信息文本一并存入训练样本库,自动对已审核的训练 集进行扩充,实现训练样本的快速自适应学习,进而提升信息文本过滤的实用性和识别精 度。
【专利附图】
【附图说明】
[0062] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中: [0063] 图1为本发明信息文本过滤方法的一实施例的流程示意图。
[0064] 图2为本发明信息文本过滤方法的另一实施例的流程示意图。
[0065] 图3为本发明信息文本过滤方法实施例中信息文本的再学习流程的示意图。
[0066] 图4为本发明信息文本过滤方法实施例中训练样本库的构建流程的示意图。
[0067] 图5为本发明信息文本过滤系统的一实施例的结构示意图。
[0068] 图6为本发明信息文本过滤系统实施例中信息文本的再学习子系统的结构示意 图。
[0069]图7为本发明信息文本过滤系统实施例中训练样本库的构建子系统的结构示意 图。
【具体实施方式】
[0070] 下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
[0071] 如图1所示,为本发明信息文本过滤方法的一实施例的流程示意图。在本实施例 中,信息文本过滤方法包括:
[0072] 步骤101、对待审核的信息文本进行预处理,获得所述待审核的信息文本对应的多 个词语;
[0073] 步骤102、调入语义扩展参数表,根据所述多个词语和所述语义扩展参数表将所述 待审核的信息文本从词语空间映射到确定的主题空间;
[0074] 步骤103、调入分类器参数,根据所述分类器参数对所述待审核的信息文本进行统 计语义分析,给出所述待审核的信息文本对应的类别标签,并将所述待审核的信息文本和 对应的类别标签存入训练样本库。
[0075] 在本实施例中,通过对待审核的信息文本进行预处理、词语空间到主题空间的映 射和统计语义分析,可以获得待审核的信息文本对应的类别标签,在获得了类别标签后,将 类别标签连同待审核的信息文本一并存入训练样本库,自动对已审核的训练集进行扩充, 实现训练样本的快速自适应学习,进而提升信息文本过滤的实用性和识别精度。
[0076] 具体来说,在步骤101中对待审核的信息文本的预处理包括清除待审核的信息文 本中的标点符号、无实义文字等处理,以及中文分词或者特征提取等处理,通过预处理可以 从待审核的息文本中获得对应的多个词语。待审核的息文本可能是邮件、短、新闻 等,以新闻为例,一篇体育新闻所包含的信息文本中会包含较多与体育相关的词语,也会包 含很多的标点符号和无实义的语气助词、连词等,通过预处理可以将该篇体育新闻中有实 义的词语(例如羽毛球、锦标赛、冠军等)提取出来。
[0077] 在获得了审核的信息文本对应的多个词语时,还可以同时获取该多个词语在待审 核的信息文本中对应的词频。通常来说,某个词语出现的频率较高,除去无意义的语气助 词、连词等,这种词语对于整个信息文本可能比较重要,有一定的代表性。因此在进行词语 空间到主题空间的映射之前,获取词频有助于更准确地进行映射。
[0078] 在步骤102中的语义扩展参数表包括了多个预设词语的语义扩展参数,这些语义 扩展参数是多个预设词语分别在多个预设主题类别的文档中出现的概率。利用语义扩展参 数表和之前从待审核的信息文本中获取到的多个词语就可以将待审核的信息文本从词语 空间映射到确定的主题空间。
[0079] 这个映射过程可以是在语义扩展参数表中查询从待审核的信息文本中获取到的 多个词语所匹配的预设词语分别在多个预设主题类别的文档中出现的概率,然后通过这些 概率进一步确定该多个词语分别在多个预设主题类别下对应的概率,有了这些词语对应预 设主题类别的概率后,就可以进一步求出包含了这些词语的待审核的信息文本分别属于多 个预设主题类别中每个预设主题类别的概率。
[0080] 换句话说,通过步骤102就确定出待审核的信息文本属于哪一主题类别的概率较 高,属于哪一主题类别的概率较低。这对后续的判决非常关键。
[0081] 在步骤103中的分类器参数包括多个预设主题类别的分类器参数,而分类器参数 为多种预设判决结果的文档对应于多个预设主题类别的概率。例如判决为正常的信息文本 属于商业主题类别和娱乐主题类别的概率、判决为不良的信息文本属于商业主题类别和娱 乐主题类别的概率等。
[0082] 统计语义分析除了涉及到分类器参数(即每种预设判决结果的文档对应于多个预 设主题类别的概率)之外,还涉及到训练样本库中具有每种预设判决结果的信息文本分别 占总信息文本的概率、步骤102中得到的待审核的信息文本分别属于所述多个预设主题类 别中每个预设主题类别的概率,通过这些数据可以计算出待审核的信息文本属于每种预设 判决结果的概率。
[0083] 通常来说,可以根据计算出的所述待审核的信息文本属于每种预设判决结果的概 率,将概率数值较大的预设判决结果作为待审核的信息文本的类别标签,举例来说,预设判 决结果有两种,一种是正常,一种是不良,如果待审核的信息文本属于正常的概率较高,而 属于不良的概率较低,则可以将该信息文本判决为概率较高的正常,也就是输出该信息文 本为正常的信息文本的结果。当然,预设判决结果不止两种,也可以有三种和三种以上,而 判决的规则也不仅限于概率较大的预设判决结果为最后的判决结构。例如预设判决结果包 括正常、较正常、较不良、不良等四种,在判断时,如果信息文本属于正常和较正常的概率无 论哪个较高,则都可以直接判定为正常,而信息文本属于较不良和不良的概率无论哪个较 高,则都可以直接判定为不良。
[0084] 在确定了待审核的信息文本的类别标签后,就可以进行相应的过滤操作,例如将 不良的短信内容进行过滤筛除或者进行标记,也可以针对于不良的邮件或短信进行用户提 醒。
[0085] 下面通过一个更具体的信息文本过滤方法实施例来进一步对本发明进行说明。如 图2所示,为本发明信息文本过滤方法的另一实施例的流程示意图。在本实施例中,信息文 本过滤方法包括:
[0086] 步骤201、对待审核的信息文本D进行去除标点符号、去除无实义词语、中文分词/ 特征提取等预处理,获得待审核的信息文本D对应的N个词语& (i=l?N,N为正整数)和 词语h在该篇信息文本D中对应的词频ni ;
[0087] 步骤202、调入语义扩展参数表,语义扩展参数表包括多个预设词语的语义扩展参 数,语义扩展参数为多个预设词语分别在多个预设主题类别S/共J个预设主题类别,j=l? J,J为正整数)的文档中出现的概率;
[0088] 步骤203、在语义扩展参数表中查询多个词语\匹配的预设词语分别在多个预 设主题类别h的文档中出现的概率,确定词语&分别在预设主题类别&下对应的概率 pajSj);
[0089] 步骤204、根据词语&分别在预设主题类别Sj下对应的概率P (& | SJ计算待审核 的信息文本D分别属于各种预设主题类别&的概率P (D | Sp,计算公式为
【权利要求】
1. 一种信息文本过滤方法,包括: 对待审核的信息文本进行预处理,获得所述待审核的信息文本对应的多个词语; 调入语义扩展参数表,根据所述多个词语和所述语义扩展参数表将所述待审核的信息 文本从词语空间映射到确定的主题空间; 调入分类器参数,根据所述分类器参数对所述待审核的信息文本进行统计语义分析, 给出所述待审核的信息文本对应的类别标签,并将所述待审核的信息文本和对应的类别标 签存入训练样本库。
2. 根据权利要求1所述的信息文本过滤方法,其中在获得所述待审核的信息文本对应 的多个词语时,还包括:获得所述多个词语在所述待审核的信息文本中对应的词频。
3. 根据权利要求1或2所述的信息文本过滤方法,其中所述语义扩展参数表包括多个 预设词语的语义扩展参数,所述语义扩展参数为所述多个预设词语分别在多个预设主题类 别的文档中出现的概率; 根据所述多个词语和所述语义扩展参数表将所述待审核的信息文本从词语空间映射 到确定的主题空间的操作具体包括: 在所述语义扩展参数表中查询所述多个词语匹配的预设词语分别在所述多个预设主 题类别的文档中出现的概率,确定所述多个词语分别在所述多个预设主题类别下对应的概 率; 根据所述多个词语分别在所述多个预设主题类别下对应的概率计算所述待审核的信 息文本分别属于所述多个预设主题类别中每个预设主题类别的概率。
4. 根据权利要求3所述的信息文本过滤方法,其中所述分类器参数包括多个预设主题 类别的分类器参数,所述分类器参数为多种预设判决结果的文档对应于多个预设主题类别 的概率; 根据所述分类器参数对所述待审核的信息文本进行统计语义分析的操作具体包括: 根据训练样本库中具有每种预设判决结果的信息文本分别占总信息文本的概率、每种 预设判决结果的文档对应于多个预设主题类别的概率和所述待审核的信息文本分别属于 所述多个预设主题类别中每个预设主题类别的概率计算所述待审核的信息文本属于每种 预设判决结果的概率。
5. 根据权利要求4所述的信息文本过滤方法,其中所述给出所述待审核的信息文本对 应的类别标签的操作具体为: 根据计算出的所述待审核的信息文本属于每种预设判决结果的概率将概率数值较大 的预设判决结果作为所述待审核的信息文本的类别标签。
6. 根据权利要求5所述的信息文本过滤方法,其中还包括信息文本的再学习流程,具 体包括: 对所述训练样本库中选取的需再学习的信息文本进行预处理,获得所述需再学习的信 息文本对应的多个词语; 调入语义扩展参数表,根据所述多个词语和所述语义扩展参数表将所述需再学习的信 息文本从词语空间映射到确定的主题空间; 调入分类器参数,根据所述分类器参数对所述需再学习的信息文本进行统计语义分 析,并给出所述需再学习的信息文本对应的新类别标签; 从所述训练样本库调取所述需再学习的信息文本对应的原类别标签,并将所述原类别 标签与所述新类别标签进行比较,如果两者符合,则结束所述信息文本的再学习流程,否则 按照预设步长对所述分类器参数进行调整,并基于调整后的分类器参数对所述需再学习的 信息文本进行统计语义分析、新类别标签确定和类别标签比较的操作,直到原类别标签与 新类别标签符合。
7. 根据权利要求5所述的信息文本过滤方法,其中还包括训练样本库的构建流程,具 体包括: 对待添加的训练信息文本进行预处理; 调用关键词列表,并根据所述关键词列表对所述待添加的训练信息文本进行遍历匹 配,统计所述待添加的训练信息文本分别匹配所述关键词列表中各个关键词的匹配数目; 根据预设的关键词匹配类别标签的规则,确定所述待添加的训练信息文本对应的类别 标签,并进行标注; 将所述待添加的训练信息文本和标注的类别标签存入所述训练样本库。
8. -种信息文本过滤系统,包括: 第一预处理模块,用于对待审核的信息文本进行预处理,获得所述待审核的信息文本 对应的多个词语; 第一文本映射模块,用于调入语义扩展参数表,根据所述多个词语和所述语义扩展参 数表将所述待审核的信息文本从词语空间映射到确定的主题空间; 第一语义分析模块,用于调入分类器参数,根据所述分类器参数对所述待审核的信息 文本进行统计语义分析; 第一类别标识模块,用于给出所述待审核的信息文本对应的类别标签; 第一入库单元,用于将所述待审核的信息文本和对应的类别标签存入训练样本库。
9. 根据权利要求8所述的信息文本过滤系统,其中所述第一预处理模块还用于在获得 所述待审核的信息文本对应的多个词语时,获得所述多个词语在所述待审核的信息文本中 对应的词频。
10. 根据权利要求8或9所述的信息文本过滤系统,其中所述语义扩展参数表包括多个 预设词语的语义扩展参数,所述语义扩展参数为所述多个预设词语分别在多个预设主题类 别的文档中出现的概率; 所述第一文本映射模块具体包括: 语义扩展参数表调入单元,用于调入所述语义扩展参数表; 语义扩展参数表查询单元,用于在所述语义扩展参数表中查询所述多个词语匹配的预 设词语分别在所述多个预设主题类别的文档中出现的概率,确定所述多个词语分别在所述 多个预设主题类别下对应的概率; 主题类别概率确定单元,用于根据所述多个词语分别在所述多个预设主题类别下对应 的概率计算所述待审核的信息文本分别属于所述多个预设主题类别中每个预设主题类别 的概率。
11. 根据权利要求10所述的信息文本过滤系统,其中所述分类器参数包括多个预设主 题类别的分类器参数,所述分类器参数为多种预设判决结果的文档对应于多个预设主题类 别的概率; 所述第一语义分析模块具体包括: 分类器参数调入单元,用于调入所述分类器参数; 判决结果概率计算单元,用于根据训练样本库中具有每种预设判决结果的信息文本分 别占总信息文本的概率、每种预设判决结果的文档对应于多个预设主题类别的概率和所述 待审核的信息文本分别属于所述多个预设主题类别中每个预设主题类别的概率计算所述 待审核的信息文本属于每种预设判决结果的概率。
12. 根据权利要求11所述的信息文本过滤系统,其中所述第一类别标识模块具体包 括: 第一类别标签确定单元,用于根据计算出的所述待审核的信息文本属于每种预设判决 结果的概率将概率数值较大的预设判决结果作为所述待审核的信息文本的类别标签。
13. 根据权利要求12所述的信息文本过滤系统,其中还包括信息文本的再学习子系 统,具体包括: 第二预处理模块,用于所述训练样本库中选取的需再学习的信息文本进行预处理,获 得所述需再学习的信息文本对应的多个词语; 第二文本映射模块,用于调入语义扩展参数表,根据所述多个词语和所述语义扩展参 数表将所述需再学习的信息文本从词语空间映射到确定的主题空间; 第二语义分析模块,用于调入分类器参数,根据所述分类器参数对所述需再学习的信 息文本进行统计语义分析; 第二类别标识模块,用于给出所述需再学习的信息文本对应的新类别标签; 原类别标签调取模块,用于从所述训练样本库调取所述需再学习的信息文本对应的原 类别标签; 类别标签比较模块,用于将所述原类别标签与所述新类别标签进行比较,如果两者符 合,则结束所述信息文本的再学习流程; 分类器参数调整模块,用于在原类别标签与新类别标签不符合时,按照预设步长对所 述分类器参数进行调整,并基于调整后的分类器参数触发所述第二类别标识模块、原类别 标签调取模块和类别标签比较模块,直到原类别标签与新类别标签符合。
14. 根据权利要求12所述的信息文本过滤系统,其中还包括训练样本库的构建子系 统,具体包括: 第三预处理模块,用于对待添加的训练信息文本进行预处理; 关键词匹配模块,用于调用关键词列表,并根据所述关键词列表对所述待添加的训练 信息文本进行遍历匹配,统计所述待添加的训练信息文本分别匹配所述关键词列表中各个 关键词的匹配数目; 第二类别标签确定模块,用于根据预设的关键词匹配类别标签的规则,确定所述待添 加的训练信息文本对应的类别标签,并进行标注; 第二入库模块,用于将所述待添加的训练信息文本和标注的类别标签存入所述训练样 本库。
【文档编号】G06F17/27GK104216876SQ201310205069
【公开日】2014年12月17日 申请日期:2013年5月29日 优先权日:2013年5月29日
【发明者】刘东鑫, 刘国荣, 沈军 申请人:中国电信股份有限公司