一种文本分类校正方法及装置的制造方法

文档序号:9200374阅读:379来源:国知局
一种文本分类校正方法及装置的制造方法
【技术领域】
[0001] 本发明涉及文本挖掘技术领域,尤其涉及一种文本分类校正方法及装置。
【背景技术】
[0002] 文本分类是对文本按照一定的分类体系或标准进行分类,将文本划分到预先给定 的类别中。目前,在进行文本分类时,需要确定各种类别的特点,选取一定数量的文本作为 训练样本,通过对训练样本进行训练构建分类模型,采用训练好的分类模型对待分类文本 进行分类。
[0003] 在通过对训练样本进行训练并构建分类模型时,需要大量的训练样本集,并且要 求训练样本集相对待分类文本具有较好的代表性,即训练样本集足够准确,然而,在文本分 类的实际需求中,制作准确的样本集非常困难,造成很多情况下文本分类仍然依赖于人工 进行分类,使得对待分类文本分类出现错误,因此,为了提高文本分类的准确性,需要对分 类结果进行校正,到目前为止,还没有对文本分类结果进行校正的方案。

【发明内容】

[0004] 本发明实施例提供一种文本分类校正方法及装置,用以解决现有技术中存在的文 本分类不准确的问题。
[0005] 本发明实施例提供一种文本分类校正方法,包括:
[0006] 获取各文本类别包括的文本,组成文本集合;
[0007] 对所述文本集合中的文本进行特征词提取处理,得到所述文本集合包括的特征词 语;
[0008] 针对所述文本集合包括的每一个特征词语,根据该特征词语在每一个类别包括的 文本中出现的次数与所述文本集合中包含该特征词语的类别数量的比值,确定该特征词语 在该类别中的权重,该权重与该比值正相关;
[0009] 针对所述文本集合中各类别包括的每一个文本,将该文本包括的各特征词语在该 文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积和,确定为该文本在其 所属类别中的分类校正值;
[0010] 从每一类别包括的文本中,选择分类校正值不大于预设校正阈值的文本,作为待 校正文本;
[0011] 从所述待校正文本在除其所属类别以外的其他类别中,将所述待校正文本的分类 校正值最大的类别,确定为所述待校正文本的新的类别。
[0012] 采用上述实施例提供的方法,由于通过各类别的每个文本包括的特征词语与各特 征词语在该文本中对应的权值的乘积和确定的该文本的分类校正值,能够表征该文本与该 文本所在类别的相关程度,因此可以通过分类校正值识别已经分类文本中的错误分类文 本,对分类错误的文本进行校正,从而重新划分到相关程度最大的类别中,进而能够提高文 本分类的准确性。
[0013] 进一步的,对所述文本集合中的文本进行特征词提取处理,得到所述文本集合包 括的特征词语,具体包括:
[0014] 对所述文本集合中的文本进行分词,将分词后得到的所有词语作为所述文本集合 包括的特征词语。
[0015] 进一步的,对所述文本集合中的文本进行特征词提取处理,得到所述文本集合包 括的特征词语,具体包括:
[0016] 对所述文本集合中的文本进行分词;
[0017] 从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范 围内对应的词语,作为所述文本集合包括的特征词语。
[0018] 在从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数 范围内对应的词语之前,还包括:
[0019] 将分词后得到的词语与预设停用词表中的停用词进行匹配;
[0020] 在分词后得到的词语中,删除匹配成功对应的词语,得到剩余的词语集;
[0021] 从分词后得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范 围内对应的词语,具体包括:
[0022] 从剩余的词语集中,选择所述词语在所述文本集合中出现次数在预设次数范围内 对应的词语。
[0023] 进一步的,上述方法,还包括:
[0024] 当有未分类的文本需要分类时,确定待分类文本在各类别中的分类校正值;
[0025] 将所述待分类文本划分到该待分类文本的分类校正值最大的类别中。
[0026] 这样,通过确定待分类文本在各类别中的分类校正值,还可以实现对未分类的文 本进行分类。
[0027] 本发明实施例还提供了一种文本分类校正装置,包括:
[0028] 获取单元,用于获取各文本类别包括的文本,组成文本集合;
[0029] 处理单元,用于对所述文本集合中的文本进行特征词提取处理,得到所述文本集 合包括的特征词语;
[0030] 第一确定单元,用于针对所述文本集合包括的每一个特征词语,根据该特征词语 在每一个类别包括的文本中出现的次数与所述文本集合中包含该特征词语的类别数量的 比值,确定该特征词语在该类别中的权重,该权重与该比值正相关;
[0031] 第二确定单元,用于针对所述文本集合中各类别包括的每一个文本,将该文本包 括的各特征词语在该文本中的出现次数与各特征词语在该文本所属类别中的权重的乘积 和,确定为该文本在其所属类别中的分类校正值;
[0032] 选择单元,用于从每一类别包括的文本中,选择分类校正值不大于预设校正阈值 的文本,作为待校正文本;
[0033] 第三确定单元,用于从所述待校正文本在除其所属类别以外的其他类别中,将所 述待校正文本的分类校正值最大的类别,确定为所述待校正文本的新的类别。
[0034] 采用上述实施例提供的装置,由于通过各类别的每个文本包括的特征词语与各特 征词语在该文本中对应的权值的乘积和确定的该文本的分类校正值,能够表征该文本与该 文本所在类别的相关程度,因此可以通过分类校正值识别已经分类文本中的错误分类文 本,对分类错误的文本进行校正,从而重新划分到相关程度最大的类别中,进而能够提高文 本分类的准确性。
[0035] 进一步的,所述处理单元,具体用于对所述文本集合中的文本进行分词,将分词后 得到的所有词语作为所述文本集合包括的特征词语。
[0036] 进一步的,所述处理单元,具体用于对所述文本集合中的文本进行分词;从分词后 得到的词语中,选择所述词语在所述文本集合中出现次数在预设次数范围内对应的词语, 作为所述文本集合包括的特征词语。
[0037] 进一步的,所述处理单元,还用于在从分词后得到的词语中,选择所述词语在所述 文本集合中出现次数在预设次数范围内对应的词语之前,将分词后得到的词语与预设停用 词表中的停用词进行匹配;在分词后得到的词语中,删除匹配成功对应的词语,得到剩余的 词语集;从剩余的词语集中,选择所述词语在所述文本集合中出现次数在预设次数范围内 对应的词语。
[0038] 进一步的,上述装置,还包括:
[0039] 第四确定单元,用于当有未分类的文本需要分类时,确定待分类文本在各类别中 的分类校正值;
[0040] 划分单元,用于将所述待分类文本划分到该待分类文本的分类校正值最大的类别 中。
[0041] 这样,通过确定待分类文本在各类别中的分类校正值,还可以实现对未分类的文 本进行分类。
[0042] 本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变 得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明 书、权利要求书、以及附图中所特别指出的结构来实现和获得。
【附图说明】
[0043] 附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施 例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0044] 图1为本发明实施例提供的文本分类校正方法的流程图;
[0045] 图2为本发明实施例1提供的文本分类校正方法的流程图;
[0046] 图3为本发明实施例2提供的文本分类校正装置的结构示意图。
【具体实施方式】
[0047] 为了给出提高文本分类的准确性的实现方案,本发明实施例提供了一种文本分类 校正方法及装置,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所 描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况 下,本申请中的实施例及实施例中的特征可以相互组合。
[0048] 本发明实施例提供一种文本分类校正方法,如图1所示,包括:
[0049] 步骤101、获取各文本类别包括的文本,组成文本集合。
[0050] 步骤102、对该文本集合中的文本进行特
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1