一种文本分类方法和装置以及处理方法和装置与流程

文档序号：12733619阅读：来源：国知局

技术特征：

1.一种文本分类方法，其特征在于，所述文本分类方法包括：

对待预测数据进行分词，得到所述待预测数据中的各词；

根据预设的各类别与种子关键词之间的第一映射关系、各类别与拓展关键词之间的第二映射关系，确定与所述待预测数据中的各词对应的种子关键词和/或拓展关键词分别属于各类别的可能性表征值；以及

根据与所述待预测数据中的各词对应的种子关键词和/或拓展关键词分别属于各类别的可能性表征值，对所述待预测数据进行分类；

其中，所述第二映射关系是根据所述第一映射关系以及训练数据，利用半监督主题模型建立的。

2.根据权利要求1所述的文本分类方法，其特征在于，预设的各类别与种子关键词之间的第一映射关系是通过以下方式建立的：

指定各类别以及各类别分别包含的种子关键词；以及

通过映射算法确定所述种子关键词属于各类别的可能性表征值。

3.根据权利要求2所述的文本分类方法，其特征在于，所述映射算法包括TF-IDF映射算法。

4.根据权利要求1所述的文本分类方法，其特征在于，所述第二映射关系的建立包括：

对所述训练数据进行分词，得到所述训练数据中的各词；

基于所述训练数据中的各词生成拓展关键词；以及

根据所述拓展关键词与所述种子关键词之间的近似度，确定所述拓展关键词所属的类别以及所述拓展关键词属于各类别的可能性表征值。

5.根据权利要求4所述的文本分类方法，其特征在于，对所述待预测数据进行分类包括：

针对每个类别，对与所述待预测数据中的各词对应的种子关键词和/或拓展关键词分别属于该类别的可能性表征值进行求和；

根据针对每个类别得到的和，确定所述待预测数据所属的类别。

6.一种文本分类装置，其特征在于，所述文本分类装置包括：

分词模块，所述分词模块用于对待预测数据进行分词，得到所述待预测数据中的各词；

确定模块，所述确定模块用于根据预设的各类别与种子关键词之间的第一映射关系、各类别与拓展关键词之间的第二映射关系，确定与所述待预测数据中的各词对应的种子关键词和/或拓展关键词分别属于各类别的可能性表征值；以及

分类模块，所述分类模块用于根据与所述待预测数据中的各词对应的种子关键词和/或拓展关键词分别属于各类别的可能性表征值，对所述待预测数据进行分类；

其中，所述文本分类装置还包括第二建立模块，所述第二建立模块用于根据所述第一映射关系以及训练数据，利用半监督主题模型建立所述第二映射关系。

7.根据权利要求6所述的文本分类装置，其特征在于，所述文本分类装置还包括第一建立模块，所述第一建立模块用于通过以下方式建立所述第一映射关系：

指定各类别以及各类别分别包含的种子关键词；以及

通过映射算法确定所述种子关键词属于各类别的可能性表征值。

8.根据权利要求7所述的文本分类装置，其特征在于，所述映射算法包括TF-IDF映射算法。

9.根据权利要求6所述的文本分类装置，其特征在于，所述第二建立模块还用于：

对所述训练数据进行分词，得到所述训练数据中的各词；

基于所述训练数据中的各词生成拓展关键词；以及

根据所述拓展关键词与所述种子关键词之间的近似度，确定所述拓展关键词所属的类别以及所述拓展关键词属于各类别的可能性表征值。

10.根据权利要求9所述的文本分类装置，其特征在于，所述分类模块还用于：

针对每个类别，对与所述待预测数据中的各词对应的种子关键词和/或拓展关键词分别属于该类别的可能性表征值进行求和；

根据针对每个类别得到的和，确定所述待预测数据所属的类别。

11.一种处理方法，其特征在于，所述处理方法包括：

建立预设的各类别与种子关键词之间的第一映射关系；

对训练数据进行分词，得到训练数据中的各词；以及

基于预设的各类别与种子关键词之间的第一映射关系和所述训练数据中的各词，通过半监督主题模型，从所述训练数据中的各词中确定拓展关键词，并在各类别与所述拓展关键词之间建立第二映射关系；

其中，所述第一映射关系和第二映射关系用于在接收到待预测数据之后，对所述待预测数据进行文本分类。

12.根据权利要求11所述的处理方法，其特征在于，建立预设的各类别与种子关键词之间的第一映射关系包括：

指定各类别以及各类别分别包含的种子关键词；以及

通过映射算法确定所述种子关键词属于各类别的可能性表征值。

13.根据权利要求12所述的处理方法，其特征在于，所述映射算法包括TF-IDF映射算法。

14.根据权利要求11所述的处理方法，其特征在于，在各类别与所述拓展关键词之间建立第二映射关系包括：

根据所述拓展关键词与所述种子关键词之间的近似度，确定所述拓展关键词所属的类别以及所述拓展关键词属于各类别的可能性表征值。

15.一种处理装置，其特征在于，所述处理装置包括：

第一建立模块，所述第一建立模块用于建立预设的各类别与种子关键词之间的第一映射关系；

分词模块，所述分词模块用于对训练数据进行分词，得到训练数据中的各词；以及

第二建立模块，所述第二建立模块用于基于预设的各类别与种子关键词之间的第一映射关系和所述训练数据中的各词，通过半监督主题模型，从所述训练数据中的各词中确定拓展关键词，并在各类别与所述拓展关键词之间建立第二映射关系；

其中，所述处理装置还包括分类模块，所述分类模块用于在接收到待预测数据之后，根据所述第一映射关系和第二映射关系对所述待预测数据进行文本分类。

16.根据权利要求15所述的处理装置，其特征在于，所述第一建立模块还用于：

指定各类别以及各类别分别包含的种子关键词；以及

通过映射算法确定所述种子关键词属于各类别的可能性表征值。

17.根据权利要求16所述的处理装置，其特征在于，所述映射算法包括TF-IDF映射算法。

18.根据权利要求15所述的处理装置，其特征在于，所述第二建立模块还用于：

根据所述拓展关键词与所述种子关键词之间的近似度，确定所述拓展关键词所属的类别以及所述拓展关键词属于各类别的可能性表征值。

完整全部详细技术资料下载

当前第2页1 2 3