一种互联网数据聚类方法及系统与流程

文档序号：12733658阅读：来源：国知局

技术特征：

1.一种互联网文本数据聚类方法，包括以下步骤：

步骤a：利用主题模型对文本数据进行训练，得到各个主题下所有关键词的概率分布矩阵，并在文本集合中为对关键词进行分组；

步骤b：根据关键词的分组重新组织文本数据的特征集，得到包含关键词分组特征信息的新的文档数据；

步骤c：在包含关键词分组信息的新文档数据上运行双层软子空间聚类算法，生成聚类中心矩阵和样本归属矩阵；

步骤d：重复n次步骤a至步骤c，得到多个聚类结果；

步骤e：在模型集合上运行聚类集成算法，将多个聚类结果进行集成，得到最终的聚类结果。

2.根据权利要求1所述的互联网文本数据聚类方法，其特征在于，在所述步骤a中，在主题模型中设置主题数量、聚类集成模型数据量和聚类簇的数量。

3.根据权利要求2所述的互联网文本数据聚类方法，其特征在于，在所述步骤a中，利用主题模型对文本数据进行训练时，在文本数据集上运行步骤1中设置的相应主题数量的主题模型算法。

4.根据权利要求3所述的互联网文本数据聚类方法，其特征在于，在所述步骤c中，所述双层软子空间聚类算法采用FG-k-means算法。

5.根据权利要求4所述的互联网文本数据聚类方法，其特征在于，在所述步骤e中，所述将多个聚类结果进行集成具体包括：将同一数据集下的多个聚类结果进行融合，得到反应所述数据集内在结构的划分。

6.一种互联网文本数据聚类系统，其特征在于，包括文本数据训练模块、文本数据组织模块、文档数据计算模块、聚类结果循环模块和聚类结果集成模块，所述文本数据训练模块用于利用主题模型对文本数据进行训练，得到各个主题下所有关键词的概率分布矩阵，并在文本集合中为对关键词进行分组；所述文本数据组织模块用于根据关键词的分组重新组织文本数据的特征集，得到包含关键词分组特征信息的新的文档数据；所述文档数据计算模块在包含关键词分组信息的新文档数据上运行FG-k-means算法，生成聚类中心矩阵和样本归属矩阵；所述聚类结果循环模块用于重复文本数据训练、文本数据组织和文档数据计算过程，得到多个聚类结果；所述聚类结果集成模块用于在模型集合上运行聚类集成算法，将多个聚类结果进行集成，得到最终的聚类结果。

7.根据权利要求6所述的互联网文本数据聚类系统，其特征在于，所述文本数据训练模块还用于在主题模型中设置主题数量、聚类集成模型数据量和聚类簇的数量。

8.根据权利要求6所述的互联网文本数据聚类系统，其特征在于，所述文本数据训练模块在文本集合中为对关键词进行分组时，关键词在某个主题下出现的概率较高证明此关键词可以比较好的表达这个主题，将每个关键词留在出现概率最高的主题下，得到固定数量的不同主题。

9.根据权利要求6或7所述的互联网文本数据聚类系统，其特征在于，所述双层软子空间聚类算法是FG-k-means算法。

10.根据权利要求6所述的互联网文本数据聚类系统，其特征在于，所述聚类结果集成模块将多个聚类结果进行集成具体包括：将同一数据集下的多个聚类结果进行融合，得到反应所述数据集内在结构的划分。

完整全部详细技术资料下载

当前第2页1 2 3