一种基于TF-IDF和LDA主题模型的语料集分类方法

文档序号：35138903发布日期：2023-08-17 01:18阅读：63来源：国知局

本发明涉及语料集的分类，特别是涉及一种基于tf-idf和lda主题模型的语料集分类方法。

背景技术：

1、在当今全球化、信息化的背景下，工程科技的发展水平体现着一国的核心竞争力。在国外相关研究中，支持个性化学习的技术主要有数据挖掘技术、协同过滤技术、遗传算法及聚类算法。基于层次分析法(ahp)定量计算支撑课程与毕业要求的目标权重值，最终确定达成度评价的综合得分，研究期望为毕业要求达成度评价提供新的定量评价机制，然而其缺少与学生的互动交流，忽视了学生的主观能动性和专业应用领域的创新能力。

2、这种情况下就需要社会各方面提供相应的意见或建议，但是大量的语料数据获取后，很难有效地实现关键信息的提取和分类，来获取相应的关键信息。

技术实现思路

1、本发明的目的在于克服现有技术的不足，提供一种基于tf-idf和lda主题模型的语料集分类方法，基于tf-idf算法和lda主题模型对于语料信息进行主题分类，配合用户词典、停用词文档和近义词表等使用jieba库进行文本分词，具有良好的主题分类能力，为关键信息的获取提供了有效条件。

2、本发明的目的是通过以下技术方案来实现的：一种基于tf-idf和lda主题模型的语料集分类方法，包括以下步骤：

3、s1.建立用于保存待分类语料信息的语料库，并构建用户词典、停用词文档和近义词表；

4、s2.构建分词模型，将语料库中的每一条语料信息进行分词处理；

5、s3.基于分词处理结果，使用tf-idf算法提取关键信息；

6、s4.通过lda主题模型进行主题分类。

7、本发明的有益效果是：本发明基于tf-idf算法和lda主题模型对于语料信息进行主题分类，配合用户词典、停用词文档和近义词表等使用jieba库进行文本分词，具有良好的主题分类能力，为关键信息的获取提供了有效条件。

技术特征：

1.一种基于tf-idf和lda主题模型的语料集分类方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于tf-idf和lda主题模型的语料集分类方法，其特征在于：所述步骤s1包括：

3.根据权利要求1所述的一种基于tf-idf和lda主题模型的语料集分类方法，其特征在于：所述步骤s2包括：

4.根据权利要求1所述的一种基于tf-idf和lda主题模型的语料集分类方法，其特征在于：所述步骤s3中，需要计算每一条语料信息重点词的tf-idf权值，具体计算步骤如下：

5.根据权利要求1所述的一种基于tf-idf和lda主题模型的语料集分类方法，其特征在于：所述步骤s4中利用lda主题模型进行分类时，需要首先为lda主题模型定义多种主题，然后将所有语料信息的关键词输出lda主题模型中，由lda主题模型将各个关键词划分到不同的主题下。

技术总结
本发明公开了一种基于TF‑IDF和LDA主题模型的语料集分类方法，包括以下步骤：S1.建立用于保存待分类语料信息的语料库，并构建用户词典、停用词文档和近义词表；S2.构建分词模型，将语料库中的每一条语料信息进行分词处理；S3.基于分词处理结果，使用TF‑IDF算法提取关键信息；S4.通过LDA主题模型进行主题分类。本发明基于TF‑IDF算法和LDA主题模型对于语料信息进行主题分类，配合用户词典、停用词文档和近义词表等使用jieba库进行文本分词，具有良好的主题分类能力，为关键信息的获取提供了有效条件。

技术研发人员：贺航飞,李军,兰晓青,兰晓倩,张代科,黄云,卫泽东,杨倩
受保护的技术使用者：四川农业大学
技术研发日：
技术公布日：2024/1/14

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：贺航飞李军兰晓青兰晓倩张代科黄云卫泽东杨倩
技术所有人：四川农业大学
我是此专利的发明人

上一篇：一种双冷型永磁同步电机的制作方法
上一篇：一种基于能量优化组合赋权法的无线自组网络链路选择方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。