基于主题增强词表示的短文本分类方法和系统

文档序号：36920299发布日期：2024-02-02 21:47阅读：19来源：国知局

本发明涉及文本分类，具体涉及一种基于主题增强词表示的短文本分类方法和系统。

背景技术：

1、随着移动互联网技术的发展，以知乎、微博等为代表的一系列社交平台应运而生。在这些社交平台中，用户们围绕感兴趣的内容进行自由交流，产生了许多包含用户观点的有用评论短文本。因此，构建短文本分类方法有助于识别出包含关键信息的短文本，为后续的用户观点挖掘提供支持。

2、短文本由于词汇量有限、上下文不完整和缺乏复杂的句法结构等原因，通常表现出信息量少和特征稀疏的特点。传统的短文本分类通常将n-gram、tf-idf文本特征输入到机器学习模型进行分类，通过增加特征工程的方式来提升短文本分类的效果。但是机器学习的特征工程构建通常需要依赖人工的经验和领域知识，难以进行大规模数据处理。

3、或者，现有的深度学习技术往往利用word2vec、bert等模型训练的词嵌入来向量化短文本，并通过cnn、rnn、transformer等模型来进行文本分类任务。但由于用户的评论内容往往属于同一个领域，基于通用知识库训练的词向量可能会稀释短文本所在领域中词汇的语义，且分类模型仅依赖文本语义表示难以判断分类所需的关键信息特征，使得短分类精度不高。

4、因此，亟需一种短文本分类方法，用以提升短文本分类的分类精度。

技术实现思路

1、（一）解决的技术问题

2、针对现有技术的不足，本发明提供了一种基于主题增强词表示的短文本分类方法和系统，解决了现有短文本分类的分类精度较低的问题。

3、（二）技术方案

4、为实现以上目的，本发明通过以下技术方案予以实现：

5、第一方面，本发明提供一种基于主题增强词表示的短文本分类方法，包括：

6、s1、获取目标领域的待分类文本并进行预处理，对预处理后的待分类文本中的词进行初始向量化，得到待分类文本的初始词向量；

7、s2、基于预先训练的词向量增强模型对所述待分类文本的初始词向量进行主题增强，得到待分类文本的主题增强的词向量；

8、s3、基于预先构建的textcnn网络对所述主题增强的词向量进行处理，得到文本分类结果；

9、其中，所述预先构建词向量增强模型通过目标领域的训练文本训练改进的skip-gram模型得到，所述改进的skip-gram模型是在skip-gram模型上增加预测中心词主题得分的任务。

10、优选的，所述预先构建词向量增强模型的构建过程包括：

11、a、获取目标领域的多条短文本，并进行清洗和分词处理，得到目标领域语料库，并对目标领域语料库中的词进行初始化词向量；

12、b、将目标领域语料库中的每个词依次作为中心词，并基于中心词对目标领域语料库进行窗口滑动操作，获取所述中心词的上下文词，将中心词的上下文词的初始词向量作为上下文矩阵真实值；

13、c、基于预设的主题词典获取所述中心词对应的主题得分，作为主题得分真实值；

14、d、将中心词的初始词向量输入至改进的skip-gram模型的隐藏层，预测中心词主题得分；

15、e、基于所述上下文矩阵真实值、主题得分真实值、中心词主题得分和预设的词向量增强模型损失函数，计算损失值，并进行误差反向传播用于更新输出层和隐藏层之间的权重；设置一个最大的训练轮数b，如果词向量增强模型损失值在b轮次中没有降低，则提前结束训练，得到词向量增强模型，其中b<b。

16、优选的，所述预设的主题词典的构建过程包括：

17、从目标领域语料库中随机选取条随机样本，从与目标领域无关的领域选取条随机样本；

18、并对条随机样本进行数据清洗和分词处理，以得到单词集合；

19、根据出现频率从多至少的顺序选取所述单词集合中个单词，作为常用词；

20、计算所述常用词在目标领域的出现频率和在无关领域的出现频率，并对所述出现频率进行归一化处理；

21、通过归一化处理后的出现频率提取所述常用词中的通用常用词和领域特异性词汇；

22、从所述目标领域语料库中删除通用常用词，并留领域特异性词汇，得到处理后的目标领域语料库；

23、基于预设的lda模型对处理后的目标领域语料库进行主题提取，得到主题词典。

24、优选的，所述预设的词向量增强模型损失函数包括：

25、

26、其中，表示词向量增强模型损失函数，表示预测窗口内上下文词任务的损失函数，表示预测主题词得分任务的函数，为权重。

27、优选的，所述预先构建的textcnn网络包括卷积层、chunk-maxpooling网络层、全连接网络层和最大池化层，其中，最大池化层为chunk-maxpooling网络层。

28、优选的，所述对预处理后的待分类文本中的词进行初始向量化，包括：基于one-hot对预处理后的待分类文本中的词进行初始向量化。

29、第二方面，本发明提供一种基于主题增强词表示的短文本分类系统，包括：

30、数据获取模块，用于获取目标领域的待分类文本并进行预处理，对预处理后的待分类文本中的词进行初始向量化，得到待分类文本的初始词向量；

31、词向量增强模块，用于基于预先训练的词向量增强模型对所述待分类文本的初始词向量进行主题增强，得到待分类文本的主题增强的词向量；

32、分类模块，用于基于预先构建的textcnn网络对所述主题增强的词向量进行处理，得到文本分类结果；

33、其中，所述预先构建词向量增强模型通过目标领域的训练文本训练改进的skip-gram模型得到，所述改进的skip-gram模型是在skip-gram模型上增加预测中心词主题得分的任务。

34、优选的，所述预先构建词向量增强模型的构建过程包括：

35、a、获取目标领域的多条短文本，并进行清洗和分词处理，得到目标领域语料库，并对目标领域语料库中的词进行初始化词向量；

36、b、将目标领域语料库中的每个词依次作为中心词，并基于中心词对目标领域语料库进行窗口滑动操作，获取所述中心词的上下文词，将中心词的上下文词的初始词向量作为上下文矩阵真实值；

37、c、基于预设的主题词典获取所述中心词对应的主题得分，作为主题得分真实值；

38、d、将中心词的初始词向量输入至改进的skip-gram模型的隐藏层，预测中心词主题得分；

39、e、基于所述上下文矩阵真实值、主题得分真实值、中心词主题得分和预设的词向量增强模型损失函数，计算损失值，并进行误差反向传播用于更新输出层和隐藏层之间的权重，设置一个最大的训练轮数b，如果词向量增强模型损失值在b轮次中没有降低，则提前结束训练，得到词向量增强模型，其中b<b。

40、第三方面，本发明提供一种计算机可读存储介质，其存储用于基于主题增强词表示的短文本分类的计算机程序，其中，所述计算机程序使得计算机执行如上述所述的基于主题增强词表示的短文本分类方法。

41、第四方面，本发明提供一种电子设备，包括：

42、一个或多个处理器，存储器，以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上述所述的基于主题增强词表示的短文本分类方法。

43、（三）有益效果

44、本发明提供了一种基于主题增强词表示的短文本分类方法和系统。与现有技术相比，具备以下有益效果：

45、本发明通过获取目标领域的待分类文本并进行预处理，对预处理后的待分类文本中的词进行初始向量化，得到待分类文本的初始词向量；基于预先训练的词向量增强模型对所述待分类文本的初始词向量进行主题增强，得到待分类文本的主题增强的词向量；基于预先构建的textcnn网络对所述主题增强的词向量进行处理，得到文本分类结果；其中，所述预先构建词向量增强模型通过目标领域的训练文本训练改进的skip-gram模型得到，所述改进的skip-gram模型是在skip-gram模型上增加预测中心词主题得分的任务。本发明通过待分类文本所属领域的训练文本对改进的skip-gram模型进行训练，得到的词向量增强模型可以获得词语的丰富语义信息，减少短文本信息量少、特征稀疏对分类任务的影响，有效提升短文本分类的分类精度。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王芹,顾王逸青,朱凯旋,赵树平,杨雪洁,戈戋
技术所有人：合肥工业大学
我是此专利的发明人

上一篇：一种具有防尘结构的齿轴的制作方法
上一篇：单内套橡胶衬套与臂体卧式装配的定位装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。