基于深度学习的实时推文分类方法及系统与流程

文档序号:36975468发布日期:2024-02-07 13:27阅读:14来源:国知局
基于深度学习的实时推文分类方法及系统与流程

本发明涉及文本分类、深度学习,更具体的说是涉及一种基于深度学习的实时推文分类方法及系统。


背景技术:

1、随着互联网的快速发展和信息的爆炸性增长,人们在日常生活中越来越依赖于社交平台的推文以获取信息和见解。然而,由于信息的海量性质,许多人在寻找特定类型的推文时面临着挑战。在数据监测与治理方面,了解不同类型的推文对于洞察社会趋势、民意变化以及与研究主题相关的重要事件至关重要。因此,能够自动将推文标题分类的系统变得至关重要。

2、传统上,推文分类的方法主要依赖于手工编写的规则和特征工程。这种方法受限于规则的复杂性和特征工程的主观性,使得其准确性和扩展性受到限制。随着深度学习和神经网络技术的崛起,自动推文分类取得了显著的进展。

3、因此,如何提供一种准确性高的实时推文分类方法及系统是本领域技术人员亟需解决的问题。


技术实现思路

1、有鉴于此,本发明提供了一种基于深度学习的实时推文分类方法及系统,以解决背景技术中的问题。

2、为了实现上述目的,本发明提供如下技术方案:

3、一方面,本发明公开了基于深度学习的实时推文分类方法,具体步骤如下:

4、获取原始推文文章标题作为样本数据,根据标题属性对所述样本数据进行类型标注、并进行预处理;

5、建立word2vec模型,并将预处理过的样本数据输入所述word2vec模型进行训练;

6、通过训练好的word2vec模型,将样本数据转换为词向量表示;

7、建立mlp分类器模型,将样本数据传入mlp分类器模型进行模型训练;

8、将待分类数据输入mlp分类器模型,得到最终推文分类结果。

9、优选的,在上述基于深度学习的实时推文分类方法中,还包括增量训练;所述增量训练具体步骤如下:

10、通过网络爬虫获取各大社交平台网站内分类栏的推文标题数据,并通过训练好的word2vec模型,将实时数据转换为词向量表示并传入mlp分类器模型,以天为单位,对mlp分类器模型进行实时增量训练。

11、优选的,在上述基于深度学习的实时推文分类方法中,还包括验证过程,获取样本数据中未参与训练的数据作为验证集数据,根据标题属性对所述验证集数据进行类型标注、并进行预处理,通过训练好的word2vec模型,将验证集数据转换为词向量表示,将词向量输入mlp分类器,若分类效果已达到最佳,得到最终推文分类结果,否则,继续利用训练集数据对mlp分类器模型进行训练。

12、优选的,在上述基于深度学习的实时推文分类方法中,获取原始推文标题文本数据后,根据标题属性对所述样本数据进行类型标注,分别标注为娱乐、体育、政治、军事、科技、自然、生活、教育。

13、优选的,在上述基于深度学习的实时推文分类方法中,对样本数据进行预处理的过程包括:数据增强与数据清洗;其中

14、数据增强包括以下步骤:基于现有的注释数据训练模型,使用经训练的模型对测试集进行预测,将预测结果分为两部分:模型判断正确的样本和模型判断错误的样本,对这两组样本的置信度绘制相应的密度图,观察模型的学习情况,计算模型判断的准确率超过85%时的最低置信度,综合选取最终的阈值;高于阈值的结果直接作为伪标注数据,低于阈值的结果进行人工标注;

15、数据清洗过程包括以下步骤:利用训练后的模型预测原始测试集上的结果;列出模型置信度大于0.8且预测结果与标签不一致的样本,并进行重新标注;对模型置信度大于0.8且标签不一致的样本,采用模型的预测结果。

16、优选的,在上述基于深度学习的实时推文分类方法中,建立word2vec模型具体步骤如下:

17、将文本字符串进行切分,得到字符序列后,再根据词表顺序将每个字符映射为对应的one-hot向量,得到输入x={x0,...,xn};

18、将x输入cbow神经网络,并通过反向传播以及随机梯度下降法来学习隐藏层的权重矩阵wv×d,其中d表示权重向量的维度,v表示词表大小;将训练集数据进行切分,得到字符序列后,再根据词表顺序将每个字符映射为对应的one-hot向量,得到x’={x’0,...,x’n},将x’与权重矩阵wv×d相乘得到词向量e={e0,...,en}。

19、优选的,在上述基于深度学习的实时推文分类方法中,建立mlp分类器模型具体步骤如下:mlp分类器模型包括:输入层、隐藏层和输出层;将训练集数据的词向量输入mlp分类器模型,得到隐藏层输出:x(1)=relu(b(1)+w(1)e),其中w(1)为连接系数,b(1)为偏执;再对x(1)做softmax回归得到输出层输出:y=softmax(b(2)+w(2)x(1)),其中w(2)为连接系数,b(2)为偏执;使用批量梯度下降法对mlp分类器模型进行训练。

20、另一方面,本发明公开了基于深度学习的实时推文分类系统,包括:

21、获取与预处理模块,获取原始推文文章标题作为样本数据,根据标题属性对所述样本数据进行类型标注、并进行预处理;

22、第一模型构建模块,建立word2vec模型,并将预处理过的样本数据输入所述word2vec模型进行训练;

23、词向量转换模块,通过训练好的word2vec模型,将样本数据转换为词向量表示;

24、第二模型构建模块,建立mlp分类器模型,将样本数据传入mlp分类器模型进行模型训练;

25、输出模块,将待分类数据输入mlp分类器模型,得到最终推文分类结果。

26、优选的,在上述基于深度学习的实时推文分类系统中,还包括:增量训练模块;所述增量训练模块通过网络爬虫获取各大社交平台网站内分类栏的推文标题数据,并通过训练好的word2vec模型,将实时数据转换为词向量表示并传入mlp分类器模型,以天为单位,对mlp分类器模型进行实时增量训练。

27、优选的,在上述基于深度学习的实时推文分类系统中,还包括验证模块,获取样本数据中未参与训练的数据作为验证集数据,根据标题属性对所述验证集数据进行类型标注、并进行预处理,通过训练好的word2vec模型,将验证集数据转换为词向量表示,将词向量输入mlp分类器,得到最终推文分类结果,否则,继续利用训练集数据对mlp分类器模型进行训练。

28、经由上述的技术方案可知,与现有技术相比,本发明公开提供了基于深度学习的实时推文分类方法及系统,在实际使用时,由于推文标题文本词的复杂性、多样性以及实时训练的需求,通过word2vec的cbow模型进行推文标题的词向量转换,有利于降低转换过程中的计算和存储成本,提升转换的速率,为后续推文分类模型的训练提供丰富语义信息的词向量表示。通过对模型的实时训练,可以使模型不断适复杂、多变的推文标题,以更高的准确率完成推文标题的分类。



技术特征:

1.基于深度学习的实时推文分类方法,其特征在于,具体步骤如下:

2.根据权利要求1所述的基于深度学习的实时推文分类方法,其特征在于,还包括增量训练;所述增量训练具体步骤如下:

3.根据权利要求1所述的基于深度学习的实时推文分类方法,其特征在于,还包括验证过程,样本数据包括训练集数据和验证集数据,获取样本数据中未参与训练的数据作为验证集数据,根据标题属性对所述验证集数据进行类型标注、并进行预处理,通过训练好的word2vec模型,将验证集数据转换为词向量表示,将词向量输入mlp分类器,得到最终推文分类结果,否则,继续利用训练集数据对mlp分类器模型进行训练。

4.根据权利要求1所述的基于深度学习的实时推文分类方法,其特征在于,获取原始推文标题作为样本数据后,根据标题属性对所述样本数据进行类型标注,分别标注为娱乐、体育、政治、军事、科技、自然、生活、教育。

5.根据权利要求3所述的基于深度学习的实时推文分类方法,其特征在于,对样本数据进行预处理的过程包括:数据增强与数据清洗;其中

6.根据权利要求1所述的基于深度学习的实时推文分类方法,其特征在于,建立word2vec模型具体步骤如下:

7.根据权利要求1所述的基于深度学习的实时推文分类方法,其特征在于,建立mlp分类器模型具体步骤如下:mlp分类器模型包括:输入层、隐藏层和输出层;将训练集数据的词向量输入mlp分类器模型,得到隐藏层输出:x(1)=relu(b(1)+w(1)e),其中w(1)为连接系数,b(1)为偏执;再对x(1)做softmax回归得到输出层输出:y=softmax(b(2)+w(2)x(1)),其中w(2)为连接系数,b(2)为偏执;使用批量梯度下降法对mlp分类器模型进行训练。

8.基于深度学习的实时推文分类系统,其特征在于,包括:

9.根据权利要求8所述的基于深度学习的实时推文分类系统,其特征在于,还包括:增量训练模块;所述增量训练模块通过网络爬虫获取各大社交平台网站内分类栏的推文标题数据,并通过训练好的word2vec模型,将实时数据转换为词向量表示并传入mlp分类器模型,以天为单位,对mlp分类器模型进行实时增量训练。

10.根据权利要求8所述的基于深度学习的实时推文分类系统,其特征在于,还包括验证模块,获取样本数据中未参与训练的数据作为验证集数据,根据标题属性对所述验证集数据进行类型标注、并进行预处理,通过训练好的word2vec模型,将验证集数据转换为词向量表示,将词向量输入mlp分类器,得到最终推文分类结果,否则,继续利用训练集数据对mlp分类器模型进行训练。


技术总结
本发明公开了基于深度学习的实时推文分类方法及系统,应用于文本分类,获取原始推文文章标题作为样本数据,根据标题属性对所述样本数据进行类型标注、并进行预处理;建立word2vec模型,并将预处理过的样本数据输入所述word2vec模型进行训练;通过训练好的word2vec模型,将样本数据转换为词向量表示;建立MLP分类器模型,将样本数据传入MLP分类器模型进行模型训练;将待分类数据输入MLP分类器模型,得到最终推文分类结果。由于推文标题文本词的复杂性、多样性以及实时训练的需求,进行推文标题的词向量转换,有利于降低转换过程中的计算和存储成本,提升转换的速率。

技术研发人员:赵芸伟,韩晗,刘美辰,王鲁华
受保护的技术使用者:国家计算机网络与信息安全管理中心
技术研发日:
技术公布日:2024/2/6
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1