一种基于深度学习和TFIDF算法的文本情感分析方法与流程

文档序号:22501305发布日期:2020-10-13 09:34阅读:来源:国知局

技术特征:

1.一种基于深度学习和tfidf算法的文本情感分析方法,其特征在于:包括以下步骤:

步骤s1:进行标签标注、停用词处理和中文分词三个部分的数据预处理;

步骤s2:构建词向量模型;利用word2vec模型,典型语料维基百科中文语料结合文本语料进行训练得到词向量即词向量生成模型,其中词向量生成模型包含信息特征的词向量;

步骤s3:进行情感分析模型的构建;

步骤s4:进行新语料的预测。

2.根据权利要求1所述的一种基于深度学习和tfidf算法的文本情感分析方法,其特征在于:所述步骤s1的具体包括以下步骤:

步骤s11:中文分词;

步骤s12:停用词剔除:分别将步骤s11中所述两种文本中的每个词与设置的停用词表进行对比,若匹配到停用词则将该词从所述文本中剔除;

步骤s13:对步骤s11中所述两种文本进行人工标注:将包含积极情感的文本打上1的标签,包含中性情感的文本打上0的标签,包含消极情感的文本打上2的标签。

3.根据权利要求1所述的一种基于深度学习和tfidf算法的文本情感分析方法,其特征在于:所述步骤s3具体包括以下步骤:

步骤s31:将步骤s2中训练得到的词向量结合,并作为深度学习训练模型的输入,然后利用卷积神经网络提取训练文本中的局部特征;

步骤s32:对于卷积层提取到的局部特征通过卷积神经网络中的池化层将填充后的文本局部特征矩阵送入lstm神经网络层中获取训练样本中文本的全局特征矩阵;

步骤s33:利用tf-idf算法得到所述中文语料文本的文档词频矩阵;

步骤s34:通过tfidf特征得到的词频矩阵来表示文本的特征矩阵,将该特征矩阵作为神经网络中隐藏层的输入矩阵进行训练得到新的文本特征矩阵;

步骤s35:采用填充的方法拼接具有tfidf特征的矩阵和lstm层的全局特征矩阵;

步骤s36:利用softmax函数对拼接后的文本特征矩阵进行分类,用以进行情感分析。

4.根据权利要求1所述的一种基于深度学习和tfidf算法的文本情感分析方法,其特征在于:步骤s33中所述tf-idf算法的具体内容为:

词频tf的计算:文本内每个词出现的次数称为词频,由于文本长度不一通常会对词频进行归一化,词频的计算公式为:

其中,tfij表示第i个词在第j个文本的词频值,nij表示第j个文本中第i个词出现的次数,表示第j个文本中所有词的词频总和。考虑到少部分词频较高的词会影响整体的比例,词频归一化后还会进行对数处理,如公式(2)所示:

逆文档频率idf的计算:设dfi表示含有第i个词的文本总数,n为语料中文本总数,则计算idf值的公式如下所示:

由公式可知如果一个词在大部分文本中出现,则其对应dfi越大,idfi越小;

tf-idf值的计算:将第j个文本中第i个词的tf-idf值记为tfidfij,在tf和idf基础上,可根据公式(4)直接计算:

tfidfij=tfij×idfi(4)

tf-idf算法的原理为:如果一个词在单个文本内出现次数越多,其tf-idf值就越大,如果一个词在多个文档中出现,其tf-idf值反而下降;因此,tf-idf算法侧重于剔除频繁出现的词,保留携带重要信息的词。

5.根据权利要求1所述的一种基于深度学习和tfidf算法的文本情感分析方法,其特征在于:所述步骤s4的具体内容为:对测试评论语句进行分词处理、情感标签与词性标签标注处理,并根据步骤s2获得的词向量文件获得该测试评论的词向量输入矩阵;然后通过步骤s3将该测试词向量转化为测试句子向量,将测试句子向量输入到情感分类模型中,计算得到此段评论的情感倾向分为积极、消极或中性。


技术总结
本发明涉及一种基于深度学习结合TFIDF算法的中文情感分析方法,将获取的中文语料及维基百科的中文语料进行文本预处理后,使用word2vec模型分别进行训练,然后结合两者训练的得到的词向量,作为深度学习训练模型的输入,然后进行情感分析模型的构建;最后,进行新语料的预测。本发明无需进行复杂的词典构建,减少了人工成本,避免了繁琐的特征工程构建对分类结果的影响,同时将深度学习模型中学习的特征结合了传统的语义信息,增加了分类的准确性。此外,在词向量的训练中将文本自身领域与维基百科的中文语料纳入考虑,提高了词向量对文本语义信息表达的准确性。

技术研发人员:陈柏杭;张振昌;张少涵;高丽斌;陈日清
受保护的技术使用者:福建农林大学
技术研发日:2020.06.30
技术公布日:2020.10.13
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1