本发明涉及一种基于混合神经网络的可解释中文评论情感分析方法,属于情感分析。
背景技术:
1、随着互联网的高速发展,电子商务逐渐融入人们的日常生活,电商平台上积累了分布广泛且数量庞大的用户评论数据。通过分析用户评论,商家可以了解人们对产品的满意度,及时知晓市场动态,且及时了解用户的喜好情感,有助于商家推出新的产品,改进自身的服务。因此在各大平台分析用户评论中的情感色彩和具有倾向性的言论,对商家而言具有重要意义。然而,由于用户评论数量庞大,商家很难直接从众多评论中获取有效信息,因此需要借助人工智能技术从众多评论中挖掘有用的信息。近年来,深度学习在自然语言处理领域取得了很好的效果,一些基本的方向包括词向量化,分词,词性标注,命名实体识别,文本结构化等研究逐渐成熟,可以直接被用于一些基础的文本处理任务,诸如快递地址自动识别与填充,文本文件的分类,文章标签与摘要提取,标题生成等。研究发现,在众多情感分析算法中,基于深度学习的情感分析算法因为可以利用上下文信息取得了最佳效果。
2、然而,在实际应用时,人们不能完全相信模型的分析结果。这是因为人们缺乏对深度学习内部工作机理的理解与分析,而深度神经网络通常被看作“黑盒”模型,导致只能观察模型的预测结果,而不能了解模型产生决策的原因。因此提出一个可解释的评论分析模型具有重要的理论意义与实际应用价值。
技术实现思路
1、针对以上问题,本发明提出一种基于混合神经网络的可解释中文评论情感分析方法及系统。该方法提出了一种由分析器和解释生成器两个模块组成的可解释中文评论情感模型。两个模块在模型训练时一起训练,但是在使用时可以看做是独立单元。其中分析器对评论的情感趋向进行分析,解释生成器从评论中提取模型的预测依据,从一定程度上解决了深度神经网络不可解释的问题,让模型更加可信。
2、为了实现上述目标,本发明的技术方案如下,一种基于混合神经网络的可解释中文评论情感分析方法,所述方法包括以下步骤:
3、(1)获取训练样本集:利用网络爬虫爬取电商平台长度超过5个字的评论,评分小于3分的评论归入差评集,评分等于3分的归入中评集,评分超过3分的归入好评集。由于电商平台追加评论时并不能进行评分,因此爬取用户评论时只爬取初次评论。
4、(2)数据预处理:先去除系统的默认好评,再清洗掉评论中的表情、颜文字、标点符号,然后利用比较删除法去除重复的文本,之后再删除清洗后长度小于5的评论,最后利用jieba第三方库进行分词。
5、(3)构建模型:分别构建分析器macbert-textcnn模型和解释生成器rcnn模型。其中分析器先利用macbert捕捉底层语义语法信息,获取文本表示,然后使用textcnn对文本进行特征提取后输入到全连接的softmax层得到输出。解释生成器为两层递归卷积神经网络其输出为二进制变量{z1,...,zl},其中zt∈0,1,表示是否选择第t个词作为模型预测依据。
6、(4)联合训练分析器和解释生成器:输入样本数据联合训练分析器与解释生成器。训练时文本先输入到解释生成器中,得到预测依据后,再将预测依据输入到分析器中,通过这样的训练方式让分析器和解释生成器共同学习。
7、一种基于混合神经网络的可解释中文评论情感分析系统,其特征在于,所述系统包括:
8、(1)数据管理模块:该模块拥有三个功能,一是新增数据,爬取数据库中没有的评论,通过情感分析与解释模块得到评论的情感趋向和模型预测依据后与原评论一起存入数据库;二是删除数据,三是数据查询。
9、(2)情感分析与解释模块:该模块拥有两个功能,一是情感分析,分析输入文本的情感趋向;二是模型解释,即向用户提供模型分析依据。两个功能通过本发明提出的模型实现。
10、(3)信息展示模块:模块拥有两个功能,一是预测依据展示,可以查看每条评论的预测依据;二是统计信息展示,对指定时间段内的评论情感趋向和预测依据进行统计,将统计结果以图表的形式进行展示,包括各种评论占比,商品优点展示,商品缺点展示等。
11、相比于现有的情感分析方法,本发明提出的方法针对中文评论拥有非常好的预测精度,而且解决了现有情感分析方法缺乏解释性的问题。本发明使用macbert构建分析器,macbert是专门针对中文的预训练模型,提取中文评论的语义语法信息时效果更好。同时本发明提出的方法添加了解释生成器,可以给出模型的预测依据,向用户展示模型主要根据文本的哪一部分做出判断。因此本发明中提出的方法针对中文评论拥有非常好的预测精度,同时具有更好的可解释性,对用户更加友好,增加了用户对模型的可信度。
1.一种基于混合神经网络的可解释中文评论情感分析方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的基于混合神经网络的可解释中文评论情感分析方法,其特征在于,其中获取训练样本集包括:利用网络爬虫爬取电商平台长度超过5个字的评论,评分小于3分的评论划为差评集,评分等于3分评论的划为中评集,评分超过3分的评论划为好评集。
3.根据权利要求1所述的基于混合神经网络的可解释中文评论情感分析方法,其特征在于,其中数据预处理包括:先去除系统的默认好评,再清洗掉评论中的表情、颜文字、标点符号,然后利用比较删除法去除重复的文本,之后再删除清洗后长度小于5的评论,最后利用jieba第三方库进行分词。
4.根据权利要求1所述的基于混合神经网络的可解释中文评论情感分析方法,其特征在于,其中构建分析器包括:先利用macbert捕捉底层语义语法信息,获取文本表示,然后使用textcnn对文本进行特征提取后输入到全连接的softmax层得到输出。
5.根据权利要求1所述的基于混合神经网络的可解释中文评论情感分析方法,其特征在于,其中构建解释生成器包括:解释生成器为两层递归卷积神经网络,其输出为二进制变量
6.根据权利要求1所述的基于混合神经网络的可解释中文评论情感分析方法,其特征在于,其中联合训练分析器和解释生成器,训练目标是让解释生成器提取到的预测依据可以使分析器得到与原文本相同的结果,因此训练时文本先输入到解释生成器中,得到预测依据后,再将预测依据输入到分析器中,通过这样的训练方式让分析器和解释生成器共同学习。
7.一种基于混合神经网络的可解释中文评论情感分析系统,其特征在于,用于实现权利要求1-6任意一项所述的情感分析方法,所述系统包括:
8.根据权利要求7所述的基于混合神经网络的可解释中文评论情感分析系统,其特征在于,所述数据管理模块,新增数据功能指爬取数据库中没有的评论,通过情感分析与解释模块得到评论的情感趋向和模型预测依据后与原评论一起存入数据库。
9.根据权利要求7所述的基于混合神经网络的可解释中文评论情感分析系统,其特征在于,所述情感分析与解释模块的功能通过权利要求1所述方法模型实现的。