本发明属于文本数据分析领域,具体涉及一种基于方面的文本情感分析方法。
背景技术:
1、随着社交媒体、在线评论和消费者反馈等大量文本数据的产生,人们越来越关注从这些数据中提取有价值信息。而情感分析作为一种可以自动化处理和分析大规模文本数据的方法,受到了广泛关注。
2、然而,传统的情感分析方法通常只能给出整体情感极性(如正面或负面),而无法进一步细化到特定方面。例如,在产品评论中,一个评论可能包含对多个不同方面(如外观、性能、价格等)的评价。基于方面的情感分析则可以帮助我们更好地理解用户对不同方面的态度和观点。通过基于方面的情感分析,企业可以更好地了解用户对其产品各个方面的满意度和不满意度,从而指导产品改进和营销策略的制定。
3、基于方面的文本情感分析是一种文本分析技术,旨在识别和理解文本中关于特定方面的情感或观点。传统的情感分析主要关注整体情感,而基于方面的情感分析则更加细致地分析了文本中不同方面的情感。基于方面的情感分析需要结合自然语言处理、机器学习和数据挖掘等技术。常见的方法包括使用词袋模型、情感词典、机器学习分类器等进行特征提取和分类。该技术在许多领域都有应用,例如市场调研、产品管理、舆情监测等。
4、情感分析旨在使用机器自动推断互联网上用户生成的文本的情感强度或态度。由于情感分析对现实社会的影响很大,它促进了广泛的下游应用,在过去几十年里一直是自然语言处理和数据挖掘领域的基础研究方向。情感分析的初始方法采用基于规则的模型,例如,使用情感或观点词汇,或设计硬编码的正则表达式。然后,研究人员将统计机器学习模型与手工制作的任务特征结合起来。
5、在过去的十年中,深度学习方法受到了极大的关注。神经网络结合连续分布特征被广泛用于提高情感分析的任务性能。特别是长短期记忆(lstm)模型、卷积神经网络(cnn)、注意机制、图卷积网络(gcn)是最值得注意的深度学习方法,已被广泛用于情感分析。另一方面,研究重点已经转移到基于方面的情感分析(absa),它可以检测句子中特定方面的情绪极性。与标准的粗粒度(即句子级)情感分析相比,这种细粒度分析对现实场景的影响更大,例如社交媒体文本和产品评论,从而促进了更广泛的下游应用。先前的情感分析方法大多采用具有手工制作的离散特征的统计机器学习模型。后来,神经网络结合连续分布特征被广泛应用于句子级情感分析,取得了较大的成功。粗粒度情感分析神经模型与absa神经模型的不同之处在于,absa神经模型还需要对与其上下文相关的目标方面进行建模。
6、由此催生的文本情感分析是一种通过使用自然语言处理、文本挖掘和机器学习等技术,对文本的情感进行分析和判断的方法。它主要通过识别文本中所表达的情感倾向(如积极、消极或中性),从而帮助人们了解文本作者的情绪、态度和观点。文本情感分析在各个领域具有重要性,包括市场营销、社交媒体监测、舆情分析等。随着自然语言处理和机器学习技术的不断发展,文本情感分析在各个领域中的应用也越来越广泛。
7、文本情感分析的常用方法如下:
8、①词典方法:基于构建情感词典,对文本中的词语进行情感倾向判断。这种方法通过统计正负面词汇的数量来计算文本的情感得分。
9、②机器学习方法:通过训练一个分类模型,将文本分为积极、消极或中性等类别。这种方法需要标记好的训练数据集,并使用特征提取和分类算法来构建模型。
10、③深度学习方法:利用深度神经网络(如卷积神经网络和循环神经网络)进行文本情感分析。这种方法可以自动从原始文本中学习特征,并具有更好的性能。
11、其中基于方面的情感分析(absa)是一种文本分析技术,旨在识别和理解文本中关于特定方面的情感或观点。它通过将文本中的情感与特定方面进行关联,帮助我们更好地了解用户对不同方面的态度和观点。基于方面的情感分析专注于检测各个方面(例如,餐馆评论领域的食物或服务)并确定它们的极性,从而能够更详细地分析和理解所表达的情绪。可以将absa任务进一步划分为四个子任务:方面术语提取(te)、方面术语极性(tp)、方面类别提取(ce)和方面类别极性(cp)。
12、基于方面的情感分析可应用在多个领域,如情感分析、市场调研、舆情监测。情感分析:帮助人们了解用户对不同方面的情感倾向,从而更好地把握用户需求和满意度。市场调研:通过对市场反馈的情感进行分析,可以发现产品或服务的优势和改进空间,并指导市场策略制定。舆情监测:对社交媒体、新闻报道等大规模文本数据进行基于方面的情感分析,可以及时了解公众对特定事件或话题的情感倾向。
13、其中基于方面的情感分类(absc)是一种细粒度的情感分析任务,其重点是在给定的上下文中提取针对特定方面的情感极性。早期的absc方法依赖于手工制作的特征,无法捕获给定方面和上下文之间的内在语义关联。各种基于神经网络的方法已被提出,如卷积神经网络(cnn)、循环神经网络(rnn)和记忆网络,以隐式的方式对方面和上下文之间的语义关系进行建模。
14、例如,有学者引入了两种基于lstm的模型,即td-lstm和tc-lstm,将句子分割为三个部分:前一个上下文词、方面和后一个上下文词。然而,由于序列建模的限制,基于rnn及其变体的方法在捕获远离意见词的远距离上下文情感特征方面面临挑战。考虑到这一点,研究人员为基于方面的情感分类(absc)任务部署了注意机制,通过全局建模来捕获远程语义特征。有学者提出了一种深度记忆网络(memnet),该网络利用注意机制明确地捕捉每个上下文词与方面的相关性,并推断情绪极性。然而,由于注意机制的固有缺陷,不能区分上下文词与给定方面的相关性,从而导致语义错配问题。先前的研究考虑了位置信息,但在意见词离方面较远或传达复杂语义信息的情况下,可能存在不足。
15、反事实增强数据(counterfactual augmentation data,cad)是一种用于增强文本分类任务的数据扩充技术。它通过对原始训练数据进行修改或生成虚拟样本来创建新的训练数据集。cad的目标是为了提高模型的鲁棒性和泛化能力,减少模型对于输入中某些特定因素的过度依赖。它通过引入反事实情境来扩展训练数据,使模型能够学习到更广泛、更全面的特征表示。cad可应用于各种文本分类任务,如情感分析、垃圾邮件过滤、机器翻译等。其基本思想是通过改变原始文本样本中的关键因素或属性,生成一个与原始样本类似但具有不同标签或属性的虚拟样本。
16、由于数据集中的相关性,用监督学习训练的模型被证明容易将积极情绪联系起来,这些被称为虚假模式。虚假模式部分影响在独立、相同分布(iid)数据上训练的模型的鲁棒域外(ood)泛化,导致分布移位下的显著性能衰减。为了防止学习虚假模式,一种流行的解决方案是使用反事实增强数据(cad),以确保模型学习输入文本和相应标签之间的真实因果关系。
17、非反事实增强数据是一种用于自然语言处理任务的数据增强技术。它通过对原始文本进行修改或扩展,生成与原始文本相关但具有不同特征的新样本。非反事实增强数据在自然语言处理任务中具有重要作用。它可以增加训练数据的多样性,提高模型的泛化能力和鲁棒性。通过引入不同的语义和句法变化,非反事实增强数据可以帮助模型学习到更广泛的语言规律和模式,从而提升任务的性能。
技术实现思路
1、针对现有技术中存在的技术问题,本发明的目的在于提供一种基于方面的文本情感分析方法,通过关注方面邻接词的不同组成,摆脱对句法信息的依赖,克服语义不匹配问题,能够全面了解所表达的情感,提高基于方面的情感分析性能,提高情感分析的鲁棒性。可应用于对产品的相关评论进行情感分析,从而指导产品改进和制定营销策略。
2、为达到以上目的,本发明采用的技术方案是:一种基于方面的文本情感分析方法,所述方法包括以下步骤:
3、s1、对待分析对象的相关文本数据进行采集;
4、s2、对采集的待分析对象的相关文本数据进行预处理;
5、s3、将经过预处理的文本数据输入到端到端语义角色标记模型中,以从输入的文本数据中捕获语义角色标记信息;
6、s4、将文本数据输入到因果相关表示学习模型中,仅对虚假特征的文本数据进行增强,保留与目标方面相关的语义;
7、s5、将文本数据输入到面向方面的意见对齐网络模型,根据句子中的上下文信息,预测给定句子对给定方面的情感极性。
8、进一步,步骤s1中采集待分析对象的相关文本数据的来源包括自动化抓取、数据库、语料库以及在线调查。
9、进一步,所述待分析对象的相关文本数据包括评论数据、帖子以及推文。
10、进一步,步骤s2包括以下子步骤:
11、s21、对待分析对象的相关文本数据进行文本清洗,以去除文本数据中的噪声和无用信息;
12、s22、对待分析对象的相关文本数据中的错误和异常情况进行处理,以确保文本数据的质量和一致性;
13、s23、对待分析对象的相关文本数据进行拆分,拆分成单个词语或短语;
14、s24、将拆分后的相关文本数据中的停用词移除;
15、s25、对移除停用词后的相关文本数据进行词形还原或词干提取;
16、s26、对相关文本数据进行字母转换以统一大小写形式;
17、s27、将进行字母转换后的文本数据分为训练集与测试集,训练集用于模型参数的学习,测试集用于评估模型对样本的泛化能力。
18、进一步,步骤s3包括在端到端语义角色标记模型中,对整个句子进行编码;遍历所有可能的单词对,对于每个潜在的谓词-参数单词对,连接谓词和参数的表示;对参数角色进行分类。
19、进一步,在端到端语义角色标记模型的顶部设置一个单一的投影层,所有对预测角色标签有用的信息都编码于端到端语义角色标记模型的最后一个隐藏状态中。
20、进一步,步骤s4中对虚假特征的文本数据进行增强时,引入一个基于kullbackleibler散度的正则化项,以使因果相关表示学习模型输出概率彼此接近。
21、进一步,步骤s5中所述面向方面的意见对齐网络模型包括预训练的bert语言模型、相邻跨度增强模块、多视角注意模块以及情感分类器,所述预训练的bert语言模型将句子映射到预设输入向量,构建了一个句子-方面对输入,以产生方面感知的上下文表示,所述邻域增强模块通过多个邻域突出显示相邻词的不同组成,所述多视角注意模块通过多角度情感表征捕获给定方面的相关意见词,所述情感分类器输出目标方面的情感极性。
22、进一步,采用移动掩码机制识别每个令牌相对于方面的位置,计算每个标记相对于方面的相对距离,基于跨度大小阈值构建了多个相邻跨度,将相邻跨度表示与原上下文表示h进行串接,得到相邻跨增强表示。
23、进一步,所述多视角注意模块使用从方面感知的上下文表示转换而来的抽象理解表示作为查询向量,从不同角度并行捕获相邻跨增强表示中的情感信息。
24、本发明的有益技术效果在于:
25、1.引入了一系列旨在利用从语义角色标记(srl)模型中提取的语义信息来提高基于方面的情感分析(absa)性能的方法;引入了一种新颖的端到端语义角色标记模型,可以有效地捕获transformer隐藏状态中的大多数结构化语义信息,这个端到端模型非常适合包含语义信息的模型。
26、2.引入了一种依赖于非反事实数据增强的替代方法,依赖于使用嘈杂的、具有成本效益的数据增强,以保留与目标方面相关的语义,依赖于不同版本数据之间的不变性建模来提高鲁棒性。引入了一种方法,使模型预测在原始句子和增强句子之间保持不变。当预测不变时,模型可以有效地学习忽略虚假特征,并专注于目标方面的核心信息。这基于对absa预测的因果分析,并提供了超越absa的不变性的理论保证。
27、3.为解决如何有效地管理语义不匹配问题、注意机制不能充分地将观点词与其相应的方面结合起来的问题,引入了一种新的面向方面的意见对齐网络(aoan)来捕获意见词与相应方面之间的上下文关联。具体来说,首先引入了一个邻域增强模块,该模块突出了邻域词和给定方面的各种组成。此外,引入了一个多视角关注机制,将相关意见信息与给定方面对齐。