本发明属于情感计算,具体涉及一种融合交互式会话语境和会话者身份属性的情感识别方法。
背景技术:
1、情感计算技术致力于通过计算机系统识别、理解、处理以及模拟人类情感。传统的情感计算技术主要依赖于基本的情感标记和简单的文本分析,如正负面情绪的分类。然而,这种方法往往无法准确捕捉到语境的复杂性和个体在对话中的情感表达差异。
2、最初的情感分析技术通常基于预定义的情感词典和基本的自然语言处理工具。这些技术使用简单的词汇匹配和规则引擎来判定文本的情感倾向(如积极或消极)。尽管这种方法在处理简单文本时有效,但它忽视了语言的多义性和上下文中的情感变化,限制了其在复杂文本中的应用效果。随着机器学习和深度学习技术的发展,情感分析方法开始采用更复杂的算法,如支持向量机(svm)、卷积神经网络(cnn)和递归神经网络(rnn)。这些技术能够从大规模数据集中学习情感表达的模式,提高了情感分类的准确性。然而,这些模型依然在处理个体差异和细粒度情感表达方面存在局限。近年来,研究者开始关注语义上下文和会话对象属性在情感分析中的作用。语义上下文关注于文本中词汇之间的关系和整体句意,有助于解决单个词汇可能带来的多义性问题。会话对象属性,如用户的性别、年龄、文化背景等,也被用来个性化情感分析,以提高针对特定用户群体的分析准确性。但以上研究同样面临很多技术问题:1)在较长的文本中,前后文之间的依赖关系可能会变得复杂,传统的情感分析模型可能难以有效捕捉这些长距离依赖关系。2)尽管语义上下文有助于解决多义性问题,但自然语言的复杂性仍然可能导致歧义。例如,同一个词在不同上下文中可能具有完全不同的情感意义。 3)不同用户的属性多种多样,如何选择和整合这些属性以构建有效的情感分析模型是一个复杂的问题。此外,不同属性之间的相互影响也需要考虑。
3、基于这些背景技术,本发明提出了一种提示驱动的交互式会话情感识别方法。此方法不仅考虑了文本中的词汇和句法信息,还综合了对话参与者的个人属性,以更准确地捕捉和理解情感表达。这种方法通过精细化处理语义信息和个体差异,能够更好地适应多样化的交流场景,如在线交流、客户服务和社交媒体分析等。通过提供更为精准和深入的情感理解,本发明有望推动情感计算技术在商业、健康监护、人机交互等多个领域的应用发展。
技术实现思路
1、发明目的:本发明提供了一种融合交互式会话语境和会话者身份属性的情感识别方法,结合会话语境、参与者身份属性与高级神经网络模型的情感识别方法,明显提高了情绪识别的精确度和适用性。
2、技术方案:本发明所述的一种融合交互式会话语境和会话者身份属性的情感识别方法,具体包括以下步骤:
3、(1)采集由多人参与的交互式会话记录,进行数据清洗,构建参与者会话队列;
4、(2)根据参与者会话队列和身份属性信息,对话语和会话属性之间的依赖关系进行建模,并创建语境增强的交互式话语列表;然后,构建一个由提示驱动的情绪模板生成器,该生成器基于上述话语列表中的内容,生成情绪感知增强的个性化话语表达;
5、(3)将话语进行数值化处理,得到话语的数字化表示;然后将输入simcse模型中得到句子的情感嵌入特征;
6、(4)构建情绪编码器emonet,包括一个全连接层fc_1、时序感知模块tam、标准化层nl、全局平均池化层al、全连接层fc_2和logits层;将所有的情感嵌入特征e组织为数量相同的批次,其中,每个批次的数据表示为,对应的情感标签为,b表示一个批次中样本的数量;
7、(5)依次将每批次的数据输入emonet网络,计算每个批次数据的信息熵损失ce和正则化对比学习损失nscl;将损失ce和nscl融合为混合对比学习损失hscl,训练emonet网络;
8、(6)使用训练好的emonet进行情感分类,首先对新输入的数据进行预处理,然后输入emonet网络得到logits层输出的预测矩阵,利用函数argmax()选出概率最大的对应的类别作为新输入数据的情感类别。
9、进一步地,步骤(1)所述实交互式会话记录包括话语、会话者类型、会话者姓名和会话者年龄。
10、进一步地,步骤(1)所述进行数据清洗,包括去除会话记录中大量非结构化信息,包括语音、图片、表情符号;然后删除无意义词语和停用词,纠正错误的信息;最后,在会话中每句话语后加入标识符</s>作为话语结束的标记。
11、进一步地,步骤(1)所述构建参与者会话队列,包括根据交互式会话中语句的先后顺序,构建所有交互式会话的话语列表,其中,n是会话中所有话语的数量;然后定义每个话语的发言者姓名表示为 ,其中, 是对话中所有参与者姓名的集合;每个话语的说话者性别为,其中 ,;接着创建第i句话语的会话队列,考虑情绪走向,在列表的第i句话语的前面执行4次前向搜索,将搜索到的内容依次添加到中,此时第i句话语的会话队列,其中,的长度为5,队列采用先入先出的方式。
12、进一步地,所述步骤(2)实现过程如下:
13、语境增强的交互式话语列表,包括定义发言者年龄表示为,其中,, 是对话中所有参与者的年龄的集合;将、、说话者姓名、说话者性别、说话者年龄进行合并,得到包含交互式会话语境的话语列表,具体公式如下:
14、;
15、构建提示驱动的情绪模板生成器,包括将列表输入情绪模板生成器,然后特殊令牌<mask>充当占位符,接着对情绪内容进行补全,生成高度符合情绪逻辑的话语,具体为:
16、。
17、进一步地,其特征在于,所述步骤(3)实现过程如下:
18、数值化处理:将话语作为参数传入transformer库中tokenizer函数,得到的词汇级标记化序列,其中是中的单个单词映射到simcse模型的词汇表中的一个唯一索引;然后在序列n前后分别加入符号[cls]和[sep],最终将原始文本转换为模型能够处理的数字化表示,具体为:
19、;
20、获取句子嵌入特征:将话语的数字化表示输入simcse模型,得到的句子嵌入特征,l是获取句子嵌入特征:将话语的数字化表示输入simcse模型,得到的句子嵌入特征,l是中元素的数量,d是simcse模型输出的特征向量的维度;然后筛选出由令牌<mask>标记的向量作为话语的情感嵌入表示。
21、进一步地,所述步骤(4)实现过程如下:
22、首先,定义情绪编码器emonet的输入数据,b表示该批次中样本的数量,l为向量的序列长度,d为向量的维度;矩阵e通过全连接层fc_1,其权重矩阵为和偏置向量为,为自定义参数,经过relu激活函数后得到输出,尺寸为;然后,输出通过时序感知模块tam,输出保持相同尺寸为;接着,与进行逐元素相加,得到混合特征,其尺寸为;经过正则化nl处理,得到标准化后的输出,尺寸为;接下来,标准化后的输出通过全局平均池化层al对序列长度所在的维度l进行全局平均池化,得到每个样本的全局特征表示,其尺寸为;然后,全局特征表示通过全连接层fc_2,其权重矩阵为和偏置向量为,经过 relu 激活函数后得到输出,其尺寸为;最后,通过 logits 层,其权重矩阵为和偏置向量为,得到最终的预测矩阵,其尺寸为,为最终的情感类别数量;输入矩阵经过每一层的处理,最终得到预测矩阵,其尺寸为;
23、时序感知模块tam由扩张因果卷积层、正则化层、relu激活函数层、和dropout层组成;首先,通过扩张因果卷积层对输入序列进行编码,引入时序关联性;接着,正则化层对输出进行标准化处理,以提高训练稳定性;随后,relu激活函数添加非线性,增强模型复杂性处理能力;最后,dropout层被应用以减少过拟合;整个流程表示为:
24、;
25、其中,为最终的模块输出,维持与输入相同的尺寸,确保了模块对于时间序列数据的有效处理同时维护了数据的维度一致性。
26、进一步地,所述步骤(5)实现过程如下:
27、对于预测矩阵,softmax()函数将每个样本的预测值转换为概率分布;对于第i个样本,第j个类别的概率计算如下:
28、;
29、对于输入矩阵,对应的真实情感标签矩阵为,其中每个样本的真实类别用one-hot编码表示,损失函数ce的计算公式为:
30、;
31、对于输入矩阵e中的每个样本,与属于同一个类别的样本都为正样本,其它的样本都属于负样本;首先分别计算正样本的分数和负样本的分数,然后用损失函数nscl计算一个训练批次中样本的总体损失,计算公式如下:
32、;
33、其中,函数表示计算和之间的余弦相似度,用来量化情感嵌入特征之间的相似度;是一个标量参数, ∈ r+;索引i表示矩阵中的第i个数据;集合中的样本与属于相同类别,称为正样本;是与属于不同类别的负样本集;表示所有正样本的分数,而表示一个批次中所有负样本的分数;是一个非负的极小正数;表示集合的大小;
34、根据损失函数计算一个批次中每个样本的损失,获得损失向量之后,b代表的是批次的大小,则一个批次的总损失计算如下:
35、;
36、其中,表示一个很小的正数,用于防止分母为零,确保计算的稳定性;为指示函数,定义为:
37、;
38、根据计算出的ce损失和正则化损失函数hscl,计算混合对比学习损失函数hscl:
39、。
40、进一步地,步骤(6)所述情感类别包括“中性”,“惊讶”,“害怕”,“伤心”,“开心”,“厌恶”,“生气”。
41、有益效果:与现有技术相比,本发明的有益效果:
42、传统的情绪识别方法通常仅依赖于单一的文本分析或者忽略了对话语境的深层次整合,导致情绪识别的不精确或不符合实际的语境反应,本发明融合交互式会话语境和参与者身份属性,不仅分析文本信息,还结合会话语境和对话者身份属性,能更准确地捕捉到对话中的情绪波动,尤其是在复杂的多人互动场景中,能有效提高情感识别的准确性和适用性;本发明采用simcse和emonet的组合使用,使用最新的自监督学习模型simcse生成话语的情感嵌入特征,再利用emonet情绪编码器进行深入分解和学习,这种结合利用了自监督学习和情绪编码的优势,能有效地从话语中提取深层次情绪特征,对传统方法中常见的表层文字分析带来了质的飞跃;本发明通过结合信息熵损失和对比学习损失,创新性地优化了模型的学习过程,增强模型对于情感多样性的捕捉能力,并且提高了模型训练的稳定性和效率;综上本发明明显提高了情绪识别的精确度和适用性,尤其是在复杂多变的多人交互对话场景中,对情感识别技术发展的重要价值,并有广泛的应用前景。