情感分析方法及装置与流程

文档序号:29927475发布日期:2022-05-07 11:38阅读:91来源:国知局
情感分析方法及装置与流程

1.本技术涉及计算机技术领域,具体涉及一种情感分析方法及装置。


背景技术:

2.在人机交互过程中,常常需要理解用户所表达的情感信息。只有了解了用户所表达的情感信息,才能更好地对用户做出正确合理的回应与交互。一般可以基于用户所表达的文本信息分析用户的情感,而现有的基于文本信息获取用户情感信息的方法的分析效果不理想,难以准确地识别用户的情感。


技术实现要素:

3.有鉴于此,本技术实施例提供了一种情感分析方法及装置,能够提高情感分析结果的准确度。
4.第一方面,本技术的实施例提供了一种情感分析方法,包括:基于图像数据获取图像特征,并基于与图像数据对应的文本数据获取文本特征;根据图像特征调整文本特征得到调整后的文本特征;基于调整后的文本特征确定情感类别。
5.在本技术某些实施例中,文本特征包括词向量矩阵,词向量矩阵包括不同时间步的词向量,不同时间步的词向量对应文本数据中不同时间的词语,其中,根据图像特征调整文本特征得到调整后的文本特征,包括:根据图像特征确定词向量矩阵中各个时间步对应的词向量的权重;根据各个时间步对应的词向量的权重对各个时间步对应的词向量进行加权,得到调整后的文本特征。
6.在本技术某些实施例中,根据图像特征确定词向量矩阵中各个时间步对应的词向量的权重,包括:确定图像特征与各个时间步对应的词向量之间的相似度;基于相似度确定各个时间步对应的词向量的权重。
7.在本技术某些实施例中,确定图像特征与各个时间步对应的词向量之间的相似度,包括:根据图像特征与词向量矩阵的转置的乘积确定相似度。
8.在本技术某些实施例中,根据图像特征调整文本特征得到调整后的文本特征,包括:确定文本特征与图像特征之间的差距信息;基于差距信息调整文本特征以得到调整后的文本特征。
9.在本技术某些实施例中,图像特征包括图像表征向量,文本特征包括文本表征向量,其中,基于与图像数据对应的文本数据获取文本特征,包括:基于文本数据提取词向量矩阵,其中,词向量矩阵包括不同时间步的词向量,不同时间步的词向量对应文本数据中不同时间的词语;基于词向量矩阵确定文本表征向量。
10.在本技术某些实施例中,图像特征包括图像标准向量,文本特征包括文本标准向量,其中,基于图像数据获取图像特征,并基于与图像数据对应的文本数据获取文本特征,包括:基于图像数据获取图像表征向量,并基于文本数据获取文本表征向量;对图像表征向量和文本表征向量分别进行标准化,得到图像标准向量和文本标准向量。确定文本特征与
图像特征之间的差距信息,包括:确定文本标准向量和图像标准向量之间的内积和外积;基于内积确定文本标准向量和图像标准向量之间的夹角,基于外积确定文本标准向量相对于图像标准向量所在的方向,其中,差距信息包括夹角和方向。
11.在本技术某些实施例中,基于差距信息调整文本特征以得到调整后的文本特征,包括:在夹角大于第一预设角度时,对文本标准向量按照方向的反方向旋转第二预设角度,以得到调整后的文本特征。
12.在本技术某些实施例中,文本特征包括词向量矩阵以及文本表征向量,词向量矩阵包括不同时间步的词向量,不同时间步的词向量对应文本数据中不同时间的词语,文本表征向量是基于词向量矩阵获得的,其中,根据图像特征调整文本特征得到调整后的文本特征,包括:根据图像特征确定词向量矩阵中各个时间步对应的词向量的权重;根据各个时间步对应的词向量的权重对各个时间步对应的词向量进行加权,得到加权后的句向量;确定文本表征向量与图像特征之间的差距信息;基于差距信息调整文本表征向量以得到调整后的文本表征向量;基于加权后的句向量和调整后的文本表征向量得到调整后的文本特征。
13.在本技术某些实施例中,该情感分析方法还包括:确定差距信息是否满足预设条件;若满足预设条件,则执行基于差距信息调整文本表征向量以得到调整后的文本表征向量的步骤,若不满足预设条件,则基于加权后的句向量和文本表征向量得到调整后的文本特征。
14.在本技术某些实施例中,该情感分析方法还包括:基于视频数据获取图像数据;基于视频数据对应的语音数据获取文本数据。
15.在本技术某些实施例中,基于视频数据获取图像数据,包括:从视频数据中获取多帧图像;确定多帧图像中任意相邻两帧图像之间的像素差异值;若多帧图像中第n帧图像与第n-1帧图像之间的像素差异值小于或等于预设阈值,则排除第n帧图像,从而基于保留的图像得到图像数据。
16.在本技术某些实施例中,确定多帧图像中任意相邻两帧图像之间的像素差异值,包括:确定多帧图像中每个图像对应的二值图;基于任意相邻两帧图像对应的二值图之间的像素差异确定像素差异值。
17.在本技术某些实施例中,基于图像数据获取图像特征,包括:利用神经网络模型从图像数据中提取图像特征,其中,神经网络模型是利用标注有积极情感和消极情感标签的样本图像数据进行训练得到的。
18.第二方面,本技术的实施例提供了一种情感分析方法装置,包括:获取模块,用于基于图像数据获取图像特征,并基于与图像数据对应的文本数据获取文本特征;调整模块,用于根据图像特征调整文本特征得到调整后的文本特征;确定模块,用于基于调整后的文本特征确定情感类别。
19.第三方面,本技术的实施例提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器,其中,处理器用于执行上述第一方面所述的情感分析方法。
20.第四方面,本技术的实施例提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序用于执行上述第一方面所述的情感分析方法。
21.本技术实施例提供了一种情感分析方法及装置,通过综合文本数据和图像数据两
种不同类别的数据分析用户情感,可以提高情感分析结果的准确度。此外,本技术实施例以文本数据为主线,以图像数据为辅助,并利用图像特征调整文本特征得到调整后的文本特征,从而可以进一步提高情感分析结果的准确度,且可以在一定程度上达到细粒度情感分析的效果。
附图说明
22.图1所示为本技术一示例性实施例提供的情感分析系统的系统架构示意图。
23.图2所示为本技术一示例性实施例提供的情感分析方法的流程示意图。
24.图3所示为本技术另一示例性实施例提供的情感分析方法的流程示意图。
25.图4所示为本技术另一示例性实施例提供的情感分析方法的流程示意图。
26.图5所示为本技术另一示例性实施例提供的情感分析方法的流程示意图。
27.图6所示为本技术一示例性实施例提供的情感分析模型的结构示意图。
28.图7所示为本技术一示例性实施例提供的情感分析装置的结构示意图。
29.图8所示为本技术一示例性实施例提供的用于执行情感分析方法的电子设备的框图。
具体实施方式
30.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
31.申请概述
32.在人工交互过程中,如果电子设备可以准确地识别用户所表达的情感信息,便可以结合情感信息以及用户所表达的文本信息挖掘用户的深层需求,从而可以为用户提供更好的服务、提高用户体验。
33.识别用户情感的方法可以是基于文法规则网络或状态机解析用户所表达的文本信息,以获取用户的情感信息。这两种方法泛化能力差,对于没有收录的句式,难以分析出文本信息中所蕴含的情感信息。可选地,还可以利用神经网络模型对文本信息进行分析以获取用户的情感信息。但是,一般的神经网络模型从文本信息中提取的信息比较片面,难以准确地提取文本信息中的情感信息。
34.简言之,上述的识别用户情感的方法难以从文本信息中获取比较准确的情感信息,更难以满足情感类别多的细粒度情感分析需求。
35.示例性系统
36.图1所示为本技术一示例性实施例提供的情感分析系统100的系统架构示意图,其示出了一种基于图像数据和文本数据确定用户当前的情感类别的应用场景。情感分析系统100包括图像采集设备110,文本数据采集设备120以及计算设备130。计算设备130可以分别与图像采集设备110和文本数据采集设备120通信连接。
37.在一实施例中,图像采集设备110可以是摄像头,用于采集有关用户的图像或视频数据。文本数据采集设备120可以是输入设备,用于采集用户输入的文本数据。计算设备130
可以从图像采集设备110获取图像数据,从文本数据采集设备120获取文本数据。
38.可选地,文本数据采集设备120可以是麦克风,用于采集用户的语音数据,并将语音数据转化为文本数据。或者,计算设备130可以从麦克风获取语音数据,进而根据语音数据获取文本数据。
39.计算设备130可以是手机、平板、笔记本、台式机等设备。
40.计算设备130可以基于图像数据获取图像特征,基于与图像数据对应的文本数据获取文本特征,根据图像特征调整文本特征得到调整后的文本特征,以及基于调整后的文本特征确定情感类别。
41.在其他应用场景中,图像采集设备110和文本数据采集设备120可以集成在计算设备130上。
42.需要注意的是,上述应用场景仅是为了便于理解本技术的精神和原理而示出,本技术的实施例并不限于此。相反,本技术的实施例可以应用于可能适用的任何场景。
43.示例性方法
44.图2所示为本技术一示例性实施例提供的情感分析方法的流程示意图。图2的方法可由计算设备执行。如图2所示,该情感分析方法包括如下内容。
45.210:基于图像数据获取图像特征,并基于与图像数据对应的文本数据获取文本特征。
46.具体地,可以通过摄像头采集有关用户的视频数据并通过麦克风采集用户的语音数据。视频数据和语音数据可以是对应的、是在同一时间针对用户采集的。如此,基于视频数据获取图像数据,并基于视频数据对应的语音数据获取文本数据,可以保证图像数据与文本数据在时间上是对应的,进而可以保证图像数据所蕴含的情感信息与文本数据所蕴含的情感信息是一致的。
47.可选地,可以通过摄像头采集有关用户的视频数据并通过输入设备采集用户的文本数据。视频数据和文本数据可以是对应的、是在同一时间针对用户采集的。如此可以保证文本数据和基于视频数据获取的图像数据在时间上是对应的。输入设备可以是键盘、手写输入板、显示屏等。
48.图像数据可以包括一帧或多帧图像,图像特征可以是向量或矩阵,用于表征图像数据所蕴含的情感信息。类似地,文本数据可以包括一段话(可包含一句话或多句话),文本特征也可以是向量或矩阵,用于表征文本数据所蕴含的情感信息。可理解的,在某些应用场景下,图像数据和文本数据可以是计算设备在用户与计算设备的一次交互过程中采集的。或者,图像数据和文本数据是计算设备在用户与计算设备的多次交互过程中采集的,即计算设备采集用户在多次交互过程中的文本数据以及图像数据。
49.220:根据图像特征调整文本特征得到调整后的文本特征。
50.用户表达情感的方式有多种,例如语言、肢体动作、表情等。在一些情况下,用户的肢体动作或表情更能体现用户的情感变化(如激动或平静),文本数据虽然更能体现用户的细粒度情感,但只根据文本数据获取的情感信息可能是片面的。例如用户当前的真实情感是愤怒,但是用户表达的文本数据是很平静的,没有出现过激的词语,但是用户的动作或表情可以体现用户此时的消极情感。此时根据用户的动作或表情去理解用户的文本数据,可以准确地理解用户的真实情感。
51.因此,本实施例中可以以文本数据为主线,以图像数据为辅助,对用户的情感进行分析。即,可以根据图像特征调整文本特征得到调整后的文本特征tf,该调整后的文本特征tf可以较为准确地表征用户的情感。
52.230:基于调整后的文本特征确定情感类别。
53.调整后的文本特征tf可以是向量或矩阵,蕴含用户的情感信息。可以直接基于调整后的文本特征tf确定用户的情感类别,或者对调整后的文本特征tf做进一步的处理,进而确定用户的情感类别。
54.本技术实施例提供了一种情感分析方法,通过综合文本数据和图像数据两种不同类别的数据分析用户情感,可以提高情感分析结果的准确度。此外,本技术实施例以文本数据为主线,以图像数据为辅助,并利用图像特征调整文本特征得到调整后的文本特征,从而可以进一步提高情感分析结果的准确度,且可以在一定程度上达到细粒度情感分析的效果。
55.根据本技术一实施例,基于图像数据获取图像特征,包括:利用神经网络模型从图像数据中提取图像特征,其中,神经网络模型是利用标注有积极情感和消极情感标签的样本图像数据进行训练得到的。
56.具体地,从图像数据中获取的图像特征是粗粒度特征,用于指向的粗粒度情感分析结果可以包括两类,如积极情感和消极情感。而从文本数据中获取的文本特征是细粒度特征,用于指向的情感分析结果可以是较多类别(大于或等于3种),例如10种细粒度情感类别,这10种细粒度情感类别中的一部分属于积极情感,另一部分属于消极情感。示例性的,细粒度情感类别可包括开心、热情、平静、伤心、惊讶、焦虑、恐惧等。
57.可以利用神经网络模型从图像数据中提取粗粒度特征。利用样本图像数据对模型进行训练可得到该神经网络模型。样本图像数据可以标注有积极情感和消极情感标签。由于粗粒度情感分析任务简单,因此分析结果的准确度足够高。利用粗粒度特征调整细粒度特征,可以避免细粒度情感分析过程因提取片面的信息而出现分析结果不准确的情况。
58.本实施例提供的情感分析方法,基于图像数据进行粗粒度情感分析,基于文本数据进行细粒度情感分析,并根据粗粒度情感分析中的粗粒度特征调整细粒度特征,从而可以提高细粒度情感分析的准确度。
59.根据本技术一实施例,文本特征包括词向量矩阵,词向量矩阵包括不同时间步的词向量,不同时间步的词向量对应文本数据中不同时间的词语,其中,根据图像特征调整文本特征得到调整后的文本特征,包括:根据图像特征确定词向量矩阵中各个时间步对应的词向量的权重;根据各个时间步对应的词向量的权重对各个时间步对应的词向量进行加权,得到调整后的文本特征。
60.具体地,文本数据中可以包括按照时间顺序排列的多个词语,基于每个词语可以提取该词语对应的词向量。例如可以利用神经网络模型对文本数据进行分析以得到多个词语对应的词向量,多个词向量可构成词向量矩阵。这里,按照时间顺序排列的多个词语可以是从语音数据中提取的,按照语音数据的播放顺序可从语音数据中提取多个按照时间顺序排列的词语。或者,按照时间顺序排列的多个词语可以是输入设备采集用户输入的文本内容,根据采集时间(或用户输入时间)的先后顺序,可以得到多个按照时间顺序排列的词语。
61.当用户表达的文本过长且内容过多时,很难从过长的文本中提取用户的真实情感
信息,此时结合图像特征,可以有效地从文本特征中提取到准确的情感信息,避免文本中其他词语对分析结果的干扰。例如用户表达的文本为“**天气很好**,**可爱**,**恼火**”,该文本包括多个词语,不同词语可能指向不同的情感,哪个词语更能体现用户此时的真实情感,需要结合图像特征确定各个词语对应的词向量的权重,以突出最能体现用户真实情感的词向量。
62.利用图像特征确定各个词向量对应的权重后,根据各个词向量的权重对各个词向量进行加权,可得到调整后的文本特征tf。调整后的文本特征tf为向量,该向量包含整个文本数据(整个句子)中各个词语的信息,因此可以称为句向量。基于该句向量可确定用户的情感类别。例如,可以通过全连接(fully connected,fc)层对该句向量进行处理,得到处理后的向量。处理后的向量的维度可以与情感分析方法可识别的情感类别的数量一致,处理后的向量中的每个维度代表一种情感类别。例如,情感分析方法可识别10种情感,处理后的向量的维度可以是10,根据处理后的向量中数值最大的维度所代表的情感类别可确定用户的情感类别。当然,也可以对句向量进行其他分类处理以确定最终的情感分析结果。可理解的,若句向量的维度与情感分析方法可识别的情感类别的数量一致,可以将句向量中最大数值代表的情感类别确定为最终的情感分析结果。
63.词向量可以是基于神经网络模型获取的。不同时间的词语输入到神经网络模型,可以得到不同时间步的词向量。例如t时刻的词语作为t时间步的输入x
t
输入到神经网络模型,该模型可以基于输入x
t
得到t时间步的输出y
t
(词向量)。
64.可选地,该模型可以结合x
t
以及上一个时间步的状态s
t-1
得到t时间步的状态s
t
,进而根据s
t
得到t时间步的输出y
t
。即,当前时间步的词向量是结合当前词语以及之前所有词语的特征,这样可以结合上下文信息提取当前词语的情感信息,避免只根据当前词语提取的情感信息比较片面的情况。虽然越靠后的时间步对应的词向量会存在一定的信息损失,会损失靠前的时间步对应的词语的信息,但是可以在一定程度上进一步提高最终情感分析结果的准确度及可靠性。
65.可理解的,当多个词语按照用法习惯常搭配使用时,可以基于该多个词语提取该多个词语对应的词向量。
66.本实施例提供的情感分析方法,可以利用图像特征确定词向量矩阵中各个词向量的权重,使得最能体现用户真实情感的词向量具有较高的权重。基于加权处理得到的调整后的文本特征不仅综合了各个词向量,还突出了反映用户真实情感的词向量,因此基于该调整后的文本特征可以提高情感分析结果的准确度,且适于细粒度的情感分析。
67.文本数据中不同词性的词语的情感表达力度不同。通常,动词、形容词、感叹词和副词的情感表达力度较大,而名词、量词、代词等其他词性的词语的情感表达力度较小。为了能够较为准确地获得文本数据中蕴含情感信息的词语或有利于情感分析的词语,在一实施例中,可以对文本数据进行词性标注,并从文本数据中提取特定词性的词语(蕴含情感信息的词语或有利于情感分析的词语),进而对提取的词语进行重组得到重组后的文本数据。进一步地,可以基于重组后的文本数据获取文本特征。
68.例如,可以先对文本数据进行分词以及词性标注以获得文本数据中各个词的词性,然后按照文本数据中词语的顺序提取动词、形容词、感叹词和副词并对提取的词语进行重组。如文本数据为“告诉你,我好开心啊”,则重组后的文本数据为“告诉好开心啊”。
69.本实施例中通过词性标注提取特定词性词语的过程可以看作是预处理,通过对文本数据进行预处理得到重组后的文本数据,可以基于重组后的文本数据进行文本特征的获取,如此可以提高文本特征的获取效率。
70.根据本技术一实施例,根据图像特征确定词向量矩阵中各个时间步对应的词向量的权重,包括:确定图像特征与各个时间步对应的词向量之间的相似度;基于相似度确定各个时间步对应的词向量的权重。
71.由于图像数据可以准确地反映用户的粗粒度情感,例如用户此时是激动的或平静的,积极的或消极的,等等。文本数据可以更好地反映用户的细粒度情感,但是当文本数据比较复杂(如文本过长且文本内容过多)时,从文本数据中提取情感信息的难度比较大,容易提取片面的信息而导致情感分析结果不准确。因而可以利用图像特征调整文本特征,以突出文本特征中与图像特征所表达的情感方向一致的信息。
72.例如,可以计算图像特征与文本特征中各个词向量之间的相似度。相似度越大的词向量所指示的情感与图像特征所指示的情感越接近,即该词向量所指示的情感是用户真实想表达的情感的倾向性越大。
73.当图像特征为向量(图像特征向量或图像表征向量)时,可以计算图像特征与各个词向量之间的相似度,并将相似度作为词向量的权重。相似度可以基于欧氏距离、马氏距离等方法确定。
74.可理解的,图像特征也可为矩阵,此时可以先将图像特征转化为向量,然后确定该向量与各个词向量之间的相似度。例如可通过flatten(扁平化处理)等方法将矩阵变成向量。
75.根据本技术一实施例,确定图像特征与各个时间步对应的词向量之间的相似度,包括:根据图像特征与词向量矩阵的转置的乘积确定相似度。
76.具体地,相似度可以作为词向量的权重。图像特征为图像特征向量,可根据图像特征向量与词向量矩阵的转置的乘积确定各个时间步对应的词向量的权重。例如,图像特征向量为q,q是1*m维的向量,词向量矩阵为o,o是n*m维的矩阵,n是时间步的数量,即词向量的数量。各个词向量的权重w=qo
t
,w是1*n维的向量,每个维度上的数值代表对应词向量的权重。根据各个时间步对应的词向量的权重w对各个时间步的词向量进行加权,可得到调整后的文本特征tf=b=wo,b是1*m维的向量。
77.基于b可确定用户的情感类别。例如,可以通过全连接(fully connected,fc)层对b进行处理,得到处理后的向量。处理后的向量的维度可以与情感分析方法可识别的情感类别的数量一致,处理后的向量中的每个维度代表一种情感类别。可以将处理后的向量中数值最大的维度所代表的情感类别确定为最终的情感分析结果。
78.本实施例中,计算图像特征向量与词向量矩阵的转置的乘积,相当于是计算每个词向量与图像特征向量之间的乘积,该乘积越大,表明两者之间的相似度越高。通过图像特征与词向量矩阵的转置的乘积可以简化各个词向量的权重的确定过程,提高情感分析的效率。
79.根据本技术一实施例,根据图像特征调整文本特征得到调整后的文本特征,包括:确定文本特征与图像特征之间的差距信息;基于差距信息调整文本特征以得到调整后的文本特征。
80.具体地,如前面所述,文本数据虽然更能体现用户的细粒度情感,但只根据文本数据获取的情感信息可能是片面的,尤其在文本过长且文本内容过多的情况下。而图像数据可以准确地反映用户的粗粒度情感。因此可以确定文本特征与图像特征之间的差距信息,该差距信息可以表征文本特征所表达的情感与图像特征所表达的情感之间的差距。
81.基于差距信息对文本特征进行调整,使得文本特征向图像特征靠近,避免只根据文本特征得到的情感类别与用户真实的情感类别相差过大的情况。例如图像特征所表达的情感为积极情感,而文本特征所表达的情感为悲伤,此时需要基于差距信息对文本特征进行调整,使得调整后的文本特征tf可以准确的表达用户的真实情感。
82.文本特征和图像特征的维度可以相同,也可以不同。为了便于比较文本特征和图像特征之间的差距信息,可以将两者的维度设置成一样。如果两者的维度不一样,可以基于全连接(fully connected,fc)层将两者的维度设置成一样,进而获取两者之间的差距信息。
83.本实施例提供的情感分析方法,根据文本特征与图像特征之间的差距信息调整文本特征,使得调整后的文本特征可以准确地表达用户的情感。
84.根据本技术一实施例,图像特征包括图像表征向量,文本特征包括文本表征向量,其中,基于与图像数据对应的文本数据获取文本特征,包括:基于文本数据提取词向量矩阵,其中,词向量矩阵包括不同时间步的词向量,不同时间步的词向量对应文本数据中不同时间的词语;基于词向量矩阵确定文本表征向量。
85.具体地,图像特征包括图像表征向量i1,图像表征向量用于表征图像数据所蕴含的情感信息。
86.词向量矩阵的组成以及获取方式可以参见上述实施例中的描述,此处不再赘述。词向量矩阵包含文本数据中各个词语所蕴含的情感信息。文本表征向量t1可以是基于词向量矩阵确定的,例如可以通过全连接层或其他方式对词向量矩阵进行处理得到文本表征向量。在当前时间步的词向量是结合当前词语以及之前所有词语的特征的情况下,文本表征向量t1可以是最后一个时间步的词向量,或者是通过全连接层或其他方式对各个时间步的词向量(词向量矩阵)进行处理得到的。
87.基于各个时间步的词向量获取文本表征向量的方式可以是,确定各个词向量的权重,并根据各个词向量的权重对各个词向量进行加权,以得到文本表征向量。例如,可以通过深度学习中的soft-attention注意力模型确定各个词向量的权重并对各个词向量进行加权以得到文本表征向量。或者可以根据图像特征确定词向量矩阵中各个时间步对应的词向量的权重,该过程可参见上述实施例中的描述,此处不再赘述。
88.文本表征向量用于表征整个文本数据所蕴含的情感信息,因此可以称为句向量。当文本表征向量t1与图像表征向量i1维度相同且两者的数值分布位于同一范围内时,差距信息可以包括t1与i1之间的夹角以及t1相对于i1所在的方向。这样可以基于差距信息调整t1向i1靠近(如按照预设角度旋转t1),以得到调整后的文本特征tf。调整后的文本特征tf可以较为准确地表达用户的真实情感。
89.因向量的结构简单,所以本实施例提供的情感分析方法可以较为方便地确定图像表征向量与文本表征向量之间的差距信息,简化分析过程。
90.根据本技术一实施例,图像特征包括图像标准向量,文本特征包括文本标准向量,
其中,基于图像数据获取图像特征,并基于与图像数据对应的文本数据获取文本特征,包括:基于图像数据获取图像表征向量,并基于文本数据获取文本表征向量;对图像表征向量和文本表征向量分别进行标准化,得到图像标准向量和文本标准向量。确定文本特征与图像特征之间的差距信息,包括:确定文本标准向量和图像标准向量之间的内积和外积;基于内积确定文本标准向量和图像标准向量之间的夹角,基于外积确定文本标准向量相对于图像标准向量所在的方向,其中,差距信息包括夹角和方向。
91.具体地,为了便于获取图像特征和文本特征之间有效的差距信息,图像特征和文本特征可以是经过标准化后的特征,以使得两者的数值分布位于同一范围内。
92.例如,基于图像数据可获得图像表征向量i1,对图像表征向量i1进行标准化可得到图像标准向量i2;基于文本数据可获得文本表征向量t1,对文本表征向量t1进行标准化可得到文本标准向量t2。
93.文本标准向量和图像标准向量之间的内积为两者的点乘(t2˙
i2),文本标准向量和图像标准向量之间的外积为两者的叉乘(t2×
i2)。基于内积可确定文本标准向量和图像标准向量之间的夹角θ,基于外积可确定文本标准向量相对于图像标准向量所在的方向,如文本标准向量位于图像标准向量的顺时针方向或逆时针方向。差距信息包括夹角θ和方向(顺时针方向或逆时针方向)。
94.夹角θ可以通过如下公式确定:
[0095][0096]
可以基于如下公式确定t2相对于i2所在的方向:
[0097][0098]
若β大于0,可确定t2位于i2的顺时针方向;若β小于0,可确定t2位于i2的逆时针方向。当然,也可以基于其他方法或公式确定夹角θ以及t2相对于i2所在的方向。
[0099]
当确定差距信息后,可以基于差距信息调整文本标准向量t2,使得t2向i2靠近,从而得到调整后的文本特征tf(可表示为调整后的向量t3)。调整后的文本特征t3可以较为准确地表达用户的真实情感。例如,t2位于i2的顺时针方向且t2与i2之间的夹角为θ,可以通过调整t2,使得t2沿逆时针方向旋转角度α以缩小t2与i2之间的差距。旋转角度α可以等于夹角θ,或者稍大于或稍小于夹角θ,只要可使得t3相对于t2更靠近i2即可。
[0100]
本实施例提供的情感分析方法,通过获取标准化后的文本特征和图像特征,并基于标准化后的文本特征和图像特征确定差距信息,使得差距信息可以有效地反映文本特征与图像特征之间的差距,也即有效地反映图像表征向量与文本表征向量之间的差距,从而提高情绪分析结果的准确度。
[0101]
根据本技术一实施例,基于差距信息调整文本特征以得到调整后的文本特征,包括:在夹角大于第一预设角度时,对文本标准向量按照方向的反方向旋转第二预设角度,以得到调整后的文本特征。
[0102]
具体地,当文本标准向量t2和图像标准向量i2之间的夹角θ不是很大时,表明两者包含的信息是很接近的,此时即使不对t2进行调整,也不会影响最终的情感分析结果。这样
可以省略调整过程,提高情感分析的效率。而当t2和i2之间的夹角θ很大时,表明两者包含的信息差距很大,此时需要对t2进行调整,才能保证情绪分析结果的准确度。例如,夹角θ小于或等于第一预设角度,则直接基于t2确定情感类别;再例如,夹角θ大于第一预设角度,且t2位于i2的顺时针方向,则可以将t2按照逆时针方向旋转第二预设角度,以得到调整后的文本特征tf(此时tf=t3)进而根据t3确定情感类别。这里,第二预设角度可以等于、小于或大于夹角θ,只要可保证t3相对于t2更靠近i2即可。第一预设角度可以根据实际使用需要进行设置。
[0103]
本实施例提供的情感分析方法,通过基于第一预设角度提前判断夹角是否过大,从而可以在夹角过大时对文本标准向量进行调整,而在夹角不大时不对文本标准向量进行调整,从而可以在保证情绪分析结果准确度的同时,尽可能地提高情感分析的效率。
[0104]
进一步地,可通过旋转矩阵r或旋转向量实现文本标准向量t2的旋转。当t2为高维度(维度大于3)的向量时,可以先将t2投影到三维空间中以得到向量t
21
=project(t2),例如通过全连接(fully connected,fc)层将t2投影到三维空间得到t
21
,进而通过如下的旋转矩阵r(r(x),r(y),r(z))实现t
21
的旋转以得到旋转后的向量t
22
=rt
21
。将t
22
投影回原始的向量空间,可以得到调整后的文本特征t3=project(t
22
),例如,通过全连接(fully connected,fc)层将t
22
投影回原始的向量空间得到t3。
[0105][0106][0107][0108]
可基于文本标准向量t2和图像标准向量i2确定旋转角度α(第二预设角度),α可以作为t
21
绕三维空间中某一轴(x、y或z轴)的旋转角度。如果t
21
绕x、y、z轴均做旋转的话,可基于文本标准向量t2和图像标准向量i2确定三个旋转角度α
x
、αy和αz。例如,当夹角θ大于第一预设角度时,可以利用神经网络模型基于文本标准向量t2和图像标准向量i2确定三个旋转角度α
x
、αy和αz,进而确定旋转矩阵r(r(x),r(y),r(z))。在一实施例中,可分别通过三个不同的全连接层得到三个旋转角度α
x
、αy和αz,这三个全连接层可以是同级的,可并行确定对应的旋转角度。
[0109]
可理解的,可以预设角度范围,如果模型确定的旋转角度α(α
x
、αy或αz)超出该角度范围,则取角度范围中的任意角度或最靠近α的角度作为实际旋转角度旋转t
21
。例如,预设的角度范围可以为(θ-γ,θ+γ),这里θ是t2和i2之间的夹角,γ可根据实际需要进行设置,如γ=30
°
。当模型确定的旋转角度α大于θ+γ时,可取θ+γ作为旋转角度,并基于θ+γ旋转
t
21
。如此可有效避免模型确定的旋转角度出现较大偏差的情况。
[0110]
根据本技术一实施例,文本特征包括词向量矩阵以及文本表征向量,词向量矩阵包括不同时间步的词向量,不同时间步的词向量对应文本数据中不同时间的词语,文本表征向量是基于词向量矩阵获得的,其中,根据图像特征调整文本特征得到调整后的文本特征,包括:根据图像特征确定词向量矩阵中各个时间步对应的词向量的权重;根据各个时间步对应的词向量的权重对各个时间步对应的词向量进行加权,得到加权后的句向量;确定文本表征向量与图像特征之间的差距信息;基于差距信息调整文本表征向量以得到调整后的文本表征向量;基于加权后的句向量和调整后的文本表征向量得到调整后的文本特征。
[0111]
具体地,图像特征包括图像表征向量i1,图像表征向量用于表征图像数据所蕴含的情感信息。
[0112]
词向量矩阵的组成以及获取方式可以参见上述实施例中的描述,此处不再赘述。词向量矩阵包含文本数据中各个词语所蕴含的情感信息。
[0113]
当用户表达的文本过长且内容过多时,很难从过长的文本中提取用户的真实情感信息,此时结合图像特征,可以有效地从文本特征中提取到准确的情感信息,避免文本中其他词语对分析结果的干扰。例如用户表达的文本为“**天气很好**,**可爱**,**恼火**”,该文本包括多个词语,不同词语可能指向不同的情感,哪个词语更能体现用户此时的真实情感,需要结合图像特征确定各个词语对应的词向量的权重,以突出最能体现用户真实情感的词向量。
[0114]
利用图像表征向量确定各个词向量对应的权重后,根据各个词向量的权重对各个词向量进行加权,可得到加权后的句向量b。加权后的句向量b包含整个文本数据(整个句子)中各个词语的信息,且可以较为准确地表达用户的真实情感。根据图像表征向量i1确定各个词向量对应的权重的具体过程,可以参见上述实施例中的描述。例如,可确定图像表征向量i1与各个时间步对应的词向量之间的相似度,并将相似度作为词向量的权重,进一步地,可根据图像表征向量i1与词向量矩阵的转置的乘积确定相似度。具体细节可参见上述根据图像特征向量q确定各个词向量对应的权重的过程,此处不再赘述。
[0115]
文本表征向量t1可以是基于词向量矩阵确定的,例如可以通过全连接层或其他方式对词向量矩阵进行处理得到文本表征向量。在当前时间步的词向量是结合当前词语以及之前所有词语的特征的情况下,文本表征向量t1可以是最后一个时间步的词向量,或者是通过全连接层或其他方式对各个时间步的词向量(词向量矩阵)进行处理得到的。
[0116]
基于各个时间步的词向量获取文本表征向量的方式可以是,确定各个词向量的权重,并根据各个词向量的权重对各个词向量进行加权,以得到文本表征向量。例如,可以通过深度学习中的soft-attention注意力模型确定各个词向量的权重并对各个词向量进行加权以得到文本表征向量。或者可以根据图像特征确定词向量矩阵中各个时间步对应的词向量的权重,该过程可参见上述实施例中的描述,此处不再赘述。
[0117]
文本表征向量用于表征整个文本数据所蕴含的情感信息,因此也可以称为句向量。当文本表征向量t1与图像表征向量i1维度相同且两者的数值分布位于同一范围内时,差距信息可以包括t1与i1之间的夹角以及t1相对于i1所在的方向。这样可以基于差距信息调整t1向i1靠近(如按照预设角度旋转t1),以得到调整后的文本表征向量。调整后的文本表征向量可以较为准确地表达用户的真实情感。
[0118]
调整后的文本特征tf融合了可较为准确地表达用户真实情感的加权后的句向量和调整后的文本表征向量,因此可以进一步提高细粒度情感分析结果的准确度。加权后的句向量和调整后的文本表征向量的维度可以相同或不同,若两者维度不同,可通过全连接层使两者维度相同进而进行特征融合过程。若两者维度相同,可以直接对两者进行特征融合。例如,加权后的句向量和调整后的文本表征向量的维度均为1*m,两者融合之后得到向量的维度可以是1*2m。基于融合后的向量可确定用户的情感类别。例如,可以通过全连接(fully connected,fc)层对融合后的向量进行处理,得到处理后的向量。处理后的向量的维度可以与情感分析方法可识别的情感类别的数量一致。处理后的向量中每个维度代表一种情感类别,该向量中数值最大的维度所代表的情感类别可确定为用户的情感类别。
[0119]
可选地,如果文本表征向量t1与图像表征向量i1在维度和/或数值范围上不一致,即不是标准化后的向量,可以先对t1和i1进行标准化,得到文本标准向量t2和图像标准向量i2。进一步地,可确定文本标准向量t2和图像标准向量i2之间的差距信息,基于差距信息调整文本标准向量t2以得到调整后的向量t3,并基于加权后的句向量b和调整后的向量t3确定最终的调整后的文本特征tf。基于差距信息调整文本标准向量t2以得到调整后的向量t3的具体过程可参见上述实施例中的描述,此处不再赘述。
[0120]
本实施例提供的情感分析方法,既基于图像特征确定词向量矩阵中各个词向量的权重以得到加权后的句向量,又基于文本表征向量与图像特征之间的差距信息调整文本表征向量,并且结合加权后的句向量和调整后的文本表征向量分析用户的情感,可以进一步提高细粒度情感分析结果的准确度。
[0121]
根据本技术一实施例,该情感分析方法还包括:确定差距信息是否满足预设条件;若满足预设条件,则执行基于差距信息调整文本表征向量以得到调整后的文本表征向量的步骤,若不满足预设条件,则基于加权后的句向量和文本表征向量得到调整后的文本特征。
[0122]
具体地,当文本表征向量t1与图像表征向量i1之间的差距不是很大时,表明两者包含的信息是很接近的,此时即使不对t1进行调整,也不会影响最终的情感分析结果。这样可以省略调整过程,提高情感分析的效率。当文本表征向量t1与图像表征向量i1之间的差距很大时,表明两者包含的信息差距很大,此时需要对t1进行调整,才能保证情绪分析结果的准确度。
[0123]
例如,差距信息包括t1与i1之间的夹角以及t1相对于i1所在的方向,预设条件可以是第一预设角度。当差距信息中的夹角小于或等于第一预设角度,则不对t1进行调整,直接基于加权后的句向量b和文本表征向量t1得到调整后的文本特征tf。当夹角大于第一预设角度,则基于i1对t1进行调整得到调整后的文本表征向量,进而基于加权后的句向量b和调整后的文本表征向量得到调整后的文本特征tf。
[0124]
根据本技术一实施例,该情感分析方法还包括:基于视频数据获取图像数据;基于视频数据对应的语音数据获取文本数据。
[0125]
具体地,视频数据和语音数据可以是相同时段的。同时段的语音数据和视频数据所呈现的用户情感是一致的,基于该视频数据获得的图像数据才可以有效地调整文本数据,提高情感分析结果的准确度。
[0126]
根据本技术一实施例,基于视频数据获取图像数据,包括:从视频数据中获取多帧图像;确定多帧图像中任意相邻两帧图像之间的像素差异值;若多帧图像中第n帧图像与第
n-1帧图像之间的像素差异值小于或等于预设阈值,则排除第n帧图像,从而基于保留的图像得到图像数据。
[0127]
具体地,在人机交互过程中采集的有关用户的视频数据一般包含多帧图像,数据量比较大,如果对视频数据中的每帧图像都进行分析以提取图像特征,会占据较大的存储空间且会延长运算时间。此外,有些相邻帧之间的图像差异较小,即视频数据中有相当一部分图像是冗余数据。因此,本实施例中的图像数据可以是从视频数据中提取的部分图像,如可以是多帧图像。当然,在采集的视频过短时,图像数据也可以是一帧图像。
[0128]
例如,可以按照预设的间隔帧数(如10帧,15帧等等)从视频数据中获取多帧图像作为图像数据。
[0129]
进一步地,考虑到用户可能在部分时间有肢体和/或表情变化,因此当按照预设的间隔帧数(如10帧,15帧等等)从视频数据中获取多帧图像后,可以从该多帧图像中进一步筛选部分图像作为后续分析的图像数据。具体地,可以确定多帧图像中任意相邻两帧图像之间的像素差异值。像素差异值越大,表明相邻两帧图像之间的内容差距越大(相似度较低),此时可以保留这两帧图像;像素差异值越小,表明相邻两帧图像之间的内容差距越小(相似度较高),此时可以保留这两帧图像中的任一帧图像。
[0130]
例如,可以按照时间先后顺序从多帧图像中筛选部分图像。首先选取多帧图像中的第一帧图像且保留第一帧图像,进而确定第n帧图像与第n-1帧图像之间的像素差异值。如果像素差异值大于预设阈值,则保留第n帧图像,否则排除第n帧图像,n大于或等于2。基于保留的图像得到图像数据。
[0131]
本实施例提供的情感分析方法,先按照预设的间隔帧数从视频数据中获取多帧图像,进而基于多帧图像中相邻两帧图像之间的像素差异值从多帧图像中选取部分图像作为图像数据。即通过两次筛选,可以从视频数据包含的图像中选取对情感表达有代表性的图像,从而可以有效地节省内存空间,并且提高运算速度,进而提高情感分析的效率。
[0132]
根据本技术一实施例,确定多帧图像中任意相邻两帧图像之间的像素差异值,包括:确定多帧图像中每个图像对应的二值图;基于任意相邻两帧图像对应的二值图之间的像素差异确定像素差异值。
[0133]
具体地,可以通过二值化处理将多帧图像中的每个图像转换为二值图,例如将图像上的像素点的灰度值设置0或255。按照时间先后顺序计算每张二值图与上一张二值图之间的像素差异值。例如,每张二值图的图像尺寸一致,可以计算相邻二值图上对应的像素点之间的像素值之差,将整个二值图中每个像素点对应的像素值之差的均值或中位数或众数作为相邻两帧图像之间的像素差异值。
[0134]
当然也可以利用一定的函数对各个像素点对应的像素值之差进行处理以得到相邻两帧图像之间的像素差异值。
[0135]
本实施例提供的情感分析方法,通过将视频数据中的图像转化为二值图,可以避免光线、阴影等因素对确定相邻两帧图像之间的像素差异值的影响,可以精确地从视频数据中获取具有代表性的图像。
[0136]
在一实施例中,图像数据中不同时间的图像输入到神经网络模型可以得到不同时间步的特征。例如t时刻的图像作为t时间步的输入x
t
输入到神经网络模型,该模型可以基于输入x
t
得到t时间步的输出y
t
。即不同时间步的输出只包含对应时刻的图像的特征。结合
不同时间步的输出可得到表征整个图像数据所蕴含的情感信息的图像特征。
[0137]
可选地,该模型可以结合x
t
以及上一个时间步的状态s
t-1
得到t时间步的状态s
t
,进而根据s
t
得到t时间步的输出y
t
。即,当前时间步的输出是结合当前图像以及之前所有图像的特征,这样可以结合之前的图像信息提取当前图像的情感信息,避免只根据当前图像提取的情感信息比较片面的情况。虽然越靠后的时间步对应的输出会存在一定的信息损失,会损失靠前的时间步对应的图像信息,但是可以在一定程度上进一步提高最终情感分析结果的准确度及可靠性。因此,可以直接将最后一个时间步的输出作为表征整个图像数据所蕴含的情感信息的图像特征。当然,也可以结合不同时间步的输出以获取图像特征。本实施例中模型可以是循环卷积神经网络(recurrent convolutional neural network,rcnn)模型,该模型可按照时序对数据进行分析且适于分析图像数据(具有矩形分布的特征)。可理解的,该模型也可以是其他合适的神经网络模型,只要可用于分析图像数据且可以按照时序分析图像数据即可,如长短期记忆(longshort term memory,lstm)网络模型。
[0138]
图3所示为本技术另一示例性实施例提供的情感分析方法的流程示意图。图3实施例是图2实施例的例子,为避免重复,相同之处可参见上述实施例中的描述,此处不再赘述。如图3所示,该情感分析方法包括如下内容。
[0139]
310:基于图像数据获取图像特征,并基于与图像数据对应的文本数据获取词向量矩阵。
[0140]
可以基于rcnn模型获取图像数据的图像特征,图像特征包括图像特征向量q,q是1*m维的向量。q可以是rcnn模型中最后一个时间步的输出(例如矩阵)经过flatten之后得到的。可以基于bi-lstm模型获取文本数据中的文本特征,文本特征包括词向量矩阵o,o是n*m维的矩阵,n是时间步的数量,即词向量的数量。当前时间步的词向量是结合当前词语以及之前所有词语的特征。
[0141]
320:根据图像特征与词向量矩阵的转置的乘积确定词向量矩阵中各个时间步对应的词向量的权重。
[0142]
各个时间步对应的词向量的权重w=qo
t
,w是1*n维的向量,每个维度上的数值代表对应词向量的权重。
[0143]
330:根据各个时间步对应的词向量的权重对各个时间步对应的词向量进行加权,得到调整后的文本特征。
[0144]
调整后的文本特征tf=b=wo,b是1*m维的向量。向量b包含整个文本数据(整个句子)中各个词语的信息,因此可以称为句向量。
[0145]
340:基于调整后的文本特征确定情感类别。
[0146]
可以通过全连接(fully connected,fc)层对b进行处理,得到处理后的向量。处理后的向量的维度可以与情感分析方法可识别的情感类别的数量一致,处理后的向量中的每个维度代表一种情感类别。可以将处理后的向量中数值最大的维度所代表的情感类别确定为最终的情感分析结果。
[0147]
本实施例中,图像特征向量q包含的是粗粒度特征。基于图像数据获取图像特征向量q的过程可以看作是第一阶段,该阶段为粗粒度情感分析过程。词向量矩阵o包含的是细粒度特征。基于文本数据获取词向量矩阵o、基于图像特征向量q确定各个词向量的权重并基于权重获取调整后的文本特征tf的过程可以看作是第二阶段,该阶段为细粒度情感分析
过程。本实施例基于第一阶段的粗粒度特征调整第二阶段的细粒度特征,可以提高细粒度情感分析结果的准确度。
[0148]
图4所示为本技术另一示例性实施例提供的情感分析方法的流程示意图。图4实施例是图2实施例的例子,为避免重复,相同之处可参见上述实施例中的描述,此处不再赘述。如图4所示,该情感分析方法包括如下内容。
[0149]
410:基于图像数据获取图像表征向量,并基于文本数据获取文本表征向量。
[0150]
具体地,图像表征向量i1可以是基于rcnn模型获取的。例如,i1可以是rcnn模型中最后一个时间步的输出(例如矩阵)经过flatten之后得到的。
[0151]
可以基于文本数据提取词向量矩阵,进而基于词向量矩阵确定文本表征向量t1。例如,可以通过深度学习中的soft-attention注意力模型确定各个词向量的权重并对各个词向量进行加权以得到文本表征向量t1。可理解的,可以根据图像特征(图像表征向量i1)确定词向量矩阵中各个时间步对应的词向量的权重,该过程可参见上述实施例中的描述,此处不再赘述。
[0152]
420:对图像表征向量和文本表征向量分别进行标准化,得到图像标准向量和文本标准向量。
[0153]
图像标准向量i2和文本标准向量t2的维度相同且两者的数值分布位于同一范围内。
[0154]
430:确定文本标准向量和图像标准向量之间的内积和外积。
[0155]
440:基于内积确定文本标准向量和图像标准向量之间的夹角,基于外积确定文本标准向量相对于图像标准向量所在的方向。
[0156]
450:在夹角大于第一预设角度时,对文本标准向量按照文本标准向量相对于图像标准向量所在的方向的反方向旋转第二预设角度,以得到调整后的文本特征。
[0157]
调整后的文本特征tf可表示为调整后的文本标准向量t3。当文本标准向量t2和图像标准向量i2之间的夹角θ小于或等于第一预设角度时,表明两者包含的信息是很接近的,此时可不对t2进行调整,如此可以省略调整过程,提高情感分析的效率。第二预设角度可以等于、小于或大于夹角θ,只要可保证t3相对于t2更靠近i2即可。
[0158]
460:基于调整后的文本特征确定情感类别。
[0159]
例如,可以通过全连接(fully connected,fc)层对t3进行处理,得到处理后的向量。处理后的向量的维度可以与情感分析方法可识别的情感类别的数量一致,处理后的向量中的每个维度代表一种情感类别。可以将处理后的向量中数值最大的维度所代表的情感类别确定为最终的情感分析结果。当然,也可以对t3进行其他分类处理以确定最终的情感分析结果。可理解的,若t3的维度与情感分析方法可识别的情感类别的数量一致,可以将t3中最大数值代表的情感类别确定为最终的情感分析结果。
[0160]
本实施例中,图像表征向量i1包含的是粗粒度特征。基于图像数据获取i1的过程可以看作是第一阶段,该阶段为粗粒度情感分析过程。文本特征(词向量矩阵o、文本表征向量t1以及文本标准向量t2)以及调整后的文本特征tf包含的是细粒度特征。基于文本数据获取文本特征以及基于图像表征向量i1调整文本特征的过程可以看作是第二阶段,该阶段为细粒度情感分析过程。本实施例基于第一阶段的粗粒度特征调整第二阶段的细粒度特征,可以提高细粒度情感分析结果的准确度。
[0161]
图5所示为本技术另一示例性实施例提供的情感分析方法的流程示意图。图5实施例是图2实施例的例子,为避免重复,相同之处可参见上述实施例中的描述,此处不再赘述。图5的方法可通过图6的情感分析模型600来执行。如图5所示,该情感分析方法包括如下内容。
[0162]
510:基于图像数据获取图像特征向量q,并基于与图像数据对应的文本数据获取词向量矩阵o。
[0163]
如图6所示,可将图像数据输入rcnn,并获取rcnn中最后一个时间步的输出,该输出为矩阵。该输出为rgb三通道类型的特征,通过1*1卷积层的处理可以减少该输出的通道数,得到通道数为1的特征。通道数为1的特征是矩阵,可以通过扁平化处理将其转化为向量,即图像特征向量q。q是1*m维的向量。
[0164]
如图6所示,可以将文本数据输入embedding层(嵌入层),或将预处理后的文本数据输入embedding层。embedding层可以将文本数据中的词语对应到词向量。各个词语对应的词向量输入到bi-lstm网络中,通过bi-lstm网络可获取每个时间步的输出向量,每个时间步的输出向量也是词向量,当前时间步的词向量是结合当前词语以及之前所有词语的特征。即bi-lstm网络的输出是词向量矩阵o,o是n*m维的矩阵,n是时间步的数量,即词向量的数量。
[0165]
520:根据图像特征向量q与词向量矩阵o的转置的乘积确定词向量矩阵o中各个时间步对应的词向量的权重w。
[0166]
w=qo
t
,w是1*n维的向量,每个维度上的数值代表对应词向量的权重。
[0167]
530:根据各个时间步对应的词向量的权重w对各个时间步对应的词向量进行加权,得到加权后的句向量b。
[0168]
b=wo,b是1*m维的向量。向量b包含整个文本数据(整个句子)中各个词语的信息,因此可以称为句向量。
[0169]
540:基于图像特征向量q获取图像表征向量i1,通过注意力模型确定词向量矩阵o中各个词向量的权重并对各个词向量进行加权以得到文本表征向量t1。
[0170]
如图6所示,可以通过fc层对图像特征向量q的维度进行调整以获取图像表征向量i1,这样可方便后续的数据处理过程。如果后续的数据处理过程不需要调整图像特征向量q的维度,可以将图像特征向量q作为图像表征向量i1。本实施例中可以将图像特征向量q作为图像表征向量i1,此时fc层可以省略,或者保留fc层以使得整个情感分析模型600的性能更稳定。
[0171]
如图6所示,可利用注意力模型(如soft-attention模型)确定词向量矩阵o中各个词向量的权重并对各个词向量进行加权以得到文本表征向量t1。可理解的,注意力模型可连接fc层,fc层可对注意力模型的输出向量进行维度调整,以使得文本表征向量t1的维度方便后续的数据处理过程。例如,fc层可使得文本表征向量t1的维度为1*m,即与加权后的句向量b的维度一致。
[0172]
550:对图像表征向量i1和文本表征向量t1分别进行标准化,得到图像标准向量i2和文本标准向量t2,确定文本标准向量t2和图像标准向量i2之间的内积和外积,基于内积确定文本标准向量t2和图像标准向量i2之间的夹角,基于外积确定文本标准向量t2相对于图像标准向量i2所在的方向。
[0173]
如图6所示,可以将图像表征向量i1和文本表征向量t1输入旋转网络rotationnet。旋转网络可对i1和t1分别进行标准化,得到i2和t2,并确定两者之间的夹角以及t2相对于i2所在的方向。
[0174]
560:在夹角大于第一预设角度时,对文本标准向量t2按照文本标准向量t2相对于图像标准向量i2所在的方向的反方向旋转第二预设角度,以得到调整后的文本表征向量t3;在夹角小于或等于第一预设角度时,将文本标准向量t2作为调整后的文本表征向量t3。
[0175]
在夹角大于第一预设角度时,旋转网络可对t2按照t2相对于i2所在的方向的反方向旋转第二预设角度,以得到调整后的文本表征向量t3。在夹角小于或等于第一预设角度时,旋转网络可将t2作为t3输出。
[0176]
570:基于加权后的句向量b和调整后的文本表征向量t3确定最终的调整后的文本特征tf。
[0177]
如图6所示,可通过fc层和分类器softmax对加权后的句向量b和调整后的文本表征向量t3进行处理,以得到最终的调整后的文本特征tf。
[0178]
例如,t3和b的维度相同,可对两者进行拼接处理或相加处理,拼接处理或相加处理后的特征经过fc层和分类器softmax,可得到tf。
[0179]
在一实施方式中,可识别的情感类别的种类为10类。t3和b的维度均为1*m,对两者进行拼接处理可得到1*2m维的向量。通过fc层和分类器softmax对1*2m维的向量进行处理可得到1*10维的向量tf。1*10维的向量中每个维度代表一种情感类别,每个维度上的数值代表该情感类别的概率值。这里fc层的权重为2m*10,softmax的作用是使得各个情感类别上的概率值总和为1。
[0180]
580:基于调整后的文本特征tf确定情感类别。
[0181]
可以将tf中最大数值代表的情感类别确定为最终的情感分析结果。
[0182]
可理解的,如图6所示,可通过fc层和分类器softmax对图像表征向量i1进行处理得到一个1*2维的向量,这个向量中的两个数值分别代表积极情感和消极情感的概率。将该向量中最大数值代表的情感类别确定为最终的情感分析结果。情感分析模型600中粗粒度情感分析部分是利用标注有积极情感和消极情感标签的样本图像数据进行训练得到的,因此情感分析模型600基于图像数据获得的图像表征向量i1,是可以表征最终的粗粒度情感分析结果的,是具有情感趋向的(如趋向积极情感或消极情感)。所以可以基于图像表征向量i1调整文本表征向量t1以获得t3,以及基于图像特征向量q调整词向量矩阵o以获得b。
[0183]
本实施例中,图像特征(q以及i1)包含的是粗粒度特征。基于图像数据获取q和i1的过程可以看作是第一阶段,该阶段为粗粒度情感分析过程。文本特征(o、b、t1、t2以及t3)以及调整后的文本特征tf包含的是细粒度特征。基于文本数据获取文本特征以及基于图像特征调整文本特征的过程可以看作是第二阶段,该阶段为细粒度情感分析过程。本实施例基于第一阶段的粗粒度特征调整第二阶段的细粒度特征,可以提高细粒度情感分析结果的准确度。此外,本实施例基于图像特征对文本特征进行两种处理,一种是基于q对o中各个词向量进行加权得到b;另一种是基于i1对t1进行旋转处理以使其靠近i1。将两种处理的结果进行结合可获得更加精确鲁棒的分析结果。
[0184]
示例性装置
[0185]
图7所示为本技术一示例性实施例提供的情感分析装置700的结构示意图。如图7
所示,情感分析装置700包括:获取模块710,调整模块720以及确定模块730。
[0186]
获取模块710用于基于图像数据获取图像特征,并基于与图像数据对应的文本数据获取文本特征。调整模块720用于根据图像特征调整文本特征得到调整后的文本特征。确定模块730用于基于调整后的文本特征确定情感类别。
[0187]
本技术实施例提供了一种情感分析装置,通过综合文本数据和图像数据两种不同类别的数据分析用户情感,可以提高情感分析结果的准确度。此外,本技术实施例以文本数据为主线,以图像数据为辅助,并利用图像特征调整文本特征得到调整后的文本特征,从而可以进一步提高情感分析结果的准确度,且可以在一定程度上达到细粒度情感分析的效果。
[0188]
根据本技术一实施例,文本特征包括词向量矩阵,词向量矩阵包括不同时间步的词向量,不同时间步的词向量对应文本数据中不同时间的词语,其中,调整模块720用于:根据图像特征确定词向量矩阵中各个时间步对应的词向量的权重;根据各个时间步对应的词向量的权重对各个时间步对应的词向量进行加权,得到调整后的文本特征。
[0189]
根据本技术一实施例,调整模块720用于:确定图像特征与各个时间步对应的词向量之间的相似度;基于相似度确定各个时间步对应的词向量的权重。
[0190]
根据本技术一实施例,调整模块720用于根据图像特征与词向量矩阵的转置的乘积确定相似度。
[0191]
根据本技术一实施例,调整模块720用于:确定文本特征与图像特征之间的差距信息;基于差距信息调整文本特征以得到调整后的文本特征。
[0192]
根据本技术一实施例,图像特征包括图像表征向量,文本特征包括文本表征向量,其中,获取模块710用于:基于文本数据提取词向量矩阵,其中,词向量矩阵包括不同时间步的词向量,不同时间步的词向量对应文本数据中不同时间的词语;基于词向量矩阵确定文本表征向量。
[0193]
根据本技术一实施例,图像特征包括图像标准向量,文本特征包括文本标准向量,其中,获取模块710用于:基于图像数据获取图像表征向量,并基于文本数据获取文本表征向量;对图像表征向量和文本表征向量分别进行标准化,得到图像标准向量和文本标准向量。调整模块720用于:确定文本标准向量和图像标准向量之间的内积和外积;基于内积确定文本标准向量和图像标准向量之间的夹角,基于外积确定文本标准向量相对于图像标准向量所在的方向,其中,差距信息包括夹角和方向。
[0194]
根据本技术一实施例,调整模块720用于:在夹角大于第一预设角度时,对文本标准向量按照方向的反方向旋转第二预设角度,以得到调整后的文本特征。
[0195]
根据本技术一实施例,文本特征包括词向量矩阵以及文本表征向量,词向量矩阵包括不同时间步的词向量,不同时间步的词向量对应文本数据中不同时间的词语,文本表征向量是基于词向量矩阵获得的,其中,调整模块720用于:根据图像特征确定词向量矩阵中各个时间步对应的词向量的权重;根据各个时间步对应的词向量的权重对各个时间步对应的词向量进行加权,得到加权后的句向量;确定文本表征向量与图像特征之间的差距信息;基于差距信息调整文本表征向量以得到调整后的文本表征向量;基于加权后的句向量和调整后的文本表征向量得到调整后的文本特征。
[0196]
根据本技术一实施例,调整模块720还用于:确定差距信息是否满足预设条件;若
满足预设条件,则执行基于差距信息调整文本表征向量以得到调整后的文本表征向量的步骤,若不满足预设条件,则基于加权后的句向量和文本表征向量得到调整后的文本特征。
[0197]
根据本技术一实施例,获取模块710还用于:基于视频数据获取图像数据;基于视频数据对应的语音数据获取文本数据。
[0198]
根据本技术一实施例,获取模块710用于:从视频数据中获取多帧图像;确定多帧图像中任意相邻两帧图像之间的像素差异值;若多帧图像中第n帧图像与第n-1帧图像之间的像素差异值小于或等于预设阈值,则排除第n帧图像,从而基于保留的图像得到图像数据。
[0199]
根据本技术一实施例,获取模块710用于:确定多帧图像中每个图像对应的二值图;基于任意相邻两帧图像对应的二值图之间的像素差异确定像素差异值。
[0200]
根据本技术一实施例,获取模块710用于利用神经网络模型从图像数据中提取图像特征,其中,神经网络模型是利用标注有积极情感和消极情感标签的样本图像数据进行训练得到的。
[0201]
应当理解,上述实施例中的获取模块710,调整模块720以及确定模块730的操作和功能可以参考上述任意实施例中提供的情感分析方法中的描述,为了避免重复,在此不再赘述。
[0202]
图8所示为本技术一示例性实施例提供的用于执行情感分析方法的电子设备800的框图。
[0203]
参照图8,电子设备800包括处理组件810,其进一步包括一个或多个处理器,以及由存储器820所代表的存储器资源,用于存储可由处理组件810执行的指令,例如应用程序。存储器820中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件810被配置为执行指令,以执行上述的情感分析方法。
[0204]
电子设备800还可以包括一个电源组件被配置为执行电子设备800的电源管理,一个有线或无线网络接口被配置为将电子设备800连接到网络,和一个输入输出(i/o)接口。可以基于存储在存储器820的操作系统操作电子设备800,例如windows server
tm
,mac os x
tm
,unix
tm
,linux
tm
,freebsd
tm
或类似。
[0205]
一种非临时性计算机可读存储介质,当存储介质中的指令由上述电子设备800的处理器执行时,使得上述电子设备800能够执行一种情感分析方法。情感分析方法包括:基于图像数据获取图像特征,并基于与图像数据对应的文本数据获取文本特征;根据图像特征调整文本特征得到调整后的文本特征;基于调整后的文本特征确定情感类别。
[0206]
上述所有可选技术方案,可采用任意结合形成本技术的可选实施例,在此不再一一赘述。
[0207]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0208]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0209]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0210]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0211]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0212]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序校验码的介质。
[0213]
需要说明的是,在本技术的描述中,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0214]
以上所述仅为本技术的较佳实施例而已,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1