文本情感分析方法和装置与流程

文档序号:14120434阅读:485来源:国知局
文本情感分析方法和装置与流程

本发明涉及计算机技术领域,尤其涉及一种文本情感分析方法和装置。



背景技术:

随着社交网络的风靡,对社交媒体文本数据的研究得到广泛关注。社交媒体中出现大量带有感情倾向性性的文本,如用户在微博、知乎等社交网络发表的评论,这些评论包含大量情感信息和主观观点。由于带有感情倾向性的文本有很多应用价值,所以分析这些文本的情感具有重要的意义。有效挖掘此类文本的信息对于电子商务、信息预测、舆情监控有着重要实用价值。

目前,对社交媒体产生的文本进行情感分析一般分为三个步骤:文本预处理、情感信息抽取和情感分类,其中,情感信息抽取分为情感词、主题和关系的抽取。常用的方法有以下两种:

基于语义词典的情感计算:将待分析的文本与情感词典进行匹配以分析情感。

基于机器学习的情感分类方法:采用有监督学习的分类方法,事先人工标注或收集大量正向情感、负向情感与中性情感文本,再通过机器学习的分类算法训练出分类模型,用于预测文本的情感倾向。

在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:

对于基于语义词典的情感计算方法,分析结果的准确性与情感词典的丰富程度有关,而且,简单地将待分析的文本与情感词典进行匹配,没有考虑文本本身的句法结构和情感词的修饰程度,导致分析准确率较低。

有监督学习的分类方法需要人工获取或标注大量的训练集,需要大量的人力与数据,成本较高,而且从其他数据源获取的公开训练集与当前待分析的文本特征差异较大,无法保证分析效果。



技术实现要素:

有鉴于此,本发明实施例提供一种文本情感分析方法和装置,采用无监督的方法分析文本的情感,不需要人工参与,节省成本;对情感词典进行扩展,丰富其使用场景,提高了分析准确率。

为实现上述目的,根据本发明实施例的一个方面,提供了一种文本情感分析方法。

本发明实施例的文本情感分析方法,包括:获取语料训练样本和情感词典;基于所述语料训练样本,对所述情感词典进行扩展以形成增强情感词典;根据所述增强情感词典,确定待分析文本的情感。

可选地,基于所述语料训练样本,对所述情感词典进行扩展以形成增强情感词典包括:遍历所述语料训练样本中的每个训练词:确定所述训练词与所述情感词典中每个情感词的相似度,若所述相似度中最大的相似度大于预设阈值,则将所述训练词添加至所述情感词典,以形成增强情感词典。

可选地,确定所述训练词与所述情感词典中每个情感词的相似度的步骤包括:获取所述训练词对应的训练词向量,以及所述情感词典中每个情感词对应的情感词向量;针对每个所述训练词:根据所述训练词向量与所述情感词对应的情感词向量的相似度,确定所述训练词与所述情感词的相似度。

可选地,所述情感词典中的每个情感词具有情感得分;

在将所述训练词添加至所述情感词典之后,所述方法还包括:根据所述最大的相似度和与所述最大的相似度对应的情感词的情感得分,确定添加至所述情感词典的训练词的情感得分。

可选地,根据所述增强情感词典,确定待分析文本的情感包括:将所述待分析文本与所述增强情感词典进行匹配,确定所述待分析文本的待分析情感词以及所述待分析情感词的情感得分;确定所述待分析情感词是否被程度修饰词所修饰,其中,所述程度修饰词包括否定词和/或程度副词;若是,则对所述待分析情感词的情感得分进行修正;基于修正后的情感得分,确定所述待分析文本的情感。

为实现上述目的,根据本发明实施例的另一方面,提供了一种文本情感分析装置。

本发明实施例提供的文本情感分析装置,包括:获取模块,用于获取语料训练样本和情感词典;词典生成模块,用于基于所述语料训练样本,对所述情感词典进行扩展以形成增强情感词典;情感分析模块,用于根据所述增强情感词典,确定待分析文本的情感。

可选地,所述词典生成模块还用于:遍历所述语料训练样本中的每个训练词:确定所述训练词与所述情感词典中每个情感词的相似度,若所述相似度中最大的相似度大于预设阈值,则将所述训练词添加至所述情感词典,以形成增强情感词典。

可选地,所述词典生成模块还用于:获取所述训练词对应的训练词向量,以及所述情感词典中每个情感词对应的情感词向量;针对每个所述训练词:根据所述训练词向量与所述情感词对应的情感词向量的相似度,确定所述训练词与所述情感词的相似度。

可选地,所述情感词典中的每个情感词具有情感得分;

所述词典生成模块还用于根据所述最大的相似度和与所述最大的相似度对应的情感词的情感得分,确定添加至所述情感词典的训练词的情感得分。

可选地,所述情感分析模块还用于:将所述待分析文本与所述增强情感词典进行匹配,确定所述待分析文本的待分析情感词以及所述待分析情感词的情感得分;确定所述待分析情感词是否被程度修饰词所修饰,其中,所述程度修饰词包括否定词和/或程度副词;若是,则对所述待分析情感词的情感得分进行修正;基于修正后的情感得分,确定所述待分析文本的情感。

为实现上述目的,根据本发明实施例的再一方面,提供了一种用于执行文本情感分析方法的电子设备。

本发明实施例的一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的文本情感分析方法。

为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读介质。

本发明实施例提供的计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现本发明实施例的文本情感分析方法。

上述发明中的一个实施例具有如下优点或有益效果:因为采用语料训练样本对情感词典进行扩展以形成增强情感词典,根据无监督的方法分析文本的情感,不需要人工参与,降低成本;对情感词典进行扩展以形成增强情感词典,从而丰富了情感词典的使用场景,提高了分析准确率。本发明实施例的文本情感分析方法可以根据文本中的情感词的情感得分确定该文本的情感强度,进一步的,本发明实施例考虑了文本的浅层句法结构,以分析文本中的情感词是否被否定词或者程度副词所修饰,对被否定词或者程度副词所修饰的情感词的情感得分进行修正,从而进一步提高文本情感分析结果的准确性。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明,不构成对本发明的不当限定。其中:

图1是根据本发明实施例的文本情感分析方法的主要流程的示意图;

图2是根据本发明实施例的文本情感分析装置的主要模块的示意图;

图3是本发明实施例可以应用于其中的示例性系统架构图;

图4是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的文本情感分析方法的主要流程的示意图。如图1所示,该方法包括:

步骤s101:获取语料训练样本和情感词典。

步骤s102:基于所述语料训练样本,对情感词典进行扩展以形成增强情感词典。

步骤s103:根据所述增强情感词典,确定待分析文本的情感。

在本实施例中,语料训练样本和待分析文本为中文文本,相应的,情感词典也是中文情感词典。在其他可选的实施例中,语料训练样本和待分析文本也可以是其他语言的文本,例如也可以是英文文本。

对于步骤s101,可以利用api(applicationprogramminginterface,应用程序编程接口)或爬虫技术获取社交媒体例如微博或论坛的评论作为语料训练样本。

在可选的实施例中,可以根据待分析文本的领域获取语料训练样本,更具体地,可以指定关键词。例如分析某一品牌在社交媒体中近一个月的情感表现,则可以将品牌名称指定为关键词,再通过调用微博api或利用爬虫技术获取一段时间内包含该关键词的微博和微博评论作为语料训练样本。

在可选的实施例中,在获取语料训练样本之后,可以利用广告和垃圾过滤技术对该语料训练样本进行过滤,以提取优质的语料训练样本。

在可选的实施例中,对语料训练样本进行过滤之后,可以对过滤后的优质语料训练样本进行中文分词,获得多个训练词。例如,可以利用中文分词工具ltp(哈工大社会计算与信息检索研究中心研发的语言技术平台)、nlpir(汉语分词系统,又名ictclas2013)、thulac(thulexicalanalyzerforchinese,由清华大学自然语言处理与社会人文计算实验室研制推出的一套分词工具包)、jieba等对该优质语料训练样本进行分词。

在可选的实施例中,可以选取知网的hownet情感词典、台湾大学的ntusd情感词典,以及大连理工大学中文情感词典本体库作为本发明实施例的情感词典。

由于上述情感词典囊括的情感词是有限的,而自然语言的表达是千变万化的,直接将上述情感词典应用到文本情感分析中会出现分析结果不准确的问题。因此,为了解决该问题,在本发明实施例中利用语料训练样本对情感词典进行扩展以形成增强情感词典,从而扩展其中的情感词,丰富其使用场景,进而提高分析结果的准确率。

对于步骤s102,在可选的实施例中,可以根据如下过程对所述情感词典进行扩展:

遍历所述语料训练样本中的每个训练词:确定所述训练词与所述情感词典中每个情感词的相似度,

若所述相似度中最大的相似度大于预设阈值,则将所述训练词添加至所述情感词典,以形成增强情感词典。

在本发明实施例中,训练词与情感词之间的相似度体现了训练词与情感词之间的语义相似程度,所以可以将语料训练样本中与情感词典中的情感词相似度较高的训练词添加至情感词典中,形成增强情感词典。在可选的实施例中,训练词与情感词之间的相似度也可以称为训练词与情感词之间的距离。

在可选的实施例中,确定所述训练词与所述情感词典中每个情感词的相似度的步骤包括:

获取所述训练词对应的训练词向量,以及

所述情感词典中每个情感词对应的情感词向量;

针对每个所述训练词:根据所述训练词向量与所述情感词对应的情感词向量的相似度,确定所述训练词与所述情感词的相似度。

在可选的实施中,可以利用word2vec模型获得训练词向量以及情感词向量,具体地:将训练词作为word2vec模型的输入,得到训练词对应的训练词向量;将情感词典中的情感词作为word2vec模型的输入,得到情感词对应的情感词向量。在可选的实施例中,训练词向量与情感词向量可以是低维向量,例如200维。

word2vec使用的是distributedrepresentation(分布式表征)的词向量表示方式,是google在2013年开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过对输入语料的训练,可以将语料中的每个词映射成为一个固定维度的低维稠密向量,把对文本词的处理简化为n(n为正整数)维向量空间中的向量运算,而向量之间的相似度或距离可以用以表示词之间的语义相似度或距离。word2vec有两种训练模型:cbow模型(连续词袋模型)和skip-gram模型(跨词序列模型)。cbow模型是通过上下词预测当前词,而skip-gram模型是通过当前词预测上下文。在本发明实施例中,可以采用cbow模型,也可以采用skip-gram模型,本发明在此不做限制。

在可选的实施例中,可以采用计算余弦相似度的方式计算训练词向量与情感词向量之间的相似度。例如,训练词向量a=[a1,a2…an],情感词向量b=[b1,b2…bn],则训练词向量a与情感词向量b之间的余弦相似度为:

根据上述步骤,针对每个训练词,计算该训练词与情感词典中每个情感词的相似度。若所述相似度中最大的相似度大于预设阈值,则将该训练词添加至所述情感词典。例如,预设阈值为0.8,则将最大的余弦相似度大于0.8的训练词添加至情感词典中,形成增强情感词典。

作为一种具体的示例,例如情感词典ntusd中的情感词包括“高高兴兴、快乐、喜悦”,语料训练样本中的训练词为“嗨皮”,预设阈值为0.8。利用word2vec模型获得上述情感词对应的情感词向量和训练词对应的训练词向量。分别计算该训练词向量与上述三个情感词向量的余弦相似度:“嗨皮”与“高高兴兴”的余弦相似度为0.85,“嗨皮”与“快乐”的余弦相似度为0.81,“嗨皮”与“喜悦”的余弦相似度为0.79。三个余弦相似度中最大的余弦相似度为0.85,其大于预设阈值,则将“嗨皮”添加至该情感词典。

在本发明实施例中,可以使情感词典中的每个情感词具有情感得分,并为添加至情感词典中的训练词设置情感得分,该情感得分表示主体对客体表达正面情感或负面情感时的强弱程度。本发明实施例不仅能够确定文本的情感倾向,在分析待分析文本的情感时,还可以根据待分析文本中的待分析情感词对应的情感得分确定该待分析文本的情感强度。例如,可以将待分析文本中待分析情感词对应的情感得分的累加和作为该待分析文本的情感强度。

在可选的实施例中,该情感词典可以是台湾大学的情感词典ntusd。在情感词典ntusd中,正面情感词的情感得分大于0,负面情感词的情感得分小于0,中性词的情感得分为0,情感得分绝对值越大表明情感倾向程度越大。情感词与情感得分以逗号分隔,该情感词典示例如下:

恶心,-0.267935

赞扬,0.4410439

冷战,-0.61774685

功德圆满,0.2998128

高高兴兴,0.681309

伪装,-0.5

在本发明实施例中,在将训练词添加至情感词典之后,为该训练词设置情感得分。例如可以根据所述最大的相似度和与所述最大的相似度对应的情感词的情感得分,确定添加至所述情感词典的训练词的情感得分。

具体地,在上述实施例中,情感词“高高兴兴”的情感得分为0.681309,情感词“快乐”的情感得分为0.676503,情感词“喜悦”的情感得分为0.670809,“嗨皮”与“高高兴兴”的相似度最大,则“嗨皮”的情感得分为:0.681309×0.85=0.5791126。

对于步骤s103,在可选的实施例中,根据增强情感词典确定待分析文本的情感的过程如下:

将待分析文本与增强情感词典进行匹配,确定待分析文本的待分析情感词以及待分析情感词的情感得分;

确定待分析情感词是否被程度修饰词所修饰,其中,程度修饰词包括否定词和/或程度副词;

若是,则对待分析情感词的情感得分进行修正;

基于修正后的情感得分,确定待分析文本的情感。

发明人在实现本发明的过程中发现,在实际的自然语言文本中,情感词经常会被否定词或程度副词所修饰,从而导致文本的情感倾向发生变化。其中,否定词是副词的一种,它表示否定意义的词语,在文本中具有独特的语法意义和影响。分析表明,被否定词修饰的情感词往往会改变情感极性。当一个否定词修饰一个正面情感词,原本表达的正面情感会变为中性情感或负面情感,反之亦然。程度副词中的“程度”是指某个量处于相应层次序列中的某个层级上,是量的层级表现。以社交网站中的微博为例,由于微博信息多为即时性发布,具有文本内容少、信息含量广的特点,非书面化的写作带来了大量的程度副词去限制或修饰用户的观点、立场、态度等方面的表达。例如“很”、“超级”、“非常”等程度副词。若在待分析文本中有程度副词或否定词,则需要调整该程度副词或否定词修饰的情感词在待分析文本中的情感得分。

针对上述问题,在本发明实施例中,在确定待分析文本中的待分析情感词之后,可以进一步判断该待分析情感词是否被否定词或程度副词所修饰,若是,则对该待分析情感词的情感得分进行修正。例如,可以利用hownet提供的程度级别词语词典判断待分析文本中的待分析情感词前面的5个词是否包含否定词或程度副词。若包含否定词,则可以在计算该待分析文本的情感时不计入该待分析情感词的情感得分;若存在程度副词,则可以在计算该待分析文本的情感时将该待分析情感词的情感得分提高1倍。在其他可选的实施例中,可以设置其他方式修正被程度修饰词修饰的情感词的情感得分,本发明在此不做限制。

本发明实施例的文本情感分析方法,采用无监督的方法分析文本的情感,不需要人工参与,降低成本;对情感词典进行扩展,丰富其使用场景,提高了分析准确率。本发明实施例的文本情感分析方法可以根据文本中的情感词的情感得分确定该文本的情感强度,进一步的,本发明实施例考虑了文本的浅层句法结构,以分析文本中的情感词是否被否定词或者程度副词所修饰,对被否定词或者程度副词所修饰的情感词的情感得分进行修正,从而使该文本的情感强度更准确。

本发明实施例的文本情感分析方法,可以用于指导多种个人或商业行为,例如,分析用户对目标产品或品牌在社交媒体上的情感指数,根据不同的分析结果,采取不同的商业行为。例如,帮助品牌商了解用户对品牌、产品的喜好,从而指导品牌商改善品牌和服务,提高用户体验。自动发现情感强度最高的若干正向情感信息和负向情感信息,这些信息可以一定程度上反映用户对目标产品的强烈情感。发掘用户满意或不满原因,以更好了解目标产品或品牌的具体市场表现。用户也可以根据网友或亲友评价决定是否购买特定产品或服务。

图2是根据本发明实施例的文本情感分析装置的主要模块的示意图。如图2所示,该文本情感分析装置200包括:

获取模块201,用于获取语料训练样本和情感词典;

词典生成模块202,用于基于所述语料训练样本,对所述情感词典进行扩展以形成增强情感词典;

情感分析模块203,用于根据所述增强情感词典,确定待分析文本的情感。

在可选的实施例中,词典生成模块202还用于:遍历所述语料训练样本中的每个训练词:确定所述训练词与所述情感词典中每个情感词的相似度,若所述相似度中最大的相似度大于预设阈值,则将所述训练词添加至所述情感词典,以形成增强情感词典。

在可选的实施例中,词典生成模块202还用于:获取所述训练词对应的训练词向量,以及所述情感词典中每个情感词对应的情感词向量;针对每个所述训练词:根据所述训练词向量与所述情感词对应的情感词向量的相似度,确定所述训练词与所述情感词的相似度。

在可选的实施例中,情感词典中的每个情感词具有情感得分;

词典生成模块202还用于根据所述最大的相似度和与所述最大的相似度对应的情感词的情感得分,确定添加至所述情感词典的训练词的情感得分。

在可选的实施例中,所述情感分析模块203还用于:将所述待分析文本与所述增强情感词典进行匹配,确定所述待分析文本的待分析情感词以及所述待分析情感词的情感得分;确定所述待分析情感词是否被程度修饰词所修饰,其中,所述程度修饰词包括否定词和/或程度副词;若是,则对所述待分析情感词的情感得分进行修正;基于修正后的情感得分,确定所述待分析文本的情感。

本发明实施例的文本情感分析装置,采用无监督的方法分析文本的情感,不需要人工参与,降低成本;对情感词典进行扩展,丰富其使用场景,提高了分析准确率。本发明实施例的文本情感分析方法可以根据文本中的情感词的情感得分确定该文本的情感强度,进一步的,本发明实施例考虑了文本的浅层句法结构,以分析文本中的情感词是否被否定词或者程度副词所修饰,对被否定词或者程度副词所修饰的情感词的情感得分进行修正,从而使该文本的情感强度更准确。

上述文本情感分析装置可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。

图3示出了可以应用本发明实施例的文本情感分析方法或文本情感分析装置的示例性系统架构300。

如图3所示,系统架构300可以包括终端设备301、302、303,网络304和服务器305。网络304用以在终端设备301、302、303和服务器305之间提供通信链路的介质。网络304可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备301、302、303通过网络304与服务器305交互,以接收或发送消息等。终端设备301、302、303上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备301、302、303可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器305可以是提供各种服务的服务器,例如对用户利用终端设备301、302、303所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息反馈给终端设备)。

需要说明的是,本发明实施例所提供的文本情感分析方法一般由服务器305执行,相应地,文本情感分析装置一般设置于服务器305中。

应该理解,图3中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

下面参考图4,其示出了适于用来实现本发明实施例的终端设备的计算机系统400的结构示意图。图4示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示,计算机系统400包括中央处理单元(cpu)401,其可以根据存储在只读存储器(rom)402中的程序或者从存储部分408加载到随机访问存储器(ram)403中的程序而执行各种适当的动作和处理。在ram403中,还存储有系统400操作所需的各种程序和数据。cpu401、rom402以及ram403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。

以下部件连接至i/o接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至i/o接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(cpu)401执行时,执行本发明的系统中限定的上述功能。

需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括发送模块、获取模块、确定模块和第一处理模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,发送模块还可以被描述为“向所连接的服务端发送图片获取请求的模块”。

作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:

获取语料训练样本和情感词典;基于所述语料训练样本,对所述情感词典进行扩展以形成增强情感词典;根据所述增强情感词典,确定待分析文本的情感

本发明实施例的技术方案,采用无监督的方法分析文本的情感,不需要人工参与,降低成本;对情感词典进行扩展,丰富其使用场景,提高了分析准确率。本发明实施例的文本情感分析方法可以根据文本中的情感词的情感得分确定该文本的情感强度,进一步的,本发明实施例考虑了文本的浅层句法结构,以分析文本中的情感词是否被否定词或者程度副词所修饰,对被否定词或者程度副词所修饰的情感词的情感得分进行修正,从而使该文本的情感强度更准确。

上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1