基于商品评论的情感词典构建的方法、装置、介质及设备与流程

文档序号:35267274发布日期:2023-08-30 02:25阅读:23来源:国知局
基于商品评论的情感词典构建的方法、装置、介质及设备与流程

本技术涉及自然语言处理,尤其涉及一种基于商品评论的情感词典构建的方法、装置、存储介质及电子设备。


背景技术:

1、情感分析是自然语言处理领域的重要分支。近些年,由于互联网的普及与发展,对于网购商品的评论进行情感分析的需求日渐增大。通常,主观性的评论文本中的情感词是表现该文本情感的核心,情感词典的构建为情感词分析的重要基础,能够为情感词分析任务提供巨大的帮助。

2、传统的情感词典中,一般将情感词的极性通过人工划分的方式归为正面、负面和中性三类,并且情感词的极性强度往往由人工标注为几个固定的层次。但是由于情感词在不同领域中的极性可能不同,导致以上方式得到的情感词典不能很好的适用于不同领域的商品评论中,也即目前的情感词典可用性较差。


技术实现思路

1、为了解决现有技术存在的上述技术问题,本技术提供了一种基于商品评论的情感词典构建的方法、装置、存储介质及电子设备,提升了构建得到的情感词典的可用性。

2、第一方面,本技术提供了一种基于商品评论的情感词典构建的方法,该方法包括:根据目标领域的商品评论生成多个情感词,并按极性将各情感词分类至第一正面子词典、第一中性子词典和第一负面子词典,极性包括正面、中性和负面;确定每个情感词的情感极性值;确定第一正面子词典和第一中性子词典中情感极性值的差值最小的第一情感词和第二情感词,并以第一情感词的情感极性值和第二情感词的情感极性值的中间值作为第一阈值,第一阈值用于区分正面情感词和中性情感词,第一情感词属于第一正面子词典,第二情感词属于第一中性子词典;确定第一中性子词典和第一负面子词典中情感极性值的差值最小的第三情感词和第四情感词,并以第三情感词的情感极性值和第四情感词的情感极性值的中间值作为第二阈值,第二阈值用于区分中性情感词和负面情感词,第三情感词属于第一中性子词典,第四情感词属于第一负面子词典;根据第一阈值和第二阈值对每个情感词的极性进行划分,以获取包括第二正面子词典、第二中性子词典和第二负面子词典的情感词典。

3、利用该方法,首先确定了词典中每个字的情感极性值,并计算由这些字所组成的情感词的情感极性值,最后构建了带权重的情感词典。而目前一般通过人工标注几个极性层次来划分极性强度,该方式无法区分出同层次间情感词的极性强度差异,而本技术中情感词词典的各个字词典中的各个情感词的情感词极性均存在差异,使得情感词的极性划分更加精细化,分类效果更好。因此利用本技术得到的领域情感词典对商品的评论进行分析时,能够更加准确地判别出用户对商品的真实情感倾向,提升了构建得到的情感词典的可用性。

4、在一种可能的实现方式中,所述根据目标领域的商品评论生成多个情感词,具体包括:根据极性将目标领域的商品评论分类至各极性的评论集合;对各所述评论集合中的评论进行分词处理,并从分词处理的结果中提取出所述多个情感词。

5、在一种可能的实现方式中,所述按极性将各所述情感词分类至第一正面子词典、第一中性子词典和第一负面子词典,具体包括:确定各所述情感词在各所述评论集合中分别出现的频数;将最高的所述频数对应的所述评论集合的极性,作为所述情感词的极性,进而将各所述情感词分类至所述第一正面子词典、所述第一中性子词典和所述第一负面子词典。

6、在一种可能的实现方式中,所述确定每个所述情感词的情感极性值,具体包括:确定所述多个情感词包括的每个字的情感极性值;根据每个所述情感词包括的各个字对应的情感极性值,确定每个所述情感词的情感极性值。

7、在一种可能的实现方式中,所述确定所述多个情感词包括的每个字的情感极性值,具体包括:

8、根据下式确定每个字用于正面词、负面词和中性词时的权重:

9、

10、

11、

12、所述pli、dli、nli分别为字li作正面词、中性词和负面词的权重,所述spli、dpli和npli分别为字li出现在各正面词、各中性词和各负面词中的个数,所述r、s和t分别为各正面词、各中性词和各负面词中出现的所有字的数量;

13、根据下式确定每个字的情感极性值;

14、tli=η((pli-dli+nli),δ),

15、所述tli为所述字li的情感极性值;v((pli-dli+nli),δ)为高斯密度函数,所述pli-dli+nli为均值,所述δ为误差。

16、在一种可能的实现方式中,所述根据每个所述情感词包括的各个字对应的情感极性值,确定每个所述情感词的情感极性值,具体包括:将所述情感词包括的各个字对应的情感极性值累加后除以所述情感词的字数,以获取每个所述情感词的累积情感极性值;按照累积情感极性值由小到大的顺序,对所述情感词对应极性的子词典中包括的所有情感词进行排序;将所述情感词所处的排名和对应极性的子词典中包括的所有情感词的个数的比值,作为所述情感词的情感极性值。

17、在一种可能的实现方式中,所述根据所述第一阈值和所述第二阈值对每个所述情感词的极性进行划分,以获取包括第二正面子词典、第二中性子词典和第二负面子词典的情感词典,具体包括:当所述情感词的情感极性值大于所述第一阈值,且小于或等于1时,将所述情感词划分如所述第二正面子词典;当所述情感词的情感极性值大于所述第二阈值,且小于或等于所述第一阈值时,将所述情感词划分如所述第二中性子词典;当所述情感词的情感极性值大于或等于0,且小于或等于所述第二阈值时,将所述情感词划分如所述第二负面子词典。

18、第二方面,本技术提供了一种基于商品评论的情感词典构建的装置,装置包括:第一生成单元、第一确定单元、第二确定单元、第三确定单元和第二生成单元。所述第一生成单元,用于根据目标领域的商品评论生成多个情感词,并按极性将各所述情感词分类至第一正面子词典、第一中性子词典和第一负面子词典,所述极性包括正面、中性和负面。所述第一确定单元,用于确定每个所述情感词的情感极性值。所述第二确定单元,用于确定所述第一正面子词典和所述第一中性子词典中情感极性值的差值最小的第一情感词和第二情感词,并以所述第一情感词的情感极性值和所述第二情感词的情感极性值的中间值作为第一阈值,所述第一阈值用于区分正面情感词和中性情感词,所述第一情感词属于所述第一正面子词典,所述第二情感词属于所述第一中性子词典。所述第三确定单元,用于确定所述第一中性子词典和所述第一负面子词典中情感极性值的差值最小的第三情感词和第四情感词,并以所述第三情感词的情感极性值和所述第四情感词的情感极性值的中间值作为第二阈值,所述第二阈值用于区分中性情感词和负面情感词,所述第三情感词属于所述第一中性子词典,所述第四情感词属于所述第一负面子词典。所述第二生成单元,用于根据所述第一阈值和所述第二阈值对每个所述情感词的极性进行划分,以获取包括第二正面子词典、第二中性子词典和第二负面子词典的情感词典。

19、在一种可能的实现方式中,所述第一生成单元具体用于根据极性将目标领域的商品评论分类至各极性的评论集合;对各所述评论集合中的评论进行分词处理,并从分词处理的结果中提取出所述多个情感词。

20、在一种可能的实现方式中,所述第一生成单元,具体用于确定各所述情感词在各所述评论集合中分别出现的频数;第二确定子单元将最高的所述频数对应的所述评论集合的极性,作为所述情感词的极性,进而将各所述情感词分类至所述第一正面子词典、所述第一中性子词典和所述第一负面子词典。

21、在一种可能的实现方式中,第一确定单元包括第一确定子单元和第二确定子单元。第一确定子单元具体用于确定所述多个情感词包括的每个字的情感极性值;第二确定子单元,用于根据每个所述情感词包括的各个字对应的情感极性值,确定每个所述情感词的情感极性值。

22、在一种可能的实现方式中,第一确定子单元,具体用于根据下式确定每个字用于正面词、负面词和中性词时的权重:

23、

24、

25、

26、所述pli、dli、nli分别为字li作正面词、中性词和负面词的权重,所述spli、dpli和npli分别为字li出现在各正面词、各中性词和各负面词中的个数,所述r、s和t分别为各正面词、各中性词和各负面词中出现的所有字的数量;

27、根据下式确定每个字的情感极性值;

28、tli=η((pli-dli+nli),δ),

29、所述tli为所述字li的情感极性值;η((pli-dli+nli),δ)为高斯密度函数,所述pli-dli+nli为均值,所述δ为误差。

30、在一种可能的实现方式中,第二确定子单元,具体用于将所述情感词包括的各个字对应的情感极性值累加后除以所述情感词的字数,以获取每个所述情感词的累积情感极性值;按照累积情感极性值由小到大的顺序,对所述情感词对应极性的子词典中包括的所有情感词进行排序;将所述情感词所处的排名和对应极性的子词典中包括的所有情感词的个数的比值,作为所述情感词的情感极性值。

31、在一种可能的实现方式中,第二生成单元,具体用于当所述情感词的情感极性值大于所述第一阈值,且小于或等于1时,将所述情感词划分如所述第二正面子词典;当所述情感词的情感极性值大于所述第二阈值,且小于或等于所述第一阈值时,将所述情感词划分如所述第二中性子词典;当所述情感词的情感极性值大于或等于0,且小于或等于所述第二阈值时,将所述情感词划分如所述第二负面子词典。

32、第三方面,本技术还提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现该基于商品评论的情感词典构建的方法。

33、第四方面,本技术还提供了一种电子设备,电子设备用于运行程序,其中,所述程序运行时执行以上任意一种实现方式所述的基于商品评论的情感词典构建的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1