本发明属于人工智能神经网络,尤其涉及一种基于短语级transfomer模型的商品评论关键短语提取方法及系统。
背景技术:
1、随着电子商务的发展,人们越来越倾向网络购物,在购物的同时,用户也会留下自己对商品的评价,这些评价蕴含了丰富的内容,可以为其他购物者提供购买参考也可以为商家带来改进产品及服务的好处。因此挖掘评论中的关键词,并分析他们的情感内涵是目前研究的潮流。在一条评论中大多数的关键词是约定俗成的短语,而非单词的任意组合;同时,一些隐性的关键词并不会直接出现,这些隐性的关键词是直接出现的明显的关键词的同义词或者上位词。因此,需要一种方法把这些词识别出来,从而提高商品评论分析的效率和效果。
技术实现思路
1、有鉴于此,本发明提供一种商品评论关键短语提取方法,能够从商品评价中提取出关键短语以及其同义词或/和上位词。
2、为解决以上技术问题,本发明的技术方案为:一种商品评论关键短语提取方法,包括:
3、提取训练文档中关键词并获取其同义词或/和上位词以构建短语图谱,所述短语图谱中以所述关键词及其同义词或/和上位词作为节点;
4、获取短语图谱中所有节点的词嵌入矩阵;
5、对待提取的商品评价进行编码,获取待提取的商品评价短语级的向量;
6、在解码过程中,通过上一时间步输出的关键词的向量矩阵与词嵌入矩阵之间的注意力权重,获取待提取的商品评价中短语的同义词或/和上位词的注意力机制向量;
7、通过注意力机制向量和向量的注意力权重,获取总是同时出现的短语的交叉注意力机制向量;
8、通过当前时间步的生成概率以及拷贝概率,获取当前时间步的输出从而提取出待提取的商品评价中的关键短语;其中,当前时间步的生成概率基于当前时间步的注意力机制向量获取,当前时间步的拷贝概率基于当前时间步的注意力机制向量、向量获取。
9、作为一种改进,通过chatgpt获取训练文档中关键词的同义词或/和上位词,并通过图表示学习方法获取短语图谱中所有节点的词嵌入矩阵。
10、作为一种改进,所述获取待提取的商品评价短语级的向量的方法包括:
11、将待提取的商品评价输入bert模型获得词语级别的表示向量;
12、将词语级别的表示向量的起始位置和结束位置的向量输入短语编码器中进行编码,取最后一个时间步的输出作为待提取的商品评价短语级别的表示向量。
13、作为一种优选,注意力机制向量的获取方法包括:
14、利用公式:
15、;
16、计算待提取的商品评价中短语的同义词或/和上位词的注意力机制向量,其中,为注意力机制向量,为的上一时间步输出的关键短语的向量矩阵,为短语图谱中所有节点的词嵌入矩阵,attention为注意力机制,、、为权重矩阵。
17、作为一种改进,注意力机制向量的获取方法包括:
18、利用公式:
19、;
20、计算总是同时出现的短语的注意力机制向量,其中,为注意力机制向量,为短语的同义词或/和上位词的注意力机制向量,为获取待提取的商品评价短语级的向量,attention为注意力机制,、、为权重矩阵。
21、作为一种优选,获取当前时间步的输出的方法包括:
22、利用公式:
23、;
24、计算当前时间步的输出,其中,为当前时间步输出,为当前时间步的拷贝概率,为当前时间步的生成概率,为门机制;
25、利用公式:
26、;
27、计算门机制,其中,为门机制,为当前时间步的短语的同义词或/和上位词的注意力机制向量,sigmoid为激活函数,mlp为多层感知机;
28、利用公式:
29、;
30、计算当前时间步生成概率,其中,为当前时间步的生成概率,为当前时间步的短语的同义词或/和上位词的注意力机制向量,softmax为激活函数,mlp为多层感知机;
31、利用公式:
32、
33、;
34、计算当前时间步的拷贝概率,其中,为当前时间步的拷贝概率,为拷贝注意力权重,为当前时间步的总是同时出现的短语的注意力机制向量,wi为输入的第i个词,当前时间步的输出,i:wi=yt表示当wi=yt时i的值取wi或者yt;softmax为激活函数,为获取待提取的商品评价短语级的向量、为权重矩阵。
35、作为一种改进,利用公式:
36、;
37、对模型进行优化,其中,l为损失函数,为模型参数,x为输入,当前时间步的输出,为上一时间步的输出,为概率分布。
38、本发明还提供一种商品评论关键短语提取系统,用于实现上述商品评论关键短语提取方法,包括:
39、短语图谱构建模块,用于提取训练文档中关键词并获取其同义词或/和上位词以构建短语图谱,所述短语图谱中以所述关键词及其同义词或/和上位词作为节点;
40、词嵌入矩阵获取模块,用于获取短语图谱中所有节点的词嵌入矩阵;
41、向量获取模块,用于获取待提取的商品评价短语级的向量;
42、注意力机制模块i,用于通过上一时间步输出的关键词的标注向量矩阵与词嵌入矩阵之间的注意力权重,获取待提取的商品评价中短语的同义词或/和上位词的注意力机制向量;
43、注意力机制模块ii,通过注意力机制向量和向量的注意力权重,获取总是同时出现的短语的交叉注意力机制向量;
44、预测模块,通过当前时间步的生成概率以及拷贝概率,获取当前时间步的输出从而提取出待提取的商品评价中的关键短语;其中,当前时间步的生成概率基于当前时间步的注意力机制向量获取,当前时间步的拷贝概率基于当前时间步的注意力机制向量、向量获取。
45、本发明还提供一种计算机程序,所述计算机程序被执行时,可实现上述的商品评论关键短语提取方法。
46、本发明还提供一种计算机系统,包括处理器以及存储器,所述存储器内存储有计算机程序,当所述计算机程序被处理器执行时,可实现上述的商品评论关键短语提取方法。
47、本发明的有益之处在于:
48、本发明中,将训练集内的文档通过人工标注等方式获取关键词构建短语库,然后从短语库内挑选高频短语作为短语词汇,并利用chatgpt等大模型从所述短语词汇中找出每个短语的同义词和上位词,并利用短语词汇及其同义词和上位词作为节点构建短语谱图,再利用图表示学习方法等获取每个节点的向量。将待提取的商品评价进行编码后输入解码器,通过解码器中与节点向量的同义词、上位词注意力机制以及交叉注意力机制,从待提取的商品评价中提取出关键短语以及其同义词和上位词。
49、本发明提供的商品评论关键短语提取方法,不仅可提取显性的关键词,还可以通过显性词的同义词、上位词找到隐形的关键短语,提高后续商品评价分析的效率和准确性。
1.一种商品评论关键短语提取方法,其特征在于包括:
2.根据权利要求1所述的一种商品评论关键短语提取方法,其特征在于:通过chatgpt获取训练文档中关键词的同义词或/和上位词,并通过图表示学习方法获取短语图谱中所有节点的词嵌入矩阵。
3.根据权利要求1所述的一种商品评论关键短语提取方法,其特征在于所述获取待提取的商品评价短语级的向量的方法包括:
4.根据权利要求1所述的一种商品评论关键短语提取方法,其特征在于注意力机制向量的获取方法包括:
5.根据权利要求1所述的一种商品评论关键短语提取方法,其特征在于注意力机制向量的获取方法包括:
6.根据权利要求1所述的一种商品评论关键短语提取方法,其特征在于获取当前时间步的输出的方法包括:
7.根据权利要求1所述的一种商品评论关键短语提取方法,其特征在于利用公式:
8.一种商品评论关键短语提取系统,用于实现权利要求1~7中任意一项所述的商品评论关键短语提取方法,其特征在于包括:
9.一种计算机程序,其特征在于:所述计算机程序被执行时,用于实现权利要求1~7中任意一项所述的商品评论关键短语提取方法。
10.一种计算机系统,其特征在于:包括处理器以及存储器,所述存储器内存储有计算机程序,当所述计算机程序被处理器执行时,用于实现权利要求1~7中任意一项所述的商品评论关键短语提取方法。