本发明涉及自然语言处理与人工智能,特别是一种基于隐式维度挖掘的个性化评论推荐方法及系统。
背景技术:
1、在线产品的评论是电子购物网站的重要组成部分,反映了历史用户的真实使用体验,不仅可以帮助新用户快速了解产品与服务的质量,还能够帮助商家及时掌握产品的亮点与不足。这些在线产品评论所表达的任何积极或消极观点被称为电子口碑,有研究表明在线评论对新用户购买意愿的影响。但互联网发展带来了评论数据的爆发式增长,且评论质量参差不齐。因此,如何从海量评论中推荐有用的信息对用户、商家与平台均有着重要的意义。
2、近年来,评论推荐相关技术围绕评论有用性预测任务开展。评论有用性预测任务的关键步骤为评论特征提取。其中,评论的文本内容是应用最多的特征类型,主要包含:词性、文本内容、可读性等特征。但针对文本内容的有用性预测技术仅反映了评论的通用有用性,较难根据新用户的个性化需求进行个性化推荐。因此,研究者们基于除文本内容外的其他特征进行评论推荐,主要包括:非文本内容,产品相关因素和评论者相关因素。
技术实现思路
1、鉴于现有自动提取评论和新用户需求中的隐式特征很难同时保证准确性和减少人工干预,而且隐式特征本身缺乏良好的归纳性,导致很难直观地匹配新用户需求,提出了本发明。
2、因此,本发明所要解决的问题在于如何利用大语言模型来挖掘评论和新用户需求中的隐式维度,以实现更加精准的个性化评论推荐。
3、为解决上述技术问题,本发明提供如下技术方案:
4、第一方面,本发明实施例提供了一种基于隐式维度挖掘的个性化评论推荐方法,其包括通过筛选网络商品评论并微调m3e-base模型,构建m3e-base-textdimension模型;利用大语言模型识别评论中的实体,并改写评论以提取评论维度;结合用户需求和评论维度,通过大语言模型筛选出符合用户需求的评论维度集作为需求维度;将评论维度和需求维度输入至m3e-base-textdimension模型,以生成评论embedding和需求embedding;通过计算评论embedding和需求embedding的余弦相似度进行top-n评论推荐。
5、作为本发明所述基于隐式维度挖掘的个性化评论推荐方法的一种优选方案,其中:构建m3e-base-textdimension模型包括以下步骤:利用python的pandas库对网络商品评论数据进行去重处理;通过计算分词率wsr筛选掉乱码文本,并利用jieba库进行分词;在爬虫程序中,对文本数据进行长度筛选以确定文本数据的实用长度;使用hanlp工具包进行中文分词操作,并通过构建停用词表对文本数据进行过滤;通过pku词性标注集选择实体词,以确定文本分析的候选维度;使用包含评论文本和候选维度的数据集微调m3e-base模型,以构建m3e-base-textdimension模型。
6、作为本发明所述基于隐式维度挖掘的个性化评论推荐方法的一种优选方案,其中:通过构建停用词表对文本数据进行过滤包括以下步骤:导入hanlp工具包,检查是否存在已有的停用词表;若存在则直接加载已有停用词表,若不存在则构建自定义停用词表;尝试多种分词算法并评估效果,以选择最优算法对文本数据进行分词操作;判断是否需要过滤停用词,若需要则遍历分词结果,与停用词表进行匹配以移除停用词,同时输出过滤后的分词结果得到无停用词的关键词列表,若不需要则直接输出分词结果。
7、作为本发明所述基于隐式维度挖掘的个性化评论推荐方法的一种优选方案,其中:使用包含评论文本和候选维度的数据集微调m3e-base模型包括以下步骤:基于评论文本和候选维度构建m3e-base的微调数据集包括训练数据、验证数据和测试数据;判断数据集文件形式是否为两列包括原评论、原评论和候选维度;若为两列,则加载m3e-base模型,并将两列数据作为文本输入,并将其相似度标签设为1;若第一列数据与其他样本第二列数据组合,则将其相似度标签设为0;基于标签样本,使用交叉熵损失函数微调m3e-base模型得到m3e-base-textdimension模型。
8、作为本发明所述基于隐式维度挖掘的个性化评论推荐方法的一种优选方案,其中:构建实体识别prompt,通过实体识别prompt识别原评论文本中的产品属性、功能和缺陷实体;构建实体识别文本改写prompt,以指导chatglm-pro模型结合实体识别结果改写原评论文本,且在保证语义不变的情况下将隐性维度转化为显性维度;对改写生成的新文本,利用hanlp进行分词与词性标注处理,仅保留其中词性为n、nz、nx的词作为评论维度;构建维度检查prompt,利用大语言模型判断评论维度是否在原评论中提及;若维度在原评论中未被提及,则将其作为无关维度进行删除;若维度在原评论中被提及,则将其添加至评论维度集中。
9、作为本发明所述基于隐式维度挖掘的个性化评论推荐方法的一种优选方案,其中:通过大语言模型筛选出符合用户需求的评论维度作为需求维度包括以下步骤:构建用户需求prompt包括用户需求语句和评论维度候选集,以动态生成符合不同用户需求的评论维度;将用户需求语句和评论维度候选集作为输入,引导大语言模型判断每个候选维度与用户需求语句是否相关;判断方式是构建一个判断是否相关的prompt模板,并在prompt模板中填入用户需求和待判断评论维度,通过大语言模型进行相关性判断;对于大语言模型判断为与用户需求相关的评论维度,将其保留作为需求维度,并利用需求维度对用户需求文本进行语义增强。
10、作为本发明所述基于隐式维度挖掘的个性化评论推荐方法的一种优选方案,其中:生成评论embedding和需求embedding包括以下步骤:加载m3e-base-textdimension模型;对每个评论文本,将评论文本对应的评论维度直接拼接至评论文本尾部,得到评论和评论维度形式的文本;对每个用户需求文本,将步骤s3获得的需求维度直接拼接至需求文本尾部,得到需求和需求维度形式的文本;将所有评论和评论维度文本、以及需求和需求维度文本合并为一个列表,并将文本列表逐条输入m3e-base-textdimension模型;取输出的文本embedding组成矩阵,其中顺序与输入文本顺序一致,并根据embedding矩阵生成单独的评论embedding和需求embedding;保存评论embedding和需求embedding。
11、第二方面,本发明实施例提供了基于隐式维度挖掘的个性化评论推荐系统,其包括微调模块,用于通过筛选网络商品评论并微调m3e-base模型,构建m3e-base-textdimension模型;评论维度模块,用于利用大语言模型识别评论中的实体,并改写评论以提取评论维度;需求维度模块,用于结合用户需求和评论维度,通过大语言模型筛选出符合用户需求的评论维度集作为需求维度;生成模块,用于将评论维度和需求维度输入至m3e-base-textdimension模型,以生成评论embedding和需求embedding;推荐模块,用于通过计算评论embedding和需求embedding的余弦相似度进行top-n评论推荐。
12、第三方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中:所述计算机程序指令被处理器执行时实现如本发明第一方面所述的基于隐式维度挖掘的个性化评论推荐方法的步骤。
13、第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中:所述计算机程序指令被处理器执行时实现如本发明第一方面所述的基于隐式维度挖掘的个性化评论推荐方法的步骤。
14、本发明的有益效果为:本发明通过构建自定义停用词表和利用多个开源停用词库,实现了对文本数据的有效过滤,提高后续文本处理的质量;借助大语言模型强大的语义理解和生成能力,实现了高质量的评论文本改写和隐式维度挖掘,扩充了评论的维度集;利用prompt的方式有效利用大模型能力的同时保证了模型生成行为的可控性,实现了评论维度和需求维度的精准筛选,并且针对维度信息,构建了“文本+维度”的新式数据类型,采用先合并文本后编码为embedding的方式以进一步的提升模型性能,针对用户需求文本短小、以及评论文本隐式维度这两个问题,我们使用补充维度的方法以进行横向和纵向的语义增强。鉴于现有embedding模型多为对自然语言文本类型数据的训练,我们构建“文本+维度”类型数据的数据集微调模型以让模型更好的处理该类型数据。