基于主题关联的文本立场检测模型训练和推理方法及系统

文档序号:36913313发布日期:2024-02-02 21:41阅读:27来源:国知局
基于主题关联的文本立场检测模型训练和推理方法及系统

本发明涉及自然语言数据智能处理,特别涉及一种基于主题关联的文本立场检测模型训练和推理方法及系统。


背景技术:

1、随着互联网的普及和流媒体技术的飞速发展,社交媒体平台逐渐走向多样化和大众化,成为用户获取信息、表达观点的重要渠道和传播工具。海量的用户群体衍生了以用户生成内容为主流的信息生产方式和以个性化推荐为主体的信息传播方式,这导致很多社会事件可以在极短的时间内被广泛传播并成为热点话题,同时汇聚大量用户的观点信息。这些信息在讨论和传播的过程中,也在影响现实世界中事件的进程与发展,这为舆情监测、信息管控等带来了严峻的挑战。

2、立场检测技术(stance detection)是自然语言处理以及社交网络的一个重要研究方向,其旨在基于预先选择的对象,从用户发表的文本中自动判断其立场,如支持、反对、中立等。该方向研究在衡量社交媒体的公众舆论分析中,尤其是社会热点方面,起着至关重要的作用。已有的立场检测技术与方法大致可以分为基于文本潜在特征的方法和基于外部知识信息的方法两个方面。基于文本潜在特征的方法主要是通过机器学习或是深度学习的技术手段来挖掘文本与特定对象的重要特征用于立场检测。然而,由于社交平台的评论文本往往是简短而片面的,因此大多没有明确提及特定对象,而是通过特定对象的相关对象来间接表达观点,隐含着对对象的立场。这种现象限制了此类方法的有效性。为此,基于外部知识信息的方法旨在通过引入外部知识信息来构建文本与特定对象之间缺失的上下文联系,然而,该类方法在整合知识信息的过程中不可避免地会引入噪声信息,损害模型的性能。


技术实现思路

1、为此,本发明提供一种基于主题关联的文本立场检测模型训练和推理方法及系统,解决立场检测技术中噪声介入对模型性能的影响,提升模型在特定域内对文本表达能力以及立场检测预测性能。

2、按照本发明所提供的设计方案,一方面,提供一种基于主题关联的文本立场检测模型训练方法,其过程包含:

3、构建立场分类模型,其中,立场分类模型采用bert模型作为用于获取文本主题表示向量的编码器,并利用softmax线性层作为用于对文本主题表示向量进行立场分类输出的分类器;

4、依据分类器交叉熵损失和正负样本对比学习损失设置模型训练的目标损失函数,基于目标损失函数并利用预先收集的多对象立场检测样本数据集对立场分类模型进行训练,并在模型训练过程中获取样本数据集对应的键值对数据库,其中,多对象立场检测样本数据集包含:原始文本和原始文本立场类别标签,键值对数据库中的键为样本数据集文本表示向量,值为样本数据集文本相对应的立场标签。

5、进一步地,依据分类器交叉熵损失和正负样本对比学习损失设置模型训练的目标损失函数,包含:

6、首先,利用预先收集的多对象立场检测样本数据集训练分类器,并对样本数据集中原始文本单词进行掩码操作,以获取掩码文本;

7、接着,基于训练后的分类器获取样本数据集中原始文本和掩码文本两者分类输出分布的差异性,并将差异性作为样本数据集中原始文本掩码对应单词的相关权重;

8、然后,利用原始文本单词权重及编码器中词向量来获取样本数据集中原始文本的主题表示向量,在向量空间中通过构建k近邻图来拟合文本主题分布;

9、再者,对k近邻图进行采样,以获取正例对样本和负例对样本;将文本主题立场建模为立场一致的关联系数,基于关联系数构建用于动态聚类正例对样本并扩大负例对样本之间的差距的对比学习损失;

10、最后,利用超参数将对比学习损失和分类器交叉熵损失进行组合,以获取模型训练用的目标损失函数。

11、进一步地,对样本数据集中原始文本单词进行掩码操作,包含:

12、首先,设定掩码字符;然后,利用掩码字符对原始文本逐词进行掩码操作,以获取原始文本对应的掩码文本。

13、进一步地,将差异性作为样本数据集中原始文本掩码对应单词的相关权重,包含:

14、首先,利用kl散度计算原始文本和掩码文本两者分类输出分布的差异;接着,将计算得到的差异作为对应单词的对象相关权重;然后,对每个单词的对象相关权重按照大小进行归一化指数缩放操作,以放大文本中主题关键词权重占比。

15、进一步地,利用原始文本单词权重及编码器中词向量来获取样本数据集中原始文本的主题表示向量,在向量空间中通过构建k近邻图来拟合文本主题分布,包含:

16、首先,将单词相关权重与编码器输出的词向量进行加权求和,以获取原始文本的主题表示向量;

17、接着,将样本数据集中单个原始文本、对应立场类别标签、主题表示向量作为节点,利用余弦相似度来度量样本数据集中两两原始文本节点之间的距离,并将距离作为编的权重,保留每个节点最近的k个邻居边,在向量空间中形成k近邻图。

18、进一步地,对k近邻图进行采样,以获取正例对样本和负例对样本,包含:

19、首先,从k近邻图中随机选取初始节点,将其添加到采样集中,接着,寻找距离初始节点最近的具有相同立场类别标签的正节点和具有不同立场类别标签的负节点,并将正、负节点同时添加到采样集中,以正节点和/或负节点作为出发点,迭代寻找距离最近的相同立场类别标签和不同立场类别标签的节点并添加到采样集中,直至采样集中节点数达到预设阈值,输出最终的采样集节点数据,并由于最终的采样集节点数据来获取文本主题相关性矩阵。

20、进一步地,基于关联系数构建用于动态聚类正例对样本并扩大负例对样本之间的差距的对比学习损失,包含:

21、首先,采用bert作为编码器对采样的样本数据进行编码,作为样本的表示向量;而后,通过对文本主题相关性矩阵进行归一化处理来获取关联系数;接着,基于关联系数并结合采样集其他节点对应的表示向量和采样集内立场相同的节点对应的表示向量来设置对比学习损失。

22、进一步地,对比学习损失表示为:

23、

24、其中,表示采样集大小,g(i)表示采样集内除节点i外的其他节点数据,p(i)表示采样集内除节点i外且与节点i立场相同的其他正节点数据,βij表示节点i和节点j两者文本主题关联系数,hi表示节点i对应样本的表示向量,τ表示温度系数。

25、又一方面,本发明还提供一种基于主题关联的社交文本立场检测推理方法,其推理过程包含:

26、基于上述模型训练方法来获取社交文本立场检测模型;

27、将待测社交文本输入至社交本文立场检测模型中,利用社交文本检测模型获取待测社交文本表示向量及立场分类结果;

28、基于指数加权软投票的k近邻预测方法获取待测社交文本表示向量与键值对数据库的匹配结果;

29、结合匹配结果和立场分类结果来确定并输出待测社交文本最终立场分类。

30、再一方面,本发明还提供一种基于主题关联的社交文本立场检测推理系统,包含:模型训练模块、模型预测模块、数据匹配模块和立场输出模块,其中,

31、模型训练模块,用于基于上述模型训练方法来获取社交文本立场检测模型;

32、模型预测模块,用于将待测社交文本输入至社交本文立场检测模型中,利用社交文本检测模型获取待测社交文本表示向量及立场分类结果;

33、数据匹配模块,用于基于指数加权软投票的k近邻预测方法获取待测社交文本表示向量与键值对数据库的匹配结果;

34、立场输出模块,用于结合匹配结果和立场分类结果来确定并输出待测社交文本最终立场分类。

35、本发明的有益效果:

36、本发明考虑到社交平台中用户对特定对象表达意见时通常是片面的、倾向于强调对特定对象相关的部分主题或方面的态度,通过挖掘特定对象立场数据内部的主题联系,使得模型学习到更为丰富的特征,从而拥有更好的语义表达能力,能够识别领域文本中观点的表达模式。同时,考虑立场与主题的共同作用,将主题联系建模为一种相关系数,与对比学习方法相结合对样本进行表示学习,通过在聚合时分配权重,能够更好地挖掘并保留数据之间的共性与个性,有效提高聚合后表示信息的准确性,实现观点表达模式的聚类表示;通过构建键值对数据库来建立起观点与立场之间的映射关系,采用近邻预测机制实现对新样本的立场预测,有效地利用了样本的表示特征,提升模型在特定域内对文本的表达能力以及立场检测的推理性能,提升模型分类的准确性和结果的可信性,进而满足现实社交网络舆论分析应用中对立场检测技术的高准确性和可信性要求,具有较好的应用前景。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1