基于异构多关系图的话题检测方法、装置、设备及介质

文档序号:36964232发布日期:2024-02-07 13:10阅读:26来源:国知局
基于异构多关系图的话题检测方法、装置、设备及介质

本发明涉及自然语言处理以及社会媒体数据挖掘,尤其涉及一种基于异构多关系图的话题检测方法、装置、设备及介质。


背景技术:

1、现有的话题检测方法是根据用户发布内容话题特征进行话题检测,一些研究方法使用预训练的词向量模型来表示文本中的单词,然后用卷积神经网络(convolutionalneural network,cnn)或循环神经网络(recurrent neural network,rnn)对文本进行编码。之后采用分类器对文本的话题进行分类。这种方法的优点在于词向量能够很好地捕捉单词之间的关系,但是它无法考虑到文本的语法结构,因此在对话题进行细粒度分类时可能会失效。

2、另有一些方法将文本分割为句子并且使用注意力机制来学习句子级别的表示。通过引入注意力机制,能够动态地对文本数据中的关键特征进行加权,并为每个位置产生一个权重,从而提高话题检测的准确性。这种方法可以捕捉到文本中的重要句子,同时避免了长文本的训练困难。但是在该方法中,句子的顺序信息丢失了,这可能会导致话题分类不准确。


技术实现思路

1、本发明提供一种基于异构多关系图的话题检测方法、装置、设备及介质,用以解决现有技术中社交平台的话题分类不准确的缺陷,实现社交平台话题的准确聚类。

2、第一方面,本发明提供一种基于异构多关系图的话题检测方法,包括:

3、获取社交平台的异构数据;

4、基于所述异构数据,构建异构信息多关系图;

5、编码所述异构信息多关系图,得到所述异构信息多关系图的初始化特征表示;

6、基于所述初始化特征表示,对所述异构信息多关系图的节点进行筛选;

7、对筛选后的节点的信息进行聚合,得到所述异构信息多关系图的最终特征表示;

8、基于所述最终特征表示,得到话题关键字。

9、可选地,所述异构信息多关系图的初始化特征表示为:

10、g=(v,e,r,w);

11、其中v是节点集合;e是边的集合;r是关系集合;w是权重参数。

12、可选地,基于所述异构数据,构建异构信息多关系图,进一步包括:

13、将不同类型的话题元素作为节点,围绕中心话题元素,根据所述异构数据同步出现的方式建立所述节点之间的边;

14、将两个所述节点之间存在相同关系的边的数量作为两个所述节点之间的边的权重参数。

15、可选地,编码所述异构信息多关系图,得到所述异构信息多关系图的初始化特征表示,进一步包括:

16、确定所述异构信息多关系图中节点的内容,并根据所述内容的类型进行预训练;

17、对预训练后得到的内容特征进行转换,得到统一特征维度后的内容特征;

18、采用双向lstm网络对统一特征维度后的内容特征进行特征交叉,得到所述异构信息多关系图的特征表示;

19、对所述特征表示进行转换,得到所述异构信息多关系图的初始化特征表示。

20、可选地,对所述异构信息多关系图的节点进行筛选,进一步包括:

21、采用多智能体强化学习引导所述异构信息多关系图的每个关系执行邻域选择。

22、可选地,所述邻域选择方法进一步包括:

23、将关系r下的每个邻居节点进行排序;

24、为每一个相邻关系建立智能体,作为保留阈值s的选择器;

25、每一个所述智能体采用actor-critic算法通过actor网络根据在所述关系r下观察到的状态选择保留阈值s。

26、可选地,对筛选后的节点的信息进行聚合,得到所述异构信息多关系图的最终特征表示,进一步包括:

27、对于关系内的节点,采用图注意力网络,按照注意力系数加权求和的方式进行信息聚合,得到所述关系内的节点的嵌入表示;

28、对于关系间的节点,采用图注意力网络进行拼接聚合,得到所述关系间的节点的嵌入表示;

29、对所述异构信息多关系图中每个节点均按照上述方法更新嵌入表示,形成所述异构多关系图的最终特征表示。

30、第二方面,本发明还提供一种基于异构多关系图的话题检测装置,包括:

31、获取模块,用于获取社交平台的异构数据;

32、构建模块,用于基于所述异构数据,构建异构信息多关系图;

33、编码模块,用于编码所述异构信息多关系图,得到所述异构信息多关系图的初始化特征表示;

34、筛选模块,用于基于所述初始化特征表示,对所述异构信息多关系图的节点进行筛选;

35、聚合模块,用于对筛选后的节点的信息进行聚合,得到所述异构信息多关系图的最终特征表示;

36、输出模块,用于基于所述最终特征表示,得到话题关键字。

37、第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述基于异构多关系图的话题检测方法。

38、第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所述基于异构多关系图的话题检测方法。

39、与现有技术相比,本发明的有益效果是:

40、(1)本发明充分考虑到发布在社交网络上的内容可以是图文形式相结合,通过发布的内容中涵盖的很多多模态信息,构建异构信息多关系图的方式,选择最佳的邻居节点进行信息聚合,以实现最优的话题聚类效果,得到最佳话题输出,提高了话题检测的精确性,凝练话题以减少冗余信息,为后续实现精准敏捷的辟谣反击与正确的舆论引导提供了有力的保障。

41、(2)本发明通过将不同多模态信息围绕中心话题建立,将不同的话题元素作为节点,并以两节点存在的相同类型边的数量作为图中边的权重,提高了话题关系语义信息的丰富性。

42、(3)本发明通过多智能体强化学习算法指导异构信息多关系图中节点选择,并实现关系内和关系间信息聚合,优化多异构信息多关系图的嵌入表示,增强了多异构信息多关系图的特征表达能力,提高了后续层次聚类的聚类效果。



技术特征:

1.一种基于异构多关系图的话题检测方法,其特征在于,包括:

2.根据权利要求1所述的基于异构多关系图的话题检测方法,其特征在于,所述异构信息多关系图的初始化特征表示为:

3.根据权利要求2所述的基于异构多关系图的话题检测方法,其特征在于,基于所述异构数据,构建异构信息多关系图,进一步包括:

4.根据权利要求1所述的基于异构多关系图的话题检测方法,其特征在于,编码所述异构信息多关系图,得到所述异构信息多关系图的初始化特征表示,进一步包括:

5.根据权利要求2所述的基于异构多关系图的话题检测方法,其特征在于,对所述异构信息多关系图的节点进行筛选,进一步包括:

6.根据权利要求5所述的基于异构多关系图的话题检测方法,其特征在于,所述邻域选择方法进一步包括:

7.根据权利要求6所述的基于异构多关系图的话题检测方法,其特征在于,对筛选后的节点的信息进行聚合,得到所述异构信息多关系图的最终特征表示,进一步包括:

8.一种基于异构多关系图的话题检测装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于异构多关系图的话题检测方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于异构多关系图的话题检测方法。


技术总结
本发明公开一种基于异构多关系图的话题检测方法、装置、设备及介质,该方法包括:获取社交平台的异构数据;基于所述异构数据,构建异构信息多关系图;编码所述异构信息多关系图,得到所述异构信息多关系图的初始化特征表示;基于所述初始化特征表示,对所述异构信息多关系图的节点进行筛选;对筛选后的节点的信息进行聚合,得到所述异构信息多关系图的最终特征表示;基于所述最终特征表示,得到话题关键字。本发明通过发布的内容中涵盖的多模态信息,构建异构信息多关系图的方式,选择最佳的邻居节点进行信息聚合,以实现最优的话题聚类效果,得到最佳话题输出,提高了话题检测的精确性,为后续实现精准敏捷的辟谣反击与正确的舆论引导提供了有力的保障。

技术研发人员:马廷淮,谢欣彤,贾莉,荣欢,黄学坚
受保护的技术使用者:南京信息工程大学
技术研发日:
技术公布日:2024/2/6
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1