本发明属于引导性话题网络分析领域,具体涉及一种基于用户偏好的社交网络群体发现方法。
背景技术:
1、随着社交网络的迅猛发展,人们广泛地参与各类话题的讨论与传播,其中不乏有群体利用平台机制与自身影响力去制造舆论、引导思潮,以达各类目的。近年来,学者们发现在影响力分析、舆情管控、以及目标市场定位等领域发现具有引导性的用户群体成为研究热点,对引导性话题网络中的潜在关键群体加以监管往往能起到积极作用,并致力于探索与解决其中面临的挑战。由此可见,发现引导型话题中的的关键群体对当下的网络环境治理有重要意义。
2、目前,有关社交网络引导性话题爆发早期网络群体发现的研究主要集中在社交网络用户分析、社交网络结构分析和动态演化三个方面。在社交网络用户方面的研究主要包括意见领袖的识别以及用户社群发现。在社交网络结构分析方面的研究,主要关注群体内部成员的关系、交互行为和信息传播路径。在动态演化方面,研究者通过对社交网络数据进行时间序列分析,揭示群体结构和成员关系随时间的变化,以预测群体的演化趋势。
3、综合来看,虽然学术界对热点话题的研究成果已经十分丰富,但是有关社交网络引导性话题爆发早期关键群体的发现仍存在以下挑战:1.引导型话题爆发早期数据的稀疏性。在话题爆发早期用户参与度较低,缺乏有效数据,并且可能在局部范围内数据分布不平衡,难以代表全局特征。因此,如何有效缓解数据的稀疏性是一个挑战。2.话题主题内容的变迁问题。话题变迁涉及到话题的更新、衰减、复兴以及内容的多样性等多种复杂形式,直接对其分析建模较为困难。因此,如何有效挖掘话题变迁中的关联性是一个挑战。3.话题元素关系的复杂性。话题元素间的关系较为复杂,涉及到用户间的社交关系、话题间的转换关系、以及用户对话题的参与和互动关系等。如何有效挖掘话题元素间的复杂关系,捕获具有相似行为与联系的用户群体亟需解决。
技术实现思路
1、为解决上述技术问题,本发明提出一种基于用户偏好的社交网络群体发现方法,包括:
2、s1:从社交网络中获取用户历史基本属性特征、用户关系特征以及话题数据;
3、所述话题数据包括:原生话题和衍生话题;
4、s2:根据用户基本属性特征、用户关系特征,计算用户的交互度和信誉度;
5、s3:根据用户的交互度和信誉度定义随机游走策略,以更好地捕捉用户在社交网络中的行为;
6、s4:根据随机游走策略定义ibt2vec算法将用户在话题网络中的行为表示为向量,得到原始用户特征向量;
7、s5:基于话题数据采用roberta模型获取用户的长短期偏好,并与原始用户特征向量进行拼接融合,得到原始话题领域的增强用户特征表示;
8、s6:将原始话题领域的增强用户特征表示映射到衍生话题领域中,得到衍生话题领域的增强用户特征表示;
9、s7:根据原始话题领域和衍生话题领域的增强用户特征表示构建拉普拉斯矩阵来计算用户特征向量,并采用k-means算法对用户特征向量进行谱聚类,得到用户的聚类结果;
10、s8:将聚类结果输入全连接层,采用softmax函数对全连接层输出作归一化处理,得到概率输出,并根据概率输出判断用户是否为关键用户,聚类结果为0表示该用户不重要,聚类结果为1表示该用户重要,判断为1的用户集合即为关键群体。
11、本发明的有益效果:
12、本发明通过全面了解用户的行为模式和社交关系计算用户的交互度和信誉度,准确评估用户的活跃度和可信度,为群体发现提供有效的数据支撑;定义随机游走策略,以捕捉用户在社交网络中的行为模式,并采用ibt2vec算法将用户话题网络表示为特征向量矩阵,采用roberta获取用户的长短期偏好,并与原始用户特征向量拼接融合,形成增强的用户特征表示,提升用户特征的表达能力和准确性;使用元迁移学习在多个原生话题上以学习共享的元知识,再迁移到衍生话题,通过微调快速适应新的话题变化,增强在新话题上的适应能力;通过构建拉普拉斯矩阵计算用户特征向量,形成用户特征向量矩阵,将用户特征向量矩阵输入全连接层处理和归一化处理得到概率输出,根据概率输出判断用户是否为关键用户。相比现有技术,本发明不仅考虑了用户间的相似度,还综合考量了用户的影响力,使得群体发现更精准实用,为舆情监控、信息传播和营销推广等应用提供可靠支持。
1.一种基于用户偏好的社交网络群体发现方法,其特征在于,包括:
2.根据权利要求1所述的一种基于用户偏好的社交网络群体发现方法,其特征在于,计算用户的交互度,包括:
3.根据权利要求1所述的一种基于用户偏好的社交网络群体发现方法,其特征在于,计算用户信誉度,包括:
4.根据权利要求1所述的一种基于用户偏好的社交网络群体发现方法,其特征在于,根据用户的交互度和信誉度定义随机游走策略,包括:
5.根据权利要求1所述的一种基于用户偏好的社交网络群体发现方法,其特征在于,基于话题数据采用roberta模型获取用户的长短期偏好,包括:
6.根据权利要求1所述的一种基于用户偏好的社交网络群体发现方法,其特征在于,将原始话题领域的用户特征映射到衍生话题领域中,首增强衍生话题领域的特征表示,包括:
7.根据权利要求1所述的一种基于用户偏好的社交网络群体发现方法,其特征在于,根据原始话题领域和衍生话题领域的增强用户特征表示构建拉普拉斯矩阵来计算用户特征向量,包括:
8.根据权利要求7所述的一种基于用户偏好的社交网络群体发现方法,其特征在于,计算用户之间的相似度,包括:
9.根据权利要求1所述的一种基于用户偏好的社交网络群体发现方法,其特征在于,采用k-means算法对用户特征向量进行谱聚类,得到用户的聚类结果,包括: