基于动态聚类和可视化的上下文语义序列比较方法与流程

文档序号：35004006发布日期：2023-08-04 02:31阅读：45来源：国知局

本发明涉及数据分析，具体涉及一种基于动态聚类和可视化的上下文语义序列比较方法。

背景技术：

1、随着社交媒体的快速发展，许多人喜欢通过发布消息来表达自己的观点和概念，传播重大新闻，这些新闻以数据流的方式出现，包含相同关键词的推文集合形成一个社交媒体数据流。为了方便社会科学研究人员和舆论分析人员快速理解大量社交媒体数据，提供嵌入社交媒体信息的意见摘要尤为重要。这些推文的可视化摘要可以让用户快速理解这些文本数据。

2、词云是为文本数据提供可视化摘要的常用方法。然而，词云提供的上下文信息有限，不能提供关键词之间的联系来传达句子的意思。因此，我们提取在句子中按顺序出现的关键词序列作为推文的摘要。同时，由于许多推文包含相同的序列，我们将这种序列定义为“模式”。例如，“选举辩论定于周四晚上9点开始”、“选举辩论将于周四开始”等。人们有不同的表达方式，但他们都提到了相同的关键词和顺序：“选举-辩论-周四开始”，这样频繁出现的语义序列即为一个模式。模式是非常多样的，需要比较它们之间的异同来了解民意。此外，由于这些模式属于不同的时间段，还需要从时间层面对模式进行比较。此外，为了帮助分析公众态度，需要比较模式和不同数据流之间的关系。为了处理这些复杂的分析，可以使用可视化技术来支持比较。

3、文本的视觉比较是一个广泛的研究课题。但是，目前缺乏支持同时比较序列的时变特征和语义特征，以及在不同数据流中的分析方法。首先，在序列分析中很难将语义比较和动态比较结合起来。一些学者使用树形结构解决了序列比较的挑战，帮助人们快速理解基本概念和想法，然而，这种方法仅限于静态文本序列数据，不支持时间比较。支持多个标签云之间的时间趋势比较的工作又无法支持序列比较，因为关键词之间缺乏连接。因此，很难将序列的时间和语义比较同时可视化。其次，比较不同数据流中的语义和动态具有挑战性。一些工作解决了两个数据流之间多项目的成对可视化比较的挑战，但仍然不能应用于序列来显示更多的上下文和连接。第三，除了历史的社交媒体数据，实时分析对现实世界的流动数据来说更具挑战性，但也更重要，难点在于它需要快速的建模方法和动态可视化来揭示短时间内的特征。总的来说，缺乏一种可视化技术来支持同时在两个数据流中对时间和语义序列模式进行两两比较，也缺乏支持实时模式的分析

技术实现思路

1、本发明以实现对文本序列的时间和语义比较同时可视化，并实现不同数据流间的语义和动态比较为目的，提供了一种基于动态聚类和可视化的上下文语义序列比较方法。

2、为达此目的，本发明采取以下技术方案：

3、提供一种基于动态聚类和可视化的上下文语义序列比较方法，对于实时流数据，基于bertopic和kmeans++的动态聚类方法对连续更新的推文进行动态聚类后，再对动态流进行可视化分析，可视化分析具体包括步骤；

4、s1，根据用户选定的中心词，通过计算推文中每个单词与所述中心词的相似度来提取所述中心词的上下文关键词；并计算所述上下文关键词和所述中心词的公众关注度

5、s2，计算所述上下文关键词与这两个关键实体之间的关联度并可视化；

6、s3，根据所述中心词及其上下文关键词集合，通过迭代搜索方法，生成语义序列模式并可视化。

7、作为优选，基于bertopic和kmeans++的动态聚类方法对连续更新的推文进行动态聚类的方法包括步骤：

8、a1，bertopic模型根据用户给定的所述中心词，对连续更新的推文中的所述上下文关键词进行文本识别，得到初始化t时刻待聚类的所述上下文关键词；

9、a2，使用kmeans++算法初始化t时刻的聚类首次聚类完成后，将聚类中心传递给t+1时刻的聚类

10、a3，在每个聚类时刻，判断中前m个所述上下文关键词是否同样存在于中，若是，则将与进行簇的合并，并对合并后的簇中的所述上下文关键词按照基于类的tf-idf得分进行排序，将排名前x的所述上下文关键词形成的集合作为数据更新后的

11、a4，采用步骤a2-a3的方法，完成对所有时刻识别到的所述上下文关键词的聚类，并将最终合并的簇中的前y个所述上下文关键词所在的推文作为待进行可视分析的对象。

12、作为优选，步骤s1中，通过余弦相似度计算方法，对所述中心词与推文中的每个单词进行相似度计算，并将排名前n的单词作为所述上下文关键词集合。

13、作为优选，步骤s1中，计算所述中心词的所述上下文关键词的公众关注度的方法包括步骤：

14、s11，计算所述公众关注度计算方法通过如下公式(1)表达：

15、

16、公式(1)中，k表示用户或系统选定的所述中心词；

17、c表示所述上下文关键词；

18、n表示数据集中的推文总数；

19、ui(c,k)是一个包含条件，表示第i条推文是否包含c和k，如果是，则ui(c,k)＝1，否则为0；

20、ui(c,-k)表示第i条推文是否包含c但不包含k，如果是，则ui(c,-k)＝1，否则为0；

21、ηi表示第i条推文是否被转发，如果是，则ηi＝1，否则为0；

22、ri表示第i条推文被转发的数量；

23、s12，根据的值进行可视化。

24、作为优选，步骤s2中，的计算方法通过如下公式(2)表达：

25、

26、公式(2)中，分别表示所述上下文关键词i和关键实体a、关键实体b在时刻t的共现频率；

27、rank表示计算了上下文关键词i的共现频率之差在所有i∈wt中的排名；

28、nt表示时刻t下中心词i的上下文关键词总数；

29、wt表示时刻t下中心词的所有上下文关键词集合。

30、作为优选，步骤s3中，生成所述语义序列模式的方法包括步骤：

31、s31，形成初始序列，所述初始序列包含保留推文中出现顺序的由用户选定的所述中心词和所述上下文关键词；

32、s32，遍历所述关键词集合中的每个所述上下文关键词，查找在所述初始序列中新加入集合中的一个单词后使得形成的语义新序列中的词在推文中的共现频率最大的单词，然后将寻找到的所述上下文关键词加入到所述初始序列中实现序列扩充，并在所述关键词集合中过滤掉新加入到所述初始序列中的所述上下文关键词；

33、s33，以步骤s32扩充得到的所述语义新序列为所述初始序列并返回步骤s31，从过滤剩余的所述关键词集合中继续扩充所述初始序列，直至扩充后的序列达到预设的序列长度，将最终得到的所述语义新序列作为生成的所述语义序列模式。

34、本发明提供的contextwing系统，支持对两个数据流之间不断演变的上下文序列模式进行两两比较。计算模型部分能够生成动态主题和序列模式，计算公众关注度和成对相关性。系统中还包含一种新颖的多层双边翼隐喻设计，能够直观地展示不同上下文融合的序列模式，以揭示两个序列在时间和语义方面的异同。交互式工具则支持选择中心词及其上下文关键词，以迭代地生成模式以进行重点探索。另外，系统还支持静态和流式设置分析，支持更广泛的应用场景。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马滨任军霞李响唐嘉成仇斌杰赵建波
技术所有人：天道金科股份有限公司
我是此专利的发明人

上一篇：一种电池模组信号采集结构及电池包的制作方法
上一篇：一种内孔激光熔覆枪的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。