基于即时通讯工具的社群关系分析方法及装置与流程

文档序号:29084358发布日期:2022-03-02 00:58阅读:248来源:国知局
基于即时通讯工具的社群关系分析方法及装置与流程

1.本发明涉及即时通讯领域。更具体地说,本发明涉及一种基于即时通讯工具的社群关系分析方法及装置。


背景技术:

2.即时通讯是当今生活中人们互动、通信的一种必不可少的沟通方式。腾讯发布的2018年财报显示,微信的月活跃量是11亿,qq的月活跃用户是7亿。2018你年9月27日,facebook宣布每日有高达3亿的活跃用户。telegram在2021年1月份宣布,在2021年首月的第一周,就有5亿的活跃用户。那么在些即时通讯软件上,不乏会出现各种各样的社交关系圈,那么如何识别出关系圈,同时找出该关系圈中相对重要的人呢?
3.如今大多数的判别方式只是简单的根据是否有共同的好友来判断其社交圈,该方法中每个人的量级都是相同的,不能更好的判断出在该社交圈中相对比较重要的人。这种方法识别度不高,无法从多维度中去分析内容信息。


技术实现要素:

4.本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
5.本发明还有一个目的是提供一种基于即时通讯工具的社群关系分析方法及装置,其能够多维度、全方面分析每个人在社交圈中的社交关系和该人员在社交圈中的重要程度。
6.为了实现根据本发明的这些目的和其它优点,提供了一种基于即时通讯工具的社群关系分析方法,包括:
7.根据即时通讯工具获取每个用户发送的社群信息的基本数据,所述基本数据包括与该用户发生社群关系的人员以及相对应的社群关系属性信息,汇总各个即时通讯工具的基本数据;
8.根据所述基本数据计算用户与发生社群关系的人员的关系值,将关系值高的人员定义为密切人员;
9.根据所述基本数据采用中心度算法计算用户的每个中心值,将中心值高的用户定义为中心点用户,并将各中心点用户对应的密切人员及相应的关系值以可视化的方式展示。
10.优选的是,用户发送的社群信息进行语义识别预处理,即将识别到关键词的社群信息保留,读取基本数据。
11.优选的是,所述社群关系属性信息包括转发、@、回复、分享、引用、收藏、点赞。
12.优选的是,计算关系值时,为各项社群关系属性信息赋予权重并加和计算得到。
13.优选的是,所述中心度算法包括:
14.pr(a)=(1-d)+d((pr(11)/c(11)+

+pr(n1)/c(n1)+

+(pr(1i)/c(1i)+

+pr(ni)/c(ni)))/i;
15.d=c/h;
16.其中,pr(a)是用户a的中心度值,d为阻尼系数,该数值在0和1之间,c是用户a在各个即时通讯工具发表的数据来源的总量,h为出度的总量,c(ni)是出度,i为即时通讯工具的个数,n当前即时通讯工具的数据来源的总数量。
17.基于即时通讯工具的社群关系分析装置,包括:
18.确认关系比例模块,其根据即时通讯工具获取用户发送的社群信息的基本数据,所述基本数据包括与该用户发生社群关系的人员以及相对应的社群关系属性信息,汇总各个即时通讯工具的基本数据;
19.关系分析模块,其根据所述基本数据计算用户与发生社群关系的人员的关系值,将关系值高的人员定义为密切人员;
20.中心度分析模块,其根据所述基本数据采用中心度算法计算用户的中心值,将中心值高的用户定义为中心点用户;
21.数据处理模块,其将分析好的数据转化为待输出的数据格式;
22.数据展示模块,其将各中心点用户对应的密切人员及相应的关系值以可视化的方式展示。
23.电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行所述的方法。
24.存储介质,其上存储有计算机程序,该程序被处理器执行时,实现所述的方法。
25.本发明至少包括以下有益效果:
26.第一、本发明的方法和装置具有维度广的优点,不仅仅只是好友关系,还会根据回复、引用、@、转发等维度进行分析,并且可以处理不同来源的数据的同时,还可以将数据根据行动线索算法,筛选出自己想要的数据集,另外,本发明的方法和装置具有灵活度高的优点,可以自定义维度进行分析,本发明的方法和装置具有速度快的优点,面对海量用户,可以快速识别,本发明的方法和装置还具有功能多的优点,还可计算其中心度高的用户。
27.本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
28.图1为本发明的方法的流程示意图;
29.图2为本发明的语义识别预处理代码示意图;
30.图3为本发明的中心度算法代码示意图;
31.图4为本发明的装置的结构示意图;
32.图5为本发明的一个实例的结果展示图;
33.图6为本发明的基础数据整理格式举例图。
具体实施方式
34.下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
35.应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。
36.需要说明的是,下述实施方案中所述实验方法,如无特殊说明,均为常规方法,所述试剂和材料,如无特殊说明,均可从商业途径获得。
37.如图1所示,本发明提供一种基于即时通讯工具的社群关系分析方法,包括:
38.根据即时通讯工具获取用户发送的社群信息的基本数据,即时通讯工具包括但不局限于微博、微信、facebook、telegram,数据获取的方式为数据采集,可以用最常用的方式爬虫。得到基础数据后,可以写一个脚本将数据整理为如图6的json格式的数据,亦可以整理自己需要的格式,社群信息例如发送的动态、群聊中的发言等等,所述基本数据包括与该用户发生社群关系的人员以及相对应的社群关系属性信息,发生社群关系指的是对该用户的动态、群聊进行转发、@、回复、分享、引用、收藏、点赞等等,汇总各个即时通讯工具的基本数据;
39.根据所述基本数据计算用户与发生社群关系的人员的关系值,关系值的大小可以对是否进行转发、@、回复、分享、引用、收藏、点赞以及发生次数进行数据统计,将关系值高的人员定义为密切人员,设定一个关系值阈值,高于该阈值则相对密切,低于该阈值则忽略该人员的互动;
40.根据所述基本数据采用中心度算法计算用户的中心值,计算中新度算法有两个维度,数量维度:即一个人的发言被转发的次数越多,中心度越高;质量维度:即一个人的发言被不同的人转发的人数越多,中心度越高,将中心值高的用户定义为中心点用户,并将各中心点用户对应的密切人员及相应的关系值以可视化的方式展示。
41.在上述技术方案中,在分析社群关系过程中,不仅仅只分析人员之间的好友关系,而且还会根据转发、@、回复、引用等多维度的去分析好友与好友之间的一个关系,有效增强了分析的结果。
42.在另一种技术方案中,如图2所示,用户发送的社群信息进行语义识别预处理,即将识别到关键词的社群信息保留,读取基本数据。语义识别采用基本数据选择法,行动类线索信息标注,即对基本数据中的重要数据进行标注,比如设置一些关键词,然后对这些关键词进行标注,再对社群信息(言论数据)进行识别,最后选用的数据就是识别后的数据,再把这些识别后的数据作为基本数据进行一下操作,能够进一步筛选有效的社群信息,在一些场景下捕捉用户的敏感性言论的密切好友能够提高分析的数据的准确性。
43.在另一种技术方案中,计算关系值时,为各项社群关系属性信息赋予权重并加和计算得到。可以根据需求,自定义关系比例模型,还可以增加其它这一选项,用于增强本发明的灵活性,可以选择要分析的即时通讯中特有的属性如:点赞量、评论量等,例如,对于一条微博动态,各权重为:转发20%,@15%,回复15%,引用25%,其他25%,即转发量
×
20%+@量
×
15%+回复量
×
15%+引用量
×
25%+其他量
×
25%=关系值,能够较为广泛的囊括各项社群关系。
44.在另一种技术方案中,如图3所示,pr(a)=(1-d)+d((pr(11)/c(11)+

+pr(n1)/c(n1)+

+(pr(1i)/c(1i)+

+pr(ni)/c(ni)))/i
45.d=c/h
46.其中,pr(a)是用户a的中心度值,d为阻尼系数,该数值在0和1之间,c是用户a在各
个即时通讯工具发表的数据来源的总量,h为出度的总量,c(ni)是出度,i为即时通讯工具的个数,n当前即时通讯工具的数据来源的总数量。
47.为了方便理解,以下进行一个简化实例:设用户a的中心值为pr(a),假设此时的数据来源有微博、百度新闻,用户a在微博上发表两篇文章,第一篇文章被c、d转发,c最近又转发了其他一篇相似内容的文章,经过语义分析预处理时被捕捉,经匹配后确定为相似内容,c(31)=2,第二篇文章被e转发,用户a在百度新闻上发表三篇文章,这三篇文章各自均只被g@了一次。所以此时i=2、c=5,h=6,则d=5/6=0.83
48.pr(a)=(1-0.83)+0.83((pr(c)/2+pr(d)+pr(e))+(pr(g)+pr(g)+pr(g))/2
49.在上述技术方案中,基础数据处理、关系分析、中心度算法处理后,可以得到一个综合分析后的模型数据。该数据不仅可以展示出各个人员之间的关系,而且同我关系分析和中心度算法,还可以算出各人员之间的联系度情况、人员中心度情况。可以全方位、多角度的观察它们之间的联系。
50.如图4所示,基于即时通讯工具的社群关系分析装置,包括:
51.确认关系比例模块,其根据即时通讯工具获取用户发送的社群信息的基本数据,所述基本数据包括与该用户发生社群关系的人员以及相对应的社群关系属性信息,汇总各个即时通讯工具的基本数据;
52.关系分析模块,其根据所述基本数据计算用户与发生社群关系的人员的关系值,将关系值高的人员定义为密切人员;
53.中心度分析模块,其根据所述基本数据采用中心度算法计算用户的中心值,将中心值高的用户定义为中心点用户;
54.数据处理模块,其将分析好的数据转化为待输出的数据格式,例如json格式、xml格式;
55.数据展示模块,其将各中心点用户对应的密切人员及相应的关系值以可视化的方式展示,如excel、力导图、网状图等。
56.如图5所示,每一个圆都代表为一名人员,紫色为根据中心度算法计算后,取了前5名中心度较高的用户的数据,连线代表其为好友关系,两个圆形中线的长度代表的是二者通过关系分析模块分析出的二者间的关系度,线越短,则代表关系度越高,反之则关系度越低。如,人员1-人员4这两个人的关系度比两外两个人的关系度都高。
57.这里说明的设备数量和处理规模是用来简化本发明的说明的。对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。
58.尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1