专利名称:用于网络消息通信的联系人语义分组方法
技术领域:
本发明属于网络通信技术领域,涉及网络用户通信数据和行为分析技术,具体是一种用于网络消息通信的联系人语义分组方法。针对网络邮件、手机通话、即时消息通信、 社交网络等网络消息通信系统,提供用户联系人的自动分组管理支持。
背景技术:
随着信息时代的到来,当前许多领域都面临着对海量数据的处理,而如何在海量的数据中提取有用的信息已成为当前研究的主要方向。尤其随着个人的通讯方式越来越多,其历史通信数据广泛存在于手机、电子邮箱、即时消息、飞信、社交网络等网络通信系统的客户端上,并且个人在社会的角色是多样的,人与人之间的交互导致了嵌套和重叠的语义群组结构的产生,嵌套群组结构可以展现用户好友社会关系的不同层次,这些在现实生活中很常见,例如一个用户的同学群组又可分为高中同学、大学同学和研究生同学等子群组。重叠群组则允许一个联系人可以属于多个群组,这也是合理的。例如一个用户的某个同学可能又是他目前的同事,这些都使个人的历史通信数据变的复杂而海量,在学术领域这类数据通常都可以建模为包含实体和实体之间关系的图。因此如何从图数据中发现有意义的联系人语义分组是一个具有挑战性的问题,具有重要的理论意义和实用价值。现在学术界针对联系人语义分组这个问题已经有了很深入的研究,提出了很多相关的方法。在数据挖掘领域已经提出了很多分组聚类方法,例如基于层次的聚类、密度聚类、网格聚类等。基于层次的聚类方法是对给定的数据集进行层次的分解,直到某种条件满足为止;密度聚类是只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中;网格聚类是采用多维网格数据结构,将空间划分为优先数目的单元,以构成一个可以进行聚类分析的网络结构。而这些传统的图聚类方法通常针对大规模数据集,采用全局化的批量数据处理方法,导致其效率较低,运行时间较长和存储空间开销较大,对于单个用户的历史消息通信数据,其所处理得到的联系人语义分组难以满足现实要求。
发明内容
本发明的目的在于针对上述已有技术的不足,提出一种用于网络消息通信的联系人语义分组方法,以减小联系人语义分组的运行时间和存储空间开销,使消息通信系统更便利和人性化,满足用户的现实要求。实现本发明的技术思路是通过对用户局部通信链接图数据进行分析,构建由语义群组构成的拓扑关系,然后对拓扑关系用Jaccard系数进行合并,实现消息通信的联系人语义分组。具体步骤包括如下(A)构建用户消息通信社会关系图,即在用户的一次通信记录中,先将用户自身看作是一个节点u,然后将其余所有联系人的集合看作是另一个节点1,在用户节点u和联系人节点1之间建立一条边,以此方式遍历所有通信数据,得到用户的消息通信社会关系图;(B)构建由语义群组构成的拓扑关系T :
B1)初始化拓扑关系T,在用户消息通信社会关系图中,抽取出那些与用户节点u 通信相对频繁的节点作为语义群组,即一个通信记录的联系人的数目大于等于最小组规模时,将联系人集合所构成的节点作为一个语义群组加入到拓扑关系T中;B2)生成候选语义群组的最大子集,即如果任意两个语义群组的交集也满足最小组规模时,则将其交集也加入到T中,直到没有新的群组加入为止;B3)去除无意义的群组,即将用户节点u与语义群组g交互的消息个数小于最小消息计数阈值的的候选语义群组移除;B4)将不相关的语义群组合并,即通过计算语义群组间共享差serr进行识别归入, 将拓扑关系T中的语义群组按照规模大小进行降序排序,迭代地遍历语义群组集合,移除那些可被更大规模群组代替的语义群组;(C)构建层次化的语义群组C1)对步骤B4)阶段产生的语义群组,计算任意两个语义群组&和&间的Jaccard 系数,是语义群组gl和&具有的相同联系人构成的集合
权利要求
1.一种用于网络消息通信的联系人语义分组方法,具体步骤包括(A)构建用户消息通信社会关系图,即在用户的一次通信记录中,先将用户自身看作是一个节点u,然后将其余所有联系人的集合看作是另一个节点1,在用户节点u和联系人节点1之间建立一条边,以此方式遍历所有通信数据,得到用户的消息通信社会关系图;(B)构建由语义群组构成的拓扑关系TB1)初始化拓扑关系T,在用户消息通信社会关系图中,抽取出那些与用户节点u通信相对频繁的节点作为语义群组,即一个通信记录的联系人的数目大于等于最小组规模时, 将联系人集合所构成的节点作为一个语义群组加入到拓扑关系T中;B2)生成候选语义群组的最大子集,即如果任意两个语义群组的交集也满足最小组规模时,则将其交集也加入到T中,直到没有新的群组加入为止;B3)去除无意义的群组,即将用户节点u与语义群组g交互的消息个数小于最小消息计数阈值的的候选语义群组移除;B4)将不相关的语义群组合并,即通过计算语义群组间共享差serr进行识别归入,将拓扑关系T中的语义群组按照规模大小进行降序排序,迭代地遍历语义群组集合,移除那些可被更大规模群组代替的语义群组;(C)构建层次化的语义群组C1)对步骤B4)阶段产生的语义群组,计算任意两个语义群组gl和&间的Jaccard系数,是语义群组gl和&具有的相同联系人构成的集合
2.根据权利要求1所述的方法,其中步骤B4)所述的计算语义群组间共享差serr,是通过如下公式计算
全文摘要
本发明公开一种用于消息通信的联系人语义分组方法,主要解决现有技术不能在大规模社会网络消息通信系统中难以自动实现联系人语义分组,造成社会网络通信系统使用不便利的问题。其实现步骤是利用消息通信的历史信息构建出用户的通信社会关系图;然后抽取出那些与用户节点通信相对频繁的节点作为语义群组,从中找到所有候选语义群组,通过去除无意义的语义群组、合并不相关的语义群组构建由语义群组构成的拓扑关系;最后通过计算Jaccard系数对拓扑关系构建层次化的语义群组。本发明能处理大规模社会网络消息通信数据,具有简单易行、准确度较高和运行速度较快的优点,可用于解决邮箱、及时通信和社交网络通信中的好友分组问题。
文档编号H04L12/24GK102347917SQ20111034631
公开日2012年2月8日 申请日期2011年11月4日 优先权日2011年11月4日
发明者吴志殿, 孙鹤立, 慕鹏, 李伟, 赵贝贝, 雷倩, 黄健斌 申请人:西安电子科技大学