本发明涉及一种移动社交的用户信息处理方法,尤其涉及一种同事用户关系链的挖掘方法。
背景技术:
在网络时代特别是移动互联网时代,信息分享已成为互联网社会化媒体营销的主要途径和方式,人的社交化程度大大加深。
腾讯微博、新浪微博网站信息关系链属于一个基于用户关系信息分享、传播以及获取的平台。用户可以根据自己的兴趣偏好,依据对方发布内容的类别与质量,来选择是否“关注”某用户,同时对所有“关注”的用户群进行分类,基于用户现有的“关注”与被“关注”的数量,用户发布信息的吸引力、新闻性越强,对该用户感兴趣、关注该用户的人数也越多,然而用户通过自主建立的关系网组建个人社区用户关系链的信息关系链。
人人网为整个中国互联网用户提供服务的SNS社交网站,给不同身份的人提供了一个全方位的互动交流平台,通过提供发布日志、保存相册、音乐视频等站内外资源分享等功能建立了一个多种用户群体的交流互动平台。
现有技术的主要缺点如下:
1)传统的网站信息关系链,如著名的腾讯微博、新浪微博以及人人网、开心网等,信息的交换途径均是通过提供发布内容简短的即时信息,日志、保存相册、音乐视频等用户自主建立的关系网,信息的产生大多就需要有一定量的用户基础以及稳定的用户关系,才能形成庞大的用户群体关系圈。
2)对用户而言,每个用户都会与不认识的,只通过兴趣关注素未谋面的用户形成一个圈子,虽然积聚了大量的用户,这对传统网站信息关系链来说是个好处,既包含了熟人关系,也包含了陌生人关系,缺乏精准的用户之间关系的判断。
3)海量信息难以管理,需要一个非常庞大的数据库,维护起来非常困难。
技术实现要素:
本发明所要解决的技术问题是提供一种同事用户关系链的挖掘方法,能够精准快速地扩展同事用户关系圈,系统实时性采集要求低,信息准确稳定,并可大大减少模型复杂度和维护难度。
本发明为解决上述技术问题而采用的技术方案是提供一种同事用户关系链的挖掘方法,包括如下步骤:a)获取移动原始CDR数据,定位用户工作日的主要活动区域;b)统计主被叫用户间的通话次数/位置、短信次数/位置,基于互动统计关系使用裂变算法获取多层用户关系圈;c)基于关系类型场景特征计算同事关系的关系类型。
上述的同事用户关系链的挖掘方法,其中,所述原始CDR数据包括呼叫、短信和位置更新,所述步骤a)通过2/3G的MC口-CS_AIU_MM位置移动信令以及4G网络S1口-S1-MME信令数据,获取移动、电信或联通的2/3/4G网络手机移动终端用户的位置区信息,通过统计筛选位置更新次数,形成用户主要活动区域信息表。
上述的同事用户关系链的挖掘方法,其中,所述步骤a)根据时间划分筛选出工作日用户日间位置信息表,并选取用户日间位置信息表里面的位置更新次数排名前三的位置服务小区,作为该手机移动终端用户的主要活动区域。
上述的同事用户关系链的挖掘方法,其中,所述步骤b)获取用户一段时间内全部呼叫详细记录表和短信详细记录表,选取主叫用户号码、被叫用户号码、通话/短信时间和通话/短信次数字段信息,形成用户通话/短信互动统计表。
上述的同事用户关系链的挖掘方法,其中,所述呼叫详细记录表包括CS_AIU_MOC、CS_AIU_MOSMS、CSFB、CS_AIU_MM和S1-MME 5张全业务CDR表。
上述的同事用户关系链的挖掘方法,其中,所述步骤b)根据输入的用户号码作为主被叫在呼叫/短信详细记录表里面找出第一层呼叫号码,通过第一层呼叫号码与输入的用户号码的主要活动区域进行匹配,如果存在有交集的主要活动区域则纳入用户关系圈。
上述的同事用户关系链的挖掘方法,其中,所述步骤b)通过Web界面输入任意用户的号码,后台获取到该用户号码的MSISDN信息,根据裂变算法,计算出每一层的用户关系圈与初始输入的用户号码主要活动区域存在交集的集合,最终输出同事用户关系圈。
上述的同事用户关系链的挖掘方法,其中,所述步骤b)中裂变算法如下:首先,对于某个移动用户A,在工作日日间的排名前三的活动区域信息表中,所有与移动用户A有过直接互动行为的用户形成直接互动集合S;如果移动用户A的排名前三的活动区域与集合S里某用户的排名前三的活动区域有交集,则判定移动用户A与该用户为同事关系,形成第一层用户关系圈;然后,对集合S里面的号码作为主叫/被叫时,裂变出相应的被叫/主叫号码,同样匹配出裂变后的被叫/主叫号码的主要活动区域,如果裂变出的用户与移动用户A的主要活动区域存在交集,则判断为同事关系,形成第二层用户关系圈;以此类推,通过裂变形成多层用户关系圈,获得以移动用户A为中心的同事关系圈。
上述的同事用户关系链的挖掘方法,其中,所述裂变的次数为5次。
本发明对比现有技术有如下的有益效果:本发明提供的同事用户关系链的挖掘方法,基于移动位置区与通信行为信令扩展同事用户关系圈,信令数据源记录的用户行为特征信息更新快,系统实时性采集要求低,信息准确稳定;采用裂变算法则可以大大减少模型复杂度和维护难度。
附图说明
图1为本发明同事用户关系链的挖掘流程示意图;
图2为本发明同事用户关系裂变算法示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
图1为本发明同事用户关系链的挖掘流程示意图。
请参见图1,本发明提供的同事用户关系链的挖掘方法,主要分为如下四个步骤:
步骤S1:预先通过2/3G的MC口-CS_AIU_MM位置移动信令以及4G网络S1口-S1-MME信令数据,获取移动、电信或联通的2/3/4G网络手机移动终端用户的位置区信息,通过统计筛选位置更新次数,形成用户主要活动区域信息表;根据时间划分,筛选出工作日用户日间周一~周五(9:00~12:00&14:00~18:00)位置信息表;为了便于定位手机移动终端用户的主要活动区域以及常驻位置,筛选用户位置信息统计表里面的位置更新次数最多的TOP3位置服务小区;基于2/3/4G网络服务小区基础维表信息关联用户主要活动区域信息表,匹配出TOP3位置服务小区的经纬度信息,工作日日间用户位置信息统计表包括如下数据:月份、号码、位置区、小区、位置更新次数、经度、纬度。
步骤S2:获取用户一段时间内全部呼叫/短信详细记录表数据,选取主叫用户号码、被叫用户号码、通话/短信时间、通话/短信次数字段信息,形成用户通话/短信互动统计表。
步骤S3:根据输入的用户号码作为主被叫在呼叫/短信详细记录表里面找出第一层呼叫号码,通过第一层呼叫号码与输入的用户号码的主要TOP3活动区域进行匹配,存在有交集主要活动区域则纳入本发明定义的用户精准圈;所述呼叫详细记录表通过FTP技术采集,包括CS_AIU_MOC、CS_AIU_MOSMS、CSFB、CS_AIU_MM、S1-MME 5张全业务CDR表;各表的内容说明如下:
步骤S4:通过Web界面输入任意用户的号码,后台获取到该用户号码的MSISDN信息,根据裂变FISSION算法,计算出每一层的用户精准圈为与初始输入的用户号码主要TOP3活动区域存在交集(每层用户与用户A之间的主要TOP3活动区域的经纬度两两之间的距离小于100m以内)的集合,最终输出绝对同事用户关系圈。
本发明所采用的技术方案是基于移动2/3G的MC口-CS_AIU_MM位置移动信令以及4G网络S1口-S1-MME信令数据,通过手机移动终端用户MSISDN(移动用户综合业务唯一识别码,Mobile Subscriber International ISDN/PSTN number)在通话或者位置更新的过程中,可以关联出手机移动终端用户之间的关系,然而进行互动关系统计,使用原始CDR数据(包括呼叫、短信、位置更新)统计主被叫用户间的通话次数/位置、短信次数/位置和用户的工作日的日间主要活动区域,基于互动关系统计使用裂变FISSION算法算出多层用户关系圈,基于关系类型场景特征计算同事关系的关系类型;本发明的关系类型场景分为同事、朋友、亲属三种类型场景,本发明主要根据同事关系类型场景特征来计算同事关系的关系类型。判断同事关系类型则通过通信行为、时间、主要活动区域等来计算。本发明的处理数据可以采用输出报表展示,系统输出报表数据呈现如下:
本发明提供的用户关系链的绝对同事关系圈裂变FISFION算法,解决了传统网站信息关系链中初期需要一定量的用户基础以及稳定的用户关系才能统计完整的用户关系绝对同事关系圈问题。此外,本发明提供的用户关系链挖掘方法中的裂变FISFION算法,易于统计完整的同事用户关系,如图2所示,具体算法如下:
首先,对于某个移动用户A,在工作日日间(9:00~12:00&14:00~18:00)的TOP3主要活动区域信息表,所有和用户A有过直接互动行为(主叫或被叫或发短信或收短信)的用户形成直接互动集合S(包含b、c、d、e、f)。根据a用户的主要TOP3活动区域(TOP-a1、TOP-a2、TOP-a3)与集合S里面的b、c、d、e、f用户的主要TOP3活动区域(TOP-b1、TOP-b2、TOP-b3等)有交集(即每层用户与用户A之间的主要TOP3活动区域的经纬度两两之间的距离小于100m以内),则判定为同事关系,形成第一层用户关系圈。
然后,对集合S里面的号码作为主叫/被叫时,裂变出相应的被叫/主叫号码(如w、u、v、k等),同样匹配出裂变后的被叫/主叫号码的主要TOP3活动区域(TOP-w1、TOP-w2、TOP-w3等)与移动用户A的主要TOP3活动区域(TOP-a1、TOP-a2、TOP-a3)进行交集,若存在交集,则判断为同事关系;形成第二层用户关系圈。
以此类推,通过裂变到第五层,则可扩大以移动用户A为中心的绝对同事关系圈。
综上所述,本发明提供的同事用户关系链的挖掘方法,具体优点如下:1)结合用户通信行为的多层裂变算法,进一步扩展了完整的同事用户群体关系,快速准确地计算通话行为中多层的同事用户关系圈。2)本发明基于移动Mc口以及MME口信令详单信息,数据信息量大,用户位置轨迹以及行为记录信息完整,无须用户自主建立的关系网。3)位置区与通信模型建立复杂度低,数据库简单,同时易于维护。4)移动信令详单信息更新实时性高,做到用户关系在通信模型中及时更新。5)系统采集实时性要求低,可结合多日数据完善同事用户关系链。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。