基于派系过滤和标签传播的移动通信用户群组构造方法
【技术领域】
[0001] 本发明属于数据业务领域,特别涉及一种基于派系过滤和标签传播的移动通信用 户群组构造方法。
【背景技术】
[0002] 现有技术中,没有发现有关通过用户间的通信信息构造社交关系群组并发现群组 中心用户方法的文献。相对比较类似的SLPA(Speaker-listener Label Propagation Algor ithm,speaker-1 i sener标签传播策略算法)算法具有近线性的时间复杂度,且具有较 好的性能,比较适合在具有较大数据集的前提背景下进行用户间社交关系群组的构造。 SLPA算法初始时为所有用户节点都分配一个唯一的标签,致使该算法迭代收敛的时间变 慢,且在同步更新策略中可能会产生振荡现象,鲁棒性相对较差。此外,尽管该算法能够发 现重叠社区,但是主要针对无权网络,无法直接应用到有权复杂网络中。
[0003] 本发明基于移动运营商自身所拥有的数据进行分析,不依赖任何0TT(0ver The Top,通过互联网向用户提供各种应用服务)应用,在实际应用中具有重要意义,基于移动通 话记录构造用户社交群组不仅能够使移动运营商更深入地了解用户,适当缓解OTT业务的 冲击,还能为其他一些服务提供基础。
【发明内容】
[0004] 针对现有技术存在的不足,本发明提供一种基于派系过滤和标签传播的移动通信 用户群组构造方法。
[0005] 本发明的技术方案是这样:
[0006] -种基于派系过滤和标签传播的移动通信用户群组构造方法,包括以下步骤:
[0007] 步骤1:计算用户间的联系紧密度;
[0008] 假设在一段时间内用户A同时与用户B、C、D发生通话关系且以用户A为主体,则可 以基于用户间的联系强度和联系稳定性,来度量用户A与用户B间的之间的联系紧密度;
[0009] 步骤1.1:计算用户间的联系强度;
[0010] 所述用户间的联系强度用于体现用户间相互联系的密切程度;用户A与用户B间的 联系强度可通过公式(1)计算。
[0011] <1)
[0012] 其中,AVGcouple+duration表不用户A与用户B的平均通话时长,FREcmjpIeJimes表不用户A 与用户B的总通话次数,AVGall_duratlcin表示用户A与其所有通话对象B、C、D的平均通话时长的 均值,AVG aii_time3S表示用户A与其所有通话对象B、C、D的平均通话次数;
[0013] 步骤1.2:计算用户间的联系稳定性;
[0014] 所述用户间的联系稳定性用于体现用户间通话联系的规律周期性;用户A与用户B
[0015] 间的联系稳定性按照公式(2)度量;
(2)
[00? 6] 其中,Cab表不用户A与用户B之间的联系稳定性;FREcouple+weeks+times表不用户A与用 户B的总通话周数,AVGall^eeks+times表示用户A与其所有通话对象B、C、D的平均通话周数, CVgap_weeks表不用户A与用户B联系间隔周数的呙散系数,AVG_CVgap_weeks表不用户A与其所有 通话对象B、C、D的联系间隔周数的离散系数均值;
[0017] 步骤1.3:基于用户间的联系强度与联系稳定性,计算用户间的联系紧密度;
[0018] 用户A对用户B的联系紧密度Iab按照公式(3)进行计算;
[0019] Iab = OCab+(I-O)Sab (3)
[0020] 其中,ae[0,l]为用于调节用户间的联系强度与联系稳定性对联系紧密度的影响 程度的常量;
[0021] 考虑主动发起通信的用户对用户间联系紧密度的贡献程度更大一些,因此定义用 户A与用户B的综合联系紧密度值I按照公式(4)计算;
[0022]
(4)
[0023] 其中ΠΑΒ表示用户A主叫用户B的通话次数;μα表示用户B主叫用户A的通话次数;用 户A与用户B之间的总通话次数η = παβ+γιβα。
[0024] 步骤2:构建用户间的有权复杂网络;
[0025] 将移动通信网络中的用户抽象为节点,用户间的联系紧密度值抽象为边的权值, 将用户间的通信关系抽象为有权复杂网络;
[0026] 步骤3:基于有权复杂网络,采用派系过滤算法构造社交关系群组的种子群组;
[0027] 具体方法为:首先设置派系大小参数k;然后从有权复杂网络中发现所有大小为k 且满足设计要求的k_派系;随后针对这些k派系进行过滤,生成种子群组;所述过滤的方法 为:设定阈值W'首先过滤掉复杂网络中所有权值小于#的边,然后忽略过滤后复杂网络中 节点间的权值;
[0028] 步骤4:基于种子群组,初始化网络中所有节点标签,即为每个节点分配初始标签;
[0029] 方法为:将各个种子群组内节点的标签初始化为同一个标签,如果一个节点同时 属于多个种子群组,则此节点同时保留多个种子群组所对应的标签;于种子群组内所包含 的节点只是整个网络节点中的一部分,因而有些节点将不属于任何种子群组,对于没有被 种子群组包含的节点,将它们的标签初始化为唯一标签;
[0030] 步骤5:利用改进的SLPA算法进行标签传播,当绝大多数节点的标签收敛时,基于 节点的标签将节点划分至对应的群组,完成社交关系群组的构造;
[0031] 步骤5.1:利用Speaker策略发布用户的标签;
[0032] 所述Speaker策略为:设定一个比例阈值Tspeaker,每次标签传播的迭代过程开始 时,从节点历史标签集合中选取标签出现比例大于比例阈值的Tspeaker的标签对外发布;如 果没有任何一个标签的出现比例满足阈值条件,则选择出现比例最大的标签作为该节点所 对外发布的标签;如果同时出现多个比例最大的标签则随机选择其中一个标签对外发布;
[0033]步骤5.2 :利用Listener策略接收用户的标签;
[0034]所述Listener策略的具体内容为:定义节点i所对应标签1的强度SiabeiQ,1):
[0035]
[0036] 其中,NS(i,l)表示与节点i邻接并且其所发布的标签中含有标签1的节点集合,Wij 表示节点i与节点j连边的权值;迭代过程中,计算节点所接收到的每个标签的标签强度,选 择拥有最大标签强度的标签作为本轮迭代该节点的更新标签并将其加入到自己的历史标 签集合中;果出现多个标签强度最大的标签,则随机从中选择一个标签作为该节点本轮迭 代更新的标签并将其加入到自己的历史标签集合中;
[0037] 步骤5.3:利用同步标签传播策略进行标签传播;
[0038] 步骤5.4:判断是否符合迭代停止条件,若是,则停止迭代并转至步骤5.5;
[0039] 所述迭代停止条件为:设置两个阈值Tc_ergence_rat e和Tc_ergence_times ;在每次迭代 过程中,统计收敛节点数Nlde3ntlral,即节点在新一轮迭代中所获的标签与其历史标签集合中 出现次数最多标签相同的节点数量;如果收敛节点数Nidentic aI与网络中的总节点数NtcitaI的 比值不小于闕值T c;onve:rgenc;e_:rate的情况连续超过闕值T convergence _times次出现,则认为本算法已 经收敛,迭代停止;
[0040] 步骤5.5:基于节点的标签将节点划分至对应的群组,完成社交关系群组的构造, 即拥有相同标签的节点构成一个群组;
[0041] 由于每个节点都存储了该节点在每一轮迭代中所接收并选择的标签,为了能够发 现重叠群组,设置一个比例阈值Tpcistprc^ ssing,针对每一个节点的历史标签集合,选择其标签 历史集合中标签出现次数占总次数比例不小于阈值Tpcistprc^ ssing的标签作为标识该节点群 组划分的标签,则拥有相同标签的节点即构成一个群组;
[0042] 本发明的有益效果:本发明的基于派系过滤和标签传播的移动通信用户群组构造 方法具有如下优点:
[0043] 1、可获得较好的用户好友推荐效果;
[0044] 现阶段,微信等APP所采用的用户好友推荐方法都是基于本地通讯录而设计的,然 而这种方法可能会产生错误的推荐,比如可能只是在通讯录中临时记录一个号码也会产生 推荐。基于本发明所构造的社交关系群组进行好友推荐则不会出现此问题,因为利用移动 运营商提供的数据所构造的群组能够较准确地反映用户间真实的社交关系,因此会有较好 的推荐效果。此外,群组构造结果也可用于移动运营商自身业务的拓展,如飞信的好友推荐 等。
[0045] 2、获得较好的协同推荐效果;
[0046] 拥有紧密联系的用户在某种程度上会拥有相同的兴趣爱好,如喜欢购物的用户总 是会和喜欢购物的用户联系商量购物事宜,鉴于此可以试图了解群组内某些用户的兴趣, 进而推测群组中的其他用户对此可能同样感兴趣。此外,当某商品要针对某群组进行推荐 时,为节约成本,可以先将商品推送至群组内的某些用户,如果推荐成功则该用户会主动将 此信息向其群组内的其他成员进行推荐。
[0047] 3、有助于用户构成分析;
[0048] "人以类聚,物以群分",在用户关系这里主要体现为相同层