专利名称:基于向量空间模型的重入网分析方法
技术领域:
本发明属于信息通信技术领域,尤其涉及一种基于向量空间模型的重入网分析方法。
背景技术:
目前,电信运营商面临一个重要问题就是重入网现象,即移动用户在已经拥有一个移动号码的情况下,再次购买所归属的同一移动运营商的新号码入网,新号码全部或者部分替代原有旧号码。1.造成大量的重入网用户的原因很多,主要有如下几点(1)存在大量对资费敏感客户。客户对资费比较敏感,当新的资费套餐出现或者某种套餐出现优惠,这些资费敏感客户便在网内跳转。通常这部分客户,是 ARPU (ARPU-Average Revenue Per User,每用户平均收入)较低的低价值客户,对号码依附关系不大。(2)部分市场营销政策之间相互影响。新增市场政策和存量市场政策冲突,新推出的市场营销策略,影响到原有的资费套餐,使得原有资费套餐用户,转向新套餐。(3)存在大量定位不准客户。对于新客户,没有合适的分析手段来分析和准确识别,以至于这部分客户,在入网后很短时间内重入网,选择更适合自己的品牌或套餐。基于上述原因,有效地识别重入网用户,并分析用户重入网的原因,可以有效地减少重入网用户量,进而能够减少运营商日常的成本支出,节省系统的存储空间,减少前台营业成本和客服成本。所以,对于电信运营商来说,识别重入网用户是所有上述工作的基础, 具有很大的现实意义。目前常用的识别重入网用户的方法及其问题(1)基于用户资料的识别技术,通过诸如身份证号码、用户姓名、登记地址、联系人信息等用户资料信。缺点目前很多用户在移动通信商的客户管理系统中没有用户资料。(2)基于 IMEI (International Mobile Equipment Identity)的识别技术。缺点 很多手机上没有IMEI,所以用此办法根本无法有效识别。(3)呼叫指纹所谓“呼叫指纹”就是指用户在使用移动运营商的产品及服务过程中所产生的交往圈、呼叫特征、短信特征、位置特征、客服特征、终端特征等信息。这些特征对每一用户是相对稳定的,且存在个体差异,因此可以作为识别重入网用户的特征。缺点 基于交往圈信息的呼叫指纹算法由于识别准确率低、识别时间过长、因此,在控制重入网用户方面不是十分有效。文献《概念推理网及其在文本分类中的应用》(计算机研究与发展,李晓黎、刘继敏、史忠植,2000,37 (9) :1032 1038)和文献《文档中词语权重计算方法的改进》(中文信息学报,鲁松、李晓黎、白硕,2000,14(6) 8-13)介绍了一种基于向量空间模型的信息检索技术,该技术是较为成熟且应用广泛的信息检索技术,它将文档和查询信息均用向量空间表示,查询匹配问题转化为向量空间的矢量匹配问题,文档与查询的相似度可用向量之间的夹角来度量。在移动通信领域中,用户的通话详单就相当于一个一个的文档,只要能够提取每个用户的通话详单中的特征项,就可以通过计算特征向量和向量之间的夹角余弦来得到用户与用户之间的相似度,从而找到重入网的用户。
发明内容
本发明的目的在于,提供一种基于向量空间模型的重入网分析方法,用于解决常用的重入网计算方法存在的问题。为了实现上述目的,本发明采用的技术方案是,一种基于向量空间模型的重入网分析方法,其特征是所述分析方法包括步骤1 确定待匹配用户号码集合和新增用户号码集合;步骤2 提取待匹配用户号码集合中的每个待匹配用户号码和与该用户号码通话次数最多的设定个号码,将其作为该待匹配用户号码的特征项;提取新增用户号码集合中的每个新增用户号码和与该新增用户号码通话次数最多的设定个号码,将其作为该新增用户号码的特征项;步骤3 将每个待匹配用户号码和该待匹配用户号码的特征项作为待匹配用户号码话单,从而建立待匹配用户号码和待匹配用户号码话单的对应关系;将新增用户号码和该新增用户号码的特征项作为新增用户号码话单,从而建立新增用户号码和新增用户号码话单的对应关系;步骤4 将所有待匹配用户号码话单组成待匹配用户号码话单集合;将所有新增用户号码话单组成新增用户号码话单集合;步骤5 分别确定待匹配用户号码话单集合和新增用户号码话单集合中的不同的特征项;步骤6 计算每个待匹配用户号码话单和每个新增用户号码话单中的特征项权值;步骤7 从待匹配用户号码话单集合中任取一个待匹配用户号码话单,从新增用户号码话单集合中任取一个新增用户号码话单,通过计算两个用户号码话单之间的相似度,确定上述两个用户号码话单对应的用户号码是否为重入网的用户号码。所述计算每个待匹配/新增用户号码话单的特征项权值具体利用公式COik = tfikx (log2(N/nk)+l)计算;其中,COik为特征项权值,tfik为特征项tk在待匹配/新增用户号码话单Cli中出现的频率,i = 1,2,. . .,N,N为待匹配/新增用户号码话单集合中的元素个数,nk为待匹配/新增用户号码话单集合中特征项tk出现的个数,k = 1,2,. . . m,m为待匹配/新增用户号码话单集合中的不同的特征项的个数。所述计算两个用户号码话单之间的相似度具体利用公式
m
Σ ω ,kχ ω Jk
c0s^ = I —-1m唭中,ω Jk ^p COik分别为待匹配用户号码话单
λ/(Σ
V ^=Ik=ι
Cli和新增用户号码话单Cli的特征项权值,m为号码话单集合中的不同的特征项的个数。所述确定上述两个用户号码话单对应的用户号码是否为重入网的用户号码具体是,当两个用户号码话单之间的相似度小于设定阈值时,则上述两个用户号码话单对应的用户号码为重入网的用户号码。本发明将用户号码对应的通话详单作为文档,通过提取通话详单中的特征项,计算特征向量和向量之间的夹角余弦,获取用户与用户之间的相似度,从而找到重入网的用户;与常用的重入网识别方法相比,本发明提供的方法计算速度更快,识别准确率更高。
图1基于向量空间模型的重入网分析方法流程图。
具体实施例方式下面结合附图,对优选实施例作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。实施例以联通的老CDMA用户和新入网的CDMA用户分别作为待匹配的用户号码集合和新增用户号码集合,并计算集合中每个用户对其每个联系人的通话总次数,从中提取前20个通话频率最长的号码,这20个号码就是用户的特征项,并通过计算特征项权值ω ik,获取重入网用户号码。图1基于向量空间模型的重入网分析方法流程图。图1中,本发明提供的方法包括步骤1 确定待匹配用户号码集合和新增用户号码集合。根据联通规范,待匹配用户号码是指目前在网用户(包括零次通话用户)及半年内离网的用户。新增用户号码是指已经入网而且有一个完整月的通话行为数据的用户。根据上述规范,可以确定确定待匹配用户号码集合和新增用户号码集合。步骤2 提取待匹配用户号码集合中的每个待匹配用户号码和与该用户号码通话次数最多的设定个号码,将其作为该待匹配用户号码的特征项;提取新增用户号码集合中的每个新增用户号码和与该新增用户号码通话次数最多的设定个号码,将其作为该新增用户号码的特征项。在本实施例中,设定数量为20个。分别提取待匹配用户号码集合和新增用户号码集合中的每个用户号码和与该用户号码通话次数最多的20个号码。与每个用户通话次数最多的20个号码即为该用户号码的特征项。步骤3 将每个待匹配用户号码和该待匹配用户号码的特征项作为待匹配用户号码话单,从而建立待匹配用户号码和待匹配用户号码话单的对应关系;将新增用户号码和该新增用户号码的特征项作为新增用户号码话单,从而建立新增用户号码和新增用户号码话单的对应关系。建立用户号码话单,将每个用户号码和该用户号码的特征项作为用户号码详单, 这样就建立用户号码和该用户号码详单的对应关系。步骤4 将所有待匹配用户号码话单组成待匹配用户号码话单集合;将所有新增用户号码话单组成新增用户号码话单集合。步骤5 分别确定待匹配用户号码话单集合和新增用户号码话单集合中的不同的特征项。由于每个用户号码话单都有各自的特征项,因此用户号码话单集合中很可能会有重复的特征项,去掉重复的特征项,剩下的特征项即为用户号码话单集合中的不同的特征项。步骤6 计算每个待匹配用户号码话单和每个新增用户号码话单中的特征项权值。特征项权值利用公式ω ik = tfikX (Iog2 (N/nk) +1)进行计算。其中,《ik为特征项权值,特征项tk在待匹配/新增用户号码话单中出现的频率,i = 1,2,...,N,N为待匹配/新增用户号码话单集合中的元素个数,nk为待匹配/新增用户号码话单集合中特征项tk出现的个数,k = 1,2,. . . m,m为待匹配/新增用户号码话单集合中的不同的特征项的个数。步骤7 从待匹配用户号码话单集合中任取一个待匹配用户号码话单,从新增用户号码话单集合中任取一个新增用户号码话单,通过计算两个用户号码话单之间的相似度,确定上述两个用户号码话单对应的用户号码是否为重入网的用户号码。计算两个用户号码话单之间的相似度具体利用公式
权利要求
1.一种基于向量空间模型的重入网分析方法,其特征是所述分析方法包括步骤1 确定待匹配用户号码集合和新增用户号码集合;步骤2 提取待匹配用户号码集合中的每个待匹配用户号码和与该用户号码通话次数最多的设定个号码,将其作为该待匹配用户号码的特征项;提取新增用户号码集合中的每个新增用户号码和与该新增用户号码通话次数最多的设定个号码,将其作为该新增用户号码的特征项;步骤3 将每个待匹配用户号码和该待匹配用户号码的特征项作为待匹配用户号码话单,从而建立待匹配用户号码和待匹配用户号码话单的对应关系;将新增用户号码和该新增用户号码的特征项作为新增用户号码话单,从而建立新增用户号码和新增用户号码话单的对应关系;步骤4 将所有待匹配用户号码话单组成待匹配用户号码话单集合;将所有新增用户号码话单组成新增用户号码话单集合;步骤5 分别确定待匹配用户号码话单集合和新增用户号码话单集合中的不同的特征项;步骤6 计算每个待匹配用户号码话单和每个新增用户号码话单中的特征项权值;步骤7 从待匹配用户号码话单集合中任取一个待匹配用户号码话单,从新增用户号码话单集合中任取一个新增用户号码话单,通过计算两个用户号码话单之间的相似度,确定上述两个用户号码话单对应的用户号码是否为重入网的用户号码。
2.根据权利要求1所述的基于向量空间模型的重入网分析方法,其特征是所述计算每个待匹配/新增用户号码话单的特征项权值具体利用公式《ik = tfikX (log2(N/nk)+l)计算;其中,《ik为特征项权值,tfik为特征项tk在待匹配/新增用户号码话单Cli中出现的频率,i = 1,2,...,N,N为待匹配/新增用户号码话单集合中的元素个数,nk为待匹配/新增用户号码话单集合中特征项tk出现的个数,k = 1,2,. . . m,m为待匹配/新增用户号码话单集合中的不同的特征项的个数。
3.根据权利要求2所述的基于向量空间模型的重入网分析方法,其特征是所述计算两其中,《^和coik分别为待匹配用户号码话单Cli和新增用户号码话单…的特征项权值,m为号码话单集合中的不同的特征项的个数。
4.根据权利要求3所述的基于向量空间模型的重入网分析方法,其特征是所述确定上述两个用户号码话单对应的用户号码是否为重入网的用户号码具体是,当两个用户号码话单之间的相似度小于设定阈值时,则上述两个用户号码话单对应的用户号码为重入网的用户号码。Σ ω个用户号码话单之间的相似度具体利用公式eQ s θ
全文摘要
本发明属于信息通信技术领域,尤其涉及一种基于向量空间模型的重入网分析方法。包括确定待匹配用户号码集合和新增用户号码集合;提取待匹配用户号码的特征项;提取新增用户号码的特征项;待匹配用户号码话单和新增用户号码话单;组成待匹配用户号码话单集合和新增用户号码话单集合;分别确定待匹配用户号码话单集合和新增用户号码话单集合中的不同的特征项;计算每个待匹配用户号码话单和每个新增用户号码话单中的特征项权值;通过计算两个用户号码话单之间的相似度,确定用户号码是否为重入网的用户号码。本发明提供的方法计算速度更快,识别准确率更高。
文档编号H04W16/22GK102387512SQ20111031847
公开日2012年3月21日 申请日期2011年10月19日 优先权日2011年10月19日
发明者刘云, 张振江, 程辉, 韩少春 申请人:北京交通大学