本发明涉及移动通信
技术领域:
,特别是涉及一种识别重入网用户的方法和装置。
背景技术:
:近年来,随着移动网络技术的发展,固定电话市场的萎缩,移动电话业务发展,运营商迎来了诸多新的挑战,例如重入网现象。重入网现象指的是,移动通信用户在已经拥有一个或拥有多个移动业务号码的情况下,再次购买所归属运营商的新号码并入网,新号码将全部或者部分替代原有旧号码的业务使用。重入网现象通常表现为极高的入网率,同时运营商的用户离网率也居高不下,使得运营商业务发展出现“大进大出”现象。重入网造成卡号资源浪费、市场虚增高等后果极大程度影响了运营商的战略布局,然而目前对于重入网用户的识别准确度较低,导致运营商缺乏做出科学决策和针对性营销售的依据。技术实现要素:基于此,本发明实施例提供了识别重入网用户的方法和装置,能够提高对重入网用户识别的准确度。本发明一方面提供一种识别重入网用户的方法,包括:获取新/老号码的呼叫详单信息,根据所述呼叫详单信息分别建立新/老号码的呼叫指纹库;所述呼叫指纹库中的信息包含:所有与所述新/老号码通话的对端号码,以及各对端号码的呼叫特征信息;各对端号码的呼叫特征信息包括:其与所述新/老号码的通话次数和通话时长,以及其与所有号码的通话次数总和和通话时长总和;根据各对端号码的呼叫特征信息,分别计算新/老号码的呼叫指纹库中各对端号码的影响系数;根据各对端号码的影响系数从新/老号码的呼叫指纹库中过滤掉无效呼叫指纹,得出有效呼叫指纹库;根据新号码的有效呼叫指纹库与老号码的有效呼叫指纹库的相似度,判定所述新号码是否为重入网用户。本发明另一方面提供一种识别重入网用户的装置,包括:呼叫指纹获取模块,用于获取新/老号码的呼叫详单信息,根据所述呼叫详单信息分别建立新/老号码的呼叫指纹库;所述呼叫指纹库中的信息包含:所有与所述新/老号码通话的对端号码,以及的呼叫特征信息;各对端号码的呼叫特征信息包括:其与所述新/老号码的通话次数和通话时长,以及其与所有号码的通话次数总和和通话时长总和;指纹过滤模块,用于根据各对端号码的呼叫特征信息,分别计算新/老号码的呼叫指纹库中各对端号码的影响系数;根据各对端号码的影响系数从新/老号码的呼叫指纹库中过滤掉无效呼叫指纹,得出有效呼叫指纹库;重入网判定模块,用于根据新号码的有效呼叫指纹库与老号码的有效呼叫指纹库的相似度,判定所述新号码是否为重入网用户。上述技术方案,基于新/老号码的呼叫详单信息,建立新/老号码的呼叫指纹库;并根据呼叫指纹信息中的通话次数和通话时长对初始的呼叫指纹库中的指纹进行去噪,过滤掉无效的呼叫信息,得到有效的呼叫指纹信息,基于有效的呼叫指纹库进行重入网用户判定,能够有效识别出新号码是否为重入网用户,提高了后续重入网用户识别的准确度。附图说明图1为一实施例的识别重入网用户的方法的示意性流程图;图2为一实施例的识别重入网用户的装置的示意性结构图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。图1为一实施例的识别重入网用户的方法的示意性流程图;如图1所示,本实施例中的识别重入网用户的方法包括步骤:S11,获取新号码的呼叫详单信息,根据所述呼叫详单信息建立新号码的呼叫指纹库;获取老号码的呼叫详单信息,根据所述呼叫详单信息建立老号码的呼叫指纹库。可以理解的是,本实施例中,新号码指的时入网时间不满设定时长的号码,老号码指的是入网时间超过设定时长的号码。本实施例中,新号码的呼叫指纹库中的信息包含:所有与所述新号码通话的对端号码,以及各对端号码的呼叫特征信息;每个对端号码的呼叫特征信息包括:其与所述新号码的通话次数和通话时长,以及其与所有号码的通话次数总和和通话时长总和。老号码的呼叫指纹库中的信息包含:所有与所述老号码通话的对端号码,以及各对端号码的呼叫特征信息;每个对端号码的呼叫特征信息包括:其与所述老号码的通话次数和通话时长,以及其与所有号码的通话次数总和和通话时长总和。例如通过呼叫详单信息,发现设定时间内与一号码A(新号码或者老号码)通话的对端号码有50个,分别为号码1~号码50;那么可得到号码A对应的呼叫指纹库中的信息包括50条指纹信息,分别为号码1~号码50以及号码1~号码50对应的呼叫特征信息。即每个对端号码对应一条呼叫指纹,并且各对端号码对应的呼叫指纹中,不仅包含该对端号码与所述号码A的在设定时间内的通话次数和通话时长,还包括该对端号码在所述设定时间内与其他所有号码的通话次数总和和通话时长总和。S12,在新号码的呼叫指纹库中,根据各对端号码的呼叫特征信息,计算各对端号码的影响系数;根据各对端号码的影响系数从新号码的呼叫指纹库中过滤掉无效呼叫指纹,得出新号码的有效呼叫指纹库;并且,在老号码的呼叫指纹库中,根据各对端号码的呼叫特征信息,计算各对端号码的影响系数;根据各对端号码的影响系数从老号码的呼叫指纹库中过滤掉无效呼叫指纹,得出老号码的有效呼叫指纹库。基于上述举例,即是分别根据号码1~号码50与所述号码A的在设定时间内的通话次数和通话时长,以及号码1~号码50在所述设定时间内与其他所有号码的通话次数总和和通话时长总和,计算号码A的呼叫指纹库中号码1~号码50各自的影响系数。在一优选实施例中,根据各对端号码的影响系数从新/老号码的呼叫指纹库中过滤掉无效呼叫指纹,得出有效呼叫指纹库的方式可为:在新号码的呼叫指纹库中,将各对端号码及其呼叫特征信息按照影响系数从高到低进行排序,获取排序在前的设定个数(例如20个)的对端号码及其呼叫特征信息,得出新号码的有效呼叫指纹库。在老号码的呼叫指纹库中,将各对端号码及其呼叫特征信息按照影响系数从高到低进行排序,获取排序在前的所述设定个数(例如20个)的对端号码及其呼叫特征信息,得出老号码的有效呼叫指纹库。为了方便后续计算,新/老号码的有效呼叫指纹库中的有效指纹信息的数量相等。本实施例中,基于对端号码与所述新/老号码的通话次数和通话时长,以及其与所有号码的通话次数总和和通话时长总和,来确定各对端号码的影响系数,即确定各对端号码在呼叫指纹库中的重要性,既能有效反应号码之间的呼叫亲密度,又能充分考虑到公用电话、广告营销电话等非真实社交呼叫的干扰因素,由此确定的影响系数能更准确的反映出新/老号码的真实呼叫交友圈,为后续的重入网用户识别提供有效的数据基础。S13,根据新号码的有效呼叫指纹库与老号码的有效呼叫指纹库的相似度,判定所述新号码是否为重入网用户。在一优选实施例中,可通过余弦相似度算法计算新号码的有效呼叫指纹库与老号码的有效呼叫指纹库的相似度,若所述相似度在设定的数值范围内,则可确定所述新号码为重入网用户。余弦相似度算法是将个体的指标数据映射到向量空间,然后通过测量两个个体向量之间的内积空间夹角余弦值来度量它们之间的相似性。一般来说,夹角的余弦值越大,说明两个个体的相似度越高,反之亦然。两个向量的余弦值采用欧几里得的点积公式计算:从公式(1)可知,从cosθ可衡量向量a和b的相似度。该算法同样能衡量多维向量之间的相似性。上述实施例的识别重入网用户的方法,基于新/老号码的呼叫详单信息,建立新/老号码的呼叫指纹库;并根据呼叫指纹信息中的通话次数和通话时长对初始的呼叫指纹库中的指纹进行去噪,过滤掉无效的呼叫信息,提取有效的呼叫指纹信息,提高了后续用户识别的准确度,能够有效识别出新号码是否为重入网用户。TF-IDF(termfrequency–inversedocumentfrequency)算法是一种统计算法,用以评估一关键字对于一个文档集中的其中一份文档的重要程度。关键字的重要性随着它在文档中出现的次数成正比增加,但同时会随着它在整个文档集中出现的频率成反比下降。TF-IDF算法的主要思想是:如果某个关键字在一篇文档中出现的频率高,则其TF(TermFrequency,词频)高;并且在文档集的其他文档中很少出现,则认为该关键字具有很好的类别区分能力,适合用来分类,即其IDF(InverseDocumentFrequency,逆向文件频率)也高。其中,TF值的计算公式为:公式(2)中,tfi表示关键字在文档i中的词频;分子是关键字在文档i中出现的频率,分母是所述关键字的在全部k个文档中出现的频率合计。其中,IDF值的大小表示某关键字普遍重要性的度量,可以由总文档数目除以包含该关键字的文档的数目,再将得到的商取对数得到,其计算公式可为:公式(3)中,idfi表示关键字在文档i中的逆向文件频率;分子为文档集中文档的数量;ti表示文档i中包含的某关键字t,分母{d:ti∈d}表示文档集中包含关键字ti的文档d的数量,若文档集中包含关键字ti的文档d的数目为1,则表示文档集中仅有文档i中包含有所述关键字。基于公式(2)和(3),TF-IDF定义为:TF-IDFi=tfi*idfi;(4)由此可得到关键字ti在文档i中的TF-IDF统计值。在一优选实施例中,采用改进的TF-IDF算法来计算新/老号码的呼叫指纹库中各对端号码的影响系数,具体方式为:公式(5)中,TF-IDFuv为号码u(新号码或者老号码)的呼叫指纹库中对端号码v的影响系数(即TF-IDF统计值);Tuv为对端号码v与号码u在设定时间内的通话时长;Tv为对端号码v在设定时间内与所有号码的通话时长总和;tfuv为对端号码v与号码u在设定时间内的通话次数(相当于传统TF-IDF算法中的词频);idfuv为对端号码v在设定时间内与所有号码的通话次数总和(相当于传统TF-IDF算法中的逆向文件频率)。通过上述改进的TF-IDF算法计算原始呼叫指纹库中各指纹信息对应的影响系数,进而基于该影响系数提取有效的呼叫指纹,具有以下优势:随着对端号码v在号码u的呼叫详单中出现次数以及通话时长的增加,即两个号码的呼叫特征共同的对端号增加,如此,号码v在号码u的呼叫指纹库中的影响系数也随之增大;但是,如果对算号码v在所有呼叫详单中出现的次数越多,那么号码v在号码u的呼叫指纹库中对应的IDF值就会减小,这样号码v在号码u的呼叫指纹库中的影响系数也随之减小,其对辨别号码u的影响力也将减小。比如一些公共号码或者营销电话使用的频度很高,那么其在号码u的呼叫指纹库中的呼叫特征就较弱。因此,本实施例采用改进的TF-IDF算法在一定程度上减少了非真实社交呼叫号码对判别准确度的干扰,为建立有效的呼叫指纹库提供了重要的保证。在一优选实施方式中,根据新号码的有效呼叫指纹库与老号码的有效呼叫指纹库的相似度,判定所述新号码是否为重入网用户的方式包括:在新号码的有效呼叫指纹库中,先根据各对端号码的影响系数分别确定各对端号码的呼叫特征权重,得到所述新号码的加权呼叫指纹库;在老号码的有效呼叫指纹库中,先根据各对端号码的影响系数分别确定各对端号码的呼叫特征权重,得到所述老号码的加权呼叫指纹库;然后计算新号码的加权呼叫指纹库与老号码的加权呼叫指纹库的相似度,根据所述相似度判定所述新号码是否为重入网用户。以简化运算,进一步提高识别有效性。在一优选实施例中,在新/老号码的有效呼叫指纹库中,按照如下公式计算各对端号码的呼叫特征权重:公式(6)中,wui表示号码u的有效呼叫指纹库中第i个对端号码的呼叫特征权重;TF-IDFui表示号码u的有效呼叫指纹库中第i个对端号码的影响系数;n为号码u的有效呼叫指纹库中对端号码的总数;Tui为第i个对端号码与号码u在设定时间内的通话时长;Ti为第i个对端号码在设定时间内与所有号码的通话时长总和;tfui为第i个对端号码与号码u在设定时间内的通话次数,idfui为第i个对端号码在设定时间内与所有号码的通话次数总和。进一步的,采用加权余弦相似度计算新号码的有效呼叫指纹库与老号码的有效呼叫指纹库的相似度,即采用如下公式计算新号码的加权呼叫指纹库与老号码的加权呼叫指纹库的相似度:其中,Sim(D1,D2)表示号码1的加权呼叫指纹库D1与号码2的加权呼叫指纹库D2的相似度;w1k为号码1的加权呼叫指纹库D1中的第k个对端号码的呼叫特征权重;w2k为号码2的加权呼叫指纹库D2中的第k个对端号码的呼叫特征权重;n为有效呼叫指纹库中对端号码的总数,D1和D2均为n维向量。为了缩短计算的时间,取排序在前的20个对端号码及其呼叫特征信息构成有效呼叫指纹库参与计算即可,即向量D1和D2的维度均为20。基于上述实施例的识别方法,对多次抽样3万新号码与老号码的有效呼叫指纹库进行余弦相似度计算,匹配结果为:相似度区间用户数匹配正确的用户准确率>=0.2419300002645188.17%>=0.3802300002661989.73%>=0.4537300002746891.56%>=0.5536300002795193.17%从上表可知,新老号码相似度的数值范围的合理范围在(0.4537,0.5536)。因此,运营商可以按照该范围对重入网的新用户进行重入网原因的分析,为后续的用户维护和营销工作提供数据支撑。基于上述实施例的识别重入网用户的方法,具有以下几方面的技术优势:(1)数据获取便利,因为新/老号码的呼叫详单信息是基于运营商的信息,很容易通过运营商获取;(2)考虑了用户交往网络的动态性,贴合用户使用习惯特点。(3)计算复杂度不高;采用改进的TD-IDF算法构建有效的交往圈,算法仅仅考虑用户交往圈的拓扑结构因素,省去了传统考虑多种社会因素进行建模的麻烦。(4)识别准确度高;首先通过改进的TD-IDF算法对用户的呼叫指纹库进行去燥,可以过滤到大部分的无效的呼叫指纹,降低后面识别的误差;其次结合余弦相似度算法进行重入网用户的识别,能够快速识别重入网用户。需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。此外,还可对上述实施例进行任意组合,得到其他的实施例。基于与上述实施例中的识别重入网用户的方法相同的思想,本发明还提供识别重入网用户的装置,该装置可用于执行上述识别重入网用户的方法。为了便于说明,识别重入网用户的装置实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。图2为本发明一实施例的识别重入网用户的装置的示意性结构图;如图2所示,本实施例的识别重入网用户的装置包括:呼叫指纹获取模块210、指纹过滤模块220以及重入网判定模块230,各模块详述如下:所述呼叫指纹获取模块210,用于获取新/老号码的呼叫详单信息,根据所述呼叫详单信息分别建立新/老号码的呼叫指纹库;所述呼叫指纹库中的信息包含:所有与所述新/老号码通话的对端号码,以及的呼叫特征信息;各对端号码的呼叫特征信息包括:其与所述新/老号码的通话次数和通话时长,以及其与所有号码的通话次数总和和通话时长总和;所述指纹过滤模块220,用于根据各对端号码的呼叫特征信息,分别计算新/老号码的呼叫指纹库中各对端号码的影响系数;根据各对端号码的影响系数从新/老号码的呼叫指纹库中过滤掉无效呼叫指纹,得出有效呼叫指纹库;所述重入网判定模块230,用于根据新号码的有效呼叫指纹库与老号码的有效呼叫指纹库的相似度,判定所述新号码是否为重入网用户。在一优选实施例中,所述指纹过滤模块220包括:影响系数计算单元,用于按照如下公式计算新/老号码的呼叫指纹库中各对端号码的影响系数:其中,TF-IDFuv为号码u的呼叫指纹库中对端号码v的影响系数;Tuv为对端号码v与号码u在设定时间内的通话时长;Tv为对端号码v在设定时间内与所有号码的通话时长总和;tfuv为对端号码v与号码u在设定时间内的通话次数;idfuv为对端号码v在设定时间内与所有号码的通话次数总和;和/或,排序及筛选单元,用于将新/老号码的呼叫指纹库中的对端号码及其呼叫特征信息按照影响系数从高到低进行排序,获取排序在前的设定个数的对端号码及其呼叫特征信息,得出有效呼叫指纹库。在一优选实施例中,所述重入网判定模块230包括:加权处理单元,用于在新/老号码的有效呼叫指纹库中,根据各对端号码的影响系数,分别确定各对端号码的呼叫特征权重,得到所述新/老号码的加权呼叫指纹库。相似度计算单元,用于计算新号码的加权呼叫指纹库与老号码的加权呼叫指纹库的相似度。以及,判定单元,用于根据所述相似度判定所述新号码是否为重入网用户。需要说明的是,上述示例的识别重入网用户的装置的实施方式中,各模块/单元之间的信息交互、执行过程等内容,由于与本发明前述方法实施例基于同一构思,其带来的技术效果与本发明前述方法实施例相同,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。此外,上述示例的识别重入网用户的装置的实施方式中,各功能模块/单元的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的功能模块/单元完成,即将所述识别重入网用户的装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。其中各功能模既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,作为独立的产品销售或使用。所述程序在执行时,可执行如上述各方法的实施例的全部或部分步骤。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。以上所述实施例仅表达了本发明的几种实施方式,不能理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。当前第1页1 2 3