一种多次入网用户的判断方法及装置与流程

文档序号:13891112阅读:471来源:国知局
一种多次入网用户的判断方法及装置与流程
本发明涉及通信
技术领域
,具体涉及一种多次入网用户的判断方法及装置。
背景技术
:在现阶段,移动运营商推出的套餐和服务日益增多,基于体验新服务或其他方面的原因,用户更换移动号码的现象越来越普遍。若用户已经在某地使用某运营商提供的一个号码,由于某种原因又购买了该运营商当地的另一个号码入网,新号码全部或者部分替代原有号码的业务,这样的现象称为多次入网(或称为重入网),这样的用户称为多次入网用户(重入网用户)。目前对于多次入网用户的判断主要是通过对新入网用户和老用户手机的IMEI(InternationalMobileEquipmentIdentity,国际移动设备识别码)对比分析进行判断,若发现新入网用户和老用户手机的IMEI相同,则可认定这两个用户为同一多次入网用户。不难看出,这种判断方法基于一个前提:用户再次入网后会使用与之前相同的一部手机。但在当前手机更换次数日益增多,更换频率日益减小的情况下,这种前提在很多情况下都是不成立的,例如用户再次入网后换了新的手机,或是直接退网把手机转让给他人等等,都会对判断结果的正确性产生影响。总体而言,这种方法的分析结果的准确率和查全率不高。技术实现要素:本发明实施例提供一种多次入网用户的判断方法及装置,解决现有技术中判断多次入网用户准确率不高的问题。第一方面,本发明实施例提供了一种多次入网用户的判断方法,包括:对于第一计费周期内的每一用户,统计该用户的交往记录,其中,该交往记录中记录有依照预设规则排序的该用户在第一计费周期内的交往号码;对于第二计费周期内相对于第一计费周期新增的每一用户,统计该用户的交往记录,其中,该交往记录中记录有依照所述预设规则排序的该用户在第二计费周期内的交往号码;合并统计得到的所有交往记录中的交往号码,作为分组号码的集合,针对该集合中的每一个分组号码,在统计得到的所有交往记录中,查找包含该分组号码的交往记录,以生成对应该分组号码的交往记录分组;对于生成的每一个交往记录分组,执行以下步骤:提取该分组中的每一条交往记录,作为待比对的交往记录,计算所述待比对的交往记录中的交往号码与该交往记录分组中每一符合预设条件的交往记录中的交往号码的重合率,所述符合预设条件的交往记录为,该交往记录所属计费周期与所述待比对的交往记录的所属计费周期不同,且该交往记录与所述待比对的交往记录内同时包含的交往号码中,依照所述预设规则排在第一位的交往号码为该交往记录分组所对应的分组号码;对于算得的每一重合率,当该重合率大于预设阈值时,认定该重合率所对应的两条交往记录所属的用户为同一多次入网用户。在第一方面的第一种可能的实现方式中,所述第二计费周期与所述第一计费周期之间间隔一个或一个以上的计费周期。在第一方面的第二种可能的实现方式中,统计该用户的交往记录,包括:提取所述用户的通话记录,所述通话记录中包括该用户的用户号码以及至少一个对端号码;过滤无效的通话记录;计算所述过滤后的通话记录中的各个对端号码与所述用户号码的交往指数;提取所述交往指数大于预定阈值的对端号码作为所述用户的交往号码,以构成所述用户的交往记录。结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中所述过滤无效的通话记录,包括下列步骤之中的至少一个:删除所述用户号码或对端号码长度不符合预设有效号码位数的通话记录;删除所述用户号码或对端号码为服务电话号码的通话记录。第二方面,本发明实施例提供一种多次入网用户的判断装置,包括:统计模块、分组模块、计算模块;统计模块,用于对于第一计费周期内的每一用户,统计该用户的交往记录,其中,该交往记录中记录有依照预设规则排序的该用户在第一计费周期内的交往号码;所述统计模块还用于,对于第二计费周期内相对于第一计费周期新增的每一用户,统计该用户的交往记录,其中,该交往记录中记录有依照所述预设规则排序的该用户在第二计费周期内的交往号码;分组模块,用于合并统计得到的所有交往记录中的交往号码,作为分组号码的集合,针对该集合中的每一个分组号码,在统计得到的所有交往记录中,查找包含该分组号码的交往记录,以生成对应该分组号码的交往记录分组;计算模块,用于对于所述分组模块生成的每一个交往记录分组,执行以下步骤:提取该分组中的每一条交往记录,作为待比对的交往记录,计算所述待比对的交往记录中的交往号码与该交往记录分组中每一符合预设条件的交往记录中的交往号码的重合率,所述符合预设条件的交往记录为,该交往记录所属计费周期与所述待比对的交往记录的所属计费周期不同,且该交往记录与所述待比对的交往记录内同时包含的交往号码中,依照所述预设规则排在第一位的交往号码为该交往记录分组所对应的分组号码;对于算得的每一重合率,当该重合率大于预设阈值时,认定该重合率所对应的两条交往记录所属的用户为同一多次入网用户。在第二方面的第一种可能的实现方式中,所述统计模块统计用户的交往记录,包括:提取所述用户的通话记录,所述通话记录中包括该用户的用户号码以及至少一个对端号码;过滤无效的通话记录;计算所述过滤后的通话记录中的各个对端号码与所述用户号码的交往指数;提取所述交往指数大于预定阈值的对端号码作为所述用户的交往号码,以构成所述用户的交往记录。结合第二方面或第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述第二计费周期与所述第一计费周期之间间隔一个或一个以上的计费周期。通过本发明实施例提供的多次入网用户的判断方法及装置,通过不同计费周期内用户交往号码的对比分析来判断重入网用户,能够大幅提高判断的精确度。另外,将用户的交往记录按照其中的交往号码进行分组,然后分别在各个分组内计算用户交往号码的重合率,能够有效地减少无效比对的次数。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的多次入网用户的判断方法的应用环境示意图;图2为本发明实施例提供的一种多次入网用户的判断方法的示意图;图3为本发明实施例提供的判断多次入网用户的系统示意图;图4为本发明实施例提供的计算新老用户交往号码的流程图;图5为本发明实施例提供的用户A在2011年1月的交往记录表示成的图;图6为本发明实施例提供的在用户A各个交往号码顶点上添加转换后的交往记录后的图;图7为本发明实施例提供的以A、B、X、Y四个用户为例,添加交往记录后的图;图8为本发明实施例提供的计算新老用户交往号码重合率的流程图;图9为本发明实施例提供的多次入网用户的判断装置结构示意图;图10为本发明实施例提供的多次入网用户的判断装置的硬件架构图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下获得的所有其他实施例,都属于本发明保护的范围。针对现有技术中判断多次入网用户准确率不高的问题,本发明实施例提出一种多次入网用户的判断方法,能够提高多次入网用户判断的准确率。以下先介绍本发明实施例的应用环境。图1为本发明实施例提供的多次入网用户的判断方法的应用环境示意图。本发明技术方案的应用环境主要由两部分组成,分别是计费系统(Billing)以及商业智能系统(BusinessIntelligence,BI)。其中,计费系统是电信支撑系统的核心,主要实现对各项电信业务的采集、预处理、批价、计费等功能。商业智能系统是利用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析的系统。如图1所示,一个典型的商业智能系统可以由以下两个部分组成:数据仓库(DataWarehouse,DW):把分布在不同地方的数据集成到一起,存储在一个数据库中。可方便用户对数据的访问,也有利于用户对一段时间内的历史数据进行综合分析;数据挖掘(DataMining,DM):按既定的业务目标,对集成的海量数据进行分析,输出分析结果,并进一步将分析结果模型化,从而揭示数据之间存在的规律性。图2所示为本发明实施例提供的一种多次入网用户的判断方法的示意图。依据该图,详述该方法的各步骤如下:步骤201、对于第一计费周期内的每一用户,统计该用户的交往记录,其中,该交往记录中记录有依照预设规则排序的该用户在第一计费周期内的交往号码;其中,交往号码是指在一个计费周期内与用户的通话达到预设条件的号码。交往号码的计算、提取的详细过程在后续实施例中公开。步骤202、对于第二计费周期内相对于第一计费周期新增的每一用户,统计该用户的交往记录,其中,该交往记录中记录有依照相同预设规则排序的该用户在第二计费周期内的交往号码;其中,交往号码的预设排序规则可以是按照交往号码的数字大小按从大到小排序,也可以是从小到大排序,本发明实施例对此不做限定。步骤201与202中所使用的预设排序规则相同。对于计费周期的长短,可以由移动运营商在具体应用时自行设定,本发明实施例对此不做限定。为了描述的方便,以下以自然月作为计费周期公开本发明实施例提供的技术方案。从时间关系上来看,第二计费周期可以是第一计费周期之后的任一计费周期。可选的,考虑到大部分用户更换号码时会经历一个新旧号码共用的过渡期(以更换号码的当月作为过渡期,过渡期之前只使用旧号码,之后只使用新号码),限定第二计费周期和第一计费周期之间间隔一个计费周期,更进一步地,第二计费周期和第一计费周期之间也可以间隔一个以上的计费周期。在本发明实施例中,统计第一计费周期内所有用户的交往记录;对于第二计费周期内的用户,由于只有相对于第一计费周期新增的用户才有可能是多次入网用户,因而只需统计第二计费周期内相对于第一计费周期新增的每一用户的交往记录。步骤203、合并统计得到的所有交往记录中的交往号码,作为分组号码的集合,针对该集合中的每一个分组号码,在统计得到的所有交往记录中,查找包含该分组号码的交往记录,以生成对应该分组号码的交往记录分组;其中,对于交往记录分组的详细步骤,在后续实施例中予以说明。对于生成的每一个交往记录分组,执行以下步骤:步骤204、提取该分组中的每一条交往记录,将该交往记录作为待比对的交往记录,计算待比对的交往记录中的交往号码与该交往记录分组中每一符合预设条件的交往记录中的交往号码的重合率,其中,符合预设条件的交往记录为,该交往记录所属计费周期与待比对的交往记录所属的计费周期不同,且该交往记录与待比对的交往记录内同时包含的交往号码中,依照前述预设规则排在第一位的交往号码为该交往记录分组所对应的分组号码;其中,该步骤的详细内容在后续实施例中进行公开。步骤205、对于算得的每一重合率,当该重合率大于预设阈值时,认定该重合率所对应的两条交往记录所属的用户为同一多次入网用户。其中,对于上述步骤204和205,还可以在多个服务器上并行计算各交往记录分组中用户的交往号码重合率。本实施例提供的多次入网用户的判断方法,通过不同计费周期内用户交往号码的对比分析来判断重入网用户,能够大幅提高判断的精确度。另外,将用户的交往记录按照其中的交往号码进行分组,然后分别在各个分组内计算用户交往号码的重合率,能够有效地减少无效比对的次数。假设第一计费周期中用户的数量为M,第二计费周期中新增用户的数量为N,依据现有技术完成这样一次比对需要进行M*N次的运算,而采用本发明实施例提供的方法,计算次数可降低为(M+N)*k^2次(其中k为单个用户的交往号码个数,k远远小于M),相对于现有技术中的计算次数大幅减少。上述多次入网用户的判断方法可以分为两个大的步骤,步骤一:统计第一计费周期中用户的交往号码,以及第二计费周期中相对于第一计费周期新增用户的交往号码;步骤二:计算第一计费周期用户和第二计费周期新增用户交往号码的重合率,根据重合率的大小判断出多次入网用户。为了描述的方便,以下将第一计费周期内的用户简称为老用户,将第二计费周期内相对于第一计费周期新增的用户简称为新用户;同时,基于移动号码和用户的一一对应,在本发明实施例中提到的用户和用户号码的含义相同。图3所示为本发明一个实施例提供的判断多次入网用户的系统示意图。该系统由计费系统,数据集成组件和数据挖掘组件三部分组成。其中,数据集成组件和数据挖掘组件既可以集成于商业智能系统内,也可以作为独立的装置部署。数据集成组件分别与计费系统和数据挖掘组件相连,用于执行前述判断多次入网用户的方案中的步骤一。具体而言,数据集成组件从计费系统处读取第一计费周期(例如2011年1月)中老用户以及第二计费周期(例如2011年3月)中新用户的话单文件,依据话单文件中的信息,分组并行计算老用户和新用户与各个对端号码的交往指数,并提取交往指数大于预定阈值的对端号码构成新老用户的交往号码。计算交往指数以及提取交往号码的步骤将在后续实施例中予以详细说明。其中,用户是指在某个移动运营商处申请号码,接受该运营商服务的人。在本发明实施例中,用移动号码来指代用户,多次入网用户就依据新老用户交往号码的重合率的大小来判断。数据挖掘组件与数据集成组件相连,用于执行前述判断多次入网用户的方案中的步骤二。具体地,数据挖掘组件从数据集成组件中读取新老用户的交往号码,对这些交往号码数据进行分组,然后在多个服务器上并行计算新老用户的交往号码重合率,依据重合率的大小判断出多次入网用户。分组以及交往号码重合率的计算在后续实施例中进行详细说明。以下分别详述本发明实施例提供的判断多次入网用户的方案的两大步骤。步骤一:计算第一计费周期中老用户的交往号码以及第二计费周期中新用户的交往号码。图4所示为本发明实施例提供的计算新老用户交往号码的流程图,以下依据该图,详细说明计算老用户的交往号码的步骤。计算新用户的交往号码的过程与之相同,此处不再赘述。步骤401、数据集成组件从计费系统(Billing)中读取话单;具体地,数据集成组件从计费系统中读取第一计费周期中所有用户的话单。步骤402、数据集成组件从话单中提取通话记录;其中,提取的通话记录中包括用户号码、与用户号码通话的至少一个对端号码、各次通话的通话日期和通话时长,以2011年1月作为第一计费周期,提取的通话记录可如下表一所示。表一中的用户号码和对端号码都以字母代替:用户号码对端号码通话日期通话时长(单位:秒)AH2011-01-01180AH2011-01-04200AH2011-01-06240AH2011-01-08330AH2011-01-10250AI2011-01-02250AI2011-01-16180AI2011-01-28270AI2011-01-30100AJ2011-01-05160AJ2011-01-12260AJ2011-01-26150BH2011-01-1560BL2011-01-1880............表一步骤403、数据集成组件过滤无效的通话记录;在步骤402,数据集成组件提取的通话记录包含了2011年1月的所有用户在当月的所有通话记录,数据量非常庞大,若直接使用这些数据进行后续的操作,会占用大量的资源,对服务器造成很大的负担。在本发明实施例中,基于节省计算资源和提高计算精度等方面的考虑,可以将其中的一些通话记录删除。例如用户和运营商客服之间的通话记录,由于隶属于同一运营商的所有用户都会与客服之间进行或多或少的交流,若使用这些通话记录进行计算反而会影响多次入网用户判断的精确度;再比如用户拨打一些热线电话或公共服务电话产生的通话记录,考虑到这些通话发生的随机性,在判断多次入网用户时完全可以忽略掉这些通话记录;此外,运营商中会存在一些企业用户或提供公共服务的机构用户,这些用户基本上不存在多次入网的情况,即使更换了号码也会在运营商处有明确的记录,因而在判断多次入网用户时无需考虑这些用户,他们产生的通话记录也要进行过滤。在本发明实施例中,将上述可以删除的通话记录称为无效的通话记录,在进行后续操作之前,先要把这些无效的通话记录过滤掉。无效的通话记录就是指其中包含无效的用户号码或对端号码的通话记录,即一条通话记录包含的用户号码和对端号码中只要有一个号码无效,则该条通话记录就属于无效的通话记录。因而上述无效的通话记录可依据用户号码或对端号码进行过滤。无效通话记录的过滤至少应包括以下两个步骤中的一个:步骤431、删除用户号码或对端号码长度不符合预设有效号码位数的通话记录;在本发明实施例中,设定位数为7、8、10、11和12位的号码为有效号码,除此,则为无效号码。例如,中国移动的客服电话10086就属于位数不符的无效号码,包含此号码的通话记录即为无效通话记录,在该步骤中进行删除。步骤432、删除用户号码或对端号码为服务电话号码的通话记录。其中,服务电话号码包括热线电话号码和公共服务电话号码等由一些公司或公共机构提供服务的号码。经过步骤431的过滤,还有一些号码的位数虽然符合上述有效号码位数设定,但属于服务电话号码,例如以400和800开头的号码都是10位,但都属于特定的服务号码,包含这类号码的通话记录也需要删除。实施这一步骤时,可依据事先的设定进行过滤,由运营商事先设定已知的服务号码,在本步骤中进行过滤,既可减少这些号码对判断结果的影响,也可节省服务器的资源。需要说明的一点是,基于不同的计算精度或计算资源占用等因素的考虑,上述两个步骤可以任意择一执行,也可以全部执行,而且在执行这两个步骤时也不必限于上述的顺序,也可以先执行步骤432,再执行步骤431。本发明实施例对此不作限定。在本发明的一个实施例中,数据集成组件进一步将过滤后的通话记录进行分组,将用户号码相同的通话记录分成一组。各组数据之间相互独立,对一组数据的操作不会影响到其他组的数据。基于这样的分组,就可以将各组数据在不同的服务器上进行并行计算,从而提高计算效率,降低对单个服务器的要求。如上表一所示的数据,可以将用户号码为A的各条记录作为一组,在一台服务器上进行操作,用户号码为B的多条记录作为一组,在另一台服务器上进行操作,两组数据的操作互不影响。下面以用户号码为A的通话记录为例做后续步骤的说明。步骤404、数据集成组件计算过滤后的通话记录中各个对端号码与用户号码的交往指数;所谓交往指数,是衡量一个对端号码与用户号码交往程度的量化指标。具体地,基于上述步骤403过滤后的通话记录,数据集成组件计算2011年1月的用户的各个对端号码与用户号码的交往指数。在计算之前,首先将涉及到相同用户号码和对端号码的通话记录进行汇总,汇总后的数据包括用户号码和对端号码在2011年1月内的通话时长、通话次数以及通话日期分布。下表二以用户号码A为例表示输出的汇总数据,其中通话日期分布是统计出各次通话的日期,冒号前的数字表示统计区间(一般是一个自然月),冒号后以逗号隔开的数字分别表示各次通话的具体日期。表二以下说明交往指数的计算方法:具体地,本发明一个实施例提供如下公式计算对端号码与用户号码的交往指数。交往指数exp=x*(通话频度-最小通话频度)/(最大通话频度-最小通话频度)+y*(通话时长-最小通话时长)/(最大通话时长-最小通话时长)+z*(通话次数-最小通话次数)/(最大通话次数-最小通话次数)其中,通话频度是指一段时间内(一般以月为单位)某个用户号码与其对端号码的通话频率。经过计算,在得到的所有对端号码与用户号码的通话频度中提取最大值和最小值,分别作为最大通话频度和最小通话频度代入上述公式中。最大/最小通话时长与最大/最小通话次数与之类似,也需要在所有对端号码的相应数据中进行对比得出。x、y、z分别为通话频度、通话时长、通话次数在交往指数中所占的权重,以通话频度占主要权重,通话时长和通话次数占次要权重,具体的取值可以由各个运营商通过测试后确定。以上表二为例,在用户号码A的三个对端号码H、I、J中,最小通话时长为570秒,最大通话时长为1200秒;最小通话次数为3,最大通话次数为5;通话频度的值要依据表二通过计算得到,进而得到最大通话频度和最小通话频度。以下先介绍通话频度的计算方法:在本发明实施例中,综合考虑对端号码出现的天数、周数和旬数,可以降低一些临时性突发通话号码的干扰,提高通话频度计算的精确性。基于上述考虑,以下提供一个计算通话频度的公式:Freq=(Dn/C+Wn/W+Pn/P)其中,C为常量,表示计算通话频度的统计天数,一般为某个月的天数;Dn表示某个对端号码在C天内与用户号码有通话行为的天数;W表示C天内包含的周数,计算时使用统计天数除以7,若不能整除,则取整数后再加1;Wn表示某个对端号码在C天内与用户号码有通话行为的周数,计算时根据通话发生的具体日期得出通话行为分布的周数;P表示C天内包含的旬数,计算时使用统计天数除以10,结果取整数;Pn表示某个对端号码在C天内与用户号码有通话行为的旬数,计算时根据通话发生的具体日期得出通话行为分布的周数。以下代入上表二中的数据,计算各个对端号码与用户号码A的通话频度。FreqH=5/31+3/5+1/3=1.06FreqI=4/31+4/5+3/3=1.93FreqJ=3/31+3/5+3/3=1.70同时可以得出最小通话频度为1.06,最大通话频度为1.93,计算出通话频度后,再结合表二中的数据,便可计算交往指数。将各项数据代入交往指数的计算公式,x、y、z分别取值0.4、0.3、0.3:对端号码H与用户号码A的通话频度:expH=0.4(1.06-1.06)/(1.93-1.06)+0.3(1200-570)/(1200-570)+0.3(5-3)/(5-3)=0.60;对端号码I与用户号码A的通话频度:expl=0.4(1.93-1.06)/(1.93-1.06)+0.3(700-570)/(1200-570)+0.3(4-3)/(5-3)=0.62;对端号码I与用户号码A的通话频度:expJ=0.4(1.70-1.06)/(1.93-1.06)+0.3(570-570)/(1200-570)+0.3(3-3)/(5-3)=0.29进一步地,数据集成组件可计算得出2011年1月的所有用户号码与各个对端号码的交往指数。在本发明的一个实施例中,上述用户号码与各个对端号码的交往指数可以分组在多个服务器并行计算,分组的依据就是步骤403中对过滤后的通话记录所作的分组。基于这样的分组,就可以将各组数据在不同的服务器上进行并行计算,从而提高计算效率,降低对单个服务器的要求。步骤405、数据集成组件提取交往号码,并将交往号码按照预设规则进行排序。具体地,数据集成组件可以提取交往指数大于预定阈值的对端号码作为用户A的交往号码。例如,设定交往指数的阈值为0.25,根据步骤404所列的交往指数计算结果,选择交往指数大于0.25的对端号码作为用户号码A的交往号码。输出数据如下表三所示,其中用户号码以及交往号码都以字母代替。在本发明实施例中,可将包含用户号码、交往号码以及计费周期的数据称为用户的交往记录。用户号码交往号码计费周期AH,I,J201101表三进一步地,数据集成组件可以汇总得到2011年1月的所有用户在当月的交往记录。汇总后的新老用户的交往记录可以如下表四所示,在步骤二中将依据这组数据计算新老用户交往号码的重合率。用户号码交往号码计费周期用户号码交往号码计费周期AH,I,J201101XH,I,J201103BH,L,M201101YH,L,M201103CL,M,O201101ZL,M,O201103DP,Q201101201103表四特别地,为了步骤二中交往号码重合率的计算,数据集成组件进一步将各用户的交往号码按照预设规则,例如号码数字的大小进行排序。具体可按升序排列,也可按降序排列,本发明实施例对此不做限定。进行排序的作用在公开步骤二的实施例中进行详细说明。步骤406、数据集成组件将上表四所示的交往号码发送到数据挖掘组件,以供数据挖掘组件计算交往号码重合率。在由数据集成组件完成步骤一之后,由数据挖掘组件执行步骤二:计算新老用户交往号码的重合率,并根据得到的重合率的大小来判断多次入网用户。为了提高效率,本发明实施例提出一种分组并行运算的方法来执行步骤二。数据挖掘组件接收新老用户的交往记录后,首先对这些记录进行分组,然后并行处理各个分组内的数据,计算得到新老用户交往号码的重合率,进而根据重合率的大小判断多次入网用户。以下先介绍本发明一个实施例提供的数据分组方法,也是对前述步骤203的细化。在本发明实施例中,合并新老用户交往记录中的交往号码,以交往号码作为分组号码,针对每一个分组号码,在新老用户的交往记录中,查找包含该分组号码的交往记录,生成对应该分组号码的交往记录分组。新老用户的交往记录中一共包含多少个不同的交往号码,就将记录划分为多少组。具体地,通过以下两个步骤来实现上述分组:步骤1、引入图论(GraphTheory)中的建模思想,将用户的交往记录用图论中的图表示。将用户号码与交往号码分别表示成图中的顶点(vertex),用户号码顶点与交往号码顶点之间有边(edge)相连,交往记录所属的计费周期表示成边上的属性(property)。图5所示即是将用户A在2011年1月的交往记录表示成的图。其中,用户号码A及其交往号码H,I,J分别表示成图中的顶点,A与H,I,J之间分别有边相连,计费周期2011年1月表示成边上的属性;步骤2、将新老用户的交往记录添加到该交往记录中包含的各个交往号码顶点上。还是以用户A为例,分别将记录A|H,I,J|201101添加到用户A的三个交往号码H,I,J上,得到三条记录:H<A|H,I,J|201101>,I<A|H,I,J|201101>,J<A|H,I,J|201101>,添加交往记录后的图如图6所示。其中,为了显示的直观,将用户的交往记录使用“用户号码|交往号码|计费周期”的形式表示。进一步地,以A、B、X、Y四个用户为例,添加交往记录后的图如图7所示。由该图可以看出,号码H将收到A、B、X、Y四个用户添加的记录:H<A|H,I,J|201101>,H<B|H,L,M|201101>,H<X|H,I,J|201103>,H<Y|H,L,M|201103>;I收到A,X两个用户添加的记录:I<A|H,I,J|201101>,I<X|H,I,J|201103>;J收到用户A和X添加的记录:J<A|H,I,J|201101>,J<X|H,I,J|201103>。由图7可以很直观的看出,经过上述两个步骤后,包含同一个交往号码的交往记录都被划分到了一组,这就为后续的并行计算提供了基础。在上述实施例中,引入图论中的建模思想,海量的数据借助于简单的图进行表示,原本复杂的分组操作只需要简单的“建模-添加”两个步骤就可完成。而且经过这样的分组处理之后,再计算交往号码重合率时就不需要将新增号码与原有号码一一进行比对了,只需比对每个交往号码顶点处收到的不同计费周期之间的数据,这样就可有效地减少无效比对的次数,节省计算资源。对应图7,即分别在H、I、J等交往号码顶点处计算交往号码重合率,重合率越大,新用户属于多次入网用户的可能性也就越大。各个顶点间的数据都是相互独立的,还可以在不同的服务器上并行的进行计算,从而能够提高计算效率,降低对单个服务器的要求。在不同的服务器上并行计算新老用户的交往号码重合率,使用的计算流程完全相同,区别只在于处理的数据不同。下面以包含交往号码H的一组数据为例介绍新老用户交往号码重合率的计算方法。新老用户交往号码重合率的计算即是依据前述步骤204:提取该分组中的每一条交往记录,将该交往记录作为待比对的交往记录,计算待比对的交往记录中的交往号码与该交往记录分组中每一符合预设条件的交往记录中的交往号码的重合率,其中,符合预设条件的交往记录为,该交往记录所属计费周期与待比对的交往记录所属的计费周期不同,且该交往记录与待比对的交往记录内同时包含的交往号码中,依照前述预设规则排在第一位的交往号码为该交往记录分组所对应的分组号码。可以看出,在本步骤中并不是对分组中所有的交往记录都进行两两比对,进行比对的两条交往记录需要满足下述两个条件:第一、两条交往记录分属不同的计费周期;在本发明实施例中,多次入网用户的判断就是基于不同计费周期中用户交往记录的比对。第二,在两条交往记录内同时包含的交往号码中,按照前述预设规则排在第一位的交往号码为该交往记录分组所对应的分组号码。引入这一条件限制主要是考虑到,在分组时每个用户的交往记录都会被添加到他的所有交往号码上,这样就会在不同的交往记录分组内添加很多重复的记录,例如图7中所示的交往号码H和I之下都包括A|H,I,J|201101和X|H,I,J|201103两条记录,如果对各分组内的交往记录都进行比对的话,记录A|H,I,J|201101和X|H,I,J|201103会分别在交往号码H和I形成的分组内各进行一次比对,造成不必要的重复计算。考虑到数据量的巨大,有必要在计算之前,先进行筛选。例如,参照图7,在交往号码H的分组下,交往记录A|H,I,J|201101和X|H,I,J|201103,在这两条交往记录同时包含的交往号码中,排在第一位的是号码H,对应该分组的分组号码,符合前述第二个条件,计算这两条交往记录中交往号码的重合率;而在交往号码I的分组下,存在同样的两条交往记录A|H,I,J|201101和X|H,I,J|201103,在该分组下排在第一位的交往号码H和分组号码I不对应,不符合第二个条件,因而也就不会进行后续的计算。通过这一例子可以更直观地看出,不同分组内的相同交往记录不会被重复计算,从而避免了资源的浪费。图8所示为计算新老用户交往号码重合率的流程图,是对步骤204的进一步细化,以下详述图中所示的各步骤:步骤801、针对交往记录分组中的每一条交往记录,提取与该交往记录分属不同计费周期的各条交往记录分别与该交往记录进行判断;步骤802、判断两条交往记录内同时包含的交往号码中,排在第一位的交往号码是否为该交往记录分组所对应的分组号码,若是,则执行步骤803;若经过判断两条记录内同时包含的交往号码中排在第一位的是分组号码,则计算这两条记录的交往号码重合率,否则忽略这两条记录,不进行计算。经过步骤802的筛选,保证了相同的两条记录不会被重复计算,而在前述步骤405中对交往号码的排序,保证了在这里去重的正确性。例如,参照图7,在交往号码H的分组下,提取交往记录A|H,I,J|201101步骤803、计算两条记录中新老用户的交往号码的重合率。具体地,本发明一个实施例提供一个交往号码的重合率的计算公式:相同的交往号码数/交往号码总数。代入图7中的数据进行计算,可以得到用户A和X的交往号码重合率为100%,A和Y的交往号码重合率为20%,B和Y的交往号码重合率为100%,B和X的交往号码重合率为20%。数据集成组件进一步将各个服务器计算的交往号码重合率进行汇总,筛选出交往号码重合率大于预定阈值的两条记录,这两条记录各自所属的用户可认定为同一个多次入网用户。例如,可以筛选出交往号码重合率大于50%的记录,其中的用户为多次入网用户。在本发明实施例中,采用同一的公式计算交往号码的重合率,然后将计算结果进行筛选,计算公式的选取可以有多种,不构成对本发明实施例的限定。根据步骤803中所列的计算结果,可以认定X和A属于同一个多次入网用户,Y和B属于同一个多次入网用户。使用上述步骤801-803的方法计算新老用户交往号码重合率,计算次数降低为(M+N)*k^2次(其中k为单个用户的交往号码个数,k<<M),相对于现有技术中的计算次数大幅减少,而且采用分组并行的计算方式,能够通过水平方式灵活地扩展计算资源,从而更进一步减少计算时间。图9所示为本发明一个实施例提供的多次入网用户的判断装置结构示意图,用以执行前述实施例中公开的多次入网用户的判断方法。如图所示,包括统计模块901、分组模块902以及计算模块903。其中,统计模块901用于对于第一计费周期内的每一用户,统计该用户的交往记录,其中,该交往记录中记录有依照预设规则排序的该用户在第一计费周期内的交往号码;还用于,对于第二计费周期内相对于第一计费周期新增的每一用户,统计该用户的交往记录,其中,该交往记录中记录有依照前述预设规则排序的该用户在第二计费周期内的交往号码;其中,第二计费周期与第一计费周期之间间隔一个或一个以上的计费周期。统计模块901统计用户的交往记录,具体包括:提取用户的通话记录,其中包括该用户的用户号码以及至少一个对端号码;过滤无效的通话记录;计算过滤后的通话记录中的各个对端号码与该用户号码的交往指数;提取计算所得的交往指数大于预定阈值的对端号码作为该用户的交往号码,以构成该用户的交往记录。分组模块902用于合并统计模块901统计得到的所有交往记录中的交往号码,作为分组号码的集合,针对该集合中的每一个分组号码,在统计得到的所有交往记录中,查找包含该分组号码的交往记录,以生成对应该分组号码的交往记录分组;计算模块903用于对于分组模块902生成的每一个交往记录分组,执行以下步骤:提取该分组中的每一条交往记录,作为待比对的交往记录,计算待比对的交往记录中的交往号码与该交往记录分组中每一符合预设条件的交往记录中的交往号码的重合率,其中,符合预设条件的交往记录为,该交往记录所属计费周期与待比对的交往记录的所属计费周期不同,且该交往记录与待比对的交往记录内同时包含的交往号码中,依照前述预设规则排在第一位的交往号码为该交往记录分组所对应的分组号码;对于算得的每一重合率,当该重合率大于预设阈值时,认定该重合率所对应的两条交往记录所属的用户为同一多次入网用户。通过本实施例提供的多次入网用户的判断装置,采用用户的交往记录作为比对的基础,提高了多次入网用户的判断精度。在计算时,将用户的交往记录进行分组,各组交往记录之间相对独立。这样就可以在各分组内独立地计算新老用户的交往号码重合率,有效地减少了无效比对的次数,大幅提高计算效率。图10描述了本发明另一个实施例提供的多次入网用户的判断装置的硬件架构图,包括至少一个处理器1001(例如CPU),至少一个网络接口1002或者其他通信接口,存储器1003,和至少一个通信总线1004,用于实现这些装置之间的连接通信。处理器1001用于执行存储器1003中存储的可执行模块,例如计算机程序。存储器1003可能包含高速随机存取存储器(RAM:RandomAccessMemory),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。通过至少一个网络接口1002(可以是有线或者无线)实现该系统网关与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。在一些实施方式中,存储器1003存储了程序指令,程序指令可以被处理器1001执行,其中,程序指令包括统计模块901、分组模块902和计算模块903。其中,各模块的具体实现参见图9所揭示的相应模块,这里不再累述。通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可以用硬件实现,或固件实现,或它们的组合方式来实现。当使用软件实现时,可以将上述功能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于:计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。此外。任何连接可以适当的成为计算机可读介质。例如,如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线(DSL)或者诸如红外线、无线电和微波之类的无线技术从网站、服务器或者其他远程源传输的,那么同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线和微波之类的无线技术包括在所属介质的定影中。如本发明所使用的,盘(Disk)和碟(disc)包括压缩光碟(CD)、激光碟、光碟、数字通用光碟(DVD)、软盘和蓝光光碟,其中盘通常磁性的复制数据,而碟则用激光来光学的复制数据。上面的组合也应当包括在计算机可读介质的保护层级之内。总之,以上所述仅为本发明技术方案的较佳实施例而已,并非用于限定本发明的保护层级。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护层级之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1