基于Gompertz函数的异网用户数预测方法

文档序号:7899288阅读:695来源:国知局
专利名称:基于Gompertz函数的异网用户数预测方法
技术领域
本发明涉及数据挖掘领域,特别涉及一种基于Gompertz函数的异网用户数预测 方法。
背景技术
随着中国电信业重组和3G时代的来临,国内各大电信运营商之间的竞争日趋激 烈。为了立于不败之地,则需“知己知彼”,及时获取并预测竞争对手的情报(如市场占有率 和用户数等),以采取积极有效的应对措施和针对性营销策略,将是电信业 务经营决策者面 临的迫切问题之一。因此,竞争对手的预测分析成为制定其经营决策不可或缺的依据之一。客户生命周期又称为客户关系生命周期,是指客户关系水平随时间变化的发展轨 迹,即从一个客户开始对企业进行了解或企业欲对某一客户进行发展开始,直到客户与企 业的业务关系完全终止且与之相关的事宜完全处理完毕的时间段,直观地揭示了客户关系 发展从一种状态向另一种状态的阶段特征。根据移动业务客户关系的特点,其客户生命周期可以划分为四个阶段,即导入期、 成长期、成熟期和衰退期(包括衰退前期和衰退后期),如图1所示。导入期指客户初入市场,销售缓慢增长的时期。成长期客户价值和利润大量增加的时期,其标志是销售迅速增长。在需求迅速增 长的同时,客户价值维持不变或略有下降。销售的高速上升使促销费用对销售额的比率不 断下降。成熟期客户价值达到某一点后开始放慢增长速率,进入相对成熟的稳定阶段。这 一阶段的持续期一般长于前两个阶段,客户价值增长的减慢使得整个行业中竞争加剧,频 繁使用降价方法销售,同时增加广告费用等成本。衰退期大多数客户最终会衰退,这种衰退或许缓慢,或许很迅速。销售可能会下 降到零,或者可能在一个低水平上持续多年。衰退的原因很多,包括技术升级和竞争加剧 等,所有这些都会导致生产能力过剩、削价竞争和利润被侵蚀。移动业务客户生命周期曲线的拟合可采用多种函数,如多项式增长函数、简单指 数、修正指数、Logistic和Gompertz函数等。其中,多项式增长函数和简单指数没有上 限,即不能达到饱和,与移动业务的实际情况不符;修正指数虽然能达到饱和,但不能满足 客户生命周期理论,即没有导入、成长、成熟和衰退的过程;Logistic和Gompertz函数均 能较好地拟合客户生命周期曲线,而Gompertz函数在增长后期的区间增量是其在增长前 期的四倍,符合实际情况,并且利用最小二乘法计算拟合误差,Gompertz函数的误差要比 Logistic函数的误差小,故Gompertz函数是首选。Gompertz函数广泛应用于经济学、人口统计学、种群生态学、医学、生理学、遗传 学、化学和林学等许多领域,例如在经济学领域中,应用于市场预测等。Gompertz函数是一种双指数函数,由英国统计学家和数学家Benjamin Gompertz提出。设Gompertz函数为=kab',其中k是指标值的极限值,a是指标值的增长速率,b 是指标达到最大增长速率的时间点。根据a、b取值的不同,Gompertz曲线具有四种不同类 型,根据其分段特性,可以拟合出移动业务客户生命周期的四个阶段。即(1)当 a > l,b > 1 时,(Igyt) ‘ > 0,(Igyt) “ > 0,Igyt 和(Igyt)‘均是增函数, 增长曲线yt是凹的,即指标值随着t的增加而增加。符合客户生命周期中导入期的变化趋 势。(2)当 O < a < 1,0 < b < 1 时,(Igyt) ‘ > 0,(Igyt) 〃< 0,Igyt 是 t 的增函数, 但(Igyt) ’是t的减函数,增长曲线yt是凸的,即指标值yt虽然随着t的增加仍然保持增 长趋势,但增长的速度却在下降。当t—c 时,达到一个极限值k。其特性符合客户生命周 期中成长期和成熟期的变化趋势。
(3)当 O < a < l,b > 1 或 a > 1,0 < b < 1 时,均有(Igyt) ‘ <0,yt 呈负增长, 符合客户生命周期中衰退期的变化趋势。Gompertz函数可以较好地拟合生物群体的生长,如人口的增加、细胞的繁殖和客 户的增加等,本质上揭示了生命周期的发展变化规律,即初始阶段数量增长较慢,发展阶段 增长逐渐加快,到达成熟阶段后增长速度减慢并且逐渐趋于极值,并最终进入衰退期的变 化规律。在移动业务新推出的初始阶段,一般用户数较少,随后用户数不断增加;当市场达 到饱和后,用户数的增长明显减缓;最后随着市场竞争的加剧,用户可能因发现其他更满意 的产品而离网,导致用户数减少,即原来保有的用户会受到影响而存在离网的风险。通过 对移动业务大量历史沉淀数据的深入分析,发现其客户生命周期具有较明显的指数增长趋 势,与Gompertz曲线相吻合。利用Gompertz函数,通过对本网与异网移动业务用户网间通 话数据的深入分析和挖掘,拟合异网移动业务用户的生命周期曲线,进一步动态、准确地预 测异网用户数。

发明内容
为了既能识别异网移动业务用户的生命周期,又能动态、准确地预测异网用户数, 本发明提供了一种基于Gompertz函数的异网用户数预测方法,所述方法包括如下步骤步骤101,获取最近连续数月与本网的移动业务用户进行通话的异网移动业务用 户数的时间序列集Y;步骤102,利用差分法对所述时间序列集Y中的每一值yt (当月与本网移动业务用 户进行通话的异网用户数)计算lgdgyt-lgyt-i),并进行判定。如果为线性变化,则可利用 Gompertz函数拟合客户生命周期曲线;否则,Gompertz函数不适用;步骤103,利用三和法对所述时间序列集Y进行Gompertz函数拟合。首先分别计 算参数k、a和b的估值,并设置为初始值,其中k是指标值的极限值,a是指标值的增长速 率,b是指标达到最大增长速率的时间点;然后利用最小二乘法进行拟合迭代,获得一组显 著性较好的参数值k、a和b,拟合出客户生命周期曲线;最后根据其参数取值,判定所处客 户生命周期的不同阶段,若a > l,b > 1处于导入期;若O < a < 1,0 < b < 1处于成长期 和成熟期;若O < a < 1,b > 1处于衰退前期;若a > 1,0 < b < 1处于衰退后期;步骤104,求解拟合的客户生命周期曲线的拐点,预测异网用户数;客户生命周期拟合曲线的拐点(tQ,yQ) = (ln(-lna)/-lnb,ka' Λ),其中,a' =-lnb,tQ和yQ分别表示 拟合曲线的拐点所对应的横、纵坐标值。令y = ka' /2,则={ka/2),利用此方程可以 求解拟合曲线拐点的横坐标值、,即 由于 ti < t0 < t2, t0 = (、+、)/2,平移坐标系使 ti = 0,贝丨J t2 = 2t0。步骤105,修正预测结果。由于以上仅考虑了本网与异网进行通话的用户群, 而本 网还有少数用户未与异网用户通话。类似地,这种情况也存在于异网中。虽然,这类用户数 占本网和异网全部用户数的比例很少,但为了提高预测准确率,针对这类用户应予以考虑。 设y'为时间点t'本网的用户总数,λ为当月未与异网用户进行通话的本网用户数占本 网在网用户总数的比值(地域不同则该值不同),A为待预测的当月异网用户数,利用公式 A = y' /(I-Ay')获得修正后的预测结果Α。在本发明中,步骤103利用三和法对所述的时间序列集Y拟合Gompertz函数的过 程中,三和法的步骤为判断时间序列集Y的样本个数,若不是3的倍数,则舍弃其最前面的样本使之满足 是3的倍数;将样本平均分为三部分,其中每一部分的样本个数为η,分别对每一部分的η个样 本求和;进一步得到参数k、a和b的计算公式,做为拟合的Gompertz函数的参数估计公 式。采用本发明的技术方案,利用数据挖掘技术,将客户生命周期和Gompertz函数有 机融合,通过对本网与异网移动业务用户网间通话数据的深入分析和挖掘,既可以识别异 网移动业务用户的生命周期,又可以动态、准确地预测异网用户数。


图1是本发明实施例1中提供的移动业务客户生命周期曲线。图2是本发明实施例1中提供的基于Gompertz函数的异网用户数预测方法的流 程图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。实施例1本实施例提供一种基于Gompertz函数的异网用户数预测方法,该方法利用数据 挖掘技术将客户生命周期和Gompertz函数有机地结合,通过对本网与异网移动业务用户 网间通话数据的深入分析和挖掘,既可识别异网用户的生命周期,并动态、准确地预测异网 用户数。
设Gompertz函数为= kah',其中k是指标值的极限值,a是指标值的增长速率,b是指标达到最大增长速率的时间点。根据参数a和b取值的不同,Gompertz曲线具有四种 不同类型,根据函数分段特性,可以拟合出移动业务客户生命周期的四个阶段。通过观察a、 b和k值的变化,实现客户生命周期不同阶段的理论估计,即当a > 1,b > 1处于导入期; 当0<a<l,0<b<l处于成长期和成熟期;当O < a < 1,b > 1处于衰退前期;当a > 1,0 < b < 1处于衰退后期。Gompertz曲线的变化特征是Ig(Igyt-IgyH)为t的线性 函数。在本发明中,应考虑Ig(Igyt-IgyH)是否大致相等。若大致相等,则可以采用 Gompertz函数拟合移动业务的客户生命周期,并动态地预测异网用户数;否则,Gompertz 函数不适用。如图2所示,本实施例所述方法的具体步骤如下步骤101 获取如下数据1)某省最近连续200个月与异网(中国移动)移动业务用户进行通话的本网移动 业务用户数;2)某省最近连续200个月与本网(中国联通)移动业务用户进行通话的异网移动 业务用户数。步骤102 计算200组样本的Ig(Igyt-Igyw),其中后30组的Ig(Igyt-Igyw)值 大致相等,接近一个常数(如表1所示),可利用Gompertz函数拟合客户生命周期曲线。表 1No. (Igyt-Igyw) No. (Igyt-Igyw)1 0. 00583116 0. 0053622 0. 005797 17 0. 0053333 0. 005764 18 0. 0053054 0. 00573119 0. 0052775 0. 005698 20 0. 0052496 0.005666 21 0.0052227 0.005634 22 0.0051958 0.005602 23 0.0051689 0. 005571 24 0. 00514110 0.0055425 0. 00511511 0.0055126 0.00508912 0.005479 27 0.00506313 0.0054528 0.00503814 0.0054229 0. 00501215 0. 005391步骤103 选取后30组样本,利用三合法进行拟合,经过最小二乘法迭代得到拟合 的Gompertz函数,获得一组显著性较好的参数k、a和b,分别是k = 18644816. 57532438、 a = 0. 85458996和b = 0. 99120191。根据0 < a < 1,0 < b < 1,则判定异网用户处于生 命周期的成长期或成熟期。
利用三合法拟合Gompertz函数的具体步骤为1)分别对Gompertz函数两边取对数得到Igyt = lgk+b^ga,设是最近连续数月与 本网的移动业务用户进行通话的异网移动业务用户数的时间序列集,如果Y中样本个数不 是3的倍数则舍弃最前面的样本使之满足是3的倍数。2)将Y中样本平均分为三部分,其中每一部分的样本个数为n,分别对每一部分的 η个样本求和。对第一段的η个样本求和,即
其中 t = 1,2,· ·.,η 公式(1)

利用同样方法获得另外两段样本之和,即
其中 t = η+1,η+2,· · ·,2n 公式(2)
其中 t = 2η+1,2η+2,· · ·,3n 公式(3) 3)获得参数k、a和b的计算公式,做为拟合的Gompertz函数的参数估计公式。将 公式(2)和公式⑴相减,公式(3)和公式(2)相减,分别是 公式(5)和公式(4)相除,得到 故
公式⑵同理,由公式(4)可解得igfl = (X2Ig少,-X,ig.y,二j)2 公式(8)故^ =公式(9)由公式(1)可解得Igb 丄 少公式 “O)故, 1Λ如1队-lga^f)公式(11)
步骤104:求解拟合的客户生命周期曲线的拐点,该拐点对应的横坐标值tQ = 13693348即为预测的异网用户数。步骤105 修正预测结果。某省当月与异网进行通话的本网用户数是7094718,某 省当月本网用户总数是7745764,当月未与异网进行通话的本网的用户数占当月本网在网 用户总数的比例是0. 084,即λ = 0. 084,利用公式A = y' /(I-Ay')获得修正后的某 省当月异网用户数的预测值A = 21052700,而某省当月异网的实际用户数为24423012,预 测准确率达86. 2%。实施例2本实施例描述了实现基于Gompertz函数的异网用户数预测方法的计算机程序流 程,本例中取M = 200,N = 30,具体步骤如下步骤201 获取如下数据1)某省最近连续M个月与异网移动业务用户进行通话的本网移动业务用户数;2)某省最近连续M个月与本网移动业务用户进行通话的异网移动业务用户数。步骤202 计算M组样本的lgagyt-lgyj ;如果结果大致相等,即接近一个常数,则适用Gompertz函数;否则不适用 Gompertz函数,退出程序。步骤203 选取后N组样本,利用将它们平均分为三部分,其中每一部分的样本个 数为n,分别对每一部分的η个样本求和;第一段的η个样本之和为^
σ-1利用同样方法获得第二段和第三段样本之和分别为 步骤204 计算参数k、a和b的估计值,即 步骤205 利用最小二乘法进行Gompertz函数的拟合迭代,获得一组显著性较好 的参数k、a和b,根据参数a和b的取值,判断客户生命周期的不同阶段;如果a> l,b> 1处于导入期;如果0 < a < 1,0 < b < 1处于成长期和成熟期;如果0 < a < 1,b > 1处于衰退前期;
如果a> l,0<b< 1处于衰退后期。步骤206 求解拟合的客户生命周期曲线的拐点对应的横、纵坐标值(、,y0)= (In Hna)/-lnb, ka' /2),获得异网用户数的预测值,即 步骤207 禾Ij用公式A = Vi(I-Xtci)获得修正后的异网用户数的预测值A,本例中 λ=当月未与异网进行通话的本网的用户数占当月本网在网用户总数的比值。本发明具有如下优点1.准确性高因为其原理,采用三合法和最小二乘法,使得实际值与预测值的误 差较小,预测准确;2.动态性因为引入Gompertz函数,拟合的Gompertz函数的拐点将随着移动业 务实际情况的不断变化而变化,预测结果是动态变化的。随着本网与异网网间通话行为的 改变,可以实现动态预测异网用户数;3.实用性强可以清晰地识别异网移动业务用户生命周期的不同阶段,以了解其 价值潜力,为后继制定精细化、个性化的市场营销策略提供科学的依据。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
基于Gompertz函数的异网用户数预测方法,其特征在于,所述方法包括如下步骤步骤101,获取最近连续数月与本网移动业务用户进行通话的异网移动业务用户数的时间序列集Y;步骤102,利用差分法对所述时间序列集Y中的每一值yt(当月与本网移动业务用户进行通话的异网用户数)计算lg(lgyt-lgyt-1),并进行判定。如果为线性变化,则可利用Gompertz函数拟合客户生命周期曲线;否则,Gompertz函数不适用;步骤103,利用三和法对所述时间序列集Y进行Gompertz函数拟合。首先分别计算参数k、a和b的估值,并设置为初始值,其中k是指标值的极限值,a是指标值的增长速率,b是指标达到最大增长速率的时间点;然后利用最小二乘法进行拟合迭代,获得一组显著性较好的参数k、a和b,拟合出客户生命周期曲线;最后根据其参数取值,判定客户生命周期的不同阶段,若a>1,b>1处于导入期;若0<a<1,0<b<1处于成长期和成熟期;若0<a<1,b>1处于衰退前期;若a>1,0<b<1处于衰退后期;步骤104,求解拟合的客户生命周期曲线的拐点,预测异网用户数。计算客户生命周期拟合曲线的拐点(t0,y0)=(ln(-lna)/-lnb,ka′/2),其中,a′=-lnb,t0和y0分别表示拟合曲线的拐点所对应的横、纵坐标值。令y=ka′/2,则kab′=(ka′/2),利用此方程可以求解拟合曲线拐点的横坐标值t0,即 <mrow><msub> <mi>t</mi> <mn>0</mn></msub><mo>=</mo><mfrac> <mrow><mi>ln</mi><mrow> <mo>(</mo> <mfrac><mrow> <mi>ln</mi> <mrow><mo>(</mo><mo>-</mo><mfrac> <mrow><mi>ln</mi><mi>b</mi> </mrow> <mn>2</mn></mfrac><mo>)</mo> </mrow></mrow><mrow> <mi>ln</mi> <mi>a</mi></mrow> </mfrac> <mo>)</mo></mrow> </mrow> <mrow><mi>ln</mi><mi>b</mi> </mrow></mfrac> </mrow>由于t1<t0<t2,t0=(t1+t2)/2,平移坐标系使t1=0,则t2=2t0。步骤105,修正预测结果。由于以上仅考虑了本网与异网进行通话的用户群,而本网还有少数用户未与异网用户通话。类似地,这种情况也存在于异网中。虽然,这类用户数占本网和异网全部用户数的比例很少,但为了提高预测准确率,针对这类用户应予以考虑。设y′为时间点t′本网的用户总数,λ为当月未与异网用户进行通话的本网用户数占本网在网用户总数的比值(地域不同则该值不同),A为待预测的当月异网用户数,利用公式A=y′/(1-λy′)获得修正后的预测结果A。
2.根据权利要求1所述的基于Gompertz函数的异网用户数预测方法,其特征在于,步 骤103中利用三和法对所述的时间序列集Y拟合Gompertz函数的过程中,三和法的步骤 为判断时间序列集Y的样本个数,若不是3的倍数,则舍弃其最前面的样本使之满足是3 的倍数;将样本平均分为三部分,其中每一部分的样本个数为n,分别对每一部分的n个样本求和;进一步得到参数k、a和b的计算公式,做为拟合的Gompertz函数的参数估计公式。
全文摘要
基于Gompertz函数的异网用户数预测方法,属于数据挖掘领域。为了既能识别异网移动业务用户的生命周期,又能动态地预测异网移动业务的用户数,本发明公开了一种基于Gompertz函数的异网用户数预测方法,具体包括获取本网和异网移动业务用户网间通话行为的数据;然后利用Gompertz函数拟合异网移动业务用户的生命周期曲线,根据拟合结果识别异网移动业务用户生命周期的具体阶段;最后动态地预测异网移动业务用户数。本发明利用数据挖掘技术,将客户生命周期和Gompertz函数有机地融合,通过对本网与异网移动业务用户网间通话数据的深入分析和挖掘,既可以识别异网移动业务用户的生命周期,又可以动态、准确地预测异网用户数。
文档编号H04W24/00GK101867955SQ20101911408
公开日2010年10月20日 申请日期2010年3月1日 优先权日2010年3月1日
发明者郑岩 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1