本发明属于人口预测技术领域,涉及一种区域动态人口数量的预测方法,具体涉及一种基于手机位置时空转移概率的基站服务人数时序预测方法。
技术背景
比较在大范围开放区域人口预测方面的两种传统方法,都是基于时间序列相关理论演化而来的,第一种方法是移动平均法,另一种是ARIMA方法。前者根据时间序列,逐项推移,依次计算包含一定项数的序时平均数,以此进行预测的方法,但是移动平均法没有考虑空间因素对人群移动行为的影响,此外突发事件也会对预测结果产生比较大的影响;第二种方法,是基于ARIMA模型,对人口数量进行预测,但是该方法中的一个前提假设是研究范围内的人口总数保持稳定,而实际上城市内人口流动性较大,无法保证研究区域的人数处于相对稳定的状态,因此这种方法也难以对区域内不同时间段内的人群数量进行准确的预测。
技术实现要素:
为了解决上述技术问题,本发明考虑人群移动特点,结合贝叶斯定理和马尔科夫链的特征,提出了一种针对手机基站服务范围内手机用户人数的预测方法。
本发明所采用的技术方案是:一种基于手机位置时空转移概率的基站服务人数时序预测方法,其特征在于,包括以下步骤:
步骤1:利用手机时空轨迹数据计算相等时间段内手机基站服务区域内的人数总量;
步骤2:利用手机时空轨迹数据,将人群移动轨迹进行分割,计算研究区域中,计算相邻时间段内各个基站之间来往的人数;
步骤3:基于贝叶斯以及马尔科夫链的相关理论,根据历史数据,计算当前时刻目标基站内手机用户在下一时刻内出现在各个基站的转移概率;
步骤4:计算不同时间段间,每个目标基站范围内手机用户向各个基站的转移概率,从而构建出研究区域内完整的时空转移概率矩阵;
步骤5:利用完整的时空转移概率矩阵,预测人群总数相对稳定的研究区域内手机基站范围内服务人数。
本发明根据当前时段每个手机基站范围内用户数量预测下一时段各个基站的服务范围内手机用户数量。该方法为城市内通讯资源的配置、人群移动预测预警提供了一种更加准确有效的解决方案。与传统的区域内人数预测方法相比,该方法具有两大突出优势:考虑区域间人群流动的时空特性;考虑研究区域内手机用户数的动态变化。为了使预测结果更加贴近实际情况,提升预测的准确程度和稳定性,在马尔科夫链以及贝叶斯定理的理论支撑下,方法尝试充分利用海量手机用户位置数据,结合贝叶斯定理和马尔科夫链的无后效性,从群体角度提出一种的基于手机位置时空转移概率的基站服务人数预测方法。为解决原始模型中有关研究区域内人口总数保持稳定的条件与城市人口总数动态变化不相符合的实际情况,方法结合历史数据,利用当前时段各个基站范围内用户总数对下一时段人口总数进行预测,并对变化的用户数进行动态分配,从而优化原有的预测方法。因此,本发明具有如下优点:数据获取成本较低,模型结构简单,预测准确率能够达到95%以上,在实际的生产生活中有很强的使用价值。
附图说明
附图1:是本发明实施例的完整流程。
附图2:是本发明实施例所涉及到区域人群预测方法与移动平均法和Castro方法在准确率方面的比较。
附图3:是本发明实施例所涉及到的方法与其他2种方法准确率的分布情况。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于手机位置时空转移概率的基站服务人数时序预测方法,包括以下步骤:
步骤1:利用手机时空轨迹数据计算相等时间段内手机基站服务区域内的人数总量;
步骤2:利用手机时空轨迹数据,将人群移动轨迹进行分割,计算研究区域中,计算相邻时间段内各个基站之间来往的人数;
步骤3:基于贝叶斯以及马尔科夫链的相关理论,根据历史数据,计算当前时刻目标基站内手机用户在下一时刻内出现在各个基站的转移概率;
步骤4:计算不同时间段间,每个目标基站范围内手机用户向各个基站的转移概率,从而构建出研究区域内完整的时空转移概率矩阵;
步骤5:利用完整的时空转移概率矩阵,预测人群总数相对稳定的研究区域内手机基站范围内服务人数。
本实施例中基站服务人数的时序预测将贝叶斯理论和马尔可夫链的无后效性结合起来,计算了基站间的时空转移概率。运用贝叶斯理论从历史手机轨迹数据中获得当前状态为li,下一时段位置为lj的时空转移概率假设城市区域总人数基本保持不变,按照一定的时间间隔划分时段,统计各时段的基站服务人数,计算基站手机用户的时空转移概率矩阵Pt,如公式(1)构建手机用户人数预测模型。用当前时段的各个基站服务人数和转移概率矩阵Pt对下一时刻的各基站服务人数N_predictt+1进行预测。
N_predictt+1=Pt×Nt (1)
其中:Pt为时段t的转移概率矩阵,并且满足Nt为t时段各基站区域的用户人数。
现实中由于存在城市间的人口流动、手机开关机,区域手机用户人数不断变化。针对模型的假设,本发明利用历史数据对原始预测模型进行改进,以提升在人数变化幅度较大的时间段内的预测准确率。从预测模型与实际情况的差异看,引起预测结果发生偏差的主要原因是研究区域内总体人数的变化。因此,本发明主要针对相邻时间段的基站服务人数波动,利用训练数据对原始模型进行改进,主要有以下两个改进点:
(1)利用训练数据,统计各时段基站服务人数,计算相邻时段基站服务人数的变化值ΔNt→t+1。
利用历史数据,对模型进行训练。计算相邻时段的基站服务人数变化量ΔNt→t+1,根据最大值和最小值平均分为n个状态区间[ai,bi],统计(具体到某一天,t时段到t+1时段基站服务人数的变化量)在各个区间[ai,bi]的概率pi,按照公式(2)对区间的均值进行加权平均得到ΔNt→t+1。
其中,
(2)改进转移概率矩阵,并用改进后的转移概率矩阵对ΔNt→t+1进行分配。
用(1)中相同的方法由实验训练数据的t时段和t+1时段的转移概率矩阵Pt,Pt+1计算ΔPt→t+1,进行模型训练,得到更加贴近实际的转移概率矩阵Pt'。然后对时段t+1增加的人数分配到各个基站,得到t+1时段各基站服务人数的预测值。
Pt'=Pt+ΔPt→t+1 (3)
N_predictt+1=Nt+ΔNt→t+1*Pt' (4)
本实施例根据湖北省某市2015年8月10日至2015年9月27日长达7周的手机用户的手机位置更新数据,利用前30天的手机位置更新数据统计基站服务人数和基站间的流量信息,对模型进行训练,对后面4天每个时段基站范围服务人口总数进行预测。
(1)对每天的手机轨迹数据,在数据库中查找各时段(如9点到9点59)轨迹数据中的用户ID个数。
(2)逐个用户ID搜索时段内该用户的轨迹记录,按照TIME字段依次记录相邻轨迹记录反映出的位置变动。
(3)对于同一用户同时段连续两条条及以上轨迹记录对应同一位置的情况,只保留相邻记录中的第一条记录和最后一条记录。
(4)对该时段内所有用户的位置变动进行搜索,统计有相同位置变动的ID个数,记为位置间流量。
(5)对每个位置,从某一时段的流量文件中,获取位置流向不同位置的流量counti,j,计算基站i的总流出量
(6)按公式计算不同时段,人群在向各个位置的概率在手机基站位置文件中查找流量文件中的对应的位置编号,确定转移概率对应的行列号,存入转移概率矩阵P。
上式中表示t时刻,由基站范围i向基站范围j的转移概率;表示由基站范围i向基站范围j移动总人数。表示从i基站范围,向其他各个基站范围移动总人数。
(7)利用工作日的数据计算相邻时段的基站服务人数变化量ΔNt→t+1,将其划分为4个状态区间[ai,bi],统计在不同区间的概率作为马尔科夫链的转移概率pi,以pi为权,对区间的均值进行加权平均得到ΔNt→t+1。
(8)用(7)中相同的方法由前10天的时段t和时段t+1的转移概率矩阵Pt,Pt+1计算ΔPt→t+1,进行模型训练,得到更加贴近实际的转移概率矩阵Pt'。然后对时段t+1增加的人数分配到各个基站,得到t+1时段各基站服务人数的预测值。
Pt'=Pt+ΔPt→t+1
N_predictt+1=Nt+ΔNt→t+1*Pt'
以下对本实施例的预测结果进行分析与比较;
为了方便评价不同基站服务人数预测的准确率,按照公式(10)利用预测准确度Ri,t来评价不同时段各基站服务人数预测的准确性。
其中,Ni,t和依次表示时间段t基站i的服务人数的真实值和预测值。
每个时间段,所有的基站都会求得一个预测准确度。为了更好地评价每个时间段基站服务人数预测的准确率,实验统计该城市所有基站的预测准确度R的平均值,中位数用来评价方法的准确性,用四分位数之差(3Q-1Q)来评价模型的稳定性。
在这样的评价标准下,将本发明所涉及的时空转移概率方法与Castro的模型预测以及基于时间序列的移动平均法三种方法进行基站服务人数预测准确率的对比。如图2所示,本发明提出的时空转移概率方法对基站服务人数的预测准确率高于95%。
图3中图(a)(b)(c)表示三种方法对应的基站服务人数预测准确率的箱图,红色的小圆表示异常值即与准确率与1Q距离超过1.5倍的四分位数之差(Q3-Q1)的基站。四分位数之差(Q3-Q1)主要用于测度各种方法预测准确率的离散程度,如表1,本发明提出的时空转移概率预测模型对不同基站的预测准确率的四分位数之差明显小于其他两种方法,说明本发明的预测方法对不同基站服务人数的预测具有很好的稳定性和适用性。从箱图的主体部分,时空转移概率方法可以覆盖93.1%的数据,Castro模型覆盖93.0%的数据,移动平均法覆盖99.2%的数据。相对移动平均法来说,时空转移概率模型异常值相对较多,但是从异常值的分布来看,时空转移概率模型的异常值集中在0.7-0.8之间,Castro的模型则集中在0.6-0.75之间,移动平均法的异常值准确率低于50%。
如表1所示,对比3种方法预测准确率的平均数、中位数,不难发现实验发现本发明提出的时空转移概率方法在一天的多个时段预测准确率都保持较高水平。平均预测准确率达到95%。相较于Castro的模型,在人数波动较大的8点和19~21点时段,运用前6周工作日手机数据进行训练之后,模型准确率大大提高。从时间序列角度出发的移动平均法整体上的平均预测准确率只有79.79%,在不同时段准确率的波动较大,对于手机用户人数变化较大的时段预测准确率很低。主要是由于移动平均法是一种常用的时间序列预测方法,该方法受历史数据的影响很大,没有考虑结合基站之间的人群流动的时空特性,当基站服务人数出现突增突减时,预测准确率明显降低。相比之下,本发明提出的时空转移概率预测模型考虑时空特征,定量化描述人群移动,对基站服务人数进行更加准确的预测。
表1本发明所涉及到的方法与其他2种方法在均值、中值以及4分位数方面的比较表
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。