1.一种基于glove模型的移动终端信令轨迹相关性表示方法,其特征在于,包括:
步骤1采集移动终端信令数据,通过数据预处理消减重复、乒乓、漂移等噪声效应;
步骤2构建位置网格映射表,将移动终端信令序列转换为网格转移序列,构建网格转移序列集;
步骤3基于网格转移序列集,训练glove模型,得到网格嵌入矩阵,并基于时长加权平均计算出任意网格转移序列的嵌入表达向量;
步骤4计算任意两段网格转移序列的嵌入表达向量的相似度,得到移动终端信令轨迹的相关性。
2.根据权利要求1所述基于glove模型的移动终端信令轨迹相关性表示方法,其特征在于,所述步骤1包括:
步骤1.1采集在重点关注区域出现的移动终端的信令数据,持续时长不少于2个月,信令数据中包括六个基本字段信息:移动终端编号、信令发生时间、位置区码、蜂窝小区编号、基站经度坐标、基站纬度坐标;
步骤1.2整行删除信息不完整的信令数据,根据移动终端编号,对每个移动终端的信令按照时间先后排序,得到每个移动终端的信令序列,移动终端j的信令序列记为sj:
sj={(tj,0,lngj,0,latj,0),…,(tj,k,lngj,k,latj,k),…}
其中,tj,k,lngj,k,latj,k分别为信令发生时间,基站经度坐标、基站纬度坐标;
步骤1.3基于滑动时间窗口w1对移动终端信令序列进行平滑处理,窗口宽度为tw,滑动偏移量为ts,即分别对时间窗内的信令序列的信令发生时间、基站经度坐标、基站纬度坐标求均值,得到平滑处理后的移动终端信令序列,其目的是消减由于复杂电磁环境引起的重复、乒乓、漂移等噪声效应,平滑处理后的移动终端j的信令序列记为
其中
3.根据权利要求1所述基于glove模型的移动终端信令轨迹相关性表示方法,其特征在于,所述步骤2包括:
步骤2.1构建位置网格映射表,将移动终端信令序列中的轨迹点映射到具有一定空间覆盖度的网格,其目的是在一定程度上减小基站的信号覆盖效应带来的固有偏差,有效压缩位置变量的分布空间,分为两种情形:在城区内,基站部署密度高,采用半径r米的正六边形蜂窝网格覆盖;在郊区,基站部署密度相对较低,利用dbscan聚类算法将基站覆盖位置合并为较大尺度的不规则网格覆盖,在构建的位置网格映射表中,网格总数为n,网格gi记为:
gi=(center_lngi,center_lati)
其中center_lngi,center_lati分别表示网格中心的经度坐标和纬度坐标;
步骤2.2将移动终端信令序列转换为网格转移序列,构建网格转移序列集,根据位置网格映射表,将平滑处理后的移动终端信令序列中每个轨迹点,基于最近邻原则映射为最近的网格gi,计算公式为:
从而得到以网格索引号表示的网格转移序列,例如,移动终端j的网格转移序列可表示为:
4.根据权利要求1所述基于glove模型的移动终端信令轨迹相关性表示方法,其特征在于,所述步骤3包括:
步骤3.1基于预定义网格宽度窗口w2,遍历所有网格转移序列,构建网格共现矩阵c,其中n为网格总数,元素ci,j表示在所有网格转移集中,网格j出现在以网格i为中心的网格宽度窗口w2内的次数:
步骤3.2采用随机梯度下降法训练glove模型,通过最小化网格i和j的目标函数j(v1,v2,…,vn),分别得到n个网格的嵌入表征向量
其中,vi,vj的长度为嵌入维度e,权重函数f(cij)的形式为:
步骤3.3对于任意长度网格转移序列的嵌入表达向量,计算出不同网格的权重。不妨设网格转移序列的长度为k+1,则前k个网格的时长权重计算公式为:
式中
步骤3.4结合网格嵌入矩阵gride=(v1,v2,…,vn)t和k+1个网格的时长权重
从而,可以计算出任意网格转移序列的嵌入表达向量,其长度为嵌入维度e。
5.根据权利要求1所述基于glove模型的移动终端信令轨迹相关性表示方法,其特征在于,所述步骤4包括:
计算任意两段网格转移序列的嵌入表达向量vs1,vs2的余弦相似度:
或者明氏距离相似度:
当p=1时是曼哈顿距离,p=2时是欧氏距离,p为无穷大时是切比雪夫距离,最终计算得到的相似度,即为移动终端信令轨迹的相关性。