一种基于GloVe模型的移动信令轨迹相关性表示方法与流程

文档序号:24888686发布日期:2021-04-30 13:13阅读:87来源:国知局
一种基于GloVe模型的移动信令轨迹相关性表示方法与流程
本发明属于基于位置的服务(locationbasedservices,lbs)领域,具体涉及一种基于glove模型的移动终端信令轨迹相关性表示方法。
背景技术
:移动终端信令数据是一种人类电子足迹数据,其中蕴含着丰富的时空信息,通过分析移动终端信令数据,可以发现移动对象的行为特性、活动规律、兴趣偏好等时空模式,进而为基于位置的服务提供支持。常见的基于移动终端信令的位置服务包括:重点人群监测、公共安全、靶向预警、商业选址、城市空间品质分析、交通规划与路网优化等。移动终端信令数据的采集依托三大运营商建立的信令监测平台,记录了手机与基站之间的信令数据交换;触发信令数据交换有两种方式,一是通话、短信、上网、区间切换等主动行为,形成的主动信息记录;二是基站定期扫描其覆盖范围内移动终端的在线情况,形成的被动信息记录;信令数据具有全天候、全覆盖、海量性、持续性、低成本等特点。每条信令数据包含了移动终端编号、信令发生时间、基站信息(位置区码、蜂窝小区编号、经纬度坐标)和触发事件代码等字段;通过与基站位置的地理信息关联,就可以构成每一个移动终端的时空活动轨迹;因此,基于移动终端信令轨迹分析人群的时空分布特征和时空流动模式,一直是轨迹数据挖掘研究中的热点,得到了业界众多研究者的广泛关注。实际的移动通信系统处于复杂电磁环境下,由此造成移动终端的时空活动轨迹与基站位置之间普遍存在大量的误差和噪声数据;主要表现形式有:1)重复;根据用户的时空活动规律,会在诸如家庭、工作地及休闲场所等长时间停留,并随之产生大量的重复信令数据;2)乒乓;若用户处于相邻蜂窝小区的交界处,两基站信号强度相当,易导致移动终端信令在两基站间来回快速切换;3)漂移;在某些特殊情况下,移动终端信令会突然从临近的基站切换到相对较远的宏基站;4)固有偏差;由于基站的信号覆盖效应,导致基站位置与移动终端真实位置存在较大的固有偏差:城区内偏差100~500米,郊区偏差可能超过1km,对于配备拉远站的基站而言,偏差最远可达10km以上;如何有效消减移动终端信令中的误差和噪声,是进行轨迹相关性分析的必要前提条件。轨迹相关性分析是挖掘人群时空流动模式的关键技术之一;已有的典型轨迹相关性分析技术主要包括:最长公共子序列(longestcommonsubsequence,lcs)、动态时间调整(dynamictimewarping,dtw)、最大共现时间(maximumco-occurrencetime,mct)等;上述方法数据处理的时间复杂度较高,重点关注的是不同轨迹点序列在空间上的重合程度,但无法有效度量在人群时空流动模式中具有高度相关、且重合度较低的轨迹段之间的相关性。如何有效度量移动终端信令轨迹的相关性是一个悬而未决的问题。技术实现要素:为解决移动终端信令轨迹相关性的有效度量问题,本发明提供了一种基于glove模型的移动终端信令轨迹相关性表示方法,该方法包括。步骤1采集移动终端信令数据,通过数据预处理消减重复、乒乓、漂移等噪声效应。步骤2构建位置网格映射表,将移动终端信令序列转换为网格转移序列,构建网格转移序列集。步骤3基于网格转移序列集,训练glove模型,得到网格嵌入矩阵,并基于时长加权平均计算出任意网格转移序列的嵌入表达向量。步骤4计算任意两段网格转移序列的嵌入表达向量的相似度,得到移动终端信令轨迹的相关性。在上述技术方案中,所述步骤1包括。步骤1.1采集在重点关注区域出现的移动终端的信令数据,持续时长不少于2个月,信令数据中包括六个基本字段信息:移动终端编号、信令发生时间、位置区码、蜂窝小区编号、基站经度坐标、基站纬度坐标。步骤1.2整行删除信息不完整的信令数据。根据移动终端编号,对每个移动终端的信令按照时间先后排序,得到每个移动终端的信令序列,移动终端j的信令序列记为sj:sj={(tj,0,lngj,0,latj,0),…,(tj,k,lngj,k,latj,k),…}其中,tj,k,lngj,k,latj,k分别为信令发生时间,基站经度坐标、基站纬度坐标。步骤1.3基于滑动时间窗口w1对移动终端信令序列进行平滑处理,窗口宽度为tw,滑动偏移量为ts,即分别对时间窗内的信令序列的信令发生时间、基站经度坐标、基站纬度坐标求均值,得到平滑处理后的移动终端信令序列。其目的是消减由于复杂电磁环境引起的重复、乒乓、漂移等噪声效应,平滑处理后的移动终端j的信令序列记为其中分别为经过时间窗口平滑处理后的信令发生时间,基站经度坐标、基站纬度坐标。记为移动终端j信令序列中的轨迹点。在上述技术方案中,所述步骤2包括:步骤2.1构建位置网格映射表。将移动终端信令序列中的轨迹点映射到具有一定空间覆盖度的网格,其目的是在一定程度上减小基站的信号覆盖效应带来的固有偏差,有效压缩位置变量的分布空间。分为两种情形:在城区内,基站部署密度高,采用半径r米的正六边形蜂窝网格覆盖;在郊区,基站部署密度相对较低,利用dbscan聚类算法将基站覆盖位置合并为较大尺度的不规则网格覆盖。在构建的位置网格映射表中,网格总数为n,网格gi记为:gi=(center_lngi,center_lati)其中center_lngi,center_lati分别表示网格中心的经度坐标和纬度坐标。步骤2.2将移动终端信令序列转换为网格转移序列,构建网格转移序列集。根据位置网格映射表,将平滑处理后的移动终端信令序列中每个轨迹点,基于最近邻原则映射为最近的网格gi。计算公式为:从而得到以网格索引号表示的网格转移序列。例如,移动终端j的网格转移序列可表示为:其中idxk为网格索引号。所有移动终端的网格转移序列即为网格转移序列集。在上述技术方案中,所述步骤3包括:步骤3.1基于预定义网格宽度窗口w2,遍历所有网格转移序列,构建网格共现矩阵c,其中n为网格总数,元素ci,j表示在所有网格转移集中,网格j出现在以网格i为中心的网格宽度窗口w2内的次数:步骤3.2采用随机梯度下降法训练glove模型,通过最小化网格i和j的目标函数j(v1,v2,…,vn),分别得到n个网格的嵌入表征向量gride=(v1,v2,…,vn)t即为网格嵌入矩阵。其中,vi,vj的长度为嵌入维度e,权重函数f(ci,j)的形式为:步骤3.3对于任意长度网格转移序列的嵌入表达向量,计算出不同网格的权重。不妨设网格转移序列的长度为k+1,则前k个网格的时长权重计算公式为:式中表示第j个移动终端第k个网格的信令发生时间,第k+1个网格(最后一个网格)的时长权重取前k个网格时长权重的均值通过归一化处理,得到k+1个网格的时长权重步骤3.4结合网格嵌入矩阵gride=(v1,v2,…,vn)t和k+1个网格的时长权重基于时长加权平均计算出移动终端j的网格转移序列的嵌入表达向量:其中idxk∈[1,n]从而,可以计算出任意网格转移序列的嵌入表达向量,其长度为嵌入维度e。在上述技术方案中,所述步骤4包括:计算任意两段网格转移序列的嵌入表达向量vs1,vs2的余弦相似度:或者明氏距离相似度:当p=1时是曼哈顿距离,p=2时是欧氏距离,p为无穷大时是切比雪夫距离;最终计算得到的相似度,即为移动终端信令轨迹的相关性。本发明方法具有以下优点。(1)通过数据预处理消减移动终端信令中的误差和噪声,通过位置网格映射表和不同网格的权重兼顾到不同区域的重要性差异。(2)利用深度学习中的序列嵌入技术,建立了可稳定描述人群时空流动模式的网格嵌入表达向量,通过计算向量之间的相似度,从而有效度量在人群时空流动模式中具有高度相关、且重合度较低的轨迹段之间的相关性。附图说明图1为本发明的流程图。具体实施方式为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明作具体阐述。本实施例中,以陕西省为考察范围,以西安市为重点关注区域,其中北纬取值范围[108.721227°n,109.140915°n],东经取值范围[34.150732°e,34.481805°e],涉及到基站数量约为4.98万。步骤1采集移动终端信令数据,通过数据预处理消减重复、乒乓、漂移等噪声效应。步骤1.1在2020.04.28–2020.07.27期间,从重点关注区域内出现的所有移动终端中随机选取1000个移动终端,采集到原始信令数据共计24460511条,每条原始信令数据中包括六个基本字段信息:移动终端编号、信令发生时间、位置区码、蜂窝小区编号、基站经度坐标、基站纬度坐标。步骤1.2整行删除信息不完整的信令数据;对每个移动终端的信令按照时间先后排序,得到1000个移动终端的信令序列,其中包括18399807条信令数据。步骤1.3基于滑动时间窗口w1对移动终端信令序列进行平滑处理,窗口宽度为tw=5min,滑动偏移量为ts=5min,消减重复、乒乓、漂移等噪声效应,得到平滑处理后的1000个移动终端信令序列,其中包括5028828条数据。步骤2构建位置网格映射表,将移动终端信令序列转换为网格转移序列,构建网格转移序列集。步骤2.1构建位置网格映射表。对西安市重点关注区域采用半径为300米的正六边形蜂窝网格覆盖,陕西省内其他区域采用dbscan算法对基站进行聚类,合并构成不规则网格,并计算各网格中心点经纬度坐标,构建地理空间网格映射表,共得到5943个网格。步骤2.2将1000条移动终端信令序列转换为1000条网格转移序列,其中网格索引号取值范围[1,5943]。步骤3基于网格转移序列集,训练glove模型,得到网格嵌入矩阵,并基于时长加权平均计算出任意网格转移序列的嵌入表达向量。步骤3.1基于预定义网格宽度窗口w2=3,遍历所有网格转移序列,构建网格共现矩阵c5943×5943,其中5943为网格总数:步骤3.2采用随机梯度下降法训练glove模型,其中学习率取0.01,循环次数取50,得到5943个网格的嵌入表征向量表征向量长度为嵌入维度e=60,网格嵌入矩阵为gride=(v1,v2,…,v5943)t。步骤3.3对于长度为k+1的网格转移序列的嵌入表达向量,计算出每个网格的权重以移动终端26和移动终端783为例说明。移动终端26:截取时间段2020-06-0507:00:00~2020-06-0509:00:00,发生的移动信令数据,经过上述步骤处理,得到的网格转移序列长度26(k=25),时间段、网格编号、网格权重如表1所示。时间段网格编号网格权重2020-06-0507:02:0921180.0288792020-06-0507:05:3849200.0263922020-06-0507:08:4949200.035652020-06-0507:13:0748570.0761372020-06-0507:22:1819900.0381372020-06-0507:26:5420540.0114692020-06-0507:28:1749750.0753072020-06-0507:37:2249200.0787622020-06-0507:46:5249200.0203122020-06-0507:49:1920550.0719912020-06-0507:58:0049200.0277742020-06-0508:01:2148580.0370322020-06-0508:05:4948570.0443552020-06-0508:11:1049200.0393812020-06-0508:15:5520540.0135422020-06-0508:17:3348580.0515412020-06-0508:23:4619920.0273592020-06-0508:27:0420550.0229382020-06-0508:29:5049170.0196212020-06-0508:32:1247960.0498832020-06-0508:38:1320550.0312282020-06-0508:41:5949200.0392432020-06-0508:46:4349200.0214182020-06-0508:49:1849200.0328872020-06-0508:53:1620540.0313672020-06-0508:57:0320540.047395表1。移动终端783:截取时间段2020-06-0507:00:00~2020-06-0509:00:00,发生的移动信令数据,经过上述步骤处理,得到的网格转移序列长度7(k=6),时间段、网格编号、网格权重如表2所示。时间段网格编号网格权重2020-06-0507:59:3842360.0388042020-06-0508:02:0642310.1187732020-06-0508:09:3942240.3804402020-06-0508:33:5042240.0644992020-06-0508:37:5613480.2522292020-06-0508:53:5842240.0587312020-06-0508:57:4242210.086523表2。步骤3.4结合网格嵌入矩阵gride=(v1,v2,…,v5943)t和网格的时长权重基于时长加权平均计算出所有移动终端的网格转移序列的嵌入表达向量,其长度为嵌入维度60。以移动终端26和移动终端783为例说明。移动终端26的嵌入表达向量vs26:[-0.00020927,0.0005792,0.00108622,-0.00021015,0.00035025,0.00206338,-0.00071861,0.00079705,0.00095549,-0.00046904,-0.00033171,0.00019991,-0.00267957,-0.00022226,0.00060844,-0.00099018,0.00079124,0.00047156,0.0005128,0.00117441,0.00150647,0.00094499,-0.00073751,0.00041739,0.00053622,0.00127249,-0.0000979,-0.0005511,-0.00181473,-0.00073599,0.0002963,0.00296922,0.0002236,0.00091548,0.00099559,0.00014784,-0.00149617,-0.00043373,0.00155126,0.00248556,-0.00134076,0.000708,0.00089196,-0.00258728,-0.00002522,0.00140396,0.00229813,-0.00048293,-0.00257826,-0.00169406,0.00114152,0.00079931,0.00029694,0.00242982,0.00029111,0.00207249,-0.00048036,0.00004665,-0.00096276,0.00080228]移动终端783的嵌入表达向量vs783:[-0.0189999,-0.01547875,0.01674357,-0.01750407,-0.01475298,-0.0166625,-0.01494532,-0.01893303,-0.01883285,-0.02159209,-0.01536785,0.02052424,-0.01685914,0.00248955,-0.01544047,0.01593026,-0.01451739,0.02144702,-0.02334099,0.02293941,-0.0157658,-0.0204249,-0.01050173,0.01945252,-0.00637136,0.019781,-0.01715144,-0.0187027,-0.0249627,-0.0205044,-0.00369801,0.01847215,0.00211256,0.01425333,0.00132631,-0.01805688,-0.01416264,-0.0133448,0.00601273,0.01707013,-0.02354686,0.02062726,-0.01795361,-0.02283511,0.01576922,0.02252061,0.01794986,0.01885057,-0.02360203,-0.02326177,0.01407123,-0.01934529,0.0203213,0.01772783,-0.00210585,0.02257319,0.01158342,0.01890588,-0.01973429,-0.02269858]步骤4计算任意两段网格转移序列的嵌入表达向量的相似度,得到移动终端信令轨迹的相关性。以移动终端26和移动终端783为例说明。两个向量vs26、vs783的余弦相似度为:两个向量vs26、vs783的明氏距离相似度为:当p=1时是曼哈顿距离,p=2时是欧氏距离,p为无穷大时是切比雪夫距离。最终通过对相似度大小的分析,就可以判断移动终端轨迹vs26、vs783的相关性弱。综上所述,本发明的基于glove模型的移动终端信令轨迹相关性表示方法,通过数据预处理消减移动终端信令中的误差和噪声,通过位置网格映射表和不同网格的权重兼顾到不同区域的重要性差异,通过序列嵌入技术可稳定描述人群时空流动模式,通过相似度计算可有效度量移动终端信令轨迹的相关性,使得属性相似的移动终端信令轨迹尽可能地聚在一起,从而提高了匹配效率,保证基于移动终端信令的位置服务应用中的时间复杂性要求,包括重点人群监测、公共安全、靶向预警、商业选址、城市空间品质分析、交通规划与路网优化等。风险提示:本发明为基于历史信令数据对移动终端信令轨迹相关性的研究,当社会重大事件发生,例如新冠肺炎疫情、国庆七天长假,需要对位置网格映射表和网格共现矩阵进行重构,否则可能会使得模型失效。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1