多源轨迹数据表示方法及装置与流程

文档序号:35531983发布日期:2023-09-21 13:06阅读:64来源:国知局
多源轨迹数据表示方法及装置与流程

本发明涉及大数据挖掘,尤其涉及一种多源轨迹数据表示方法及装置。


背景技术:

1、随着移动设备和定位技术的发展,人在城市空间中移动时产生的轨迹数据类型越来越丰富,如手机信令轨迹、车载gps轨迹数据,道路卡口监控轨迹,社交媒体行为轨迹等等。这些数据来自不同源头的传感器,虽然记录的是同一个人的移动行为,但不同源的数据的采样率、位置信息准确度等不尽相同。目前在进行轨迹分析时,一般是对单一源的轨迹数据进行分析,而对单一源轨迹数据分析存在着单一数据源轨迹不完整的问题,从而造成轨迹分析结果不准确。

2、而将多源轨迹数据进行融合分析可以克服单一数据稀疏性强、噪声大等对人类移动的描述和分析所带来的缺点;然而目前多源轨迹分析面临着计算复杂度高、准确性低的问题。li等虽然研究了利用深度学习技术将原始不均匀的轨迹表示为固定长度数值向量,但其未涉及多源轨迹的问题;且在实际应用中,用户在某一数据源的轨迹可能缺失。因此,针对多源轨迹数据,如何提高轨迹数据表示的准确性是亟待解决的技术问题。


技术实现思路

1、有鉴于此,本发明提供了一种多源轨迹数据表示方法及装置,以解决现有技术中存在的一个或多个问题。

2、根据本发明的一个方面,本发明公开了一种多源轨迹数据表示方法,所述方法包括:

3、获取第一时间段内的多源轨迹数据,将所述第一时间段划分为多个时间区间,确定各所述时间区间内的各轨迹数据的轨迹点的token值,得到各轨迹数据对应的token值集合;

4、将各所述token值集合、各所述轨迹数据的源类别以及时间区间索引信息输入至轨迹表示模型,得到轨迹嵌入表示、源类别嵌入表示以及时间区间索引嵌入表示,将所述轨迹嵌入表示、源类别嵌入表示、时间区间索引嵌入表示与位置嵌入表示进行组合得到组合嵌入表示,基于各所述组合嵌入表示得到各所述轨迹数据的隐状态向量,将各所述轨迹数据的隐状态向量进行池化得到各所述轨迹数据的特征表示向量。

5、在本发明的一些实施例中,确定各所述时间区间内的各轨迹数据的轨迹点的token值,包括:

6、将各所述轨迹数据的各轨迹点分别分配至各时间区间;

7、确定各轨迹数据在各时间区间内出现次数最多的轨迹点;

8、将各时间区间内出现次数最多的轨迹点对应的token值作为相应时间区间内的token值。

9、在本发明的一些实施例中,当所述时间区间内的轨迹点数量为0时,所述时间区间对应的token值为pad。

10、在本发明的一些实施例中,所述方法还包括:

11、确定所述轨迹表示模型的编码器损失函数、对比学习损失函数、轨迹还原损失函数以及轨迹生成损失函数,基于所述编码器损失函数、对比学习损失函数、轨迹还原损失函数以及轨迹生成损失函数构建模型总损失函数,基于所述模型总损失函数对所述轨迹表示模型的模型参数进行迭代更新;和/或

12、所述多源轨迹数据包括gps轨迹数据、手机信令轨迹数据和手机app行为轨迹数据。

13、在本发明的一些实施例中,所述模型总损失函数为:

14、l=lbert+α*lr+β*lg+lcon;

15、其中,l为模型总损失,lbert为编码器损失,lr为轨迹还原损失,lg为轨迹生成损失,lcon为对比学习损失,α和β均为超参数。

16、在本发明的一些实施例中,确定所述轨迹表示模型的轨迹还原损失函数,包括:

17、将所述轨迹数据的隐状态向量输入至第一解码器中,得到所述隐状态向量对应的时空轨迹还原数据,基于所述时空轨迹还原数据和原始的轨迹数据通过负对数似然损失函数确定所述轨迹表示模型的轨迹还原损失函数。

18、在本发明的一些实施例中,确定所述轨迹表示模型的轨迹生成损失函数,包括:

19、将所述轨迹数据的特征表示向量和待生成的其他源的源类别嵌入表示输入至第二解码器,生成与所述轨迹数据不同源的其他源轨迹数据,基于所述其他源轨迹数据和原始的轨迹数据通过负对数似然损失函数确定所述轨迹表示模型的轨迹生成损失函数。

20、在本发明的一些实施例中,所述轨迹还原损失函数为:

21、lr=lrec(g)+lrec(c)+lrec(a);

22、

23、其中,lrec(g)、lrec(c)、lrec(a)分别表示第一源轨迹数据、第二源轨迹数据和第三源轨迹数据的轨迹还原损失,tokeni表示轨迹数据在第i个时间区间内的轨迹点的token值,p1i表示时空轨迹还原数据在第i个时间区间内轨迹点的概率分布,nt表示时间区间总数量;

24、所述轨迹生成损失函数为:

25、lg=lg(g)+lg(c)+lg(a);

26、

27、其中,lg(g)、lg(c)和lg(a)分别表示第一源轨迹数据、第二源轨迹数据和第三源轨迹数据相互生成的轨迹生成损失,tokeni表示轨迹数据在第i个时间区间内的轨迹点的token值,p2i表示所生成的其他源轨迹数据在第i个时间区间内轨迹点的概率分布,nt表示时间区间总数量,b为g、c或a。

28、根据本发明的另一方面,还公开了一种多源轨迹数据表示系统,该系统包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。

29、根据本发明的再一方面,还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一实施例所述方法的步骤。

30、本发明上述实施例所公开的多源轨迹数据表示方法及装置,首先确定各时间区间内的各轨迹数据的轨迹点的token值,然而形成各轨迹数据对应的token值集合,进而基于轨迹表示模型得到轨迹嵌入表示、源类别嵌入表示以及时间区间索引嵌入表示,并根据轨迹嵌入表示、源类别嵌入表示、时间区间索引嵌入表示以及位置嵌入表示形成的组合嵌入表示得到最终的各轨迹数据的特征表示向量。该方法在对轨迹数据进行表示时,考虑了轨迹数据的源类别,因而该方法对于不同类别、大规模、复杂的轨迹数据均可以高效的进行表示,且还提高了轨迹数据表示的准确性。

31、本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。

32、本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。



技术特征:

1.一种多源轨迹数据表示方法,其特征在于,所述方法包括:

2.根据权利要求1所述的多源轨迹数据表示方法,其特征在于,确定各所述时间区间内的各轨迹数据的轨迹点的token值,包括:

3.根据权利要求2所述的多源轨迹数据表示方法,其特征在于,当所述时间区间内的轨迹点数量为0时,所述时间区间对应的token值为pad。

4.根据权利要求1所述的多源轨迹数据表示方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的多源轨迹数据表示方法,其特征在于,所述模型总损失函数为:

6.根据权利要求5所述的多源轨迹数据表示方法,其特征在于,确定所述轨迹表示模型的轨迹还原损失函数,包括:

7.根据权利要求6所述的多源轨迹数据表示方法,其特征在于,确定所述轨迹表示模型的轨迹生成损失函数,包括:

8.根据权利要求7所述的多源轨迹数据表示方法,其特征在于,

9.一种多源轨迹数据表示系统,该系统包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如权利要求1至8中任意一项所述方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任意一项所述方法的步骤。


技术总结
本发明提供一种多源轨迹数据表示方法及装置,所述方法包括:获取第一时间段内的多源轨迹数据,将所述第一时间段划分为多个时间区间,确定各所述时间区间内的各轨迹数据的轨迹点的Token值,得到各轨迹数据对应的Token值集合;将各所述Token值集合、各所述轨迹数据的源类别以及时间区间索引信息输入至轨迹表示模型,得到轨迹嵌入表示、源类别嵌入表示以及时间区间索引嵌入表示,将所述轨迹嵌入表示、源类别嵌入表示、时间区间索引嵌入表示与位置嵌入表示进行组合得到组合嵌入表示,基于各组合嵌入表示得到各所述轨迹数据的隐状态向量,将各轨迹数据的隐状态向量进行池化得到各轨迹数据的特征表示向量。该多源轨迹数据表示方法可提高轨迹数据表示的准确性。

技术研发人员:项阳,闫天一,窦崇铭,司俊俊,羊晋,涂波
受保护的技术使用者:和智信(山东)大数据科技有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1