一种顾及时空语义及驾驶状态的车辆轨迹目的地预测方法

文档序号:26140162发布日期:2021-08-03 14:24阅读:104来源:国知局
一种顾及时空语义及驾驶状态的车辆轨迹目的地预测方法

本发明涉及个体出行模式建模、车辆移动轨迹预测领域,具体涉及一种顾及时空语义及驾驶状态的车辆轨迹目的地预测方法。



背景技术:

移动轨迹目的地预测是人类出行模式研究领域的重要分支,旨在依据一段尚未完成出行过程的移动轨迹及对应出行上下文信息,预测该次出行最有可能抵达的目的地所在位置。车辆轨迹目的地预测在公共交通轨迹数据上已有广泛研究,随着移动定位技术的发展与普,非公共车辆个体层面的出行模式研究将成为热点,且对于个性化服务推荐、交通导航、车辆保险推荐等基于位置的服务具有重要的科学意义与应用价值。

现有技术中,目的预测任务主要包含特征工程与模型构建两个方面。其中,特征工程主要基于专家领域知识,从出行轨迹及相关信息中提取出行特征;而模型的构建过程指在对个体出行规律深入分析的基础上,设计概率或深度学习模型,实现对个体出行行为习惯与移动偏好的建模。

本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:

现有的特征工程主要关注轨迹点序列的特征提取,而忽略了出行时空语义对于个体出行意图的作用与反映,限制了预测模型对出行语境知识的感知与学习。同时,常用的概率预测模型无法捕获长距离出行轨迹数据中的长期依赖关系,而现有的深度学习预测模型忽略了驾驶状态对于出行关键时空特征探测与学习的重要作用,无法实现个体出行模式的准确表达,导致轨迹目的地预测的精度偏低。

由此可知,现有技术中的方法存在精度较低的技术问题。



技术实现要素:

鉴于此,本发明提供了一种顾及时空语义及驾驶状态的车辆轨迹目的地预测方法,用以解决或者至少部分解决现有技术中的方法存在的精度较低的技术问题。

为了解决上述技术问题,本发明提供了一种顾及时空语义及驾驶状态的车辆轨迹目的地预测方法,其特征在于,包括:

步骤s1:采集行政区域内与个体出行及生产生活活动密切关联的各类兴趣点,对行政区域进行格网划分,并基于tf-idf算法提取各网格单元的位置语义向量,计算所有轨迹点与格网的空间包含关系以提取不同出发区域和各轨迹点的位置语义,采用word2vec词嵌入方法对离散的轨迹点位置语义编码;

步骤s2:从轨迹数据的起始轨迹点时间戳中提取月周日多层次出发时间信息,生成离散的出发时间槽;考虑到出发时间的连续性及各项异性特点,采用启发式循环模糊编码对离散多粒度出发时间槽编码;

步骤s3:对原始轨迹点序列进行清洗、重采样与标准化,通过轨迹点序列及对应的时间戳提取驾驶状态序列,并对驾驶状态序列执行标准化,将轨迹点序列、驾驶状态序列和出行时空语义拼接为输入特征序列;

步骤s4:构建深度学习预测模型,该模型采用双层lstm处理输入特征序列得到隐藏状态序列,利用驾驶状态序列计算各轨迹点位置重要性,基于位置重要性序列对隐藏状态序列施加空间注意力操作和时间注意力操作,得到出行关键时空特征,通过多层全连接残差网络处理出行关键时空特征输出预测目的地;

步骤s5:将输入特征序列切分成多个输入特征子序列,将所有输入特征子序列划分为训练集与测试集,基于训练集采用adam参数优化方法对深度学习预测模型进行训练,基于测试集对训练好的深度学习预测模型进行精度评定。

作为优选,所述步骤s1具体包括:

步骤s1.1:采集行政区域内与个体出行及生产生活活动密切关联的各类兴趣点,并用对象-关系型数据库对其管理;

步骤s1.2:基于选择的格网分析粒度生成覆盖行政区域的最小外接空间格网,并用对象-关系型数据库对其管理;

步骤s1.3:采用对象-关系型数据库内置空间关系分析功能对行政区域内的各类兴趣点数据和行政区域最小外接空间格网面数据执行空间求交计算,统计每个网格单元内各类兴趣点的数量信息;

步骤s1.4:采用tf-idf算法计算各单元格内各类兴趣点的重要性mi:

其中,ni为第i类兴趣点的数量,n是单元格内所有兴趣点的总数,d指的是整个兴趣点数据集的总数,di指在整个兴趣点数据集中第i类兴趣点的总数;

组合所有兴趣点类型的重要性得到各单元格的位置语义向量:

locs=<m1,m2,m3,…,mc>

其中,c为兴趣点的类型总数,基于占用栅格地图计算得到各单元格的编号,以静态文件形式输出位置语义格网地图,用于记录空间格网中各单元格编号及对应的位置语义向量;

步骤s1.5:基于占用栅格地图计算得到各轨迹点的编号,并利用位置语义格网地图匹配到各轨迹点编号对应的位置语义向量;

步骤s1.6:对所有起始轨迹点进行聚类得到多个不同出发区域,取同一出发区域中各起始轨迹点位置语义向量的平均值作为该出发区域的位置语义,取轨迹点位置语义向量中最重要兴趣点类型作为中间轨迹点的位置语义;

步骤s1.7:采用word2vec词嵌入方法对离散的中间轨迹点位置语义进行编码,将离散的中间轨迹点位置语义嵌入到多维连续数值型特征空间。

作为优选,所述步骤s2具体包括:

步骤s2.1:通过对原始轨迹记录里起始轨迹点的时间戳信息进行日期时间分析,得到每一条轨迹对应的多层次出发时间信息,即起始轨迹点时间戳的归属月份、归属周数、日期描述和出发时刻;

步骤s2.2:对轨迹的多层次出发时间语义执行离散化操作,将归属月份、归属周数、日期描述和出发时刻划分到离散时间槽中;

步骤s2.3:采用极坐标对多层次离散出发时间槽进行循环表达,每一个离散时间槽都对应一个二维的连续数值型极坐标,对于时间槽划分边缘的出发日期或出发时间t添加隶属函数memb(t)矫正达到模糊效果:

其中,为向下取整操作,添加可学习的极坐标极角增减参数rt和极径缩放参数ft得到多粒度离散出发时间槽t的启发式循环模糊编码timeembed(t);

timeembed(t)=memb(t)*(ft*sin(θt+rt),ft*cos(θt+rt))

其中,θt为离散时间槽t对应极坐标的极角值,sin()为数学正弦函数,cos()为数学余弦函数。

作为优选,所述步骤s3具体包括:

步骤s3.1:基于速度中值滤波对轨迹点序列清洗,然后采用z-score标准化,通过设置相邻轨迹点间的距离阈值实现轨迹点序列重采样;

步骤s3.2:计算第k∈{1,2,3,...,l}(l为当前轨迹点序列的长度)个轨迹点pk的转向角行驶速度和截至当前轨迹点pk的已行驶距离将轨迹点的驾驶状态即转向角、行驶速度、已行驶距离序列执行z-score标准化;

步骤s3.3:将轨迹点序列、驾驶状态序列、出发区域位置语义、word2vec编码后的中间轨迹点位置语义和启发式循环模糊编码后的多层次出发时间语义拼接为输入特征序列。

作为优选,所述步骤s4具体包括:

步骤s4.1:构建深度学习预测模型,采用双层lstm处理输入特征序列得到隐藏状态序列其中为第2层lstm在t∈{1,2,3,...,l}(l为输入特征序列的长度)时刻输出的隐藏状态;

步骤s4.2:利用驾驶状态序列计算第k∈{1,2,3,...,l}(l为驾驶状态序列的长度)个轨迹点pk位置重要性locik:

其中,为拼接操作,分别为轨迹点pk对应的转向角、行驶速度及已行驶距离;

步骤s4.3:基于第k个轨迹点pk的位置重要性locik,对隐藏状态序列施加轨迹空间注意力操作得到出行关键空间特征

ak=relu(wa·locik+ba)

其中,relu()为激活函数,wa是权重矩阵,为偏置参数,ak为绝对注意力权重,l表示输入轨迹序列的长度,wk指轨迹点pk的相对注意力权重;

步骤s4.4:按照轨迹点pk的位置重要性locik的大小对隐藏状态序列排序,取前g个隐藏状态序列并按原时序排列得到重采样隐藏状态序列h′={h′1,h′2,…,h′g},对重采样隐藏状态序列施加时间注意力操作得到出行关键时间特征

其中,为cnn的第j∈[1,f]个滤波模板对隐藏状态序列h′的第i∈[1,d]个维度沿时序方向h′1,i→h′g,i执行卷积后的时频特征,wb为权重矩阵,sigmoid()为激活函数,αi是各时频特征的注意力权重系数;

步骤s4.5:拼接出行关键空间特征和出行关键时间特征并输入到多层全连接残差网络中,映射输出经纬度形式的预测目的地坐标值。

作为优选,所述步骤s5具体如下:

将输入特征序列切分成多个输入特征子序列,将所有输入特征子序列划分为训练集与测试集,基于训练集采用adam参数优化方法对深度学习预测模型进行训练,模型根据步骤s4中的描述构建,模型由双层lstm、轨迹时空注意力及多层全连接残差网络构成,模型训练目标为拟合输入特征子序列对应的目的地经纬度坐标,基于测试集对训练好的深度学习预测模型进行精度评定;

在输入特征子序列训练集中完成对预测模型的训练,将训练好的预测模型应用于输入特征子序列测试集中进行预测精度验证;

所述精度验证的方法具体为:

衡量误差的指标是平均绝对误差mae、均方根误差rmse和平均相对误差mre,计算公式如下:

其中n为输入特征子序列的总数,是第i条输入特征子序列对应的真实目的地和预测目的地yi之间的地理空间距离,total_disj是第i条输入特征子序列对应的第j条输入特征序列的出行总距离。

本发明具有如下技术效果:

本发明提供的一种顾及时空语义及驾驶状态的车辆轨迹目的地预测方法,利用tf-idf算法处理行政区域内兴趣点数据集得到位置语义地图,基于位置语义地图获取各出发区域和轨迹点的位置语义,并利用word2vec词嵌入方法对轨迹点的位置语义编码;提取起始轨迹点时间戳中多层次时间信息,采用启发式循环模糊编码方法处理多层次离散时间槽,得到极坐标表示的多层次时间语义;从轨迹点序列及对应时间戳中提取驾驶状态序列,拼接轨迹点序列、驾驶状态序列、编码后的位置语义和时间语义得到输入特征序列;采用双层lstm学习输入特征序列的长期依赖关系,得到隐藏状态序列;基于驾驶状态序列,采用空间注意力和时间注意力探测学习隐藏状态序列中出行关键时空特征,并利用多层全连接残差网络实现出行关键时空特征到预测目的地经纬度坐标的映射。

本发明方法基于出行时空语义上下文信息扩宽了模型可学习的时空知识,让模型能在时空语境中捕获个体出行的时空规律;基于驾驶状态的时空注意力机制帮助模型更好地探测出行关键时空特征,实现个体出行模式的精细化表达,以此提升出行目的地预测的准确性。本发明方法可应用于具有轨迹点及时间戳记录的各种车辆移动轨迹数据中,以期大幅提高出行目的地预测的精度,并应用于个性化服务推荐、交通导航、车辆保险推荐等基于位置的服务。例如,基于预测目的地的附近景点推荐和广告投放、基于预测目的地空间分布的公共交通车辆调度和城市基础设施规划、以及基于个体驾驶轨迹预测目的地的重点人员监控和异常行为预警等。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1:为本发明提供的一种顾及时空语义及驾驶状态的车辆轨迹目的地预测方法的流程示意图;

图2:为具体实施方式中车辆轨迹目的地预测的计算流程图;

图3:为出行位置语义提取示意图;

图4:为多层次时间语义提取示意图;

图5:为深度学习目的地预测模型架构图;

图6:为空间注意力机制示意图;

图7:为时间注意力机制示意图;

图8:为不同的位置语义格网地图空间分辨率对模型预测误差影响对比图;

图9:为不同输入特征子序列的生成数量对模型预测误差影响的对比图;

图10:为传统方法与本发明方法在深圳市8名用户的私家车轨迹数据集上的综合预测误差对比图。

具体实施方式

本发明的目的在于针对现有的个体轨迹目的地预测模型忽略了出行时空上下文信息,无法在具体的时空语境中学习用户的出行偏好和行为习惯,同时忽略驾驶状态信息对出行关键时空特征的探测与学习的重要作用,难以细粒度地描述整个出行过程,而导致出行目的地预测结果精度较低的技术问题,提供一种顾及时空语义及驾驶状态的车辆轨迹目的地预测方法,从而达到提高预测精度的目的。

为达到上述目的,本发明的主要构思如下:

首先,统计行政区划内与出行行为及生产生活具有密切联系的兴趣点类型分布信息,并构建覆盖行政区划的最小外接格网,基于格网单元内各类兴趣点的数量信息采用tf-idf算法计算各网格单元的位置语义,进而为各出发区域及各轨迹点赋予位置语义,使用word2vec词嵌入方法对轨迹点位置语义编码;接着,从起始轨迹点的时间戳中提取层次的出发时间信息,将多层次出发时间信息离散成多层次出发时间槽,使用启发式循环模糊编码处理多层次出发时间槽,得到多层次出发时间语义;接着,从轨迹点序列及对应时间戳中提取驾驶状态(转向角/行驶速度/已行驶距离)序列,拼接轨迹点序列、位置语义、时间语义和驾驶状态序列得到输入特征序列;构建深度学习预测模型,采用双层lstm处理输入特征序列得到隐藏状态序列,基于驾驶状态序列通过空间注意力和时间注意力从隐藏状态序列中发掘出行关键时空特征,利用多层全连接残差网络建立出行关键时空特征与预测目的地经纬度坐标之间的映射;切分输入特征序列得到输入特征子序列,将其划分为训练集与测试集,在训练集中训练深度学习模型,在测试集中验证模型的预测精度。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本实施例提供了一种顾及出行时空语义及驾驶状态的车辆目的地预测方法,请参见图1,该方法包括:

步骤s1:采集行政区域内与个体出行及生产生活活动密切关联的各类兴趣点,对行政区域进行格网划分,基于tf-idf算法提取各网格单元的位置语义向量,计算所有轨迹点与格网的空间包含关系以提取出各出发区域和各轨迹点的位置语义,采用word2vec词嵌入方法对离散的轨迹点位置语义编码。

具体来说,行政区划的格网划分粒度可以根据本发明的轨迹对象与兴趣点的分布数量来进行设置,通过设置行政区划的格网划分粒度,可以支持方法从更合适的空间尺度提取出行位置语义,加深对用户在活动空间中移动规律的理解。

在一种实施方式中,步骤s1具体包括:

步骤s1.1:采集行政区域内与个体出行及生产生活活动密切关联的各类兴趣点,并用postgresql对其管理;

步骤s1.2:基于选择的格网分析粒度生成覆盖行政区域的最小外接空间格网,并用postgresql对其管理;

步骤s1.3:采用postgresql内置空间关系分析功能对行政区域内的各类兴趣点数据和行政区域最小外接空间格网面数据执行空间求交计算,统计每个网格单元内各类兴趣点的数量信息;

步骤s1.4:采用tf-idf算法计算各单元格内各类兴趣点的重要性mi:

其中ni为第i类兴趣点的数量,n是单元格内所有兴趣点的总数,d指的是整个兴趣点数据集的总数,di指在整个兴趣点数据集中第i类兴趣点的总数,组合所有兴趣点类型的重要性得到各单元格的位置语义向量locs:

locs=<m1,m2,m3,…,mc>

其中c为兴趣点的类型总数,基于占用栅格地图计算得到各单元格的编号,以静态文件形式输出位置语义格网地图,用以记录空间格网中各单元格的编号及对应的位置语义向量;

步骤s1.5:基于占用栅格地图计算得到各轨迹点的编号,并利用位置语义格网地图匹配到各轨迹点编号对应的位置语义向量;

步骤s1.6:对所有起始轨迹点进行聚类得到多个不同出发区域,取同一出发区域中各起始轨迹点位置语义向量的平均值作为该出发区域的位置语义,取轨迹点位置语义向量中最重要兴趣点类型作为中间轨迹点的位置语义;

步骤s1.7:采用word2vec词嵌入方法对离散的中间轨迹点位置语义进行编码,将离散的中间轨迹点位置语义嵌入到多维连续数值型特征空间。

具体来说,步骤s11中所挑选的个体出行层面与生产生活具有密切关联的兴趣点类型,可以根据生活经验和兴趣点数据源对兴趣点类型划分而设定,例如选取居民区、公司、医疗、教育、餐饮、生活服务、景点、酒店为分析兴趣点类型。步骤s14中关于格网内不存在的兴趣点类型,其对应tf-idf计算的重要程度为0。步骤s16可根据起始轨迹点的空间分布形态切换不同的聚类算法,例如dbscan或meanshift聚类算法。

步骤s2:从轨迹数据的起始轨迹点时间戳中提取月周日多层次出发日期跟时刻信息,将出发日期跟时刻信息离散化,生成离散的出发时间槽,每一个时间槽对应了特定的日期或时间范围,采用启发式循环模糊编码对离散的多粒度出发时间槽编码,最终得到连续二维坐标值表示的多层次时间语义。

具体来说,月周日多层次出发日期跟时刻信息包括出发月份、出发周数、日期描述(工作日/周末/节假日)和出发时刻。多层次出发日期跟时刻信息离散化指将连续的时间映射到离散整型数值中,例如具体出发时刻为上午9:35被映射到整型数值为5的离散时间槽中。

在一种实施方式中,步骤s2具体包括:

步骤s2.1:通过对原始轨迹记录里起始轨迹点的时间戳信息进行日期时间分析,得到每一条轨迹对应的月周日多层次出发时间语义,即起始轨迹点时间戳的归属月份、归属周数、日期描述(工作日/周末/节假日)和出发时刻;

步骤s2.2:对轨迹的月周日多层次出发时间语义执行离散化操作,将归属月份、归属周数、日期描述和出发时刻划分到离散时间槽中;

步骤s2.3:采用极坐标对多粒度离散出发时间槽进行循环表达,每一个离散时间槽对应一个二维的连续数值型极坐标,对于时间槽划分边缘的出发日期或出发时间添加隶属函数memb(t)矫正达到模糊效果:

其中为向下取整操作,添加可学习的极坐标极角增减参数rt和极径缩放参数ft得到多粒度离散出发时间槽t的启发式循环模糊编码timeembed(t);

timeembed(t)=memb(t)*(ft*sin(θt+rt),ft*cos(θt+rt))

其中θt为离散时间槽对应极坐标的极角值,sin()为数学正弦函数,cos()为数学余弦函数。

具体来说,步骤s22中的离散时间槽划分可结合实际情况而定,例如一天的出发时刻可以划分为48、24、或者12个时间槽,时间槽的划分也不一定为等间隔的,可以根据不同个体的出行时间节律定制化划分。步骤s23采用的矫正函数对应相邻时间槽的边界为整数日期或时刻,且第一个时间槽的整形数值为1。最终得到的多粒度离散出发时间槽t的启发式循环模糊编码中极坐标极角增减参数rt和极径缩放参数ft可以随机初始化,极坐标极角增减参数rt和极径缩放参数ft的最终参数值通过模型的训练而确定,这样出发时间语义可以表达出不同个体出行的各向异性。

步骤s3:对原始轨迹点序列执行清洗、重采样与标准化,通过轨迹点序列及对应的时间戳提取驾驶状态序列,并对驾驶状态序列执行标准化,将轨迹点序列、驾驶状态序列和出行时空语义拼接为输入特征序列。

在一种实施方式中,步骤s3具体包括:

步骤s3.1:基于速度中值滤波对轨迹点序列清洗,然后对轨迹点序列的经纬度坐标执行z-score标准化,通过设置相邻轨迹点间的距离阈值实现轨迹点序列重采样;

步骤s3.2:基于重采样的轨迹点序列及对应时间戳记录计算第k∈{1,2,3,...,l}(l为当前轨迹点序列的长度)个轨迹点pk的转向角和截至各轨迹点的已行驶距离基于未重采样的原始轨迹点序列和对应时间戳记录计算各轨迹点的行驶速度将轨迹点的驾驶状态(转向角/行驶速度/已行驶距离)序列执行z-score标准化;

步骤s3.3:将轨迹点序列、驾驶状态序列、出发区域位置语义、word2vec编码后的中间轨迹点位置语义和启发式循环模糊编码后的多层次出发时间语义拼接为输入特征序列。

具体来说,轨迹点序列、驾驶状态序列和轨迹点的位置语义序列为序列数据,长度为重采样后的轨迹点数量n。出发区域的位置语义跟多层次出发时间语义为长度是1的多维特征数据。为了拼接所有的出行特征,需将出发区域的位置语义跟多层次出发时间语义复制n份,然后再与多维序列数据轨迹点序列、驾驶状态序列和轨迹点的位置语义序列沿维度方向拼接,最终得到多维输入特征序列数据。

步骤s4:构建深度学习预测模型,该模型采用双层lstm处理输入特征序列得到隐藏状态序列,利用驾驶状态序列计算各轨迹点位置重要性,基于位置重要性序列对隐藏状态序列施加空间注意力操作和时间注意力操作,得到出行关键时空特征,通过多层全连接残差网络处理出行关键时空特征输出预测目的地。

在一种实施方式中,步骤s4具体包括:

步骤s4.1:构建深度学习预测模型,采用双层lstm处理输入特征序列得到隐藏状态序列

步骤s4.2:利用驾驶状态序列计算第k个轨迹点pk位置重要性locik:

其中为拼接操作。

步骤s4.3:基于第k个轨迹点pk的位置重要性locik,对隐藏状态序列施加轨迹空间注意力操作得到出行关键空间特征

ak=relu(wa·locik+ba)

其中relu()为激活函数,wa是权重矩阵,为偏置参数,ak为绝对注意力权重,l表示输入轨迹序列的长度,wk指的是轨迹点pk的相对注意力权重;

步骤s4.4:按照轨迹点pk的位置重要性locik的大小对隐藏状态序列排序,取前g个隐藏状态序列并按原时序排列得到重采样隐藏状态序列h′={h′1,h′2,…,h′g},对重采样隐藏状态序列施加时间注意力操作得到出行关键时间特征

其中为cnn的第j∈[1,f]个滤波模板对隐藏状态序列h′的第i∈[1,d]个维度沿时序方向h′1,i→h′g,i执行卷积后的时频特征,wb为权重矩阵,sigmoid()为激活函数,αi是各时频特征的注意力权重系数;

步骤s4.5:拼接出行关键空间特征和出行关键时间特征并输入到多层全连接残差网络中,映射输出经纬度形式的预测目的地坐标值。

具体来说,步骤s4.4中各隐藏状态位置重要性大小的计算是将标准化后的各个驾驶状态相加得到。变长隐藏状态序列的固定长度可以根据轨迹数据和实验结果设定,例如将隐藏状态长度固定为16,32,64等。

步骤s5:将输入特征序列切分成多个输入特征子序列,通过按照出行完成度的不同将每一条输入特征序列切分为包含不同的输入特征子序列实现数据增广,不同输入特征子序列具有相同的起始轨迹点但所包含的轨迹点特征的总数不同,将所有输入特征子序列划分为训练集与测试集,基于训练集采用adam参数优化方法对深度学习预测模型进行训练,模型训练的优化目标为使预测目的地坐标值与真实目的地坐标值差值的绝对值最小,基于测试集对训练好的深度学习预测模型进行精度评定。

其中,验证精度的方法具体为:

衡量误差的指标是平均绝对误差mae、均方根误差rmse和平均相对误差mre,计算公式如下:

其中n为输入特征子序列的总数,是第i条输入特征子序列对应的真实目的地和预测目的地yi之间的地理空间距离,total_disj是第i条输入特征子序列对应的第j条输入特征序列的出行总距离。

具体来说,地理空间距离采用haversine半正矢公式计算。模型精度的验证采用五折交叉验证的方式,即将用于训练和测试的输入特征子序列平均划分为5等份,每次取不同的1份为测试集,其余4份为训练集,重复5次取预测结果的平均值作为最终结果。

图2示出了本发明方法的计算流程,在进行起始点聚类的过程中,可以选用dbscan、meanshift和kmeans等聚类方法来实现,格网单元和输入特征序列的划分粒度可以根据实际情况人为设置。

为了更清楚地说明本发明提供的方法的实现过程和有益效果,下面通过具体的示例来予以详细介绍。

现有深圳市8名用户一年的私家车轨迹数据集,数据清洗后总共包括18445条的轨迹数据,需要针对8名用户分别构建出行目的地预测模型并训练,从而对8名用户的出行最终目的地的经纬度坐标实现准确预测。

本发明提供的一种顾及出行时空语义及出行关键时空特征的车辆轨迹目的地预测方法,通过出行时空语义的提取丰富了上下文知识,让模型能够在时空语义知识中学习用户的移动规律,采用时空注意力机制探测与挖掘出行关键时空特征,对用户的出行过程更好地描述与学习,实现准确细粒度的出行目的地预测。

下面将结合本发明中的附图,对本发明的算法过程进行详细阐述,具体步骤如下:

1)构建覆盖深圳市行政区的最小外接格网,格网的空间粒度设置为500m。统计各单元格内的8类兴趣点类型,包括居民区、公司、医疗、教育、餐饮、生活服务、景点、酒店,基于tf-idf算法获得各单元格内的位置语义向量,得到位置语义格网地图,采用dbcsan方法对所有起始轨迹点聚类,得到各出发区域,取出发区域内各起始轨迹点位置向量的平均值作为出发区域的位置语义,取单元格内最重要的兴趣点类型作为单元格内部中间轨迹点的位置语义,并用word2vec编码,最后得到出发位置语义,如图3所示;

2)从起始轨迹点时间戳中提取出发月份、出发周数、日期描述(工作日/节假日/周末)和出发时刻,并将出发月份离散化为12个时间戳、出发周数离散化为52个时间槽、日期描述离散化为3个时间槽及出发时刻离散化为12个时间槽,用极坐标对多维离散时间语义循环表示,然后添加模糊函数跟可学习项参数得到出发时间语义,出发时刻的循环模糊编码如图4所示;

3)提取驾驶状态数据,包括各轨迹点的转向角、行驶速度及已行驶距离,将出发时间跟出发区域的位置语义复制轨迹点序列长度份后与轨迹点序列、驾驶状态序列和轨迹点的位置语义拼接,得到输入特征序列;

4)构建如图5所示的深度学习预测模型,将双层lstm输出的隐藏状态维度设为128,如图6所示通过驾驶状态提取的位置重要性计算各隐藏状态的空间注意力权重,基于权重序列对隐藏状态序列加权求和得到表征用户出现的关键空间特征;

5)基于驾驶状态计算各隐藏状态的综合位置重要性,按照位置重要性排序选取前16重要的隐藏状态,设置32个cnn卷积模板,对长度为16的隐藏状态序列按时序方向执行卷积操作,得到时频特征后与计算出的时间注意力权重加权求和得到出行关键时间特征,如图7所示;

6)采用多层全连接网络将关键出行时空特征映射为二维的预测目的地;

7)每个输入特征序列生成30条出行完成度不一的输入特征子序列,采用五折交叉验证实验验证模型预测精度。

图8为不同的位置语义格网地图空间分辨率对模型预测误差影响对比图,即位置语义格网地图的空间分辨率分别为50米、250米、500米、1000米、1500米、2000米和5000米;

图9为不同输入特征子序列的生成数量对模型预测误差影响的对比图,即一条输入特征序列分别生成10条、20条、30条、40条和50条输入特征子序列;

图10为传统方法与本发明方法在深圳市8名用户的私家车轨迹数据集上的综合预测误差对比图,即语义地图格网空间分辨率为500米,一条输入特征序列生成30条输入特征子序列。

如图10所示,在8名用户数据集上的综合结果表明,本发明方法在mae、rmse及mre三个评价上均优于传统预测方法,表明本发明发放通过添加出行时空上下文知识和学习出行关键时空特征的方式有效地提高了预测精度。同时,位置语义地图的格网粒度也会影响到位置语义的有效性,图8表明了格网粒度从50m到5000m对模型在8名用户数据集上预测精度的综合影响,结果显示格网粒度为500m时模型在mae和mre上的表现均最优,而在过细或过粗的格网空间粒度上模型的预测误差均有明显提高,一定程度证明了500m是较为合理的格网划分粒度,同时合适的格网划分粒度可以通过对比实验的方式获得。图9为一条输入特征序列生成输入特征子序列的数量对预测结果的影响,结果表明随着输入特征子序列生成数量的增加,模型的预测精度不断提高,但是在生成数量超过30后,模型精度提高有限,同时模型训练时间呈指数提高,说明合适的输入子序列生成数量可结合预测效果和模型训练效率得到。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1