出行目标点识别方法及装置、模型开发、评价方法及装置与流程

文档序号:19676043发布日期:2020-01-10 23:20阅读:242来源:国知局
出行目标点识别方法及装置、模型开发、评价方法及装置与流程
本发明涉及数据处理领域,具体涉及一种出行目标点识别方法及装置、模型开发、评价方法及装置。
背景技术
:交通需求和供给失衡带来的交通拥堵等城市病会造成不必要的经济损失,同时交通管理面临的新挑战层出不穷,无论是交通基础设施建设,还是交通组织管理、交通运营管理都需要交通需求分析,出行特征分析,掌握交通需求特点。交通行为是一种派生性的需求,人始终是交通的主体,人的偏好(属性特征)是决定交通出行方式等出行特征的因素。因而,交通出行的特征分析要从每一个交通主体出发,只有以翔实的、准确的个体出行活动链特征数据为基础,包括个体每次出行过程中具体的出发时刻、到达时刻、换乘时间、出行方式等信息,才能准确把握区域范围内的居民出行特征。通常,个体的一次出行并不仅仅依赖于单一的交通方式,而是由多种交通方式组合共同完成,在实际环境中,通过个体出行数据可以直接获得出发时刻和到达时刻,但是无法从个体出行数据直接获取换乘时间和出行交通方式,交通方式转换点把一次出行切分为单一出行方式的组合,交通方式转换点识别是交通出行方式识别、获取个体出行信息、交通方式分担率研究的基础。因此,个体出行信息的提取问题主要集中在对个体一次出行过程中换乘行为/换乘点和换乘点之间的交通方式的识别上。目前对换乘行为/换乘点的识别方法中,较为准确且快速的方法为通过分类模型进行识别,但是,使用基于采样数据构建的验证集对构建的分类模型进行验证和评价时,由于采样数据的类型和数量有限,所得到的评价结果并不能有效反映该分类模型的输出结果与真实情况的贴合度。技术实现要素:因此,本发明要解决的技术问题在于,现有技术的模型评价方法不能有效反映该分类模型的输出结果与真实情况的贴合度,从而提供一种目标点识别方法及装置、模型开发、评价方法及装置。本发明第一方面提供一种出行目标点识别模型评价方法,包括:根据预设的出行目标点识别模型对出行数据进行识别,生成识别转换点序列;获取出行数据的真实转换点序列;根据识别转换点序列和真实转换点序列计算预设模型评价指标,预设模型评价指标包括目标行为起止时刻误差、目标行为时长误差、目标行为中心点偏移距离以及准确率;根据预设模型评价指标确定出行目标点识别模型的评价结果。可选地,根据识别转换点序列和真实转换点序列计算预设模型评价指标的步骤,包括:根据识别转换点序列获取目标行为的识别开始时刻和识别终止时刻;根据真实转换点序列获取目标行为的真实开始时刻和真实终止时刻;根据识别开始时刻、识别终止时刻、真实开始时刻、真实终止时刻确定目标行为起止时刻误差。可选地,根据识别转换点序列和真实转换点序列计算预设模型评价指标的步骤,还包括:根据识别开始时刻、识别终止时刻、真实开始时刻、真实终止时刻计算目标行为的识别时长和实际时长;根据识别时长和实际时长确定目标行为时长误差。可选地,根据识别转换点序列和真实转换点序列计算预设模型评价指标的步骤,包括:根据识别转换点序列获取识别转换点序列的中心点的纬度和经度;根据真实转换点序列获取真实转换点序列的中心点的纬度和经度;根据地球半径、识别转换点序列的中心点的纬度、经度,以及真实转换点序列的中心点的纬度、经度确定目标行为中心点偏移距离。可选地,根据预设模型评价指标确定出行目标点识别模型的评价结果的步骤,包括:若目标行为起止时刻误差、目标行为时长误差、目标行为中心点偏移距离以及准确率均大于各自阈值,则判定预设的出行目标点识别模型合格。本发明第二方面提供一种出行目标点识别模型开发方法,包括:获取多条出行数据,出行数据包括开发集和验证集;提取开发集中各采样点的特征值和验证集中各采样点的特征值;根据预设的集成学习方法和所述训练集中各采样点的特征值,开发初始出行目标点识别模型;根据验证集获取真实转换点序列;将验证集中各采样点的特征值输入初始出行目标点识别模型,获取识别转换点序列;根据识别转换点序列和真实转换点序列计算预设模型评价指标,预设模型评价指标包括目标行为起止时刻误差、目标行为时长误差、目标行为中心点偏移距离以及准确率;根据预设模型评价指标确定初始出行目标点识别模型的评价结果;若评价结果为合格,则将初始出行目标点识别模型确定为出行目标点识别模型;若评价结果为不合格,返回提取训练集中各采样点的特征值和验证集中各采样点的特征值,或,根据预设的集成学习方法和训练集中各采样点的特征值,开发初始出行目标点识别模型的步骤。本发明第三方面提供一种出行目标点识别方法,包括:获取待预测出行数据;提取待预测出行数据中各采样点的特征值;将待预测出行数据中各采样点的特征值输入出行目标点识别模型,获取目标点序列,出行目标点识别模型根据本发明第二方面提供的出行目标点识别模型开发方法获得。本发明第四方面提供一种出行目标点识别模型评价装置,包括:识别转换点序列获取模块,用于根据预设的出行目标点识别模型对出行数据进行识别,生成识别转换点序列;真实转换点序列获取模块,用于获取出行数据的真实转换点序列;预设模型评价指标计算模块,用于根据识别转换点序列和真实转换点序列计算预设模型评价指标,预设模型评价指标包括目标行为起止时刻误差、目标行为时长误差、目标行为中心点偏移距离以及准确率;出行目标点识别模型评价模块,用于根据预设模型评价指标确定出行目标点识别模型的评价结果。本发明第五方面提供一种出行目标点识别模型开发装置,包括:出行数据获取模块,用于获取多条出行数据,出行数据包括开发集和验证集;特征值提取模块,用于提取开发集中各采样点的特征值和验证集中各采样点的特征值;初始出行目标点识别模型建立模块,用于根据预设的集成学习方法和所述训练集中各采样点的特征值,开发初始出行目标点识别模型;真实转换点序列获取模块,用于根据验证集获取真实转换点序列;识别转换点序列获取模块,用于将验证集中各采样点的特征值输入初始出行目标点识别模型,获取识别转换点序列;预设模型评价指标计算模块,用于根据识别转换点序列和真实转换点序列计算预设模型评价指标,预设模型评价指标包括目标行为起止时刻误差、目标行为时长误差、目标行为中心点偏移距离以及准确率;初始出行目标点识别模型评价模块,用于根据预设模型评价指标确定初始出行目标点识别模型的评价结果;出行目标点识别模型判定模块,用于对初始出行目标点识别模型进行判定,若评价结果为合格,则将初始出行目标点识别模型确定为出行目标点识别模型,若评价结果为不合格,触发执行特征值提取模块,或,初始出行目标点识别模型建立模块。本发明第六方面提供一种出行目标点识别装置,包括:待预测出行数据获取模块,用于获取待预测出行数据;待预测出行数据特征值提取模块,用于提取待预测出行数据中各采样点的特征值;目标点序列识别模块,用于将待预测出行数据中各采样点的特征值输入出行目标点识别模型,获取目标点序列,出行目标点识别模型根据本发明第二方面提供的出行目标点识别模型开发方法获得。本发明第七方面提供一种计算机设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,从而执行本发明第一方面提供的出行目标点识别模型评价方法,或,本发明第二方面提供的出行目标点识别模型开发方法,或,本发明第三方面提供的出行目标点识别方法。本发明第八方面提供一种计算机可读存储介质,其特征在于,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行本发明第一方面提供的出行目标点识别模型评价方法,或,本发明第二方面提供的出行目标点识别模型开发方法,或,本发明第三方面提供的出行目标点识别方法。本发明技术方案,具有如下优点:1.本发明提供的出行目标点识别模型评价方法,对出行目标点识别模型进行评价时,所用的预设模型评价指标在准确率的基础上,新加了目标行为起止时刻误差、目标行为时长误差、目标行为中心点偏移距离,通过本发明提供的评价方法对出行目标点识别模型进行评价,评价结果不仅体现了准确率,而且能够反映通过该出行目标点识别模型识别的转换点序列与真实转换点序列之间存在的时间序列上的伸缩和错位等误差情况,因此,该评价结果更切合实际。2.本发明提供的出行目标点识别模型开发方法,在通过训练集和预设集成学习方法开发生成初始出行目标点识别模型之后,还会将验证集输入初始出行目标点识别模型,生成识别转换点序列,根据识别转换点序列和真实转换点序列计算起止时刻误差、目标行为时长误差、目标行为中心点偏移距离以及准确率,通过上述起止时刻误差、目标行为时长误差、目标行为中心点偏移距离以及准确率对初始出行目标点识别模型进行评价,若评价结果为合格,将该初始出行目标点识别模型确定为出行目标点识别模型,若评价结果不合格,则返回提取训练集中各采样点的特征值和验证集中各采样点的特征值,或,根据预设的集成学习方法和训练集中各采样点的特征值,开发初始出行目标点识别模型的步骤重新进行开发,通过实施本发明提供的出行目标点识别模型开发方法得出的出行目标点识别模型在保证了准确率的前提下,有效控制了通过出行目标点识别模型识别的转换点序列与真实转换点序列之间存在的时间序列上的伸缩和错位等误差,克服了现有的出行目标点识别模型的局限性,精确度更高。3.本发明提供的出行目标点识别方法,对目标点序列进行识别时,采用的出行目标点识别模型是通过本发明第二方面提供的出行目标点识别模型开发方法得到的,因此该出行目标点识别模型有较高的精度,从而本发明提供的出行目标点识别方法识别的目标点序列更为准确。4.本发明提供的出行目标点识别模型评价装置,对出行目标点识别模型进行评价时,所用的预设模型评价指标在准确率的基础上,新加了目标行为起止时刻误差、目标行为时长误差、目标行为中心点偏移距离,通过本发明提供的评价装置对出行目标点识别模型进行评价,评价结果不仅体现了准确率,而且能够反映通过该出行目标点识别模型识别的转换点序列与真实转换点序列之间存在的时间序列上的伸缩和错位等误差情况,因此,该评价结果更切合实际。5.本发明提供的出行目标点识别模型开发装置,在通过开发集对预设神经网络进行开发生成初始出行目标点识别模型之后,还会将验证集输入初始出行目标点识别模型,生成识别转换点序列,根据识别转换点序列和真实转换点序列计算起止时刻误差、目标行为时长误差、目标行为中心点偏移距离以及准确率,通过上述起止时刻误差、目标行为时长误差、目标行为中心点偏移距离以及准确率对初始出行目标点识别模型进行评价,若评价结果为合格,将该初始出行目标点识别模型确定为出行目标点识别模型,若评价结果不合格,则触发执行特征值提取模块,或,初始出行目标点识别模型建立模块,重新开发出行目标点识别模型,通过本发明提供的出行目标点识别模型开发装置开发出的出行目标点识别模型在保证了准确率的前提下,有效控制了通过出行目标点识别模型识别的转换点序列与真实转换点序列之间存在的时间序列上的伸缩和错位等误差,克服了现有的出行目标点识别模型的局限性,精确度更高。6.本发明提供的出行目标点识别装置,对目标点序列进行识别时,采用的出行目标点识别模型是通过本发明第二方面提供的出行目标点识别模型开发方法得到的,因此该出行目标点识别模型有较高的精度,从而本发明提供的出行目标点识别装置识别的目标点序列更为准确。附图说明为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为通过现有技术识别的转换点序列与真实转换点序列的对比图;图2-图6为本发明实施例中出行目标点识别模型评价方法的具体示例的流程图;图7为本发明实施例中出行目标点识别模型开发方法的一个具体示例的流程图;图8为本发明实施例中模型输入特征分布分析图;图9为本发明实施例中randomforest模型的性能验证效果图;图10为本发明实施例中adaboost模型的性能验证效果图;图11为本发明实施例中gradientboostingdecisiontree模型的性能验证效果图;图12为本发明实施例中xgboost模型的性能验证效果图;图13为本发明实施例中出行目标点识别方法的一个具体示例的流程图;图14为本发明实施例中出行目标点识别模型评价装置的一个具体示例的结构框图;图15为本发明实施例中出行目标点识别模型开发装置的一个具体示例的结构框图;图16为本发明实施例中出行目标点识别装置的一个具体示例的结构框图;图17为本发明实施例中计算机设备一个具体示例的结构框图。具体实施方式下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。实施例1目前对交通出行过程中的转换点的识别方法中,较为准确且快速的方法为通过分类模型进行识别,但是在通过分类模型对转换点进行识别时,通常会出现识别出的换乘点构成的序列与真实的换乘点构成的序列存在误差,如图1所示,列出了两种通过分类模型识别出的转换点序列,将识别出的转换点序列与真实转换点序列做了对比,从图1中可以看出,通过现有的模型识别出的识别转换点序列与真实转换点序列之间在时间序列上存在的错位和伸缩。本发明实施例提供一种出行目标点识别模型评价方法,如图2所示,包括如下步骤:步骤s110:根据预设的出行目标点识别模型对出行数据进行识别,生成识别转换点序列,在一具体实施例中,预设的出行目标点识别模型可以是通过自适应增强(adaptiveboosting-adaboost)、梯度提升树(gradientboostingdecisiontree)、极端梯度提升(extremegradientboosting-xgboost)、随机森林(randomforest)等集成学习方法建立的分类模型,在对出行数据进行识别时,是对出行数据的各个采样点进行识别,分别判定各个采样点是否为转换点,从而根据识别出的连续的转换点建立识别转换点序列,其中,转换点是指出行数据中出行个体从一种交通方式转换为另一种交通方式过程中的采样点,本发明实施例的研究目标在于对转换点的识别,因此本发明实施例中所述的目标点是指转换点。步骤s120:获取出行数据的真实转换点序列,在一具体实施例中,出行数据是由多个采样点组成的,出行数据中出行个体从一种交通方式转换为另一种交通方式过程中的采样点为真实转换点,真实转换点序列是根据连续的真实转换点建立的序列。步骤s130:根据识别转换点序列和真实转换点序列计算预设模型评价指标,预设模型评价指标包括目标行为起止时刻误差、目标行为时长误差、目标行为中心点偏移距离以及准确率。在一具体实施例中,通过如下公式(1)计算准确率:其中,tp表示真实是转换点,识别结果也是转换点的采样点数量,tn表示真实是转换点,识别结果是非转换点的采样点数量,fp表示真实是非转换点,识别结果也是非转换点的采样点数量,fn表示真实是非转换点,识别结果是转换点的采样点数量。步骤s140:根据预设模型评价指标确定出行目标点识别模型的评价结果。本发明实施例提供的出行目标点识别模型评价方法,对出行目标点识别模型进行评价时,所用的预设模型评价指标在准确率的基础上,新加了目标行为起止时刻误差、目标行为时长误差、目标行为中心点偏移距离,通过本发明实施例提供的评价方法对出行目标点识别模型进行评价,评价结果不仅体现了准确率,而且能够反映通过该出行目标点识别模型识别转换点序列与真实转换点序列之间存在的时间序列上的伸缩和错位等误差情况,因此,该评价结果更切合实际。在一可选实施例中,如图3所示,步骤s130具体包括:步骤s131:根据识别转换点序列获取目标行为的识别开始时刻和识别终止时刻,在一具体实施例中,目标行为是指换乘行为,识别转换点序列是根据连续的识别出的转换点构建的,因此目标行为的识别开始时刻为识别转换点序列中第一个转换点对应的时刻,同理,目标行为的识别终止时刻为识别转换点序列中最后一个转换点对应的时刻。步骤s132:根据真实转换点序列获取目标行为的真实开始时刻和真实终止时刻,在一具体实施例中,目标行为的真实开始时刻为真实转换点序列中第一个转换点对应的时刻,目标行为的真实终止时刻为真实转换点序列中最后一个转换点对应的时刻。步骤s133:根据识别开始时刻、识别终止时刻、真实开始时刻、真实终止时刻确定目标行为起止时刻误差。在一具体实施例中,通过如下公式(2)和(3)计算目标行为起止时刻误差:其中,timediff1表示时刻误差,treal_start表示真实开始时刻,tidentify_start表示识别开始时刻,treal_end表示真实终止时刻,tidentify_end表示识别终止时刻。其中,pste2表示目标行为起止时刻误差,numtimediff1<2表示小于2分钟的时刻误差和,numtimediff1表示时刻误差总和,在本实施例中,计算目标行为起止时刻误差时,以2分钟为允许误差,用一次出行过程中换乘时刻误差在2分钟内的百分比作为评价指标,在实际应用中,也可根据实际需求设定不同的允许误差。在一可选实施例中,如图4所示,步骤s130还包括:步骤s134:根据识别开始时刻、识别终止时刻、真实开始时刻、真实终止时刻计算目标行为的识别时长和实际时长。步骤s135:根据识别时长和实际时长确定目标行为时长误差。在一具体实施例中,通过如下公式(4)和(5)计算目标行为时长误差:timediff2=||treal_start-treal_end|-|tidentify_start-tidentify_end||,(4)其中,timediff2表示时长误差。其中,pte2表示目标行为时长误差,numtimediff2<2表示小于2分钟的时长误差和,numtimediff2表示时长误差总和,在本实施例中,计算目标行为时长误差时,以2分钟为允许误差,用一次出行过程中换乘时长误差在2分钟内的百分比作为评价指标,在实际应用中,也可根据实际需求设定不同的允许误差。在本发明实施例中,在预设模型评价指标中添加了目标行为起止时刻误差和目标行为时长误差,通过这两个评价指标可以反映出行目标点识别模型识别转换点序列与真实转换点序列之间存在的时间序列上的伸缩的误差情况,使评价结果更贴合实际。在一可选实施例中,如图5所示,步骤s130包括:步骤s136:根据识别转换点序列获取识别转换点序列的中心点的纬度和经度。步骤s137:根据真实转换点序列获取真实转换点序列的中心点的纬度和经度。步骤s138:根据地球半径、识别转换点序列的中心点的纬度、经度,以及真实转换点序列的中心点的纬度、经度确定目标行为中心点偏移距离。在一具体实施例中,通过如下公式(6)和(7)计算目标行为中心点偏移距离:其中,distdiff表示偏移距离,r表示地球半径,latreal表示真实转换点序列的中心点的纬度,longreal表示真实转换点序列的中心点的经度,latidentify表示识别转换点序列的中心点的纬度,longidentify表示识别转换点序列的中心点的经度。其中,pco30‘表示目标行为中心点偏移距离,numdistdiff<30表示小于30米的偏移距离和,numdistdiff表示偏移距离总和,在本实施例中,以30米作为允许误差,用一次出行过程中中心点偏移距离误差在30米内的百分比作为评价指标,在实际应用中,也可根据实际需求设定不同的允许误差。在本发明实施例中,在预设模型评价指标中添加了表示目标行为中心点偏移距离,通过表示目标行为中心点偏移距离可以反应出行目标点识别模型识别转换点序列与真实转换点序列之间存在的时间序列上的伸缩和错位等误差情况,使评价结果更贴合实际。在一可选实施例中,如图6所示,步骤s140具体包括:步骤s141:若目标行为起止时刻误差、目标行为时长误差、目标行为中心点偏移距离以及准确率均大于各自阈值,则判定预设的出行目标点识别模型合格。若目标行为起止时刻误差、目标行为时长误差、目标行为中心点偏移距离以及准确率其中任意一项小于其对应的自阈值,判定该预设的出行目标点识别模型不合格。实施例2本发明实施例提供一种出行目标点识别模型开发方法,如图7所示,包括:步骤s210:获取多条出行数据,出行数据包括训练集和验证集,其中,每条出行数据由多个采样点组成。步骤s220:提取训练集中各采样点的特征值和验证集中各采样点的特征值。在一具体实施例中,每个采样点的特征值基于该采样点的前后n个时间长度窗口所形成的采样点序列进行计算的,出行数据的前后各n个采样点的特征值时,点由于不满足窗口计算条件,无法计算其特征值,本实施例参考卷积神经网络里filter的padding算法,分别以出行数据段首尾采样点数据在出行数据首尾点前后按时序各补充n个相同的轨迹点记录,计算所有点的特征向量组合在一起构成出行数据的运动特征向量,最后得到出行数据特征数据表。对每个采样点提取的特征如下表1所示:表1在一具体实施例中,模型输入特征分布分析如图8所示。步骤s230:根据预设的集成学习方法和训练集中各采样点的特征值,开发初始出行目标点识别模型。在一具体实施例中,预设的集成学习方法可以是通过自适应增强(adaptiveboosting,adaboost)、梯度提升树(gradientboostingdecisiontree)、极端梯度提升(extremegradientboosting,xgboost)、随机森林(randomforest)等集成学习方法中的任意一种或多种。步骤s240:根据验证集获取真实转换点序列;步骤s250:将验证集中各采样点的特征值输入初始出行目标点识别模型,获取识别转换点序列;步骤s260:根据识别转换点序列和真实转换点序列计算预设模型评价指标,预设模型评价指标包括目标行为起止时刻误差、目标行为时长误差、目标行为中心点偏移距离以及准确率,详细描述见上述实施例1中对步骤s130的描述。步骤s270:根据预设模型评价指标确定初始出行目标点识别模型的评价结果,详细描述见上述实施例1中对步骤s140的描述。步骤s280:若评价结果为合格,则将初始出行目标点识别模型确定为出行目标点识别模型;若评价结果为不合格,返回提取训练集中各采样点的特征值和验证集中各采样点的特征值,或,根据预设的集成学习方法和训练集中各采样点的特征值,开发初始出行目标点识别模型的步骤。本发明实施例提供的出行目标点识别模型开发方法,在根据预设的集成学习方法和训练集中各采样点的特征值,开发初始出行目标点识别模型之后,还会将验证集输入初始出行目标点识别模型,生成识别转换点序列,根据识别转换点序列和真实转换点序列计算起止时刻误差、目标行为时长误差、目标行为中心点偏移距离以及准确率,通过上述起止时刻误差、目标行为时长误差、目标行为中心点偏移距离以及准确率对初始出行目标点识别模型进行评价,若评价结果为合格,将该初始出行目标点识别模型确定为出行目标点识别模型,若评价结果不合格,则返回提取训练集中各采样点的特征值和验证集中各采样点的特征值,或,根据预设的集成学习方法和训练集中各采样点的特征值,开发初始出行目标点识别模型的步骤重新进行开发,通过实施本发明实施例提供的出行目标点识别模型开发方法开发出的出行目标点识别模型在保证了准确率的前提下,有效克服了通过出行目标点识别模型识别的转换点序列与真实转换点序列之间存在的时间序列上的伸缩和错位等误差,克服了现有的出行目标点识别模型的局限性,精确度更高。在一具体实施例中,如果返回步骤s220,需重新选取特征并进行特征值的提取,根据新的特征值和预设的集成学习方法开发初始出行目标点识别模型。如果返回步骤s230,在已有的特征值的基础上,需重新选取新的集成学习方法开发初始出行目标点识别模型。在一可选实施例中,在步骤s210之后,步骤s220之前,该出行目标点识别模型开发方法还包括:步骤s290:清洗出行数据。在一具体实施例中,对于步骤s280,当初始出行目标点识别模型的评价结果不合格时,也可以返回步骤s290,重新对数据进行清洗。在一具体实施例中,清洗出行数据包括如下四种情况:1.出行数据是基于gps获取的,由于gps信号存在被干扰及设备自身存在误差等不可避免的因素,采样生成的出行数据与真实出行数据并不完全相同,在出行数据采样点中存在偏离正常位置的虚假记录点,即异常点。本发明实施例将瞬时速度大于60km/h的点看做异常点,给予删除并作为缺失记录处理;2.将持续时长小于5min或采样点个数小于60的出行数据视为无效出行数据,予以删除;3.同一出行方式段内,若出行数据缺失时长大于2min,则进行出行段划分处理,令前一点为当前行程的终点,后一点为下一行程的起点;若缺失时长小于2min,用卡尔曼滤波对缺失数据进行插补;4.异常点的识别去除了漂移程度较大的点,但剩余较小的漂移则仍然保留在出行数据中,表现为出行数据主体在真实位置一定半径范围内的跳跃现象。本发明实施例使用扩展卡尔曼滤波对轨迹进行误差修正。在一具体实施例中,可通过自适应增强、梯度提升树、极端梯度提升、随机森林等集成学习方法中的任意一种对训练集中各采样点的特征值进行开发,得到初始出行目标点识别模型。但是为了选择最优的出行目标点识别模型,本发明实施例分别通过自适应增强、梯度提升树、极端梯度提升、随机森林集成学习方法对训练集中各采样点的特征值进行开发,得到四个初始出行目标点识别模型,然后从四个初始出行目标点识别模型中选择最优的模型作为出行目标点识别模型,具体开发方法如下:adaboost、randomforest、gradientboostingdecisiontree三种模型的最优超参数组合形式为:[窗口尺寸(window_size),最大深度(max_depth),叶节点最小样本数(min_samples_leaf),拆分节点最小样本数(min_samples_split),森林中树的数量(n_estimators)],对于xgboost模型,最优超参数组合形式为:[窗口尺寸(window_size),最大深度(max_depth),子样本(subsample),构造树的子样本比率(colsample_bytree),森林中树的数量(n_estimators)]。由于不同的窗口大小尺寸会导致特征数据的分布发生变化,因此本发明实施例首先确定窗口大小,在基于窗口大小的基础上再用网格搜索对4种模型的最优超参数进行寻优,窗口数和超参数集如下表2所示:表2通过上述步骤s210-步骤s230对上述四种模型进行开发,结合上述步骤s240-步骤s280对开发出的模型进行评价,模型的性能验证效果图和分析如图9-图12所示。从图9-图12可以看出,randomforest模型在窗口尺寸为25时达到最优,adaboost模型和gradientboostingdecisontree(gbdt)模型在窗口尺寸为30时达到最优,xgboost模型在窗口尺寸为35时达到最优,说明窗口尺寸的大小确实会造成数据分布的变化从而影响模型的性能,值得注意的是即使在模型最优的情况下,四个模型中的起止时刻误差在2min内的占比都很低,造成这个现象的原因是很多的,比如被调查者延迟标记换乘等待状态或提前结束换乘等待状态,导致识别转换点序列较真实转换点序列在时间序列上展现为拉伸,而中心转换点却相距不远。选取一个人独立的为期12天的22段出行数据作为测试集数据,用于模拟通过本发明实施例提供的出行目标点识别模型开发方法开发出的出行目标点识别模型在实际工程中的误差,验证模型的有效性。通过上述步骤s240-步骤s270计算不同模型的预设模型评价指标,模型的最终结果如下表3所示,表3模型名称最优超参数组合accuracy(%)pste2(%)pte2(%)pco30(%)adaboost[30,20,4,5,500]98.754.610089.4gbdt[30,20,8,5,300]98.455.010094.7xgboost[35,30,0.5,1,500]98.352.610093.8randomforest[25,20,4,5,400]95.952.610091.1从上述四个预设模型评价指标来看,gbdt模型虽然准确率(accuracy)相较于adaboost稍差一点,但是目标行为起止时刻误差(pste2)、目标行为时长误差(pte2)、目标行为中心点偏移距离(pco30)这三项模型评价指标值均为四个模型中最优,因此选择超参数组合为[30,20,8,5,300]的gbdt模型作为最终的出行目标点识别模型。在本发明实施例中,先对四种模型分别按照上述步骤s210-步骤s280进行开发,得到四个初始出行目标点识别模型,然后从四个初始出行目标点识别模型中选择最优的作为出行目标点识别模型,由于模型本身的性能不同,所以即使将不同的模型都按照相同的步骤进行开发,得到的初始出行目标点识别模型得性能也是不同的,本发明实施例将多种模型同时进行开发,从而挑选最优的模型作为出行目标点识别模型,如此得出的出行目标点识别模型性能更优。实施例3本发明实施例提供一种出行目标点识别方法,如图13所示,包括:步骤s310:获取待预测出行数据,每条出行数据由多个采样点组成;步骤s320:提取待预测出行数据中各采样点的特征值,详细描述见上述实施例2中对步骤s220的描述。步骤s330:将待预测出行数据中各采样点的特征值输入出行目标点识别模型,获取目标点序列,出行目标点识别模型根据上述实施例2提供的出行目标点识别模型开发方法获得,详细描述见上述实施例2中对出行目标点识别模型开发方法的描述。本发明实施例提供的出行目标点识别方法,对目标点序列进行识别时,采用的出行目标点识别模型是通过本发明实施例2提供的出行目标点识别模型开发方法得到的,因此该出行目标点识别模型有较高的精度,从而本发明提供的出行目标点识别方法识别的目标点序列更为准确。实施例4本发明实施例提供一种出行目标点识别模型评价装置,如图14所示,包括:识别转换点序列获取模块110,用于根据预设的出行目标点识别模型对出行数据进行识别,生成识别转换点序列,详细描述见上述实施例1中对步骤s110的描述。真实转换点序列获取模块120,用于获取出行数据的真实转换点序列,详细描述见上述实施例1中对步骤s120的描述。预设模型评价指标计算模块130,用于根据识别转换点序列和真实转换点序列计算预设模型评价指标,预设模型评价指标包括目标行为起止时刻误差、目标行为时长误差、目标行为中心点偏移距离以及准确率,详细描述见上述实施例1中对步骤s130的描述。出行目标点识别模型评价模块140,用于根据预设模型评价指标确定出行目标点识别模型的评价结果,详细描述见上述实施例1中对步骤s140的描述。本发明实施例提供的出行目标点识别模型评价装置,对出行目标点识别模型进行评价时,所用的预设模型评价指标在准确率的基础上,新加了目标行为起止时刻误差、目标行为时长误差、目标行为中心点偏移距离,通过本发明提供的评价装置对出行目标点识别模型进行评价,评价结果不仅体现了准确率,而且能够反映通过该出行目标点识别模型识别的转换点序列与真实转换点序列之间存在的时间序列上的伸缩和错位等误差情况,因此,该评价结果更切合实际。实施例5本发明实施例提供一种出行目标点识别模型开发装置,如图15所示,包括:出行数据获取模块210,用于获取多条出行数据,出行数据包括训练集和验证集,详细描述见上述实施例2中对步骤s210的描述。特征值提取模块220,用于提取训练集中各采样点的特征值和验证集中各采样点的特征值,详细描述见上述实施例2中对步骤s220的描述。初始出行目标点识别模型建立模块230,用于根据预设的集成学习方法和训练集中各采样点的特征值,开发初始出行目标点识别模型,详细描述见上述实施例2中对步骤s230的描述。真实转换点序列获取模块240,用于根据验证集获取真实转换点序列,详细描述见上述实施例2中对步骤s240的描述。识别转换点序列获取模块250,用于将验证集中各采样点的特征值输入初始出行目标点识别模型,获取识别转换点序列,详细描述见上述实施例2中对步骤s250的描述。预设模型评价指标计算模块260,用于根据识别转换点序列和真实转换点序列计算预设模型评价指标,预设模型评价指标包括目标行为起止时刻误差、目标行为时长误差、目标行为中心点偏移距离以及准确率,详细描述见上述实施例2中对步骤s260的描述。初始出行目标点识别模型评价模块270,用于根据预设模型评价指标确定初始出行目标点识别模型的评价结果,详细描述见上述实施例2中对步骤s270的描述。出行目标点识别模型判定模块280,用于对初始出行目标点识别模型进行判定,若评价结果为合格,则将初始出行目标点识别模型确定为出行目标点识别模型,若评价结果为不合格,触发执行特征值提取模块,或,初始出行目标点识别模型建立模块,详细描述见上述实施例2中对步骤s280的描述。本发明实施例提供的出行目标点识别模型开发装置,在根据预设的集成学习方法和训练集中各采样点的特征值,开发初始出行目标点识别模型之后,还会将验证集输入初始出行目标点识别模型,生成识别转换点序列,根据识别转换点序列和真实转换点序列计算起止时刻误差、目标行为时长误差、目标行为中心点偏移距离以及准确率,通过上述起止时刻误差、目标行为时长误差、目标行为中心点偏移距离以及准确率对初始出行目标点识别模型进行评价,若评价结果为合格,将该初始出行目标点识别模型确定为出行目标点识别模型,若评价结果不合格,则触发执行特征值提取模块,或,初始出行目标点识别模型建立模块,重新开发出行目标点识别模型,通过本发明实施例提供的出行目标点识别模型开发装置开发出的出行目标点识别模型在保证了准确率的前提下,有效控制了通过出行目标点识别模型识别的转换点序列与真实转换点序列之间存在的时间序列上的伸缩和错位等误差,克服了现有的出行目标点识别模型的局限性,精确度更高。实施例6本发明实施例提供一种出行目标点识别装置,如图16所示,包括:待预测出行数据获取模块310,用于获取待预测出行数据,详细描述见上述实施例3中对步骤s310的描述。待预测出行数据特征值提取模块320,用于提取待预测出行数据中各采样点的特征值,详细描述见上述实施例3中对步骤s320的描述。目标点序列识别模块330,用于将待预测出行数据中各采样点的特征值输入出行目标点识别模型,获取目标点序列,出行目标点识别模型根据上述实施例2中提供的出行目标点识别模型开发方法获得,详细描述见上述实施例2中对步骤s210-步骤s280的描述。本发明实施例提供的出行目标点识别装置,对目标点序列进行识别时,采用的出行目标点识别模型是通过本发明实施例2提供的出行目标点识别模型开发方法得到的,因此该出行目标点识别模型有较高的精度,从而本发明实施例提供的出行目标点识别装置识别的目标点序列更为准确。实施例7本发明实施例提供一种计算机设备,如图17所示,该计算机设备主要包括一个或多个处理器41以及存储器42,图17中以一个处理器41为例。该计算机设备还可以包括:输入装置43和输出装置44。处理器41、存储器42、输入装置43和输出装置44可以通过总线或者其他方式连接,图17中以通过总线连接为例。处理器41可以为中央处理器(centralprocessingunit,cpu)。处理器41还可以为其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器42可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据出行目标点识别模型评价装置,或,出行目标点识别模型开发装置,或,出行目标点识别装置的使用所创建的数据等。此外,存储器42可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器42可选包括相对于处理器41远程设置的存储器,这些远程存储器可以通过网络连接至出行目标点识别模型评价装置,或,出行目标点识别模型开发装置,或,出行目标点识别装置。输入装置43可接收用户输入的计算请求(或其他数字或字符信息),以及产生与出行目标点识别模型评价装置,或,出行目标点识别模型开发装置,或,出行目标点识别装置有关的键信号输入。输出装置44可包括显示屏等显示设备,用以输出计算结果。实施例8本发明提供了一种计算机可读存储介质,该计算机可读存储介质存储计算机指令,本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)、随机存储记忆体(randomaccessmemory,ram)、快闪存储器(flashmemory)、硬盘(harddiskdrive,缩写:hdd)或固态硬盘(solid-statedrive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1