一种交通流预测中数据库设计方法及其查询向量得出方法

文档序号:8498699阅读:291来源:国知局
一种交通流预测中数据库设计方法及其查询向量得出方法
【技术领域】
[0001] 本发明属于短时交通流预测技术领域,特别涉及一种K近邻非参数回归短时交通 流预测中数据库设计方法。
【背景技术】
[0002] 目前国内外许多研宄者都将非参数回归方法应用到短时交通流预测研宄当中,并 根据实际问题的需要对非参数回归方法进行必要的改进。1991年,Davis和Nihan真正将 非参数回归的方法应用到交通预测中,虽然避免了选取模型和参数设置等问题,但该方法 需要一个庞大的具有代表性的历史数据库并且方法运行所消耗的时间较长。1995年,Smith 将非参数回归方法应用于单点短时交通流预测,实验结果取得了相比历史平均和神经网络 更好的效果,但同样存在搜索速度太慢的问题。针对搜索速度太慢的问题,Oswald等人从 KD树着手建立模糊最近邻的方法,从而改进了非参数回归方法中历史数据结构模式和近邻 搜索方法,提高了方法的运行效率。
[0003] 非参数回归预测方法的基础是存储历史数据的数据库,当前实时采集的数据需要 在数据库中寻找最相似的匹配数据为预测做准备。现阶段主要的数据库的设计方法是利用 商业数据库软件存储历史数据,并通过这些商业数据库软件的搜索和查询接口来做当前数 据的实时匹配。这样存在的问题是,虽然利用商业软件简化了非参数回归预测方法的实施 过程,但是却提升了方法实施成本。同时,因为方法在运行过程中的每一次数据匹配都需要 和商业数据库交换数据。这也减慢了方法的运行速度。更为重要的是,不加处理就将原始 数据填入数据库,会造成近邻的模糊匹配,增加预测误差。

【发明内容】

[0004] 为了解决上述问题,提供一种使用了K近邻分析并且搭建一个基于红黑树构成的 搜索数据库。同时提供了一种交通流预测中数据库的查询向量得出方法。
[0005] 本发明的一种交通流预测中数据库设计方法,包括如下步骤:
[0006] 步骤1、导入原始数据并剔除其中的异常数据;
[0007] 步骤2、创建原始数据库;
[0008] 步骤3、通过k均值算法将原始数据分类;
[0009] 步骤4、通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻 数据库;
[0010] 步骤5、通过聚类中心点数据库构建基于红黑树的搜索数据库;
[0011] 步骤6、通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量。
[0012] 优选地,剔除异常数据的方法为闵值法。
[0013] 优选地,k均值算法将原始数据分类包括如下步骤:
[0014] 步骤31、设定元素集合D、每个元素具有N个可观察属性;
[0015] 步骤32、从D中随机取k个元素,做为k个簇的各自的中心;
[0016] 步骤33、分别计算剩下的元素到k个簇中心的相异度,将这些元素分别划归到相 异度最低的簇;
[0017] 步骤34、根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素 的各自维度的算术平均值;
[0018] 步骤35、将D中全部元素按照新的中心重新聚类;
[0019] 步骤36、重复步骤35,直到聚类结果不再变化;
[0020] 步骤37、输出结果。
[0021] 优选地,所述通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和 近邻数据库包括如下步骤:
[0022] 步骤41、通过步骤3得到N个聚类,将每个聚类的数据做算术平均得到聚类中心 点,并根据相异度的大小取前K个最小距离作为对应聚类中心的K个近邻,K个近邻的具体 数值构成近邻数据库;
[0023] 步骤42、把聚类中心数据和其K个近邻分离,各自单独存储,构成聚类中心数据 库。
[0024] -种交通流预测中数据库的查询向量得出方法,通过主成分分析法确定与基于红 黑树的搜索数据库相匹配的状态向量,其中主成分分析法利用降维数学原理,它利用一个 正交变换,将随机向量内的相互关联的分量转化成互不相关的新分量,即将多个相互关联 的变量通过线性组合成几个互不相关的主要变量,即所谓的主成分,包括如下步骤:
[0025] 步骤一、标准化原始数据;
[0026] 步骤二、确定相关系数矩阵;
[0027] 步骤三、确定主成分;
[0028] 步骤四、确定主成分数量和权重。
[0029] 本发明的有益效果:由于进行了原始数据的剔除,所有缩小了预测误差;同时使 用的K近邻分析,所以缩短了运行时间。
【具体实施方式】
[0030] 下面结合具体的实施例对本发明作进一步的阐述。
[0031] 本发明的一种K近邻非参数回归短时交通流预测中数据库设计方法,包括如下步 骤:
[0032] 步骤1、导入原始数据并剔除其中的异常数据;剔除异常数据的方法为闵值法。在 实际采集统计数据过程中,难免会因为人为操作失误、通讯噪声干扰和不知名原因引发数 据错误和数据缺失。所以,在导入原始数据时,需要对原始数据进行筛选,以捕捉到错误数 据并改正或者剔除,标识缺失数据并进行补充。采取闽值法筛选错误数据,并采用近邻平均 法纠正错误数据。一般来说,错误数据与正常数据的偏差很大,基于这个特点,首先采用闽 值法去除明显错误数据。比如:在10分钟内通过的流量最多为1000单位,可以采用1100 作为流量的闽值。这样虽然不能发现并纠正所有错误,但是却可以纠正大部分错误。根据 交通流量连续性定理,当然突然情况可能造成数据悬崖式跳变,某一时段内的交通流量应 该与附近时段的流量相差不大,所以考虑近邻平均法来修复错误数据,BP :
[0033] ⑴
[0034] 或者根据车流"自重复性"的原理,采用历史上所有同一时刻的流量的平均值作为 当前流量,即:
[0035]
【主权项】
1. 一种交通流预测中数据库设计方法,其特征在于,包括如下步骤: 步骤1、导入原始数据并剔除其中的异常数据; 步骤2、创建原始数据库; 步骤3、通过k均值算法将原始数据分类; 步骤4、通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据 库; 步骤5、通过聚类中心点数据库构建基于红黑树的搜索数据库; 步骤6、通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量。
2. 如权利要求1所述的交通流预测中数据库设计方法,其特征在于:剔除异常数据的 方法为闵值法。
3. 如权利要求1所述的交通流预测中数据库设计方法,其特征在于,k均值算法将原始 数据分类包括如下步骤: 步骤31、设定元素集合D、每个元素具有N个可观察属性; 步骤32、从D中随机取k个元素,做为k个簇的各自的中心; 步骤33、分别计算剩下的元素到k个簇中心的相异度,将这些元素分别划归到相异度 最低的簇; 步骤34、根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素的各 自维度的算术平均值; 步骤35、将D中全部元素按照新的中心重新聚类; 步骤36、重复步骤35,直到聚类结果不再变化; 步骤37、输出结果。
4. 如权利要求1所述的短时交通流预测中数据库设计方法,其特征在于,所述通过步 骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据库包括如下步骤: 步骤41、通过步骤3得到N个聚类,将每个聚类的数据做算术平均得到聚类中心点,并 根据相异度的大小取前K个最小距离作为对应聚类中心的K个近邻,K个近邻的具体数值 构成近邻数据库; 步骤42、把聚类中心数据和其K个近邻分离,各自单独存储,构成聚类中心数据库。
5. -种与交通流预测中数据库的查询向量得出方法,其特征在于,通过主成分分析法 确定与基于红黑树的搜索数据库相匹配的状态向量,其中主成分分析法利用降维数学原 理,它利用一个正交变换,将随机向量内的相互关联的分量转化成互不相关的新分量,即将 多个相互关联的变量通过线性组合成几个互不相关的主要变量,即所谓的主成分,包括如 下步骤: 步骤一、标准化原始数据; 步骤二、确定相关系数矩阵; 步骤三、确定主成分; 步骤四、确定主成分数量和权重。
【专利摘要】本发明公开了一种交通流预测中数据库设计方法及其查询向量得出方法,包括如下步骤:步骤1、导入原始数据并剔除其中的异常数据;步骤2、创建原始数据库;步骤3、通过k均值算法将原始数据分类;步骤4、通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据库;步骤5、通过聚类中心点数据库构建基于红黑树的搜索数据库。通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量。本发明的有益效果:由于进行了原始数据的剔除,所有缩小了预测误差;同时使用的K近邻分析,所以缩短了运行时间。
【IPC分类】G06F17-30
【公开号】CN104820691
【申请号】CN201510204400
【发明人】冷甦鹏, 林川, 刘浩, 张可
【申请人】电子科技大学
【公开日】2015年8月5日
【申请日】2015年4月27日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1