一种交通流预测中数据库设计方法及其查询向量得出方法

文档序号：8498699阅读：318来源：国知局

一种交通流预测中数据库设计方法及其查询向量得出方法
【技术领域】
[0001] 本发明属于短时交通流预测技术领域，特别涉及一种K近邻非参数回归短时交通流预测中数据库设计方法。
【背景技术】
[0002] 目前国内外许多研宄者都将非参数回归方法应用到短时交通流预测研宄当中，并根据实际问题的需要对非参数回归方法进行必要的改进。1991年，Davis和Nihan真正将非参数回归的方法应用到交通预测中，虽然避免了选取模型和参数设置等问题，但该方法需要一个庞大的具有代表性的历史数据库并且方法运行所消耗的时间较长。1995年，Smith 将非参数回归方法应用于单点短时交通流预测，实验结果取得了相比历史平均和神经网络更好的效果，但同样存在搜索速度太慢的问题。针对搜索速度太慢的问题，Oswald等人从 KD树着手建立模糊最近邻的方法，从而改进了非参数回归方法中历史数据结构模式和近邻搜索方法，提高了方法的运行效率。
[0003] 非参数回归预测方法的基础是存储历史数据的数据库，当前实时采集的数据需要在数据库中寻找最相似的匹配数据为预测做准备。现阶段主要的数据库的设计方法是利用商业数据库软件存储历史数据，并通过这些商业数据库软件的搜索和查询接口来做当前数据的实时匹配。这样存在的问题是，虽然利用商业软件简化了非参数回归预测方法的实施过程，但是却提升了方法实施成本。同时，因为方法在运行过程中的每一次数据匹配都需要和商业数据库交换数据。这也减慢了方法的运行速度。更为重要的是，不加处理就将原始数据填入数据库，会造成近邻的模糊匹配，增加预测误差。

【发明内容】

[0004] 为了解决上述问题，提供一种使用了K近邻分析并且搭建一个基于红黑树构成的搜索数据库。同时提供了一种交通流预测中数据库的查询向量得出方法。
[0005] 本发明的一种交通流预测中数据库设计方法，包括如下步骤：
[0006] 步骤1、导入原始数据并剔除其中的异常数据；
[0007] 步骤2、创建原始数据库；
[0008] 步骤3、通过k均值算法将原始数据分类；
[0009] 步骤4、通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据库；
[0010] 步骤5、通过聚类中心点数据库构建基于红黑树的搜索数据库；
[0011] 步骤6、通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量。
[0012] 优选地，剔除异常数据的方法为闵值法。
[0013] 优选地，k均值算法将原始数据分类包括如下步骤：
[0014] 步骤31、设定元素集合D、每个元素具有N个可观察属性；
[0015] 步骤32、从D中随机取k个元素，做为k个簇的各自的中心；
[0016] 步骤33、分别计算剩下的元素到k个簇中心的相异度，将这些元素分别划归到相异度最低的簇；
[0017] 步骤34、根据聚类结果，重新计算k个簇各自的中心，计算方法是取簇中所有元素的各自维度的算术平均值；
[0018] 步骤35、将D中全部元素按照新的中心重新聚类；
[0019] 步骤36、重复步骤35,直到聚类结果不再变化；
[0020] 步骤37、输出结果。
[0021] 优选地，所述通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据库包括如下步骤：
[0022] 步骤41、通过步骤3得到N个聚类，将每个聚类的数据做算术平均得到聚类中心点，并根据相异度的大小取前K个最小距离作为对应聚类中心的K个近邻，K个近邻的具体数值构成近邻数据库；
[0023] 步骤42、把聚类中心数据和其K个近邻分离，各自单独存储，构成聚类中心数据库。
[0024] -种交通流预测中数据库的查询向量得出方法，通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量，其中主成分分析法利用降维数学原理，它利用一个正交变换，将随机向量内的相互关联的分量转化成互不相关的新分量，即将多个相互关联的变量通过线性组合成几个互不相关的主要变量，即所谓的主成分，包括如下步骤：
[0025] 步骤一、标准化原始数据；
[0026] 步骤二、确定相关系数矩阵；
[0027] 步骤三、确定主成分；
[0028] 步骤四、确定主成分数量和权重。
[0029] 本发明的有益效果：由于进行了原始数据的剔除，所有缩小了预测误差；同时使用的K近邻分析，所以缩短了运行时间。
【具体实施方式】
[0030] 下面结合具体的实施例对本发明作进一步的阐述。
[0031] 本发明的一种K近邻非参数回归短时交通流预测中数据库设计方法，包括如下步骤：
[0032] 步骤1、导入原始数据并剔除其中的异常数据；剔除异常数据的方法为闵值法。在实际采集统计数据过程中，难免会因为人为操作失误、通讯噪声干扰和不知名原因引发数据错误和数据缺失。所以，在导入原始数据时，需要对原始数据进行筛选，以捕捉到错误数据并改正或者剔除，标识缺失数据并进行补充。采取闽值法筛选错误数据，并采用近邻平均法纠正错误数据。一般来说，错误数据与正常数据的偏差很大，基于这个特点，首先采用闽值法去除明显错误数据。比如：在10分钟内通过的流量最多为1000单位，可以采用1100 作为流量的闽值。这样虽然不能发现并纠正所有错误，但是却可以纠正大部分错误。根据交通流量连续性定理，当然突然情况可能造成数据悬崖式跳变，某一时段内的交通流量应该与附近时段的流量相差不大，所以考虑近邻平均法来修复错误数据，BP :
[0033] ⑴
[0034] 或者根据车流"自重复性"的原理，采用历史上所有同一时刻的流量的平均值作为当前流量，即：
[0035]
【主权项】
1. 一种交通流预测中数据库设计方法，其特征在于，包括如下步骤：步骤1、导入原始数据并剔除其中的异常数据；步骤2、创建原始数据库；步骤3、通过k均值算法将原始数据分类；步骤4、通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据库；步骤5、通过聚类中心点数据库构建基于红黑树的搜索数据库；步骤6、通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量。
2. 如权利要求1所述的交通流预测中数据库设计方法，其特征在于：剔除异常数据的方法为闵值法。
3. 如权利要求1所述的交通流预测中数据库设计方法，其特征在于，k均值算法将原始数据分类包括如下步骤：步骤31、设定元素集合D、每个元素具有N个可观察属性；步骤32、从D中随机取k个元素，做为k个簇的各自的中心；步骤33、分别计算剩下的元素到k个簇中心的相异度，将这些元素分别划归到相异度最低的簇；步骤34、根据聚类结果，重新计算k个簇各自的中心，计算方法是取簇中所有元素的各自维度的算术平均值；步骤35、将D中全部元素按照新的中心重新聚类；步骤36、重复步骤35,直到聚类结果不再变化；步骤37、输出结果。
4. 如权利要求1所述的短时交通流预测中数据库设计方法，其特征在于，所述通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据库包括如下步骤：步骤41、通过步骤3得到N个聚类，将每个聚类的数据做算术平均得到聚类中心点，并根据相异度的大小取前K个最小距离作为对应聚类中心的K个近邻，K个近邻的具体数值构成近邻数据库；步骤42、把聚类中心数据和其K个近邻分离，各自单独存储，构成聚类中心数据库。
5. -种与交通流预测中数据库的查询向量得出方法，其特征在于，通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量，其中主成分分析法利用降维数学原理，它利用一个正交变换，将随机向量内的相互关联的分量转化成互不相关的新分量，即将多个相互关联的变量通过线性组合成几个互不相关的主要变量，即所谓的主成分，包括如下步骤：步骤一、标准化原始数据；步骤二、确定相关系数矩阵；步骤三、确定主成分；步骤四、确定主成分数量和权重。
【专利摘要】本发明公开了一种交通流预测中数据库设计方法及其查询向量得出方法，包括如下步骤：步骤1、导入原始数据并剔除其中的异常数据；步骤2、创建原始数据库；步骤3、通过k均值算法将原始数据分类；步骤4、通过步骤3得到数据分类确定聚类中心点并构建聚类中心数据库和近邻数据库；步骤5、通过聚类中心点数据库构建基于红黑树的搜索数据库。通过主成分分析法确定与基于红黑树的搜索数据库相匹配的状态向量。本发明的有益效果：由于进行了原始数据的剔除，所有缩小了预测误差；同时使用的K近邻分析，所以缩短了运行时间。
【IPC分类】G06F17-30
【公开号】CN104820691
【申请号】CN201510204400
【发明人】冷甦鹏, 林川, 刘浩, 张可
【申请人】电子科技大学
【公开日】2015年8月5日
【申请日】2015年4月27日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冷甦鹏;林川;刘浩;张可;
技术所有人：电子科技大学;
我是此专利的发明人

上一篇：一种建立索引的方法及装置的制造方法
上一篇：一种对终端显示的图片进行适配的方法及其系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。