一种城市道路交通流数据抽样存储方法与装置的制作方法

文档序号:6443967阅读:270来源:国知局
专利名称:一种城市道路交通流数据抽样存储方法与装置的制作方法
技术领域
本发明涉及一种城市道路交通流数据抽样存储方法与装置。
背景技术
抽样调查是获取统计资料的重要手段,在社会、经济、科研等领域有着广泛的应用。抽样技术是统计学研究中的一个重要分支。基本的概率抽样方法包括简单随机抽样、分层抽样、整群抽样、多阶抽样、等距抽样及不等概率抽样等。
原始道路交通流数据不仅可以直接用于实时交通控制(包括信号配时、事故预测等),也用来满足交通规划等潜在应用需求。将原始信息进行有效的数据抽样,提取有用信息,实现数据减容,可以更好地满足不同用户的需求。例如,对于交通规划的应用软件来说,需要针对高速公路系统的趋势进行远期分析,这意味着将十亿字节的数据转化成了一页有用的信息。抽样技术的关键在于抽样的精度和可靠性。首先根据历史资料了解总体的方差,即总体的离散程度,方差大,就需要增大样本容量;其次确定需要的精度,精度越高,所需样本容量越大;最后就是技术问题,提高抽取的效率则能够降低所需的样本数。
在北京第二届国际ITS会议上高海龙撰写的《交通信息采集中的样本量分析》给出了数据采集中确定合适样本量的方法。在公路运输方面,交通部在1999年出台了“公路运输全行业统计抽样调查调查员手册”,专门对样本的确立和选择做了相应的论述。对交通流数据抽样与传统数学意义上的抽样不一样。
通过对城市交通指挥中心已有的数据管理实践工作的总结,发现工作难度集中在三方面数据大小、数据格式和数据质量。大多数交通指挥中心用来存储历史海量数据的方法过于简单和随意,大量数据未被存档,但这些数据对满足将来的不同需求又非常有用,因而需要对数据进行抽样存储。

发明内容
为了克服现有的技术的不足,本发明提供一种城市道路交通流数据抽样存储方法与装置,本发明解决其技术问题所采用的技术方案是一种城市道路交通流数据抽样存储方法包括一种基于最优化的抽样方法是误差平方和法,通过比较每个样本与样本总体特征的差值,统计其中差值最小的样本得到样本容量范围内的最佳抽样样本;另一种基于最优化的抽样方法是互验法,通过比较每个样本与剩余样本总体特征的差值,统计其中差值最小的样本得到样本容量范围内的最佳抽样样本。
一种城市道路交通流数据抽样存储装置包括原始数据读入装置、确定最佳样本量装置、误差平方和法确定最佳抽样日装置、互验法确定最佳抽样日装置和最佳抽样日数据输出装置五个部分。这五个部分相互连接,实现了上述的方法。
交通流数据管理中一项重要内容就是要对海量、实时数据进行存储。由于ITS数据量庞大,在不必要存储所有数据的情况下,可以考虑从具有相似性的一组数据集合中选择出最能够代表整体的数据样本,当使用该样本来代替总体数据集合时,系统可以仅保存该最佳样本数据,这就是数据抽样的含义。在实际操作过程中选定一定样本容量下的具有某种共同属性(如时间属性同为周一早高峰数据)的样本,采用数据抽样方法得到最佳样本数据,最终仅存储最佳样本日数据而非所有的样本数据,从而有效的降低了存储需求。所发明的方法涉及两种抽样方法,误差平方和法(SSE)和互验法(CV),内容包括应用数理统计的方法,得到海量交通流数据的最佳样本量,然后通过比较每个样本与样本总体特征的差值,统计其中差值最小的样本得到样本容量范围内的最佳抽样样本。用最佳样本数据来代替总体样本能够在节省存储空间的同时又尽可能的保留原始数据的规律和信息。可以测试在权重一定时,随着样本容量的不断变化,最佳抽样样本的变化情况;也可以测试在样本容量一定时,不同权重下最佳抽样样本的变化情况,即最佳抽样样本对权重的敏感度问题。
本发明涉及到了数理统计中的中心极限定理、最优化的误差平方和法和互验法等相关理论。中心极限定理可以建立非正态分布和正态分布样本量之间的相关关系,为不同总体样本之间的关联建立桥梁,就可以根据正态分布的方法得到最佳样本量。最优化的误差平方和法和互验法能对海量城市道路交通流数据进行抽样得到最佳抽样样本数据。
方法的原则是应用数理统计的方法,得到海量交通流数据的最佳样本量,然后通过比较每个样本与样本总体特征的差值,统计其中差值最小的样本即为样本容量范围内的最佳抽样样本。
最佳样本量通过中心极限定理的方法得到。设样本(X1,X2,...,Xn)是来自于服从总体为N(μ,σ2)的正态分布,若总体方差未知,则统计量T服从自由度为(n-1)的t分布,对于给定的显著性水平α(即置信水平为1-α),可得到最佳样本量;若总体方差已知,则统计量U=x‾-μσn~N(0,1)]]>服从标准正态分布,在给定的允许误差条件下,可得到最佳样本量;若调查量的实际分布不完全符合正态分布,那么通过中心极限定理,建立非正态分布和正态分布样本量之间的相关关系,为不同总体样本之间的关联建立桥梁,就可以根据正态分布的方法得到最佳样本量。
误差平方和法(SSE方法)得到最佳抽样日的过程是用整批数据(有流量、速度和占有率这些不同的交通变量)的平均值,通过比较先找到每一个目标与平均样本的偏差,为了把不同的交通变量统一成相同的量纲,在抽样方法里引入量化系统,计算每个变量的量化值,再结合不同变量的权重,得到每个变量的量化值与权重的乘积,在样本总体中三个变量的量化值与权重的乘积之和为最小的抽样样本即为最佳抽样样本。
互验法(CV方法)的原理与SSE方法相似,也是通过比较单个样本与总体样本平均值间的差值,来得到最佳抽样样本。CV方法和SSE方法的区别在于,CV方法中,目标不与所有目标的平均值比较,而是与剔除该目标后的剩余目标的平均值作比较,差值最小的目标即为最佳抽样样本。
本发明的有益效果是这种方法能在海量数据中确定最佳抽样日,在减少数据量的同时尽可能保留原始数据的规律和信息,同时也节省大量的存储空间,满足不同用户对原始数据研究的需求。所发明的抽样方法可以简单的表述如下。首先从交通指挥中心获得原始数据;然后,检查数据的质量并运用系统化的方法修复丢失的或错误的数据;最后,用误差平方和法(SSE)或互验法(CV)对数据进行最优化并选择最佳样本数据。以整天抽样为例,整个过程的目的是选择样本容量个周内特定的某一天(如星期一、星期二等)作为抽样日,所选抽样日在整个抽样期间能最好的代表这周的特定天。样本对象的选取可以是某天,也可以是整周、周末,甚至可以是特定的时期。当新的数据得到后,以滚动的方式用它取代最老的数据后重新运行抽样程序。该程序将存储经抽样后能最好的代表整个数据流的原始数据,从而大大减少所需的存储空间。


下面结合附图和实施例对本发明进一步说明。
图1本发明装置图;图2本发明装置流程图;图3样本容量为10的量化值和加权值的变化图;图4最佳抽样日和最差抽样日与总体平均值的时间-流量图;图5样本容量为25时的量化值和加权值的变化图(包括十个权重);具体实施方式
表1样本容量为10的量化结果表;表2流量、速度和占有率的加权量化值随样本容量变化的阶梯表;表3样本容量为25的量化结果表;表4十个权重下的最佳抽样日随样本容量的变化表。
依据发明的方法,设计了对应的城市道路交通流数据抽样存储装置,其结构见图1。整个过程是通过VB程序连接后台ORACLE数据库来实现的。城市道路交通流数据抽样存储装置由五大部分构成,包括原始数据读入装置、确定最佳样本量装置、误差平方和法确定最佳抽样日装置、互验法确定最佳抽样日装置和最佳抽样日数据输出装置五个部分。这五个部分相互联系,实现了所发明的方法。经过质量控制后的数据经过数据抽样装置可以得到最佳抽样日和最佳抽样日原始数据。在整个处理过程中需要用户根据需求来设定各个参数,充分考虑用户的需求信息。
当准备好需要分析的原始数据后,通过原始数据读入装置设定读入数据的参数(如早高峰、晚高峰、全天等),指明数据的类型,参数设定完成后,开始读入原始数据。在成功地读入数据以后,设定抽样参数,然后进入误差平方和法确定最佳抽样日装置或互验法确定最佳抽样日装置,这两个装置对原始数据处理的中间步骤都保存在ORACLE数据库中的相应表中。先说明数据库中一些重要的表的含义,如表5。最后通过最佳抽样日数据输出装置得到相应结果,输出装置充分考虑了用户的不同需求,如果用户不仅需要各种样本容量下的最佳抽样日时间,也需要各种样本容量下不同权重的最佳抽样日数据,数据输出装置也能够提供,甚至可以做一些必要的分析。
图2是城市道路交通流数据抽样存储装置流程图,从数据读入装置得到的数据将导入到系统装置相应的数据库表里,接着将对原始数据表进行一系列的容错处理并按照一定算法进行适当的修正,接着修正后数据进入误差平方和法确定最佳抽样日装置或互验法确定最佳抽样日装置,抽样结果将被存储并进入输出装置,输出装置将对结果进行详尽的分析,并结合实际进行一些预测等。
总之,用户只需把所分析的原始数据导入相应表中,在抽样装置界面上进行相应操作即能得到结果。系统对用户导入的数据处理完毕后,把相应的结果保存到相应的数据库。
结合附表,以下给出实例来说明发明的具体实施方式
(由于SSE方法和CV方法的过程类似,所以以SSE方法为重点介绍,数据来自北京市三环路)本文用到了十个权重组合,分别用ws1,ws2,......,ws10表示,ws1为(1/3、1/3、1/3);ws2为(1/2、1/4、1/4);ws3为(1/4、1/2、1/4);ws4为(1/4、1/4、1/2);ws5为(1/5、3/10、1/2);ws6为(1/5、1/2、3/10);ws7为(3/10、1/5、1/2);ws8为(3/10、1/2、1/5);ws9为(1/2、1/5、3/10);ws10为(1/2、3/10、1/5)。ws1为(1/3、1/3、1/3),表示抽样过程中流量、速度和占有率三个参数同等重要,ws2为(1/2、1/4、1/4),表示抽样过程中更侧重流量参数的研究,依此类推。
采用的北京市道路交通流数据来自三环路上的125个环形探测器,每个探测器每天产生2分钟为间隔的数据,主要包括探测器号、日期、时间、车道号、流量、速度、占有率和长车流量。测试的北京市道路交通流数据的时间跨度从2002年3月到2002年12月约10个月的数据,本文选取探测器03006(位于呼家楼路口西北角)第2车道连续周三的整天数据进行抽样来说明具体实施方式

对数据的测试过程分为两个方面对单个权重的测试和对多个权重的测试。对单个权重测试的目的是要找出一定样本容量下的最佳抽样日,并观察最佳抽样日随样本容量的变化规律。多个权重测试的主要目的是横向对比,在样本容量一定时观察不同权重下最佳抽样日的变化情况,即测试最佳抽样日对权重的敏感度。样本容量为5,指的是对从2002-3-13到2002-4-10连续的五个周三的数据进行抽样。依此类推,样本容量为36,指的是对从2002-3-13到2002-11-27连续的36个周三进行抽样。以下是这两方面测试和分析的过程。
单个权重的测试与分析测试的数据是探测器03006从2002-3-13到2002-11-27第2车道连续周三的整天数据,权重是ws1(1/3、1/3、1/3),样本容量从5-36。先重点叙述样本容量为10的测试过程,然后再分析样本容量从5-36的变化过程,最后是对整个测试结果的分析和总结。
最佳抽样日指的是在某一样本容量下,权重的量化结果为最小值时所对应的抽样日,现以权重ws1作为例子来说明抽样的分析过程。表1是利用抽样装置按照所发明的抽样方法运行得到的对第2车道连续10个周三(即样本容量为10)的数据抽样的量化结果表。
图3是样本容量为10时的流量、速度、占有率的量化值和加权值的变化图。
可以看出,2002-4-17的数据量化后的结果1.45是最小的,所以在样本容量为10时,2002-4-17是最佳抽样日。也就是说第六个周三2002-4-17的数据最接近总体十个周三数据的平均值。当然,量化后的最大值7.67对应的2002-5-15是最差抽样日,最差抽样日指的是某一样本容量里,权重结果最大值所对应的天,它与总体平均值相差最远。图4是最佳抽样日和最差抽样日与总体平均值的时间-流量图。
容易得出以下结论,最佳抽样日数据与总体平均值匹配得最好,最差抽样日数据与总体平均值相差最大。即最佳抽样日数据最能代表该样本容量下的其它天的数据。所以所研究的十天的数据仅需保留2002-4-17的数据即可把握这十天数据的特征和规律。
当取不同的样本容量时(从5变化到36时),其分析过程与之相似,可得当样本容量介于5-36的各参数的加权值随样本容量变化的阶梯表如表2。阶梯表直观的反映了最佳抽样日随样本容量的变化特点。由表2,当样本容量是5时,最小的加权值1.51对应的天2002-4-10是最佳抽样日;样本容量是10时,最小的加权值1.45对应的天2002-4-17是最佳抽样日,依此类推。
由以上测试和分析过程可得,随着样本容量的逐渐增加,最佳抽样日也在不断的变化,当且仅当新增加的样本日更接近总体样本的平均水平时最佳抽样日才发生变化。从实际数据运行的结果来看大的样本容量比小的样本容量更能选出具有代表性的最佳抽样日。当然,如果把抽样过程设计为一个滚动和连续的过程,所选取的最佳抽样日只代表该样本容量所代表的区间,那么样本容量的大小就无关紧要了。
多个权重的测试与分析多个权重测试的主要目的是横向对比,在样本容量一定时观察不同权重下最佳抽样日的变化情况,即测试最佳抽样日对不同权重的敏感度。
整个分析过程与单个权重的分析类似,表3是样本容量为25的最佳抽样日的量化结果表。
图5是样本容量为25的速度、流量、占有率的量化值和加权值的变化图。由各参数的加权值随样本容量的变化过程,可得在各个权重下最佳抽样日随样本容量的变化表4。从表4中可以看出,随着样本容量的不断增加,最佳抽样日也在不断的变化,但是,当样本容量一定时,不同权重的最佳抽样日相等的概率很大。
通过多个权重的对比,证明SSE抽样方法在测试北京数据时对权重的变化不够敏感,即任取一个权重得到的最佳抽样日都能以很大的概率接近其它权重得到的最佳抽样日,这也说明探测器采集的流量、速度和占有率数据的稳定性是前后一致的,即只要一个变量的数据比较精确的时候,其它变量也同时比较精确。
当然,在相同的样本容量下,随着权重的变化,最佳抽样日可能会发生变化,即取不同的权重对最佳抽样日是有影响的,应用过程中应根据实际情况和要求进行具体分析后选择适当的权重组合。
表1 样本容量为10的量化结果表

表2 流量、速度和占有率的加权量化值随样本容量变化的阶梯表


表3 样本容量为25的量化结果表

表4 十个权重下的最佳抽样日随样本容量的变化(北京)


表5 数据库中相应的表名及其含义

权利要求
1.一种城市道路交通流数据抽样存储方法,其特征是两种基于数理统计技术的海量城市道路交通流数据抽样方法,包括一种基于最优化的抽样方法是误差平方和法,通过比较每个样本与样本总体特征的差值,统计其中差值最小的样本得到样本容量范围内的最佳抽样样本;另一种基于最优化的抽样方法是互验法,通过比较每个样本与剩余样本总体特征的差值,统计其中差值最小的样本得到样本容量范围内的最佳抽样样本。
2.根据权利要求1所述的一种城市道路交通流数据抽样存储方法,其特征在于,确定最佳样本量的方法,样本(X1,X2,...,Xn)是来自于服从总体为N(μ,σ2)的正态分布,若总体方差未知,则统计量T服从自由度为(n-1)的t分布,对于给定的显著性水平α即置信水平为1-α,可得到最佳样本量。
3.根据权利要求1所述的一种城市道路交通流数据抽样存储方法,其特征在于,确定最佳样本量的方法,样本(X1,X2,...,Xn)是来自于服从总体为N(μ,σ2)的正态分布,若总体方差已知,则统计量U=x‾-μσn~N(0,1)]]>服从标准正态分布,在给定的允许误差条件下,即x-μ=δ,可得到最佳样本量。
4.根据权利要求1所述的一种城市道路交通流数据抽样存储方法,其特征在于,确定最佳样本量的方法,调查量的实际分布即使不完全符合正态分布,通过中心极限定理,建立非正态分布和正态分布最佳样本量之间的相关关系,为不同总体样本之间的关联建立桥梁,根据正态分布的方法得到最佳样本量。
5.根据权利要求1所述的一种城市道路交通流数据抽样存储方法,其特征在于,误差平方和法,确定一定样本容量下的最佳抽样样本,最佳抽样样本数据最能代表该样本容量下的其它样本数据,从而在减少存储数据量的同时保留了最具代表性的原始数据信息;或要确定在权重一定时,随着样本容量的不断变化,抽样样本的变化情况;或在确定一定样本容量下的最佳抽样样本时,要测试对权重的敏感性,即在样本容量一定时,不同权重下最佳抽样样本的变化情况。
6.根据权利要求5所述的一种城市道路交通流数据抽样存储方法,其特征在于,互验法,在确定一样本容量下的最佳抽样日时,要对北京和美国的实时道路交通流数据包括整天、早高峰和晚高峰的数据进行测试和比较。
7.一种城市道路交通流数据抽样存储装置,其特征在于,包括原始数据读入装置、最佳样本量确定装置、误差平方和法确定最佳抽样样本装置、互验法确定最佳抽样样本装置和最佳抽样样本数据输出装置五个部分,这五个部分相互连接。
8.根据权利要求7所述的一种城市道路交通流数据抽样存储装置,其特征在于,采用中心极限定理确定最佳样本量,采用误差平方和法和互验法确定最佳抽样样本数据,比较评价各种时间段的抽样结果。
9.权利要求7所述的一种城市道路交通流数据抽样存储装置,其特征在于,最佳样本量确定装置,采用权利要求2、3、4中的方法来确定最佳样本量。
10.根据权利要求7所述的一种城市道路交通流数据抽样存储装置,其特征在于,误差平方和法确定最佳抽样样本装置,采用权利要求5中的方法确定最佳抽样样本。
11.根据权利要求7所述的一种城市道路交通流数据抽样存储装置,其特征在于,互验法确定最佳抽样样本装置,采用权利要求6中的方法确定最佳抽样样本。
12.根据权利要求7所述的一种城市道路交通流数据抽样存储装置,其特征在于,最佳抽样样本数据输出装置提供各种样本容量下的最佳抽样样本和各种样本容量下不同权重的最佳抽样样本数据,可以做分析。
全文摘要
一种城市道路交通流数据抽样存储方法与装置。涉及误差平方和法和互验法,应用数理统计的方法,得到海量交通流数据的最佳样本量,然后通过比较每个样本与样本总体特征的差值,统计其中差值最小的样本得到样本容量范围内的最佳抽样样本。用最佳样本数据来代替总体样本能够在节省存储空间的同时又尽可能的保留原始数据的规律和信息。有原始数据读入装置、确定最佳样本量装置、误差平方和法确定最佳抽样日装置、互验法确定最佳抽样日装置和最佳抽样日数据输出装置五个部分。可以测试在权重一定时,随着样本容量的不断变化,最佳抽样样本的变化情况;也可以测试在样本容量一定时,不同权重下最佳抽样样本的变化情况,即最佳抽样样本对权重的敏感度问题。
文档编号G06F17/40GK1790344SQ20041009891
公开日2006年6月21日 申请日期2004年12月15日 优先权日2004年12月15日
发明者于雷, 吴家庆 申请人:北京交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1