一种卡口运行状态量化评估方法及系统的制作方法
【专利摘要】本发明涉及一种卡口运行状态量化评估方法及系统,通过对卡口系统产生的过车记录数据质量进行全面、量化的评估,将卡口运行状态直观化;同时实现了卡口运行状态可视化展示系统,为使用者提供简单直观的结果展现,为卡口数据的使用提供数据化的参考依据。
【专利说明】
一种卡口运行状态量化评估方法及系统
技术领域
[0001] 本发明涉及智慧交通领域,尤其涉及一种卡口运行状态量化评估方法及系统。
【背景技术】
[0002] 车辆智能监测记录系统又称为卡口系统(以下简称卡口系统),是能够对受监控路 面的车辆信息进行自动采集和处理的设备,主要以机动车图片抓拍、车牌号牌识别等车辆 特征数据采集,布控比对报警,查报站出警拦截为主要目的,对道路运行车辆的构成、流量 分布,违章情况进行常年不间断的自动记录,为交通违法、交通事故、交通管理、交通规划、 道路养护提供重要的技术手段和基础的运行数据。然而,在实际交通信息采集过程中,由于 卡口系统的故障、检测环境的变化、人为操作不当等种种因素的影响,往往获取的卡口数据 存在数据丢失、识别错误等质量问题。若直接使用这些问题数据推断当前交通流运行状态 和违法行为,必然会引起与实际情形存在差距的误判。这样不仅不能为快速缓解交通流量 分布、快速纠正交通违法行为、快速侦破交通事故等提供重要的技术手段和证据,达不到决 策支持的预期效果,反而可能导致路网更严重的交通拥堵以及滋生更多的交通违法行为。
[0003] 目前大多数研究主要集中在基于卡口数据挖掘的研究与应用方面,如缉查防控应 用、涉案车辆排查、旅行时间计算、交通流量分析、图像分析等。而真正对于卡口系统本身运 行状态的研究与应用相关的文献资料涉及较少。同时,由于卡口系统相关的标准滞后,各地 建设与验收过程中对卡口系统的交通数据的采集与上传,缺乏较全面的具有可操作性的质 量要求与质量管控,在大规模的卡口数据应用过程中暴露出很多质量问题。因此,本发明提 出一种卡口运行状态量化评估方法及系统,以实际卡口系统在运行过程中输出的过车记录 数据为研究基础,从数据的缺失性和错误性两大关键指标分析卡口数据质量问题,并将分 析结果可视化展示。
【发明内容】
[0004] 本发明为克服上述的不足之处,目的在于提供一种卡口运行状态量化评估方法, 通过对过车记录数据质量进行全面、量化的评估,将卡口运行状态直观化;同时实现了卡口 运行状态可视化展示系统,为使用者提供简单直观的结果展现,为卡口数据的使用提供数 据化的参考依据。
[0005] 本发明另一目的在于提供一种卡口运行状态量化评估系统,包括数据采集单元、 数据存储单元、数据分析单元、结果存储单元、应用服务器单元、Web端展现单元;本系统结 构简单,易于实施。
[0006] 本发明是通过以下技术方案达到上述目的:一种卡口运行状态量化评估方法,包 括如下步骤:
[0007] (1)设置卡口数据的统计周期;
[0008] (2)以统计周期为时间单位计算得到卡口数据的缺失性指标与错误性指标;其中, 所述缺失性指标衡量数据的缺失程度,并通过数据量分布的均衡度表示数据的缺失性,均 衡度采用信息熵来计算;所述错误性指标是基于卡口的识别错误率与识别正确率表征得 到;
[0009] (3)根据卡口数据的缺失性指标与错误性指标分析卡口数据质量,输出卡口评估 结果。
[0010] 作为优选,所述缺失性指标的计算方法如下:
[0011] 1)筛选出统计周期内无任何过车记录的卡口,将此类卡口的缺失性指标设为1;
[0012] 2)采用信息熵计算有过车记录的卡口数据量均衡度U1、最大均衡度Umax_ 1;
[0013] 3)以实际的卡口数据量均衡度均值除以该卡口数据量最大均衡度定义得到归一 化均衡度U in;
[0014] 4)将卡口的归一化均衡度1^的计算结果转化为该卡口的数据缺失性指标Iiack_i, 对卡口的缺失性指标进行降序排列,取排名前Kl的卡口。
[0015] 作为优选,所述卡口数据量均衡度仏的计算方法如下:
[0016] I)将一天划分为η个时间槽,设Nijk为卡口 i在第j天第k个时间槽卡口数据记录数 量,卡口 i在统计周期内第k个时间槽卡口数据总量为Sunuk,则该卡口在第j天第k个时间槽 卡口数据量在统计周期内的占比为
[0017] II)以Uik表示卡口 i统计周期内第k个时间槽卡口数据量的均衡度,采用信息熵计 算均衡度:
[0018]
[0019] III)由步骤II)均衡度计算结果得到η个时间槽的通行卡口数据量均衡度的均值 表达式如下:
[0020]
[0021 ]通过表达式计算得到卡口数据量均衡度Ui。
[0022]作为优选,所述卡口 i在统计周期内的某一相同时间槽卡口数据量平均分布,则采 用最大信息熵Umax_i表达卡口数据量的最大均衡度Umax_i,表达式为:Umax_i = log T,其中T为 统计周期天数。
[0023]作为优选,所述归一化均衡度Uin的计算公式如下:
[0024]
[0025] 其中,Uin的取值范围为(0,1]。
[0026] 作为优选,所述将卡口的归一化均衡度Uin的计算结果转化为该卡口的数据缺失性 指标Ikkj的转化公式如下:
[0027] IlacM = I-Uin
[0028] 其中,Ilac^i值越大表示卡口数据缺失程度越大。
[0029] 作为优选,所述错误性指标的计算方法如下:
[0030] i)定义卡口号牌识别错误率为卡口 i过车记录中号牌号码与车辆注册信息表中号 牌号码不一致的记录数Sumer^1除以该卡口过车总记录数Sum1,则统计周期内卡口号牌识别 错误率计算公式如下:
[0031]
[0032] 计算后将得到的每个卡口数据错误率降序排列,取错误率最高的前K2个卡口;
[0033] ii)根据步骤(1)的计算结果计算统计周期内所有卡口号牌综合识别准确率,所有 卡口号牌综合识别准确率Ra?表达式如下:
[0034
[0035] 其中,m为卡口总数量;
[0036] iii)将卡口的工作时间段分为白天与夜间,计算统计周期内所有卡口白天与夜间 过车记录数分别为Sum day,Sumnight;所有卡口白天与夜间号牌识别错误记录数分别为 Sumerr_d ay,Sumerr_night;得到所有卡口号牌白天识别准确率R ac;u_day表达式为:
听有卡口号牌夜间识别准确表达式为 ;i V)由步骤i i i)表达式计算得到统计周期内所有卡口号牌 白天识别准确率和夜间号牌识别准确率。
[0037] 作为优选,所述的输出卡口评估结果包括各卡口数据缺失性排名,各卡口各时间 段的过车记录数,各卡口数据错误率排名,各卡口车牌识别错误率排名,所有卡口号牌综合 识别准确率、白天识别准确率、夜间识别准确率及同比与环比分析信息。
[0038] -种卡口运行状态量化评估系统,包括:数据采集单元、数据存储单元、数据分析 单元、结果存储单元、应用服务器单元、Web端展现单元;数据采集单元、数据存储单元、数据 分析单元、结果存储单元、应用服务器单元、Web端展现单元依次连接。
[0039] 作为优选,所述数据分析单元包括周期设置子单元和指标计算子单元,该单元用 于完成对卡口运行状态的量化评估,从缺失性和错误性两个指标对卡口过车记录数据进行 分析,得到卡口的运行状态量化评估结果。
[0040] 本发明的有益效果在于:1)结果直观、简明,本发明系统采用可视化展现方式,将 评估结果转换为图形图像显示,可以直观地了解影响问题卡口设备的关键指标,提示用户 有针对性地干预,从而降低卡口系统运维风险;且运算方便、快捷;2)可靠性强,本发明系统 分别提供卡口数据识别错误率和缺失性指标排名;3)新颖和灵活,本发明方法采用信息熵 评价卡口数据量均衡度,并对计算参数归一化处理,从而得到卡口数据缺失性。该方法实现 上比较新颖。同时,在评估系统中支持灵活的统计周期查询,在一定程度上满足用户对卡口 设备运行状态检测。
【附图说明】
[0041 ]图1是本发明评估系统原理图;
[0042] 图2是本发明评估方法流程图;
[0043] 图3是本发明实施例的卡口运行状态量化评估结果可视化展示图。
【具体实施方式】
[0044]下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于 此:
[0045]实施例:如图1所示,一种卡口运行状态量化评估系统,包括数据采集单元、数据存 储单元、数据分析单元、结果存储单元、应用服务器单元、Web端展现单元具体内容如下: [0046]数据采集单元:从卡口数据原始存放位置采集杭州市2014年9月到2015年9月的卡 口过车记录数据及过车图片,过车记录包括卡口编号、卡口方向、过车时间、车牌号码、车牌 类型等信息。
[0047]数据存储单元:存储采集的卡口过车记录数据和过车图片,本发明采用HBase的非 结构化数据存储模式保存海量的卡口元数据,为后续的数据质量分析单元提供数据来源。
[0048] 数据分析单元:包括周期设置子单元和指标计算子单元。该单元完成对卡口运行 状态的量化评估,主要从缺失性和错误性两个指标对卡口过车记录数据进行分析,得到卡 口的运行状态量化评估结果。
[0049] 结果存储单元:用于存储数据分析单元输出的分析结果,实现源数据与分析结果 分开存储;本发明采用Orac Ie数据库存储。
[0050] 应用服务器单元:用于用户通过Web服务器对相关分析结果的查询、统计、分析与 打印等工作。
[0051] WEB端展现单元:实现评估结果可视化展现和图片验证功能。
[0052] 一种卡口运行状态量化评估方法如图2所示,包括如下步骤:
[0053] 步骤1:周期设置。设置统计周期为1个月,选用杭州市2015年9月份卡口过车记录 作为待分析数据。进一步说明,在步骤2中,采用2015年9月24日早上8点到9点(即第9个时间 槽)的卡口数据具体说明。
[0054]步骤2:计算缺失性指标
[0055] (1)筛选统计周期内未工作的卡口
[0056] 筛选出统计周期内无任何过车记录的卡口设备,将未工作卡口缺失性指标设为1。
[0057] (2)计算数据均衡度
[0058]在统计周期30天,按照1个小时为时间粒度,每天可划分为24个时间槽。若车辆通 行时间显示0:00-1:00时刻得到的一条卡口数据,即将这时间段卡口数据定义为第一个时 间槽得到的数据。其他时间槽的时间段划分以此类推,具体如表1所示: LUUOU」 衣丄
[0061 ] 例如,统计卡口(编号310003000017)在9月24日第8个时间槽卡口数据量为3268 条,统计该卡口在本年9月每天第8个时间槽通过的卡口数据总数量为36087条。则该卡口在 9月24日第8个时间槽采集到的数据量在统计周期内的占比为== ().0()1.此按照以上 计算方法,可依次计算整个统计月份在每个时间槽内的占比。
[0062] 30天内8点到9点的卡口数据量为:
[0063] [2744,2919,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,3078,2608,2209,3083,2738, 3060,3268,3160,2439,1731,3050,0]
[0064] 考虑到后续对数计算中的数值问题,即对数函数的输入不能为0,将总卡口数量加 一个微小的常数〇. 00003,同时将每天的时间槽数据占比加0.000001。于是30天内该卡口在 第9个时间槽的数据量每天占比分别为:
[0065] [0·076,0·081,2·77e-9,2·77e-9,2·77e-9,2·77e-9,2·77e-9,2·77e-9,2·77e-9, 2·77e-9,2·77e-9,2·77e-9,2·77e-9,2·77e-9,2·77e-9,2·77e-9,2·77e-9,0·085,0·072, 0.061,0.085,0.076,0.084,0.091,0.088,0.068,0.048,0.085,2.77e-9]
[0066] 采用以2为底的对数函数,可得到目标卡口在第9个时间槽的数据均衡度为:
[0067] 按照上述步骤,依次得到该卡口所有时间槽内数据均衡度分别为:
[0068] [3.8378,3.8545,3.7781,3.8711,3.850,3.8211,3.745,3.8110,3.6824,3.6892, 3.6623,3.6988,3.7953,3.6882,3.6532,3.654,3.9921,3.8762,3.693,3.8968,3.6685, 3.6542,3.6624,3.8354]
[0069] 因此,计算得到卡口数据量均衡度的均僅
[0070] (3)计算最大均衡度 [0071]采用以2为底的对数函数:
[0072] Umax-i = Iog N= log(30)=4.9069
[0073] (4)计算归一化均衡度
[0074] 卡口(编号310003000017)数据量归一化均衡度:
[0075]
[0076] (5)计算卡口缺失性指标
[0077] 卡口(编号310003000017)数据量的缺失性指标Iiack_i:
[0078] IiacM = I-Uin= 1-0 · 7674 = 0.2326
[0079] (6)卡口数据缺失性指标排序
[0080] 根据上述步骤,可得到所有卡口数据缺失性指标,将其卡口数据缺失性指标按从 高到低排列。排名越靠前的卡口缺失性指标越高,越值得关注。前排名前Kl的卡口,本发明 Kl 取 15。
[0081 ]步骤3:计算错误性指标
[0082] (1)计算统计周期内卡口号牌识别错误率
[0083] 统计卡口(编号310003000017)30天的过车总记录数为696354条,而卡口过车记录 中识别的车牌号牌与杭州市车辆信息注册表中号牌不一致的记录数为:以"浙A"开头的车 牌识别错误的记录数为564条,车牌号码出现"未识别"的记录数为19884条,则该卡口号牌 识别错误记录数Sumerr_iS20448条。
[0084] 闵此,得剞该卡口号牌iR別错误銮为,
[0085]
[0086] 按照上述步骤可得到所有卡口数据错误率,对其进行降序排列。排名越靠前的卡 口缺失率越高,越值得关注。取排名前K2的卡口,本发明K2取15。
[0087] (2)计算统计周期内所有卡口号牌综合识别准确率
[0088] 根据步骤(1)计算结果,得到所有卡口号牌综合识别准确率为
[0089] (3)计算统计周期内所有卡口号牌白天识别准确率和夜间号牌识别准确率
[0090] 在本发明实施例中,白天时间段指6点到18点,夜间时间段指18点到第二天6点。经 统计,白天卡口数据记录数Sumday为58696466条,白天号牌识别错误记录数N err_day为 2101333条;夜间卡口数据记录数Sumnight为23910429条,夜间号牌识别错误记录数Nerr_ night 为 1119008条。
[0091] 则所有卡口号牌白天识别准毎
;所有卡口号 牌夜间识别错误」
[0092]以卡口识别错误率和识别正确率表征卡口的错误性指标。
[0093]步骤4:根据卡口数据的缺失性指标与错误性指标分析卡口数据质量,输出卡口评 估结果。
[0094]其中,输出卡口评估结果包括:
[0095] 1、以统计周期定时更新推送评估结果,以文本框形式显示统计周期号牌综合识别 准确率、白天识别准确率、夜间识别准确率及同比与环比分析;其中同比为与一年前相同统 计周期计算结果对比值,环比为与上一统计周期计算结果对比值。
[0096] 2、以进度条形式显示卡口号牌识别错误率排名,降序排列,点击排名中某行可定 位到左边的地图上该卡口,并支持图片验证功能;
[0097] 3、以地图标识各卡口位置,以圆圈大小和颜色深浅标识车牌识别错误率排名前15 的卡口;
[0098] 4、以进度条形式降序显示卡口号牌综合识别缺失性排名前15的卡口,点击排名中 某行可在左边显示该卡口过车记录数情况;
[0099] 5、以像素图表示统计周期内每天各时段的卡口过车记录数情况,结合卡口缺失性 排名直观展示卡口数据量异常变化情况。
[0100]以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所 作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的 保护范围。
【主权项】
1. 一种卡口运行状态量化评估方法,其特征在于包括如下步骤: (1) 设置卡口数据的统计周期; (2) 以统计周期为时间单位计算得到卡口数据的缺失性指标与错误性指标;其中,所述 缺失性指标衡量数据的缺失程度,并通过数据量分布的均衡度表示数据的缺失性,均衡度 采用信息熵来计算;所述错误性指标是基于卡口的识别错误率与识别正确率表征得到; (3) 根据卡口数据的缺失性指标与错误性指标分析卡口数据质量,输出卡口评估结果。2. 根据权利要求1所述的一种卡口运行状态量化评估方法,其特征在于:所述缺失性指 标的计算方法如下: 1) 筛选出统计周期内无任何过车记录的卡口,将此类卡口的缺失性指标设为1; 2) 采用信息熵计算有过车记录的卡口数据量均衡度U、最大均衡度; 3) 以实际的卡口数据量均衡度均值除以该卡口数据量最大均衡度定义得到归一化均 衡度Uin; 4 )将卡口的归一化均衡度Uin的计算结果转化为该卡口的数据缺失性指标11 ac;k_i,对卡 口的缺失性指标进行降序排列,取排名前K1的卡口。3. 根据权利要求2所述的一种卡口运行状态量化评估方法,其特征在于:所述卡口数据 量均衡度仏的计算方法如下: I) 将一天划分为η个时间槽,设Nijk为卡口 i在第j天第k个时间槽卡口数据记录数量,卡 口 i在统计周期内第k个时间槽卡口数据总量为Sunuk,则该卡口在第j天第k个时间槽卡口数 据量在统计周期内的占比II) 以Ulk表示卡口 i统计周期内第k个时间槽卡口数据量的均衡度,采用信息熵计算均 衡度:III) 由步骤II)均衡度计算结果得到η个时间槽的通行卡口数据量均衡度的均值表达 式如下:通过表达式计算得到卡口数据量均衡度U。4. 根据权利要求2所述的一种卡口运行状态量化评估方法,其特征在于:所述卡口 i在 统计周期内的某一相同时间槽卡口数据量平均分布,则采用最大信息熵表达卡口数据 量的最大均衡度Umax_i,表达式为:U max_i = logT,其中T为统计周期天数。5. 根据权利要求2所述的一种卡口运行状态量化评估方法,其特征在于:所述归一化均 衡度Uin的计算公式如下:其中,Uin的取值范围为(0,1]。6. 根据权利要求2所述的一种卡口运行状态量化评估方法,其特征在于:所述将卡口的 归一化均衡度υιη的计算结果转化为该卡口的数据缺失性指标的转化公式如下: I lacki- 1-Uin 其中,Iiac;k_i值越大表示卡口数据缺失程度越大。7. 根据权利要求1所述的一种卡口运行状态量化评估方法,其特征在于:所述错误性指 标的计算方法如下: i)定义卡口号牌识别错误率为卡口 i过车记录中号牌号码与车辆注册信息表中号牌号 码不一致的记录数Sumerrj除以该卡口过车总记录数Sunn,则统计周期内卡口号牌识别错误 率计算公式如下:计算后将得到的每个卡口数据错误率降序排列,取错误率最高的前K2个卡口; i i)根据步骤(1)的计算结果计算统计周期内所有卡口号牌综合识别准确率,所有卡口 号牌综合识别准确率R_表达式如下:其中,m为卡口总数量; i i i)将卡口的工作时间段分为白天与夜间,计算统计周期内所有卡口白天与夜间过车 记录数分别为Sumday,Sumnight;所有卡□白天与夜间号牌识别错误记录数分别为Sumerr_day, S u m e r r _ n i g h t ;得到所有卡口号牌白天识别准确率R a。u _ d a y表达式为:所有卡口号牌夜间识别准确表达式为i v)由步骤i i i)表达式计算得到统计周期内所有卡口号牌 白天识别准确率和夜间号牌识别准确率。8. 根据权利要求1所述的一种卡口运行状态量化评估方法,其特征在于:所述的输出卡 口评估结果包括各卡口数据缺失性排名,各卡口各时间段的过车记录数,各卡口数据错误 率排名,各卡口车牌识别错误率排名,所有卡口号牌综合识别准确率、白天识别准确率、夜 间识别准确率及同比与环比分析信息。9. 一种卡口运行状态量化评估系统,其特征在于包括:数据采集单元、数据存储单元、 数据分析单元、结果存储单元、应用服务器单元、Web端展现单元;数据采集单元、数据存储 单元、数据分析单元、结果存储单元、应用服务器单元、Web端展现单元依次连接。10. 根据权利要求9所述的一种卡口运行状态量化评估系统,其特征在于:所述数据分 析单元包括周期设置子单元和指标计算子单元,该单元用于完成对卡口运行状态的量化评 估,从缺失性和错误性两个指标对卡口过车记录数据进行分析,得到卡口的运行状态量化 评估结果。
【文档编号】G08G1/01GK106056912SQ201610619736
【公开日】2016年10月26日
【申请日】2016年7月29日
【发明人】李建元, 张云云, 李丹, 应康平, 陈涛
【申请人】浙江银江研究院有限公司