一种用于事故分析与安全评价的平衡采样方法
【技术领域】
[0001] 本发明属于安全性评价技术领域。特别涉及一种用于事故分析与安全评价的平衡 采样方法,具体涉及交通事故等偶发事件的预测及评价,具体采用平衡采样方法对非平衡 数据集进行概率回归模型的参数估计与影响因素分析。
【背景技术】
[0002] 交通安全是全球范围内与人类健康和发展息息相关的问题,目前多以发生事故的 数据为基础,利用计数模型建立事故风险和伤亡程度评估模型,分析影响事故发生及其严 重程度的显著因素,进行安全评价,进而提出交通安全改善建议。计数模型是一种概率回归 模型,包括泊松模型、负二项分布模型等,在建模过程中,需要大量的事故数据作为观测样 本,进而求解模型中的未知参数。根据现有交通理论,交通流量、交通控制与管理方案、天 气等都是影响事故发生的重要因素,为研究上述因素对事故的影响,需要较细时间粒度的 数据,实际中多以小时为单位,建立时间离散的事故分析数据集。但由于事故数据获取的 局限性及其偶发性,时间离散的数据集中常常出现大量事故数为零的样本,由此出现事故 数据的零膨胀问题(也称零堆积问题,指在现有的时空划分方法下,数据包含过量的零), 导致数据集严重失衡,使得模型参数估计的准确性和可靠性不足(Shankar et al.,1997; Washington et al.,2011),不能有效指导交通安全工程实践。为解决事故数据零膨胀 问题,Miaou(1994 年),Lee and Mannering(2002 年),Shankar (2003 年),Huang and Chin (2010 年)等人,提出了一类零膨胀计数模型(zero-inflated count data models), 这类模型假设道路有两种安全状态(即事故数为〇的两种情况),一种是绝对安全,一种是 相对安全,这种模型相比于传统计数模型有更好的拟合性。但是Lord等人在2005和2007 年的研究中分别指出,绝对安全的道路是不存在的,应该利用合理的时空划分解决数据中 零过量的问题,但Lord并没有给出合理划分时间、空间的方法。虽然后继研究者进一步提 出各类解决零膨胀问题的方法,但都无法改变非平衡数据集带来的局限性。
【发明内容】
[0003] 本发明的目的是提供一种用于事故分析与安全评价的平衡采样方法,其特征在 于,包括如下步骤:
[0004] 步骤1、选择某种待分析的事故类型,并采集该种事故历年相关事故数据,导入处 理系统进行预处理,建立事故分析与安全评价数据集;
[0005] 步骤2、根据步骤1得到的事故分析与安全评价数据集建立分析模型,进行参数估 计及收敛性判断;其中包括平衡采样事故样本、计数模型求解、重采样参数估计和收敛性判 断;
[0006] 步骤3、输出模型结果,针对显著因素,分析提出改进建议。
[0007] 所述步骤1中,选择某种待分析的事故类型包括交通事故、工农业生产中发生的 事故和自然灾害;采集相关数据,并进行预处理,包括:
[0008] 步骤101、采集搜集各类数据,建立包含交通流量、道路设计参数、交通控制与管理 要素和天气条件的交通事故数据集;
[0009] 步骤102、针对每个道路实体,每个单位时间,以事故数量为回归模型的事故数Y 为因变量,以可能影响事故发生的因素为自变量X,建立包含交通流量、道路设计参数、交通 控制与管理要素和天气条件等影响因素的交通事故数据集,共得到M条数据;
[0010] 步骤103、检查多个影响因素 X的多重共线性问题,删除多余的共线性变量。
[0011] 所述步骤2中采用平衡采样方法多次抽取平衡数据集,并采用概率回归模型求解 多组模型参数,进而进行参数估计及收敛性判断,具体做法包括:
[0012] 步骤201、按照每条道路单位时间内事故数量是否为零,将全部数据分为2类,一 类是事故非零数据,一类是事故数为零数据;在所有M条数据中,非零数据记为K条;
[0013] 步骤202、从(M-K)条事故为零的样本中随机抽取K条数据,即比例为1:1地将K 条事故为零数据和K条事故非零数据组成新的数据集合B ;B含有2K条数据,且B中事故为 零与事故非零样本数平衡;
[0014] 步骤203、基于数据集合B,采用计数模型建立交通安全评估方程Y = f(i3X)),求 解模型参数β的一组解;其中Y为事故数;
[0015] 步骤204、重复采样,重复步骤202和203多次,直至结果收敛;
[0016] 步骤205、基于多组模型参数估计结果,计算参数β的标准差(或称为估计误 差)、置信区间和显著水平。
[0017] 所述步骤3输出模型结果,包括:
[0018] 步骤301、根据计算参数β的标准差(或称为估计误差)、置信区间和显著水平的 情况,筛选对事故发生影响显著的自变量X,称这些自变量X为显著因素;
[0019] 步骤302、分析显著因素 X对事故数Y的影响;
[0020] 步骤303、根据步骤302的分析,推出安全改进措施对策与建议。
[0021] 本发明的有益效果是:
[0022] 1.平衡采样样本,采用平衡采样方法,能够有效解决计数模型所采用非平衡数据 集的零膨胀问题。且不依赖对研究对象的前提假设,有效避免了现存零膨胀计数模型的基 本假设不合理问题。
[0023] 2.收敛模型参数,重复采样并求解多次,直到模型参数能够很好的收敛,保障参数 估计结果的稳定性与有效性。
[0024] 3.提高模型精度,改进模型的精度,参数估计误差更小。
[0025] 4.挖掘显著因素,可以挖掘更多与事故发生相关的显著因素,有效指导实践应用。
【附图说明】
[0026] 图1用于事故分析与安全评价的平衡采样方法的工作流程示意图。
【具体实施方式】
[0027] 步骤1、选择某种待分析的事故类型,并采集该种事故历年相关事故数据,导入处 理系统进行预处理,建立事故分析与安全评价数据集;
[0028] 步骤2、根据步骤1得到的事故分析与安全评价数据集建立分析模型,进行参数估 计及收敛性判断;其中包括平衡采样事故样本、计数模型求解、重采样参数估计、收敛性判 断;
[0029] 步骤3、输出模型结果,针对显著因素,分析提出改进建议。
[0030] 实施例
[0031] 针对上述的三大步骤,以某大城市道路交通事故分析为例,对本发明予以说明。
[0032] 所述步骤1中,安全分析相关数据采集与预处理包括:
[0033] 步骤101、采集搜集各类数据,建立包含交通流量、道路设计参数、交通控制与管理 要素和天气条件的交通事故数据集;
[0034] 步骤102、针对每个道路实体,每个单位时间,以事故数量为回归模型的(因变量) 事故数Y,以可