一种基于生成对抗网络混合采样技术的事故严重程度建模方法

文档序号:38627694发布日期:2024-07-12 11:30阅读:38来源:国知局
一种基于生成对抗网络混合采样技术的事故严重程度建模方法

本发明涉及交通安全风险分析领域,尤其是涉及一种基于生成对抗网络混合采样技术的事故严重程度建模方法。


背景技术:

1、准确判断交通事故严重程度与风险因子之间的相关性,对于交通安全管理和预防具有重要的作用,能指导交通安全政策的制定、道路条件的改进,并且向司机、行人等交通参与者提供更有针对性的教育。然而,由于致命交通事故的罕见性,导致事故数据严重不平衡,即非致命交通事故数据过多、致命交通事故数据有限。这种数据不平衡问题会导致交通事故模型拟合不佳,造成相关性偏差,影响决策者对事故风险因素的判断。

2、通过数据重采样技术,可以解决事故数据不平衡问题,提高事故风险因素预测的准确性,获得拟合度更高的事故模型。但是传统的欠采样或过采样等重采样方法都各有其局限性:欠采样可能会导致非致命事故信息的丢失;而过采样可以避免信息丢失问题,但可能会产生模型过拟合和方差问题。此外,传统重采样方法都存在一些严重的缺陷,使事故建模结果的可靠性受到质疑。基于深度学习的生成式模型,如生成式对抗网络(generativeadversarial networks,gan),与传统的重采样方法相比具有更好的性能,但一般的生成式对抗网络模型都是针对连续变量设计的。


技术实现思路

1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于生成对抗网络混合采样技术的事故严重程度建模方法,本发明的目的是提供基于生成对抗网络和随机重采样的混合采样技术,通过生成可靠的平衡数据,拟合更符合实际的事故严重程度模型,提供了精确的事故风险识别手段。

2、整体上,本发明基于条件表格生成对抗网络的深度学习方法,与随机欠采样方法结合,可以生成更可靠的平衡事故数据,并且能同时处理连续和离散的风险因素,使拟合的事故模型能更好地捕捉重要的风险因素及其对事故严重程度的影响。

3、本发明的目的可以通过以下技术方案来实现:

4、本发明提供一种基于生成对抗网络混合采样技术的事故严重程度建模方法,包括以下步骤:

5、s1,对原始事故数据集进行预处理,剔除原始事故数据集中的缺失数据和冗余数据,并从中选取事故严重程度建模变量;

6、s2,利用基于随机欠采样和条件表格生成对抗网络的混合重采样方法,对s1中预处理后的不平衡事故数据进行重采样,生成平衡数据;

7、s3,通过敏感性分析,确定事故严重程度模型性能最优的混合重采样比例;

8、s4,根据二元逻辑回归,构建事故严重程度模型,利用s3中确定的混合重采样比例,对s2中生成的平衡数据进行混合重采样,并将混合重采样得到的平衡数据拟合模型参数,根据各变量对应回归系数,判断事故风险因素对交通事故的影响程度和显著性,构建事故严重程度预测模型。

9、进一步地,s1中,具体步骤包括:

10、s101,删除原始事故数据中的缺失值;

11、s102,从事故数据集中筛选模型变量,包括:(1)选取相互独立的变量,(2)选取与碰撞严重程度相关性高的变量;

12、s103,对选取的变量进行多重共线性检验,验证所选变量适用于逻辑回归建模。

13、进一步地优选地,s101中,所述事故数据集中包括驾驶员特征、碰撞特征、道路特征。

14、进一步地,s2中,具体包括:

15、s201,使用随机欠采样技术,对s1中预处理后的交通事故数据中的多数类——非致命事故数据进行欠采样,随机、均匀地选取非致命事故数据样本;

16、s202,构建条件表格生成对抗网络,利用随机欠采样筛选后的多数类和原始少数类数据,对少数类——致命事故数据进行过采样,生成致命事故数据;

17、s203,使用变分高斯混合模型(variational gaussian mixture,vgm)独立拟合每个连续风险变量的分布:

18、

19、其中,α和β是参数,j代表第j行数据,rj表示第j个风险因子,nc和nd分别表示连续和离散变量的个数,di,j是某个离散值的独热向量,表各向量逐元素相加;

20、s204,设计条件生成器g(z,cond),其包含四个全连接层,生成器使用批量归一化方法relu激活函数,在两个隐藏层之后,通过混合激活函数生成生成碰撞数据;标量值αi由tanh激活函数生成,而模式指标βi和离散值di则由gumbel softmax激活函数生成;

21、s205,设计判别器d(r1,...,r10,cond1,...,cond10),其包含五个全连接层,每个隐含层都应用了leaky relu函数和随机失活(dropout)技术,并采用pacgan框架以防止模式崩溃。

22、进一步优选地,s204中,所述条件生成器的结构表示为:

23、

24、其中,z表示标准正态分布的噪声,cond表示条件向量,表各向量逐元素相加;relu(rectified linear unit),softmax,tanh(hyperbolic tangent),bn(batchnormalization)都是用于批量归一化的函数;leakye(x)表示输入为x、泄漏比率为ε的leakyrelu激活函数;fcn→m(x)表示从n维输入到m维输出的线性变换;gumbelγ(x)表示输入为向量x、参数为γ的gumbel softmax激活函数。

25、进一步优选地,s205中,所述判别器的结构表示为:

26、

27、其中,drop表示随机失活(dropout)。

28、进一步地,s3中,具体过程包括:

29、s301,采用查全率(sensitivity)、特异性(specificity)、g-mean三个指标评估采样比例对模型性能影响;

30、s302,确定随机欠采样的采样比,即筛选后的非致命事故数据与实际致命事故数的比值;

31、s303,确定混合重采样的采样比,即随机欠采样后的非致命事故数与包括真实和条件表格生成对抗网络生成的总致命事故数的比值;

32、s304,通过调整随机欠采样与混合重采样的采样比,生成若干组平衡数据,对比各组数据拟合的事故严重程度模型的查全率(sensitivity)、特异性(specificity)、g-mean指标,确定使模型性能最佳的采样比例。

33、进一步优选地,s301中,所述查全率表示被正确预测的致命事故的比例,所述特异性表示被正确预测的非致命事故的比例;

34、所述g-mean通过计算查全率、特异性的几何平均值来综合评估模型的性能,三个指标的计算公式依次如下:

35、

36、

37、

38、其中,tp表示被正确预测的致命事故数量,fn表示被错误预测的致命事故数量,tn表示被正确归类的非致命事故数量,fp表示被错误预测的非致命事故的数量。

39、进一步地,s4中,具体包括:

40、s401,采用二元逻辑回归分析二元结果变量与风险变量之间的关系,假设严重程度y服从伯努利分布:

41、y~bernoulli(p)

42、s402,事故严重程度分为致命(y=1)与非致命(y=0),两者概率分别为p与1-p;

43、s403,利用最大似然估计求解模型参数,估计各变量对应的回归系数,从而评估各个变量对事故严重程度的贡献度。

44、进一步优选地,s402中,采用的具体效用函数如下:

45、

46、其中,β0为截距,x为风险因素向量,β为待估计的回归系数向量。

47、与现有技术相比,本发明具有以下技术优势:

48、1)本发明开发了一种基于条件表格生成对抗网络的混合采样技术,将条件表格生成对抗网络与随机欠采样方法相结合,设计了一种混合重采样方法,能生成更可靠的平衡数据,且生成的数据在分类准确性和解释一致性方面都优于与现有基准方法。

49、2)本发明提出了基于条件表格生成对抗网络的数据生成方法,引入了特定模式归一化机制,使用独热向量代表离散变量,能同时处理离散和连续的风险变量,并很好地处理模式坍塌问题。具体来说,由于事故数据中往往包含许多离散变量,如事故类型、驾驶人信息和天气等,同时与道路段特征相关的变量是连续的,如曲率度、坡度百分比等。本发明可同时处理两种类型的数据,大大提高了模型拟合的效率和应用的实用性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1