一种交通事故预测方法、系统、电子设备及存储介质

文档序号:36490165发布日期:2023-12-26 17:18阅读:31来源:国知局
一种交通事故预测方法

本发明涉及智能交通,特别是涉及一种交通事故预测方法、系统、电子设备及存储介质。


背景技术:

1、随着社会经济的高速发展,汽车保有量不断增加,导致交通事故频发,伤亡人数剧增等问题愈发突出。伤亡人数的增加给交通安全和社会稳定管理带来了巨大压力。精准的交通事故风险评估可以有效地减少交通事故发生概率,避免事故引起的道路拥堵。同时,提高救援资源调度效率,减少因延迟救援时间而导致的二次伤害。因此,研究交通事故风险评估有助于发现交通事故潜在规律,为规避事故风险提供理论基础。

2、在交通事故风险评估方向,目前已经存在大量文献研究。这些研究按方法分为统计学方法和机器学习方法。统计学方法主要通过分析历史交通事故数据,确定风险因素与事故严重之间的关系,然后建立数学模型,预测未来事故发生情况。在目前研究中,评定(logit)模型、ordered logit模型、ordered probit等统计学模型被广泛应用在交通事故风险评估领域。其中,zhao等提出ordered logit模型来探讨交通事故风险因素,结果表明驾驶员受伤程度与驾驶员年龄、事故发生时间、天气等多种因素有关。vieira等使用多元逻辑回归研究交通事故碰撞和损伤严重程度影响因素,研究表明道路环境、路面抓地条件等与事故碰撞程度有密切关系,并且驾驶员异常行为会导致碰撞概率增加。chen等开发了一个随机参数二元有序概率模型来研究同一追尾事故中驾驶员受伤影响因素,研究发现,驾驶员年龄、性别、车辆安全气囊的使用等因素都会影响驾驶员的伤害严重程度。统计学模型具有高效的计算能力,在实时性任务处理上具有较大优势。然而在模型训练时,统计学模型对数据要求比较高,并且训练过程中存在偏差问题,对复杂的非线性数据关系的学习能力相对较弱,难以适应非线性、非高斯、非平稳等复杂交通事故数据。

3、机器学习是一种强大的人工智能算法,可以自动探索数据间的联系、提取有价值的信息和预测未来趋势,从而实现自主学习和智能决策。机器学习模型因对新数据适应能力强,在处理非线性、非高斯、非平稳复杂数据关系时,能体现出较好的模型性能,在交通事故风险评估领域得到广泛应用。其中,具有代表性的有svm、gbdt、rf、mlp、cnn、lstm、stacking模型等。具体的,wu等提出一个创新的gbdt模型以探索各种风险因素对交通事故的相关性影响。yang等提出基于dnn的可解释多任务框架来预测伤害、死亡和财产损失相关的碰撞水平。ma等提出基于ssae的综合分析框架来预测交通事故严重程度,结果表明提出的综合分析框架相对于基准模型具有最佳评估性能。机器学习模型在处理非线性等复杂交通事故数据关系时具有较好的性能,相对于统计学模型往往具有较高的评估精度,能够对特征进行更好的学习。尽管机器学习模型在浅层特征学习上具有明显的优势,但是往往对于深层语义信息挖掘存在不足,具有一定的局限性。并且模型对噪声数据不够敏感,难以处理不平衡交通事故数据,从而降低模型评估精度。

4、尽管交通事故风险评估领域已经存在大量成熟的研究方法,但仍存在事故风险评估模型准确率低的问题。具体表现为:一方面,深层特征学习有助于丰富数据语义信息,增强模型泛化能力和自适应能力,提高模型评估性能。然而,特征中包含丰富的语义信息,缺乏有效、充分的挖掘与利用。另一方面,交通事故数据本身存在不平衡性,现有模型方法在平衡数据上有较好的学习效果。但当处理不平衡数据时,模型性能会有所下降,从而导致评估的不准确性。


技术实现思路

1、本发明的目的是提供一种交通事故预测方法、系统、电子设备及存储介质,提高了交通事故预测的准确性。

2、为实现上述目的,本发明提供了如下方案:

3、一种交通事故预测方法,包括:

4、获取待预测特征;所述待预测特征包括待预测交通事件的时序特征、事故安全特征和共线性特征;

5、基于所述待预测特征和交通事故预测模型,对所述待预测交通事件进行事故预测;所述交通事故预测模型是利用最终交通事故数据集对双层堆叠模型架构进行训练得到的,所述最终交通事故数据集是依次利用cart算法和单边选择对基于原始交通事故数据集进行特征衍生后得到的衍生后的交通事故数据集进行处理得到的;所述双层堆叠模型架构是基于逻辑回归算法、随机森林算法、k近邻算法和梯度提升树构建的。

6、可选地,所述交通事故预测模型的训练过程,包括:

7、获取原始交通事故数据集;所述原始事故数据集包括:多个交通事故的原始时序特征、原始事故安全特征和原始共线性特征;

8、分别对所述原始时序特征、原始事故安全特征和原始共线性特征进行衍生,得到衍生时序特征、衍生事故安全特征和衍生共线性特征;

9、根据所述原始交通事故数据集、所有所述衍生时序特征、所有所述衍生事故安全特征和所有所述衍生共线性特征,搭建衍生后的交通事故数据集;

10、利用cart算法,对衍生后的交通事故数据集进行特征筛选,得到筛选后的交通事故数据集;

11、对筛选后的交通事故数据集进行单边选择数据增强,得到最终交通事故数据集;

12、基于逻辑回归算法、随机森林算法、k近邻算法和梯度提升树构建双层堆叠模型架构;

13、利用所述最终交通事故数据集对所述双层堆叠模型架构进行训练,得到所述交通事故预测模型。

14、可选地,分别对所述原始时序特征、原始事故安全特征和原始共线性特征进行衍生,得到衍生时序特征、衍生事故安全特征和衍生共线性特征,具体包括:

15、确定各原始时序特征对应的衍生时序特征;所述衍生时序特征包括:小时、星期、月份、周末、季节、周次和时段;

16、对所述原始交通事故数据集中的各原始事故安全特征进行衍生,得到多个衍生事故安全特征;

17、对所述原始交通事故数据集中的各原始共线性特征进行衍生,得到多个衍生共线性特征。

18、可选地,利用cart算法,对衍生后的交通事故数据集进行特征筛选,得到筛选后的交通事故数据集,具体包括:

19、计算衍生后的交通事故数据集中各特征的基尼系数;

20、将所述基尼系数小于预设值的特征从衍生后的交通事故数据集中过滤掉,得到筛选后的交通事故数据集。

21、可选地,基于对筛选后的交通事故数据集进行单边选择数据增强,得到最终交通事故数据集,具体包括:

22、对于筛选后的交通事故数据集中的任一当前特征:

23、利用欧几里得距离公式计算当前特征的k个最近邻居;

24、将筛选后的交通事故数据集中属于同一事故等级的特征数量最少的特征确定为小样本,将筛选后的交通事故数据集中除小样本之外的特征确定为大样本;

25、计算当前特征的k个最近邻居中的小样本占k个最近邻居的比例;

26、当所述比例大于预设值时,当前特征的k个最近邻居为内部样本;否则,当前特征的k个最近邻居为边界样本;

27、对于任一当前边界样本:

28、利用欧几里得距离公式计算当前边界样本的k个最近邻居;

29、判断当前边界样本的k个最近邻居中是否存在与当前边界样本属于不同交通事故等级的最近邻居,得到第一判断结果;

30、若所述第一判断结果为否,则当前边界样本与小样本之间没有tomek links关系;

31、若所述第一判断结果为是,则判断与当前边界样本属于不同交通事故等级的任一最近邻居的k个最近邻居中是否包括所述当前边界样本,得到第二判断结果;

32、若所述第二判断结果为是,则当前边界样本与小样本之间有tomek links关系;

33、将存在tomek links关系中的所有边界样本中的大样本消除,得到最终交通事故数据集。

34、可选地,基于逻辑回归算法、随机森林算法、k近邻算法和梯度提升树构建双层堆叠模型架构,具体包括:

35、以逻辑回归算法、随机森林算法和k近邻算法作为第一层基础分类器,以梯度提升树作为第二层元学习器构建双层堆叠模型架构。

36、一种交通事故预测系统,包括:

37、待预测特征获取模块,用于获取待预测特征;所述待预测特征包括待预测交通事件的时序特征、事故安全特征和共线性特征;

38、交通事故预测模块,用于基于所述待预测特征和交通事故预测模型,对所述待预测交通事件进行事故预测;所述交通事故预测模型是利用最终交通事故数据集对双层堆叠模型架构进行训练得到的,所述最终交通事故数据集是依次利用cart算法和单边选择对基于原始交通事故数据集进行特征衍生后得到的衍生后的交通事故数据集进行处理得到的;所述双层堆叠模型架构是基于逻辑回归算法、随机森林算法、k近邻算法和梯度提升树构建的。

39、一种电子设备,包括:

40、一个或多个处理器;

41、存储装置,其上存储有一个或多个程序;

42、当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述所述的交通事故预测方法。

43、一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上述所述的交通事故预测方法。

44、根据本发明提供的具体实施例,本发明公开了以下技术效果:

45、本发明公开了一种交通事故预测方法、系统、电子设备及存储介质,基于数据增强技术,针对交通事故语义信息不足、内在不平衡和模型对非线性数据学习能力差等问题,提出了基于数据增强的交通事故预测模型。该模型能够显著提高提高交通事故风险预测准确度,有效降低交通事故发生概率,保证城市道路环境安全提高了交通事故预测的准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1