一种基于混合地理加权回归的交通事故预测方法与流程

文档序号:20920846发布日期:2020-05-29 14:07阅读:359来源:国知局
一种基于混合地理加权回归的交通事故预测方法与流程

本发明属于交通安全技术领域,尤其涉及一种基于混合地理加权回归的交通事故预测方法。



背景技术:

长期以来,交通事故给人们的生命财产安全带来极大的危害。世界卫生组织数据显示,2016年全球有135万人死于交通事故。围绕交通事故的预测研究一直是各国交通安全研究学者关注的重点和难点。传统的交通事故预测方法大多是运用事故历史数据及影响因素数据,基于多元线性回归、神经网络等理论模型预测,但该方法忽视了交通事故影响因素的空间异质性特征,即在城市不同空间区域内某个变量的属性值存在差异性。现有技术交通事故预测方法如下:

1、公开号为cn201310041718.0的中国发明专利申请公开了“一种基于地理加权回归的县级交通事故预测方法”,该方法基于地理加权泊松回归(geographicallyweightedpoissonregression,gwpr)模型,重点研究了交通事故影响因素的空间异质性特征,默认所有变量在不同空间位置具有不同的回归系数。但在实际应用中,并不是模型中所有变量的回归系数都随着地理位置的改变而发生变化,有一些参数在空间上是不变的,或者其变化非常小可以忽略不考虑。

2、公开号为cn201810352052.3的中国发明专利申请公开了“基于无偏非齐次灰色模型和马氏模型的交通事故预测方法”、公开号为cn201810320886.6的中国发明专利申请公开了“一种基于pca和bp神经网络的交通事故预测方法”,这些方法主要提出了不考虑交通事故影响因素空间效应的交通事故预测方法,并未涉及到交通事故影响因素的空间异质性问题。但有研究表明,融入影响因素的空间效应有助于提高交通事故预测模型精度。

由此可见,提供一种空间异质性考虑充分和预测模型精度高的交通事故预测方法是本领域急需解决的问题。



技术实现要素:

本发明的主要目的在于解决现有技术中存在的问题,提供一种空间异质性考虑充分和预测模型精度高的基于混合地理加权回归的交通事故预测方法。

本发明所解决的技术问题采用以下技术方案来实现:一种基于混合地理加权回归的交通事故预测方法,包括如下步骤:

步骤1、划分交通事故的空间研究区域,采集所述空间研究区域内的影响因素数据,获得建模所需解释变量和被解释变量;

步骤2、预处理空间研究区域内的影响因素数据,通过双对数模型分析处理解释变量和被解释变量,同时通过多重共线性验证解释变量,删除不合理的解释变量;

步骤3、构建空间权重函数为高斯函数和双重平方函数;

步骤4、确定带宽选择类型为固定带宽和自适应带宽,确定带宽优化准则为修正的赤池信息准则;

步骤5、基于空间权重函数和带宽选择类型的不同组合,以模型-2倍的对数似然函数值-2log-likelihood、带宽优化aicc值和调整拟合优度值adjustedr2作为评价指标,构建并确定最优地理加权泊松回归模型;

步骤6、分别纳入解释变量作为全局变量构建混合地理加权泊松回归模型进行对比测试,若模型拟合结果aicc的差值为正值,则表示该解释变量应作为全局变量纳入混合地理加权泊松回归模型,否则,该解释变量应作为局部变量纳入混合地理加权泊松回归模型;

步骤7、以模型-2倍的对数似然函数值-2log-likelihood、带宽优化aicc值和调整拟合优度值adjustedr2作为评价指标,构建并确定最优混合地理加权泊松回归模型。

进一步,所述步骤1中空间研究区域根据区、县区、街道、交通小区、邮编区域和人口普查区的任何一种进行划分。

进一步,所述步骤1中影响因素数据包括交通事故地点、人口统计特征、社会经济属性、兴趣点数据、交通基础设施和运行管理数据中的一种或几种。

进一步,所述步骤1中的被解释变量为交通事故发生频次,解释变量为人口密度、零售店密度,宾馆酒店密度、休闲娱乐密度、餐饮服务密度、公司企业密度、住宅小区密度、交叉口密度和路网密度中的一种或几种。

进一步,所述步骤2中通过多重共线性验证解释变量,删除不合理的解释变量,进一步包括:

通过多重共线性验证解释变量,将方差膨胀因子小于10的解释变量予以保留,将方差膨胀因子大于10的解释变量予以删除。

进一步,所述步骤3中空间权重函数为:

高斯函数

和双重平方函数

其中,wij是空间研究区域i与空间研究区域j之间的空间权重,dij是事故地点i到事故地点j间的欧式距离,h是带宽,表示距离与权重之间函数关系的非负衰减参数。

进一步,所述步骤5中地理加权泊松回归模型为:

其中,(ui,vi)为第i个空间研究区域质心的坐标,p为解释变量总数,β0(ui,vi)是回归常数,βk(ui,vi)是第i个空间研究区域的第k个回归系数,εi是第i个空间研究区域的随机误差,服从于数学期望为0、方差为σ2的正态分布。

进一步,所述步骤7中混合地理加权泊松回归模型为:

其中,(ui,vi)为第i个空间研究区域质心的坐标,p为解释变量总数,pa为全局变量个数,pb为局部变量个数,β0(ui,vi)是回归常数,βk(ui,vi)是第i个空间研究区域的第k个回归系数,βik(ui,vi)是第i个空间研究区域的第ik个回归系数,εi是第i个空间研究区域的随机误差,服从于数学期望为0、方差为σ2的正态分布。

本发明的有益效果为:

1、本发明分别纳入解释变量作为全局变量构建混合地理加权泊松回归模型进行对比测试,若模型拟合结果aicc的差值为正值,则表示该解释变量应作为全局变量纳入混合地理加权泊松回归模型,否则,该解释变量应作为局部变量纳入混合地理加权泊松回归模型,显然,本发明充分考虑了交通事故的空间异质性特征,克服了现有事故预测研究忽视影响因素的全局影响和局部影响差异,导致交通事故预测精度不高的问题,能够明确影响因素是全局变量还是局部变量,最终使得交通事故发生预测的精度更高。

2、本发明的空间权重函数为高斯函数和双重平方函数,带宽选择类型为固定带宽和自适应带宽,基于空间权重函数和带宽选择类型的不同组合,以模型-2倍的对数似然函数值-2log-likelihood、带宽优化aicc值和调整拟合优度值adjustedr2作为评价指标,构建并确定最优地理加权泊松回归模型,显然,利用两种空间权重函数和两种带宽选择类型的不同组合方式构建地理加权泊松回归模型,并通过模型-2倍的对数似然函数值-2log-likelihood、带宽优化aicc值和调整拟合优度值adjustedr2这三个评价指标确定一种最优的地理加权泊松回归模型,这种多种组合方式构建的模型使得可供选择的模型种类多,三个评价指标使得每个模型的评价可靠性更高,提高了预测模型精度。

3、本发明的交通事故预测方法可以应用在交通事故影响因素的作用分析方面,通过该方法可以明确影响因素是全局变量还是局部变量以及在实际空间区域中的具体分布,实现对预测空间区域交通事故发生的准确预防和精确管控,有助于明确交通事故影响因素的空间影响,丰富和完善交通事故预测理论,对城市交通安全规划、管理和预防具有重要意义。

附图说明

图1为本发明一种基于混合地理加权回归的交通事故预测方法的流程图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

图1为本发明一种基于混合地理加权回归的交通事故预测方法的流程图。

如图1所示,本发明提供的一种基于混合地理加权回归的交通事故预测方法,包括如下步骤:

步骤1、划分交通事故的空间研究区域,采集空间研究区域内的影响因素数据,获得建模所需解释变量和被解释变量。

步骤1中空间研究区域根据区、县区、街道、交通小区、邮编区域和人口普查区的任何一种进行划分。

步骤1中影响因素数据包括交通事故地点、人口统计特征、社会经济属性、兴趣点数据、交通基础设施和运行管理数据中的一种或几种。

步骤1中的被解释变量为交通事故发生频次,解释变量为人口密度、零售店密度,宾馆酒店密度、休闲娱乐密度、餐饮服务密度、公司企业密度、住宅小区密度、交叉口密度和路网密度中的一种或几种。

步骤2、预处理空间研究区域内的影响因素数据,通过双对数模型分析处理解释变量和被解释变量,同时通过多重共线性验证解释变量,删除不合理的解释变量。

步骤2中通过多重共线性验证解释变量,删除不合理的解释变量,进一步包括:通过多重共线性验证解释变量,将方差膨胀因子小于10的解释变量予以保留,将方差膨胀因子大于10的解释变量予以删除。

步骤3、构建空间权重函数为高斯函数和双重平方函数。

步骤3中空间权重函数为:

高斯函数

和双重平方函数

其中,wij是空间研究区域i与空间研究区域j之间的空间权重,dij是事故地点i到事故地点j间的欧式距离,h是带宽,表示距离与权重之间函数关系的非负衰减参数。

步骤4、确定带宽选择类型为固定带宽和自适应带宽,确定带宽优化准则为修正的赤池信息准则。

步骤5、基于空间权重函数和带宽选择类型的不同组合,以模型-2倍的对数似然函数值-2log-likelihood、带宽优化aicc值和调整拟合优度值adjustedr2作为评价指标,构建并确定最优地理加权泊松回归模型。

步骤5中地理加权泊松回归模型为:

其中,(ui,vi)为第i个空间研究区域质心的坐标,p为解释变量总数,β0(ui,vi)是回归常数,βk(ui,vi)是第i个空间研究区域的第k个回归系数,εi是第i个空间研究区域的随机误差,服从于数学期望为0、方差为σ2的正态分布。

步骤6、分别纳入解释变量作为全局变量构建混合地理加权泊松回归模型进行对比测试,若模型拟合结果aicc的差值为正值,则表示该解释变量应作为全局变量纳入混合地理加权泊松回归模型,否则,该解释变量应作为局部变量纳入混合地理加权泊松回归模型。

步骤7、以模型-2倍的对数似然函数值-2log-likelihood、带宽优化aicc值和调整拟合优度值adjustedr2作为评价指标,构建并确定最优混合地理加权泊松回归模型。

步骤7中混合地理加权泊松回归模型为:

其中,(ui,vi)为第i个空间研究区域质心的坐标,p为解释变量总数,pa为全局变量个数,pb为局部变量个数,β0(ui,vi)是回归常数,βk(ui,vi)是第i个空间研究区域的第k个回归系数,βik(ui,vi)是第i个空间研究区域的第ik个回归系数,εi是第i个空间研究区域的随机误差,服从于数学期望为0、方差为σ2的正态分布。

实施例

以下结合技术方案和附图,对所示优选实施例作进一步详述。

如图1所示,本发明提供的一种基于混合地理加权回归的交通事故预测方法,包括如下步骤:

步骤1、划分交通事故的空间研究区域,采集空间研究区域内的影响因素数据,获得建模所需解释变量和被解释变量。其中,

城市交通事故的空间研究区域的划分可按照不同划分原则进行,即空间研究区域根据可以区、县区、街道、交通小区、邮编区域和人口普查区的任何一种进行划分。

本优选实施例以交通小区作为空间研究区域划分,提取某市3356起交通事故作为研究对象,基于该市统计年鉴和全国乡镇第六次人口普查数据提取了人口数据作为人口统计特征,基于高德api接口采集兴趣点数据,提取兴趣点和事故地点经纬度坐标,基于地理统计分析软件arcgis进行数据空间化,同时提取交叉口密度和路网密度作为交通基础设施数据,确定影响因素数据包括交通事故地点、人口统计特征、社会经济属性、兴趣点数据、交通基础设施和运行管理数据中的一种或几种。

最终提取空间研究区域交通事故发生频次作为被解释变量,提取人口密度、零售店密度,宾馆酒店密度、休闲娱乐密度、餐饮服务密度、公司企业密度和住宅小区密度、交叉口密度和路网密度作为解释变量。

步骤2、预处理空间研究区域内的影响因素数据,通过双对数模型分析处理解释变量和被解释变量,同时通过多重共线性验证解释变量,删除不合理的解释变量。其中,

为使数据更符合正态分布并消除模型异方差性或偏态性,避免模型对极端值过于敏感,同时缩小变量取值范围,采用百分比描述解释变量对被解释变量的影响,对解释变量和被解释变量进行对数变换,即采用双对数模型分析处理后的数据进行以下的研究分析。

当解释变量之间存在线性关系时,会产生多重共线性问题,导致对被解释变量单独影响力的估计偏差。因此,通过多重共线性验证解释变量,将方差膨胀因子小于10的解释变量予以保留,将方差膨胀因子大于10的解释变量予以删除。基于统计分析软件spss对解释变量进行多重共线性验证结果如表1所示,计算发现所有解释变量的vif均小于10,均予以保留。

表1解释变量多重共线性结果表

步骤3、构建空间权重函数为高斯函数和双重平方函数。

对交通小区i进行样本估计,利用空间权重矩阵表示交通小区i邻近小区的空间权重值,进而求解回归系数;空间权重矩阵w(ui,vi)是一个对角矩阵,代表第i个小区邻近小区的权重。

在地理加权泊松回归模型中,是通过空间核函数wij计算交通小区i邻近的交通小区j的空间权重值,选用的空间权重函数为:

高斯函数

和双重平方函数

其中,wij是空间研究区域i与空间研究区域j之间的空间权重,dij是事故地点i到事故地点j间的欧式距离,h是带宽,表示距离与权重之间函数关系的非负衰减参数。

步骤4、确定带宽选择类型为固定带宽和自适应带宽,确定带宽优化准则为修正的赤池信息准则。其中,

aicc修正的赤池信息准则是衡量统计模型拟合优良性的一种标准,提供了权衡估计模型复杂度和拟合数据优良性的标准。当地理加权泊松回归模型的aic最小时就是最优带宽,aicc修正的赤池信息准则是akaike把统计学中的估计参数的极大似然原理加以修正得到的选择准则,aicc定义式为:

aicc=2k-2ln(l)

其中,k是模型中未知参数个数,l是模型中极大似然函数值似然函数。

步骤5、基于空间权重函数和带宽选择类型的不同组合,以模型-2倍的对数似然函数值-2log-likelihood、带宽优化aicc值和调整拟合优度值adjustedr2作为评价指标,构建并确定最优地理加权泊松回归模型。其中,

-2倍log-likelihood值越小表明模型的拟合优度越高;模型调整拟合优度值adjustedr2值的最大值为1,r2的值越接近1表示模型的拟合优度越高,r2的值越小表示模型的拟合优度越差;从一组可供选择的模型中选择最佳模型时,通常选择aicc值最小的模型。

基于不同空间权重函数和不同带宽选择类型构建地理加权泊松回归模型,利用迭代搜索法寻找自适应带宽中优化的带宽,并与传统最小二乘法模型(ordinaryleastsquare,ols)进行比较。模型拟合结果如表2所示,在固定带宽、高斯函数权重下,地理加权泊松回归模型(gwpr模型)带宽为5897.15米时,具有最小的aicc值为-457.908,与其它模型相差远大于3,-2倍log-likelihood值最小为-1012.76。同时,模型调整拟合优度值adjustedr2值为0.522,均大于其它模型,表明该地理加权泊松回归模型(gwpr模型)拟合效果和解释效果最佳。

表2gwpr模型拟合结果

地理加权泊松回归模型为:

其中,(ui,vi)为第i个空间研究区域质心的坐标,p为解释变量总数,β0(ui,vi)是回归常数,βk(ui,vi)是第i个空间研究区域的第k个回归系数,εi是第i个空间研究区域的随机误差,服从于数学期望为0、方差为σ2的正态分布。

步骤6、分别纳入解释变量作为全局变量构建混合地理加权泊松回归模型进行对比测试,若模型拟合结果aicc的差值为正值,则表示该解释变量应作为全局变量纳入混合地理加权泊松回归模型,否则,该解释变量应作为局部变量纳入混合地理加权泊松回归模型。其中,

f检验(方程的显著性检验)是指对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。在原假设h0成立的条件下,统计量服从自由度为(k,n-k-1)的f分布,给定显著性水平α,通过判断f>fα(k,n-k-1)或f≤fα(k,n-k-1)来拒绝或接受原假设h0,判断模型的线性关系是否显著成立。

表3为不同解释变量类型下aicc值变化表,表中f检验结果表明人口密度、住宅小区密度、交叉口密度和路网密度在全市范围内影响恒定,应作为全局变量。而零售店密度、宾馆酒店密度、公司企业密度,随空间变换而在不同区域范围具有不同影响,应作为局部变量纳入混合地理加权模型,可见,f检验结果与aicc差值判断结果一致,确保了构建模型的准确度。

表3不同解释变量类型下aicc值变化表

步骤7、以模型-2倍的对数似然函数值-2log-likelihood、带宽优化aicc值和调整拟合优度值adjustedr2作为评价指标,构建并确定最优混合地理加权泊松回归模型。其中,

构建混合地理加权泊松回归模型(mgwpr模型),同样以模型-2倍log-likelihood值、带宽优化aicc值和调整拟合优度值adjustedr2作为评价指标,利用迭代搜索法寻找自适应带宽中优化的带宽。为便于比较模型差异,同时选择与前述最优gwpr模型相同的带宽5897.150m构建混合地理加权泊松回归模型,并与传统的ols模型进行比较。模型拟合结果如表4所示,基于相同固定带宽的mgwpr模型和gwpr模型aicc值相差小于2,模型拟合效果比较接近。基于最优带宽的mgwpr模型-2倍对数似然函数值最小,aicc值最小,调整拟合优度值adjustedr2值最大,说明mgwpr模型拟合效果优于传统的ols模型和gwpr模型。将该市其他空间研究区域的影响因素数据输入所得最优混合地理加权回归模型,即可对空间区域交通事故进行预测。

表4mgwpr模型拟合结果

混合地理加权泊松回归模型为:

其中,(ui,vi)为第i个空间研究区域质心的坐标,p为解释变量总数,pa为全局变量个数,pb为局部变量个数,β0(ui,vi)是回归常数,βk(ui,vi)是第i个空间研究区域的第k个回归系数,βik(ui,vi)是第i个空间研究区域的第ik个回归系数,εi是第i个空间研究区域的随机误差,服从于数学期望为0、方差为σ2的正态分布。

本发明基于混合地理加权回归的交通事故预测方法在交通事故影响因素作用分析方面的应用,将该市其它空间研究区域的影响因素数据输入实施例的分析方法,即可确定影响因素是全局变量还是局部变量以及在实际空间区域中的具体分布,从而为待预测空间区域交通事故发生的准确预防和精准管控提供有力支撑。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1