一种道路交叉口信号灯绿信比控制方法、装置和设备

文档序号:28599434发布日期:2022-01-22 11:00阅读:419来源:国知局
一种道路交叉口信号灯绿信比控制方法、装置和设备

1.本发明涉交通信号控制技术领域,特别涉及一种基于深度强化学习的道路交叉口信号灯绿信比控制方法、装置和计算机设备。


背景技术:

2.当前大部分城市的交叉口信号灯仍然在使用传统的分段定时控制方法,虽然简单但却无法适应实时变化的交通流,容易造成交通拥堵。随着智慧城市建设的推进,对城市道路的信控交叉口进行自适应配时优化控制已经成为一个研究热点,以遗传算法为代表的智能寻优算法,以模糊控制为代表的模糊逻辑算法,以petri网为代表的图论算法,以q学习为代表的强化学习算法是当前的几种主流解决方案。其中,深度强化学习融合了深度神经网络强大的感知能力和强化学习优异的序贯决策能力,通过与环境交互反馈寻找最优控制策略,在解决城市交通信号控制这种复杂的系统优化问题方面有着独特的优势。
3.目前,使用深度强化学习对信号灯进行控制的研究主要用速度矩阵和位置矩阵定义交通状态,通过切换相位或直接增减相位绿灯时长控制信号灯。在当前的技术条件下,这种方式对交通状态的提取成本较高,且没有考虑实际交叉口可能存在倒计时显示器,同时频繁切换相位还会增加交通事故的风险,所以该方法在实际应用时受到了一定的限制。


技术实现要素:

4.基于此,针对现有深度强化学习方法在实际应用中交通状态提取成本高,难以应用在有倒计时显示器的路口,以及当前探索率的线性和指数衰减方法容易造成网络收敛效果差等问题,本发明提供了一种基于深度强化学习的道路交叉口信号灯绿信比控制方法、装置和计算机设备。
5.本发明实施例提供一种道路交叉口信号灯绿信比控制方法,包括:
6.构建深度强化学习模型;其中,所述深度强化学习模型的四要素包括:状态:各进口道在信号周期内的车流量、平均车速、平均排队长度;动作:根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案;策略:使用ε-greedy贪心策略,探索率随着训练时长动态余弦衰减;奖赏:零延误时间因子与交叉口平均延误时间之差;
7.获取训练数据;所述训练数据包括:实际道路交叉口每条进口道在一个信号周期内的车流量、平均车速、平均排队长度;
8.通过训练数据,对深度强化学习模型进行训练,获得最优决策神经网络;
9.根据最优决策神经网络,确定道路交叉口信号灯的最优绿信比。
10.在其中一个实施例中,一种道路交叉口信号灯绿信比控制方法,还包括:
11.根据真实的平面十字交叉口的几何渠化结构、通行限制要求、交通流检测器铺设信息,在vissim软件中建立仿真路网;
12.基于仿真路网,通过交通流检测器获取各进口道在信号周期内的车流量、平均车速、平均排队长度,并构建基于车流量、平均车速、平均排队长度的状态矩阵。
13.在其中一个实施例中,一种道路交叉口信号灯绿信比控制方法,还包括:
14.对基于车流量、平均车速、平均排队长度的状态矩阵进行线性归一化处理。
15.在其中一个实施例中,所述根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案,具体包括:
16.根据道路交叉口设计的饱和流量与当前实际检测流量,计算出最大流量比之和y:
[0017][0018]
计算在一个周期内的信号损失时间le:
[0019][0020]
利用韦伯斯特公式,计算最佳周期c:
[0021][0022]
计算有效绿灯时间ge:
[0023]
ge=c-le[0024]
根据最小绿灯时间g0、最大绿灯时间g1,绿灯时间取值最小间隔g2,计算各相位绿信比:
[0025][0026]
确定绿信比配时方案p:
[0027]
[k,c,ta(t
c1
,t
c2
,
···
t
ci
),(λ0,λ1···
λi)]
[0028]
其中,n为相位数目;i为当前相位;yi为当前相位的最大流量比;f
i1
为当前相位第一方向的实测小时流量;f
i2
为当前相位第一方向的饱和小时流量;f
i3
为当前相位第二方向的实测小时流量;f
i4
为当前相位第二方向的饱和小时流量;ls为车辆启动损失时间,取值为0~3秒之间,此处取0秒;tc为清场全红时间,取值为2秒,此处取2秒;ta为黄灯时间,取值取2~3秒,此处取3秒;最佳周期c取值5的倍数;ti为相位绿灯时长,且各相位绿灯时长之和为有效绿灯时长ge;k为方案编号。
[0029]
在其中一个实施例中,所述探索率ε的表达式为:
[0030][0031]
其中,探索率ε的动态衰减曲线符合三角余弦函数变化规律;ε0为最小探索率,ε1为最大探索率,m为当前迭代回合,m为最大迭代回合。
[0032]
在其中一个实施例中,所述零延误时间因子与交叉口平均延误时间d之差的表达式为:
[0033]
[0034]
其中,零延误时间因子δ为在随机选择的绿信比配时方案下、多次测试周期时长后得到的交叉口平均延误时间;ln为交叉口进口道数目,j为当前进口道,dj为当前进口道的周期平均延误时间。
[0035]
在其中一个实施例中,所述通过训练数据,对深度强化学习模型进行训练,获得最优决策神经网络,具体包括:
[0036]
基于仿真路网、深度强化学习模型、训练数据,并设置各进口道输入的交通流数据,包括各车型比例、各时段的小时交通流量,通过dqn算法进行一定时长的离线训练,得到一个决策神经网络;
[0037]
其中,所述dqn算法主干网络由3层全连接层深度神经网络构成,其最后一层的节点数与绿信比配时方案数目一致。
[0038]
在其中一个实施例中,所述dqn算法,包括:
[0039]
初始化训练过程中的超参数学习率、折扣率、探索率、测试频率、经验池大小;
[0040]
初始化在线网络和目标网络为相同的权重,且权值为服从高斯正态分布的随机值;
[0041]
开始迭代episode,重置vissim环境,并随机运行5个仿真周期进行热身后正式训练;
[0042]
智能体获取交通流参数表征状态并线性归一化处理;
[0043]
根据归一化状态,智能体使用ε-greed策略选择一种最优动作;
[0044]
根据最优动作,智能体选择对应的绿信比方案配时运行一周期,得到新状态、延误时间;
[0045]
将延误时间转换为奖赏值,判断是否达到回合结束条件,得到结束标志;
[0046]
存储样本状态、动作、新状态、奖赏值、结束标志到经验池并更新经验池;
[0047]
经验池已满时,智能体从经验池中随机取出一批样本进行学习;
[0048]
根据误差结果反向传播更新在线网络权重,并根据冻结步长覆盖目标网络;
[0049]
用新状态覆盖状态;
[0050]
判断是否收敛,若是,episode加1,进入下步骤,否则step加1,从步骤智能体获取交通流参数表征状态并线性归一化处理重新开始;
[0051]
判断是否达到测试频率条件并测试网络性能,并保存网络模型测试数据;
[0052]
连续多个回合满足收敛要求或已达到设定的最大训练回合数,训练结束,测试训练结果,否则从步骤开始迭代episode,重置vissim环境,并随机运行5个仿真周期进行热身后正式训练重新开始。
[0053]
一种道路交叉口信号灯绿信比控制装置,包括:
[0054]
模型构建模块,用于构建深度强化学习模型;其中,所述深度强化学习模型的四要素包括:状态:各进口道在信号周期内的车流量、平均车速、平均排队长度;动作:根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案;策略:使用ε-greedy贪心策略,探索率随着训练时长动态余弦衰减;奖赏:零延误时间因子与交叉口平均延误时间之差;
[0055]
数据获取模块,用于获取训练数据;所述训练数据包括:实际道路交叉口每条进口道在一个信号周期内的车流量、平均车速、平均排队长度;
[0056]
最优网络确定模块,用于通过训练数据,对深度强化学习模型进行训练,获得最优
决策神经网络;
[0057]
最优绿信比确定模块,用于根据最优决策神经网络,确定道路交叉口信号灯的最优绿信比。
[0058]
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0059]
构建深度强化学习模型;其中,所述深度强化学习模型的四要素包括:状态:各进口道在信号周期内的车流量、平均车速、平均排队长度;动作:根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案;策略:使用ε-greedy贪心策略,探索率随着训练时长动态余弦衰减;奖赏:零延误时间因子与交叉口平均延误时间之差;
[0060]
获取训练数据;所述训练数据包括:实际道路交叉口每条进口道在一个信号周期内的车流量、平均车速、平均排队长度;
[0061]
通过训练数据,对深度强化学习模型进行训练,获得最优决策神经网络;
[0062]
根据最优决策神经网络,确定道路交叉口信号灯的最优绿信比。
[0063]
本发明实施例提供的上述道路交叉口信号灯绿信比控制方法,与现有技术相比,其有益效果如下:
[0064]
本发明针对现有深度强化学习采用速度矩阵和位移矩阵作为交通状态,提取成本高且未有效利用现有常规检测器数据的问题,采用各进口道周期车流量、平均车速、平均排队长度表征交通流状态,可在实际应用中减少检测成本;本发明针对现有深度强化学习采用相位控制的方案难以应用在有倒计时显示器的路口,且频繁切换相位有发生安全事故隐患的问题,采用绿信比控制的方案,不同的绿信比方案一起构成动作空间,在信号周期内,绿信比保持不变,可以使得深度强化学习也能应用在有倒计时显示器的交叉口;本发明针对现有深度强化学习采用的探索率线性衰减或指数衰减导致网络学习难以收敛的问题,采用余弦衰减的方式提高收敛的效果。
附图说明
[0065]
图1为一个实施例中提供的交叉口仿真路网图;
[0066]
图2为一个实施例中提供的决策神经网络训练流程示意图;
[0067]
图3为一个实施例中提供的深度神经网络结构示意图;
[0068]
图4为一个实施例中提供的迭代训练10000回合的延误时间变化曲线图;
[0069]
图5为一个实施例中提供的迭代训练10000回合的损失函数变化曲线图;
[0070]
图6为一个实施例中提供的迭代训练10000回合的最优奖赏变化曲线图;
[0071]
图7为一个实施例中提供的测试100周期的固定配时与dqn配时的延误时间2d对比图;
[0072]
图8为一个实施例中提供的测试100周期的固定配时与dqn配时的延误时间3d对比图;
[0073]
图9为一个实施例中提供的测试100周期的固定配时与dqn配时的延误时间分布箱线图;
[0074]
图10为一个实施例中提供的一种道路交叉口信号灯绿信比控制方法原理示意图。
具体实施方式
[0075]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0076]
参见图10,一个实施例中,提供的一种道路交叉口信号灯绿信比控制方法,该方法具体包括:
[0077]
步骤1:对真实交叉口环境进行建模,根据待控交叉口的实际几何渠化特征、通行限制以及交通流检测器铺设等要素,在vissim软件中建立仿真路网,尽可能贴近真实环境。
[0078]
步骤2:构建强化学习模型四要素,即状态(state)、动作(action)、策略(policy)、奖赏(reward):
[0079]
状态:各进口道在信号周期内的车流量f、平均车速v、平均排队长度l。
[0080]
动作:根据交叉口参数及绿时约束等条件计算出不同的绿信比方案。
[0081]
策略:使用ε-greedy贪心策略,探索率ε随着训练时长动态余弦衰减。
[0082]
奖赏:零延误时间因子δ与交叉口平均延误时间d之差。
[0083]
步骤3:通过检测器提取实际交叉口的每条进口道在一个信号周期内的车流量、平均车速、平均排队长度,并上传足够的数据到算法训练机。
[0084]
步骤4:在算法训练机上借助vissim交通仿真平台,利用步骤1的路网,步骤2的强化学习模型以及步骤3的数据,通过dqn(deep q network)算法进行一定时长的离线训练,得到最优决策神经网络,即训练最优决策神经网络就是为了实现从实时交通状态到最优绿信比方案的映射。
[0085]
上述步骤的具体说明如下:
[0086]
步骤1:获取一个真实的平面十字交叉口的几何渠化结构、通行限制要求以及交通流检测器铺设等信息,在vissim软件中建立仿真路网,设置交通流检测器,设置车型分配以及期望车速分布,由于本实施例中右转车辆的通行不受红绿灯限制,故路网中不设置右转车道,本实施例建立的仿真路网见附图1;
[0087]
步骤2:构建强化学习模型四要素,即状态(state)、动作(action)、策略(policy)、奖赏(reward)。
[0088]
状态:各进口道在信号周期内的车流量f、平均车速v、平均排队长度l,本实施例建立的仿真路网共检测8条进口道的交通参数,其状态矩阵s表示如下:
[0089][0090]
为提高网络训练后的泛化能力,以及应对奇异样本的干扰,需要对状态矩阵s,即检测器采集车流量、平均车速、平均排队长度进行线性归一化处理,处理方法为当前检测值与该参数最大上限值之间的比值,其状态归一化处理公式表示为:
[0091][0092]fm
为最大周期车流量,vm为车速上限,lm为最大排队长度,*运算符表示前一矩阵中的每一个元素均与后一矩阵中对应行的元素相乘,在python编程中可使用numpy的广播机制实现该操作。
[0093]
动作:根据交叉口参数及绿时约束等条件计算出不同的绿信比方案:
[0094]
首先根据交叉口设计的饱和流量与当前实际检测流量计算出最大流量比之和y,公式如下:
[0095][0096]
n为相位数目,i为当前相位,yi为当前相位的最大流量比,f
i1
为当前相位第一方向的实测小时流量,f
i2
为当前相位第一方向的饱和小时流量,f
i3
为当前相位第二方向的实测小时流量,f
i4
为当前相位第二方向的饱和小时流量。
[0097]
然后计算在一个周期内的信号损失时间le,公式如下:
[0098][0099]
n为相位数目,i为当前相位,ls为车辆启动损失时间,一般为0~3秒之间,此处取0秒,tc为清场全红时间,一般为2秒,此处取2秒,ta为黄灯时间,一般取2~3秒,此处取3秒。
[0100]
然后利用韦伯斯特(webster)公式计算最佳周期c,公式如下:
[0101][0102]
le表示在一个周期内的全部损失时间,y为交叉口所有相位的最大流量比之和,同时最优周期c一般取5的倍数。
[0103]
然后计算有效绿灯时间ge,其计算公式为:
[0104]
ge=c-leꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0105]
最后根据最小绿灯时间g0、最大绿灯时间g1,绿灯时间取值最小间隔g2,计算一组符合要求的各相位绿信比取值方案,其计算公式为:
[0106][0107]
ti为相位绿灯时长,各相位绿灯时长之和为有效绿灯时长ge,公式如下:
[0108][0109]
最终计算的绿信比配时方案信息包括:方案编号,周期时间,黄灯时间,各相位清
场红灯时间,各相位绿信比,时间单位为秒,配时方案p可表示为:[k,c,ta(t
c1
,t
c2
,
···
t
ci
),(λ0,λ1···
λi)],一个具体的方案例如:动作空间a可表示为{p1,p2,p3...pn}。
[0110]
策略:使用ε-greedy贪心策略,探索率ε随着训练时长动态余弦衰减,公式如下:
[0111][0112]
ε0为最小探索率,ε1为最大探索率,m为当前迭代回合,m为最大迭代回合。
[0113]
奖赏:零延误时间因子δ与交叉口平均延误时间d之差,公式为:
[0114][0115]
零延误时间因子δ为在步骤1建立的交叉口仿真环境下,随机选择步骤2计算的绿信比方案下,多次测试一定周期时长后得到的交叉口平均延误时间,ln为交叉口进口道数目,j为当前进口道,dj为当前进口道的周期平均延误时间。
[0116]
步骤3:通过检测器提取实际交叉口的每条进口道在一个信号周期内的车流量、平均车速、平均排队长度,并上传足够的数据到算法训练机。
[0117]
步骤4:在算法训练机上借助vissim交通仿真平台,利用步骤1的路网,步骤2的强化学习模型以及步骤3的数据,设置各进口道输入的交通流数据,包括各车型比例、各时段的小时交通流量,通过dqn(deep q network)算法进行一定时长的离线训练,得到一个决策神经网络,网络训练流程见附图2。
[0118]
其中,上述步骤4的训练算法具体包括以下子步骤:
[0119]
步骤4.1:初始化训练过程中的学习率α、折扣率γ、探索率ε、测试频率f、经验池大小m、批处理大小b、目标网络更新步长μ等超参数,同时设置最大训练回合episode,每回合最大步长step。
[0120]
步骤4.2:初始化在线网络(online network)和目标网络(target network)为相同的权重,且权值服从分布x~n(0,0.12),即均值为0,标准差为0.1的高斯正态分布的随机值。
[0121]
步骤4.3:开始迭代episode,重置vissim环境,为加快仿真速度,设置不显示仿真画面,同时将仿真速度设置为最大,并随机运行5个仿真周期进行热身,等待交通流稳定,然后开始正式训练。
[0122]
步骤4.4:智能体获取车流量、平均车速、平均排队长度表征状态并线性归一化处理。
[0123]
步骤4.5:根据归一化状态,智能体使用ε-greed策略选择一种最优动作,即一种绿信比配时方案编号,在ε-greed策略中对动作a的选择策略公式描述如下:
[0124][0125]
ε为当前回合探索率,x为在区间[0,1)上随机采样得到的随机浮点数,n为在区间
[0,n)上随机采样得到的随机整数,n为动作空间中的绿信比方案数目,argmaxaq(s,a,θ)表示在状态s下,通过权值为θ0的在线网络前向传播计算各动作a下的q值,并返回q值最大的动作a。
[0126]
为relu,节点数分别为100,100,n,其中n为步骤2计算出的绿信比方案数目,深度神经网络结构见附图3。
[0127]
步骤4.6:根据最优动作,智能体选择对应的绿信比方案数据对信号控制机的各相位进行配时,然后运行一周期,通过检测器获取得到新状态s1、以及交叉口延误时间d。
[0128]
步骤4.7:将延误时间d转换为奖赏值r,计算收敛计数器值(p,q),其计算公式如下:
[0129][0130]rl
表示收敛奖励值下限,r≤r
l
表示学习效果太差,学习失败计数器p的值加1,ru表示收敛奖励值上限,r≥ru表示学习效果很好,学习成功计数器q的值加1。
[0131]
判断是否达到回合结束条件,得到结束标志h,其公式为:
[0132][0133]cf
为最大连续失败次数,cs为最大连续成功次数,当h的值为1时结束当前训练回合,开始下一回合训练,否则继续当前回合训练,直到达到回合最大步长step。
[0134]
步骤4.8:存储样本(状态,动作,新状态,奖赏值,结束标志),即五元组(s,a,s1,r,h)到经验池并更新经验池,若经验池已满,则抛弃旧数据,并在对应位置放入新数据。
[0135]
步骤4.9:当经验池已满时,智能体开始从经验池中随机取出一批样本进行学习,首先通过权值为θ0的在线网络计算在当前样本状态的下选择动作a得到的q现实值q(s,a,θ0),然后通过权值为θ1的目标网络计算在当前样本新状态下选择动作a得到的的q估计值q(s1,a,θ1),则目标q值计算公式如下:
[0136][0137]
r为即时奖励,γ为折扣奖励,为所有动作中,q估计值最大的动作对应的q值,则q值误差计算公式为:
[0138][0139]
为提高收敛效果,使用huber函数作为误差损失函数,计算公式为:
[0140]
[0141]
步骤4.10:将损失函数计算结果反向传播更新在线网络权重,梯度更新优化器为adam,然后判断当前步数是否满足目标网络更新步长μ的整数倍,若是,则将在线网络权值覆盖目标网络,否则不覆盖。
[0142]
步骤4.11:用新状态覆盖状态。
[0143]
步骤4.12:判断是否收敛,若是,episode加1,进入步骤4.13,否则step加1,回到步骤4.4。
[0144]
步骤4.13:判断是否达到测试频率条件,若是,开始测试在线网络性能,测试阶段,不再有随机选择动作的可能,每次均选择价值最大的动作,根据测试结果,保存历史最优网络模型以及测试回合平均延误、测试回合平均奖赏等数据信息。
[0145]
步骤4.14:连续多个回合满足收敛要求或已达到设定的最大训练回合数,训练结束,测试最优训练结果,并与固定配时方案比较,否则回到步骤4.3继续下一回合训练,训练过程中的平均延误见附图4,训练过程中的平均误差见附图5、训练过程中的最优奖励见附图6,绿信比dqn与固定配时平均延误比较测试2d结果见附图7,绿信比dqn与固定配时平均延误比较测试3d结果见附图8,绿信比dqn与固定配时平均延误比较数据分布箱线图测试结果见附图9。
[0146]
本领域技术人员容易知道,除了使用vissim软件作为本发明中使用的仿真平台外,也可以使用常见的sumo等软件根据本发明实施例步骤进行仿真,可以得到类似的仿真结果。
[0147]
综上所述,绿信比是交通配时的重要参数,表示各相位有效绿灯时间在整个周期中所占的比例。因为倒计时显示器数字只能以1秒为间隔递减到零,然后开始下一次倒计时,而不能随便上下跳变,所以在一个周期内,绿信比最好保持不变,本发明考虑到这种情况,将现有深度强化学习中的相位动作空间改为不同绿信比的配时方案,同时利用常规检测器的数据作为状态输入,可降低基于深度强化学习的控制方法在实际中的应用成本,而且能兼容存在倒计时显示器的交叉口,对加快相关理论的实际应用落地有一定的参考价值。
[0148]
还有,本发明通过检测器提取交叉口各进口道的车流量、平均车速和平均排队长度表征交通状态,在信号周期结束时上传数据;基于深度强化学习算法,以绿信比方案为动作,以平均延误时间最小为目标,使用深度全连接神经网络对实时交通流状态进行动作价值估计,选择价值最大的动作控制下一周期的信号配时;通过离线训练以及冻结训练的方式提高网络收敛的稳定性,使用探索率余弦衰减以及引入零奖赏延误因子提高网络的收敛能力,最后拷贝决策网络到实际信号控制机上。本发明充分考虑了常规检测器数据和倒计时显示器的因素,相对控制相位的方法来说更具有实用性,可以减少交通拥堵。
[0149]
一个实施例中,提供的一种道路交叉口信号灯绿信比控制装置,该装置具体包括:
[0150]
模型构建模块,用于构建深度强化学习模型;其中,所述深度强化学习模型的四要素包括:状态:各进口道在信号周期内的车流量、平均车速、平均排队长度;动作:根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案;策略:使用ε-greedy贪心策略,探索率随着训练时长动态余弦衰减;奖赏:零延误时间因子与交叉口平均延误时间之差。
[0151]
数据获取模块,用于获取训练数据;所述训练数据包括:实际道路交叉口每条进口道在一个信号周期内的车流量、平均车速、平均排队长度。
[0152]
最优网络确定模块,用于通过训练数据,对深度强化学习模型进行训练,获得最优决策神经网络
[0153]
需要说明的是,关于道路交叉口信号灯绿信比控制装置的具体限定可以参见上文中对于道路交叉口信号灯绿信比控制方法的限定,在此不再赘述。上述道路交叉口信号灯绿信比控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0154]
一个实施例中,提供的一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
[0155]
构建深度强化学习模型;其中,所述深度强化学习模型的四要素包括:状态:各进口道在信号周期内的车流量、平均车速、平均排队长度;动作:根据交叉口参数及绿时约束条件,计算出不同的绿信比配时方案;策略:使用ε-greedy贪心策略,探索率随着训练时长动态余弦衰减;奖赏:零延误时间因子与交叉口平均延误时间之差。
[0156]
获取训练数据;所述训练数据包括:实际道路交叉口每条进口道在一个信号周期内的车流量、平均车速、平均排队长度。
[0157]
通过训练数据,对深度强化学习模型进行训练,获得最优决策神经网络。
[0158]
根据最优决策神经网络,确定道路交叉口信号灯的最优绿信比。
[0159]
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
[0160]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。还有,以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1