交叉口交通信号控制方法和设备的制造方法
【技术领域】
[0001] 本发明设及城市交通信号控制领域,具体设及一种交叉口交通信号控制方法和设 备。
【背景技术】
[0002] 随着中国经济的高速增长W及城市化进程的加快,大量人口涌入城市,交通设施 兴建和改善的速度远远赶不上人们日益增长的交通需求,交通拥堵问题日益突出。
[0003] 交通拥堵问题出现的原因是多方面的,除去交通设施不充足、交通规划不合理W 及公众交通意识淡薄等因素外,一个很重要的因素是现有的城市交通信号控制系统并未充 分发挥作用。由于城市交通问题的特殊性,难W建立起精确的数学模型。简单的定时控制、 感应控制方法很难适应越来越复杂的交通状况。
[0004] 自适应动态规划(AD巧理论融合了动态规划、强化学习W及函数逼近等方法,其 利用在线或离线数据,采用函数近似结构来估计系统的性能指标函数,然后依据最优性原 理来获得近似最优的控制测量。动作倚赖启发式动态规划(AD皿巧方法是一种典型的自适 应动态规划方法,因其具有无模型自适应的特点,能够满足系统参数变化频繁,实时性要求 较高,难W建立精确模型的城市交通系统的控制要求。
【发明内容】
[0005] 本发明的一个方面提供了一种用于交叉口交通信号控制的AD皿P控制器离线训 练方法,该A畑DP控制器包括Action网络和Critic网络,该方法包括:在步骤S1,定义系 统状态、回报函数、绿信比和系统控制参数;在步骤S2,建立Action网络和化itic网络,其 中:Action网络为具有一个隐层的BP神经网络,其中输入层神经元个数为P,输出层神经元 个数为P-1,隐层的神经元个数为Mg,M。为经验值;化及化itic网络为具有一个隐层的BP神 经网络,其中输入层神经元个数为2P-1,输出层神经元个数为1,隐层的神经元个数为Mt,M。 为经验值;在步骤S3,初始化AD皿P控制器,包括:初始化Action网络权值和初始化化itic 网络权值;在步骤S4,在每个控制周期结束前,获取系统状态,输入至Action网络,输出相 应系统控制参数U化),将系统控制参数U化)输出至仿真软件W指导下一个周期的运行;在 步骤S5,将系统状态S化)和系统控制参数U化)输入至化itic网络,输出性能指标J化);在 步骤S6,交替地根据性能指标和回报函数训练化itic网络W及根据性能指标训练Action 网络,W更新化itic网络的权值和Action网络的权值;化及在步骤S7,判断是否达到预期 设定的目标:当达到预期设定的目标时,在步骤S8,离线训练结束,记录最终的Action网络 的权值和化itic网络的权值;否则,返回步骤S6继续训练。
[0006] 本发明的另一个方面提供了一种使用根据W上方法训练的A畑DP控制器来在线 控制交叉口交通信号的方法,包括:分别W最终的Action网络的权值和化itic网络的权值 初始化Action网络和化itic网络;将在线系统的实时交通数据输入到A畑DP控制器;W及 根据步骤S1中的定义,从在线系统的实时交通数据得到系统状态,将系统状态输入Action 网络,将Action网络的输出作为系统控制参数,用于控制路口交通信号。
[0007] 本发明的另一方面提供了一种用于交叉口交通信号控制的AD皿P控制器离线训 练设备,该A畑DP控制器包括Action网络和化itic网络,该设备包括:第一装置,定义系统 状态、回报函数、绿信比和系统控制参数;第二装置,建立Action网络和化itic网络,其中: Action网络为具有一个隐层的BP神经网络,其中输入层神经元个数为P,输出层神经元个 数为P-1,隐层的神经元个数为M。,M。为经验值;化及化itic网络为具有一个隐层的BP神 经网络,其中输入层神经元个数为2P-1,输出层神经元个数为1,隐层的神经元个数为Mt,M。 为经验值;第Ξ装置,初始化AD皿P控制器,包括:初始化Action网络权值和初始化化itic 网络权值;第四装置,在每个控制周期结束前,获取系统状态,输入至Action网络,输出相 应系统控制参数U化),将系统控制参数U化)输出至仿真软件W指导下一个周期的运行;第 五装置,将系统状态S化)和系统控制参数U化)输入至化itic网络,输出性能指标J化);第 六装置,交替地根据性能指标和回报函数训练化itic网络W及根据性能指标训练Action 网络,W更新化itic网络的权值和Action网络的权值;W及第屯装置,判断是否达到预期 设定的目标:当达到预期设定的目标时,离线训练结束,记录最终的Action网络的权值和 化itic网络的权值;否则,使用第六装置继续训练。
[0008] 本发明的另一个方面提供了一种使用W上设备训练的AD皿P控制器来在线控制 交叉口交通信号的设备,包括:第八装置,分别W最终的Action网络的权值和化itic网络 的权值初始化Action网络和化itic网络;第九装置,将在线系统的实时交通数据输入到 AD皿P控制器;W及第十装置,根据第一装置中的定义,从在线系统的实时交通数据得到系 统状态,将系统状态输入Action网络,将Action网络的输出作为系统控制参数,用于控制 路口交通信号。
[0009] 本发明有效地克服了现有技术中的不足。本发明的交叉口交通信号控制方法具有 在线学习能力,能在交通流量发生变化、非机动车流比例较大等实际工程应用的复杂环境 中,通过对环境反馈的学习,计算出交叉口的配时参数,实现对交通流多变的交叉口的有效 控制。该方法不需要建立交通模型,能够根据交通状态,模拟人脑通过环境反馈进行学习, 从而实现对交通信号的自适应控制。
【附图说明】
[0010] 图1示意性示出了本发明的离线训练方法流程图。
[0011] 图2示意性示出了AD皿P结构和训练示意图。
[0012] 图3示意性示出了Action网络和化itic网络结构示意图。
【具体实施方式】
[0013] W下结合附图和实施例对本发明的技术方案作进一步详细说明。W下实施例在W 本发明技术方案为前提下进行实施,给出了详细的实施方式和过程,但本发明的保护范围 不限于下述的实施例。
[0014] 参考图1和图2说明本发明的实施例。图1示意性示出了本发明的AD皿P控制器 离线训练方法流程图。图2示意性示出了AD皿P结构和训练示意图。在下文中,W-个两 相位的交叉口为例进行说明。
[0015] 如图1所示,该方法开始于步骤SO。
[0016] 在步骤S1,定义系统状态、回报函数、绿信比和系统控制参数。
[0017]W如下方式定义系统状态。假设每个控制周期内有P个相位,相位时间长度为 Ti,每个相位有Li个车道获得通行权限,各车道最大排队长度为h1,相位排队长度Hi= max化i},相位平均排队长度
各车道的流量为q,,相位流量为Qi=max{q,},定 义相位饱和度天
其中1《i《P,1《j《Li,ε为归一化常数。
[001引定义系统状态为S(k) =(si化)},1《i《Ρ,其中k为仿真步数,步长为第k个控 制周期的时间长度Ck,周期长度可根据历史流量用Webster方法确定,取值通常在30秒到 120秒之间。
[0019] 定义回报函数为
,其中N=P-1,P>2。
[0020] 定义绿信比为曰1,其中1《i《P-1。最后一个相位的绿信比
[0021] 系统控制参数为U似=咕似},1《i《P。
[0022] 在两相位的示例中,系统状态为S(k) = {Si(k)},其中i= 1,2。第一个相位的绿 信比为曰1,则有第二个相位绿信比为曰2= 1-曰1。
[0023] 在步骤S2,建立Action网络和化itic网络。如图3所示,Action网络为具有一 个隐层的BP神经网络,其中输入层神经元个数为P,输出层神经元个数为P-1,隐层的神经 元个数为M。,隐层神经元个数M。为经验值,通常在5~20之间。化itic网络为具有一个隐 层的BP神经网络,其中输入层神经元个数为2P-1,输出层神经元个数为1,隐层的神经元个 数为M。,隐层神经元个数M。为经验值,通常在5~20之间。
[0024] 在两相位的示例中,Action网络为具有一个隐层的BP神经网络,其中输入层神经 元个数为2,输出层神经元个数为2,隐层的神经元个数为8。化itic网络为具有一个隐层 的BP神经网络,其中输入层神经元个数为3,输出层神经元个数为1,隐层的神经元个数为 8。
[0025] 在步骤S3,初始化控制器,包括初始化Action网络权值和化itic网络权值。可W 将Action网络的学习率设置为1。,学习率1。通常为0~1之间的常数,每一步训练次数设置 为N。,训练次数N。为经验值,通常在5~50之间。可W将化itic网络的学习率设置为1。,学 习率1。通常为0~1之间的常数,每一步训练次数设置为N。,训