Eadp控制器的离线训练方法和系统及其在线控制方法和系统的制作方法
【技术领域】
[0001] 本发明实施例涉及城市交通管理技术领域,尤其是涉及一种用于交叉路口交通信 号控制的EADP控制器离线训练方法和系统以及用于交叉路口交通信号控制的EADP控制器 在线控制方法和系统。
【背景技术】
[0002] 随着机动车保有量的增加,交通拥堵成为日趋严重的问题。交通设施兴建和改善 的速度远远赶不上人们日益增长的交通需求,同时由于城市空间的限制,也很难通过不断 新建道路来缓解交通压力。因此,如何最大限度地利用好现有的交通资源,减少交通延误, 提高通行效率,使道路交通的安全、有序、畅通,成为交通管控的重要议题。由于城市交通问 题的特殊性,很难建立起精确的数学模型,传统的交叉口信号控制作为交通管控的关键手 段,在交通控制系统中并未能发挥最大作用。
[0003] 自适应动态规划(ADP)理论融合了动态规划、强化学习以及函数逼近等方法,其利 用在线或离线数据,采用函数近似结构来估计系统的性能指标函数,然后依据最优性原理 来获得近似最优的控制测量。ADP控制器可以在无先验知识的情况下得到一个有效的控制 器。
[0004] 发明人在实现本发明的过程中,发现现有技术至少存在以下缺陷:
[0005] 该控制器的稳定性较难保证。
[0006] 有鉴于此,特提出本发明。
【发明内容】
[0007] 本发明实施例的主要目的在于提供一种用于交叉路口交通信号控制的EADP控制 器离线训练方法,解决了传统ADP控制器稳定性难以保证的技术问题。此外,还提供一种用 于交叉路口交通信号控制的EADP控制器离线训练系统。
[0008] 另外,本发明实施例还提供了一种用于交叉路口交通信号控制的EADP控制器在线 控制方法,其解决了如何根据交通状态,实现对交通信号的自适应控制的技术问题。此外, 还提供一种用于交叉路口交通信号控制的EADP控制器在线控制系统。
[0009] 为了实现上述目的,根据本发明的一个方面,提供了以下技术方案:
[0010] -种用于交叉路口交通信号控制的EADP控制器离线训练方法,其中,所述EADP控 制器包括多个子ADP控制器,该方法至少可以包括:
[0011] 获取所述交叉路口的系统状态;
[0012] 构建所述各子ADP控制器的Action网络和Critic网络;
[0013] 根据所述系统状态和所述各子ADP控制器的Act ion网络和Critic网络,确定回报 函数、系统控制参数和性能指标;
[0014] 根据所述性能指标和所述回报函数交替地训练各子ADP控制器的Critic网络以及 根据所述性能指标和所述系统控制参数交替地训练所述各子ADP控制器的Action网络,以 更新所述Cr i t i c网络的权值和所述Ac t i on网络的权值;
[0015] 确定上述训练达到训练目标时,记录所述各子ADP控制器的所述Action网络的权 值和所述Cr i t i c网络的权值。
[0016] 根据本发明的另一个方面,还提供一种用于交叉路口交通信号控制的EADP控制器 在线控制方法,其中,所述EADP控制器包括多个在线学习的子ADP控制器,所述方法至少可 以包括:
[0017]利用上述方法训练所述各在线学习的子ADP控制器;
[0018] 获取所述交叉路口的实时系统状态;
[0019] 将所述实时系统状态输入至所述训练之后的各在线学习的子ADP控制器,确定所 述各在线学习的子ADP控制器的实时系统控制参数;
[0020] 对所述各在线学习的子ADP控制器的实时系统控制参数进行加权平均,得到所述 EADP控制器的实时系统控制参数;
[0021] 将所述EADP控制器的实时系统控制参数加载至交通信号控制系统。
[0022]根据本发明的再一个方面,还提供一种用于交叉路口交通信号控制的EADP控制器 离线训练系统,其中,该EADP控制器包括多个子ADP控制器,所述系统至少包括:
[0023]第一获取模块,被配置为获取所述交叉路口的系统状态;
[0024] 构建模块,被配置为构建所述各子ADP控制器的Action网络和Critic网络;
[0025]第一确定模块,被配置为根据所述系统状态和所述各子ADP控制器的Action网络 和Critic网络,确定回报函数、系统控制参数和性能指标;
[0026] 第一训练模块,被配置为根据所述性能指标和所述回报函数交替地训练各子ADP 控制器的Critic网络以及根据所述性能指标和所述系统控制参数交替地训练所述各子ADP 控制器的Ac t i on网络,以更新所述Cr i t i c网络的权值和所述Ac t i on网络的权值;
[0027] 记录模块,被配置为确定上述训练达到训练目标时,记录所述各子ADP控制器的所 述Ac t i on网络的权值和所述Cr i t i c网络的权值。
[0028] 根据本发明的又一个方面,还提供一种用于交叉路口交通信号控制的EADP控制器 在线控制系统,其中,所述EADP控制器包括多个在线学习的子ADP控制器,所述系统至少包 括:
[0029] 第二训练模块,被配置为利用权利要求8至13任一所述的系统训练所述各在线学 习的子ADP控制器;
[0030] 第二获取模块,被配置为获取所述交叉路口的实时系统状态;
[0031] 第二确定模块,被配置为将所述实时系统状态输入至所述训练之后的各在线学习 的子ADP控制器,确定所述各在线学习的子ADP控制器的实时系统控制参数;
[0032]加权平均模块,被配置为对所述各在线学习的子ADP控制器的实时系统控制参数 进行加权平均,得到所述EADP控制器的实时系统控制参数;
[0033]加载模块,被配置为将所述EADP控制器的实时系统控制参数加载至交通信号控制 系统。
[0034]与现有技术相比,上述技术方案至少具有以下有益效果:
[0035]本发明实施例通过提供一种用于交叉路口交通信号控制的EADP控制器离线训练 方法,根据得到的系统状态和构建好的各子ADP控制器的Action网络和Critic网络,确定回 报函数、系统控制参数和性能指标;并根据性能指标和回报函数交替地训练各子ADP控制器 的Critic网络以及根据性能指标和系统控制参数交替地训练各子ADP控制器的Action网 络,以更新Critic网络的权值和Action网络的权值;确定在训练达到训练目标时,记录各子 ADP控制器的Action网络的权值和Critic网络的权值。从而可以确保ADP控制器的稳定性。 [0036]本发明实施例通过提供一种用于交叉路口交通信号控制的EADP控制器在线控制 方法,利用离线训练方法训练各在线学习的子ADP控制器;然后获取交叉路口的实时系统状 态;将实时系统状态输入至训练之后的各在线学习的子ADP控制器,确定各在线学习的子 ADP控制器的实时系统控制参数;再对各在线学习的子ADP控制器的实时系统控制参数进行 加权平均,得到EADP控制器的实时系统控制参数;最后将EADP控制器的实时系统控制参数 加载至交通信号控制系统。该方法能够根据交通状态,模拟人脑通过环境反馈进行在线学 习,计算出交叉路口的配时参数,从而实现对交通信号的自适应控制。
[0037] 当然,实施本发明的任一产品不一定需要同时实现以上所述的所有优点。
[0038] 本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变 得显而易见,或者通过实施本发明而了解。本发明的目的和其它优点可通过在所写的说明 书、权利要求书以及附图中所特别指出的方法来实现和获得。
[0039]需要说明的是,
【发明内容】
部分并非旨在标识出请求保护的主题的必要技术特征, 也并非是用来确定请求保护的主题的保护范围。所要求保护的主题不限于解决在【背景技术】 中提及的任何或所有缺点。
【附图说明】
[0040] 附图作为本发明的一部分,用来提供对本发明的进一步的理解,本发明的示意性 实施例及其说明用于解释本发明,但不构成对本发明的不当限定。显然,下面描述中的附图 仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他附图。在附图中:
[0041] 图1为根据一示例性实施例示出的用于交叉路口交通信号控制的EADP控制器离线 训练方法的流程示意图;
[0042]图2为根据一示例性实施例示出的训练子ADP控制器的示意图;
[0043]图3为根据一示例性实施例示出的Action网络和Critic网络结构示意图;
[0044] 图4为根据一示例性实施例示出的EADP控制器进行在线控制的示意图;
[0045] 图5为根据一示例性实施例示出的用于交叉路口交通信号控制的EADP控制器离线 训练系统的结构示意图;
[0046]图6为根据一示例性实施例示出的用于交叉路口交通信号控制的EADP控制器在线 控制系统的结构示意图。
[0047] 这些附图和文字描述并不旨在以任何方式限制本发明的构思范围,而是通过参考 特