技术特征:
1.一种基于categorical
‑
dqn乐观探索的交通控制方法,其特征在于,包括以下步骤:s1:将交叉口建模为智能体,初始化当前网络z(o,a;θ)和目标网络z
′
(o,a;θ
′
),其中:o为局部观测,a为下一刻要选择的信号相位,θ为当前网络参数,θ
′
为目标网络参数;s2:将经验回放池erm进行初始化;s3:设置贪婪因子ε及乐观因子τ为1;s4:设置训练次数m,将s1所述智能体重复训练m次;s41:获取当前交叉口处的车辆数量和信号相位;s42:限定每回合中交通时间为t,在每个时间步t上,t=1,...,t:s43:根据贪婪策略,随机数小于贪婪因子ε时随机选择动作a
i,t
,随机数大于贪婪因子ε时根据a
i,t
=arg max
a
q
τ
(s
t
,a;θ)选择动作a
i,t
;s44:执行s43所述动作a
i,t
,得到奖励r和下一时间步的状态s
t+1
;s45:将o
t
、a
t
、r
t
、o
t+1
整合成经验,存入经验回放池erm中;s46:从经验回放池erm中抽取经验;s47:将s46抽取的经验来训练cdqn智能体,最小化交叉熵损失,更新网络参数θ;s48:每隔规定步数n更新目标网络参数θ
′←
θ;s49:计算衰退率d
ε
=δd
τ
,其中δ为参数,根据τ
←
max{τ
t
,τ
‑
d
τ
}和ε
←
max{ε
t
,ε
‑
d
τ
}更新计算q值的乐观因子τ和贪婪策略中的贪婪因子ε;s410:循环s41
‑
s49,循环m次,直到完成交通信号控制。2.根据权利要求1所述的基于categorical
‑
dqn乐观探索的交通控制方法,其特征在于,包括以下步骤:所述s1中的局部观测o包括车辆数量和信号相位。3.根据权利要求1所述的基于categorical
‑
dqn乐观探索的交通控制方法,其特征在于,s43包括:通过所述乐观程度变量τ在1到0之间变化,则获取给定状态
‑
动作对从“极度乐观”到“极度不乐观”的回报估计,其中q(o,a)是q
τ
(o,a)在τ=0时的特殊情况;那么带有程度τ的状态o的乐观探索策略可以被定义为最大τ
‑
乐观q值下选择为:4.根据权利要求3所述的基于categorical
‑
dqn乐观探索的交通控制方法,其特征在于,τ∈[0,1]表示乐观程度的变量,其中τ=1表示极度乐观,智能体根据所获得的最大回报来评估状态
‑
动作的回报。相反,智能体在τ=0时用它的预期回报来估计状态
‑
动作的回报,与一般q值相同;然后基于分位函数定义了τ
‑
乐观q值函数,τ
‑
乐观q值q
τ
(o,a)是(o,a)的1
‑
τ的最好的回报期望,其中p(x;o,a)是状态
‑
动作对(o,a)的回报在x上的概率密度函数;z
τ
是z的τ分位数,即,在τ上f
z
(z;o,a)的逆函数的值,其中f
z
(z;o,a)是z的累积分布函数,形式化定义为,
技术总结
本发明提供一种基于Categorical
技术研发人员:张程伟 田宇 房迪娜
受保护的技术使用者:大连海事大学
技术研发日:2021.06.10
技术公布日:2021/9/13