一种基于Categorical-DQN乐观探索的交通控制方法

文档序号：26628108发布日期：2021-09-14 22:14阅读：来源：国知局

技术特征：
1.一种基于categorical
‑
dqn乐观探索的交通控制方法，其特征在于，包括以下步骤：s1：将交叉口建模为智能体，初始化当前网络z(o,a；θ)和目标网络z
′
(o,a；θ
′
)，其中：o为局部观测，a为下一刻要选择的信号相位，θ为当前网络参数，θ
′
为目标网络参数；s2：将经验回放池erm进行初始化；s3：设置贪婪因子ε及乐观因子τ为1；s4：设置训练次数m，将s1所述智能体重复训练m次；s41：获取当前交叉口处的车辆数量和信号相位；s42：限定每回合中交通时间为t，在每个时间步t上，t＝1,...,t：s43：根据贪婪策略，随机数小于贪婪因子ε时随机选择动作a
i,t
，随机数大于贪婪因子ε时根据a
i,t
＝arg max
a
q
τ
(s
t
,a；θ)选择动作a
i,t
；s44：执行s43所述动作a
i,t
，得到奖励r和下一时间步的状态s
t+1
；s45：将o
t
、a
t
、r
t
、o
t+1
整合成经验，存入经验回放池erm中；s46：从经验回放池erm中抽取经验；s47：将s46抽取的经验来训练cdqn智能体，最小化交叉熵损失，更新网络参数θ；s48：每隔规定步数n更新目标网络参数θ
′←
θ；s49：计算衰退率d
ε
＝δd
τ
，其中δ为参数，根据τ
←
max{τ
t
,τ
‑
d
τ
}和ε
←
max{ε
t
,ε
‑
d
τ
}更新计算q值的乐观因子τ和贪婪策略中的贪婪因子ε；s410：循环s41
‑
s49，循环m次，直到完成交通信号控制。2.根据权利要求1所述的基于categorical
‑
dqn乐观探索的交通控制方法，其特征在于，包括以下步骤：所述s1中的局部观测o包括车辆数量和信号相位。3.根据权利要求1所述的基于categorical
‑
dqn乐观探索的交通控制方法，其特征在于，s43包括：通过所述乐观程度变量τ在1到0之间变化，则获取给定状态
‑
动作对从“极度乐观”到“极度不乐观”的回报估计，其中q(o,a)是q
τ
(o,a)在τ＝0时的特殊情况；那么带有程度τ的状态o的乐观探索策略可以被定义为最大τ
‑
乐观q值下选择为：4.根据权利要求3所述的基于categorical
‑
dqn乐观探索的交通控制方法，其特征在于，τ∈[0,1]表示乐观程度的变量，其中τ＝1表示极度乐观，智能体根据所获得的最大回报来评估状态
‑
动作的回报。相反，智能体在τ＝0时用它的预期回报来估计状态
‑
动作的回报，与一般q值相同；然后基于分位函数定义了τ
‑
乐观q值函数，τ
‑
乐观q值q
τ
(o,a)是(o,a)的1
‑
τ的最好的回报期望，其中p(x；o,a)是状态
‑
动作对(o,a)的回报在x上的概率密度函数；z
τ
是z的τ分位数，即，在τ上f
z
(z；o,a)的逆函数的值，其中f
z
(z；o,a)是z的累积分布函数，形式化定义为，

技术总结
本发明提供一种基于Categorical

技术研发人员：张程伟田宇房迪娜
受保护的技术使用者：大连海事大学
技术研发日：2021.06.10
技术公布日：2021/9/13

完整全部详细技术资料下载

当前第2页1 2