山区铁路线路优化的深度强化学习方法

文档序号:30966689发布日期:2022-07-30 18:13阅读:115来源:国知局
山区铁路线路优化的深度强化学习方法

1.本发明属于无线通信技术领域,尤其涉及一种山区铁路线路优化深度强化学习方法。


背景技术:

2.最近,中南大学的研究人员在考虑建设成本、地震风险和地质灾害的情况下,提出了山 区铁路线路的优化方法。一些学者在2019年结合改进的距离变换和遗传算法从各种有前途的 替代品中获得精确的比对。随后,这些学者在2019年创造性地将逐步和混合粒子群算法与遗 传算法相结合,用于山区铁路路径规划,采用逐步粒子群算法满足各种铁路约束条件,降低 综合成本。上述研究能很好地处理铁路建设成本和多种约束条件,并从环境和地质灾害两方 面考虑了其影响。一些学者考虑了地震风险和三种类型的地质灾害,即山体滑坡、泥石流和 落石,以设计更安全的铁路路线。


技术实现要素:

3.本发明的目的提出了一种山区铁路线路优化的深度强化学习方法,基于深度强化学习的 山区铁路线路优化新框架,称为深度确定性政策梯度,其中我们重新设计了基于深度强化学 习算法的目标函数、环境、状态和动作,同时考虑了各种对齐约束。深度确定性政策梯度模 型生成铁路线形解决方案,无需预先确定交叉口或hpi的垂直点数量,也无需首先找到初始 走廊。为深度确定性政策梯度方法特别强调优化过程中的“策略”,就像人类一样。
4.为了达到上述目的,在本发明的第一个方面,提供了一种山区铁路线路优化的深度强化 学习方法,其特征在于,其包括如下步骤:
5.s1:将优化下的铁路路线表示为有一个n个状态过渡步骤的事件,其中状态的第i步骤 结尾的空间被定义为s;
6.s2:在si和s
i+1
之间所采取的操作ai,动作ai从a表示的动作空间中选择;
7.s3:根据si,ai与si+1的关系,计算下一个状态si+1;
8.s4:通过采取ai操作,可以将代理的状态从si转换为si+1,ri表示在从si到si+1的状态 过渡过程,评估其单位建设成本和其他项目的奖励;
9.s5:被添加到奖励中函数,其中表示生存状态,以确保代理能够在满足所有约束的同 时找到端点。
10.进一步地,所述s1中,第i步骤结尾的空间被定义为si如下表示:
11.s={[xi,yi,hi,x
i-1
,y
i-1
,h
i-1
,x
i-2
,y
i-2
,h
i-2
]
t
|
[0012]
xi∈[0,w],yi∈[0,h]}
[0013]
其中,i=1,2,...,n;xi和yi为水平坐标;i=1,2,...,n;χi和yi为水平坐标,hi为第 i步骤结束时代理的高度,w和h分别为水平坐标中目标区域的宽度和高度的上界。
[0014]
进一步地,当i=1时,所述代理位于铁路路线的起点。
[0015]
进一步地,所述步骤s1中,满足以下的约束条件:
[0016]
所述水平平面的约束条件如下:
[0017]
在水平平面上的一 条圆形曲线的长度应超过l
cmin
,它可以表示为:
[0018]
l
cmin-α
iri
≤0,
[0019]
其中ri为(i+1)步骤后水平曲线的半径,满足r
min-ri≤0;相邻两条水平曲线之间的切线长度 lcii至少为:
[0020][0021]
l
tmin-l
ti
≤0
[0022]
其中lci表示如图5所示。
[0023]
所述垂直平面的约束条件如下:
[0024]
其中,垂直平面上的约束包括垂直梯度、坡度截面长度和相邻梯度之间的代数差异;垂 直平面上的梯度gi应小于最大允许梯度g
max
,表示为下式:
[0025][0026]
坡断面长度不小于l
smin
最小值,表示为下式:
[0027][0028]
相邻梯度之间的代数差异最大值不应超过δg
max
,表示为下式:
[0029]
|g
i+1-gi|≤δg
max

[0030]
所述不同结构的约束条件如下:
[0031]
每一个过渡步骤后,代理应根据路基隧道边界深和路基桥边界高设置相应的铁路基础设 施,包括路基、隧道、桥梁,对这些铁路基础设施的限制可描述如下:
[0032]
桥的高度h
bi
不得超过最大值允许的高度h
bmax
,隧道长度l
tu
,不得超过最大允许长度l
tu max;
[0033]
所述其他约束条件如下:
[0034]
其他的限制包括禁区、道口和海拔趋势;禁区代表居民区、自然区域、历史遗迹和其他 敏感区域;目标区域禁区内的所有单元格或格用集合uf表示,铁路路线所穿越的格用集合 ur表示;因此,ur和uf的交点应该为空,表达如下式:
[0035][0036]
交叉约束可以保证,当铁路路线穿过某些对象时,铁路路线与这些对象之间的高差可以 提供足够的空隙,表达如下式:
[0037]
|h
r-ho|≥δh
min
[0038]
其中,当它穿过这样一个对象时,ho是这些对象的高度,而δh
min
是允许的最小间隙;当铁 路线路在水平面到达目的地时,其在目的地处的设计标高必须达到目的地的地形高程,当目 的地的高程超过起始高程时,高程趋势应表示为:
[0039][0040]
其中,d为晶格的单元宽度,xi和yi为水平坐标,hi为结束时的铁路路线高程。
[0041]
进一步地,所述s2动作ai从a表示的动作空间中选择,表示为:
[0042]
a={[δxi,δ
yi
,gi]
t
|δxi∈[-δw,δw],
[0043]
δyi∈[-δh,δh],gi∈[-g
max
,g
max
]},
[0044]
其中,δxi和δyi是水平坐标中的增量,它们也表示方格的偏移量基于最后一个状态 si,gi是状态si和s
i+1
之间的梯度。
[0045]
进一步地,所述gi≤g
max
,所以gi的范围为[-g
max
,g
max
]。
[0046]
进一步地,所述步骤s4在奖励功能中添加了生存奖励和到目标距离的奖励以确 保代理能够从环境中获得正反馈代理正在向目的地移动,并满足所有的约束条件。
[0047]
进一步地,所述步骤s5,激励代理向目的地移动,使用距离到目的地的奖励来表示代理 对终点的“态度”,指示代理是想向目的地移动还是远离目的地。
[0048]
进一步地,所述惩罚极长的铁路路线,定义了一个当铁路路线到达目的地时的rd的惩罚 分数,表示为:
[0049]
其中,l为线路到达目的地时的总长度,δh
se
为起点和终点之间的高程差,g
max
是允许 的最大梯度。
[0050]
进一步地,所需的最小对齐长度为:
[0051][0052]
本发明的有益技术效果至少包括以下几点:
[0053]
(1)提出了一种基于深度强化学习(drl)的山区铁路线路优化新框架,称为深度确定 性政策梯度(ddpg),其中重新设计了drl算法的目标函数、环境、状态和动作,同时考虑了 各种对齐约束;
[0054]
(2)深度确定性政策梯度模型生成铁路线形解决方案,无需预先确定交叉口或hpi的垂 直点数量,也无需首先找到初始走廊;
[0055]
(3)ddpg方法特别强调优化过程中的“策略”,就像人类一样。本文通过在实际案例 研究中的应用,对ddpg方法进行了测试和演示。结果表明,这里使用的drl方法可以自动探 索和分析优化铁路线就算没有人经历过。
境”会给予“奖励”(量化为“代理”在当前“状态”下采取的“行动”的好或坏程度)代理。
[0070]
最后,“代理”根据“环境”中的下一个“状态”使用“奖励”更新其“政策职能”,并 进行下一个“行动”[0071]
在这样一个迭代的过程中,“代理”可以从中学习使“环境”变得越来越精通铁路对齐设 计。
[0072]
将优化下的铁路路线表示为一个有n个状态过渡步骤的事件,其中状态的第i步骤结尾 的空间被定义为si如图所示:
[0073]
s={[xi,yi,hi,x
i-1
,y
i-1
,h
i-l
x
i-2
,y
i-2
,h
i-2
]
t
|
[0074]
xi∈[0,w],yi∈[0,h]}
ꢀꢀꢀꢀꢀꢀ
(1) 。
[0075]
其中,i=1,2,...,n;xi和yi为水平坐标;hi为第i步骤结束时代理的高度;w和h分别 为水平坐标中目标区域的宽度和高度的上界。当i=1时,代理位于铁路路线的起点。
[0076]
请注意,我们必须考虑至少三个交点来确定对准是否能满足。其限制因此,在方程(1) 中,我们取三个反对连续的交点作为状态:i,i-1,和i-2。此外,为了确保乘坐的安全和舒 适性在列车上,一些约束也被施加在垂直方向上和水平面上,这些约束条件已经被先前测试 过了现场实验或模拟研究。
[0077]
在水平平面上的约束条件上计算:如图所述,偏转角αi和(i+1)之后的过渡步骤的计算 方法如下:
[0078][0079]
在水平平面上的一条圆形曲线的长度应超过lc min它可以表示为
[0080]icmin-α
iri
≤0
ꢀꢀ
(3)。
[0081]
其中ri为(i+1)步骤后水平曲线的半径,它应该满足r min-r i≤0。
[0082]
此外,相邻两条水平曲线之间的切线长度(图3中的l
ti
)至少应为:
[0083][0084]
l
tmin-l
ti
≤0
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5) 。
[0085]
在每个过渡步骤之后,代理应该让ri=r
min
来检查l
ci
和l
ci
是否满足相应的要求,从而确 保水平对齐满足水平面上的约束。在本研究中,我们将ri设为一个固定的值,它应该超过最 小允许值为600m,以拟合水平圆曲线。
[0086]
在垂直平面上的约束条件上计算:垂直平面上的约束包括垂直梯度、坡度截面长度和相 邻梯度之间的代数差异。
[0087]
垂直平面上的梯度gi应小于最大允许梯度g
max

[0088][0089]
坡断面长度不小于l
smin
最小值:
[0090][0091]
相邻梯度之间的代数差异最大值不应超过δg
max

[0092]
|g
i+1-gi|≤δg
max
ꢀꢀ
(8)。
[0093]
请注意,应该有一条垂直曲线来连接相邻的梯度。但在中国,垂直曲线半径具有由铁路 等级决定的固定值,因此不被当作设计变量。然而,我们在计算铁路垂直设计的高程时也考 虑了垂直曲线。
[0094]
在不同结构类型的约束条件上计算:每一个过渡步骤后,代理应根据路基隧道边界深和 路基桥边界高设置相应的铁路基础设施,包括路基、隧道、桥梁。对这些铁路基础设施的限 制可描述如下:
[0095]
桥的高度,h
bi
不得超过最大值允许的高度,h
bmax

[0096]hbi
≤h
bmax
ꢀꢀ
(9)。
[0097]
隧道长度l
tu
,不得超过最大允许长度l
tu max:
[0098]
l
tui
≤l
tumax
ꢀꢀ
(10)。
[0099]
在其他约束条件上计算:其他的限制包括禁区、道口和海拔趋势。其中包括:
[0100]
禁区代表居民区、自然区域、历史遗迹和其他敏感区域。目标区域禁区内的所有单元格 或格用集合uf表示,铁路路线所穿越的格用集合ur表示。因此,ur和uf的交点应该为空:
[0101][0102]
交叉约束可以保证,当铁路路线穿过某些对象(例如河流和现有铁路或道路)时,铁路 路线与这些对象之间的高差可以提供足够的空隙:
[0103]
|h
r-ho|≥δh
min

[0104]
当它穿过这样一个对象时,ho是这些对象的高度,而δh
min
是允许的最小间隙。
[0105]
高程趋势:当铁路线路在水平面到达目的地时,其在目的地处的设计标高必须达到目的 地的地形高程。因此,当目的地的高程超过起始高程时,高程趋势应表示为
[0106][0107]
其中,d为晶格的单元宽度,xi和yi为水平坐标,hi为公式(9)结束时的铁路路线高程。
[0108]
否则,上升趋势应表示为
[0109][0110]
图2说明了在si和s
i+1
之间所采取的操作ai。动作ai从a表示的动作空间中选择,如式 (15)所示:
[0111]
a={[δxi,δyi,gi]
t
|δxi∈[-δw,δw],
[0112]
δyi∈[-δh,δh],gi∈[-g
max
,g
max
]}
ꢀꢀ
(15)
[0113]
其中,δx和δyi是水平坐标中的增量,它们也表示方格的偏移量基于最后一个状态si;gi是 状态si和si+1之间的梯度。因为gi≤g
max
,所以gi的范围为[-g
max
,g
max
]。需要注
意的是,δ δxi和δy是整数,因为目标区域由有限数量的正方形格表示。在这项研究中,每个晶格都有 30米宽。因此,当最大的绝对值太小,有许多不必要的水平圆曲线之间拟合起点和终点如图 5所示,起点表示为蓝色钻石和终点表示为蓝色三角形。但是,如果我们扩展相应的上界[δ w,δh],δxi和δy的最大绝对值可能会增加,从而降低了拟合水平圆曲线的难度,如图5所 示。同时,考虑到隧道或桥梁的长度约束,我们将相应的边界(δw和δh)的长度(δw和δh)设 置为最大允许的桥梁或隧道长度。
[0114]
此外,根据si,ai与s
i+1
的关系,下一个状态(s
i+1
)计算如下:
[0115]si+1
=[x
i+1
,y
i+1
,h
i+1
,xi,yi,hi,x
i-1
,y
i-1
,h
i-1
]
[0116]
ꢀꢀꢀ
=[xi+δxi,yi+δy,hi+g
×
li,xi,yi,hi,x
i-1
,y
i-1
,h
i-1
]
[0117]
其中,
[0118]
l为[xi,yi]和[x
i+1
,y
i+1
]之间的距离,d为晶格的单元宽度。
[0119]
通过采取ai操作,可以将代理的状态从si转换为s
i+1
。设ri表示在从si到s
i+1
的状态过渡 过程,评估其单位建设成本和其他项目的奖励。然后,由方程(17)给出了ri的数学定义:
[0120][0121]
其中为三个评价指标,分别代表单位建设成本、生存状态和距离终点或目的地 的距离;uc、us和ud是对应的权重,需要注意的是有一个否定的值。由于我们 的优化目标是最小化铁路线路建设成本,建设成本越高,回报就越低。此外,找到一个满足 所有约束条件的对齐方式是最重要的任务。
[0122]
因此,在奖励功能中添加了生存奖励和到目标距离的奖励以确保代理能 够从环境中获得正反馈代理正在向目的地移动,并满足所有的约束条件。下面将进一步讨论 每个指标。
[0123]
建设成本包括桥梁成本(cb)、隧道成本(c
t
)、土方工程成本(ce)、、长度依赖成本(c
l
)、 路权成本(cr)、环境影响成本(ci)。
[0124]
桥梁(cb)的成本是:
[0125][0126]
其中n为桥梁数(整数);u
bi
为桥的单位长度成本(美元/米);l
bi
为桥的长度,c
ai
为桥的 一个桥台的成本(美元)。隧道成本(c
t
)是:
[0127][0128]
其中n为隧道数量(整数);u
ti
为隧道的单位长度成本(美元/米);l
ζi
为隧道的长度; c
pi
为每条隧道的一个入口的成本(美元)
[0129]
土方工程成本(ce)根据“平均端面积”法计算。用该方法计算的横截面面积a
ei
如下:
[0130]aei
=2(ws+δh
×
λ)
×
δh
ꢀꢀ
(20)
[0131]
其中δh为切割或填方高度(m),ws为路基表面宽度(m),λ为填方或堑坡的坡度。因此, 土方工程的成本为:
[0132][0133]
其中,u
fi
、u
ci
为单位截面单位填方(usd/削减成本m3),m、n为填方和切割截面,;a
ei
为单位截面测量面积(m2);ki为单位截面里程(m)
[0134]
长度相关成本(c
l
)包括轨道轨道和其他牵引设备:
[0135]cl
=u
l
×
l
ꢀꢀꢀꢀꢀꢀ
(22)
[0136]
其中,u
l
为总单位长度相关成本(usd/m),l为从状态si到s
i+1
的总铁路对齐长度。
[0137]
环境影响成本(ci)的定义如下:
[0138][0139]
其中,ui为环境保护区域的单位罚款成本(美元/平方米)。a
pi
是与环境保护区(m2)相交 的铁路线路区:
[0140]api
=(ws+2
×
δh
×
λ)
×
l
pi
ꢀꢀꢀꢀꢀ
(24)
[0141]
其中,l
pi
为路线长度,与环境保护区域相交。
[0142]
从状态si到s
i+1
的总单位建设成本(r
ci
)计算如下:
[0143][0144]
考虑到山区的特点,铁路路线难以满足各种路线约束。在本研究中,寻找一种满足山区 各种约束的可行铁路路线是非常重要的。因为这可能会阻止代理有效地探索具有稀疏奖励的 环境,因此,被添加到奖励中的函数,以确保代理够在满足所有约束的同时找到端点(或 目标)。
[0145]
如果代理无法找到满足从状态si到s
i+1
的所有约束的操作,则有一个负值,并且重新 启动操作计时过程(即代理的状态被转换为起始点s1)。
[0146]
如果代理标识了一个满足从状态si到s
i+1
的所有约束的操作,则具有一个正值,并且 优化过程继续(即,允许代理继续下一个操作,a
i+1
)。
[0147]
距离到目的地的奖励为了激励代理向目的地移动,使用距离到目的地的奖励来表示 代理对终点的“态度”(指示代理是想向目的地移动还是远离目的地)。因此,我们将奖励函 数,r
di
,从si到s
i+1
的定义如下:
[0148][0149]
其中,d1为目标区域的对角线长度,d2为代理与目的地之间的距离,rd为的上界(当 铁路路线到达目的地时,等于rd)。
[0150]
从公式(26)中,我们可以发现奖励随着时间的结束而增加。
[0151]
另一方面,为了惩罚极长的铁路路线,我们定义了一个当铁路路线到达目的地时
的rd的 惩罚分数:
[0152][0153]
式中,l为线路到达目的地时的总长度,δh
se
为起点和终点之间的高程差。g
max
是允许 的最大梯度。
[0154]
因此,是所需的最小对齐长度。在大多数情况下,l比lm长,因此使用一个可 容忍因子σ来减少惩罚。rp是每米的奖励损失。可以发现,当路线到达目的地时,则为奖励 (reward)随着对齐总数的增加而减少。
[0155]
请注意,当代理无法找到满足从状态si到si+1的所有约束的操作时,就不会在公式(17) 中的总奖励中计算
[0156]
对不同的约束和目标具有较强的适应性:强化学习的代理通过与环境的交互进行预测和 优化,从采样数据学习关于环境的“知识”或“经验”,而不是从其他模拟模型获得的先验知 识。因此,该方法对多台电力机车的控制、机器人寻径和飞行起飞时间预测等不同的约束条 件和目标具有较强的适应性。能够解决优化问题与大型行动和状态空间:基于函数近似,drl 方法能够克服造成的困难大状态和行动空间设计和优化问题,由于基于drl方法开发的计算 机程序在玩西洋双陆棋、雅达利2600游戏和围棋方面已经达到了大师级的水平。
[0157]
此外,drl方法还可以分为策略上方法和策略外方法两类。在两种方法的优化过程中, 都采用了“行为策略”和“目标策略”两种策略。其中,用于与环境交互以生成训练数据(或 行为)的策略被称为“行为策略”。被学习然后应用的策略被称为“目标策略”。在基于策略 的方法中,“行为策略”和“目标策略”是同一种策略,即代理通过与环境的交互直接学习。 然而,非策略方法包括非策略方法作为特殊情况。在这些方法中,使用“行为策略”来探索 环境,生成各种数据来训练“目标策略”,这可以解决在强化学习的框架下的开发和探索问题, 而在策略上的方法无法实现这些问题。因此,非政策的方法更强大、更通用。
[0158]
另一方面,drl方法也有“不确定性”和“确定性”策略。然而,对于连续行动空间(在 铁路路线设计中,行动被视为连续的),“不确定性”策略的梯度与状态和行动的期望有关。 在计算期望时,我们必须得到状态分布和动作分布的积分,这需要来自状态空间和动作空间 的许多样本。虽然“确定性”策略的行动是确定性的,但对于解决策略梯度,并不需要计算 状态和行动分布的积分。如上所述,与“不确定性”策略相比,“确定性”策略更有效,需要 的样本数据更少。
[0159]
因此,在本文中,记为ddpg的“非策略”和“不确定性”方法是适用于铁路线路的设计。
[0160]
综上所述,(1)本发明提出的基于深度强化学习(drl)的山区铁路线路优化新框架,称 为深度确定性政策梯度(ddpg),重新设计了drl算法的目标函数、环境、状态和动作,同时 考虑了各种对齐约束;
[0161]
(2)深度确定性政策梯度模型生成铁路线形解决方案,无需预先确定交叉口或hpi的垂 直点数量,也无需首先找到初始走廊;
[0162]
(3)ddpg方法特别强调优化过程中的“策略”,就像人类一样;
[0163]
(4)对不同的约束和目标具有较强的适应性:强化学习的代理通过与环境的交互进行预 测和优化,从采样数据学习关于环境的“知识”或“经验”,而不是从其他模拟模型获得的先 验知识;
[0164]
(5)对不同的约束和目标具有较强的适应性:强化学习的代理通过与环境的交互进行预 测和优化,从采样数据学习关于环境的“知识”或“经验”,而不是从其他模拟模型获得的先 验知识。
[0165]
本发明重点是从组合优化的角度对提出了一种基于深度强化学习的山区铁路线路优化新 框架,称为深度确定性政策梯度,重新设计了目标函数、环境、状态和动作,同时考虑各种 对齐约束,深度确定性政策梯度模型生成铁路线形解决方案,无需预先确定交叉口或hpi的 垂直点数量,也无需首先找到初始走廊。本发明深度确定性政策梯度模型生成铁路线形解决 方案,无需预先确定交叉口或hpi的垂直点数量,也无需首先找到初始走廊,提高了运算效 率。
[0166]
需要特别指出的是,在本发明其他实施例中,在上述记载的范围内,具体选择不同的步 骤、参数、策略、模块及模型,均可达到本发明的技术效果,故不再将其一一列出。
[0167]
尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的 原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形,本发明的范围由 权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1