一种基于元强化学习的列车受电弓自适应控制方法

文档序号：35128415发布日期：2023-08-14 21:51阅读：来源：国知局

技术特征：

1.一种基于元强化学习的列车受电弓自适应控制方法，其特征在于，控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元；供气源连接气囊用于提供稳定气压，精密调压阀用于精确控制气囊压强，控制单元连接精密调压阀用于输出控制信号，信息采集单元用于采集控制器决策所用信息；控制方法具体包括以下步骤：

2.根据权利要求1所述的一种基于元强化学习的列车受电弓自适应控制方法，其特征在于，所述步骤1中的受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向；列车运行信息包括列车运行速度和运行方向；接触网信息包括接触网的刚度、跨度和吊弦分布信息。

3.根据权利要求2所述的一种基于元强化学习的列车受电弓自适应控制方法，其特征在于，所述步骤2具体为：

4.根据权利要求3所述的一种基于元强化学习的列车受电弓自适应控制方法，其特征在于，所述步骤3具体为：

5.根据权利要求4所述的一种基于元强化学习的列车受电弓自适应控制方法，其特征在于，所述贝叶斯优化的求解步骤为：首先生成一个初始候选解集合，然后根据这些点寻找下一个最有可能是极值的点，将该点加入集合中，重复这一步骤，直至迭代终止；最后从这些点中找出函数值最大的点作为问题的解，从而求解最优任务编码；

6.根据权利要求4所述的一种基于元强化学习的列车受电弓自适应控制方法，其特征在于，所述步骤4具体为：接受控制器输出的设定气囊气压，并将设定气囊气压设定于受电弓气阀板上的精密调压阀从而控制气囊压强。

技术总结
本发明公开了一种基于元强化学习的列车受电弓自适应控制方法，具体为：信息采集单元获取受电弓状态信息、列车运行信息和接触网信息；建立控制器控制动作与接触网交互样本数据集；基于所建立的交互样本数据集采用深度强化学习网络学习最优行为策略；每一个控制任务基于贝叶斯优化方法生成最优任务编码；最优行为策略作为控制器，根据弓网系统运行信息和任务编码计算最优控制动作，并将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。本发明对高铁受电弓的精准、提前控制，保证受电弓和接触网的良好接触，提升列车的受流质量，降低接触部件的磨损，提升服役寿命；还使弓网系统控制器能够快速适应外部环境扰动和自身参数变化。

技术研发人员：刘志刚,王惠
受保护的技术使用者：西南交通大学
技术研发日：
技术公布日：2024/1/14

完整全部详细技术资料下载

当前第2页1 2