一种基于强化学习SAC的采煤机截割电机调速控制方法与流程

文档序号:38324648发布日期:2024-06-14 10:59阅读:23来源:国知局
一种基于强化学习SAC的采煤机截割电机调速控制方法与流程

本发明涉及采煤机截割电机控制,更具体的说是涉及一种基于强化学习sac的采煤机截割电机调速控制方法。


背景技术:

1、我国煤炭开采以井工为主,主要基于滚筒式采煤机的长臂开采方式,提高工作面的产能和效率变得尤为重要,采煤机的性能直接影响到整个工作面的产出。为了提高安全性和效率,同时降低劳动强度,采煤机的自动化和无人化成为重要的发展方向。

2、采煤机工作在地下煤矿中,这些环境通常是封闭的、空间有限,且充满灰尘。煤层的厚度、硬度和倾角等因素在不同的采矿区域内变化很大。这些变化对采煤机的操作性能和效率提出了挑战。传统的控制系统通常依赖于固定的程序和参数,如转速、功率和牵引力。这些系统在处理静态或预测性条件时表现良好,但面对动态变化的矿层条件和突发情况时,其适应性和灵活性受限,这种不足的适应性可能导致操作效率低下和机械损耗。三相异步电机的性能受到矿层条件的直接影响。例如,矿层的硬度不均可能导致电机负载突然变化,这对于使用滑差控制和变频器的传统系统来说是一个挑战。矿下环境中,安全是最重要的考虑因素。电机的不稳定运行可能导致设备故障,增加事故风险。因此,需要更智能的控制系统来保证操作的稳定性和安全性。强化学习通过持续的试错过程和与环境的交互来优化性能。在采煤机应用中,这意味着系统可以实时适应矿层的变化,学习如何在不同条件下最有效地控制电机,这种学习能力特别适用于矿层条件多变和预测困难的环境。

3、现有控制的深度强化学习算法,dqn(deep q-network)因其能够处理复杂的、高维度的状态空间,相比于传统的基于规则的方法或者简单的机器学习方法,dqn可以更好地学习和适应复杂的环境,适用于具有离散动作空间的问题。ddpg(deep deterministicpolicy gradient)用于求解连续动作控制策略,相对于dqn有效解决了高维导致的计算量大的问题。sac(soft actor-critic)算法的提出使强化学习智能体具备了更强的探索能力和更快的收敛效果。采煤机截割电机和牵引电机控制问题涉及连续的动作空间,并且环境较为复杂和不确定,sac是一个更合适的选择。

4、针对采煤机工作的特殊环境,实现截割电机平稳调速面临以下三个问题。第一,传统调速系统在面对矿层的厚度、硬度和倾角等变化时,可能无法有效适应。这种不足的适应性在复杂和变化的矿层条件下可能导致操作效率低下。第二,采煤机工作环境的动态性要求调速系统能够实时响应矿层条件的变化,如硬度不均或突然变化的情况。传统的调速方法可能在这些突发情况下表现不佳。第三,采煤机的调速涉及到连续动作空间的控制,需要更精细和灵活的调整策略,这是传统调速方法难以实现的。


技术实现思路

1、有鉴于此,针对采煤机滚筒截割不同煤岩硬度,导致截割电机无法实现平稳性控制的问题,本发明提供了一种基于强化学习sac的采煤机截割电机调速控制方法,克服传统控制方法在复杂矿层条件下的适应性不足,提高整体效率和安全性。

2、为了实现上述目的,本发明提供如下技术方案:

3、一种基于强化学习sac的采煤机截割电机调速控制方法,包括以下步骤:

4、步骤1、构建截割电机的数学模型及仿真环境,对截割电机初始化,获取截割电机初始状态;

5、步骤2、基于所述截割电机初始状态,使用预设的智能体训练不同环境下的截割电机;

6、步骤3、获取不同环境下的截割电机状态;

7、步骤4、将截割电机状态输入搭建好的电机控制模型,输出动作。

8、可选的,所述步骤1中,构建截割电机的数学模型时,利用定子上的三相交流电产生的旋转磁场与转子上感应电流产生的磁场之间的相互作用,进而产生的电磁转矩,驱动转子旋转。

9、可选的,所述步骤4中,电机控制模型将sac算法应用于截割电机的控制过程:通过截割电机的当前状态,包括转速、电流和电压,生成最优的控制动作,包括电压和频率的调整;将截割电机的测量或控制信号从旋转坐标系转换到静止坐标系;将截割电机的电流或电压信号从三相信号转换成两相信号;基于截割电机的电流和电压信号计算转子磁链的大小、方向,及定子角速度;根据生成的控制策略,动态调整截割电机的目标转速。

10、可选的,所述电机控制模型利用定子电流的α轴和β轴分量isα和isβ以及转子角速度作为输入,通过计算得到磁链位置角的正弦和余弦值;转子磁链的模长表示转子磁链的强度,电气角速度提供了电机转子的速度信息,旋转/静止变换和静止/旋转变换用于转换截割电机的测量或控制信号;

11、转子磁链的电压模型

12、

13、式中,ψrα、ψrβ为定子磁链矢量在静止坐标系下α轴与β轴的分量;isα、isβ为定子电流空间矢量静止坐标系下α轴与β轴的分量;usα、usβ为电子电压空间矢量在静止坐标系下α轴与β轴的分量;lr表示定子自感,lm表示转子自感,rs表示定子电阻,ls表示定子转子互感;

14、α轴与β轴的分量由三相-两相变换关系;

15、

16、式中,ia、ib、ic分别为a、b、c三相的相电流;ua、ub、uc分别为a、b、c三相绕组的相电压。

17、可选的,在转速控制过程中,使用sac算法直接输出q轴电压,包括以下设置:

18、状态空间的设置:

19、选择转速状态作为截割电机的状态空间构成:

20、st={ω*(t),ω(t),ω(t-1),e(t)};

21、式中:ω*(t)表示在t时刻截割电机的参考速度,ω(t)表示t时刻截割电机的实际速度,ω(t-1)表示t-1时刻截割电机的实际速度,e(t)表示t时刻的参考速度和实际速度之间的差值;

22、动作空间的设置:

23、动作空间定义了算法执行的所有空间,将定子q轴电压和q轴电流作为动作空间;

24、at={uq,iq};

25、奖励函数的设置:

26、奖励为智能体在当前状态st下采取某个动作at后环境给予的反馈信号,提高截割电机的性能,定义奖励函数为:设定目标转速为ω*,奖励函数为转速误差的负指数函数,并将转速波动δη纳入奖励函数;

27、r=-(ω-ω*)2-μδη;

28、其中,ω表示三相异步实际电机转速,μ表示引入的系数,其决定奖励的重要程度。

29、可选的,所述电机控制模型通过sac算法进行控制包括以下步骤:

30、构建线性层,对采集的截割电机状态进行线性变换,以提取状态特征序列;

31、构建sac演员网络,基于状态特征序列生成截割电机的控制策略;

32、构建sac评论家网络,用于接收当前截割电机状态和截割电机的控制策略作为输入,基于q值函数输出评估结果,即当前控制策略的期望回报;

33、构建重放缓冲区,用于存储经验数据,包括每一步的状态、动作、奖励、下一状态,通过从重放缓冲区中随机抽样一批经验数据来更新演员网络和评论家网络的权重。

34、可选的,通过截割电机控制策略的当前状态和活动的价值,向sac演员网络提供反馈,从当前状态采取当前行动时,sac评论家网络输入当前状态和行动,并产生q值用于预测当前状态和控制策略的有效性,具体方法为:

35、构建sac评论家网络,策略的熵h(π(·|st)),被用作一个额外的奖励项,以鼓励探索;所有时间步t的控制策略的π熵加入q值函数qπ(s,a),计算表达式为:

36、

37、其中,s代表状态,a代表动作;α为温度参数,决定熵项的权重;γ为折扣因子,γ∈(0,1);rt表示t时刻三相异步电机的动作及对应的状态,eπ表示最优策略;

38、从q值函数得到价值函数vπ(s):

39、

40、表示对策略π产生的所有动作a的期望;qπ(s,a)表示在状态s下采取动作a,之后在遵循策略π执行动作所能获得的预期回报;α为熵权重参数;

41、定义熵奖励目标函数yi,包括即时奖励、下一个状态的价值函数,以及熵奖励,计算表达式为:

42、yi=r(si,ai)+γ(qπ(si+1,ai+1)-αh(π·|si+1)));

43、其中,r为当前环境产生的奖励,后续行动ai+1根据当前控制策略从状态si+1采样得到的动作;γ为折扣因子;si+1为下一步的状态;qπ为随机策略对应的q网络;πθ为需要更新的网络参数为θ的策略;

44、通过截割电机控制策略的当前状态和活动的价值,向sac演员网络提供反馈,从当前状态采取当前行动时,sac评论家网络输入当前状态和行动,并产生q值用于预测当前状态和控制策略的有效性。

45、经由上述的技术方案可知,本发明提供了一种基于强化学习sac的采煤机截割电机调速控制方法,与现有技术相比,具有以下有益效果:

46、1、本发明引入sac强化学习算法,能够通过持续学习和探索,更好地适应复杂和变化的环境,在面对电动机负载波动和参数变化时,sac能够保持稳定的调速性能。通过试错学习找到最优策略,可以实现比pid和模糊pid更高效、更精准的控制,特别是在处理非线性、高维度的控制问题时,sac展现出更强的能力。

47、2、传统的pid控制器需要人工调整参数以适应不同的操作条件,而本发明可以自动调整策略,减少了对专家知识和手动调整的依赖,并且响应更加快速。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1