1.一种基于深度强化学习的桥门式起重机防摇控制方法,其特征在于,包括:
2.根据权利要求1所述的基于深度强化学习的桥门式起重机防摇控制方法,其特征在于,所述基于输入整形算法确定所述桥门式起重机防摇控制虚拟平台的初始策略,包括:
3.根据权利要求2所述的基于深度强化学习的桥门式起重机防摇控制方法,其特征在于,所述基于zv输入整形算法、所述桥门式起重机防摇控制虚拟平台中吊具摆动的固有频率和所述桥门式起重机防摇控制虚拟平台中系统的阻尼比,确定所述初始策略,包括:
4.根据权利要求1所述的基于深度强化学习的桥门式起重机防摇控制方法,其特征在于,所述基于所述初始策略和深度确定性策略梯度算法,确定所述桥门式起重机防摇控制虚拟平台的最终策略,包括:
5.根据权利要求4所述的基于深度强化学习的桥门式起重机防摇控制方法,其特征在于,所述基于所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的状态和加速度,确定所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的奖励,包括:
6.根据权利要求1所述的基于深度强化学习的桥门式起重机防摇控制方法,其特征在于,所述基于双q网络,将所述最终策略迁移至桥门式起重机防摇控制真实平台,确定所述桥门式起重机防摇控制真实平台的防摇控制策略,包括:
7.根据权利要求1至6任一项所述的基于深度强化学习的桥门式起重机防摇控制方法,其特征在于,所述桥门式起重机防摇控制虚拟平台中系统的状态和所述桥门式起重机防摇控制真实平台中系统的状态包括:
8.一种基于深度强化学习的桥门式起重机防摇控制装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行程序时,实现根据权利要求1至7任一项所述的基于深度强化学习的桥门式起重机防摇控制方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于深度强化学习的桥门式起重机防摇控制方法。