本公开涉及列队行驶(platooning)控制装置和列队行驶控制方法,其中执行强化学习以在列队行驶期间跟随前方车辆(front vehicle)的行驶轨迹。
背景技术:
1、一般而言,列队行驶是指在道路上驾驶一组多个车辆,同时相互共享行驶信息并考虑外部环境。
2、为了执行稳定的列队行驶,保持列队行驶的车辆之间的适当距离并控制后方车辆以跟随前方车辆的行驶轨迹是至关重要的。
3、自动驾驶系统可以执行关于列队行驶的强化学习,以便自动驾驶车辆在列队行驶期间采取最佳行动。
4、强化学习是用于学习的机器学习方法之一,如果采取行动,将通过试错在当前状态下获得最佳结果。每次采取行动时都会给予奖励,且学习过程继续进行,以最大化这些奖励。
5、以上关于背景技术的描述仅用于帮助理解本公开的背景,本领域技术人员并不会认为其与已知的现有技术相对应。
技术实现思路
1、因此,本公开的一个方面是通过使用在列队行驶期间关于前方车辆的行驶轨迹的控制点和图像信息来执行强化学习,以使相关车辆稳定且有效地跟随前方车辆的行驶轨迹。
2、本公开所追求的技术主题可能不限于上述技术主题,本公开所属领域的技术人员可以通过以下描述清楚地理解未提及的其他技术主题。
3、根据本公开的一个方面,列队行驶控制装置可以包括:学习装置,其被配置为基于图像信息和反馈信号来执行强化学习,并根据强化学习的结果控制相关车辆以跟随前方车辆的行驶轨迹;和补偿确定单元,其被配置为从前方车辆接收关于前方车辆的行驶轨迹的控制点的坐标,并将相关车辆的坐标与控制点的坐标进行比较,从而生成反馈信号。
4、根据本公开的另一个方面,列队行驶控制方法可以包括:根据基于图像信息和反馈信号所执行的强化学习的结果来控制相关车辆,以跟随前方车辆的行驶轨迹;从前方车辆接收关于前方车辆的行驶轨迹的控制点的坐标;和通过将相关车辆的坐标与控制点的坐标进行比较来生成反馈信号。
5、本公开的优点在于,通过使用在列队行驶期间关于前方车辆的行驶轨迹的控制点和图像信息来执行强化学习,使得相关车辆稳定且有效地跟随前方车辆的行驶轨迹。
6、从本公开中获得的有利效果可能不限于上述效果,本公开所属领域的技术人员通过以下描述可以清楚地理解未提及的其他效果。
1.一种列队行驶控制装置,包括:
2.根据权利要求1所述的列队行驶控制装置,其中所述图像信息包括从所述相关车辆的前摄像头输出的前方图像信息和从所述前方车辆的后摄像头输出的后方图像信息。
3.根据权利要求2所述的列队行驶控制装置,其中所述学习装置基于所述前方图像信息和所述后方图像信息来确定所述前方车辆的后方图像和所述相关车辆的前方图像之间的重叠部分,并且根据确定的结果来确定所述后方图像和所述前方图像之间的重叠程度作为关于所述强化学习的学习数据。
4.根据权利要求1所述的列队行驶控制装置,其中所述反馈信号指示关于所述相关车辆是否跟随所述前方车辆的行驶轨迹的正反馈和负反馈之一。
5.根据权利要求1所述的列队行驶控制装置,其中所述学习装置基于所述反馈信号来执行所述相关车辆的转向控制、制动控制和加速控制中的一个或多个,使得所述相关车辆跟随所述前方车辆的行驶轨迹。
6.根据权利要求1所述的列队行驶控制装置,其中所述控制点对应于用于控制与所述前方车辆的行驶轨迹相对应的样条曲线的形状的点。
7.根据权利要求1所述的列队行驶控制装置,其中,当所述相关车辆的坐标与所述控制点的坐标相比位于行驶车道的外侧时,所述补偿确定单元输出与负反馈相对应的反馈信号。
8.根据权利要求7所述的列队行驶控制装置,其中,当输出所述反馈信号时,所述学习装置增加所述相关车辆的制动量,并且控制所述相关车辆的转向角,以便跟随所述前方车辆的行驶轨迹。
9.根据权利要求1所述的列队行驶控制装置,其中,当所述相关车辆的坐标与所述控制点的坐标的距离超出预先配置的危险距离时,所述补偿确定单元输出与负反馈相对应的反馈信号。
10.根据权利要求1所述的列队行驶控制装置,其中,当所述相关车辆的坐标与所述控制点的坐标相比位于行驶车道的内侧时,并且当所述相关车辆的坐标与所述控制点的坐标的距离在预先配置的危险距离内时,所述补偿确定单元输出与正反馈相对应的反馈信号。
11.根据权利要求1所述的列队行驶控制装置,其中所述补偿确定单元根据从所述前方车辆接收到的无线电信号的接收信号强度是否在预先配置的范围内,输出与正反馈和负反馈之一相对应的反馈信号。
12.根据权利要求11所述的列队行驶控制装置,其中,当所述接收信号强度在所述预先配置的范围内时,所述补偿确定单元输出与所述正反馈相对应的反馈信号。
13.根据权利要求11所述的列队行驶控制装置,其中,当所述接收信号强度高于所述预先配置的范围的阈值上限时,所述补偿确定单元输出与所述负反馈相对应的反馈信号,并且当输出所述反馈信号时,所述学习装置增加所述相关车辆的制动量。
14.根据权利要求11所述的列队行驶控制装置,其中,当所述接收信号强度低于所述预先配置的范围的阈值下限时,所述补偿确定单元输出与所述负反馈相对应的反馈信号;并且当输出所述反馈信号时,所述学习装置增加所述相关车辆的加速。
15.根据权利要求1所述的列队行驶控制装置,还包括推断神经网络装置,其被配置为更新包括在所述学习装置中的关于神经网络的参数,以基于所述更新的参数接收所述图像信息,并且控制所述相关车辆以跟随所述前方车辆的行驶轨迹。
16.一种列队行驶控制方法,包括:
17.根据权利要求16所述的列队行驶控制方法,其中所述图像信息包括从所述相关车辆的前摄像头输出的前方图像信息和从所述前方车辆的后摄像头输出的后方图像信息。
18.根据权利要求16所述的列队行驶控制方法,其中所述控制点对应于用于控制与所述前方车辆的行驶轨迹相对应的样条曲线的形状的点。
19.根据权利要求16所述的列队行驶控制方法,还包括:
20.一种非暂时性计算机可读记录介质,其中记录有用于执行权利要求16所述的列队行驶控制方法的程序。