本发明涉及汽车控制技术领域,特别是涉及一种路口通行控制方法、装置、系统、计算机可读存储介质和计算机设备。
背景技术:
无人驾驶汽车是智能汽车中的一种,主要依靠车内的以计算机系统为主的智能驾驶仪来实现无人驾驶的目标。
目前,自动驾驶车辆经过路口时,由于路况复杂,交通状况千差万别,多依赖交通灯系统对路口通行车辆的调度。然而在经过路口,比如无交通灯的路口时,为了保证安全,多采用保守策略,尽可能以较低速度通过路口,因此通行效率较低。
技术实现要素:
基于此,有必要针对传统技术中,自动驾驶车辆经过路口时通行效率较低的问题,提供一种路口通行控制方法、装置、系统、计算机可读存储介质和计算机设备。
本发明实施例提供的方案包括:
一种路口通行控制方法,包括:
获取处于路口的第一车辆的车辆信号以及位于所述路口附近设定区域内的第二车辆的车辆信号;
将所述第一车辆的车辆信号和第二车辆的车辆信号输入预先基于强化学习原理训练的指令学习模型,获取所述指令学习模型的输出结果,根据所述输出结果确定第一车辆的下一动作指令;
根据所述下一动作指令控制所述第一车辆在所述路口的通行;
其中,所述指令学习模型根据输入的第一车辆的车辆信号和第二车辆的车辆信号,计算第一车辆在执行各待选动作指令后预设通行指标的分值;根据所述通行指标的分值得到第一车辆在执行各待选动作指令下的反馈值,筛选出反馈值最大时的待选动作指令作为输出结果。
在其中一个实施例中,预设通行指标包括基于速度获得的第一通行指标、基于危险区域获得的第二通行指标、基于加速度和转向角度获得的第三通行指标中的一种或多种;
所述第一通行指标的分值通过下述方法计算获得:根据第一车辆从进入所述路口到执行各待选动作指令过程中的平均速度,确定各待选动作指令下的第一通行指标的分值;所述第一通行指标用于表征所述第一车辆通过所述路口的效率;
所述第二通行指标的分值通过下述方法计算获得:根据第一车辆在执行各待选动作指令下与第二车辆之间的危险区域面积,确定各待选动作指令下的第二通行指标的分值;所述第二通行指标用于表征所述第一车辆通过所述路口的安全性;所述危险区域为第一车辆所在位置的椭圆区域和第二车辆所在位置的椭圆区域的重叠区域;
所述第三通行指标的分值通过下述方法计算获得:根据第一车辆执行各待选动作指令下的加速度、方向盘转角角度以及通过所述路口的时间长度,确定各待选动作指令下的第三通行指标的分值;所述第三通行指标用于表征所述第一车辆通过所述路口的平稳性;
所述反馈值通过下述方法获得:对第一通行指标、第二通行指标、第三通行指标的分值加权求和,得到所述第一车辆在执行各待选动作指令下的反馈值;
其中,所述车辆信号包括车辆的位置信息、车速信息、加速度信息和方向盘转角角度信息中的一种或多种。
在其中一个实施例中,所述第二通行指标的分值通过如下公式得到:
f(d)=0.25×[θ1×(r1)2+θ2×(r2)2-(h1+h2)×d12];
其中,d12为第一车辆几何中心和第二车辆几何中心之间的距离,r1、r2分别为第一车辆在极坐标下的动态半径、第二车辆在极坐标下的动态半径,θ1、θ2分别为极坐标下第一车辆几何中心与重叠区域的重叠交点构成的夹角、极坐标下第二车辆几何中心与重叠区域的重叠交点构成的夹角,h1,h2分别为重叠区域的重叠交点到d12的垂直距离。
在其中一个实施例中,所述第三通行指标的分值通过如下公式得到:
其中,c1、c2为预设的权重因子,n为第一车辆通过所述路口的时间长度,α为第一车辆执行待选动作指令下的加速度,θ为第一车辆执行待选动作指令下的方向盘转角角度。
在其中一个实施例中,所述第一车辆在执行各待选动作指令下的反馈值通过如下公式得到:
reward=k1×f(v)-k2×f(d)-k3×f(α,θ);
其中,reward表示反馈值,f(v)为第一通行指标,f(d)为第二通行指标,f(α,θ)为第三通行指标,k1、k2、k3为预设的权重因子。
在其中一个实施例中,所述路口通行控制方法,还包括:
判断所述第一车辆是否离开所述路口,若否,按照预设频率周期性获取所述第一车辆的车辆信号和第二车辆的车辆信号并基于指令学习模型控制第一车辆通行,直到所述第一车辆通过所述路口。
在其中一个实施例中,所述路口包括环岛路口、无交通灯的十字型路口和无交通灯的t字型路口中的任意一种。
在其中一个实施例中,所述第一车辆通过车间通讯获取位于路口附近设定区域内的第二车辆的车辆信号。
在其中一个实施例中,所述指令学习模型通过下述方法获得:
构建与路口环境相似的仿真路口环境;
获取预设的多组样本数据,每组样本数据包括仿真路口环境下第一车辆的车辆信号和第二车辆的车辆信号,还包括能使第一车辆正常通过路口的最优的实际下一动作指令信息;
在所述仿真路口环境中,向指令学习模型输入样本数据进行通行指标值、反馈值的计算获得待选动作指令,根据计算获得的待选动作指令和实际下一动作指令的匹配情况对指令学习模型的模型参数值进行修正,直到所述指令学习模型预测出的第一车辆的下一动作指令与第一车辆的实际下一动作指令的匹配度达到设定匹配阈值为止。
一种路口通行控制装置,包括:
信号获取模块,用于获取处于路口的第一车辆的车辆信号以及位于所述路口附近设定区域内的第二车辆的车辆信号;
指令确定模块,用于将所述第一车辆的车辆信号和第二车辆的车辆信号输入预先基于强化学习原理训练的指令学习模型,获取所述指令学习模型的输出结果;根据所述输出结果确定第一车辆的下一动作指令;
执行模块,用于根据所述下一动作指令控制所述第一车辆在所述路口的通行;
其中,所述指令学习模型根据输入的第一车辆的车辆信号和第二车辆的车辆信号,计算第一车辆在执行各待选动作指令后预设通行指标的分值;根据所述通行指标的分值得到第一车辆在执行各待选动作指令下的反馈值,筛选出反馈值最大时的待选动作指令作为输出结果。
一种路口通行控制系统,包括:传感器模块、处理器模块和执行器模块;
所述传感器模块包括传感器、can接收器和v2v信号收发器;所述传感器用于获取处于路口的第一车辆的车辆信息,所述v2v信号收发器用于获取处于所述路口附近设定区域内的第二车辆的车辆信号,所述can接收器用于收集所述传感器获取的第一车辆的车辆信号以及所述v2v信号收发器获取的第二车辆的车辆信号,并发送至处理器模块;所述第二车辆的数量为一辆或者两辆以上;
所述处理器模块用于将所述第一车辆的车辆信号和第二车辆的车辆信号输入预先基于强化学习原理训练的指令学习模型,获取所述指令学习模型的输出结果;根据所述输出结果确定下一动作指令,并将所述下一动作指令输出至执行器模块;
所述执行器模块用于根据所述下一动作指令控制所述第一车辆在所述路口的通行。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述所述路口通行控制方法的步骤。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述所述车路口通行控制方法的步骤。
实施上述实施例具有以下有益效果:通过获取处于路口的第一车辆的车辆信号以及位于所述路口附近设定区域内的若干第二车辆的车辆信号;将所述第一车辆的车辆信号和若干第二车辆的车辆信号输入预先基于强化学习原理训练的指令学习模型,获取所述指令学习模型的输出结果,根据所述输出结果确定下一动作指令;根据所述下一动作指令控制所述第一车辆在所述路口的通行。在经过路口时,在确保安全的情况下,通过预先训练的指令学习模型实时获取第一车辆在当前环境下的下一动作指令,在保证路口的通行安全性的前提下,克服了以较低速度通过路口而造成路口通行效率低的缺陷,提高了路口通行效率。
附图说明
图1为一实施例的路口通行控制方法的示意性流程图;
图2为一实施例的指令学习模型训练过程的示意性流程图;
图3为一实施例的极坐标下第一车辆和第二车辆之间的危险区域的示意图;
图4为一实施例的路口的示意性结构图;
图5为一实施例的指令学习模型的示意性结构图;
图6为一实施例的路口通行控制装置的示意性结构图;
图7为一实施例的路口通行控制系统的示意性结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或(模块)单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。
本发明可以应到自动驾驶车辆的自动驾驶控制系统上,以下各个实施例所指的第一车辆特指自动驾驶车辆。当然,还可以应用到具备自动驾驶模式的其他车辆中。
图1为一实施例的路口通行控制方法的示意性流程图;如图1所示,本实施例中的路口通行控制方法包括以下步骤:
步骤s101,获取处于路口的第一车辆的车辆信号以及位于所述路口附近设定区域内的第二车辆的车辆信号。
在本步骤中,路口指无交通灯的路口,比如环岛路口、无交通灯的十字型路口和无交通灯的t字型路口等;车辆信号指车速、车辆位置、行驶方向等信息。
具体地,可通过传感器计算获取处于路口的第一车辆的车辆信号,以及通过无线网络通信技术或者通讯设备获取位于所述路口附近设定区域内的第二车辆的车辆信号。综合考虑第一车辆的车辆信号和第二车辆的车辆信号,以此确定第一车辆的下一动作指令,既能保证行车安全性,又有利于提高路口通行的效率。
在一可选实施例中,所述车辆信号包括车辆的位置信息、车速信息、加速度信息和方向盘转角角度信息中的一种或多种。其中,位置信息指的是车辆的gps经纬度坐标。
步骤s102,将所述第一车辆的车辆信号和第二车辆的车辆信号输入预先基于强化学习原理训练的指令学习模型,获取所述指令学习模型的输出结果,根据所述输出结果确定第一车辆的下一动作指令。
在本步骤中,动作指令是用来控制第一车辆在路口通行的时间和/或方向。指令学习模型是基于具体路况和车辆信息,基于强化学习原理,经过多次训练得到的。能够根据输入的第一车辆的车辆信号和第二车辆的车辆信号,从全部待选动作指令中筛选出当前环境下的最优动作指令,进而得到第一车辆在当前环境下的最优下一动作指令。
具体地,将所述第一车辆的车辆信号和第二车辆的车辆信号输入预先基于强化学习原理训练的指令学习模型,所述指令学习模型能够根据输入的第一车辆的车辆信号和第二车辆的车辆信号,计算第一车辆在执行各待选动作指令后预设通行指标的分值;根据所述通行指标的分值得到第一车辆在执行各待选动作指令下的反馈值,筛选出反馈值最大时的待选动作指令作为输出结果,根据所述输出结果确定下一动作指令。反馈值最大时的待选动作指令即为在当前环境下的最优下一动作指令,通过综合考虑第一车辆的车辆信号和第二车辆的车辆信号,计算第一车辆在执行各待选动作指令后的若干项通行指标,进而综合考虑若干项通行指标确定第一车辆的最优下一动作指令,能准确确定出最优下一动作指令,保证通行安全,且时效性高,能够有效提高车辆在路口的通行效率。
步骤s103,根据所述下一动作指令控制所述第一车辆在所述路口的通行。
上述实施例,通过获取处于路口的第一车辆的车辆信号以及位于所述路口附近设定区域内的第二车辆的车辆信号;将所述第一车辆的车辆信号和第二车辆的车辆信号输入预先基于强化学习原理训练的指令学习模型,获取所述指令学习模型的输出结果,根据所述输出结果确定下一动作指令;根据所述下一动作指令控制所述第一车辆在所述路口的通行。在经过路口时,在确保通行安全的情况下,得到第一车辆的最优下一动作指令,克服了以较低速度通过路口而造成路口通行效率低的缺陷,提高了路口通行效率。
在一可选实施例中,所述待选动作指令包括第一维度动作指令、第二维度动作指令、第一维度动作指令和第二维度动作指令的组合动作指令中的任意一种;所述第一维度动作指令为加速度动作指令,第二维度动作指令为方向盘动作指令。具体地,待选动作指令比如加速向左、匀速向左、减速向左、加速保持、匀速保持、减速保持、加速向右、匀速向右、减速向右。
图2为一实施例的指令学习模型训练过程的示意性流程图。在一可选实施例中,如图2所示,所述指令学习模型通过下述方法获得:
步骤s201,构建与路口环境相似的仿真路口环境,以进行仿真路口环境下的训练。
在本步骤中,仿真路口环境是指与真实路口高度相似的路口环境,可以在终端设备上,比如计算机设备上构建。在仿真路口环境中,可以进行大量样本的学习训练。
步骤s202,获取预设的多组样本数据。
在本步骤中,每组样本数据包括仿真路口环境下第一车辆的车辆信号和第二车辆的车辆信号,还包括能使第一车辆正常通过路口的最优的实际下一动作指令信息,即通过路口的历史数据获取的第一车辆在真实路口环境中所执行的动作指令。获取第一车辆的最优的实际下一动作指令信息,是为了在后续步骤中,跟仿真路口环境下指令学习模型预测出的下一动作指令进行比较,根据预测动作指令与实际下一动作指令信息的比较可验证指令学习模型预测的准确度。
步骤s203,在所述仿真路口环境中,向指令学习模型输入样本数据进行通行指标值、反馈值的计算获得待选动作指令,根据计算获得的待选动作指令和实际下一动作指令的匹配情况对指令学习模型的模型参数值进行修正,直到所述指令学习模型预测出的第一车辆的下一动作指令与第一车辆的实际下一动作指令的匹配度达到设定匹配阈值为止。
上述步骤中,预设的指令学习模型中包括若干参数,初始时可根据约束条件随机设定各参数的取值,通过样本训练多次调整所述参数的取值以此调整模型的输出结果,根据多次所述指令学习模型预测出的第一车辆的下一动作指令与所述第一车辆的实际下一动作指令的匹配情况,调整模型中参数值,直到多次预测的下一动作指令与所述第一车辆的实际下一动作指令的匹配度达到设定要求(或者,连续设定次数的预测下一动作指令与实际下一动作指令一致),获取指令学习模型中各参数的当前参数值,作为与路口环境有关的最优参数值,由此得到训练好的指令学习模型。
具体地,在所述仿真路口环境中,通过向指令学习模型输入样本数据进行通行指标值、反馈值的计算获得待选动作指令,以及通过指令学习模型预测出的第一车辆的待选动作指令与所述第一车辆的实际下一动作指令的匹配结果,对预设的指令学习模型的参数值进行修正,直到所述匹配结果达到预设匹配阈值为止,比如95%。这样经过对参数值的修正,可以提高指令学习模型预测出的第一车辆的下一动作指令的准确性。
在一可选实施例中,在仿真路口环境下的训练结束后,还可通过真实路口环境对指令学习模型进一步的训练。即训练指令学习模型的过程还包括:构建真实路口环境,进行真实路口环境下的模型训练的步骤。该步骤的具体实现方式可为:将经过上述仿真路口环境训练的指令学习模型部署到真实车辆中,以在真实路口环境中进行所述指令学习模型的进一步训练优化和调试,以进一步提高训练指令学习模型筛选下一动作指令的准确性。
上述实施例,模型训练包括虚拟训练和真实场景训练,可以设置上述仿真路口环境和真实路口环境的训练比例,比如两者所占的训练量比例参考值可为10:1,虚拟场景训练指的是:前期在pc端构建一个与真实路口环境高度一致的仿真环境,并在这个环境中进行大量样本的学习训练。真实场景训练指的是将已经经过虚拟场景训练的指令学习模型部署到真实车辆中在真实场景中进行模型训练优化和系统调试。综合仿真路口环境训练和真实路口环境训练,以确保所述指令学习模型有效筛选出最优的下一动作指令。
在一可选实施例中,预设通行指标包括基于速度获得的第一通行指标、基于危险区域获得的第二通行指标、基于加速度和转向角度获得的第三通行指标中的一种或多种。所述第一通行指标的分值通过下述方法获得:根据所述第一车辆从进入所述路口到当前位置过程中的平均速度,确定第一通行指标的分值;所述第一通行指标用于表征所述第一车辆通过所述路口的效率,即通行高效性指标。所述第二通行指标的分值通过下述方法获得:根据所述第一车辆和第二车辆之间的危险区域面积,确定第二通行指标的分值;所述第二通行指标用于表征所述第一车辆通过所述路口的安全性,即通行安全性指标;所述危险区域为第一车辆所在位置的椭圆区域和第二车辆所在位置的椭圆区域的重叠区域,具体如图3所示。所述第三通行指标的分值通过下述方法获得:根据所述第一车辆的加速度、方向盘转角角度以及通过所述路口的时间长度,确定第三通行指标的分值;所述第三通行指标用于表征所述第一车辆通过所述路口的平稳性,即通行舒适性指标。
上述实施例,根据输入的第一车辆的车辆信号和第二车辆的车辆信号,综合考虑第一通行指标、第二通行指标和第三通行指标的分值,可以确保在安全的情况下,有效提高车辆在路口的通行速度和舒适度。
在一可选实施例中,所述反馈值通过下述方法获得:对第一通行指标、第二通行指标、第三通行指标的分值加权求和,得到所述第一车辆在执行各待选动作指令下的反馈值。上述实施例,通过计算第一车辆在执行各待选动作指令下的反馈值,是为了根据各反馈值的大小,从各待选动作指令筛选出第一车辆的最优下一动作指令。
在一可选实施例中,所述第一通行指标的分值通过如下公式得到:
其中,vk为在第一车辆通过进入所述路口后第k次采集到的第一车辆的速度,k+1为第一车辆从进入所述路口到执行各待选动作指令过程中的速度采样次数。上述实施例,通过第一车辆从进入所述路口到执行各待选动作指令过程中的平均速度衡量第一车辆通过所述路口的效率。
在一可选实施例中,如图3所示,所述第二通行指标的分值通过如下公式得到:
f(d)=0.25×[θ1×(r1)2+θ2×(r2)2-(h1+h2)×d12];
其中,d12为第一车辆几何中心与第二车辆几何中心之间的距离,r1、r2分别为第一车辆在极坐标下的动态半径、第二车辆在极坐标下的动态半径,θ1、θ2分别为极坐标下第一车辆几何中心与重叠区域的重叠交点(a和b)构成的夹角、极坐标下第二车辆几何中心与重叠区域的重叠交点(a和b)构成的夹角,h1、h2分别为两个重叠交点到d12的相对高度。上述实施例,通过第一车辆和第二车辆之间的危险区域面积衡量所述第一车辆通过所述路口的安全性。
在一可选实施例中,所述第三通行指标的分值通过如下公式得到:
其中,c1、c2为预设的权重参数,两者之和为1,比如c1为0.4、c2为0.6;n为第一车辆通过所述路口的时间长度,α为第一车辆执行待选动作指令下的加速度,θ为第一车辆执行待选动作指令下的方向盘转角角度。上述实施例,根据所述第一车辆执行待选动作指令下的加速度、方向盘转角角度以及通过所述路口的时间长度,去衡量所述第一车辆通过所述路口的平稳性。
在一可选实施例中,所述第一车辆在执行各待选动作指令下的反馈值通过如下公式得到:
reward=k1×f(v)-k2×f(d)-k3×f(α,θ);
其中,f(v)为第一通行指标,f(d)为第二通行指标,f(α,θ)为第三通行指标,k1、k2、k3为预设的权重参数,三者之和为1,比如k1为0.4,k2为0.3,k3为0.3,具体可以根据路口的实际情况进行调整。上述实施例,通过综合考虑第一通行指标、第二通行指标和第三通行指标以及各自对应的权重,得到各待选动作指令对应的反馈值,即同时考虑安全、高效、舒适性的综合指标作为强化学习回报函数,可以在确保安全的情况下,有效提高第一车辆在路口的通行速度和舒适度。
在一可选实施例中,向指令学习模型输入样本数据进行通行指标值、反馈值的计算获得待选动作指令,根据计算获得的待选动作指令和实际下一动作指令的匹配情况对指令学习模型的模型参数值进行修正指的是:通过多组样本数据对预设的指令学习模型中的c1、c2、k1、k2和/或k3的取值进行修正。经过多次修正,直到获取一套与路口环境有关的最优参数值,得到训练好的指令学习模型。
在一可选实施例中,上述步骤s101中,所述第一车辆通过车间通讯获取位于路口附近设定区域内的第二车辆的车辆信号。具体地,第一车辆通过v2v(vehicle-to-vehiclecommunication,车对车通信)设备获取位于路口附近设定区域内的第二车辆的车辆信号。例如获取所述路口附近100米区域内的其他车辆的车辆信号。使用v2v设备接收其它车辆信息作为指令学习模型的状态输入,降低了状态输入纬度,有利于提升模型处理速度。
其中,v2v是一种不受限于固定式基站的通信技术,为移动中的车辆提供直接的一端到另一端的无线通信,可以监测路口上行驶的其他车辆的速度、位置等对其他车辆驾驶员无法开放的“隐藏”数据。即通过v2v通信技术,车辆终端彼此之间直接交换无线信息,无需通过基站转发。
在一可选实施例中,上述步骤s103中,根据所述下一动作指令控制所述第一车辆在所述路口的通行,包括:根据所述下一动作指令控制所述第一车辆在所述路口通行时的加速度和/或方向盘转角角度。
在一可选实施例中,所述路口通行控制方法,还包括:实时判断所述第一车辆是否离开所述路口,若否,按照预设频率(比如100hz)周期性获取所述第一车辆的车辆信号和第二车辆的车辆信号,以此确定第一车辆的下一动作指令,并基于指令学习模型控制第一车辆通行,直到所述第一车辆通过所述路口。上述实施例,通过设定频率周期性确定第一车辆的下一动作指令,直到其离开所述路口,有利于保证第一车辆在路口通行全过程中的安全性和时效性。
图4为一实施例的路口的示意性结构图。在一可选实施例中,如图4所示,所述路口包括环岛路口a、无交通灯的十字型路口b和无交通灯的t字型路口c中的任意一种。
图5为一实施例的指令学习模型的示意性结构图。在一个具体的实施例中,如图5所示,所述指令学习模型包括智能体agent、环境environment以及智能体agent和环境environment之间交互的任务;交互的任务包含了一系列的动作action,状态state和反馈值reward。每个时刻,智能体agent根据当前环境environment的观察结果(即路口的第一车辆的车辆信号以及位于所述路口附近设定区域内的第二车辆的车辆信号)来确定下一步的动作action,每次的环境观察结果作为智能体agent所处的状态state,根据智能体agent所处的状态state来确定下一步的动作action。通过多次学习处理智能体agent和环境environment之间交互的任务,确定从状态state到下一动作action的最佳过程,从而形成一套最优的智能体执行策略。
其中,智能体agent表示为一个具备行为能力的物体,比如机器人,无人驾驶车辆等。反馈值reward表示的是智能体agent执行了某一动作action与环境environment之间进行交互的任务后,环境environment变化的好与坏。
进一步地,状态state和动作action存在映射关系,即每一个状态state都对应一个动作action,从状态state到动作action的过程称之为一个策略。通过当前环境environment中的状态state,来确定动作action,作为智能体agent下一步的动作。
状态state包含如下:通过can网络获得当前车辆的位置信息(gps经纬度坐标),车速信息,加速度信息,方向盘转角信息,以及通过v2v设备获得位于路口100m范围的其它车辆的位置信息(gps经纬度坐标),车速信息,加速度信息,方向盘转角信息。
动作指令action采用步进控制方式,更新频率为100hz,分成两大类,一类是速度纬度控制,再细分成3类,一为车速保持,记为0,二为车速增加1km/h,记为1,三为车速减速1km/h(含停车),记为2。一类是方向纬度控制,再细分成3类,一为方向保持,记为0,二为方向向左调整一度,记为1,三为方向向右调整一度,记为2。,所有指令action共有9类,这九类动作编码如下:
反馈值reward的计算方式详述如下:
reward=k1*f(v)-k2*f(d)-k3*f(a,θ)。
f(v)为通行高效性指标,权重为k1,初始时设为0.4;
f(d)为通行安全性指标,权重为k2,初始时设为0.3;
f(a,θ)为通行舒适性指标,权重为k3,初始时设为0.3。
agent执行一个action后,环境将更新state,并获得最新的reward实测值,经过训练agent基于更新后的state和reward实测值来分别计算执行各个动作action指令(如上9种)之后的reward预测值,优先选择reward预测值最高的action指令作为下一步动作。
上述实施例,通过多次训练学习处理智能体agent和环境environment之间交互的任务,形成一套最优的智能体执行策略,同时考虑安全、高效、舒适性的综合指标作为强化学习回报函数,可以在确保安全的情况下,有效提高第一车辆在路口的通行速度和舒适度。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
基于与上述实施例中的路口通行控制方法相同的思想,本发明还提供路口通行控制系统,该系统可用于执行上述路口通行控制方法。为了便于说明,邮件投递系统实施例的示意性结构图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
图6为一实施例的路口通行控制装置的示意性结构图;如图6所示,本实施例中的路口通行控制装置包括:
信号获取模块610,用于获取处于路口的第一车辆的车辆信号以及位于所述路口附近设定区域内的第二车辆的车辆信号;
指令确定模块620,用于将所述第一车辆的车辆信号和第二车辆的车辆信号输入预先基于强化学习模型训练的指令学习模型,获取所述指令学习模型的输出结果;根据所述输出结果确定第一车辆的下一动作指令;
执行模块630,用于根据所述下一动作指令控制所述第一车辆在所述路口的通行;
其中,所述指令学习模型根据输入的第一车辆的车辆信号和第二车辆的车辆信号,计算第一车辆在执行各待选动作指令后预设通行指标的分值;根据所述通行指标的分值得到第一车辆在执行各待选动作指令下的反馈值,筛选出反馈值最大时的待选动作指令作为输出结果。
在一可选实施例中,所述路口通行控制装置还包括:指令学习模型获得模块,用于构建与路口环境相似的仿真路口环境;获取预设的多组样本数据,每组样本数据包括仿真路口环境下第一车辆的车辆信号和第二车辆的车辆信号,还包括能使第一车辆正常通过路口的最优的实际下一动作指令信息;在所述仿真路口环境中,向指令学习模型输入样本数据进行通行指标值、反馈值的计算获得待选动作指令,根据计算获得的待选动作指令和实际下一动作指令的匹配情况对指令学习模型的模型参数值进行修正,直到所述指令学习模型预测出的第一车辆的下一动作指令与第一车辆的实际下一动作指令的匹配度达到设定匹配阈值为止。
在一可选实施例中,预设通行指标包括基于速度获得的第一通行指标、基于危险区域获得的第二通行指标、基于加速度和转向角度获得的第三通行指标中的一种或多种。所述第一通行指标通过下述方法获得:根据所述第一车辆从进入所述路口到当前位置过程中的平均速度,确定第一通行指标的分值;所述第一通行指标用于表征所述第一车辆通过所述路口的效率,即通行高效性指标。所述第二通行指标通过下述方法获得:根据所述第一车辆和第二车辆之间的危险区域面积,确定第二通行指标的分值;所述第二通行指标用于表征所述第一车辆通过所述路口的安全性,即通行安全性指标;所述危险区域为第一车辆所在位置的椭圆区域和第二车辆所在位置的椭圆区域的重叠区域,具体如图3所示。所述第三通行指标通过下述方法获得:根据所述第一车辆的加速度、方向盘转角角度以及通过所述路口的时间长度,确定第三通行指标的分值;所述第三通行指标用于表征所述第一车辆通过所述路口的平稳性,即通行舒适性指标。
在一可选实施例中,所述反馈值通过下述方法获得:对第一通行指标、第二通行指标、第三通行指标的分值加权求和,得到所述第一车辆在执行各待选动作指令下的反馈值。
在一可选实施例中,对于信号获取模块610,可以用于:第一车辆通过车间通讯获取位于所述路口附近设定区域内的第二车辆的车辆信号。
在一可选实施例中,对于执行模块630,可以用于:根据所述下一动作指令控制所述第一车辆在所述路口通行时的加速度和/或方向盘转角角度。
在一可选实施例中,所述路口通行控制装置还包括判断模块,用于判断所述第一车辆是否离开所述路口,若否,按照预设频率周期性获取所述第一车辆的车辆信号和第二车辆的车辆信号并基于指令学习模型控制第一车辆通行,直到所述第一车辆通过所述路口。
上述各个实施例,通过信号获取模块获取处于路口的第一车辆的车辆信号以及位于所述路口附近设定区域内的第二车辆的车辆信号;根据指令确定模块,将所述第一车辆的车辆信号和第二车辆的车辆信号输入预先基于强化学习模型训练的指令学习模型,获取所述指令学习模型的输出结果,根据所述输出结果确定下一动作指令;通过执行模块,根据所述下一动作指令控制所述第一车辆在所述路口的通行。在经过路口时,在确保安全的情况下,通过预先训练的指令学习模型实时获取第一车辆的最优下一动作指令,在保证路口的通行安全性的前提下,克服了以较低速度通过路口而造成路口通行效率低的缺陷,提高了路口通行效率。
图7为一实施例的路口通行控制系统的示意性结构图。在一实施例中,如图7所示,所述路口通行控制系统包括:传感器模块710、处理器模块720和执行器模块730。所述传感器模块710包括传感器711、can接收器712和v2v信号收发器713;所述传感器711用于获取处于路口的第一车辆的车辆信息,所述v2v信号收发器713用于获取处于所述路口附近设定区域内的第二车辆的车辆信号,所述can接收器712用于收集所述传感器获取的第一车辆的车辆信号以及所述v2v信号收发器713获取的第二车辆的车辆信号,并发送至处理器模块720。
所述处理器模块720用于将所述第一车辆的车辆信号和第二车辆的车辆信号输入预先基于强化学习原理训练的指令学习模型,获取所述指令学习模型的输出结果;根据所述输出结果确定第一车辆的下一动作指令,并将所述下一动作指令输出至执行器模块730。
所述执行器模块730用于根据所述下一动作指令控制所述第一车辆在所述路口的通行。
在一实施例中,所述处理器模块720还用于在将所述第一车辆的车辆信号和第二车辆的车辆信号输入预先基于强化学习原理训练的指令学习模型之前,滤波处理所述第一车辆的车辆信号和第二车辆的车辆信号。具体地,所述处理器模块720包括信号滤波器721和控制器722;所述信号滤波器721与所述can接收器711连接,所述信号滤波器721与所述控制器722连接;所述控制器722与执行器模块730连接。所述信号滤波器721用于滤波处理所述第一车辆的车辆信号和第二车辆的车辆信号;并将滤波处理后的第一车辆的车辆信号和第二车辆的车辆信号输入控制器722中预先基于强化学习原理训练的指令学习模型。控制器722用于获取所述指令学习模型的输出结果;根据所述输出结果确定下一动作指令,并将所述下一动作指令输出至执行器模块730。
进一步地,在一实施例中,所述执行器模块730包括方向盘角度控制器731和加速度控制器732,所述方向盘角度控制器731用于控制第一车辆的方向盘角度,所述加速度控制器732用于控制第一车辆的加速度。
上述实施例的路口通行控制系统,通过传感器模块获取所述第一车辆的车辆信号以及处于所述路口附近设定区域内的第二车辆的车辆信号,并将所述第一车辆和第二车辆的车辆信号发送至处理器模块,处理器模块将所述第一车辆和第二车辆的车辆信号滤波处理后,再输入指令学习模型中,将指令学习模型的输出结果作为第一车辆的下一动作指令,并将下一动作指令发送至执行器模块;执行器模块通过下一动作指令控制第一车辆在路口通行时的加速度和/或方向盘转角角度。在经过路口时,在确保安全的情况下,通过预先训练的指令学习模型实时获取第一车辆的下一动作指令,在保证路口的通行安全性的前提下,克服了以较低速度通过路口而造成路口通行效率低的缺陷,提高了路口通行效率。
需要说明的是,上述示例的路口通行控制系统的实施方式中,各模块/单元之间的信息交互、执行过程等内容,由于与本发明前述方法实施例基于同一构思,其带来的技术效果与本发明前述方法实施例相同,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
此外,上述示例的路口通行控制系统的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述路口通行控制系统的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,作为独立的产品销售或使用。所述程序在执行时,可执行如上述各方法的实施例的全部或部分步骤。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。
据此,在一个实施例中还提供一种存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述各实施例中的任意一种路口通行控制方法。
此外,所述存储介质还可设置于一种计算机设备中,所述计算机设备中还包括处理器,所述处理器执行所述存储介质中的程序时,能够实现上述各方法的实施例的全部或部分步骤。
据此,在一个实施例中还提供一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现如上述各实施例中的任意一种路口通行控制方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。可以理解,其中所使用的术语“第一”、“第二”等在本文中用于区分对象,但这些对象不受这些术语限制。
以上所述实施例仅表达了本发明的几种实施方式,不能理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。