本公开涉及车辆控制方法、车辆用控制装置以及服务器。
背景技术:
::日本特开2016-6327号公报中记载了一种控制装置,该控制装置基于将加速踏板的操作量进行过滤处理得到的值来操作节气门。可是,在用于过滤处理的过滤器中,需要根据加速踏板的操作量将节气门的操作量设定为适当的操作量。因此,过滤器的适配对于熟练者而言需要许多工时。如此,与车辆的状态相应的车辆内的电子设备的操作量的适配对于熟练者而言需要许多工时。技术实现要素:为了解决上述问题,根据本发明的第一技术方案,提供一种使用存储装置和执行装置的车辆控制方法。该方法包括:将在操作车辆的电子设备时使用的操作用数据存储于所述存储装置;以及在所述操作用数据存储于所述存储装置的状态下,由所述执行装置执行以下处理:取得处理,基于设置于所述车辆的传感器的检测值,取得所述车辆的状态;操作处理,基于所述操作用数据和通过所述取得处理所取得的所述车辆的状态,操作所述电子设备;性能判定处理,判定在所述电子设备通过所述操作处理的执行而被操作的情况下的所述车辆的环境性能(环境绩效)是否低于判定用性能;以及数据更新处理,在通过所述性能判定处理判定为所述车辆的环境性能低于所述判定用性能的情况下,更新所述操作用数据以使得所述车辆的环境性能提高。当在操作电子设备时使用的操作用数据是与当时的电子设备的特性相应的数据时,能够使车辆的环境性能比该操作用数据并非与当时的电子设备的特性相应时高。而且,在将针对当时的电子设备的特性优化得到的操作用数据设为最佳数据的情况下,在判定为环境性能低于判定用性能时,能够推测为操作用数据偏离于最佳数据。在上述构成中,在判定为使用操作用数据操作了电子设备的情况下的车辆的环境性能低于判定用性能时,更新操作用数据以使得车辆的环境性能提高。通过这样在使用车辆期间将操作用数据更新,能够使操作用数据接近上述最佳数据。因此,通过使用这样更新出的操作用数据来操作电子设备,能够帮助提高车辆的环境性能。在上述车辆控制方法中,优选为,所述操作用数据是规定所述车辆的状态与行动变量的关系的关系规定数据,所述行动变量是与所述电子设备的操作有关的变量,所述操作处理是基于由所述关系规定数据和通过所述取得处理所取得的所述车辆的状态而确定的所述行动变量的值来操作所述电子设备的处理,所述车辆控制方法还包括:由所述执行装置执行以下处理:奖励(奖赏)计算处理,基于在所述电子设备被操作了时的所述车辆的状态,在所述车辆的特性满足预定基准的情况下,与所述车辆的特性不满足所述预定基准的情况相比,给予较大的奖励;以及更新处理,将在所述电子设备被操作了时的所述车辆的状态、在所述电子设备的操作中使用了的所述行动变量的值、和与所述电子设备的操作对应的所述奖励作为向预先确定的更新映射的输入,更新所述关系规定数据,所述更新映射输出以使按照所述关系规定数据来操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据。在上述构成中,通过计算伴随电子设备的操作的奖励,能够掌握通过电子设备的操作而获得怎样的奖励。而且,通过基于所获得的奖励,根据按照强化学习的更新映射将关系规定数据更新,从而能够将车辆的状态与行动变量的关系在车辆的行驶中设定为适当的关系。因此,能够在车辆的行驶中将车辆的状态与行动变量的关系优化。即,通过使关系规定数据更新,能够使关系规定数据接近最佳状态。而且,通过使用这样的关系规定数据操作电子设备,能够提高车辆的环境性能。在上述车辆控制方法中,优选为,所述数据更新处理是如下处理:在通过所述性能判定处理判定为所述车辆的环境性能低于所述判定用性能的情况下,使在所述车辆的特性满足所述预定基准时所给予的奖励比在没有判定为所述车辆的环境性能低于所述判定用性能的情况下的奖励大,从而更新所述关系规定数据以使得所述车辆的环境性能提高。在判定为车辆的环境性能低于判定用性能的情况下,存在车辆的状态与行动变量的关系的优化没什么进展的可能性。于是,在上述构成中,在判定为车辆的环境性能低于判定用性能的情况下,将在车辆的特性满足预定基准时所给予的奖励设得更大。由此,能够在判定为车辆的环境性能低于判定用性能之后,相比于此前,使车辆的状态与行动变量的关系的优化加快。即,通过提高关系规定数据的更新速度,更新关系规定数据以使得车辆的环境性能提高。因此,在判定为车辆的环境性能低于判定用性能的主要原因是车辆的状态与行动变量的关系的优化延迟的情况下,能够通过这样改变奖励的给予方式来提高车辆的环境性能。在上述车辆控制方法中,优选为,所述数据更新处理是如下处理:将存储于所述存储装置的所述关系规定数据替换为所述环境性能高于所述判定用性能的其他车辆的所述关系规定数据,从而更新所述关系规定数据以使得所述车辆的环境性能提高。在判定为车辆的环境性能低于判定用性能的情况下,存在车辆的状态与行动变量的关系的优化没什么进展的可能性。于是,在上述构成中,在判定为车辆的环境性能低于判定用性能的情况下,将存储于车辆的存储装置中的关系规定数据替换为在环境性能高于判定用性能的其他车辆中使用的关系规定数据。由此,更新关系规定数据以使得环境性能提高。因此,在判定为车辆的环境性能低于判定用性能的主要原因是车辆的状态与行动变量的关系的优化延迟的情况下,能够通过这样替换关系规定数据来提高车辆的环境性能。在上述车辆控制方法中,优选为,包括由所述执行装置执行以下处理:条件推定处理,基于所述车辆的行驶环境和通过所述取得处理所取得的所述车辆的状态,推定所述车辆的行驶条件;以及判定用性能设定处理,基于在能够判断为与通过所述条件推定处理推定出的所述车辆的行驶条件相同的行驶条件下行驶的多个车辆的环境性能,设定所述判定用性能。根据上述构成,基于在相同的行驶条件下行驶的多个车辆的环境性能设定判定用性能。即,并非预先按车型将判定用性能的值设定为一定的值,而能够将判定用性能的值设为基于车辆的实际行驶的值。由此,能够适当地掌握车辆的关于环境性能的实力。在上述车辆控制方法中,优选为,所述判定用性能设定处理是基于多个所述车辆的表示环境性能的指标值的平均来设定所述判定用性能的处理。在上述车辆控制方法中,优选为,所述车辆的环境性能是所述车辆的能量利用效率。在上述车辆控制方法中,优选为,所述执行装置具有设置于所述车辆的第1执行装置和与所述第1执行装置进行通信的第2执行装置,所述存储装置设置于所述车辆,所述取得处理和所述操作处理由所述第1执行装置执行,所述性能判定处理由所述第1执行装置或者所述第2执行装置执行,所述数据更新处理由所述第1执行装置与所述第2执行装置的协同工作来执行。为了解决上述问题,根据本发明的第二技术方案,提供一种具备所述执行装置以及所述存储装置的车辆用控制装置。为了解决上述问题,根据本发明的第三技术方案,提供一种具备所述第1执行装置以及所述存储装置的车辆用控制装置。根据上述构成,执行装置具有第1执行装置和第2执行装置,因此与由一个执行装置执行所有处理的情况相比,能够减轻执行装置的控制负荷。为了解决上述问题,根据本发明的第四技术方案,提供一种能够与多个所述车辆进行通信的服务器,该服务器具备所述第2执行装置。附图说明图1是表示第1实施方式涉及的控制装置以及驱动系统的图。图2是示意性地表示控制装置的构成和与车辆进行通信的服务器的构成的框图。图3是表示控制装置执行的处理的步骤的流程图。图4是表示第1实施方式涉及的学习处理的详情的流程图。图5是表示在与服务器进行信息的收发时控制装置执行的处理的步骤的流程图。图6是表示服务器执行的处理的步骤的流程图。图7是表示第2实施方式涉及的控制装置在与服务器进行信息的收发时执行的处理的步骤的流程图。图8是表示服务器执行的处理的步骤的流程图。具体实施方式(第1实施方式)以下,参照附图,对车辆控制方法、车辆用控制装置以及服务器的第1实施方式进行说明。图1表示作为车辆用控制装置的控制装置70和具备控制装置70的车辆vc1的驱动系统的构成。如图1所示,车辆vc1具备内燃机10作为车辆vc1的推力生成装置。在内燃机10的进气通路12,从上游侧起依次设置有节气门14和燃料喷射阀16。被吸入到进气通路12的空气以及从燃料喷射阀16喷射出的燃料随着进气门18的开阀而向由汽缸20和活塞22划分的燃烧室24流入。在燃烧室24内,燃料与空气的混合气伴随着点火装置26的火花放电而被燃烧。通过燃烧产生的能量经由活塞22被转换为曲轴28的旋转能。被燃烧了的混合气随着排气门30的开阀而作为排气(废气)向排气通路32排出。在排气通路32设置有作为净化排气的后处理装置的催化剂34。曲轴28能够经由具备锁止离合器42的变矩器(torqueconverter)40与变速装置50的输入轴52机械地连结。变速装置50控制变速比(传动比、齿轮速比),变速比是输入轴52的转速与输出轴54的转速之比。输出轴54与驱动轮60机械地连结。控制装置70将内燃机10作为控制对象。控制装置70操作节气门14、燃料喷射阀16以及点火装置26等内燃机10的操作部以控制转矩和排气成分比率等。控制装置70将变矩器40作为控制对象。控制装置70操作锁止离合器42以控制锁止离合器42的接合状态。控制装置70将变速装置50作为控制对象。控制装置70操作变速装置50以控制变速比。图1表示了节气门14、燃料喷射阀16、点火装置26、锁止离合器42以及变速装置50各自的操作信号ms1~ms5。被输入来自控制装置70的操作信号ms1~ms5的操作部中的每一个是“电子设备”的一例。控制装置70为了控制内燃机10,参照由空气流量计80检测的吸入空气量ga、由节气门传感器82检测的节气门14的开度即节气门开度ta以及曲轴角传感器84的输出信号scr。控制装置70参照由加速器传感器88检测的加速踏板86的踏入量即加速器操作量pa以及由加速度传感器90检测的车辆vc1的前后方向的加速度gx。控制装置70具备cpu72、rom74、作为可电改写的非易失性存储器的存储装置76、通信机77以及外围电路78。cpu72、rom74、存储装置76、通信机77以及外围电路78经由局域网79以可通信的方式连接。外围电路78包括生成规定内部动作的时钟信号的电路、电源电路以及复位(reset)电路等。在rom74中存储有控制程序74a以及学习程序74b。在存储装置76中存储有关系规定数据dr。关系规定数据dr指的是在操作节气门14、点火装置26等车辆vc1的电子设备时所使用的数据。关系规定数据dr规定加速器操作量pa与节气门开度ta的指令值即节气门开度指令值ta*以及点火装置26的延迟量aop的关系。节气门开度指令值ta*以及延迟量aop是行动变量的一例。延迟量aop是相对于预先确定的基准点火正时的延迟量。基准点火正时是mbt点火正时和爆震临界点中的延迟侧的正时。mbt点火正时是获得最大转矩的点火正时(最大转矩点火正时)。爆震临界点是在使用爆震临界高的高辛烷值燃料时能够在设想的最佳的条件下将爆震控制在能容许的等级以内的点火正时的提前界限值。另外,在存储装置76中存储有转矩输出映射数据dt。由转矩输出映射数据dt规定的转矩输出映射是以曲轴28的转速ne、填充(充气)效率η以及点火正时aig为输入并以转矩trq为输出的映射。如图2所示,在车辆vc1的外部设置有服务器130。通信机77是用于经由车辆vc1外部的网络120与服务器130进行通信的设备。服务器130解析从多个车辆vc1、vc2、……发送来的数据。服务器130具备cpu132、rom134、外围电路138以及通信机137。cpu132、rom134、外围电路138以及通信机137通过局域网139以可通信的方式连接。在rom134中存储有控制程序134a。图3表示控制装置70执行的处理的步骤。图3所示的处理通过由cpu72例如按预定周期反复执行存储于rom74的控制程序74a以及学习程序74b来实现。以下,利用开头附加有“s”的数字表示各处理的步骤编号。在图3所示的一系列处理中,cpu72取得包括加速器操作量pa的6个采样值“pa(1)、pa(2)、……pa(6)”的时间序列数据作为状态s(s10)。构成时间序列数据的各采样值是在互不相同的定时(timing)采样得到的值。在此,由按一定的周期采样得到的在时间序列上相邻的6个采样值构成时间序列数据。接着,cpu72按照关系规定数据dr确定的策略π,设定与通过s10的处理取得的状态s相应的节气门开度指令值ta*以及延迟量aop,并设定包括节气门开度指令值ta*以及延迟量aop的行动a(s12)。关系规定数据dr是确定行动价值函数q以及策略π的数据。行动价值函数q是表示与状态s及行动a的8维自变量相应的期待收益的值的表(table)形式的函数。另外,策略π确定以下规则:在被给出了状态s时,优先选择自变量成为被给出的状态s的行动价值函数q中的期待收益的值成为最大的行动a(贪婪行动(greedyaction)),并且以预定的概率选择除此以外的行动a。详细而言,行动价值函数q的自变量可取的值的数量是根据人的见解等而削减了状态s以及行动a的可取的值的全部组合中的一部分后的数量。例如,加速器操作量pa的时间序列数据中的相邻的两个采样值中的一个成为加速器操作量pa的最小值且另一个成为最大值的情况是不会由人为对加速踏板86的操作产生的,因此没有定义行动价值函数q。通过基于人的见解等的降维,将定义行动价值函数q的状态s的可取的值限制在小于等于10的4次方个,更优选为限制在小于等于10的3次方个。接着,cpu72基于所设定的节气门开度指令值ta*以及延迟量aop,向节气门14输出操作信号ms1来操作节气门开度ta,并且向点火装置26输出操作信号ms3来操作点火正时(s14)。在此,例示将节气门开度ta反馈控制为节气门开度指令值ta*的情况,因此即使节气门开度指令值ta*为同一值,操作信号ms1也可能成为不同的信号。另外,在进行周知的爆震控制(kcs)等的情况下,点火正时被设为使基准点火正时延迟了延迟量aop后的值通过kcs而被反馈修正得到的值。在此,基准点火正时由cpu72根据曲轴28的转速ne以及填充效率η可变地设定。转速ne由cpu72基于曲轴角传感器84的输出信号scr算出。填充效率η由cpu72基于转速ne以及吸入空气量ga算出。接着,cpu72取得内燃机10的转矩trq、对于内燃机10的转矩指令值trq*、以及加速度gx(s16)。在此,cpu72通过将转速ne、填充效率η以及点火正时输入到转矩输出映射来计算转矩trq。另外,cpu72根据加速器操作量pa设定转矩指令值trq*。接着,cpu72判定过渡标志f是否为“1”(s18)。过渡标志f为“1”的情况下表示处于过渡运行时,为“0”的情况下表示不处于过渡运行时。在过渡标志f为“0”的情况下(s18:否),cpu72判定加速器操作量pa的每单位时间的变化量δpa的绝对值是否在预定量δpath以上(s20)。变化量δpa例如作为在s20的处理的执行定时的最新的加速器操作量pa与相对于该执行定时的单位时间前的加速器操作量pa之差即可。在变化量δpa的绝对值在预定量δpath以上的情况下(s20:是),cpu72对过渡标志f代入“1”(s22)。相对于此,在过渡标志f为“1”的情况下(s18:是),cpu72判定从执行s22的处理起是否经过了预定期间(s24)。在此,预定期间作为加速器操作量pa的每单位时间的变化量δpa的绝对值变为比预定量δpath小的规定量以下的状态持续预定时间的期间。在经过了预定期间的情况下(s24:是),cpu72对过渡标志f代入“0”(s26)。在s22、s26的处理完成的情况下,cpu72通过强化学习来更新行动价值函数q,作为一个情节(episode)结束(s28)。图4表示s28的处理的详情。在图4所示的一系列处理中,cpu72取得最近刚结束的情节中的包括转矩指令值trq*、转矩trq以及加速度gx的3个的采样值的组的时间序列数据、和状态s以及行动a的时间序列数据(s30)。在此,关于最近的情节,在继s22的处理之后进行s30的处理的情况下,是过渡标志f持续成为“0”的期间,在继s26的处理之后进行s30的处理的情况下,是过渡标志f持续成为“1”的期间。在图4中,括号中的数字不同的变量表示是采样定时不同的变量的值。关于转矩指令值trq*(1)和转矩指令值trq*(2),采样定时不同。另外,属于最近的情节的行动a的时间序列数据为行动集合aj。属于该情节的状态s的时间序列数据是状态集合sj。接着,cpu72判定属于最近的情节的任意转矩trq与转矩指令值trq*之差的绝对值在规定量δtrq以下这一意思的条件(a)、和加速度gx在下限值gxl以上且在上限值gxh以下这一意思的条件(b)的逻辑与(and)是否为真(s32)。在此,cpu72根据情节开始时的加速器操作量pa的每单位时间的变化量δpa,可变地设定规定量δtrq。即,在基于情节开始时的加速器操作量pa的每单位时间的变化量δpa判定为是关于过渡时的情节的情况下,与稳态(定常)时的情况相比,cpu72将规定量δtrq设定为较大的值。另外,cpu72根据情节开始时的加速器操作量pa的变化量δpa,可变地设定下限值gxl。即,在是关于过渡时的情节且变化量δpa为正的情况下,与关于稳态时的情节的情况相比,cpu72将下限值gxl设定为较大的值。另外,在是关于过渡时的情节且变化量δpa为负的情况下,与关于稳态时的情节的情况相比,cpu72将下限值gxl设定为较小的值。另外,cpu72根据情节开始时的加速器操作量pa的每单位时间的变化量δpa,可变地设定上限值gxh。即,在是关于过渡时的情节且变化量δpa为正的情况下,与关于稳态时的情节的情况相比,cpu72将上限值gxh设定为较大的值。另外,在是关于过渡时的情节且变化量δpa为负的情况下,与关于稳态时的情节的情况相比,cpu72将上限值gxh设定为较小的值。在此,以提高车辆vc1的能量利用效率作为一个目的进行强化学习。例如,在通过提高内燃机10的燃料经济性来使车辆vc1的能量利用效率提高的情况下,期望抑制内燃机10的转矩trq的急剧变化。于是,在第1实施方式中,与将加速响应(accelerationresponse)的提高优先于能量利用效率的提高来进行强化学习的情况相比,设定较大的值作为规定量δtrq。另外,在第1实施方式中,以与将加速响应的提高优先于能量利用效率的提高来进行强化学习的情况相比上限值gxh与下限值gxl的差量减小的方式,分别设定上限值gxh以及下限值gxl。顺便一提,在优先提高加速响应的强化学习中,在加速器操作量pa增加了的情况下,在满足维持转矩trq与转矩指令值trq*之差的绝对值小的状态以及车辆vc1的加速度gx增大这二者的情况下,与并非如此的情况相比,给予较大的奖励。在逻辑与为真的情况下(s32:是),cpu72对奖励r代入正的值α(s34)。在逻辑与为假的情况下(s32:否),cpu72对奖励r代入负的值β(s36)。例如,负的值β是正的值α与“-1”的乘积。在s34、s36的处理完成的情况下,cpu72将图1所示的存储于存储装置76的关系规定数据dr更新。在此,使用ε软同策略型蒙特卡洛方法(ε-softon-policytypemontecarlomethod)。即,cpu72对由通过s30的处理读取到的各状态和对应的行动的组所确定的收益r(sj,aj)分别加上奖励r(s38)。在此,“r(sj,aj)”是对将状态集合sj的元素之一作为状态、将行动集合aj的元素之一作为行动的收益r进行了总括的记载。接着,cpu72对由通过s30的处理读取到的各状态和对应的行动的组所确定的收益r(sj,aj)的每一个进行平均化并代入到对应的行动价值函数q(sj,aj)(s40)。平均化是将通过s38的处理计算出的收益r除以对进行了s38的处理的次数加上预定数得到的值即可。收益r的初始值设为对应的行动价值函数q的初始值即可。接着,cpu72对通过s30的处理读取到的状态的每一个,将对应的行动价值函数q(sj,a)中的、期待收益成为最大值时的作为节气门开度指令值ta*以及延迟量aop的组的行动代入到行动aj*(s42)。在此,“a”表示可取的任意的行动。行动aj*虽然根据通过s30的处理读取到的状态的种类而成为不同的值,但在此对记载进行简化,用同一标号进行记载。接着,cpu72对通过s30的处理读取到的状态的每一个,将对应的策略π(aj|sj)更新(s44)。即,若将行动的总数设为“|a|”,则将通过s42选择出的行动aj*的选择概率设为“1-ε+ε/|a|”。另外,将行动aj*以外的“|a|-1”个行动的选择概率分别设为“ε/|a|”。s44的处理是基于通过s40的处理而进行了更新的行动价值函数q的处理。由此,规定状态s与行动a的关系的关系规定数据dr以使收益r增加的方式被更新。在s44的处理完成的情况下,cpu72暂时结束图4所示的一系列处理。回到图3,在s28的处理完成的情况下或在s20、s24的处理中作出否定判定的情况下,cpu72暂时结束图3所示的一系列处理。s10~s26的处理通过cpu72执行控制程序74a来实现,s28的处理通过cpu72执行学习程序74b来实现。另外,在车辆vc1出厂时的关系规定数据dr是一边在测试台(testbench)上进行车辆的模拟行驶一边执行与图3同样的处理而预先学习过的数据。在第1实施方式中,取得车辆vc1的能量利用效率作为车辆vc1的环境性能,并判定车辆vc1的能量利用效率是否低于判定用效率。而且,在判定为车辆vc1的能量利用效率低于判定用效率时,通过改变奖励r的给予方式来提高关系规定数据dr的更新速度,谋求能量利用效率的提高。图5表示用于使控制装置70执行这样的处理的一系列处理的流程。图5所示的一系列处理通过由cpu72执行存储于rom74的控制程序74a来实现。在此,将图5所示的一系列处理的开始条件例如设为车辆vc1的行驶距离rl增加了规定距离rlth。在图5所示的一系列处理中,cpu72取得车辆vc1的燃料经济性gm作为表示车辆vc1的能量利用效率的值(s50)。cpu72通过将内燃机10中的燃料消耗量除以车辆vc1的行驶距离,能够导出燃料经济性gm。在此,考虑图5所示的一系列处理的开始条件包括车辆vc1的行驶距离rl增加了规定距离rlth的情况。在该情况下,cpu72取得车辆vc1要行驶规定距离rlth所需的燃料消耗量,并导出将燃料消耗量除以规定距离rlth所得的值作为燃料经济性gm即可。接着,cpu72基于车辆vc1的行驶环境和通过图3的s10的处理所取得的状态s,推定车辆vc1的行驶条件(s51)。行驶环境指的是车辆vc1所行驶的地区的天气、车辆vc1的载重量lc等。cpu72取得这样的行驶环境。另外,cpu72基于取得的状态s,推定正在驾驶车辆vc1的用户的关于车辆操作的偏好。cpu72例如基于加速踏板86、刹车踏板等这样的决定车辆vc1的加减速度的车载操作部件的操作速度,推定用户的偏好。例如,cpu72通过从车辆外部的服务器接收与车辆vc1的当前所在地的天气有关的信息,能够取得车辆vc1所行驶的地区的天气。另外,cpu72能够基于设置于车体的就座传感器的检测结果,掌握车辆vc1的搭乘人数,并基于搭乘人数取得载重量lc。接着,cpu72将取得的燃料经济性gm发送给服务器130(s52)。cpu72将推定出的车辆vc1的行驶条件也与燃料经济性gm一起发送给服务器130。然后,cpu72判定是否从服务器130接收到了基准燃料经济性gmth(s53)。基准燃料经济性gmth在服务器130中设定。在基准燃料经济性gmth的接收没有完成的情况下(s53:否),cpu72反复进行s53的处理直到接收完成。另一方面,在基准燃料经济性gmth的接收完成了的情况下(s53:是),cpu72判定在s50中取得的燃料经济性gm是否低于基准燃料经济性gmth(s54)。在燃料经济性gm低于基准燃料经济性gmth的情况下,cpu72判定为车辆vc1的能量利用效率低于基准。另一方面,在燃料经济性gm在基准燃料经济性gmth以上的情况下,cpu72不判定为车辆vc1的能量利用效率低于基准。在燃料经济性gm在基准燃料经济性gmth以上的情况下(s54:否),cpu72设定值α1作为正的值α,并设定值β1作为负的值β(s56)。另一方面,在燃料经济性gm低于基准燃料经济性gmth的情况下(s54:是),cpu72设定值α2作为正的值α,并设定值β2作为负的值β(s58)。各值α1、α2为正值,值α2大于值α1。各值β1、β2为负值,值β2的绝对值大于值β1的绝对值。这样设定了正的值α以及负的值β时,cpu72结束图5所示的一系列处理。图6表示在导出基准燃料经济性gmth时服务器130执行的一系列处理的流程。图6所示的一系列处理通过由cpu132执行存储于rom134的控制程序134a来实现。图6所示的一系列处理以从能够与服务器130通信的多个车辆中的某一个接收到与燃料经济性gm有关的信息为契机而执行。在图6所示的一系列处理中,cpu132导出车辆的平均燃料经济性gmav(s60)。即,cpu132从能够与服务器130通信的多个车辆vc1、vc2、……中选择能够判断为在与车辆vc1的行驶条件相同的行驶条件下行驶了的所有车辆。而且,cpu132基于选择出的各车辆的燃料经济性gm,计算平均燃料经济性gmav。例如,cpu132计算选择出的各车辆的燃料经济性gm的平均值作为平均燃料经济性gmav。接着,cpu132基于导出的平均燃料经济性gmav,设定基准燃料经济性gmth(s62)。例如,将平均燃料经济性gmav设定为基准燃料经济性gmth。另外,也可以将平均燃料经济性gmav与预定的修正系数的乘积设定为基准燃料经济性gmth。修正系数既可以固定为预先设定的值,也可以根据如季节、区域等这样的车辆行驶的环境而可变。然后,cpu132将设定的基准燃料经济性gmth发送给发送来了燃料经济性gm的车辆vc1(s64)。当基准燃料经济性gmth的发送完成时,cpu132结束图6所示的一系列处理。对第1实施方式的作用以及效果进行说明。当导出了车辆vc1的燃料经济性gm时,将与燃料经济性gm有关的信息发送给服务器130。于是,在服务器130中,导出基准燃料经济性gmth,将基准燃料经济性gmth发送给车辆vc1。在车辆vc1中,基于从服务器130接收到的基准燃料经济性gmth和在控制装置70中导出的燃料经济性gm,判定车辆vc1的能量利用效率是否低于基准。而且,当判定为车辆vc1的能量利用效率低于基准时,将在操作车辆vc1的电子设备时使用的关系规定数据dr的更新速度提高。这样更新了关系规定数据dr时,能够使车辆vc1的状态s与行动变量的关系接近最佳关系。在此,作为车辆vc1的能量利用效率低于基准的主要原因,考虑是关系规定数据dr的更新的延迟。在将与当时的车辆vc1的电子设备的特性相应的关系规定数据dr设为最佳数据的情况下,关系规定数据dr的更新延迟意味着存在关系规定数据dr偏离了最佳数据的可能性。在第1实施方式中,当判定为车辆vc1的能量利用效率低于基准时,将关系规定数据dr的更新速度提高。由此,能够在早期减小关系规定数据dr与最佳数据的偏离。因此,在由于关系规定数据dr的更新延迟而导致能量利用效率低的情况下,能够通过使关系规定数据dr的更新速度提高,提高能量利用效率。在第1实施方式中,还能够获得以下所示的效果。(1)通过计算伴随车辆vc1的电子设备的操作的奖励r,能够掌握通过电子设备的操作而获得怎样的奖励。而且,通过基于所获得的奖励,根据按照强化学习的更新映射将关系规定数据dr更新,从而能够将车辆vc1的状态与行动变量的关系在车辆vc1的行驶中设定为适当的关系。因此,能够在车辆vc1的行驶中将车辆vc1的状态与行动变量的关系优化。在此,即使是相同车型,所搭载的电子设备的特性也存在个体差异。在第1实施方式中,通过在车辆vc1内进行强化学习来更新关系规定数据dr。即,在使用车辆vc1期间,更新关系规定数据dr以使其与搭载于车辆vc1的电子设备的特性相对应。因此,即使不在车辆出厂前按每一台车辆进行适配从而制作操作用数据,也能够在车辆vc1中进行车辆控制的优化。另外,即使在电子设备的特性随时间发生了变化的情况下,通过按照特性的随时间的变化进行强化学习,也能更新关系规定数据dr。因此,即使电子设备的特性随时间发生变化,也能根据电子设备的特性进行车辆vc1的控制。(2)在判定为车辆vc1的能量利用效率低于基准的情况下,存在车辆vc1的状态与行动变量的关系的优化没什么进展的可能性。于是,在第1实施方式中,在判定为车辆的能量利用效率低于基准的情况下,将在车辆vc1的特性满足预定基准时所给予的奖励r设得更大。由此,能够在判定为能量利用效率低于判定用性能之后,相比于此前,使车辆vc1的状态与行动变量的关系的优化加快。因此,在判定为由于车辆vc1的状态与行动变量的关系的优化延迟而导致能量利用效率低于基准的情况下,能够通过改变奖励r的给予方式提高能量利用效率。(3)基于在相同的行驶条件下行驶的多个车辆的燃料经济性gm,设定基准燃料经济性gmth。即,并非预先按车型将基准燃料经济性gmth设定为一定的值,而能够将基准燃料经济性gmth设为基于车辆的实际行驶的值。由此,能够适当地掌握车辆vc1的关于能量利用效率的实力。(第2实施方式)以下,参照附图,以与第1实施方式的不同之处为中心,对第2实施方式进行说明。在第2实施方式中,取得车辆vc1的能量利用效率作为车辆vc1的环境性能,并判定车辆vc1的能量利用效率是否低于判定用效率。而且,在判定为车辆vc1的能量利用效率低于判定用效率时,接收能量利用效率高于判定用效率的其他车辆vc2的关系规定数据dr,并将存储于存储装置76的关系规定数据dr替换,由此谋求能量利用效率的提高。图7表示用于使控制装置70执行这样的处理的一系列处理的流程。图7所示的一系列处理通过由cpu72执行存储于rom74的控制程序74a来实现。在图7所示的一系列处理中,与图5的s50~s53同样地,cpu72取得车辆vc1的燃料经济性gm(s70),并推定车辆vc1的行驶条件(s71)。另外,cpu72将燃料经济性gm以及行驶条件发送给服务器130(s72),并从服务器130接收基准燃料经济性gmth(s73:是)。然后,cpu72判定在s70中取得的燃料经济性gm是否低于基准燃料经济性gmth(s74)。在燃料经济性gm在基准燃料经济性gmth以上的情况下(s74:否),cpu72结束图7所示的一系列处理。即,不进行存储于存储装置76的关系规定数据dr的替换。另一方面,在燃料经济性gm低于基准燃料经济性gmth的情况下(s74:是),cpu72将车辆vc1的能量利用效率低这一意思发送给服务器130(s76)。接着,cpu72判定作为对于发送的回答,是否接收到了其他车辆的关系规定数据dr(s78)。在其他车辆的关系规定数据dr的接收没有完成的情况下(s78:否),cpu72反复进行s78的处理直到关系规定数据dr的接收完成。另一方面,在其他车辆的关系规定数据dr的接收完成了的情况下(s78:是),cpu72使接收到的关系规定数据dr存储于存储装置76(s80)。即,cpu72将存储装置76的关系规定数据dr替换为其他车辆的关系规定数据dr。当这样的关系规定数据dr的替换完成时,cpu72结束图7所示的一系列处理。图8表示以服务器130从车辆vc1接收到车辆vc1的能量利用效率低这一意思为契机而在服务器130中执行的一系列处理的流程。图8所示的一系列处理通过由cpu132执行存储于rom134的控制程序134a来实现。在图8所示的一系列处理中,cpu132从导出基准燃料经济性gmth所使用了的多个车辆中搜索燃料经济性gm高于基准燃料经济性gmth的车辆(s90)。在存在多个满足燃料经济性gm高于基准燃料经济性gmth这一条件的车辆的情况下,cpu132选择燃料经济性gm最高的车辆。接着,在将选出的车辆作为选择车辆的情况下,cpu132请求选择车辆发送在选择车辆中所使用的关系规定数据dr(s92)。然后,cpu132判定是否从选择车辆接收到了选择车辆的关系规定数据dr(s94)。在选择车辆的关系规定数据dr的接收没有完成的情况下(s94:否),cpu132反复进行s94的处理直到选择车辆的关系规定数据dr的接收完成。另一方面,在关系规定数据dr的接收完成了的情况下(s94:是),cpu132将选择车辆的关系规定数据dr发送给发送来了能量利用效率低这一意思的车辆vc1(s96)。在第2实施方式中,除了与上述(1)以及(3)同等的效果之外,还能够获得以下所示的效果。(4)在车辆vc1中,基于从服务器130接收到的基准燃料经济性gmth和在控制装置70中导出的燃料经济性gm,判定车辆vc1的能量利用效率是否低于基准。而且,当判定为车辆vc1的能量利用效率低于基准时,将这一意思从车辆vc1发送给服务器130。于是,从服务器130向车辆vc1发送燃料经济性gm高于基准燃料经济性gmth的其他车辆的关系规定数据dr。而且,将存储于存储装置76的关系规定数据dr替换为其他车辆的关系规定数据dr。即,在操作车辆vc1的电子设备时所使用的关系规定数据dr被更新以使得能量利用效率增高。在此,作为车辆vc1的能量利用效率低于基准主要原因,考虑是关系规定数据dr的更新的延迟。换言之,可以说在能量利用效率高于基准的车辆中,关系规定数据dr的更新在推进。在第2实施方式中,当判定为车辆vc1的能量利用效率低于基准时,将存储于存储装置76的关系规定数据dr替换为燃料经济性gm高于基准燃料经济性gmth的其他车辆的关系规定数据dr。即,将存储于存储装置76的关系规定数据dr替换为更新在推进的关系规定数据dr。由此,在由于关系规定数据dr的更新延迟而导致能量利用效率低的情况下,通过使用替换后的关系规定数据dr操作电子设备,能够提高车辆vc1的能量利用效率。(对应关系)上述实施方式中的事项与各权利要求所述的事项的对应关系如下。以下,按权利要求的项号示出上述的对应关系。[1]执行装置在图2中由cpu72以及rom74、和cpu132以及rom134构成。存储装置在图2中对应于存储装置76。操作用数据对应于在图2中存储于存储装置76的关系规定数据dr。取得处理对应于图3的s10以及图4的s30。操作处理对应于图3的s14。性能判定处理对应于图5的s54以及图7的s74。数据更新处理由图3的s28以及图5的s54~s58构成。另外,数据更新处理由图7的s76~s80以及图8的s90~s96构成。[2]奖励计算处理对应于图4的s32~s36的处理,更新处理对应于图4的s38~s44的处理。关系规定数据对应于在图2中存储于存储装置76的关系规定数据dr。更新映射对应于由学习程序74b中的执行图4的s38~s44的处理的指令所规定的映射。[3]数据更新处理对应于图3的s28以及图5的s54~s58。[4]数据更新处理由图7的s76~s80以及图8的s90~s96构成。[5]条件推定处理对应于图5的s51的处理以及图7的s71的处理。[5]和[6]判定用性能设定处理对应于图6的s62的处理。[6]车辆的表示环境性能的指标值对应于燃料经济性gm。[8]第1执行装置在图2中对应于cpu72以及rom74,第2执行装置在图2中对应于cpu132以及rom134。[9]和[10]车辆用控制装置在图2中对应于控制装置70。[11]服务器在图2中对应于服务器130。(变更例)上述各实施方式可以如下进行变更来实施。上述各实施方式和以下的变更例可以在技术上不矛盾的范围内相互组合来实施。“关于车辆的环境性能”在如下述“关于车辆”一栏中记载的那样,具备旋转电机作为推力生成装置的情况下,也可以导出车辆的电力消耗效率作为能量利用效率。例如,电力消耗效率能够通过将行驶规定距离所需的耗电量除以规定距离来导出。而且,在电力消耗效率低于判定效率时,判断为车辆vc1的能量利用效率低于基准。在如上述各实施方式那样车辆具备内燃机10作为推力生成装置的情况下,也可以导出车辆的排气性能(性状)作为环境性能。作为排气性能,例如能够列举从车辆排出的废气中所包含的排出颗粒的数量。在该情况下,以使排气性能提高、即排出颗粒的数量减少的方式进行强化学习。而且,在数据更新处理中,更新关系规定数据dr以使得车辆的排气性能提高。“关于性能判定处理”在上述各实施方式中,控制装置70执行车辆的环境性能是否低于判定用性能的判定,但也可以在服务器130中执行。在该情况下,例如在上述第1实施方式中,当在服务器130中设定了基准燃料经济性gmth时,服务器130的cpu132判定车辆vc1的燃料经济性gm是否低于基准燃料经济性gmth,并将该判定结果发送到车辆vc1的控制装置70。然后,在控制装置70中基于接收到的判定结果设定正的值α以及负的值β。另外,在第2实施方式中,当在服务器130中设定了基准燃料经济性gmth时,服务器130的cpu132判定车辆vc1的燃料经济性gm是否低于基准燃料经济性gmth。而且,在判定为车辆vc1的燃料经济性gm低于基准燃料经济性gmth的情况下,cpu132通过执行图8所示的一系列处理,将在选择车辆中所使用的关系规定数据dr发送给车辆vc1。“关于燃料经济性gm的取得”在上述各实施方式中,也可以取得车辆vc1在一次行程间的行驶距离以及燃料消耗量,并导出将燃料消耗量除以行驶距离得到的值作为燃料经济性gm。在该情况下,有时车辆vc1在一次行程间的行驶距离会比在上述各实施方式中使用的规定距离长。另外,当在一次行程间的行驶距离变长的情况下,在车辆vc1的行驶途中,车辆vc1的行驶地区的天气有时会改变。因此,在这种情况下,作为行驶条件,只要取得车辆vc1的载重量lc、即车辆vc1的搭乘人数,则也可以不取得天气等其他信息。在上述各实施方式中,在设定了相对较短的距离作为规定距离的情况下,也可以还取得除了载重量lc即搭乘人数以及天气以外的信息作为行驶条件。例如,作为其他信息,可以列举与车辆vc1所行驶的路面有关的信息、即路面的坡度和μ值。“关于条件推定处理”在上述各实施方式中,基于作为用户的偏好的一例的能够从加速踏板86等车载操作部件的操作速度推定的用户的偏好、和车辆的行驶环境双方推定了行驶条件。然而,也可以仅基于与车辆vc1的驾驶有关的用户的偏好和行驶环境中的某一方推定行驶条件。也可以仅取得天气、路面信息(路面μ值、路面坡度)以及车辆的载重量lc中的一部分作为车辆的行驶环境。在设定基准燃料经济性gmth时,也可以不将车辆的行驶条件考虑在内。“关于判定用性能”在上述各实施方式中,将能够判断为在与车辆vc1的行驶条件相同的行驶条件下行驶了的所有车辆的燃料经济性gm的平均值、或者与平均值相应的值设定为基准燃料经济性gmth,但不限于此。例如,也可以将所有车辆中的燃料经济性gm最好的车辆的燃料经济性gm、或者与燃料经济性gm最好的车辆的燃料经济性gm相应的值设定为基准燃料经济性gmth。也可以将由车辆vc1的规格等确定的值设定为基准燃料经济性gmth。在导出燃料经济性gm以外的参数作为车辆的环境性能的情况下,只要导出与参数相应的数据作为判定用性能即可。例如,在如上述“关于环境性能”一栏中记载的那样,导出电力消耗效率作为环境性能的情况下,将能够判断电力消耗效率是否低的值设定为判定用性能即可。另外,在如“关于环境性能”一栏中记载的那样,导出车辆的排气性能作为环境性能的情况下,将能够判断排气性能是否差的值设定为判定用性能即可。“关于数据更新处理”在第2实施方式中,在判定为车辆vc1的能量利用效率低于基准的情况下,将存储于存储装置76的关系规定数据dr替换为燃料经济性gm高于基准燃料经济性gmth的其他车辆的关系规定数据dr。在该情况下,在存在多个燃料经济性gm高于基准燃料经济性gmth的车辆的情况下,也可以选择燃料经济性gm高于基准燃料经济性gmth的多个车辆中的、除了燃料经济性gm最高的车辆以外的车辆,并使车辆的关系规定数据dr存储于车辆vc1的存储装置76。在第1实施方式中,在判定为车辆vc1的能量利用效率低于基准的情况下,将正的值α从值α1变更为值α2,并且将负的值β从值β1变更为值β2。然而,只要将正的值α从值α1变更为值α2,则也可以将负的值β保持在值β1。相反地,只要将负的值β从值β1变更为值β2,则也可以将正的值α保持在值α1。“关于表形式的数据的降维”作为表形式的数据的降维方法,不限于在上述各实施方式中例示的方法。例如因为很少有加速器操作量pa成为最大值的情况,所以也可以,对于加速器操作量pa成为规定量以上的状态,不定义行动价值函数q,对加速器操作量pa成为规定量以上的情况下的节气门开度指令值ta*等另行进行适配。另外,例如也可以从行动的可取的值去除节气门开度指令值ta*成为规定值以上的值等来进行降维。“关于关系规定数据”在上述各实施方式中,将行动价值函数q设为了表形式的函数,但不限于此。例如也可以使用函数逼近器。例如,也可以取代使用行动价值函数q,而用以状态s及行动a为自变量并以取行动a的概率为因变量的函数逼近器来表现策略π,并根据奖励r,将确定函数逼近器的参数更新。“关于操作用数据”操作用数据只要是在导出车辆vc1的电子设备的操作指令值时使用的数据,则也可以是与关系规定数据dr不同的数据。例如,也可以将通过与强化学习不同的学习处理而更新的数据作为操作用数据。“关于操作处理”例如在如“关于关系规定数据”一栏中记载的那样,将行动价值函数设为函数逼近器的情况下,通过将关于上述各实施方式中的成为表形式的函数的自变量的行动的离散的值的全部组与状态s一起输入到行动价值函数q,确定使行动价值函数q最大化的行动a即可。在该情况下,例如在操作中主要采用所确定的行动a,并且也以预定的概率选择除此以外的行动即可。例如在如“关于关系规定数据”一栏中记载的那样,将策略π设为以状态s及行动a为自变量并以取行动a的概率为因变量的函数逼近器的情况下,基于由策略π表示的概率选择行动a即可。“关于更新映射”在s38~s44的处理中,例示了利用ε软同策略型蒙特卡洛方法的处理,但例如也可以是利用异策略型(off-policytype)蒙特卡洛方法的处理。不过,也不限于蒙特卡洛方法,例如也可以使用异策略型td(temporal-difference,时序分差)法,也可以使用如sarsa(state-action-reward-state'-action')法的同策略型td法,还可以使用资格迹方法(eligibilitytracemethod)作为同策略型的学习。例如在如“关于关系规定数据”一栏中记载的那样,使用函数逼近器表现策略π并基于奖励r直接更新策略π的情况下,使用策略梯度法等构成更新映射即可。不限于仅将行动价值函数q和策略π中的某一方作为基于奖励r的直接的更新对象。例如,也可以如actorcritic(演员评判家)法那样对行动价值函数q和策略π分别进行更新。另外,在actorcritic法中,不限于此,例如也可以代替行动价值函数q而将价值函数v作为更新对象。“关于行动变量”在上述各实施方式中,作为作为行动变量的与节气门的开度有关的变量,例示了节气门开度指令值ta*,但不限于此。例如,也可以用浪费时间(停滞时间)以及二阶滞后滤波器来表现相对于加速器操作量pa的节气门开度指令值ta*的响应性,并将浪费时间和规定二阶滞后滤波器的两个变量的共计3个变量作为与节气门的开度有关的变量。但是,在该情况下,状态变量优选设为加速器操作量pa的每单位时间的变化量以取代加速器操作量pa的时间序列数据。在上述各实施方式中,作为行动变量,例示了与节气门的开度有关的变量以及与变速比有关的变量,但不限于此。例如,也可以除了与节气门的开度有关的变量以及与变速比有关的变量之外还使用与点火正时有关的变量和/或与空燃比控制有关的变量。在如下述“关于内燃机”一栏中记载的那样,是压缩着火式的内燃机的情况下,使用与喷射量有关的变量代替与节气门的开度有关的变量即可。另外也可以在此基础上,例如使用与喷射正时有关的变量、与1个燃烧循环(cycle)内的喷射次数有关的变量和/或与1个燃烧循环内的用于一个汽缸的在时间序列上相邻的两个燃料喷射中的一方的结束定时与另一方的开始定时之间的时间间隔有关的变量。例如在变速装置50为有级变速装置的情况下,也可以将用于通过油压对离合器的接合状态进行调整的电磁阀的电流值等作为行动变量。在如下述“关于电子设备”一栏中记载的那样,与行动变量相应的操作的对象包括旋转电机的情况下,使行动变量包括旋转电机的转矩和/或电流即可。即,作为推力生成装置的与负载有关的变量即负载变量,不限于与节气门的开度有关的变量和/或喷射量,也可以是旋转电机的转矩和/或电流。在如下述“关于电子设备”一栏中记载的那样,与行动变量相应的操作的对象包括锁止离合器42的情况下,使行动变量包括表示锁止离合器42的接合状态的变量即可。在此,在使行动变量包括锁止离合器42的接合状态的情况下,特别是根据要提高能量利用效率之意的请求事项的优先级的高低来改变行动变量的值变得有效。“关于状态”在上述各实施方式中,将加速器操作量pa的时间序列数据设为了包括按等间隔采样得到的6个值的数据,但不限于此。只要是包括在互不相同的采样定时的2个以上的采样值的数据即可,此时,更优选为包括3个以上的采样值的数据和采样间隔为等间隔的数据。作为与加速器操作量有关的状态变量,不限于加速器操作量pa的时间序列数据,如“关于行动变量”一栏中记载的那样,也可以是加速器操作量pa的每单位时间的变化量等。例如在如“关于行动变量”一栏中记载的那样,将电磁阀的电流值作为行动变量的情况下,在状态中包含变速装置的输入轴52的转速、输出轴54的转速、由电磁阀调整的油压即可。在如“关于行动变量”一栏中记载的那样,将旋转电机的转矩和/或输出作为行动变量的情况下,在状态中包含电池的充电率、温度即可。在如“关于行动变量”一栏中记载的那样,将压缩机的负载转矩、空调装置的功耗包含于行动的情况下,在状态中包含车室内的温度即可。“关于电子设备”作为成为与行动变量相应的操作的对象的内燃机的电子设备,不限于节气门14,也可以是点火装置26和/或燃料喷射阀16。作为成为与行动变量相应的操作的对象的电子设备中的、推力生成装置与驱动轮之间的驱动系统装置,不限于变速装置50,也可以是锁止离合器42。在如下述“关于车辆”一栏中记载的那样,具备旋转电机作为推力生成装置的情况下,也可以将成为与行动变量相应的操作的对象的电子设备设为与旋转电机连接的变换器等电力转换电路。不过,也不限于车载驱动系统的电子设备,例如也可以是车载空调装置等。即使在该情况下,例如在车载空调装置由推力生成装置的旋转动力驱动时,推力生成装置的动力中的供给到驱动轮60的动力取决于车载空调装置的负载转矩,所以,使行动变量包括车载空调装置的负载转矩等也是有效的。即使车载空调装置不利用推力生成装置的旋转动力,也会影响能量利用效率,所以,将车载空调装置的功耗加入行动变量中是有效的。“关于执行装置”作为执行装置,不限于具备cpu和rom而执行软件处理的装置。也可以具备对在上述各实施方式中被进行软件处理的内容的至少一部分进行硬件处理的asic等专用的硬件电路。即,执行装置是以下的(a)~(c)中的某个构成即可。(a)具备按照程序执行上述处理的全部的处理装置、和存储程序的rom等程序存储装置。(b)具备按照程序执行上述处理的一部分的处理装置以及程序存储装置、和执行其余处理的专用硬件电路。(c)具备执行上述处理的全部的专用硬件电路。在此,具备处理装置以及程序存储装置的软件执行装置、和专用硬件电路也可以为多个。“关于内燃机”内燃机不限于具备向进气通路12喷射燃料的进气口喷射阀作为燃料喷射阀的内燃机,也可以具备直接向燃烧室24喷射燃料的缸内喷射阀,还可以具备进气口喷射阀和缸内喷射阀双方。作为内燃机,不限于火花点火式内燃机,也可以是使用轻油等作为燃料的压缩着火式内燃机等。“关于车辆”车辆也可以不是仅具备内燃机作为车辆的推力生成装置的车辆,而是具备内燃机和旋转电机双方的混合动力车辆。另外,车辆也可以是如电动汽车和燃料电池车那样的推力生成装置仅为旋转电机的车辆。当前第1页12当前第1页12