线程分配方法、装置、计算机设备及存储介质与流程

文档序号:23499870发布日期:2021-01-01 18:03阅读:87来源:国知局
线程分配方法、装置、计算机设备及存储介质与流程

本申请实施例涉及计算机线程处理技术,尤其涉及一种线程分配方法、装置、计算机设备及存储介质。



背景技术:

随着计算机技术的发展,一个计算任务可以通过异构的多个硬件协同进行,此时异构的多个硬件分别运行相应的计算单元完成计算。异构计算往往涉及不同架构的计算单元共同承担同一个任务的计算工作。由于不同的计算单元的设计不同,因此为不同的计算单元配置相同的cpu线程数量进行任务的提交显然无法得到最大吞吐量,在异构计算时需要对不同硬件中的线程数量进行分配。最大吞吐量在不同场景下有所不同,对图像或视频类任务来说最大吞吐量可以为帧率fps。例如,中央处理器(centralprocessingunit,cpu)和图形处理器(graphicsprocessingunit,gpu)的异构或者cpu、视频处理单元(videoprocessingunit,vpu)以及现场可编程逻辑门阵列(fieldprogrammablegatearray,fpga)的异构等情况,然后和保证上述异构的计算单元得到的帧率最高。

目前为不同计算单元分配线程采用人工配置方式,人工根据经验值配置不同计算单元中的线程数量。但是,这种方式无法使异构计算的计算效果达到最优,使得系统资源无法得到充分利用,资源利用率低,计算效率低。



技术实现要素:

本申请提供一种线程分配方法、装置、计算机设备及存储介质,以实现为异构系统的各个计算单元合理的分配数量,提高异构计算的计算效率,提高资源利用率。

第一方面,本申请实施例提供了一种线程分配方法,包括:

根据异构系统的线程配置目标确定预设强化学习模型的输入数据;

将输入数据输入预设强化学习模型,执行预设强化学习模型以得到输出数据;

根据预设强化学习模型的输出数据确定线程分配信息;

根据线程分配信息对异构系统进行线程配置。

第二方面,本申请实施例还提供了一种线程分配装置,包括:

输入数据确定模块,用于根据异构系统的线程配置目标确定预设强化学习模型的输入数据;

强化学习模型执行模块,用于将输入数据输入预设强化学习模型,执行预设强化学习模型以得到输出数据;

线程分配信息确定模块,用于根据预设强化学习模型的输出数据确定线程分配信息;

线程配置模块,用于根据线程分配信息对异构系统进行线程配置。

第三方面,本申请实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行程序时实现如本申请实施例所示的线程分配方法。

第四方面,本申请实施例还提供了一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行如本申请实施例所示的线程分配方法。

本申请实施例提供的线程分配方案,根据异构系统的线程配置目标确定预设强化学习模型的输入数据;将输入数据输入预设强化学习模型,执行预设强化学习模型以得到输出数据;根据预设强化学习模型的输出数据确定线程分配信息;根据线程分配信息对异构系统进行线程配置,相对于目前人工配置异构系统各个异构的计算单元的线程数,本申请实施例提供的线程分配方法,能够根据异构系统的线程配置目标确定输入数据,通过强化学习模型得到输入数据对应的输出数据,根据输出数据可以确定吞吐量最大时分配给各个异构硬件的cpu线程数量,进而实现通过强化学习模型得到异构计算的最优的线程分配信息,提高异构计算的计算效率,提高资源利用率。

附图说明

图1是本申请实施例一中的线程分配方法的流程示意图;

图2是本申请实施例二中的线程分配装置的结构示意图;

图3是本申请实施例三中的计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。

强化学习(reinforcementlearning,rl)是本申请实施例涉及的技术用语,又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。本申请中最大化的汇报可以为异构系统提供的最大帧率。

异构计算(heterogeneouscomputing)是本申请实施例涉及的技术用语,表示使用不同类型指令集和体系架构的计算单元组成系统的计算方式。

帧率(framespersecond,fps)是本申请实施例涉及的技术用语,指每秒钟处理图片的张数。

线程(threads)具体指的是cpu线程,对于异构系统中的非cpu计算单元来说,此类单元本身不存在cpu线程的概念,因此分配给此类计算单元的线程实际指的是跟该计算单元进行数据传输的cpu线程,不合理的分配会造成链路中存在数据阻塞的瓶颈,导致吞吐量下降。以gpu为例,分配给gpu的线程数指的是提交任务到gpu队列(queue)的cpu线程数。

双深度q网络(doubledeepqnetwork,ddqn)是本申请实施例涉及的技术用语,双深度q网络克服了深度q网络(deepqnetwork,dqn)过度估计的问题。双深度q网络提供两个q网络,分别用于动作选择和动作评分估计。

实施例一

图1为本申请实施例一提供的线程分配方法的流程图,本实施例可适用于异构计算线程数量分配的情况,该方法可以由计算线程数量分配方案的计算机设备来执行,具体包括如下步骤:

步骤110、根据异构系统的线程配置目标确定预设强化学习模型的输入数据。

异构系统的线程配置目标可以为对多个异构硬件中的线程数量进行配置,以达到吞吐量最大化的目的。其中吞吐量可以为图像的帧率。示例性的,对cpu和gpu为异构对象进行线程分配以达到帧率最大化的目的。

预设强化学习模型可以为双深度q网络ddqn模型、a3c(asynchronousadvantageactor-critic)或近端策略优化算法(proximalpolicyoptimization,ppo)。上述预设强化学习模型均涉及状态、每次的调整动作以及奖励的配置。为了方便描述本申请实施例以双深度q网络作为示例进行描述。

示例性的,根据每个异构硬件中的平均线程分配数量,确定初始状态s。根据每个异构硬件中线程的增减数量,确定动作集合,动作集合包括多个线程调整动作α,每个线程调整动作表示某个异构硬件中线程数量增加一次或减少一次。将强化学习算法中的奖励配置为将异构硬件当前提供的平均帧率与异构硬件上一次提供的平均帧率的帧率差值r。

异构硬件中运行的用于进行目标计算任务的线程数量总数是固定的。可以根据异构硬件数量和线程数量总数得到平均线程分配数量。将平均线程分配数量作为每个异构硬件中的初始线程数量。例如,使用cpu1、gpu、cpu2三个异构硬件执行目标计算任务,线程数量总数为n,则平均线程分配数量为n/3。初始状态s为(n/3,n/3,n/3),分别表示每个异构硬件中初始线程数量。

在强化学习过程中,需要不断对状态进行调整,以得到更优的输出。输出可以为帧率。调整时,根据线程调整动作进行调整。在上述实例中,可以对分别在cpu1、gpu以及cpu2中的线程数量进行调整。每次可以调整一个线程或多个线程。以调整一个线程为例,cpu1增加一个线程,则gpu减少一个线程,此作为一个线程调整动作。除了可以是cpu1增加线程,还可以使cpu1减少线程、gpu增加线程、gpu减少线程、cpu2增加线程、cpu2减少线程。上述多个线程调整动作组成动作集合。

强化学习过程存在奖励参数,由于本申请目的在于得到最优的帧率,因此将异构硬件当前提供的平均帧率与异构硬件上一次提供的平均帧率的帧率差值r作为强化学习算法中的奖励。

进一步的对于双深度q网络ddqn模型,ddqn模型包括当前dqn网络和目标dqn网络,输入数据还包括:配置迭代轮数t、衰弱因子γ、探索率∈、批量梯度下降的样本数m、以及目标dqn网络的更新频率c。

双深度q网络包括两个q网络,分别称为当前dqn网络和目标dqn网络。双深度q网络中,根据当前dqn网络选出最大q值(输出值)对应的动作,然后使用该动作在目标网络中计算目标q值,避免过度估计。

配置迭代轮数t、衰弱因子γ、探索率∈、批量梯度下降的样本数m、以及目标dqn网络的更新频率c可以预先配置。

步骤120、将输入数据输入预设强化学习模型,执行预设强化学习模型以得到输出数据。

当步骤110得到输入数据之后,将输入数据输入值预设强化学习模型。下面以双深度q网络为例,对预设强化学习模型的执行过程进行说明。

随机初始化当前dqn网络的所有参数w,根据当前dqn网络的所有参数w初始化目标dqn网络的所有参数w′,清空经验回放集合d;

根据迭代轮数t进行迭代,在每个迭代回合中执行下述步骤:

a)根据初始状态s确定第一特征向量φ(s)。

b)在当前dqn网络中将第一特征向量φ(s)作为输入,得到当前dqn网络输出的全部线程调整动作α对应的多个第一q值输出;使用探索率∈-贪婪法策略根据多个第一q值输出确定第一线程动作a。

进一步的,根据当前迭代次数确定探索率∈,探索率∈与迭代次数的变化趋势相反。

探索率∈随着迭代逐渐变小,能够保证更好的收敛。

c)在初始状态s执行第一线程动作a,得到更新状态s′对应的特征向量φ(s′)、帧率差值r以及是否中止状态is_end。

d)将初始状态s、第一线程动作a、帧率差值r、更新状态s′对应的特征向量φ(s′)以及是否中止状态is_end组成的五元组保存至经验回放集合d。

e)将更新状态s′赋值给初始状态s。

f)从经验回放集合d中根据采样数量m进行采样;根据当前采集的五元组中的是否中止状态is_end的内容,确定第二q值输出yj的计算方式,根据计算方式得到第二q值输出yj。

示例性的,第二q值输出yj的计算公式可参照下述公式:

如果当前采集的五元组中的是否中止状态is_end的内容为真(is_endjistrue),则将当前采集的五元组中的帧率差值rj作为第二q值输出yj;

如果当前采集的五元组中的是否中止状态is_end的内容为否(is_endjisfalse),则将当前采集的五元组中的特征向量φs′j)、调整动作α和当前dqn网络的所有参数w输入至当前dqn网络,获取当前dqn网络输出的q值数值最大时对应的第二动作α′。α′的计算公式为argmaxa′qφs′j),a,w

将当前采集的五元组中的特征向量φs′j)、第二动作α′以及目标dqn网络的所有参数w′输入至目标dqn网络,得到第三q值输出;根据衰弱因子γ、第三q值输出以及当前采集的五元组中的帧率差值确定第二q值输出yj。的计算公式可以为:rj+γq′(φ(s′j),argmaxa′q(φ(s′j),a,w),w′)

g)使用均方差损失函数,通过神经网络的梯度反向传播更新当前dqn网路中的所有参数w。

均方差损失函数的计算公式可以为:

其中m为采样数量,a为当前采样j对应的动作集合。

h)根据配置迭代轮数t和目标dqn网络的更新频率c确定是否更新;若更新,则将当前dqn网路中的所有参数w赋值给目标dqn网络的所有参数w′。

i)如果更新状态s′满足终止条件,则迭代结束,否则返回执行步骤b)。

更新状态s′的终止条件可以为更新状态s′与前一次的更新状态s′相同。

步骤130、根据预设强化学习模型的输出数据确定线程分配信息。

步骤120中预设强化学习模型经过强化学习后,当线程分配达到合理的分配情况时,吞吐量趋近于最大,此时各异构硬件的线程分配数量稳定,即更新状态s′不发生变化。线程分配信息为预设强化学习模型中更新状态s′时,各个异构硬件中线程的分配数量。

步骤140、根据线程分配信息对异构系统进行线程配置。

根据线程分配信息配置各异构硬件中的线程数量,可实现最大吞吐量。

本申请实施例不仅适用于双深度q网络,还可适用于a3c等其他预设强化学习模型。下面以a3c为例对上述步骤进行说明:

下面以a3c包括一个公共部分的神经网络模型和多个雇员(worker)线程,简称线程。公共部分的神经网络模型包括actor网络和critic网络两部分的功能。每个雇员线程里有和公共的神经网络一样的网络结构,每个线程会独立的和环境进行交互得到经验数据,这些线程之间互不干扰,独立运行。

每个雇员线程和环境交互到一定量的数据后,计算在雇员线程里的神经网络损失函数的梯度,但是这些梯度却并不更新雇员线程里的神经网络,而是去更新公共的神经网络。也就是n个线程会独立的使用累积的梯度分别更新公共部分的神经网络模型参数。每隔一段时间,线程会将自身的神经网络的参数更新为公共神经网络的参数,进而指导后面的环境交互。

公共部分的网络模型为需要进行强化学习的模型,而线程里的网络模型主要是于和环境交互使用,这些线程里的模型可以帮助线程更好的和环境交互,得到高质量的数据帮助模型更快收敛。a3c的算法执行可参照相关技术中的方案。本申请实施例与其他方案的不同在于a3c的输入数据以及截止条件判定的不同。

在a3c的情况下,状态s,动作集合a和奖励r的定义与ddqn相同。示例性的,定义s为当前的线程配置。在上述示例中,三个阶段分别的线程数所组成的一个3维特征向量,相加为给定的总线程数;初始状态s为平均分配的线程数,其中3个维度的数值相同,相加为给定的总线程数。动作结合a为调节线程的动作。奖励r又称reward,在上述实例中设为新的平均帧率与上次平均帧率的差,如果线程调节后帧率上升则为+1,反之为-1)。整个算法流程迭代直至状态s不变为止。

端策略优化算法ppo等其他增强学习模型的输入数据可参照上述实施例中的输入数据进行配置,进而得到能够达到最大吞吐量的线程分配信息,并根据线程分配信息对异构硬件中的线程数量进行控制。

本申请实施例提供的线程分配方法,根据异构系统的线程配置目标确定预设强化学习模型的输入数据;将输入数据输入预设强化学习模型,执行预设强化学习模型以得到输出数据;根据预设强化学习模型的输出数据确定线程分配信息;根据线程分配信息对异构系统进行线程配置,相对于目前人工配置异构系统各个异构的计算单元的线程数,本申请实施例提供的线程分配方法,能够根据异构系统的线程配置目标确定输入数据,通过强化学习模型得到输入数据对应的输出数据,根据输出数据可以确定吞吐量最大时分配给各个异构硬件的cpu线程数量,进而实现通过强化学习模型得到异构计算的最优的线程分配信息,提高异构计算的计算效率,提高资源利用率。

实施例二

图2为申请实施例提供的线程分配装置的结构示意图,本实施例可适用于异构计算线程数量分配的情况,该装置可以位于计算线程数量分配方案的计算机设备,包括:输入数据确定模块21、强化学习模型执行模块22、线程分配信息确定模块23以及线程配置模块24。

输入数据确定模块21,用于根据异构系统的线程配置目标确定预设强化学习模型的输入数据;

强化学习模型执行模块22,用于将输入数据输入预设强化学习模型,执行预设强化学习模型以得到输出数据;

线程分配信息确定模块23,用于根据预设强化学习模型的输出数据确定线程分配信息;

线程配置模块24,用于根据线程分配信息对异构系统进行线程配置。

在上述实施例的基础上,输入数据确定模块21用于:

根据每个异构硬件中的平均线程分配数量,确定初始状态s;

根据每个异构硬件中线程的增减数量,确定动作集合,动作集合包括多个线程调整动作α,每个线程调整动作表示某个异构硬件中线程数量增加一次或减少一次;

将强化学习算法中的奖励配置为将异构硬件当前提供的平均帧率与异构硬件上一次提供的平均帧率的帧率差值r。

在上述实施例的基础上,预设强化学习模型为双深度q网络ddqn模型,ddqn模型包括当前dqn网络和目标dqn网络,输入数据还包括:配置迭代轮数t、衰弱因子γ、探索率∈、批量梯度下降的样本数m、以及目标dqn网络的更新频率c。

在上述实施例的基础上,强化学习模型执行模块22用于:

随机初始化当前dqn网络的所有参数w,根据当前dqn网络的所有参数w初始化目标dqn网络的所有参数w′,清空经验回放集合d;

根据迭代轮数t进行迭代,在每个迭代回合中执行下述步骤:

a)根据所述初始状态s确定第一特征向量φ(s);

b)在当前dqn网络中将所述第一特征向量φ(s)作为输入,得到所述当前dqn网络输出的全部线程调整动作α对应的多个第一q值输出;使用探索率∈-贪婪法策略根据所述多个第一q值输出确定第一线程动作a;

c)在所述初始状态s执行所述第一线程动作a,得到更新状态s′对应的特征向量φ(s′)、帧率差值r以及是否中止状态is_end;

d)将所述初始状态s、所述第一线程动作a、所述帧率差值r、所述更新状态s′对应的特征向量φ(s′)以及所述是否中止状态is_end组成的五元组保存至所述经验回放集合d;

e)将所述更新状态s′赋值给所述初始状态s;

f)从所述经验回放集合d中根据采样数量m进行采样;根据当前采集的五元组中的是否中止状态is_end的内容,确定第二q值输出yj的计算方式,根据所述计算方式得到所述第二q值输出yj;

g)使用均方差损失函数,通过神经网络的梯度反向传播更新所述当前dqn网路中的所有参数w;

h)根据配置迭代轮数t和目标dqn网络的更新频率c确定是否更新;若更新,则将所述当前dqn网路中的所有参数w赋值给所述目标dqn网络的所有参数w′;

i)如果所述更新状态s′满足终止条件,则迭代结束,否则返回执行步骤b)。

在上述实施例的基础上,强化学习模型执行模块22用于:

如果当前采集的五元组中的是否中止状态is_end的内容为真,则将当前采集的五元组中的帧率差值rj作为第二q值输出yj;

如果当前采集的五元组中的是否中止状态is_end的内容为否,则将当前采集的五元组中的特征向量φ(s′j)、调整动作α和所述当前dqn网络的所有参数w输入至当前dqn网络,获取所述当前dqn网络输出的q值数值最大时对应的第二动作α′;

将当前采集的五元组中的特征向量φ(s′j)、所述第二动作α′以及所述目标dqn网络的所有参数w′输入至目标dqn网络,得到第三q值输出;根据所述衰弱因子γ、所述第三q值输出以及当前采集的五元组中的帧率差值确定第二q值输出yj。

在上述实施例的基础上,强化学习模型执行模块22用于:

根据当前迭代次数确定探索率∈,探索率∈与迭代次数的变化趋势相反。

在上述实施例的基础上,预设强化学习模型为a3c或近端策略优化算法ppo。

本申请实施例提供的线程分配装置,输入数据确定模块21根据异构系统的线程配置目标确定预设强化学习模型的输入数据;强化学习模型执行模块22将输入数据输入预设强化学习模型,执行预设强化学习模型以得到输出数据;线程分配信息确定模块23根据预设强化学习模型的输出数据确定线程分配信息;线程配置模块24根据线程分配信息对异构系统进行线程配置,相对于目前人工配置异构系统各个异构的计算单元的线程数,本申请实施例提供的线程分配装置,能够根据异构系统的线程配置目标确定输入数据,通过强化学习模型得到输入数据对应的输出数据,根据输出数据可以确定吞吐量最大时分配给各个异构硬件的cpu线程数量,进而实现通过强化学习模型得到异构计算的最优的线程分配信息,提高异构计算的计算效率,提高资源利用率。

本申请实施例所提供的线程分配装置可执行本申请任意实施例所提供的线程分配方法,具备执行方法相应的功能模块和有益效果。

实施例三

图3为本申请实施例三提供的一种计算机设备的结构示意图,如图3所示,该计算机设备包括处理器30、存储器31、输入装置32和输出装置33;计算机设备中处理器30的数量可以是一个或多个,图3中以一个处理器30为例;计算机设备中的处理器30、存储器31、输入装置32和输出装置33可以通过总线或其他方式连接,图3中以通过总线连接为例。

存储器31作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的线程分配方法对应的程序指令/模块(例如,线程分配装置中的输入数据确定模块21、强化学习模型执行模块22、线程分配信息确定模块23以及线程配置模块24)。处理器30通过运行存储在存储器31中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的线程分配方法。

存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器31可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器31可进一步包括相对于处理器30远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置32可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置33可包括显示屏等显示设备。

实施例四

本申请实施例四还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种线程分配法,该方法包括:

根据异构系统的线程配置目标确定预设强化学习模型的输入数据;

将输入数据输入预设强化学习模型,执行预设强化学习模型以得到输出数据;

根据预设强化学习模型的输出数据确定线程分配信息;

根据线程分配信息对异构系统进行线程配置。

在上述实施例的基础上,预设强化学习模型为ddqn,相应的,根据异构系统的线程配置目标确定预设强化学习模型的输入数据,包括:

根据每个异构硬件中的平均线程分配数量,确定初始状态s;

根据每个异构硬件中线程的增减数量,确定动作集合,动作集合包括多个线程调整动作α,每个线程调整动作表示某个异构硬件中线程数量增加一次或减少一次;

将加强学习强化学习算法中的奖励配置为将异构硬件当前提供的平均帧率与异构硬件上一次提供的平均帧率的帧率差值r。

在上述实施例的基础上,预设强化学习模型为双深度q网络ddqn模型,ddqn模型包括当前dqn网络和目标dqn网络,输入数据还包括:配置迭代轮数t、衰弱因子γ、探索率∈、批量梯度下降的样本数m、以及目标dqn网络的更新频率c。

在上述实施例的基础上,将输入数据输入预设强化学习模型,执行预设强化学习模型以得到输出数据,包括:

随机初始化当前dqn网络的所有参数w,根据当前dqn网络的所有参数w初始化目标dqn网络的所有参数w′,清空经验回放集合d;

根据迭代轮数t进行迭代,在每个迭代回合中执行下述步骤:

a)根据所述初始状态s确定第一特征向量φ(s);

b)在当前dqn网络中将所述第一特征向量φ(s)作为输入,得到所述当前dqn网络输出的全部线程调整动作α对应的多个第一q值输出;使用探索率∈-贪婪法策略根据所述多个第一q值输出确定第一线程动作a;

c)在所述初始状态s执行所述第一线程动作a,得到更新状态s′对应的特征向量φ(s′)、帧率差值r以及是否中止状态is_end;

d)将所述初始状态s、所述第一线程动作a、所述帧率差值r、所述更新状态s′对应的特征向量φ(s′)以及所述是否中止状态is_end组成的五元组保存至所述经验回放集合d;

e)将所述更新状态s′赋值给所述初始状态s;

f)从所述经验回放集合d中根据采样数量m进行采样;根据当前采集的五元组中的是否中止状态is_end的内容,确定第二q值输出yj的计算方式,根据所述计算方式得到所述第二q值输出yj;

g)使用均方差损失函数,通过神经网络的梯度反向传播更新所述当前dqn网路中的所有参数w;

h)根据配置迭代轮数t和目标dqn网络的更新频率c确定是否更新;若更新,则将所述当前dqn网路中的所有参数w赋值给所述目标dqn网络的所有参数w′;

i)如果所述更新状态s′满足终止条件,则迭代结束,否则返回执行步骤b)。

在上述实施例的基础上,根据当前采集的五元组中的是否中止状态is_end的内容,确定第二q值输出yj计算方式,根据所述计算方式得到所述第二q值输出yj,包括:

如果当前采集的五元组中的是否中止状态is_end的内容为真,则将当前采集的五元组中的帧率差值rj作为第二q值输出yj;

如果当前采集的五元组中的是否中止状态is_end的内容为否,则将当前采集的五元组中的特征向量φ(s′j)、调整动作α和所述当前dqn网络的所有参数w输入至当前dqn网络,获取所述当前dqn网络输出的q值数值最大时对应的第二动作α′;

将当前采集的五元组中的特征向量φ(s′j)、所述第二动作α′以及所述目标dqn网络的所有参数w′输入至目标dqn网络,得到第三q值输出;根据所述衰弱因子γ、所述第三q值输出以及当前采集的五元组中的帧率差值确定第二q值输出yj。

在上述实施例的基础上,在使用探索率∈-贪婪法策略根据多个q值输出确定第一线程动作a之前,还包括:

根据当前迭代次数确定探索率∈,探索率∈与迭代次数的变化趋势相反。

在上述实施例的基础上,预设强化学习模型为a3c或近端策略优化算法ppo。

当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本申请任意实施例所提供的线程分配方法中的相关操作.

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本申请可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。

值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。

注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1