线程分配方法、装置、计算机设备及存储介质与流程

文档序号：23499870发布日期：2021-01-01 18:03阅读：来源：国知局

技术特征：

1.一种线程分配方法，其特征在于，包括：

根据异构系统的线程配置目标确定预设强化学习模型的输入数据；

将所述输入数据输入所述预设强化学习模型，执行所述预设强化学习模型以得到输出数据；

根据所述预设强化学习模型的输出数据确定线程分配信息；

根据所述线程分配信息对异构系统进行线程配置。

2.根据权利要求1所述的方法，其特征在于，所述根据异构系统的线程配置目标确定预设强化学习模型的输入数据，包括：

根据每个异构硬件中的平均线程分配数量，确定初始状态s；

根据每个异构硬件中线程的增减数量，确定动作集合，所述动作集合包括多个线程调整动作α，每个线程调整动作表示某个异构硬件中线程数量增加一次或减少一次；

将强化学习算法中的奖励配置为将异构硬件当前提供的平均帧率与异构硬件上一次提供的平均帧率的帧率差值r。

3.根据权利要求2所述的方法，其特征在于，所述预设强化学习模型为双深度q网络ddqn模型，所述ddqn模型包括当前dqn网络和目标dqn网络，所述输入数据还包括：配置迭代轮数t、衰弱因子γ、探索率∈、批量梯度下降的样本数m、以及目标dqn网络的更新频率c。

4.根据权利要求3所述的方法，其特征在于，将所述输入数据输入所述预设强化学习模型，执行所述预设强化学习模型以得到输出数据，包括：

随机初始化当前dqn网络的所有参数w，根据所述当前dqn网络的所有参数w初始化目标dqn网络的所有参数w′，清空经验回放集合d；

根据所述迭代轮数t进行迭代，在每个迭代回合中执行下述步骤：

a)根据所述初始状态s确定第一特征向量φ(s)；

b)在当前dqn网络中将所述第一特征向量φ(s)作为输入，得到所述当前dqn网络输出的全部线程调整动作α对应的多个第一q值输出；使用探索率∈-贪婪法策略根据所述多个第一q值输出确定第一线程动作a；

c)在所述初始状态s执行所述第一线程动作a，得到更新状态s′对应的特征向量φ(s′)、帧率差值r以及是否中止状态is_end；

d)将所述初始状态s、所述第一线程动作a、所述帧率差值r、所述更新状态s′对应的特征向量φ(s′)以及所述是否中止状态is_end组成的五元组保存至所述经验回放集合d；

e)将所述更新状态s′赋值给所述初始状态s；

f)从所述经验回放集合d中根据采样数量m进行采样；根据当前采集的五元组中的是否中止状态is_end的内容，确定第二q值输出yj的计算方式，根据所述计算方式得到所述第二q值输出yj；

g)使用均方差损失函数，通过神经网络的梯度反向传播更新所述当前dqn网路中的所有参数w；

h)根据配置迭代轮数t和目标dqn网络的更新频率c确定是否更新；若更新，则将所述当前dqn网路中的所有参数w赋值给所述目标dqn网络的所有参数w′；

i)如果所述更新状态s′满足终止条件，则迭代结束，否则返回执行步骤b)。

5.根据权利要求4所述的方法，其特征在于，根据当前采集的五元组中的是否中止状态is_end的内容，确定第二q值输出yj计算方式，根据所述计算方式得到所述第二q值输出yj，包括：

如果当前采集的五元组中的是否中止状态is_end的内容为真，则将当前采集的五元组中的帧率差值rj作为第二q值输出yj；

如果当前采集的五元组中的是否中止状态is_end的内容为否，则将当前采集的五元组中的特征向量φ(s′j)、调整动作α和所述当前dqn网络的所有参数w输入至当前dqn网络，获取所述当前dqn网络输出的q值数值最大时对应的第二动作α′；

将当前采集的五元组中的特征向量φ(s′j)、所述第二动作α′以及所述目标dqn网络的所有参数w′输入至目标dqn网络，得到第三q值输出；根据所述衰弱因子γ、所述第三q值输出以及当前采集的五元组中的帧率差值确定第二q值输出yj。

6.根据权利要求4所述的方法，其特征在于，在使用探索率∈-贪婪法策略根据所述多个q值输出确定第一线程动作a之前，还包括：

根据当前迭代次数确定探索率∈，所述探索率∈与迭代次数的变化趋势相反。

7.根据权利要求1所述的方法，其特征在于，所述预设强化学习模型为a3c或近端策略优化算法ppo。

8.一种线程分配装置，其特征在于，包括：

输入数据确定模块，用于根据异构系统的线程配置目标确定预设强化学习模型的输入数据；

强化学习模型执行模块，用于将所述输入数据输入所述预设强化学习模型，执行所述预设强化学习模型以得到输出数据；

线程分配信息确定模块，用于根据所述预设强化学习模型的输出数据确定线程分配信息；

线程配置模块，用于根据所述线程分配信息对异构系统进行线程配置。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的线程分配方法。

10.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的线程分配方法。

技术总结
本申请公开了一种线程分配方法、装置、计算机设备及存储介质，该方法包括：根据异构系统的线程配置目标确定预设强化学习模型的输入数据；将输入数据输入预设强化学习模型，执行预设强化学习模型以得到输出数据；根据预设强化学习模型的输出数据确定线程分配信息；根据线程分配信息对异构系统进行线程配置。本申请实施例提供的线程分配方法，能够根据异构系统的线程配置目标确定输入数据，通过强化学习模型得到输入数据对应的输出数据，根据输出数据可以确定吞吐量最大时分配给各个异构硬件的CPU线程数量，进而实现通过强化学习模型得到异构计算的最优的线程分配信息，提高异构计算的计算效率，提高资源利用率。

技术研发人员：王文斓;刘炉;蔡青峰
受保护的技术使用者：广州虎牙科技有限公司
技术研发日：2020.09.29
技术公布日：2021.01.01

完整全部详细技术资料下载

当前第2页1 2