一种数据处理方法及相关装置与流程

文档序号：35852114发布日期：2023-10-25 19:57阅读：34来源：国知局

本申请涉及计算机，特别是涉及一种数据处理方法及相关装置。

背景技术：

1、随着实时策略游戏的智能化发展，在阵容对局过程中应用智能对局功能，可智能化地控制对局阵容中游戏对象进行阵容对局。

2、相关技术中，通常是按照预设输出策略控制对局阵容中游戏对象进行输出，以智能化地进行阵容对局。

3、然而，上述方法中预设输出策略是固定游戏情况下的固定输出策略，并不一定是阵容对局的游戏状态下奖励较高的输出策略，导致智能对局效果较差。

技术实现思路

1、为了解决上述技术问题，本申请提供了一种数据处理方法及相关装置，能够快速有效地、更准确地匹配到阵容对局的游戏状态下奖励较高的输出概率，以快速有效地、更准确地确定阵容对局的游戏状态下奖励较高的输出策略，从而智能化地进行阵容对局，提升智能对局效果。

2、本申请实施例公开了如下技术方案：

3、一方面，本申请实施例提供一种数据处理方法，所述方法包括：

4、从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中，获取在预设时间m×n个目标游戏状态对应的m×n个目标输出概率；所述输出概率模型是根据第一样本阵容对局第二样本阵容的多个样本游戏状态、以及所述多个样本游戏状态对应的多个正负奖励，训练强化学习模型获得的；所述多个预设游戏状态包括所述m×n个目标游戏状态，所述m×n个目标游戏状态对应所述预设时间第一目标阵容中m个第一目标对象的m个对象游戏状态、以及所述预设时间第二目标阵容中n个第二目标对象的n个对象游戏状态，m为正整数，n为正整数；

5、对所述m×n个目标输出概率进行调整，获得调整后的m×n个目标输出概率；

6、根据所述调整后的m×n个目标输出概率与预设概率之间的大小关系，确定所述第一目标阵容对局所述第二目标阵容在预设时间的输出策略。

7、另一方面，本申请实施例提供一种数据处理装置，所述装置包括：获取单元、调整单元和确定单元；

8、所述获取单元，用于从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中，获取在预设时间m×n个目标游戏状态对应的m×n个目标输出概率；所述输出概率模型是根据第一样本阵容对局第二样本阵容的多个样本游戏状态、以及所述多个样本游戏状态对应的多个正负奖励，训练强化学习模型获得的；所述多个预设游戏状态包括所述m×n个目标游戏状态，所述m×n个目标游戏状态对应所述预设时间第一目标阵容中m个第一目标对象的m个对象游戏状态、以及所述预设时间第二目标阵容中n个第二目标对象的n个对象游戏状态，m为正整数，n为正整数；

9、所述调整单元，用于对所述m×n个目标输出概率进行调整，获得调整后的m×n个目标输出概率；

10、所述确定单元，用于根据所述调整后的m×n个目标输出概率与预设概率之间的大小关系，确定所述第一目标阵容对局所述第二目标阵容在预设时间的输出策略。

11、另一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器以及存储器：

12、所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

13、所述处理器用于根据所述计算机程序中的指令执行前述任一方面所述的方法。

14、另一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行前述任一方面所述的方法。

15、另一方面，本申请实施例提供一种计算机程序产品，包括计算机程序，当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行前述任一方面所述的方法。

16、由上述技术方案可以看出，在通过第一样本阵容对局第二样本阵容的多个样本游戏状态、以及多个样本游戏状态对应的多个正负奖励，训练强化学习模型得到输出概率模型的基础上；首先，从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中，获取在预设时间m×n个目标游戏状态对应的m×n个目标输出概率，其中，多个预设游戏状态包括m×n个目标游戏状态，该m×n个目标游戏状态对应预设时间第一目标阵容中m个第一目标对象的m个对象游戏状态、以及预设时间第二目标阵容中n个第二目标对象的n个对象游戏状态，m为正整数，n为正整数；该方式在通过训练强化学习模型得到的输出概率模型，预测出多个预设游戏状态下奖励较高的多个预设输出概率的基础上，能够快速有效地匹配到第一目标阵容对局第二目标阵容在预设时间m×n个目标游戏状态下奖励较高的m×n个目标输出概率。

17、然后，先调整m×n个目标输出概率得到调整后的m×n个目标输出概率；再通过调整后的m×n个目标输出概率与预设概率之间的大小关系，确定第一目标阵容对局第二目标阵容在预设时间的输出策略；该方式进一步调整在预设时间m×n个目标游戏状态下奖励较高的m×n个目标输出概率，以得到更准确的调整后的m×n个目标输出概率，与预设概率进行大小比较，以更准确地确定第一目标阵容对局第二目标阵容在预设时间m×n个目标游戏状态下奖励较高的输出策略。基于此，该方法能够快速有效地、更准确地匹配到阵容对局的游戏状态下奖励较高的输出概率，以快速有效地、更准确地确定阵容对局的游戏状态下奖励较高的输出策略，从而智能化地进行阵容对局，提升智能对局效果。

技术特征：

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述多个预设游戏状态对应的多个预设输出概率的预测步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述多个预设游戏状态对应的多个预设输出概率的预测步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述输出概率模型的训练步骤，包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述m×n个目标输出概率进行调整，获得调整后的m×n个目标输出概率，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据预设粒子群对概率调整策略中预设参数集进行优化，获得目标最优粒子的目标最优参数，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述预设参数集对所述预设粒子群进行初始化，获得所述预设粒子群中多个预设粒子对应的多个粒子参数，包括：

8.根据权利要求6所述的方法，其特征在于，所述根据每个预设粒子的粒子参数下概率调整策略和所述m×n个目标输出概率，获得所述每个预设粒子的粒子参数下所述第一目标阵容对局所述第二目标阵容的目标奖励，包括：

9.根据权利要求6所述的方法，其特征在于，所述根据所述每个预设粒子记录的多次粒子参数、以及所述多次粒子参数下多次目标奖励，确定所述每个预设粒子对应的局部最优粒子的局部最优参数、以及所述多个预设粒子对应的全局最优粒子的全局最优参数，包括：

10.根据权利要求6所述的方法，其特征在于，所述根据所述每个预设粒子对应的局部最优参数和所述全局最优参数，对所述每个预设粒子的粒子参数进行更新，包括：

11.根据权利要求1所述的方法，其特征在于，所述根据所述调整后的m×n个目标输出概率与预设概率之间的大小关系，确定所述第一目标阵容对局所述第二目标阵容在预设时间的输出策略，包括：

12.一种数据处理装置，其特征在于，所述装置包括：获取单元、调整单元和确定单元；

13.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行权利要求1-11任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行权利要求1-11任一项所述的方法。

技术总结
本申请公开一种数据处理方法及相关装置，用于人工智能领域。方法包括：通过第一样本阵容对局第二样本阵容的多个样本游戏状态和对应的多个正负奖励训练强化学习模型得到输出概率模型；从输出概率模型预测的多个预设游戏状态对应的多个预设输出概率中，获取在预设时间M×N个目标游戏状态对应的M×N个目标输出概率，M×N个目标游戏状态对应预设时间第一目标阵容中M个第一目标对象的M个对象游戏状态、以及预设时间第二目标阵容中N个第二目标对象的N个对象游戏状态。通过调整M×N个目标输出概率得到调整后的M×N个目标输出概率；通过调整后的M×N个目标输出概率与预设概率之间的大小关系，确定在预设时间的输出策略。

技术研发人员：李旭冬,张兴斌,罗章龙,严明,魏学峰,黄斌
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李旭冬张兴斌罗章龙严明魏学峰黄斌
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种淤泥清理装置的制作方法
上一篇：一种可防尘的固定式气体检测装置的制作方法