用于生成用于预测用户要选择的行动的学习完毕模型的方法等与流程

文档序号:36939046发布日期:2024-02-02 22:08阅读:78来源:国知局
用于生成用于预测用户要选择的行动的学习完毕模型的方法等与流程

本发明涉及一种用于生成用于预测用户要选择的行动的学习完毕模型的方法、用于决定被预测为用户会选择的行动的方法等。


背景技术:

1、近年来,通过网络来玩多个玩家能够参加的线上游戏的玩家增多。该游戏通过用于移动终端装置与游戏运营商的服务器装置进行通信的游戏系统等实现,操作移动终端装置的玩家能够与其他玩家进行对战游戏。

2、线上游戏包括与由用户所选择的行动相应地进展并更新表示游戏状态的游戏状态信息那样的游戏。作为这样的游戏,例如存在根据卡片、角色等游戏介质的组合来执行各种各样的行动的被称为数字收藏卡片游戏(dccg)的卡片游戏。

3、现有技术文献

4、专利文献

5、专利文献1:日本专利第6438612号

6、非专利文献

7、非专利文献1:jacob devlin and ming-wei chang and kenton lee andkristina toutanova,“bert:pre-training of deep bidirectional transformers forlanguage understanding,”arxiv:1810.04805,2018

8、非专利文献2:ashish vaswani,noam shazeer,niki parmar,jakob uszkoreit,llion jones,aidan n.gomez,lukasz kaiser,and illia polosukhin.2017.attentionis all you need.in proceedings of the 31st international conference on neuralinformation processing systems(nips’17).curran associates inc.,red hook,ny,usa,6000-6010


技术实现思路

1、发明要解决的问题

2、在线上游戏中,期望实现如下的ai:将游戏的历史记录数据(回放日志)利用为用于机器学习的数据,预测在任意的游戏状态下人要选择(执行)的行动来再现近乎人的行为。例如,专利文献1公开一种推断被用户执行的可能性更高的行动的技术。另一方面,被称为转换器(transformer)的能够识别文脉的神经网络技术(转换器神经网络(transformerneural network)技术)(非专利文献1、2)在学习如回合制对战游戏那样的因果关系、顺序关系的情况下是有效的,但难以用于学习游戏的历史记录数据。

3、本发明是为了解决这样的问题而完成的,其目的在于提供一种能够使用能够进行自然语言处理的神经网络技术来生成用于预测在任意的游戏状态下用户要选择的行动的学习完毕模型的方法等。

4、用于解决问题的方案

5、本发明的一个实施方式的方法用于生成学习完毕模型,所述学习完毕模型用于在与由用户所选择的行动相应地进展并更新游戏状态的游戏中预测用户要选择的行动,所述方法包括以下步骤:

6、基于同与游戏有关的历史记录数据所包含的各个历史记录数据要素组相关联的用户信息,来决定针对所述各个历史记录数据要素组的权重;

7、根据所述历史记录数据中包含的历史记录数据要素组所包含的游戏状态和行动的数据来生成以规定的形式表现的文本数据、即游戏状态文本和行动文本,并生成包含与一个游戏状态和在该一个游戏状态下所选择的行动的对相对应的游戏状态文本和行动文本的对的学习数据;以及

8、基于所生成的所述学习数据来生成学习完毕模型,

9、其中,生成所述学习数据的步骤包括以下步骤:

10、作为与一个游戏状态对应的游戏状态文本,生成包含该游戏状态文本中所包含的多个要素文本的排列顺序不同的游戏状态文本的、基于针对包含该一个游戏状态的数据的历史记录数据要素组所决定的权重的数量的游戏状态文本,并生成包含所生成的各个所述游戏状态文本和与在该一个游戏状态下所选择的行动对应的行动文本的对的学习数据。

11、另外,在本发明的一个实施方式中,

12、在生成所述学习完毕模型的步骤中,通过使用所生成的所述学习数据使以学习被顺序组织的数据为目的的深度学习模型进行学习,来生成学习完毕模型。

13、另外,在本发明的一个实施方式中,

14、在决定所述权重的步骤中,将权重决定为与所述用户信息中包含的用户排名的高低相应的大小。

15、另外,在本发明的一个实施方式中,

16、生成所述学习完毕模型的步骤包括以下步骤:通过使预先学习了与自然语言有关的语法结构和文章间的关系的自然语言事先学习完毕模型学习所生成的所述学习数据,来生成学习完毕模型。

17、另外,在本发明的一个实施方式中,

18、生成所述学习数据的步骤包括以下步骤:生成包含第一对和第二对的学习数据,所述第一对是基于所述历史记录数据中包含的历史记录数据要素组所包含的游戏状态和行动的数据生成的、与一个游戏状态和在该一个游戏状态下所选择的行动的对相对应的游戏状态文本和行动文本的对,所述第二对是该一个游戏状态文本和与从在该一个游戏状态下用户能够选择的行动中随机选择的且没有包含在该第一对中的行动对应的行动文本的对,

19、生成所述学习完毕模型的步骤包括以下步骤:将所述第一对作为正确数据进行学习且将所述第二对作为不正确数据进行学习来生成学习完毕模型。

20、本发明的一个实施方式的程序用于使计算机执行上述的方法的各步骤。

21、另外,本发明的一个实施方式的系统用于生成学习完毕模型,所述学习完毕模型用于在与由用户所选择的行动相应地进展并更新游戏状态的游戏中预测用户要选择的行动,所述系统执行以下处理:

22、基于同与游戏有关的历史记录数据所包含的各个历史记录数据要素组相关联的用户信息,来决定针对所述各个历史记录数据要素组的权重;

23、根据所述历史记录数据中包含的历史记录数据要素组所包含的游戏状态和行动的数据来生成以规定的形式表现的文本数据、即游戏状态文本和行动文本,并生成包含与一个游戏状态和在该一个游戏状态下所选择的行动的对相对应的游戏状态文本和行动文本的对的学习数据;以及

24、基于所生成的所述学习数据来生成学习完毕模型,

25、其中,生成所述学习数据的处理包括以下处理:

26、作为与一个游戏状态对应的游戏状态文本,生成包含该游戏状态文本中所包含的多个要素文本的排列顺序不同的游戏状态文本的、基于针对包含该一个游戏状态的数据的历史记录数据要素组所决定的权重的数量的游戏状态文本,并生成包含所生成的各个所述游戏状态文本和与在该一个游戏状态下所选择的行动对应的行动文本的对的学习数据。

27、发明的效果

28、根据本发明,能够使用能够进行自然语言处理的神经网络技术来生成用于预测在任意的游戏状态下用户要选择的行动的学习完毕模型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1