技术编号:37880112
提示:您尚未登录,请点 登 陆 后下载,如果您还没有账户请点 注 册 ,登陆完成后,请刷新本页查看技术详细信息。本申请涉及人工智能,特别涉及一种基于文本生成模型的优化器量化方法、装置以及控制器。背景技术、随着人工智能技术的迅速发展,大型深度神经网络模型在聊天机器人、图像生成、视频理解和文本生成等众多领域得到了广泛应用。当前大型深度神经网络模型的应用指数级增长,其中,文本生成模型在对话系统、推荐系统、搜索引擎中都是必不可少的,因此对文本生成模型的显存要求和量化要求也越来越高。当前在训练文本生成模型,通常需要将模型参数、模型梯度、优化器状态都存储在固定数量的可用内存中,状态优化器随着时间的推移维护梯度统计,...
注意:该技术已申请专利,请尊重研发人员的辛勤研发付出,在未取得专利权人授权前,仅供技术研究参考不得用于商业用途。
该专利适合技术人员进行技术研发参考以及查看自身技术是否侵权,增加技术思路,做技术知识储备,不适合论文引用。
请注意,此类技术没有源代码,用于学习研究技术思路。