使用自适应提前退出对输出序列的高效解码的制作方法

文档序号:40878039发布日期:2025-02-11 12:28阅读:5来源:国知局
使用自适应提前退出对输出序列的高效解码的制作方法


背景技术:

1、本说明书涉及使用神经网络来处理输入以生成输出序列。

2、神经网络是采用一个或多个非线性单元层来预测接收到的输入的输出的机器学习模型。除输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作网络中的下一个层(即,另一个隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值来从接收到的输入生成输出。


技术实现思路

1、本说明书描述了一种被实现为在一个或多个位置的一个或多个计算机上的计算机程序的系统,所述系统使用解码器神经网络来对网络输入执行机器学习任务。

2、特别地,系统生成输出序列,所述输出序列包括在多个输出时间步中的每一个处来自词元词表的相应词元。

3、在生成输出序列时,系统可以执行“提前退出(early exiting)”。提前退出是指使用解码器神经网络的中间层而不是解码器神经网络的最后一个层的输出来生成输出词元。执行提前退出可以使词元的生成更计算高效,因为不需要执行在中间层之后的任何层的计算。

4、“提前退出”被称为“自适应”的,因为系统仅在满足终止准则时才确定针对给定输出词元使用中间层的输出。如果在生成给定输出词元时中间层中的任一个都不满足终止准则,则系统使用最后一个层的输出来生成给定输出词元。

5、本说明书中描述的主题可以在特定实施例中实现,以便实现以下优点中的一个或多个。

6、基于transformer的大型语言模型(llm)的最新进展已经带来跨许多任务的显著性能改进。这些增益伴随着模型的大小的急剧增加,从而潜在地导致在推断时使用起来缓慢且昂贵。然而,在实践中,在生成输出序列时由llm进行的一系列生成由不同难度级别组成。虽然某些预测确实受益于模型的全容量,但其他延续更琐碎并可以通过减少的计算来解决。本说明书描述了用于使用“提前退出解码”来每输入和生成时间步动态地分配不同计算量的框架。特别地,在提前退出解码中,系统在每个时间步处确定何时停止处理并生成下一个输出词元。通过使用所描述的框架,系统可以减少计算,例如,在生成输出序列时实现三倍或更多倍的潜在加速,同时可证明地维持高性能。系统还可以在维持高性能的同时减少生成过程中的时延,并且可以使用“提前退出解码”来提高系统的总体吞吐量。当跳过后续层的处理时,系统还可以减少存储器使用。系统在处理每个位置时/在每个时间步处根据需要有效地动态地分配计算资源。

7、本说明书的主题的一个或多个实施例的细节在附图和以下描述中进行阐述。

8、本主题的其他特征、方面和优点根据描述、附图和权利要求将变得显而易见。



技术特征:

1.一种用于使用解码器神经网络来自回归地生成输出序列的由一个或多个计算机执行的方法,所述输出序列包括在多个输出时间步中的每一个处的来自词元词汇表的相应词元,

2.如权利要求1所述的方法,其中所述输出序列以网络输入为条件。

3.如权利要求2所述的方法,其中所述当前输入序列还包括与所述网络输入相对应的一个或多个输入。

4.如权利要求2所述的方法,所述方法还包括:

5.如任一项前述权利要求所述的方法,其中生成所述当前输入序列中的每个输入的相应隐藏状态包括:

6.如任一项前述权利要求所述的方法,其中通过层的所述序列中的所述层来处理所述输入序列中的所述输入的相应隐藏状态直到满足终止准则包括:

7.如任一项前述权利要求所述的方法,其中通过所述层来处理所述输入的相应隐藏状态包括:一旦在所述序列中的给定层处满足所述终止准则,就避免在该输出时间步处对在所述序列中的所述给定层之后的任何附加层执行任何处理。

8.如任一项前述权利要求所述的方法,其中至少根据所述当前输入序列中的所述最后一个输入的经更新的相应输入隐藏状态来生成该层的置信度得分包括:

9.如权利要求1至7中任一项所述的方法,其中至少根据所述当前输入序列中的所述最后一个输入的经更新的相应输入隐藏状态来生成该层的置信度得分包括:

10.如权利要求1至7中任一项所述的方法,其中至少根据所述当前输入序列中的所述最后一个输入的经更新的相应输入隐藏状态来生成该层的置信度得分包括:

11.如权利要求10所述的方法,其中所述提前退出分类器已经被训练,同时保持所述解码器神经网络的参数固定为通过训练所述解码器神经网络来确定的经训练值。

12.如任一项前述权利要求所述的方法,

13.如权利要求12所述的方法,还包括:

14.如权利要求13所述的方法,其中所述递减函数是指数函数。

15.如任一项前述权利要求所述的方法,其中对于所述子集中的每个层,所述输出时间步的相应阈值是基于共享阈值来确定的。

16.如权利要求13至15中任一项所述的方法,还包括:

17.如权利要求16所述的方法,其中基于所述一个或多个容差约束来确定所述共享阈值包括:

18.一种系统,包括:

19.一个或多个计算机可读存储介质,所述一个或多个计算机可读存储介质存储指令,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行如权利要求1至17中任一项所述的方法的相应操作。


技术总结
用于使用自回归解码器神经网络来生成输出序列的方法、系统和设备,包括被编码在计算机存储介质上的计算机程序。特别地,在生成期间,使用自适应提前退出来减少生成输出序列所需的时间。

技术研发人员:塔尔·舒斯特,亚当·约书亚·菲施,扎伊·普拉卡什·古普塔,穆斯塔法·德哈尼,达拉·巴赫里,温·国·特兰,郑毅,小唐纳德·阿瑟·梅茨勒
受保护的技术使用者:谷歌有限责任公司
技术研发日:
技术公布日:2025/2/10
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1