模型压缩方法、装置、电子设备及存储介质与流程

文档序号:40772614发布日期:2025-01-24 21:10阅读:8来源:国知局
模型压缩方法、装置、电子设备及存储介质与流程

本申请涉及模型处理,特别涉及一种模型压缩方法、装置、电子设备及存储介质。


背景技术:

1、大语言模型(large language model,llm)在自然语言理解和生成任务上都取得了优异的性能,在各种领域中都有使用。然而,这些llm模型通常由于模型的参数量很多,需要占用很多的内存。

2、这些大模型在电子设备中推理时,一般需要将模型的模型权重(weight)从文件系统中读取到高速内存中,比如:电子设备的处理器芯片可以从高速内存中读取这些weight并做计算推理。但由于模型的参数量很多,需要占用很多的高速内存,高速内存的大小和带宽往往成为了大模型推理的性能瓶颈。为了更适应在电子设备中进行模型推理,对模型进行压缩,比如:蒸馏、剪枝、量化等操作,用压缩后的模型在电子设备中使用。但是,目前的模型压缩都是针对特定下游任务做后训练量化(post training quantization,ptq)或者感知量化(quantization aware training,qat),该过程需要对模型重新构造或者重训练等方式,存在模型压缩过程复杂,效率低的问题。


技术实现思路

1、为了解决相关技术的问题,提高电子设备中模型压缩的效率,本申请实施例提供了一种模型压缩方法、装置、电子设备及存储介质。所述技术方案如下:

2、一个方面,本申请提供了一种模型压缩方法,应用于电子设备,所述方法包括:

3、将原始模型权重划分为n个输入序列,每个输入序列的长度为预设长度,其中,n是正整数;

4、根据预设变换矩阵,对每个输入序列进行m次压缩变换处理,获取每次压缩变换处理后的输出序列的直流分量、前m-1次压缩变换处理后的输出序列的交流分量的均值以及第m次压缩变换处理后的输出序列的交流分量;其中,后一次压缩变换处理使用的输入序列是根据进行前一次所述压缩变换处理后的输出序列的交流分量确定的;所述直流分量包括进行所述压缩变换处理后的输出序列中的首列元素,所述交流分量包括所述输出序列中除所述直流分量外的其他元素,所述均值是根据每次变换后的交流分量的元素值计算得到的;其中,m是正整数;

5、根据所述每个输入序列的每次压缩变换处理后的输出序列的直流分量、前m-1次压缩变换处理后的输出序列的交流分量的均值以及第m次压缩变换处理后的输出序列的交流分量,确定与所述原始模型权重对应的压缩后的模型权重。

6、一个方面,本申请提供了一种模型压缩装置,应用于电子设备,所述装置包括:

7、序列划分模块,用于将原始模型权重划分为n个输入序列,每个输入序列的长度为预设长度,其中,n是正整数;

8、第一变换模块,用于根据预设变换矩阵,对每个输入序列进行m次压缩变换处理,获取每次压缩变换处理后的输出序列的直流分量、前m-1次压缩变换处理后的输出序列的交流分量的均值以及第m次压缩变换处理后的输出序列的交流分量;其中,后一次压缩变换处理使用的输入序列是根据进行前一次所述压缩变换处理后的输出序列的交流分量确定的;所述直流分量包括进行所述压缩变换处理后的输出序列中的首列元素,所述交流分量包括所述输出序列中除所述直流分量外的其他元素,所述均值是根据每次变换后的交流分量的元素值计算得到的;其中,m是正整数;

9、模型确定模块,用于根据所述每个输入序列的每次压缩变换处理后的输出序列的直流分量、前m-1次压缩变换处理后的输出序列的交流分量的均值以及第m次压缩变换处理后的输出序列的交流分量,确定与所述原始模型权重对应的压缩后的模型权重。

10、另一个方面,本申请提供了一种电子设备,所述电子设备包含处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器执行以实现如上述一个方面所述的模型压缩方法。

11、另一个方面,本申请提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器执行以实现如上述一个方面所述的模型压缩方法。

12、另一方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行以实现如上述一个方面所述的模型压缩方法。

13、另一方面,本申请实施例提供了一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行以实现如上述一个方面所述的模型压缩方法。

14、本申请实施例提供的技术方案带来的有益效果至少包括:

15、电子设备通过将原始模型权重划分为n个输入序列,每个输入序列的长度为预设长度,其中,n是正整数;根据预设变换矩阵,对每个输入序列进行m次压缩变换处理,获取每次压缩变换处理后的输出序列的直流分量、前m-1次压缩变换处理后的输出序列的交流分量的均值以及第m次压缩变换处理后的输出序列的交流分量;其中,后一次压缩变换处理使用的输入序列是根据进行前一次压缩变换处理后的输出序列的交流分量确定的;直流分量包括进行压缩变换处理后的输出序列中的首列元素,交流分量包括输出序列中除直流分量外的其他元素,交流分量的均值是根据每次变换后的交流分量的元素值计算得到的;其中,m是正整数;根据每个输入序列的每次压缩变换处理后的输出序列的直流分量、前m-1次压缩变换处理后的输出序列的交流分量的均值以及第m次压缩变换处理后的输出序列的交流分量,确定与原始模型权重对应的压缩后的模型权重。本申请的终端设备通过预设变换矩阵,直接对划分后的输入序列进行m次压缩变换处理,根据每个输入序列的每次压缩变换处理后的输出序列的直流分量、前m-1次压缩变换处理后的输出序列的交流分量的均值以及第m次压缩变换处理后的输出序列的交流分量,确定与原始模型权重对应的压缩后的模型权重,不需要复杂的重训练,也不针对特定下游任务设计,具有很好的适应性,更便于在电子设备中对各种大模型的压缩,提高了模型压缩的效率。



技术特征:

1.一种模型压缩方法,其特征在于,应用于电子设备,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述压缩变换处理是将所述预设变换矩阵的转置矩阵与进行压缩变换处理的输入序列的转置序列进行相乘运算的处理。

3.根据权利要求2所述的方法,其特征在于,在m大于等于2的情况下,所述根据预设变换矩阵,对每个输入序列进行m次压缩变换处理,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述当前次压缩变换处理的输出序列的交流分量,确定进行下一次压缩变换处理的下一输入序列,包括:

5.根据权利要求3所述的方法,其特征在于,在所述根据所述当前次压缩变换处理的输出序列的交流分量,确定进行下一次压缩变换处理的下一输入序列之前,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述每次压缩变换处理后的输出序列的直流分量是通过所述比例因子参数对每次压缩变换处理的输出序列进行调整后的直流分量。

7.根据权利要求4所述的方法,其特征在于,获取前m-1次压缩变换处理后的输出序列的交流分量的均值,包括:

8.根据权利要求4所述的方法,其特征在于,获取第m次压缩变换处理后的输出序列的交流分量,包括:

9.根据权利要求6至8任一所述的方法,其特征在于,所述方法还包括:

10.根据权利要求1至8任一所述的方法,其特征在于,若所述原始模型权重划分为n个输入序列之后,剩余的模型权重组成小于所述预设长度的输入序列,所述方法还包括:

11.一种模型压缩装置,其特征在于,应用于电子设备,所述装置包括:

12.一种电子设备,其特征在于,所述电子设备包含处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器执行以实现如权利要求1至10任一所述的模型压缩方法。

13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器执行以实现如权利要求1至10任一所述的模型压缩方法。


技术总结
本申请公开了一种模型压缩方法、装置、电子设备及存储介质,属于模型处理技术领域。应用于电子设备,该方法包括:将原始模型权重划分为N个输入序列,每个输入序列的长度为预设长度,其中,N是正整数;根据预设变换矩阵,对每个输入序列进行M次压缩变换处理,获取每次压缩变换处理后的输出序列的直流分量、前M‑1次压缩变换处理后的输出序列的交流分量的均值以及第M次压缩变换处理后的输出序列的交流分量;根据每个输入序列的每次压缩变换处理后的输出序列的直流分量、前M‑1次压缩变换处理后的输出序列的交流分量的均值以及第M次压缩变换处理后的输出序列的交流分量,确定与原始模型权重对应的压缩后的模型权重,提高了模型压缩的效率。

技术研发人员:王卫兵
受保护的技术使用者:广东明创软件科技有限公司
技术研发日:
技术公布日:2025/1/23
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1