基于学习权重向量的大模型微调方法、装置、设备及介质与流程

文档序号：37386842发布日期：2024-03-22 10:38阅读：来源：国知局

技术特征：

1.一种基于学习权重向量的大模型微调方法, 其特征在于，包括：

2.根据权利要求1所述的一种基于学习权重向量的大模型微调方法，其特征在于，对所述transformer模块中的k矩阵增加一个可学习的权重向量，对所述transformer模块中的v矩阵增加一个可学习的权重向量，具体为：

3.根据权利要求1所述的一种基于学习权重向量的大模型微调方法，其特征在于，在所述transformer模块中增加一个可学习的权重向量lff，具体为：

4.根据权利要求1所述的一种基于学习权重向量的大模型微调方法，其特征在于，所述自注意力机制的计算公式为：

5.一种基于学习权重向量的大模型微调装置，其特征在于，包括：

6.根据权利要求5所述的一种基于学习权重向量的大模型微调装置，其特征在于，第一增加单元具体用于：

7.根据权利要求5所述的一种基于学习权重向量的大模型微调装置，其特征在于，第二增加单元具体用于：

8.根据权利要求5所述的一种基于学习权重向量的大模型微调装置，其特征在于，所述自注意力机制的计算公式为：

9.一种基于学习权重向量的大模型微调设备，其特征在于，包括存储器以及处理器，所述存储器内存储有计算机程序，所述计算机程序能够被所述处理器执行，以实现如权利要求1至4任意一项所述的基于学习权重向量的大模型微调方法。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行，以实现如权利要求1至4任意一项所述的基于学习权重向量的大模型微调方法。

技术总结
本发明提供了基于学习权重向量的大模型微调方法、装置、设备及介质，涉及深度学习的大模型技术领域，方法包括：获取待调整的大模型的Transformer模块，所述Transformer模块的核心为自注意力机制；当需要对所述大模型进行微调时，对所述Transformer模块中的k矩阵增加一个可学习的权重向量，对所述Transformer模块中的v矩阵增加一个可学习的权重向量，并经过所述自注意力机制进行处理；在所述自注意力机制处理完毕后，在Transformer模块中增加一个可学习的权重向量lff，输出经过线性层，并根据经过线性层的输出数据获得需要调整的参数量；根据训练样本以及需要调整的参数量对所述大模型进行微调。旨在解决现有微调算法无法与微调基线相匹配，从而在效率和模型质量之间产生了权衡的问题。

技术研发人员：李翔,邢东进,杨洪进
受保护的技术使用者：厦门蝉羽网络科技有限公司
技术研发日：
技术公布日：2024/3/21

完整全部详细技术资料下载

当前第2页1 2