基于模型的任务处理的制作方法

文档序号:41548869发布日期:2025-04-08 18:02阅读:4来源:国知局
基于模型的任务处理的制作方法

所公开的实施例总体上涉及机器学习,并且更具体地涉及用于基于模型的任务处理的方法、装置、设备和计算机可读存储介质。


背景技术:

1、机器学习模型(诸如语言模型(lm))能够执行广泛的自然语言处理(nlp)任务,包括但不限于问答、文本生成、摘要、翻译和情感分析。大型语言模型(llm)的最近进展已经改进了各种自然语言处理(nlp)任务的性能。然而,llm的巨大的参数量使有限计算资源下的全面微调复杂化。因此,诸如低秩适应(lora)之类的参数高效微调(peft)方法已经变得流行,以减少资源需求。lora仍有一些方面需要改进。


技术实现思路

1、在本公开的第一方面,提供了一种用于基于模型的任务处理的方法。该方法包括:获取经预训练的基础机器学习模型的基础参数集以及用于第一任务的经训练的低秩机器学习模型的第一参数集和第二参数集,基础参数集、第一参数集和第二参数集为具有相同维度的矩阵形式;将哈达玛算子应用于基础参数集和第一参数集,以获取中间参数集;聚合第二参数集与中间参数集,以获取更新参数集;利用更新参数度量微调基础参数集,以获取用于与第一任务对应的目标机器学习模型的经微调参数集;以及应用目标机器学习模型,以利用经微调参数集执行用于第一任务的模型推理。

2、在本公开的第二方面,提供了一种用于基于模型的任务处理的装置。该装置包括:获取模块,被配置为获取经预训练的基础机器学习模型的基础参数集以及用于第一任务的经训练的低秩机器学习模型的第一参数集和第二参数集,基础参数集、第一参数集和第二参数集为具有相同维度的矩阵形式;第一应用模块,被配置为将哈达玛算子应用于基础参数集和第一参数集,以获取中间参数集;聚合模块,被配置为聚合第二参数集与中间参数集,以获取更新参数集;微调模块,被配置为利用更新参数度量微调基础参数集,以获取用于与第一任务对应的目标机器学习模型的经微调参数集;以及第二应用模块,被配置为应用目标机器学习模型,以利用经微调参数集执行用于第一任务的模型推理。

3、在本公开的第三方面,提供了一种电子设备。该设备包括:至少一个处理单元;以及至少一个存储器,至少一个存储器耦合到至少一个处理单元并且存储由至少一个处理单元可执行的指令。该指令在由至少一个处理单元执行后,使设备执行第一方面的方法。

4、在本公开的第四方面,提供了一种计算机可读存储介质。该介质存储有计算机程序,该计算机程序被处理器执行时实现第一方面的方法。

5、在本公开的第五方面,提供了一种计算机程序产品。该计算机程序产品包括计算机程序,该计算机程序在由处理器执行时使第一方面的方法被实现。

6、应当理解,在本发明的
技术实现要素:
部分中描述的内容既不旨在标识本公开的实施例的关键或必要特征,也不旨在限制本公开的范围。通过以下描述,将容易地设想本公开的其他特征。



技术特征:

1.一种用于基于模型的任务处理的方法,包括:

2.根据权利要求1所述的方法,其中所述更新参数集的秩上限为所述基础参数集的秩乘以所述第一参数集的秩加上所述第二参数集的秩之和。

3.根据权利要求1所述的方法,其中所述低秩机器学习模型包括具有所述第一参数集的第一低秩机器学习子模型和具有所述第二参数集的第二低秩机器学习子模型,

4.根据权利要求3所述的方法,其中获取所述第一参数集和所述第二参数集包括:

5.根据权利要求4所述的方法,其中所述第一参数集在所述低秩机器学习模型的所述训练过程中是固定的。

6.根据权利要求1所述的方法,还包括:

7.根据权利要求6所述的方法,还包括:

8.根据权利要求1所述的方法,其中所述基础机器学习模型是基于语言模型构建的。

9.一种用于基于模型的任务处理的装置,包括:

10.一种电子设备,包括:

11.一种计算机可读存储介质,具有存储于其上的计算机程序,所述计算机程序在由设备执行后,使所述设备执行根据权利要求1至8中任一项所述的方法。

12.一种计算机程序产品,被实施在计算机可读介质上并且包括计算机可执行指令,所述指令在由处理器执行时,执行根据权利要求1至8中任一项所述的方法。


技术总结
本公开的实施例提供了用于基于模型的任务处理的解决方案。方法包括:获取经预训练的基础机器学习模型的基础参数集以及用于第一任务的经训练的低秩机器学习模型的第一参数集和第二参数集,基础参数集、第一参数集和第二参数集为具有相同维度的矩阵形式;将哈达玛算子应用于基础参数集和第一参数集,以获取中间参数集;聚合第二参数集与中间参数集,以获取更新参数集;利用更新参数度量微调基础参数集,以获取用于与第一任务对应的目标机器学习模型的经微调参数集;以及应用目标机器学习模型,以利用经微调参数集执行用于第一任务的模型推理。

技术研发人员:高汝霆,黄秋实
受保护的技术使用者:北京有竹居网络技术有限公司
技术研发日:
技术公布日:2025/4/7
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1