专家知识驱动的大模型定制化数据处理方法及相关设备

文档序号:41381850发布日期:2025-03-21 15:37阅读:10来源:国知局
专家知识驱动的大模型定制化数据处理方法及相关设备

本申请涉及数据处理,尤其涉及一种专家知识驱动的大模型定制化数据处理方法及相关设备。


背景技术:

1、当前智能分析正朝着多任务方向发展。传统的单任务模型已逐渐被通才大模型所取代,这些大模型具备处理跨域、跨模态、跨任务的潜力。然而,现有技术在实际应用中仍然面临着通用性与专用性的矛盾。通才大模型的泛化能力强,但在特定任务上的精度可能不及专用模型。这是由于多任务混合训练时任务之间的语义冲突造成的,彼此冲突的任务会在训练时相互干扰,从而造成性能上的负迁移。


技术实现思路

1、有鉴于此,本申请的目的在于提出一种专家知识驱动的大模型定制化数据处理方法及相关设备。

2、基于上述目的,本申请提供了一种专家知识驱动的大模型定制化数据处理方法,包括:

3、将获取的业务数据输入至训练好的可动态定制专家子模型的大模型;

4、在所述可动态定制专家子模型的大模型中,基于所述业务数据,确定知识嵌入向量;基于所述知识嵌入向量,确定每个适配器专家的权重,定制专家子模型;

5、基于所述专家子模型对所述业务数据进行处理。

6、在一种可能的实现方式中,所述训练好的可动态定制专家子模型的大模型的训练过程包括:

7、基于对应业务的大数据构建知识树,得到数据层次结构;

8、基于所述数据层次结构构建上下文嵌入先验;在所述上下文嵌入先验中,每个数据样本对应于一组可学习的上下文嵌入向量,以表征该样本的知识先验;

9、构建混合适配器专家网络;所述混合适配器专家网络包括一个门控网络和至少两个适配器专家;

10、将所述上下文嵌入先验和所述混合适配器专家网络嵌入至大模型的编码器中,得到待训练的大模型;

11、基于所述大数据输入所述待训练的大模型的结果以及所述大数据对应的标签,对所述待训练的大模型进行训练,得到所述训练好的可动态定制专家子模型的大模型。

12、在一种可能的实现方式中,所述基于对应业务的大数据构建知识树,得到数据层次结构,包括:

13、对获取的所述大数据中的术语进行提取,得到实体节点;

14、将所述实体节点划分为层次结构;

15、基于所述层次结构将所述大数据中的数据样本显示映射至每个叶节点,构建所述知识树,得到所述数据层次结构。

16、在一种可能的实现方式中,所述基于所述业务数据,确定知识嵌入向量,包括:

17、根据所述业务数据对应的标签,确定所述业务数据在所述数据层次结构中对应的节点位置;

18、基于所述节点位置,确定所述业务数据的所述知识嵌入向量。

19、在一种可能的实现方式中,所述基于所述知识嵌入向量,确定每个适配器专家的权重,定制专家子模型,包括:

20、对所述数据进行特征表征,得到数据表征;

21、基于所述数据表征和所述知识嵌入向量,得到门控向量;

22、基于所述门控向量确定每个适配器专家的所述权重,定制专家子模型。

23、在一种可能的实现方式中,所述基于所述专家子模型对所述业务数据进行处理是通过下述公式进行的:

24、

25、其中,表示处理结果,表示前馈网络,表示第个适配器专家,表示中的第个条目,代表第个适配器专家对的贡献,表示数据表征,门控向量定义为。

26、基于同一发明构思,本申请实施例还提供了一种专家知识驱动的大模型定制化数据处理装置,包括:

27、输入模块,被配置为将获取的业务数据输入至训练好的可动态定制专家子模型的大模型;

28、可动态定制专家子模型的大模型模块,被配置为在所述可动态定制专家子模型的大模型中,基于所述业务数据,确定知识嵌入向量;基于所述知识嵌入向量,确定每个适配器专家的权重,定制对应专家子模型;

29、处理模块,被配置为基于所述专家子模型对所述业务数据进行处理。

30、基于同一发明构思,本申请实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任意一项所述的专家知识驱动的大模型定制化数据处理方法。

31、基于同一发明构思,本申请实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述任一所述的专家知识驱动的大模型定制化数据处理方法。

32、基于同一发明构思,本申请实施例还提供了一种计算机程序产品,其包括计算机程序指令,所述计算机指令用于使所述计算机程序产品执行上述任一所述的专家知识驱动的大模型定制化数据处理方法。

33、从上面所述可以看出,本申请提供的专家知识驱动的大模型定制化数据处理方法及相关设备,通过将获取的业务数据输入至训练好的可动态定制专家子模型的大模型;在所述可动态定制专家子模型的大模型中,基于所述业务数据,确定知识嵌入向量;基于所述知识嵌入向量,确定每个适配器专家的权重,定制专家子模型;基于所述专家子模型对所述业务数据进行处理,为不同业务场景动态定制专用模型。在业务场景下兼顾大模型的泛化能力和专用能力,实现一个大模型解决多种业务,在多场景下具备业务可用性。具体来说,该方案基于大规模业务数据,利用多维度业务信息与专家知识构建业务知识层次结构。结合大模型高效微调技术、混合专家策略,在业务数据知识的引导下实现动态专家组合适配,从而为不同业务数据定制不同的专家子模型,实现多场景下的自动适配,实现更专业的数据处理。



技术特征:

1.一种专家知识驱动的大模型定制化数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述训练好的可动态定制专家子模型的大模型的训练过程包括:

3.根据权利要求2所述的方法,其特征在于,所述基于对应业务的大数据构建知识树,得到数据层次结构,包括:

4.根据权利要求2所述的方法,其特征在于,所述基于所述业务数据,确定知识嵌入向量,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述知识嵌入向量,确定每个适配器专家的权重,定制专家子模型,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述专家子模型对所述业务数据进行处理是通过下述公式进行的:

7.一种专家知识驱动的大模型定制化数据处理装置,其特征在于,包括:

8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任意一项所述的方法。

9.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行权利要求1至6任一所述方法。

10.一种计算机程序产品,包括计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行如权利要求1至6中任一项所述的方法。


技术总结
本申请提供一种专家知识驱动的大模型定制化数据处理方法及相关设备。所述方法包括:将获取的业务数据输入至训练好的可动态定制专家子模型的大模型;在所述大模型中,基于所述业务数据,确定知识嵌入向量;基于所述知识嵌入向量,确定每个适配器专家的权重,定制专家子模型;基于所述专家子模型对所述业务数据进行处理。本申请实施例基于大规模业务数据,利用多维度业务信息与专家知识构建业务知识层次结构。结合大模型高效微调技术、混合专家策略,在业务数据知识的引导下实现动态专家组合适配,从而为不同业务数据定制不同的专家模型,实现多场景下的自动适配,实现更专业的数据处理。

技术研发人员:王光宇,张思琦,岳靖昆,刘晓鸿,张平
受保护的技术使用者:北京邮电大学
技术研发日:
技术公布日:2025/3/20
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1