本公开涉及计算机,具体涉及人工智能、深度学习、生成式大模型等,尤其涉及信息处理及其大模型的训练方法、装置、设备及存储介质。
背景技术:
1、大语言模型(llm,large language model)是一种人工智能模型,由具有许多参数(通常数十亿个权重或更多)的神经网络组成,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。
技术实现思路
1、本公开提供了一种信息处理及其大模型的训练方法、装置、设备及存储介质,提升信息处理的准确性。
2、根据本公开的第一方面,提供了一种信息处理方法,包括:
3、从层级标签体系中确定输入信息对应的候选标签,其中,层级标签体系包括n层标签,其中的第1层标签为初始标签,其他层标签为聚合标签,n为大于1的整数,候选标签包括至少一个候选聚合标签和至少两个候选初始标签;
4、确定候选标签对应的语义描述信息;
5、基于输入信息、候选标签和语义描述信息,生成待处理信息;
6、根据待处理信息,从至少两个候选初始标签中确定输入信息对应的目标标签。
7、根据本公开的第二方面,提供了一种信息处理大模型的训练方法,包括:
8、从层级标签体系中确定样本信息对应的样本标签,其中,层级标签体系包括n层标签,其中的第1层标签为初始标签,其他层标签为聚合标签,n为大于1的整数,样本标签包括至少一个样本聚合标签和一个样本初始标签;
9、确定样本标签对应的样本描述信息;
10、基于样本信息、样本标签和样本描述信息,生成样本数据;
11、以样本数据作为输入、样本初始标签作为期望输出,训练初始大模型,得到信息处理大模型。
12、根据本公开的第三方面,提供了一种信息处理装置,包括:
13、第一确定模块,被配置为从层级标签体系中确定输入信息对应的候选标签,其中,层级标签体系包括n层标签,其中的第1层标签为初始标签,其他层标签为聚合标签,n为大于1的整数,候选标签包括至少一个候选聚合标签和至少两个候选初始标签;
14、第二确定模块,被配置为确定候选标签对应的语义描述信息;
15、第一生成模块,被配置为基于输入信息、候选标签和语义描述信息,生成待处理信息;
16、第三确定模块,被配置为根据待处理信息,从至少两个候选初始标签中确定输入信息对应的目标标签。
17、根据本公开的第四方面,提供了一种信息处理大模型的训练装置,包括:
18、第四确定模块,被配置为从层级标签体系中确定样本信息对应的样本标签,其中,层级标签体系包括n层标签,其中的第1层标签为初始标签,其他层标签为聚合标签,n为大于1的整数,样本标签包括至少一个样本聚合标签和至少两个样本初始标签;
19、第五确定模块,被配置为确定样本标签对应的样本描述信息;
20、第二生成模块,被配置为基于样本信息、样本标签和样本描述信息,生成样本数据;
21、训练模块,被配置为以样本数据作为输入、样本初始标签作为期望输出,训练初始大模型,得到信息处理大模型。
22、根据本公开的第五方面,提供了一种电子设备,包括:
23、至少一个处理器;以及
24、与至少一个处理器通信连接的存储器;其中,
25、存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面或第二方面提供的方法。
26、根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面或第二方面提供的方法。
27、根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据第一方面或第二方面提供的方法。
28、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
1.一种信息处理方法,包括:
2.根据权利要求1所述的方法,其中,所述从层级标签体系中确定输入信息对应的候选标签,包括:
3.根据权利要求2所述的方法,其中,所述基于所述输入信息和所述历史处理信息,从所述层级标签体系中确定所述输入信息对应的候选标签,包括:
4.根据权利要求1所述的方法,其中,第x层标签是基于第x-1层标签聚合得到的,x为大于1、且小于或等于n的整数。
5.根据权利要求1所述的方法,其中,所述确定所述候选标签对应的语义描述信息,包括:
6.根据权利要求1所述的方法,其中,所述基于所述输入信息、所述候选标签信息和所述语义描述信息,生成待处理信息,包括:
7.根据权利要求1所述的方法,其中,所述根据所述待处理信息,从所述至少两个候选初始标签中确定所述输入信息对应的目标标签,包括:
8.一种信息处理大模型的训练方法,包括:
9.根据权利要求8所述的方法,其中,所述从层级标签体系中确定样本信息对应的样本标签,包括:
10.根据权利要求8所述的方法,其中,第x层标签是基于第x-1层标签聚合得到的,x为大于1、且小于或等于n的整数。
11.根据权利要求8所述的方法,其中,所述确定所述样本标签对应的样本描述信息,包括:
12.根据权利要求8所述的方法,其中,所述基于所述样本信息、所述样本标签和所述样本描述信息,生成样本数据,包括:
13.一种信息处理装置,包括:
14.根据权利要求13所述的装置,其中,所述第一确定模块包括:
15.根据权利要求14所述的装置,其中,所述第二确定单元被配置为:
16.根据权利要求13所述的装置,其中,第x层标签是基于第x-1层标签聚合得到的,x为大于1、且小于或等于n的整数。
17.根据权利要求13所述的装置,其中,所述第二确定模块被配置为:
18.根据权利要求13所述的装置,其中,所述第一生成模块被配置为:
19.根据权利要求13所述的装置,其中,所述第三确定模块被配置为:
20.一种信息处理大模型的训练装置,包括:
21.根据权利要求20所述的装置,其中,所述第四确定模块被配置为:
22.根据权利要求20所述的装置,其中,第x层标签是基于第x-1层标签聚合得到的,x为大于1、且小于或等于n的整数。
23.根据权利要求20所述的装置,其中,所述第五确定模块被配置为:
24.根据权利要求20所述的装置,其中,所述第二生成模块被配置为:
25.一种电子设备,包括:
26.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。
27.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述的方法。