本技术实施例涉及计算机领域,具体而言,涉及一种文本信息的识别方法、装置、存储介质及电子设备。
背景技术:
1、随着大型语言模型的应用需求越来越大,大型语言模型的训练过程也愈发受到关注。一般而言,大语言模型具有较大的网络层数以及较多的模型参数,目前训练大型语言模型的方式一般采用直接训练的方法,即按照所需建立的大型语言模型的层数需求构建对应的初始模型,再使用大量的训练样本对初始模型进行训练,最终得到对应的大型语言模型。但是由于所需建立的大型语言模型的层数和模型参数均较多,若按照这样的训练方式训练则训练过程中的训练压力会比较大,训练效率也会比较低。
技术实现思路
1、本技术实施例提供了一种文本信息的识别方法、装置、存储介质及电子设备,以至少解决相关技术中大型语言模型训练效率较低的问题。
2、根据本技术的一个实施例,提供了一种文本信息的识别方法,包括:
3、对为目标文本识别场景训练语言模型的训练过程进行检测,其中,所述目标文本识别场景是属于目标领域的文本信息的识别场景;
4、在检测到所述训练过程已完成的情况下,获取所述训练过程得到的第一语言模型,以及所述第一语言模型的第一优化器,其中,所述第一优化器用于记录得到所述第一语言模型时所述第一语言模型所包括的全部网络层的网络参数的迭代过程;
5、对所述第一语言模型的第一网络层进行网络层扩展得到第二语言模型,并对所述第一优化器进行更新,得到所述第二语言模型的第二优化器,其中,所述第二语言模型包括所述第一语言模型所包括的全部网络层和第二网络层,所述第二网络层的网络参数与所述第一网络层的网络参数相同,所述第二优化器用于记录所述第二语言模型所包括的全部网络层的网络参数的迭代过程以及与所述第二网络层对应的得到所述第一语言模型时所述第一网络层的网络参数的迭代过程;
6、使用所述第二优化器和属于所述目标领域的文本样本对所述第二语言模型进行训练,得到目标语言模型,其中,所述目标语言模型用于识别属于目标领域的文本信息。
7、在一个示例性实施例中,所述使用所述第二优化器和属于所述目标领域的文本样本对所述第二语言模型进行训练,包括:
8、从所述第二优化器中提取所述第一网络层的网络参数的参考迭代过程,得到第三优化器;
9、使用所述第二优化器、所述第三优化器以及属于所述目标领域的文本样本对所述第二语言模型进行训练。
10、在一个示例性实施例中,所述使用所述第二优化器、所述第三优化器以及属于所述目标领域的文本样本对所述第二语言模型进行训练,包括:
11、使用所述第三优化器以及属于所述目标领域的文本样本对所述第二语言模型进行n轮训练,并根据所述n轮训练更新所述第二优化器,得到第三语言模型和第四优化器,其中n为大于0的整数;
12、使用所述第四优化器以及属于所述目标领域的文本样本对所述第三语言模型进行m轮训练,其中m为大于0的整数。
13、在一个示例性实施例中,所述使用所述第三优化器以及属于所述目标领域的文本样本对所述第二语言模型进行n轮训练,并根据所述n轮训练更新所述第二优化器,得到第三语言模型和第四优化器,包括:
14、在所述n轮训练的每一轮训练中,使用所述第三优化器以及属于所述目标领域的文本样本对所述第二语言模型中的第一网络层进行p次训练,得到第四语言模型和第五优化器,其中,p为大于0的整数;
15、使用所述第四语言模型中的所述第一网络层的网络参数对所述第四语言模型中的所述第二网络层的网络参数进行更新,得到第五语言模型,以及使用所述第五优化器中记录的所述第一网络层的网络参数的迭代过程对所述第二优化器中记录的对所述第一网络层和所述第二网络层的网络参数的迭代过程进行更新,得到第六优化器;
16、使用所述第六优化器以及属于所述目标领域的文本样本对所述第五语言模型进行k次训练,得到第六语言模型和第七优化器,其中,k为大于0的整数;
17、获取在所述n轮训练中当前所处的训练轮数;
18、在当前对所述第二语言模型的所述训练轮数为对所述第二语言模型的第n轮训练的情况下,将所述第六语言模型确定为所述第三语言模型,以及将所述第七优化器确定为所述第四优化器;
19、在当前对所述第二语言模型的所述训练轮数为除所述第n轮训练以外的其他轮训练的情况下,将所述第六语言模型确定为所述第二语言模型,以及使用所述第七优化器中记录的对所述第一网络层的网络参数的迭代过程对所述第三优化器中记录的对所述第一网络层的网络参数的迭代过程进行更新。
20、在一个示例性实施例中,所述使用所述第七优化器中记录的对所述第一网络层的网络参数的迭代过程对所述第三优化器中记录的对所述第一网络层的网络参数的迭代过程进行更新,包括:
21、获取与所述第三优化器中存储的对所述第一网络层的第一优化参数对应的第一权重,以及所述第七优化器中存储的所述第一网络层的第二优化参数对应的第二权重,其中,所述优化参数用于指示对对应的网络层的网络参数的迭代过程;
22、使用所述第一权重对所述第一优化参数进行加权计算,得到第三优化参数,以及使用所述第二权重对所述第二优化参数进行加权计算,得到第四优化参数;
23、将所述第三优化器中存储的第一网络层的优化参数更新为所述第三优化参数和所述第四优化参数的和值。
24、在一个示例性实施例中,所述对所述第一语言模型的第一网络层进行网络层扩展得到第二语言模型,包括:
25、获取对所述第一网络层的目标扩展层数;
26、按照所述目标扩展层数对所述第一网络层进行复制,得到所述目标扩展层数的所述第二网络层;
27、将依次连接的所述第二网络层添加在所述第一语言模型的所述第一网络层之后,得到所述第二语言模型。
28、在一个示例性实施例中,所述获取对所述第一网络层的目标扩展层数,包括:
29、获取所述第一语言模型的目标损失值,其中,所述目标损失值用于表征所述第一语言模型对目标样本的识别响应结果和所述目标样本标注的识别响应结果的差异情况;
30、从具有对应的系的损失值和扩展层数中确定出与所述目标损失值对应的所述目标扩展层数。
31、在一个示例性实施例中,所述对所述第一优化器进行更新,得到所述第二语言模型的第二优化器,包括:
32、按照对所述第一网络层进行层数扩展的目标扩展层数对所述第一优化器中的第一信息进行复制,得到第二信息,其中,所述第一信息用于指示对所述第一网络层的网络参数的迭代过程;
33、将所述第二信息添加到所述第一优化器中与所述第二网络层对应的位置,得到所述第二优化器。
34、根据本技术的另一个实施例,提供了一种文本信息的识别装置,包括:
35、检测模块,用于对为目标文本识别场景训练语言模型的训练过程进行检测,其中,所述目标文本识别场景是属于目标领域的文本信息的识别场景;
36、获取模块,用于在检测到所述训练过程已完成的情况下,获取所述训练过程得到的第一语言模型,以及所述第一语言模型的第一优化器,其中,所述第一优化器用于记录得到所述第一语言模型时所述第一语言模型所包括的全部网络层的网络参数的迭代过程;
37、扩展模块,用于对所述第一语言模型的第一网络层进行网络层扩展得到第二语言模型,并对所述第一优化器进行更新,得到所述第二语言模型的第二优化器,其中,所述第二语言模型包括所述第一语言模型所包括的全部网络层和第二网络层,所述第二网络层的网络参数与所述第一网络层的网络参数相同,所述第二优化器用于记录所述第二语言模型所包括的全部网络层的网络参数的迭代过程以及与所述第二网络层对应的得到所述第一语言模型时所述第一网络层的网络参数的迭代过程;
38、训练模块,用于使用所述第二优化器和属于所述目标领域的文本样本对所述第二语言模型进行训练,得到目标语言模型,其中,所述目标语言模型用于识别属于目标领域的文本信息。
39、根据本技术的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
40、根据本技术的又一个实施例,还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
41、通过本技术,获取经过为目标文本识别场景训练的第一语言模型,以及第一语言模型的第一优化器,通过在第一语言模型的基础上进行网络层的扩展,使得扩展后的第二语言模型一方面能够继承第一语言模型的训练结果,另一方面能够满足模型网络层数规模的需求,并对第一优化器进行更新,得到第二语言模型的第二优化器,进而通过使用第二优化器和属于目标领域的文本样本对第二语言模型进行训练的方式,使得第二语言模型能够更快的收敛。因此,可以解决相关技术中大型语言模型训练效率较低的问题,能够实现提高大型语言模型训练效率的效率。