融合领域知识的预训练模型训练方法、数据处理方法与流程

文档序号:33999976发布日期:2023-04-29 18:16阅读:55来源:国知局
融合领域知识的预训练模型训练方法、数据处理方法与流程

本发明涉及数据处理,尤其涉及一种融合领域知识的预训练模型训练方法、数据处理方法。


背景技术:

1、预训练模型是一个通过大量数据上进行训练并被保存下来的模型。可以将其通俗的理解为前人为了解决类似问题所创造出来的一个模型,有了前人的模型,当我们遇到新的问题时,便不再需要从零开始训练新模型,而可以直接用这个模型入手,进行简单的学习便可解决该新问题。

2、在实际的应用场景中,可能会存在多个场景下的预训练模型,以自然语言处理领域为例,在电梯交互领域、智能家居交互领域都会具有不同的预训练模型,例如需要开发一个领域为车机交互领域,此时即可以在电梯交互领域、智能家居交互领域的基础上进行训练,即以电梯交互领域或智能家居交互领域的当前交互模型作为预训练模型,对预训练模型进行持续的训练,得到与所需要领域相对应的新训练模型。

3、现有技术中,并无法根据用户的部署场景需求,快速的确定最适宜的预训练模型进行后续的数据处理,导致相应模型在部署后计算效果较差。所以,亟需一种技术方案,能够融合领域知识,在多个预训练模型中进行相应的挑选、再次训练,使得相应模型在部署后计算效果较好。


技术实现思路

1、本发明实施例提供一种融合领域知识的预训练模型训练方法、数据处理方法,能够融合领域知识,在多个预训练模型中进行相应的挑选、再次训练,能够快速、高效的训练,得到功能全面的最终模型,使得相应模型在部署后计算效果较好。

2、本发明实施例的第一方面,提供一种融合领域知识的预训练模型训练方法,包括:

3、服务器在判断接收到请求端发送的模型处理请求和目标领域样本集后,调取数据库中与每个第一预训练模型所对应的第一领域样本集,所述目标领域样本集的目标领域为请求端当前的应用领域,所述第一领域样本集为预先存储的第一领域的样本数据,所述第一领域为多个预设的交互应用领域,每个第一领域包括与其对应的第一预训练模型,所述目标领域样本集、第一领域样本集所包括的样本为相应领域所提取的语料样本;

4、依次遍历所述目标领域样本集内的每一个目标训练样本,将所述目标领域样本与第一领域样本集内的第一训练样本进行比对,确定与第一训练样本相同或相对应的目标训练样本,统计每一个第一领域样本集中相同或相对应的目标训练样本的第一数量,以及不同或不相对应的目标训练样本的第二数量,基于第一数量、第二数量对相似度进行计算,分别得到多个第一领域样本集与目标领域样本集的样本集相似度系数,对所有的样本集相似度系数进行比对,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集;

5、依次遍历所述目标领域样本集内的每一个目标训练样本,将所述目标领域样本与第二领域样本集内的第二训练样本进行比对,确定与第二训练样本不同的目标训练样本,基于所确定的目标训练样本生成差异样本集,差异样本集中的每个差异训练样本至少包括一个差异训练语句;

6、将所述第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,根据所述训练词语构建与所述差异训练语句对应的槽位模板,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型。

7、可选地,在第一方面的一种可能实现方式中,所述依次遍历所述目标领域样本集内的每一个目标训练样本,将所述目标领域样本与第一领域样本集内的第一训练样本进行比对,确定与第一训练样本相同或相对应的目标训练样本,统计每一个第一领域样本集中相同或相对应的目标训练样本的第一数量,以及不同或不相对应的目标训练样本的第二数量,基于第一数量、第二数量对相似度进行计算,分别得到多个第一领域样本集与目标领域样本集的样本集相似度系数,对所有的样本集相似度系数进行比对,将相似度系数最高的或次高的第一领域样本集作为第二领域样本集,包括:

8、根据所述样本集相似度系数对所有的第一领域样本集进行降序排序,将样本集相似度系数最高的第一领域样本集作为第二领域样本集;

9、若判断样本集相似度系数最高的第一领域样本集与样本集相似度系数次高的第一领域样本集之间的相似度系数之差小于预设差值,则对相似度系数最高、次高的第一领域样本集进行显示。

10、可选地,在第一方面的一种可能实现方式中,统计每一个第一领域样本集中相同或相对应的目标训练样本的第一数量,以及不同或不相对应的目标训练样本的第二数量,基于第一数量、第二数量对相似度进行计算,分别得到多个第一领域样本集与目标领域样本集的样本集相似度系数,包括:

11、根据所述第一数量、目标领域样本集内目标训练样本的总数量进行计算,得到第一领域样本集与目标领域样本集的相同评价子系数;

12、根据所述第二数量、目标领域样本集内目标训练样本的总数量进行计算,得到第一领域样本集与目标领域样本集的不同评价子系数;

13、分别对所述相同评价子系数、不同评价子系数进行加权处理,得到第一领域样本集与目标领域样本集的样本集相似度系数,通过以下公式计算样本集相似度系数,

14、,

15、,

16、其中,xsim为第一领域样本集与目标领域样本集的样本集相似度系数,为相同评价子系数,为不同评价子系数,side为相同或相对应的目标训练样本的第一数量,为目标领域样本集内目标训练样本的总数量,为第一计算权重,sdif为不同或不相对应的目标训练样本的第二数量,为第二计算权重,为计算常数;

17、其中,所述预设差值为0.05。

18、可选地,在第一方面的一种可能实现方式中,还包括:

19、若判断用户将次高的第一领域样本集作为第二领域样本集,将原最高的第一领域样本集不作为第二领域样本集;

20、则将次高的第一领域样本集的第一数量作为第一待比对数量、次高的第一领域样本集的第二数量作为第二待比对数量,以及将最高的第一领域样本集的第一数量作为第三待比对数量、最高的第一领域样本集的第二数量作为第四待比对数量;

21、若所述第一待比对数量、第二待比对数量、第三待比对数量以及第四待比对数量满足预设条件,则对所述第一计算权重或第二计算权重进行训练,得到训练后的第三计算权重或第四计算权重。

22、可选地,在第一方面的一种可能实现方式中,所述若所述第一待比对数量、第二待比对数量、第三待比对数量以及第四待比对数量满足预设条件,则对所述第一计算权重或第二计算权重进行训练,得到训练后的第三计算权重或第四计算权重,包括:

23、若所述第一待比对数量大于所述第三待比对数量,且第二待比对数量大于所述第四待比对数量,则判断满足预设条件;

24、则对所述第一计算权重进行增大训练,得到增大训练后的第三计算权重;

25、若所述第一待比对数量小于所述第三待比对数量,且第二待比对数量小于所述第四待比对数量,则判断满足预设条件;

26、则对所述第二计算权重进行增大训练,得到增大训练后的第四计算权重。

27、可选地,在第一方面的一种可能实现方式中,所述则对所述第一计算权重进行增大训练,得到增大训练后的第三计算权重,包括:

28、根据所述相似度系数之差、最高的第一领域样本集的样本集相似度系数进行计算得到增大训练比例,根据所述第一计算权重、增大训练比例得到增大训练后的第三计算权重;

29、所述则对所述第二计算权重进行增大训练,得到增大训练后的第四计算权重,包括:

30、根据所述相似度系数之差、最高的第一领域样本集的样本集相似度系数进行计算得到增大训练比例,根据所述第二计算权重、增大训练比例得到增大训练后的第四计算权重;

31、通过以下公式计算增大训练后的第三计算权重或增大训练后的第四计算权重,

32、

33、

34、其中,kide3为增大训练后的第三计算权重,xfirsim为最高的相似度系数,xsimsec为次高的相似度系数,kdif4为增大训练后的第四计算权重,为增大训练比例。

35、可选地,在第一方面的一种可能实现方式中,所述将所述第二领域样本集所对应的第一预训练模型作为第二预训练模型,控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,根据所述训练词语构建与所述差异训练语句对应的槽位模板,将槽位与训练语句的对应关系以及相应的槽位模板对应存储,得到最终模型,包括:

36、提取所述差异样本集内的所有差异训练样本,每个差异训练样本中至少包括一个差异训练语句,所述差异训练语句具有与其对应的预设指令信息和/或预设反馈语句;

37、控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,根据所述训练词语构建与所述差异训练语句对应的槽位模板,所述槽位模板至少包括一个第一槽位;

38、对槽位模板中的所有第一槽位进行编号,确定每个槽位编号与训练词语之间的对应关系,将所述对应关系与相应的槽位模板对应存储,得到最终模型。

39、可选地,在第一方面的一种可能实现方式中,所述控制第二预训练模型对所述差异训练语句进行分词处理得到至少一个训练词语,根据所述训练词语构建与所述差异训练语句对应的槽位模板,所述槽位模板至少包括一个第一槽位,包括:

40、根据每个训练词语的位置关系,在槽位模板中建立与每个训练词语对应的第一槽位;

41、根据预先设置的词语库确定每个训练词语所对应的同义词语,所述词语库中具有训练词语与同义词语的对应关系;

42、统计每个训练词语、相对应的所有同义词语生成词语集合。

43、可选地,在第一方面的一种可能实现方式中,所述对槽位模板中的所有第一槽位进行编号,确定每个槽位编号与训练词语之间的对应关系,将所述对应关系与相应的槽位模板对应存储,得到最终模型,包括:

44、按照顺序对槽位模板中的所有第一槽位进行升序的编号,得到每个第一槽位所对应的槽位编号;

45、根据所述槽位编号与训练词语之间的对应关系,确定槽位编号与词语集合的对应关系,将所述对应关系与相应的槽位模板对应存储,得到最终模型。

46、本发明实施例的第二方面,提供一种数据处理方法,配置本发明实施例的第一方面训练得到的最终模型,还包括:

47、接收用户控制语句,对所述控制语句进行分词处理得到至少一个控制词语,根据所述控制词语的时序对所有的控制词语进行升序编号;

48、确定槽位模板的最小编号的第一槽位对应的词语集合,若判断所述词语集合内的训练词语与控制词语相对应,则将相应的槽位模板作为待筛选的槽位模板;

49、将所有待筛选的槽位模板的其他第一槽位的词语集合,与其他编号的控制词语比对;

50、若判断待筛选的槽位模板中的所有第一槽位与控制词语完全对应,则将相应待筛选的槽位模板作为输出的槽位模板,将输出的槽位模板对应的预设指令信息和/或预设反馈语句输出。

51、可选地,在第二方面的一种可能实现方式中,所述若判断待筛选的槽位模板中的所有第一槽位与控制词语完全对应,则将相应待筛选的槽位模板作为输出的槽位模板,将输出的槽位模板对应的预设指令信息和/或预设反馈语句输出,包括:

52、若判断控制词语的最大编号与第一槽位的最大槽位编号不对应,则将不对应的槽位模板删除;

53、若判断控制词语的最大编号与第一槽位的最大槽位编号相对应,则按照控制词语的编号将控制词语与每一个第一槽位的词语集合进行比对,若相同编号的控制词语与相应的词语集合相对应,则判断待筛选的槽位模板中的所有第一槽位与控制词语完全对应。

54、本发明实施例的第三方面,提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述方法。

55、本发明提供的一种融合领域知识的预训练模型训练方法、数据处理方法,能够将目标领域样本集与第一预训练模型的第一领域样本集进行比对,进而在多个第一预训练模型中确定满足当前训练需要的第二预训练模型,并根据目标领域样本集与第二领域样本集的差异,得到差异样本集,结合差异样本集对第二预训练模型再次进行训练得到最终模型。该种方式的优点在于,本发明能够在先前已训练模型的基础上训练属于相应独特知识领域的最终模型,具有训练效率高的优势,并且根据差异样本集对第二预训练模型再次进行训练,使得最终模型更加的全面,能够满足相应知识领域的交互场景。

56、本发明在计算样本集相似度系数时,会综合考虑第一领域样本集与目标领域样本集中相同或相对应的目标训练样本的第一数量、不同或不相对应的目标训练样本的第二数量,通过第一数量可以反映出第一领域样本集与目标领域样本集所对应模型的相似关系,通过第二数量可以反映出相应模型的体量、无用数据量。使得本发明在计算相似度系数会综合考虑多个维度,使所计算的相似度系数更加贴合相应的应用场景。

57、本发明会结合用户对第二领域样本集进行调整,并且在判断用户主动对第二领域样本集进行调整时,本发明会对计算样本集相似度系数的第一计算权重和第二计算权重进行持续的训练,使得训练后的第三计算权重和第四计算权重更加符合当前的计算、应用场景。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1