基于Transformer网络的文本处理方法及系统

文档序号:32483320发布日期:2022-12-09 23:56阅读:来源:国知局

技术特征:
1.一种基于transformer网络的文本处理方法,其特征在于,包括:当前次编码计算后,更新一个数据批内每条输入文本的已编码次数;分别判断每条输入文本是否可以提前退出,以及,分别判断每条输入文本的已编码次数是否达到预设的最大计算层数;如果存在输入文本可以提前退出或已编码次数达到预设的最大计算层数,则用待处理文本更新对应的输入文本;对数据批内的各输入条文本进行下一次编码计算,其中,每次编码计算均采用相同参数的编码器。2.根据权利要求1所述的一种基于transformer网络的文本处理方法,其特征在于,还包括:重复编码计算、判断每条输入文本是否可以提前退出或每条输入文本的已编码次数是否达到预设的最大计算层数,以及用待处理文本更新对应的输入文本,直至所有待处理文本均已得到处理。3.根据权利要求1所述的一种基于transformer网络的文本处理方法,其特征在于,所述当前次编码计算后,更新一个数据批内每条输入文本的已编码次数之前,还包括:获取待处理文本集,所述待处理文本集包括多条待处理文本;初始化输入张量集,输入张量集中张量的位置数量为数据批大小,张量的初始值为空;初始化编码次数集,编码次数集中元素的数量为数据批大小,元素用于记录对应输入文本的已编码次数;取出输入张量集中空缺位置数量的待处理文本,得到至少一条输入文本;将输入文本转化的填充张量加入输入张量集中空缺位置;对输入张量集中各张量进行编码计算。4.根据权利要求3所述的一种基于transformer网络的文本处理方法,其特征在于,所述更新一个数据批内每条输入文本的已编码次数,包括:将编码次数集中每个元素加1。5.根据权利要求3所述的一种基于transformer网络的文本处理方法,其特征在于,所述如果存在输入文本可以提前退出或已编码次数达到预设的最大计算层数,则用待处理文本更新对应的输入文本,包括:如果存在输入文本可以提前退出或已编码次数达到预设的最大计算层数,则将输入张量集中对应的张量置空,以及,将编码次数集中对应的元素置空;重复所述取出输入张量集中空缺位置数量的待处理文本和所述将输入文本转化的填充张量加入输入张量集中空缺位置。6.根据权利要求5所述的一种基于transformer网络的文本处理方法,其特征在于,还包括:如果输入文本未能提前退出且已编码次数未达到预设的最大计算层数,则直接进行下一次编码计算。7.一种基于transformer网络的文本处理系统,其特征在于,包括:更新编码次数模块,用于当前次编码计算后,更新一个数据批内每条输入文本的已编码次数;判断模块,用于分别判断每条输入文本是否可以提前退出,以及,分别判断每条输入文
本的已编码次数是否达到预设的最大计算层数;更新输入文本模块,用于如果存在输入文本可以提前退出或已编码次数达到预设的最大计算层数,则用待处理文本更新对应的输入文本;下一次编码计算模块,用于对数据批内的各输入条文本进行下一次编码计算,其中,每次编码计算均采用相同参数的编码器。8.根据权利要求7所述的一种基于transformer网络的文本处理系统,其特征在于,还包括重复编码模块,所述重复编码模块用于重复编码计算、判断每条输入文本是否可以提前退出或每条输入文本的已编码次数是否达到预设的最大计算层数,以及用待处理文本更新对应的输入文本,直至所有待处理文本均已得到处理。9.根据权利要求7所述的一种基于transformer网络的文本处理系统,其特征在于,还包括:获取模块,用于获取待处理文本集,所述待处理文本集包括多条待处理文本;初始化张量模块,用于初始化输入张量集,输入张量集中张量的位置数量为数据批大小,张量的初始值为空;初始化编码次数模块,用于初始化编码次数集,编码次数集中元素的数量为数据批大小,元素用于记录对应输入文本的已编码次数,元素的初始值为空;文本输入模块,用于取出输入张量集中空缺位置数量的待处理文本,得到至少一条输入文本;填充文本模块,用于将输入文本转化的填充张量加入输入张量集中空缺位置;当前编码计算模块,用于对输入张量集中各张量进行编码计算。10.根据权利要求9所述的一种基于transformer网络的文本处理系统,其特征在于,所述更新输入文本模块进一步被配置为:如果存在输入文本可以提前退出或已编码次数达到预设的最大计算层数,则将输入张量集中对应的张量置空,以及,将编码次数集中对应的元素置空;重复所述取出输入张量集中空缺位置数量的待处理文本和所述将输入文本转化的填充张量加入输入张量集中空缺位置。

技术总结
本申请涉及自然语言处理技术领域,提供一种基于Transformer网络的文本处理方法及系统,在当前次编码计算后,更新一个数据批内每条输入文本的已编码次数,并分别判断每条输入文本是否可以提前退出,以及,分别判断每条输入文本的已编码次数是否达到预设的最大计算层数,如果存在输入文本可以提前退出或已编码次数达到预设的最大计算层数,则用待处理文本更新对应的输入文本,对数据批内的各输入条文本进行下一次编码计算,其中,每次编码计算均采用相同参数的编码器。基于编码器参数的复用,以及对输入文本的循环填充,使得GPU上模型同时处理的文本数量恒定在数据批大小,有效兼容提前退出机制和数据批大小大于1。容提前退出机制和数据批大小大于1。容提前退出机制和数据批大小大于1。


技术研发人员:王中风 周晨晨 路思远 林军
受保护的技术使用者:南京大学
技术研发日:2022.09.23
技术公布日:2022/12/8
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1