本申请属于人工智能领域,尤其涉及一种长文本处理方法以及相关装置。
背景技术:
1、目前,大型语言模型在自然语言处理(nlp)领域取得了显著进展,广泛应用于机器翻译、文本生成、对话系统等任务。
2、随着互联网内容的爆炸性增长,处理和理解长文本变得愈发重要。用户希望能够处理如长篇文章、完整书籍、跨会话对话等超长文本。相关技术中,大型语言模型主要依赖于自注意力机制(self-attention mechanism)来捕捉输入序列中的依赖关系。然而,随着输入长度的增加,模型的计算复杂度和内存需求呈指数级增长,这导致了长文本处理效率低下、上下文信息丢失等技术问题。可见现有的大型语言模型在处理长文本时存在明显的局限性,往往难以满足用户的上述需求。
3、因此,亟待设计一种全新的技术方案,用以克服上述至少一个技术问题。
技术实现思路
1、本申请提供了一种长文本处理方法以及相关装置,用以提高长文本处理的效率和准确性,增强模型的上下文记忆能力和灵活适应性。
2、第一方面,本申请提供了一种长文本处理方法,包括:
3、对于当前会话中待处理的长文本数据,从所述长文本数据中提取各个文本片段对应的上下文信息;
4、将各个上下文信息分别存储到外部记忆模块的不同存储区域中;所述外部记忆模块包括短期记忆区域和长期记忆区域;所述短期记忆区域用于存储当前会话中重要性达到预设条件的第一上下文信息;所述长期记忆区域用于存储多个会话中重复出现的第二上下文信息;多个会话包括当前会话和/或历史会话;
5、将所述第一上下文信息以及所述第二上下文信息输入到大语言模型中,通过所述大语言模型实现对所述长文本数据的自然语言处理。
6、第二方面,本申请实施例提供一种长文本处理装置,至少包括以下单元:
7、提取单元,被配置为对于当前会话中待处理的长文本数据,从所述长文本数据中提取各个文本片段对应的上下文信息;
8、存储单元,被配置为将各个上下文信息分别存储到外部记忆模块的不同存储区域中;所述外部记忆模块包括短期记忆区域和长期记忆区域;所述短期记忆区域用于存储当前会话中重要性达到预设条件的第一上下文信息;所述长期记忆区域用于存储多个会话中重复出现的第二上下文信息;多个会话包括当前会话和/或历史会话;
9、执行单元,被配置为将所述第一上下文信息以及所述第二上下文信息输入到大语言模型中,通过所述大语言模型实现对所述长文本数据的自然语言处理。
10、第三方面,本申请实施例提供一种芯片,用于实现第一方面所述的长文本处理方法。
11、第四方面,本申请实施例提供一种电子设备,包括存储器、处理器、以及存储在所述存储器中的计算机程序,所述处理器执行所述计算机程序以实现第一方面所述的长文本处理方法。
12、第五方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,该计算机程序指令被执行时,实现第一方面所述的长文本处理方法。
13、在本申请实施例中,首先对于当前会话中待处理的长文本数据,从所述长文本数据中提取各个文本片段对应的上下文信息。进而,将各个上下文信息分别存储到外部记忆模块的不同存储区域中;所述外部记忆模块包括短期记忆区域和长期记忆区域;所述短期记忆区域用于存储当前会话中重要性达到预设条件的第一上下文信息;所述长期记忆区域用于存储多个会话中重复出现的第二上下文信息;多个会话包括当前会话和/或历史会话。最后,将所述第一上下文信息以及所述第二上下文信息输入到大语言模型中,通过所述大语言模型实现对所述长文本数据的自然语言处理。本申请实施例,通过引入外部记忆模块和多级记忆结构,显著提高了长文本处理的效率和准确性,同时增强了模型的上下文记忆能力和灵活适应性,为自然语言处理任务提供了更为强大和全面的技术支持。
1.一种长文本处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将各个上下文信息分别存储到外部记忆模块的不同存储区域中,包括:
3.根据权利要求2所述的方法,其特征在于,所述将各个上下文信息分别存储到外部记忆模块的不同存储区域中,还包括:
4.根据权利要求1所述的方法,其特征在于,所述将所述第一上下文信息以及所述第二上下文信息输入到大语言模型中,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述检索请求从所述外部记忆模块中检索与所述目标文本信息匹配的第一上下文信息以及第二上下文信息,包括:
6.根据权利要求5所述的方法,其特征在于,所述将检索到的第一上下文信息以及第二上下文信息进行融合处理,包括:
7.根据权利要求5所述的方法,其特征在于,所述外部记忆模块中的第一上下文信息以及第二上下文信息按照各自的文本内容特点和/或文本格式类型分别关联到对应的动态索引中;
8.根据权利要求1所述的方法,其特征在于,所述将各个上下文信息分别存储到外部记忆模块的不同存储区域中之后,还包括:
9.根据权利要求8所述的方法,其特征在于,所述采用最近最少使用策略lru,基于记忆衰减系数对所述外部记忆模块中存储的第一上下文信息以及第二上下文信息进行记忆管理,包括:
10.根据权利要求9所述的方法,其特征在于,所述基于所述外部记忆模块所部署的模型应用场景,确定所述外部记忆模块的信息替换策略之前,还包括:
11.一种长文本处理装置,其特征在于,所述装置至少包括以下单元:
12.一种芯片,其特征在于,所述芯片中包括与收发器耦合的处理器,用于执行如权利要求1-10中任一项所述的长文本处理方法。
13.一种电子设备,其特征在于,包括存储器、处理器、以及存储在所述存储器中的计算机程序,所述处理器执行所述计算机程序以实现如权利要求1-10中任一项所述的长文本处理方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,该计算机程序指令被执行时,实现上述权利要求1-10中任意一项所述的长文本处理方法。