本申请涉及计算机,例如涉及一种用于大模型安全防御的方法及装置、电子设备。
背景技术:
1、目前,随着人工智能技术的快速发展,大模型已成为处理和分析大量数据的重要工具。这些模型通常基于深度学习算法,能够执行诸如自然语言处理、图像识别和预测分析等复杂任务。然而,尽管大模型在多个领域展现出了卓越的性能,它们在安全性方面存在一些固有的缺陷。
2、相关技术中,大模型被设计为学习和模拟数据中的模式,但缺乏对输入内容进行道德和法律审查的能力。
3、在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:
4、大模型在面对许多不当或有害的内容时缺少安全加固能力,在接收到有害输入后会原样输出或生成包含有害内容的回应,缺乏有害信息的处理能力。
5、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
2、本公开实施例提供了一种用于大模型安全防御的方法及装置、电子设备,以加强大模型对有害信息的处理能力。
3、在一些实施例中,用于大模型安全防御的方法包括:对输入内容进行分类,获得目标输入;通过目标大模型,根据目标输入获得目标输出,并根据目标输入和目标输出获得目标输入输出对;对目标输入输出对进行安全性评估,获得不安全输入输出对;根据不安全输入输出对,对目标大模型进行调整,获得调整后的目标大模型。
4、可选地,对输入内容进行分类,包括:对输入内容进行预处理;基于训练完成的过滤模型,对预处理后的输入内容进行文本特征识别,并根据文本特征对输入内容进行分类。
5、可选地,按照如下方式训练过滤模型:对过滤模型进行一次或多次迭代训练;迭代训练包括:根据训练数据,计算损失函数关于过滤模型的参数的梯度;根据梯度更新过滤模型的参数;根据验证数据,对参数更新后的过滤模型进行性能评估;其中,迭代训练的收敛条件包括:迭代训练次数达到预设次数或性能评估结果达到预设条件。
6、可选地,对目标输入输出对进行安全性评估,包括:获取用于安全性评估的评估模型;设置评估模型的提示词和示例;基于评估模型,根据提示词和示例对目标输入输出对进行评分。
7、可选地,按照如下方法训练评估模型:在评估模型的提示词中嵌入评估准则;评估准则包括输入输出对的安全性评估标准,以及评估模型接收输入和生成输出的格式;获取在评估准则下训练输入输出对的人工标注打分;根据训练输入输出对和人工标注打分对评估模型进行训练,获得训练完成的评估模型。
8、可选地,根据不安全输入输出对,对目标大模型进行调整,包括:对不安全输入输出对进行改写,获得输入输出对样本;在目标大模型中引入可训练的低秩矩阵,以修改目标大模型的权重;根据输入输出对样本对低秩矩阵进行训练,以调整目标大模型的权重,获得调整后的目标大模型。
9、可选地,通过目标大模型,根据目标输入获得目标输出,包括:根据目标输入获取目标大模型的初始输出;通过外部知识库收集安全知识,建立安全知识库;基于安全知识库,对初始输出进行调整,获得目标输出。
10、可选地,对初始输出进行调整,获得目标输出,包括:在安全知识库中获取与初始输出相匹配的目标安全知识;根据目标安全知识和初始输出进行融合推理,获取目标输出。
11、在一些实施例中,用于大模型安全防御的装置包括处理器和存储有程序指令的存储器,处理器被配置为在运行程序指令时,执行如上述的用于大模型安全防御的方法。
12、在一些实施例中,电子设备包括:电子设备本体,设置有大模型;如上述的用于大模型安全防御的装置,被安装于所述电子设备本体。
13、本公开实施例提供的用于大模型安全防御的方法及装置、电子设备,可以实现以下技术效果:
14、本公开实施例中,对大模型的输入内容进行分类,获得目标输入,通过目标大模型对目标输入进行处理,获得目标输出,并形成目标输入输出对。对目标输入输出对进行安全性评估,可以确定目标输入输出对中的不安全输入输出对,不安全输入输出对反映了目标大模型在对不安全输入进行处理时,依旧有可能会输出不安全输出。因此,根据不安全输入输出对,对大模型进行调整,可以改善大模型对不安全输入的处理过程,减少输出不安全输出的情况,从而加强大模型对有害信息的处理能力。
15、以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
1.一种用于大模型安全防御的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,对输入内容进行分类,包括:
3.根据权利要求2所述的方法,其特征在于,按照如下方式训练过滤模型:对过滤模型进行一次或多次迭代训练;迭代训练包括:
4.根据权利要求1所述的方法,其特征在于,对目标输入输出对进行安全性评估,包括:
5.根据权利要求4所述的方法,其特征在于,按照如下方法训练评估模型:
6.根据权利要求1所述的方法,其特征在于,根据不安全输入输出对,对目标大模型进行调整,包括:
7.根据权利要求1至6任一项所述的方法,其特征在于,通过目标大模型,根据目标输入获得目标输出,包括:
8.根据权利要求7所述的方法,其特征在于,对初始输出进行调整,获得目标输出,包括:
9.一种用于大模型安全防御的装置,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在运行所述程序指令时,执行如权利要求1至8任一项所述的用于大模型安全防御的方法。
10.一种电子设备,其特征在于,包括: