用于大模型安全防御的方法及装置、电子设备与流程

文档序号：39989517发布日期：2024-11-15 14:40阅读：33来源：国知局

本申请涉及计算机，例如涉及一种用于大模型安全防御的方法及装置、电子设备。

背景技术：

1、目前，随着人工智能技术的快速发展，大模型已成为处理和分析大量数据的重要工具。这些模型通常基于深度学习算法，能够执行诸如自然语言处理、图像识别和预测分析等复杂任务。然而，尽管大模型在多个领域展现出了卓越的性能，它们在安全性方面存在一些固有的缺陷。

2、相关技术中，大模型被设计为学习和模拟数据中的模式，但缺乏对输入内容进行道德和法律审查的能力。

3、在实现本公开实施例的过程中，发现相关技术中至少存在如下问题：

4、大模型在面对许多不当或有害的内容时缺少安全加固能力，在接收到有害输入后会原样输出或生成包含有害内容的回应，缺乏有害信息的处理能力。

5、需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、为了对披露的实施例的一些方面有基本的理解，下面给出了简单的概括。所述概括不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围，而是作为后面的详细说明的序言。

2、本公开实施例提供了一种用于大模型安全防御的方法及装置、电子设备，以加强大模型对有害信息的处理能力。

3、在一些实施例中，用于大模型安全防御的方法包括：对输入内容进行分类，获得目标输入；通过目标大模型，根据目标输入获得目标输出，并根据目标输入和目标输出获得目标输入输出对；对目标输入输出对进行安全性评估，获得不安全输入输出对；根据不安全输入输出对，对目标大模型进行调整，获得调整后的目标大模型。

4、可选地，对输入内容进行分类，包括：对输入内容进行预处理；基于训练完成的过滤模型，对预处理后的输入内容进行文本特征识别，并根据文本特征对输入内容进行分类。

5、可选地，按照如下方式训练过滤模型：对过滤模型进行一次或多次迭代训练；迭代训练包括：根据训练数据，计算损失函数关于过滤模型的参数的梯度；根据梯度更新过滤模型的参数；根据验证数据，对参数更新后的过滤模型进行性能评估；其中，迭代训练的收敛条件包括：迭代训练次数达到预设次数或性能评估结果达到预设条件。

6、可选地，对目标输入输出对进行安全性评估，包括：获取用于安全性评估的评估模型；设置评估模型的提示词和示例；基于评估模型，根据提示词和示例对目标输入输出对进行评分。

7、可选地，按照如下方法训练评估模型：在评估模型的提示词中嵌入评估准则；评估准则包括输入输出对的安全性评估标准，以及评估模型接收输入和生成输出的格式；获取在评估准则下训练输入输出对的人工标注打分；根据训练输入输出对和人工标注打分对评估模型进行训练，获得训练完成的评估模型。

8、可选地，根据不安全输入输出对，对目标大模型进行调整，包括：对不安全输入输出对进行改写，获得输入输出对样本；在目标大模型中引入可训练的低秩矩阵，以修改目标大模型的权重；根据输入输出对样本对低秩矩阵进行训练，以调整目标大模型的权重，获得调整后的目标大模型。

9、可选地，通过目标大模型，根据目标输入获得目标输出，包括：根据目标输入获取目标大模型的初始输出；通过外部知识库收集安全知识，建立安全知识库；基于安全知识库，对初始输出进行调整，获得目标输出。

10、可选地，对初始输出进行调整，获得目标输出，包括：在安全知识库中获取与初始输出相匹配的目标安全知识；根据目标安全知识和初始输出进行融合推理，获取目标输出。

11、在一些实施例中，用于大模型安全防御的装置包括处理器和存储有程序指令的存储器，处理器被配置为在运行程序指令时，执行如上述的用于大模型安全防御的方法。

12、在一些实施例中，电子设备包括：电子设备本体，设置有大模型；如上述的用于大模型安全防御的装置，被安装于所述电子设备本体。

13、本公开实施例提供的用于大模型安全防御的方法及装置、电子设备，可以实现以下技术效果：

14、本公开实施例中，对大模型的输入内容进行分类，获得目标输入，通过目标大模型对目标输入进行处理，获得目标输出，并形成目标输入输出对。对目标输入输出对进行安全性评估，可以确定目标输入输出对中的不安全输入输出对，不安全输入输出对反映了目标大模型在对不安全输入进行处理时，依旧有可能会输出不安全输出。因此，根据不安全输入输出对，对大模型进行调整，可以改善大模型对不安全输入的处理过程，减少输出不安全输出的情况，从而加强大模型对有害信息的处理能力。

15、以上的总体描述和下文中的描述仅是示例性和解释性的，不用于限制本申请。

技术特征：

1.一种用于大模型安全防御的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对输入内容进行分类，包括：

3.根据权利要求2所述的方法，其特征在于，按照如下方式训练过滤模型：对过滤模型进行一次或多次迭代训练；迭代训练包括：

4.根据权利要求1所述的方法，其特征在于，对目标输入输出对进行安全性评估，包括：

5.根据权利要求4所述的方法，其特征在于，按照如下方法训练评估模型：

6.根据权利要求1所述的方法，其特征在于，根据不安全输入输出对，对目标大模型进行调整，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，通过目标大模型，根据目标输入获得目标输出，包括：

8.根据权利要求7所述的方法，其特征在于，对初始输出进行调整，获得目标输出，包括：

9.一种用于大模型安全防御的装置，包括处理器和存储有程序指令的存储器，其特征在于，所述处理器被配置为在运行所述程序指令时，执行如权利要求1至8任一项所述的用于大模型安全防御的方法。

10.一种电子设备，其特征在于，包括：

技术总结
本申请涉及计算机技术领域，公开一种用于大模型安全防御的方法及装置、电子设备，其中，方法包括：对输入内容进行分类，获得目标输入；通过目标大模型，根据目标输入获得目标输出，并根据目标输入和目标输出获得目标输入输出对；对目标输入输出对进行安全性评估，获得不安全输入输出对；根据不安全输入输出对，对目标大模型进行调整，获得调整后的目标大模型。对目标输入输出对进行安全性评估，可以确定目标输入输出对中的不安全输入输出对，根据不安全输入输出对，对大模型进行调整，可以改善大模型对不安全输入的处理过程，减少输出不安全输出的情况，从而加强大模型对有害信息的处理能力。

技术研发人员：黑一鸣,石霖,陈文弢,陈杰
受保护的技术使用者：中国信息通信研究院
技术研发日：
技术公布日：2024/11/14

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黑一鸣,石霖,陈文弢,陈杰
技术所有人：中国信息通信研究院
我是此专利的发明人

上一篇：一种硫酸铵混料机的制作方法
上一篇：一种内涂层油管粉末喷涂后接箍模具清洁装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。