一种面向大语言模型红队演练的多层次可视分析系统

文档序号:40275065发布日期:2024-12-11 13:09阅读:10来源:国知局
一种面向大语言模型红队演练的多层次可视分析系统

本发明属于大语言模型安全的可视化领域,具体涉及一种面向大语言模型红队演练的多层次可视分析系统。


背景技术:

1、大语言模型,如chatgpt、llama等,拥有复杂的结构和大量的参数,其强大的计算能力和丰富的储备知识使其在自然语言处理中显示出强大的功能,并已经成为了各种应用领域的通用人工智能解决方案。但同时,大语言模型的道德问题和安全问题也出现了。一些对大语言模型的错误的、恶意的使用,可能引发严重的危害。开发安全可靠的大语言模型已成为了模型提供商的重要社会责任。

2、为了解决这些问题,人们利用各种技术使大语言模型与人类价值观保持一致,例如使用基于人类反馈的强化学习等,以阻止模型产生不适当的输出。这些技术有助于提高大语言模型的安全性,但仍有不怀好意的人试图绕过安全防火墙攻击大语言模型。红队是应对这一问题的一种常用的人工智能领域的安全技术,它通过构建对抗性样例去测试模型,以识别和修复人工智能模型中的漏洞。传统的人工红队经常需要大量的人工成本,为了提高效率和可扩展性,已经有不少工作开始研究自动生成对抗性数据集。使用大型语言模型作为对抗性提示的生成器(称为“红色模型”)是一个有效的方法。然而现有的工作依然存在一些未解决的难点,如常常在不断的训练中倾向于产生单一类型地提示,或者需要大量的时间收敛。通过引入视觉分析,可以融入人类智慧,以增强自动红队的性能和可解释性。但是,视觉分析引入仍有以下两个主要挑战:

3、对抗性模式的呈现。对抗性训练过程涉及红队模型如何生成对抗性提示以及目标大语言模型如何对它们做出反应之间的微妙关系。虽然现有的研究已经为强化学习提供了视觉分析技术,但它们主要关注描述性指标,例如训练损失、多样性或嵌入等。而红队需要关注模型在整个训练过程中的行为。此外,红队常使用数十个训练迭代,这对如何在支持识别模型失败的具体提示的同时展示出总体变化趋势,提出了可伸缩性的问题。

4、波动分析的支持。简单地使用定义良好的度量来评估模型性能,比如攻击成功率,是存在一定的局限性的。这无法反映模型的鲁棒性。例如,对于相同的攻击提示,模型可能会对某些检查点做出适当的响应,而对其他检查点则不响应,这意味着攻击者可能通过某些干预使得攻击成功。现有的用于自然语言处理的可视化分析方法通常通过可视化分布来理解模型输出。然而,考虑到大语言模型是序列模型,其输出严重依赖于上下文信息,前几个词的波动可能在很大程度上影响后续的输出。现有的相关方法并没有考虑到语言模型的波动,特别是在安全场景方面。如何将不确定性可视化并支持对波动的概率的分析是一个挑战。


技术实现思路

1、针对现有技术的不足,本发明提出一种面向大语言模型红队演练的多层次可视分析系统,该系统支持大语言模型的红队过程中,对抗性模式的多层次呈现和模型的波动分析。

2、本发明的目的通过如下的技术方案来实现:

3、实施例提供的一种面向大语言模型红队演练的多层次可视分析系统,包括:

4、控制面板模块,其包括模型导入导出按钮、模型基本信息和可配置的模型训练相关信息;

5、嵌入分析模块,其包括单次迭代中目标大语言模型产生的文本数据集在语义空间中的高维嵌入分布的散点图;

6、指标监控模块,其通过雷达图展示单次迭代下的总体性能指标,以及通过双轴折线图展示对迭代过程中指标随时间变化的趋势跟踪;

7、对抗流模块,其通过三级视图展示了目标大语言模型在对抗性提示数据集上的性能变化;

8、波动性分析模块,其包括在验证集上,提示级和令牌级这两个级别的波动性分析的列表,以及点击交互出现的一条提示的详情信息卡片;

9、实例列表模块,其展示了所选择的实例集合的详细信息列表,并与其他视图的交互联动,为用户提供细节补充展示;其中,详细信息包括具体对抗性提示文本、提示的风险类型标签、目标大语言模型做出的反应类型标签;

10、后端计算模块,其将对红队模型进行训练,对目标大语言模型进行红队的迭代训练和验证,计算红队结果的相关指标,并与控制面板模块、嵌入分析模块、指标监控模块、对抗流模块、波动性分析模块、实例列表模块进行数据交互,实现数据的实时更新。

11、优选地,所述控制面板模块中,可配置的模型训练相关信息,包括模型训练的温度参数和迭代轮数的设置输入框、可视化种子比例的饼图、以及通过交互的方式为用户提供了模型管理和训练过程自定义的接口,其中,种子比例饼图包含两个部分,分别是种子池比例与种子采样比例,通过调整饼图中每个部分的大小来反馈所需要的种子采样比例。

12、优选地,所述嵌入分析模块中,所述文本数据集包括目标大语言模型在训练集、验证集和全体集合的对抗性提示的挑战下所产生的对话文本的潜在特征分布,针对散点图,支持用户从散点图中套选特定数据点,并加入种子池中。

13、优选地,所述指标监控模块中,双轴折线图中展示的指标是通过雷达图标签点击交互来自定义选择。

14、优选地,所述指标监控模块中,所述性能指标包括在训练集上的目标大语言模型的毒性分数、在训练集上的攻击成功率、在验证集上的大语言模型的毒性分数、在验证集上的攻击成功率、红队模型所生成的对抗性提示文本的多样性、目标大语言模型在一般推理任务中的回答准确率。

15、优选地,所述对抗流模块中,对抗性提示数据集包括训练集、验证集两个部分;所述三级视图包括第一级视图,其为展示训练集上反应类型总体变化的堆叠面积图及展示验证集上反应类型总体变化的桑基图,第二级视图,其为展示每轮训练时提示的风险类型与模型的反应类型的分布关系的桑基图,第三级视图,其为在训练集上具体某一特定类型数据集的成分变化卡片及验证集上具体一条数据在反应类型上的波动路径;

16、三级视图的交互方式为:在第一级视图上通过鼠标滚轮放大到第二级视图,在第二级视图上通过点击显示第三级视图。

17、优选地,所述第三级视图中,特定类型数据集的成分变化卡片分为两种,分别是点击第二级视图的桑基图节点后显示的堆叠条形图,体现内部比例变化;以及点击第二级视图的桑基图的流后显示的折线图,体现数据集大小变化;

18、验证集的桑基图中所显示的波动路径为一条贯穿始终的线元素,其在每一个迭代中的位置代表了目标大语言模型做出的反应类型;若目标大语言模型做出了安全反应,将用一个圆形节点的半径表示此轮迭代下的令牌级别波动性大小。

19、优选地,所述波动性分析模块中,所述列表中包含每条提示的提示级波动性值、令牌级波动性平均值、令牌级波动性变化趋势;详情信息卡片中包括具体提示、具体回答、模型回答令牌及其生成概率、风险令牌及其生成概率;

20、其中,提示级波动性计算在一条对抗性提示上,目标大语言模型在不同的反应类型之间的转变的频繁程度;令牌级波动性计算目标大语言模型生成安全响应令牌与危害响应令牌之间的距离,评估安全响应转变为危害响应的风险;

21、详情信息卡片中,在具体回答的文本框中能够修改模型回答,并反馈给目标大语言模型进行学习。

22、优选地,所述实例列表模块与波动性分析模块、嵌入分析模块、对抗流模块有交互联动,点击实例列表特定卡片后,会在波动性分析模块的列表中高亮所选项,在嵌入分析模块中显示提示的具体位置,并在对抗流模块中显示出提示的具体波动路径。

23、优选地,所述后端计算模块中,模型训练部分使用强化学习的架构,所训练的红队模型和目标大语言模型都将从奖励模型做出的评估中获得反馈并进行迭代式的调整训练。

24、与现有技术相比,本发明具有的有益效果至少包括:

25、本发明的多层次可视分析系统提出了一种多层次对抗流的可视化设计,这种技术提供了对抗性动态的全面视图,从整个训练过程的概述到单个时代的颗粒细节。此外,设计了一个波动性的度量来评估模型回答的令牌转变的可能性,有助于确定大语言模型是如何容易受到欺骗和产生不适当的答复,清晰地描述了过程中的不确定性。本发明为红队提供了一种新的可视化分析方法,有效增强了大语言模型的安全性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1