本技术涉及计算机,尤其涉及一种越狱提示生成方法、装置、存储介质以及电子设备。
背景技术:
1、相关技术中,大语言模型(large language model,llm),如chatgpt、gemini和claude,在自然语言理解和生成方面表现出了令人印象深刻的能力,这为内容创作、教育、决策等领域提供了重要支持。然而,llm的广泛应用也引发了关于模型稳健性和安全性的担忧,llm在某些情况下会提供有关有害或非法活动的详细指导。尽管模型开发者已经采用了诸如安全对齐、内容过滤等安全措施,但模型仍然容易受到某些对抗性策略的影响。其中,最显著的一类对抗性策略是越狱攻击,通过精心设计的提示能够绕过llm的安全机制,从而引导llm生成有害、歧视性、暴力或敏感的内容。随着llm的性能和应用范围的不断提升,管理其滥用风险变得愈发关键。
技术实现思路
1、本技术实施例提供了一种越狱提示生成方法、装置、计算机存储介质以及电子设备。所述技术方案如下:
2、第一方面,本技术实施例提供了一种越狱提示生成方法,所述方法包括:
3、确定越狱场景构建策略,获取所述越狱场景构建策略对应的提示模板格式和各特征句子库;
4、从所述特征句子库中选取多个特征类型对应的目标特征句子,基于各所述目标特征句子和所述提示模板格式进行越狱提示生成处理,得到初始越狱提示;
5、对所述初始越狱提示进行越狱提示调整处理得到目标越狱提示,基于所述目标越狱提示采用至少一个测试大模型进行越狱提示评测处理。
6、在某些可能的实施方式中,所述基于各所述目标特征句子和所述提示模板格式进行越狱提示生成处理,得到初始越狱提示,包括:
7、基于各所述目标特征句子进行语言转换处理,得到各变异特征句子;
8、基于所述变异特征句子和所述提示模板格式进行越狱提示生成处理,得到初始越狱提示。
9、在某些可能的实施方式中,所述基于各所述目标特征句子进行语言转换处理,得到各变异特征句子,包括:
10、在所述目标特征句子中确定待变异特征词,确定所述待变异特征词对应的变异语言;
11、在所述目标特征句子中采用所述变异语言对所述待变异特征词进行语言变异处理,得到变异特征句子。
12、在某些可能的实施方式中,所述对所述初始越狱提示进行越狱提示调整处理得到目标越狱提示,包括:
13、确定针对所述初始越狱提示的提示调整策略,采用所述提示调整策略对所述初始越狱提示进行越狱提示调整处理得到目标越狱提示。
14、在某些可能的实施方式中,所述采用所述提示调整策略对所述初始越狱提示进行越狱提示调整处理得到目标越狱提示,包括:
15、获取针对越狱提示生成场景的攻击微调大模型;
16、获取所述提示调整策略对应的越狱提示调整提示词;
17、将所述越狱提示调整提示词和所述初始越狱提示输入至所述攻击微调大模型进行越狱提示调整处理,得到目标越狱提示。
18、在某些可能的实施方式中,所述基于所述目标越狱提示采用至少一个测试大模型进行越狱提示评测处理,包括:
19、确定所述目标越狱提示在至少一个测试大模型中的攻击成功率,确定所述攻击成功率大于成功率阈值的目标个数;
20、若所述目标个数大于预设阈值,则输出所述目标越狱提示;
21、若所述目标个数小于预设阈值,则执行所述确定越狱场景构建策略,获取所述越狱场景构建策略对应的提示模板格式和各特征句子库的步骤。
22、在某些可能的实施方式中,所述输出所述目标越狱提示之后,还包括:
23、将所述目标越狱提示保存至越狱提示库,确定所述目标越狱提示对应的目标越狱场景构建策略,对所述目标越狱提示进行特征句子拆分处理得到至少一个特征类型对应的目标特征句子,将所述目标特征句子添加至所述目标越狱场景构建策略对应的目标特征句子库。
24、在某些可能的实施方式中,所述确定所述目标越狱提示在至少一个测试大模型中的攻击成功率,包括:
25、获取多个测试恶意问题,将各所述测试恶意问题与所述目标越狱提示分别进行组合得到各越狱攻击提示词;
26、将所述各越狱攻击提示词输入至少一个测试大模型,得到越狱攻击响应内容;
27、基于所述越狱攻击响应内容采用攻击微调大模型进行攻击评估处理,得到所述目标越狱提示在所述至少一个测试大模型中的攻击成功率。
28、在某些可能的实施方式中,所述基于所述越狱攻击响应内容采用攻击微调大模型进行攻击评估处理,得到所述目标越狱提示在所述至少一个测试大模型中的攻击成功率,包括:
29、基于所述越狱攻击响应内容对应的越狱攻击提示词和所述越狱攻击响应内容,生成攻击评估提示词;
30、将所述攻击评估提示词输入至攻击微调大模型,通过所述攻击微调大模型对进行攻击评估处理,得到所述目标越狱提示在所述至少一个测试大模型中的攻击成功率。
31、在某些可能的实施方式中,所述方法还包括:
32、获取多个越狱提示样例,基于各所述越狱提示样例进行越狱策略分析处理得到多个参考越狱场景构建策略;
33、基于所述参考越狱场景构建策略对应的越狱提示样例,确定所述参考越狱场景构建策略对应的提示模板格式;
34、基于所述参考越狱场景构建策略对应的越狱提示样例进行特征句子拆分处理,得到至少一个特征类型对应的参考特征句子,基于所述参考特征句子创建所述至少一个特征类型对应的特征句子库。
35、第二方面,本技术实施例提供了一种越狱提示生成装置,所述装置包括:
36、数据获取模块,用于确定越狱场景构建策略,获取所述越狱场景构建策略对应的提示模板格式和各特征句子库;
37、提示生成模块,用于从所述特征句子库中选取多个特征类型对应的目标特征句子,基于各所述目标特征句子和所述提示模板格式进行越狱提示生成处理,得到初始越狱提示;
38、提示处理模块,用于对所述初始越狱提示进行越狱提示调整处理得到目标越狱提示,基于所述目标越狱提示采用至少一个测试大模型进行越狱提示评测处理。
39、可选的,提示生成模块包括句子变异单元和提示生成单元,具体用于:
40、所述句子变异单元,用于基于各所述目标特征句子进行语言转换处理,得到各变异特征句子;
41、所述提示生成单元,用于基于所述变异特征句子和所述提示模板格式进行越狱提示生成处理,得到初始越狱提示。
42、可选的,所述句子变异单元,包括:
43、第一变异处理子单元,用于在所述目标特征句子中确定待变异特征词,确定所述待变异特征词对应的变异语言;
44、第二变异处理子单元,用于在所述目标特征句子中采用所述变异语言对所述待变异特征词进行语言变异处理,得到变异特征句子。
45、可选的,所述提示处理模块,包括:
46、提示调整单元,用于确定针对所述初始越狱提示的提示调整策略,采用所述提示调整策略对所述初始越狱提示进行越狱提示调整处理得到目标越狱提示。
47、可选的,所述提示调整单元,包括:
48、第一调整子单元,用于获取针对越狱提示生成场景的攻击微调大模型;
49、第二调整子单元,用于获取所述提示调整策略对应的越狱提示调整提示词;
50、第三调整子单元,用于将所述越狱提示调整提示词和所述初始越狱提示输入至所述攻击微调大模型进行越狱提示调整处理,得到目标越狱提示。
51、可选的,所述提示处理模块,包括:
52、第一处理单元,用于确定所述目标越狱提示在至少一个测试大模型中的攻击成功率,确定所述攻击成功率大于成功率阈值的目标个数;
53、第二处理单元,用于若所述目标个数大于预设阈值,则输出所述目标越狱提示;
54、第三处理单元,用于若所述目标个数小于预设阈值,则执行所述确定越狱场景构建策略,获取所述越狱场景构建策略对应的提示模板格式和各特征句子库的步骤。
55、可选的,所述提示处理模块,还包括:
56、提示保存单元,用于将所述目标越狱提示保存至越狱提示库,确定所述目标越狱提示对应的目标越狱场景构建策略,对所述目标越狱提示进行特征句子拆分处理得到至少一个特征类型对应的目标特征句子,将所述目标特征句子添加至所述目标越狱场景构建策略对应的目标特征句子库。
57、可选的,所述第一处理单元,包括:
58、组合处理单元,用于获取多个测试恶意问题,将各所述测试恶意问题与所述目标越狱提示分别进行组合得到各越狱攻击提示词;
59、测试处理单元,用于将所述各越狱攻击提示词输入至少一个测试大模型,得到越狱攻击响应内容;
60、攻击评估单元,用于基于所述越狱攻击响应内容采用攻击微调大模型进行攻击评估处理,得到所述目标越狱提示在所述至少一个测试大模型中的攻击成功率。
61、可选的,攻击评估单元,包括:
62、第一评估子单元,用于基于所述越狱攻击响应内容对应的越狱攻击提示词和所述越狱攻击响应内容,生成攻击评估提示词;
63、第二评估子单元,用于将所述攻击评估提示词输入至攻击微调大模型,通过所述攻击微调大模型进行攻击评估处理,得到所述目标越狱提示在所述至少一个测试大模型中的攻击成功率。
64、可选的,所述越狱提示生成装置,还包括:
65、越狱策略创建模块,用于获取多个越狱提示样例,基于各所述越狱提示样例进行越狱策略分析处理得到多个参考越狱场景构建策略;
66、提示模板创建模块,用于基于所述参考越狱场景构建策略对应的越狱提示样例,确定所述参考越狱场景构建策略对应的提示模板格式;
67、特征句子库创建模块,用于基于所述参考越狱场景构建策略对应的越狱提示样例进行特征句子拆分处理,得到至少一个特征类型对应的参考特征句子,基于所述参考特征句子创建所述至少一个特征类型对应的特征句子库。
68、第三方面,本技术实施例提供了一种计算机存储介质,所述计算机存储介质有多条指令,所述指令适于由处理器加载并执行上述的方法。
69、第四方面,本技术实施例提供了一种电子设备,可包括:存储器和处理器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述存储器加载并执行上述的方法。
70、本技术实施例提供的技术方案带来的有益效果至少包括:
71、本技术实施例提供的越狱提示生成方法,通过确定越狱场景构建策略,获取越狱场景构建策略对应的提示模板格式和各特征句子库,从特征句子库中选取属于不同特征类型的目标特征句子,从而可以基于各目标特征句子和提示模板格式进行越狱提示生成处理得到初始越狱提示,通过对初始越狱提示进行越狱提示调整处理得到目标越狱提示,基于目标越狱提示采用至少一个测试大模型进行越狱提示评测处理。由此,通过选取的不同特征类型对应的目标特征句子和提示模板格式生成初始越狱提示,实现了智能化生成通用的越狱提示,之后对初始越狱提示进行优化以得到目标越狱提示,保证了生成的越狱提示的语义完整性和流畅性,而后采用测试大模型对生成的越狱提示进行评测处理,以对生成的越狱提示的质量进行验证,以保证生成的越狱提示是质量较高的越狱提示,因此,本技术实施例实现了智能化生成较高质量的通用越狱提示的效果。