文本对抗攻击方法、装置、设备和存储介质

文档序号：28740314发布日期：2022-02-07 21:48阅读：来源：国知局

技术特征：
1.一种文本对抗攻击方法，其特征在于，将原始文本输入到预置的文本风格迁移模型中，得到风格各不相同的多个改述文本，所述多个改述文本与所述原始文本的语义和分类标签相同；将所述多个改述文本依次输入到预置的目标受害模型，得到对应的多个模型输出结果；根据所述多个模型输出结果和所述原始文本判断所述多个改述文本的对抗攻击是否成功，得到对抗攻击成功的第一改述文本；根据所述第一改述文本获取文本对抗攻击的对抗样本。2.根据权利要求1所述的方法，其特征在于，所述根据所述第一改述文本获取文本对抗攻击的对抗样本，包括：根据第一改述文本与原始文本的相似度以及第一改述文本的困惑度获取对抗样本分数；选取对抗样本分数最高的第一改述文本作为所述对抗样本。3.根据权利要求1所述的方法，其特征在于，所述目标受害模型为分类模型，所述根据所述多个模型输出结果和所述原始文本判断所述多个改述文本的对抗攻击是否成功，包括：在改述文本对应的模型输出结果表征的类别与所述原始文本的类别不一致时，确定对抗攻击成功。4.根据权利要求1所述的方法，其特征在于，所述根据第一改述文本与原始文本的相似度以及第一改述文本的困惑度获取对抗样本分数，包括：根据以下公式获取对抗样本分数s：s＝p
×
sim(a，o)-q
×
ppl(a)其中，a表示第一改述文本，o表示原始文本，sim(a，o)表示第一改述文本与原始文本的相似度，ppl(a)表示第一改述文本的基于所述目标受害模型的文本困惑度，p和q为超参数。5.根据权利要求3所述的方法，其特征在于，所述目标受害模型的训练方法包括：获取第一训练集，所述第一训练集包括文本训练数据和对应的分类数据；采用所述文本训练数据以所述分类数据为训练标签对初始受害模型进行训练，直到所述初始受害模型收敛，得到所述目标受害模型。6.根据权利要求1所述的方法，其特征在于，所述文本风格迁移模型包括编码器和多个解码器，所述将原始文本输入到预置的文本风格迁移模型中，得到风格各不相同的多个改述文本，包括：将所述原始文本输入至所述编码器，获得所述编码器输出的与所述原始文本对应的编码向量；将所述编码向量输入所述多个解码器处理获得所述多个改述文本。7.根据权利要求1所述的方法，其特征在于，所述目标受害模型包括自动问答模型或机器翻译模型。8.一种文本对抗攻击装置，其特征在于，包括：风格迁移单元，用于将原始文本输入到预置的文本风格迁移模型中，得到风格各不相同的多个改述文本，所述多个改述文本与所述原始文本的语义和分类标签相同；
输入单元，用于将所述多个改述文本依次输入到预置的目标受害模型，得到对应的多个模型输出结果；判断单元，用于根据所述多个模型输出结果和所述原始文本判断所述多个改述文本的对抗攻击是否成功，得到对抗攻击成功的第一改述文本；获取单元，用于根据所述第一改述文本获取文本对抗攻击的对抗样本。9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的方法的步骤。10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法的步骤。

技术总结
本发明提供一种文本对抗攻击方法、装置、设备和存储介质，包括：将原始文本输入到预置的文本风格迁移模型中，得到风格各不相同的多个改述文本，所述多个改述文本与所述原始文本的语义和分类标签相同；将所述多个改述文本依次输入到预置的目标受害模型，得到对应的多个模型输出结果；根据所述多个模型输出结果和所述原始文本判断所述多个改述文本的对抗攻击是否成功，得到对抗攻击成功的第一改述文本；根据所述第一改述文本获取文本对抗攻击的对抗样本。本发明的技术方案可以简单快速地得到对抗样本。对抗样本。对抗样本。

技术研发人员：孙茂松岂凡超刘知远
受保护的技术使用者：清华大学
技术研发日：2021.10.12
技术公布日：2022/2/6

完整全部详细技术资料下载

当前第2页1 2