Generated with sparks and insights from 31 sources

img6

img7

img8

img9

img10

img11

Introduction

  • 对抗性攻击定义: 对抗性攻击是指通过特定输入诱使模型输出不期望内容的行为。

  • 攻击类型: 包括 token 操作、基于梯度的攻击、越狱 prompt 设计等。

  • 白盒与黑盒攻击: 白盒攻击假设攻击者可以完全访问模型权重和架构,而黑盒攻击则假设攻击者只能访问 API 类型的服务。

  • 防御方法: 包括对抗训练、困惑度检测、重新 token 化等。

  • 研究现状: 目前对抗攻击的研究多集中在图像领域,但对文本数据的攻击也在逐步深入。

对抗性攻击定义 [1]

  • 定义: 对抗性攻击是通过特定输入诱使模型输出不期望内容的行为。

  • 目标: 主要目的是让模型输出错误或有害的内容。

  • 应用: 早期多用于分类任务,现逐步应用于生成模型。

  • 影响: 可能导致模型输出非法主题、不安全内容或泄漏隐私信息。

  • 阶段: 攻击通常发生在推理阶段,模型权重是固定的。

img6

img7

img8

img9

img10

img11

攻击类型 [2]

  • token 操作: 通过替换同义词等简单操作诱使模型给出错误预测。

  • 基于梯度的攻击: 利用梯度下降学习最有效的攻击手段,适用于白盒攻击。

  • 越狱 prompt 设计: 通过特定 prompt 诱使模型输出应当避免的有害内容。

  • UAT: 通用对抗触发器,不受输入影响,可作为前缀或后缀连接到任意输入上。

  • 人工探索: 通过启发式方法和人工探索设计词汇组合进行攻击。

白盒与黑盒攻击 [1]

  • 白盒攻击: 假设攻击者可以完全访问模型权重、架构和训练工作流程。

  • 黑盒攻击: 假设攻击者只能访问 API 类型的服务,提供输入并获取反馈。

  • 白盒攻击特点: 攻击者可以获得梯度信号,适用于开源模型。

  • 黑盒攻击特点: 攻击者不知道模型的更多信息,只能通过输入输出进行攻击。

  • 应用场景: 白盒攻击适用于开源模型,黑盒攻击适用于商用模型。

img6

img7

img8

img9

img10

img11

防御方法 [1]

  • 对抗训练: 通过让模型学习如何抵御对抗样本的攻击,提高模型鲁棒性。

  • 困惑度检测: 通过检测对抗 prompt 的困惑度来识别攻击。

  • 重新 token 化: 将 token 拆分开并使用多个更小的 token 表示,降低攻击成功率。

  • 自我提醒: 指示模型成为负责任的模型,不要生成有害内容。

  • 平衡: 对抗训练需要在稳健性和模型性能之间寻找平衡。

img6

img7

img8

img9

研究现状

  • 图像领域: 目前对抗攻击的研究多集中在图像领域。

  • 文本数据: 对文本数据的对抗攻击研究逐步深入。

  • 生成模型: 近期的工作更多关注生成模型的输出。

  • 预训练数据: 研究攻击 LLM 的分支还包括提取预训练数据、私有知识等。

  • 未来方向: 未来研究方向包括深度学习模型对抗性攻防的基本框架。

img6

img7

img8

img9

img10

img11

Related Videos

<br><br>

<div class="-md-ext-youtube-widget"> { "title": "SC201_Mar2023_Poster_\u5c0d\u6297\u6027\u653b\u64ca\uff0d\u6700\u5f8c\u6c7a\u5b9aFool\u4e86\u4f60 ...", "link": "https://www.youtube.com/watch?v=mRVJ7UvPoJo", "channel": { "name": ""}, "published_date": "Aug 27, 2023", "length": "" }</div>