新智元报道
编辑:LRST
【新智元导读】随着扩散模型广泛应用,其安全问题日益凸显,攻击者可通过精心设计的输入操控模型生成有害图像。天津大学团队发表的综述论文系统梳理了文生图模型的攻击方式、风险类型、威胁场景与防御体系。文中详细分析了非目标攻击和目标攻击的特点,以及现有的鲁棒性防御和安全性防御策略,指出当前防御仍存在不足,未来需建立更体系化的防护体系。
随着AI图片生成进入大众视野,扩散模型(Diffusion Models) 已经成为当前图像生成最主流的技术。从设计、广告、游戏,到媒体生产、影视预演,这些模型正悄悄重塑视觉内容的生产方式。
但在大规模应用快速推进的同时,一个新的问题也愈发凸显:这些看起来「全能」的文生图模型,真的安全吗?
近年来,越来越多研究者正在发现:T2I(Text-to-Image)文生图模型不仅会在正常提示下生成偏差内容,更可能在一些经过精心设计的输入下「越界」、被操控,甚至生成具有实际危害性的图片。
为了系统梳理这类风险,天津大学团队发表的最新综述,首次对文生图模型的攻击方式、风险类型、威胁场景与防御体系进行了系统盘点。
论文地址:https://arxiv.org/pdf/2407.15861
代码地址:https://github.com/datar001/Awesome-AD-on-T2IDM
文生图模型,到底有哪些风险?攻击者又是如何「操控」它们?我们又该如何防御?
如何突破安全漏洞?
文生图攻击模式解析
当前针对文生图扩散模型的攻击方式正在快速体系化。无论具体方法如何变化,它们都遵循同一框架:攻击者先确定攻击目的是想让模型「偏离」还是「越界」,再向提示中注入扰动,并依照自身掌握的模型信息(黑盒或白盒)优化这段提示,使其最终诱导模型生成攻击者预期的图像。
图1. 文生图模型的对抗攻击分类
在攻击目的上,方法分为两类。
非目标攻击(Untargeted Attack)通过微小的字符或词级变动,让模型生成与原意不一致的图像,暴露其鲁棒性不足;
而目标攻击(Targeted Attack)则直接绕过安全机制,诱导模型生成色情、暴力或侵权等高风险内容,是当前最受关注的威胁。
扰动方式决定了攻击的隐蔽程度。
字符级(Character-level)扰动几乎难以察觉;词级替换(Word-level)可隐藏敏感语义;
句级重写(Sentence-level)则能将危险意图以隐含语义形式表达。尽管表面「干净」,扩散模型仍会在潜在空间中恢复出潜藏的高危语义,使这类攻击极具迷惑性。
攻击者对模型掌握的信息量也决定了策略的强弱。
白盒攻击(White-Box)可直接操控潜空间,对生成路径进行精准干预;
黑盒攻击(Black-Box)虽然只依赖接口输出,却仍能利用伪词或LLM改写的提示稳定触发敏感图像,说明现有黑盒防护远不牢靠。
非目标攻击:以评估鲁棒性为导向的语义偏离
非目标攻击以鲁棒性评估为主要目的:通过对干净提示施加微小扰动构造对抗提示,使生成结果在语义层面显著偏离由原始提示产生的干净输出,从而揭示文生图扩散模型在文本—图像映射上的不稳定性与脆弱边界。
在白盒设定下,非目标攻击可以概括为「可优化的语义偏离」:攻击者先定义一个可计算的偏离目标(例如借助外部判别信号,或在表征空间中拉开对抗提示与干净提示的距离),再用梯度法(如PGD) 迭代更新提示,使模型输出逐步脱离干净提示所对应的语义轨迹。
为了兼顾隐蔽性,这类方法通常将扰动控制在词级,通过少量替换、增补等操作注入最小但有效的噪声。
在黑盒设定下,由于无法获取梯度,攻击思路则转向「输出驱动的差异最大化」:用可观测的输出差异指标替代梯度信号(如度量对抗提示与干净提示的输出图片分布差异),并结合字符级微扰与启发式/贪心搜索迭代构造对抗提示,从而仅凭接口反馈也能持续放大语义偏离并获得稳定攻击效果。
目标攻击:以绕过安全防御为导向的定向越界生成
图2. 目标攻击的常见扰动方式
如果说非目标攻击验证的是模型的鲁棒性边界,那么目标攻击关注的就是更现实的安全威胁:在系统已经部署安全防御的前提下,仍然诱导模型生成包含特定恶意概念的图像。
这种攻击不再满足于让结果「偏离原意」,而是要让系统在拦截机制存在的情况下仍被迫「放行」,最终产出色情、暴力、侵权等高风险内容。
目标攻击可进一步分为三类:面向输入/输出端防御的外部防御攻击,面向生成过程约束的内部防御攻击,以及面向闭源部署场景、依赖交互反馈的黑盒防御攻击。
外部防御攻击:让过滤器「看不见」,但让模型「看得懂」
外部防御部署在模型之外,靠黑名单、规则或文本/图像分类器在生成前后拦截「显性风险线索」;
对应地,攻击的核心目标往往不是「强行硬闯」,而是削弱提示与恶意概念之间的显式对应关系:过滤器看到的是更干净的表达,但模型仍能在上下文中恢复并执行隐含意图。
图2给出了一组典型策略:最常见的是词级扰动(替换敏感词、插入无关词、添加前后缀等),把高危信号藏进更难被规则捕捉的字面形式中;更进一步的做法是句级重写,将危险意图以更自然、更流畅的方式重新表述,从而在语法与语义层面降低被检测概率。
内部防御攻击:从「绕规则」升级为「攻嵌入与潜空间」
内部防御直接干预生成过程本身,通过修改参数、修改特征或推理引导把生成分布推离恶意概念,因此针对它的目标攻击往往更「底层」:攻击不再主要依赖词面替换,而是转向不同的优化空间(比如输入文本嵌入空间,生成预测潜空间,以及生成图片嵌入空间)去「找回」被抑制的恶意概念。
黑盒防御攻击:闭源并不等于牢固,反而催生更强的策略化攻击
黑盒防御把安全机制封装在闭源系统里,对外只暴露接口,外部既看不到规则也改不了参数;
相应地,目标攻击就更依赖「策略迭代」:通过多轮交互观察哪些表达被拒绝、哪些能通过,再持续改写提示逼近可行的对抗表述。
为了摆脱手工试探的高成本,越来越多攻击会引入自动化流程并且常借助LLM参与改写/优化,尤其偏好句级层面的自然改写,使对抗提示更像正常需求、更不易触发显式规则。
图3. 文生图模型对抗攻击方法的分类
图3对整套攻击谱系做了汇总:相比强调鲁棒性的非目标攻击,目标攻击数量更密集,反映出安全风险更集中地落在「越界生成」这一现实问题上;
与此同时,攻击主要依赖词级与句级扰动,远多于字符级微扰——这意味着对抗正在从表层拼写噪声走向更强的语义操控与自然语言包装,系统未来面对的将不只是「敏感词」,而是越来越难以从字面直接识别的「敏感意图」。
从生成稳不稳到安不安全
两类防御策略的核心思路
现有的防御策略大体可以分为两种思路:一类旨在提升模型面对输入扰动时的稳定性,即鲁棒性导向防御;另一类则面向实际内容安全场景,试图阻断敏感生成链路,是更直接的安全导向防御。这两类方法虽然目标不同,却都反映出现阶段扩散模型安全体系的「破口」与「缝补」。
鲁棒性防御:先把「语义对齐」补牢
鲁棒性防御通过强化文本与视觉之间的一致性、优化交叉注意力映射关系等方式,缓解模型因提示细微扰动而出现的语义偏移。
它们有助于减少非目标攻击对生成稳定性的影响,提高模型在面对变化多样的输入时的适应能力,从而确保生成的图像更加准确地反映原始文本的意图。
安全性防御:外部防御与内部防御的体系化分工
在安全性防御目标下,现有方法按作用位置主要分为外部防御与内部防御两类。
图4. 文生图模型的三个外部防御策略
外部防御在模型之外建立前置控制链路,其典型流程在图4中可归纳为三条路径:
提示分类/拦截——以 Latent Guard 为代表,先对输入提示做风险判别,若提示在语义空间中接近「恶意概念」则直接拒绝生成;
提示重写/净化——以 POSI、GuardT2I 为代表,将潜在恶意或对抗性表达改写为更安全的提示后再进入生成,图4(b) 展示了「危险提示→安全提示→生成」的基本链路,而图4(c) 进一步体现出「先改写、再叠加黑名单过滤」的两段式流程,用以处理更隐蔽、语法更不规整的对抗提示;
黑名单/规则过滤——对提示进行词表或规则层面的拦截,并常与重写或分类器组合使用以增强覆盖。
这一路线的优势在于部署成本低、易于模块化集成,但其有效性高度依赖于风险语义能否在「输入侧」被可靠识别:当攻击通过隐喻、伪词或句级改写削弱显式风险信号时,外部防御往往更容易出现绕过与漏检。
图5. 文生图模型的两个内部防御策略
内部防御则直接作用于生成模型内部机制,其典型框架在图5中被归纳为两条主线:模型编辑(Model Editing)与推理引导(Inference Guidance)
模型编辑:把「危险概念」从模型里抹掉或削弱,图5(a) 用「编辑前/编辑后」的对比直观表达:同样面对涉及裸露的提示,编辑后的模型会输出更安全的生成。
推理引导:不改参数,推理阶段把生成轨迹「拉回安全区」,图5(b) 展示了另一种思路:以SLD及相关工作为代表,不必修改模型权重,而是在采样推理阶段引入额外的引导项或特征约束,使生成轨迹在去噪过程中远离恶意概念区域、朝更安全的方向偏移。
内部防御相比外部防御更接近「机制层防御」,但也面临代价与效果权衡:模型编辑可能带来生成能力或泛化能力的副作用;推理引导虽更轻量、可插拔,但仍可能被更强的对抗提示突破或被绕过部署链路。
图6. 现有安全性防御方法的分类总结
图6展示了现有安全性防御方法的版图,能看出一个趋势:在「真正要让模型安全」这件事上,研究重心正在向内部防御倾斜,尤其是模型编辑——因为外部防御再精密,也很难从根本上解决绕过安全防御这一类目标攻击越狱问题。
但问题在于,两条路都不完美:
外部防御依赖显性线索,很容易被伪词、句级重写这类语义规避骗过;
内部防御代价高、调不好还会影响正常生成,而且在面对专门为其设计的对抗提示时依然可能失效。
整体而言,当前文生图安全防御更多仍停留在「碎片化补丁」的阶段,距离可覆盖多类攻击、可长期对抗的稳健体系仍有明显差距。
挑战与未来方向
对抗更隐蔽,防御更体系化
随着文生图模型不断增强,更隐蔽、更自动化的对抗攻击正在迅速涌现,暴露出现有防御在细粒度扰动与语义规避面前的明显不足。
文生图安全的下一步,不再是为每一种攻击打补丁,而是识别对抗提示背后的共性结构,让模型具备「模式级」的安全理解能力。只有从语义底层建立起机制化的防护体系,未来的文生图模型才能真正稳健可信。
参考资料:
https://arxiv.org/pdf/2407.15861
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!