论文来源:arxiv

关于大语言模型安全的Paper arxiv列表:

Paper Date:2024-06-11

 

1.Merging Improves Self-Critique Against Jailbreak Attacks

针对越狱攻击的自我批评的改进方法

大型语言模型(LLMs)对抗敌对操纵的鲁棒性,如越狱攻击,仍然是一个重大挑战。在这项工作中,我们提出了一种方法,增强了LLM的自我批评能力,并在经过消毒的合成数据上对其进行进一步微调。这是通过添加一个可以与原始模型合并的外部批评模型来完成的,从而加强了自我批评能力并提高了LLM对对抗性提示的响应鲁棒性。我们的结果表明,合并和自我批评的结合可以显著降低攻击者的攻击成功率,从而为对抗越狱攻击提供了一种有前景的防御机制。代码、数据和模型发布在 https://github.com/vicgalle/ merging-self-critique-jailbreaks

 

2.Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study.

多模态大语言模型的基准可信性的一项综合研究

尽管多模态大型语言模型(MLLMs)在多样化任务中具有卓越的能力,但它们仍然面临重大的可信度挑战。然而,当前关于评估可信MLLMs的文献仍然有限,缺乏全面的评估,无法为未来的改进提供深入的洞察。在这项工作中,我们建立了MultiTrust,这是第一个全面统一的多模态大型语言模型可信度基准,涵盖了五个主要方面:真实性、安全性、鲁棒性、公平性和隐私。我们的基准采用了严格的评估策略,既解决了多模态风险,也考虑了跨模态影响,包含了32个多样性的任务和自我策划的数据集。通过对21个现代MLLMs的广泛实验,揭示了一些以前未探索的可信度问题和风险,突出了多模态引入的复杂性,并强调了需要先进的方法论来提高它们的可靠性。例如,典型的专有模型仍然在处理视觉上令人困惑的图像方面存在困难,并且容易受到多模态越狱和a对抗性攻击的侵害;即使在推理中与不相关的图像配对,MLLMs也更倾向于在文本中泄露隐私,并展现出意识形态和文化偏见,表明多模态放大了来自基础LLMs的内部风险。此外,我们还发布了一个可扩展的工具箱,用于标准化可信度研究,旨在促进这一重要领域的未来进展。代码和资源公开可用:https://multi-trust.github.io/

 

3.Dual Thinking and Perceptual Analysis of Deep Learning Models using Human Adversarial Examples

借助人类对抗示例对深度学习模型进行双重思考和感知分析

双思维框架考虑了快速、直观的处理和较慢、逻辑的处理。在视觉中对双思维的感知需要这样的图像:直观处理和逻辑处理得出的推论不同。论文引入了一个对抗性数据集,用以提供人类视觉中双思维框架的证据,这也助于研究深度学习模型的定性行为。我们的研究还通过使用实例分割模型来定位对象,解决了将分类模型作为人类视觉的计算模型的一个主要批评。证据强调了形状在人类视觉中识别实例的重要性,并表明深度学习模型缺乏对子结构的理解,这通过模型在子组件位置和数量方面的错误得到了指示。此外,模型和直观人类处理所犯错误的相似性表明,模型只解决了人类视觉中的直观思维。

 

4.MoreauPruner: Robust Pruning of Large Language Models against Weight Perturbations

MoreauPruner: 针对权重扰动的大语言模型的鲁棒剪枝

少样本梯度方法在现有的模型剪枝方法中被广泛使用,其中模型权重被视为静态值,不考虑潜在权重扰动的影响。然而,广泛使用的大型语言模型(LLMs)拥有数十亿个模型参数,这可能会增加少样本梯度剪枝的脆弱性。在这项工作中,我们通过实验表明,在模型权重受到扰动的情况下,单次梯度剪枝算法可能导致不稳定的结果。而且,在bffoat16和ffoat16数据格式之间切换时的微小错误可能导致截然不同的结果。为了解决这种不稳定性,我们利用优化分析并提出了一个名为MoreauPruner的LLM结构化剪枝方法,该方法具有对抗权重扰动的可证明鲁棒性。在MoreauPruner中,模型权重的重要性是基于神经网络的Moreau包络线估计的,可以灵活地与ℓ1范数正则化技术结合,以诱导剪枝任务所需的稀疏性。我们广泛评估了MoreauPruner算法在几个知名LLMs上的表现,包括LLaMA-7B、LLaMA-13B、LLaMA3-8B和Vicuna-7B。我们的数值结果表明MoreauPruner对权重扰动具有鲁棒性,并且与几种现有的剪枝方法相比,MoreauPruner在基于准确度的得分上取得了成功。我们已经发布了代码,网址为https://github.com/ShiningSord/MoreauPruner

 

Paper Date:2024-06-10

 

5. Raccoon: Prompt Extraction Benchmark of LLM-Integrated Applications

Raccoon: LLM集成应用程序的快速提取基准

随着像GPT-s这样的LLM集成应用程序的普及,数百万系统被部署,通过专有指令提示提供宝贵的服务。然而,这些系统容易受到通过精心设计的查询进行的提示提取攻击。为了帮助缓解这个问题,我们引入了Raccoon基准测试,它全面评估了模型对提示提取攻击的易受攻击性。我们新颖的评估方法在无防御和有防御的场景下评估模型,采用双重方法来评估现有防御的有效性和模型的韧性。基准测试包括14种提示提取攻击类别,以及额外模拟潜在攻击者策略的复合攻击,并附有各种防御模板的多样化集合。据我们所知,这个阵列是迄今为止提示盗窃攻击和防御机制最全面的汇编。我们的发现强调,在没有防御措施的情况下,普遍存在对提示盗窃的易受攻击性,而在受到保护时,OpenAI模型显示出显著的韧性。本文旨在为评估LLM对提示提取攻击的鲁棒性建立更系统的基准,提供对原因和潜在对策的洞察。Raccoon的资源在https://github.com/M0gician/RaccoonBench上公开可用。

 

6. A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures.

大型语言模型上的后门攻击与防御研究:安全措施的启发

大型语言模型(LLMs)弥合了人类语言理解与复杂问题解决之间的鸿沟,在多个自然语言处理(NLP)任务上实现了最先进的性能,特别是在少样本和零样本设置中。尽管LLMs的效能已经得到证明,但由于计算资源的限制,用户不得不使用开源语言模型或将整个训练过程外包给第三方平台。然而,研究表明语言模型可能存在潜在的安全漏洞,特别是在后门攻击方面。后门攻击旨在通过中毒训练样本或模型权重来向语言模型引入针对性的漏洞,允许攻击者通过恶意触发器操纵模型响应。尽管现有的关于后门攻击的调查提供了全面的概述,但它们缺乏针对LLMs的后门攻击的深入探讨。为了填补这一空白并掌握该领域的最新趋势,本文通过关注微调方法,提出了针对LLMs的后门攻击的新视角。具体来说,我们将后门攻击系统地分为三类:全参数微调、参数高效微调和无需微调的攻击。基于大量文献回顾的洞察,我们还讨论了未来研究的几个关键问题,例如进一步探索不需要微调的攻击算法,或开发更隐蔽的攻击算法。

 

7. An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection

一种利用大型语言模型(LLM)辅助的、易于触发的代码补全模型后门攻击:针对强检测注入的伪装漏洞

大型语言模型(LLMs)已经转变了代码补全任务,提供基于上下文的建议以提升软件工程中开发者的生产力。由于用户经常针对特定应用对这些模型进行微调,因此中毒和后门攻击可以隐秘地改变模型输出。为了应对这一关键的安全挑战,我们介绍了CODEBREAKER,这是一个开创性的、由LLM辅助的代码补全模型后门攻击框架。与最近在代码的可检测或无关部分(例如,注释)嵌入恶意有效载荷的攻击不同,CODEBREAKER利用LLMs(例如,GPT-4)进行复杂的有效载荷转换(而不影响功能),确保微调的中毒数据和生成的代码都能逃避强大的漏洞检测。CODEBREAKER以其对漏洞的全面覆盖而脱颖而出,成为第一个提供如此广泛集进行评估的框架。我们广泛的实验评估和用户研究强调了CODEBREAKER在各种设置下的强大攻击性能,验证了其优于现有方法的优越性。通过将恶意有效载荷直接集成到源代码中并最小化转换,CODEBREAKER挑战了当前的安全措施,强调了迫切需要为代码补全提供更强大的防御。源代码、漏洞分析和完整版本可在 https://github.com/datasec-lab/CodeBreaker/ 获得

 

8. Unveiling the Safety of GPT-4o: An Empirical Study using Jailbreak Attacks.

GPT-4o的安全性揭露:使用越狱攻击的实证研究

GPT-4o的最近发布因其强大的通用能力而引起了广泛关注。尽管其令人印象深刻的性能得到了广泛认可,但其安全性方面尚未得到充分探讨。鉴于先进生成型AI(如GPT-4o)产生的风险内容可能对社会产生的影响,严格评估其安全性至关重要。为了回应这个问题,本文首次对GPT-4o针对越狱攻击进行了严格的评估。具体来说,本文在4个常用的基准测试上采用了一系列的多模态和单模态越狱攻击,这些基准测试涵盖了三种模态(即文本、语音和图像),包括对超过4000个初始文本查询的优化以及对GPT-4o上近8000+个响应的分析和统计评估。我们广泛的实验揭示了几个新的观察结果:(1) 与之前的版本(如GPT-4V)相比,GPT-4o在文本模态越狱的背景下增强了安全性;(2) 新引入的音频模态为GPT-4o的越狱攻击打开了新的攻击向量;(3) 现有的黑盒多模态越狱攻击方法对GPT-4o和GPT-4V大多无效。这些发现为GPT-4o的安全含义提供了关键洞察,并强调了在大模型中需要强大的对齐护栏。我们的代码可在https://github.com/NY1024/Jailbreak_GPT4o获得。

 

Paper Date:2024-06-08

 

9. SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner

SELFDEFEND: LLMs能够以实用的方式防御越狱攻击

越狱是一种新兴的对抗性攻击,它绕过了现成的大型语言模型(LLMs)中部署的安全对齐,并已演变成四个主要类别:基于优化的攻击,如贪婪坐标梯度(GCG)攻击,基于越狱模板的攻击,如“现在做任何事”(DAN),高级间接攻击如DrAttack,以及多语言越狱。然而,提供实用的越狱防御是具有挑战性的,因为它不仅需要处理上述所有越狱攻击,还不能对用户提示造成可忽略的延迟,并且需要与开源和闭源LLMs兼容。

受到传统安全概念中影子堆栈防御内存溢出攻击的启发,本文引入了一个通用的LLM越狱防御框架,称为SELFDEFEND,它建立一个影子LLM防御实例,以在正常堆中并发保护目标LLM实例,并与之协作进行基于检查点的访问控制。SELFDEFEND的有效性建立在我们观察到现有LLMs(目标LLMs和防御LLMs)具有识别用户查询中有害提示或意图的能力,我们使用常用的GPT-3.5/4模型对所有主要越狱攻击进行了实证验证。我们的测量显示,SELFDEFEND使GPT-3.5将攻击成功率(ASR)降低了8.97-95.74%(平均:60%),而GPT-4甚至降低了36.36-100%(平均:83%),同时对正常查询的影响可以忽略不计。

为了进一步提高防御的鲁棒性并最小化成本,我们采用数据蒸馏方法来调整专用的开源防御模型。这些模型的表现超过了四种SOTA防御,并且与基于GPT-4的SELFDEFEND性能相当,具有显著更低的额外延迟。我们还实证显示,调整后的模型对针对GCG和提示注入攻击具有鲁棒性。

 

10. One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models.

一个扰动就足够了:关于生成针对视觉语言预训练模型的通用对抗性扰动。

基于大规模图像-文本对的视觉-语言预训练(VLP)模型在许多实际应用中展示了前所未有的能力。然而,以前的研究已经揭示,VLP模型容易受到恶意对手创造的对抗样本的攻击。尽管现有的攻击在提高攻击效果和可迁移性方面取得了巨大成功,但它们都专注于为每个输入样本生成扰动的实例攻击。在本论文中,我们展示了VLP模型可以受到针对所有输入样本的新类通用对抗扰动(UAP)的攻击。尽管最初将现有的UAP算法移植过来进行攻击在攻击区分性模型时显示出效果,但当应用于VLP模型时结果并不令人满意。为此,我们重新审视了VLP模型训练中的多模态对齐,并提出了具有跨模态条件的对比训练扰动生成器(C-PGC)。具体来说,我们首先设计了一个生成器,它将跨模态信息作为条件输入以指导训练。为了进一步利用跨模态交互,我们提出将训练目标表述为一个基于我们构建的正负图像-文本对的跨模态对比学习范式。通过使用设计的损失训练条件生成器,我们成功迫使对抗样本远离VLP模型特征空间中的原始区域,从而本质上增强了攻击。广泛的实验表明,我们的方法在各种VLP模型和视觉-语言(V+L)任务中实现了显著的攻击性能。此外,C-PGC表现出卓越的黑盒可迁移性,并在欺骗流行的VLP模型,包括LLaVA和Qwen-VL方面取得了令人印象深刻的成果。

 

Paper Date:2024-06-07

 

11. Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs.

对抗性调整:防御LLM的越狱攻击

尽管安全增强的大型语言模型(LLMs)已经在零样本方式下解决各种复杂任务方面取得了显著的成功,但它们仍然容易受到越狱攻击,尤其是未知越狱攻击。为了增强LLMs的泛化防御能力,我们提出了一个两阶段的对抗性调整框架,该框架生成对抗性提示,通过优化包含对抗性提示及其安全响应的数据对来探索最坏情况。在第一阶段,我们引入了分层元通用对抗性提示学习,以高效有效地生成令牌级对抗性提示。在第二阶段,我们提出了自动对抗性提示学习,以迭代优化语义级对抗性提示,进一步增强LLM的防御能力。我们在三个广泛使用的越狱数据集上进行了全面的实验,将我们的框架与五种代表性攻击场景下的六个防御基线进行了比较。结果突显了我们提出方法的优势。此外,我们的对抗性调整框架在各种攻击策略和目标LLMs上表现出经验泛化性,突显了其作为可转移防御机制潜力。警告:本文包含可能具有攻击性的红队数据和模型生成内容

 

Paper Date:2024-06-06

 

12. AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens.

AutoJailbreak:通过依赖视角探索越狱攻击和防御

大型语言模型(LLMs)中的越狱攻击涉及使用恶意提示诱导模型生成违反道德和法律规范的内容,对LLM的安全性构成了重大威胁。当前针对越狱攻击和防御的策略通常专注于特定算法框架内的局部优化,导致优化效果不佳且可扩展性有限。在本文中,我们对越狱攻击和防御技术中的依赖关系进行了系统分析,并将它们泛化到所有可能的攻击面。我们使用有向无环图(DAGs)来定位和分析现有的越狱攻击、防御和评估方法,并提出了三个全面、自动化和逻辑化的框架。AutoAttack研究了两种越狱优化策略的依赖关系:基于遗传算法(GA)的攻击和基于对抗性生成的攻击。然后,我们引入了一种集成越狱攻击来利用这些依赖关系。AutoDefense通过利用生成前和生成后防御策略中的依赖关系,提供了一种混合防御者方法。AutoEvaluation引入了一种新的评估方法,能够区分经常被忽视的幻觉与越狱攻击和防御响应。通过广泛的实验,我们证明了所提出的集成越狱攻击和防御框架显著优于现有的研究。

 

13. Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt.

基于双模态对抗提示的越狱视觉语言模型

在大型视觉语言模型(LVLMs)的领域中,越狱攻击作为一种红队手段,用于绕过护栏并揭示安全影响。现有的越狱攻击主要关注视觉模态,仅通过干扰提示中的视觉输入来进行攻击。然而,当面对同时融合视觉和文本特征的联合模型时,这些攻击就显得力不从心。为了解决这个限制,本文引入了双模态对抗性提示攻击(BAP),它通过协同优化文本和视觉提示来执行越狱攻击。起初,我们指导一些短样本的查询无关语料库(例如,肯定前缀和否定抑制),在图像中对抗性地嵌入普遍的对抗性扰动。这个过程确保了对抗性图像提示能使LVLMs对有害查询做出积极响应。随后,利用该图像,我们优化具有特定有害意图的文本提示。特别是,我们使用大型语言模型分析越狱失败,并通过反馈迭代的方式,使用链条思维推理来细化文本提示。为了验证我们方法的有效性,我们在各种数据集和LVLMs上进行了广泛的评估,证明了我们的BAP在攻击成功率上显著优于其他方法(平均提高了29.03%)。此外,我们还展示了我们的攻击对黑盒商业LVLMs的潜力,如Gemini和ChatGLM。我们的代码可在https://github.com/NY1024/BAP-Jailbreak-Vision-Lan获取。

 

Paper Date:2024-06-05

 

14. Defending Large Language Models Against Attacks With Residual Stream Activation Analysis.

保护大型语言模型免受攻击的一种方法:残差流激活分析

大型语言模型(LLMs)的广泛采用,如OpenAI的ChatGPT所示,凸显了防御这些模型上对抗性威胁的迫切性。这些攻击通过引入恶意输入来操纵LLM的输出,破坏了模型的完整性和用户对其输出的信任。为了应对这一挑战,我们的论文提出了一种创新的防御策略,在拥有LLM的白盒访问权限的情况下,利用LLM的变压器层之间的残差激活分析。我们应用了一种新颖的方法论,用于分析残差流中独特的激活模式,以进行攻击提示分类。我们策划了多个数据集来证明这种分类方法在多种类型的攻击场景中,包括我们新创建的攻击数据集,都具有高准确性。此外,为了测量这种方法对我们检测攻击能力的影响,我们通过整合LLMs的安全微调技术来增强模型的韧性。结果强调了我们方法在提高检测和缓解对抗性输入方面的有效性,推进了LLMs操作的安全框架。

 

索引术语—对抗性机器学习,大型语言模型,机器学习

 

Paper Date:2024-06-04

 

15. QROA: A Black-Box Query-Response Optimization Attack on LLMs.

QROA:一种针对LLM的黑盒查询响应优化攻击。

大型语言模型(LLMs)在最近几个月人气急升,然而当被操纵时,它们具有生成有害内容的担忧能力。本研究介绍了一种基于优化的攻击策略——查询-响应优化攻击(QROA),旨在通过黑盒、仅查询的交互方式来利用LLMs。QROA向恶意指令中添加一个优化触发器,以迫使LLM生成有害内容。与以前的方法不同,QROA不需要访问模型的logit信息或任何其他内部数据,并且仅通过LLMs的标准查询-响应接口操作。受深度Q学习和贪婪坐标下降的启发,该方法迭代更新令牌以最大化设计的奖励函数。我们在各种LLMs上测试了我们的方法,如Vicuna、Falcon和Mistral,实现了超过80%的攻击成功率(ASR)。我们还对Llama2-chat进行了测试,这是专门为抵抗越狱攻击而设计的Llama2的微调版本,即使初始触发种子次优,也实现了良好的ASR。这项研究表明,使用黑盒优化方法对公共领域部署的LLMs生成越狱攻击是可行的,这为LLMs的更全面安全测试提供了可能。代码将在此链接公开:https://github.com/qroa/qroa。

 

Paper Date:2024-06-03

 

16. CR-UTP: Certified Robustness against Universal Text Perturbations on Large Language Models.

CR-UTP:针对大型语言模型上的通用文本扰动的认证鲁棒性

确保语言模型每个预测的稳定性是至关重要的;也就是说,语言的预测应该在小的输入变化(如单词替换)下保持一致。在本文中,我们研究了证明语言模型对通用文本扰动(UTPs)的鲁棒性的问题,这些扰动已经在通用对抗攻击和后门攻击中被广泛使用。现有的基于随机平滑的认证鲁棒性已经在证明输入特定文本扰动(ISTPs)方面显示出了相当大的前景,其假设是对样本的干净或对抗性单词的任何随机更改都会否定样本级扰动的影响。然而,对于UTPs,仅屏蔽对抗性单词就可以消除攻击。一个简单的方法是简单地增加屏蔽比例和屏蔽攻击令牌的可能性,但这会导致由于广泛的屏蔽而输入损坏,从而显著降低认证准确性和认证半径。为了解决这个挑战,我们引入了一种新颖的方法,即优越提示搜索方法,旨在识别在广泛屏蔽下保持更高认证准确性的优越提示。此外,我们还从理论上说明为什么集成是作为随机平滑的基础提示的特别合适的选择。这种方法被称为优越提示集成技术。我们还实证确认了这项技术,在多种设置中获得了最先进的结果。这些方法首次使得在UTPs和ISTPs下都能获得高认证准确性。CR-UTP的源代码可在https://github.com/UCF-ML-Research/CR-UTP获取。

 

17. Unelicitable Backdoors in Language Models via Cryptographic Transformer Circuits.

通过自回归变换构建的语言模型中的非法后门

开源语言模型的快速扩散显著增加了下游后门攻击的风险。这些后门在模型部署时可能引入危险行为,并且能够规避传统网络安全监控系统的检测。在本文中,我们引入了自回归变换模型中一类新颖的后门,与先前技术相比,这些后门在本质上不可激发。不可激发性阻止了防御者触发后门,即使拥有完全的白盒访问权限并使用自动化技术,如红队测试或某些形式化验证方法,也无法在部署前进行评估或检测。我们展示了我们的新颖构建不仅因为使用加密技术而不可激发,而且具有有利的鲁棒性属性。我们在实证研究中证实了这些属性,并提供了证据表明我们的后门可以抵抗最先进的缓解策略。此外,我们通过展示我们的通用后门在白盒设置中虽然不是完全无法检测,但可能比某些现有设计更难以检测,从而扩展了之前的工作。通过证明将后门无缝集成到变换模型中的可行性,本文从根本上质疑了部署前检测策略的有效性。这为AI安全性和安全性中的攻防平衡提供了新的洞见。

 

Paper Date:2024-06-02

 

18. Invisible Backdoor Attacks on Diffusion Models.

扩散模型的隐形后门攻击。

近年来,扩散模型在高质量图像生成领域取得了显著的成功,引起了越来越多的关注。这种兴趣的增加与对扩散模型相关安全威胁的日益担忧并行,主要归因于它们容易受到恶意利用的影响。值得注意的是,最近的研究揭示了扩散模型对后门攻击的脆弱性,使得通过相应的触发器生成特定的目标图像成为可能。然而,目前的后门攻击方法依赖于手工制作的触发器生成函数,通常表现为可识别的模式被嵌入到输入噪声中,从而使它们容易被人类检测到。

在本文中,我们提出了一种创新且多功能的优化框架,用于获取不可见的触发器,从而提高插入后门的不被发现性和韧性。我们提出的框架适用于无条件和有条件的扩散模型,值得注意的是,我们是首次在文本引导的图像编辑和修复管道的背景下展示对扩散模型的植入后门。此外,我们还展示了条件生成中的后门可以直接应用于模型水印,用于模型所有权验证,这进一步提升了所提出框架的重要性。通过对各种常用采样器和数据集的广泛实验,验证了所提出框架的有效性和隐蔽性。我们的代码公开可访问,网址为 https://github.com/invisibleTriggerDiffusion/invisible_triggers_for_diffusion。

 

Paper Date:2024-05-31

 

19. Improved Techniques for Optimization-Based Jailbreaking on Large Language Models.

基于优化理论改进的大型语言模型越狱技术。

大型语言模型(LLMs)正在迅速发展,它们广泛部署的一个关键组成部分是与安全相关的对齐。许多红队努力试图越狱LLMs,其中,贪婪坐标梯度(GCG)攻击的成功引起了人们对基于优化的越狱技术研究的兴趣。尽管GCG是一个重要的里程碑,但其攻击效率仍然不尽如人意。在本文中,我们提出了几种改进的(经验性)技术,用于像GCG这样的基于优化的越狱。我们首先观察到单一的“Sure”目标模板在很大程度上限制了GCG的攻击性能;考虑到这一点,我们建议应用包含有害自我暗示和/或指导的多样化目标模板来误导LLMs。此外,从优化的角度来看,我们提出了在GCG中自动多坐标更新策略(即自适应决定每步替换多少个令牌)以加速收敛,以及像从易到难的初始化这样的技巧。然后,我们将这些改进技术结合起来,开发了一种高效的越狱方法,称为I-GCG。在我们的实验中,我们评估了一系列基准(如NeurIPS 2023红队赛道)。结果表明,我们的改进技术可以帮助GCG超越最先进的越狱攻击并达到近100%的攻击成功率。代码已发布在https://github.com/jiaxiaojunQAQ/I-GCG

 

20. Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens.

基于静默令牌增强的大型语言模型越狱攻击方法。

随着语言模型在语言领域的显著成功,最近的研究也开始探索LLMs的安全威胁,包括越狱攻击。攻击者精心制作越狱提示,以便目标LLM会对有害问题作出回应。现有的越狱攻击要么需要人类专家,要么利用复杂的算法来制作越狱提示。在本文中,我们介绍了BOOST,这是一种仅利用eos令牌的简单攻击。我们证明,攻击者不必构建复杂的越狱提示,而只需在有害问题的末尾添加几个eos令牌。这将绕过LLMs的安全对齐,并导致成功的越狱攻击。我们进一步将BOOST应用于四种代表性的越狱方法,并显示这些方法的攻击成功率可以通过简单地向提示中添加eos令牌而显著提高。为了理解这种简单但新颖的现象,我们进行了实证分析。我们的分析揭示,(1)添加eos令牌使目标LLM相信输入的危害性要小得多,并且(2)eos令牌具有较低的注意力值,不影响LLM对有害问题的理解,导致模型实际对问题作出回应。我们的发现揭示了LLM对越狱攻击的脆弱性,这促使我们开发强大的安全对齐方法。

 

21. Exploring Vulnerabilities and Protections in Large Language Models: A Survey.

一项探索大型语言模型中的漏洞和保护的调查。

随着大型语言模型(LLMs)在越来越多的AI应用中成为关键组成部分,理解它们的安全漏洞以及防御机制的有效性至关重要。本调查审视了LLMs的安全挑战,重点关注两个主要领域:提示黑客攻击和对抗性攻击,每种攻击都有特定的威胁类型。在提示黑客攻击下,我们探讨了提示注入和越狱攻击,讨论了它们的工作原理、潜在影响以及缓解方法。同样,我们分析了对抗性攻击,将其细分为数据中毒攻击和后门攻击。这种结构化的审视帮助我们理解这些漏洞与可以实施的防御策略之间的关系。调查强调了这些安全挑战,并讨论了保护LLMs免受这些威胁的强健防御框架。通过详细说明这些安全问题,本调查为创建能够抵抗复杂攻击的弹性AI系统的更广泛讨论做出了贡献。

 

Paper Date:2024-05-30

 

22. Typography Leads Semantic Diversifying: Amplifying Adversarial Transferability across Multimodal Large Language Models.

基于排版的语义迁移攻击:在多模式大型语言模型中增强对抗性可迁移性。

随着大型模型人工智能(AI)时代的到来,能够理解视觉和文本之间跨模态交互的多模态大型语言模型(MLLMs)吸引了广泛关注。研究表明,人类难以察觉的对抗性示例具有一种称为迁移性的特征,这意味着一个模型生成的扰动也可能误导另一个不同的模型。增加输入数据的多样性是提高对抗性迁移性的最重要方法之一。这种方法已被证明是一种在黑盒条件下显著扩大威胁影响的方式。研究工作还表明,MLLMs可以在白盒场景中被利用来生成对抗性示例。然而,这类扰动的对抗性迁移性相当有限,无法在不同模型之间实现有效的黑盒攻击。在本文中,我们提出了基于排版的语义迁移攻击(TSTA),其灵感来源于:1)MLLMs倾向于处理语义级别的信息;(2)排版攻击能有效分散MLLMs捕获的视觉信息。在有害词汇插入和重要信息保护的场景中,我们的TSTA展示了优越的性能。

 

23. Exploring the Robustness of Decision-Level Through Adversarial Attacks on LLM-Based Embodied Models.

探索基于LLM的具身模型在决策层面的鲁棒性通过对抗性攻击。

具身智能赋予代理深刻的感知能力,使他们能够以与现实世界情况紧密相关的方式做出反应。大型语言模型(LLMs)深入研究语言指令,在生成复杂任务的计划中扮演着关键角色。因此,基于LLM的具身模型进一步增强了代理理解和处理信息的能力。然而,这种融合也带来了追求更高智能的新挑战。具体来说,攻击者可以通过修改它们的提示来操纵LLM,产生不相关甚至恶意的输出。面对这一挑战,我们注意到在全面评估基于LLM的具身模型鲁棒性方面,缺乏多模态数据。因此,我们构建了专门用于鲁棒性评估的具身智能机器人攻击数据集(EIRAD)。此外,我们设计了两种攻击策略,包括非目标攻击和目标攻击,以有效地模拟各种不同的攻击场景。同时,在攻击过程中,为了更准确地确定我们的方法是否成功攻击了基于LLM的具身模型,我们设计了一种使用BLIP2模型的新攻击成功评估方法。考虑到GCG算法在攻击中的时间和成本密集型特性,我们设计了一种基于各种目标任务的提示后缀初始化方案,从而加速收敛过程。实验结果表明,当针对基于LLM的具身模型时,我们的方法表现出较高的攻击成功率,这表明这些模型在决策层面的鲁棒性较低。

 

24. Phantom: General Trigger Attacks on Retrieval Augmented Language Generation.

幻影:检索增强语言生成的通用触发攻击。

检索增强生成(RAG)在聊天机器人应用中扩展了现代大型语言模型(LLMs)的能力,使开发人员能够在不进行昂贵的训练或微调的情况下适应和个性化LLM的输出。RAG系统使用外部知识数据库来检索与给定查询最相关的文档,并将此上下文提供给LLM生成器。尽管RAG在许多应用中取得了令人印象深刻的实用性,但其用于启用个性化生成模型也引入了新的安全风险。在本工作中,我们提出了新的攻击面,使攻击者可以通过在受害者的知识数据库中注入单个恶意文档来破坏受害者的RAG系统。我们设计了Phantom,这是一种针对RAG增强LLMs的通用两步攻击框架。第一步涉及制作一个被设计的恶意文档,该文档仅在受害者的查询中存在对抗性触发器(一个特定的词序列,作为后门)时,才能在RAG系统的top-k结果中检索到。在第二步中,恶意文档中的特别设计的对抗性字符串触发LLM生成器中的各种对抗性攻击,包括拒绝服务、声誉损害、隐私侵犯和有害行为。我们在多种LLM架构上展示了我们的攻击,包括Gemma、Vicuna和Llama。

 

25. Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks.

防御性提示补丁:一种强大且可解释的防御措施,用于抵御LLM的越狱攻击。

当对齐大型语言模型(LLMs)时,安全性、安全性和合规性是必要的要求。然而,许多看似对齐的LLMs很快就被证明容易受到越狱攻击。这些攻击旨在通过引入越狱提示到恶意查询中来绕过模型的安全护栏和安全机制。为了应对这些挑战,本文引入了Defensive Prompt Patch(DPP),这是一种新型的基于提示的防御机制,专门设计用于保护LLMs免受此类复杂的越狱策略。与以前的方法不同,DPP旨在在最小化攻击成功率(ASR)的同时保持LLMs的高效用。我们的方法使用精心设计的可解释的后缀提示,有效挫败了各种标准和非适应性越狱技术。在LLAMA-2-7B-Chat和Mistral-7B-Instruct-v0.2模型上进行的实证结果证明了DPP的稳健性和适应性,显示出ASR的显著降低,而效用影响微乎其微。我们的方法不仅在平衡安全和功能方面优于现有的防御策略,而且还提供了一个可扩展且可解释的解决方案,适用于各种LLM平台。项目地址:https://huggingface.co/spaces/TrustSafeAI/

Defensive-Prompt-Patch-Jailbreak-Defense

 

26. Large Language Model Watermark Stealing With Mixed Integer Programming.

利用混合整数规划进行大型语言模型水印窃取。

大型语言模型(LLM)水印是一种新兴技术,显示出解决LLM版权、监控AI生成的文本以及防止其滥用的前景。LLM水印方案通常包括生成秘密键来将词汇表划分为绿色和红色列表,对绿色列表中的令牌的logits应用扰动以增加它们的采样可能性,从而促进水印检测以识别AI生成的文本,如果绿色令牌的比例超过一个阈值。然而,最近的研究表明,使用大量键的水印方法容易受到移除攻击,例如令牌编辑、同义词替换和改写,随着键的数量增加,鲁棒性下降。因此,使用较少或单个键的最新水印方案已被证明在文本编辑和改写方面更具有鲁棒性。在这篇论文中,我们提出了一种针对最新LLM水印方案的新型绿色列表窃取攻击,并系统地研究了其对此攻击的脆弱性。我们将攻击形式化为一个带有约束的混合整数规划问题。我们在一个全面的威胁模型下评估了我们的攻击,包括攻击者没有任何先验知识、没有访问水印检测器API、不了解LLM的参数设置或水印注入/检测方案的极端场景。在LLMs,如OPT和LLaMA上进行的广泛实验表明,我们的攻击可以成功窃取绿色列表并在所有设置下移除水印。

 

Paper Date:2024-05-29

 

27.AI Risk Management Should Incorporate Both Safety and Security

人工智能风险管理应当兼顾安全和防护

在安全性对齐的语言模型中暴露的安全漏洞,例如对对抗性攻击的易感性,已经揭示了AI安全性和AI防护性之间错综复杂的相互作用。尽管这两个学科现在在AI风险管理这一总体目标下合并,但它们在历史上是独立发展的,导致了不同的观点。因此,在本文中,我们主张AI风险管理的相关方应该意识到安全和防护之间的细微差别、协同作用和相互作用,并且明确地考虑到这两个学科的观点,以便制定最有效和全面的减轻风险的方法。不幸的是,这一愿景往往被掩盖,因为“安全”和“防护”这些基本概念的定义本身经常不一致,缺乏跨社区的共识。随着AI风险管理日益跨学科,这个问题尤为突出。鉴于这个概念上的挑战,我们引入了一个统一的参考框架来澄清AI安全性和AI防护性之间的差异和相互作用,旨在促进跨社区共享的理解和有效的合作。

 

28. Genshin: General Shield for Natural Language Processing with Large Language Models.

Genshin: 大语言模型自然语言处理的通用防护盾。

大型语言模型(LLMs),如ChatGPT、Gemini或LLaMA,最近趋势显著,在无数领域展示了显著的进步和泛化能力。然而,LLMs创造的更大的黑盒加剧了不透明性,可解释性仅限于少数方法。LLMs本质中固有的不确定性和不透明性限制了它们在高风险领域,如金融欺诈、网络钓鱼等领域的应用。目前的方法主要依赖于传统的文本分类和后验可解释算法,面临攻击者可能创建多功能对抗性样本以破坏系统防御的问题,迫使用户在效率和稳健性之间做出权衡。为了解决这个问题,我们提出了一种名为Genshin(大语言模型自然语言处理的通用防护盾)的新型级联框架,利用LLMs作为防御性一次性插件。与大多数LLM应用试图将文本转化为新事物或结构不同,Genshin使用LLMs来恢复文本到其原始状态。Genshin旨在结合LLM的泛化能力、中位数模型的判别能力和简单模型的可解释性。我们在情感分析和垃圾邮件检测任务上的实验结果显示了当前中位数模型的致命缺陷,以及LLMs恢复能力的令人振奋的结果,表明Genshin既有效又高效。在我们的消融研究中,我们发现了一些有趣的现象。利用LLM防御者,一种来自第四范式的工具,我们在NLP的第三范式中重现了BERT的15%最佳掩码率结果。此外,当使用LLM作为潜在的对抗性工具时,攻击者能够执行几乎语义上无损失的有效攻击。我们使用SHAP解释器进行了详细的案例分析,这可能为系统改进提供见解。最后,我们提供了关于Genshin架构的讨论,强调了每个组件的必要性,并概述了当前的局限性。

 

Paper Date:2024-05-28

 

29. Improved Generation of Adversarial Examples Against Safety-aligned LLMs.

改进对安全性对齐的LLM生成对抗性示例的方法。

大型语言模型(LLMs)的出色表现引起了对其安全和可信度的兴趣和担忧。尽管已经做出了许多努力来确保它们遵守安全标准并产生无害的内容,但仍有一些成功案例在绕过这些限制,即针对LLMs的越狱攻击。使用基于梯度的方法生成的对抗性提示(或称为对抗性示例)在自动执行越狱攻击方面表现出色。然而,由于文本的离散性质,LLMs的输入梯度在精确反映由提示中的令牌替换引起的损失变化幅度方面存在困难,即使在白盒设置下,针对安全性对齐的LLMs的攻击成功率也有限。在本文中,我们探索了这个问题的新视角,提出可以通过借鉴最初为攻击黑盒图像分类模型提出的基于迁移的攻击的创新来缓解这个问题。首次,我们将这些基于迁移的攻击中有效方法的意识形态,即跳过梯度方法[48]和中间级别攻击[16],用于提高白盒LLMs上自动生成的对抗性示例的有效性。通过适当的调整,我们将这些意识形态注入基于梯度的对抗性提示生成过程中,实现了显著的性能提升,而没有引入明显的计算成本。同时,通过讨论收益背后的机制,我们获得了新的见解,并开发了这些方法的适当组合。我们的实证结果显示,在AdvBench上,我们开发的组合生成的87%的查询特定对抗性后缀可以诱导Llama-2-7B-Chat产生与目标字符串完全匹配的输出。这一匹配率比著名的强基准GCG高出33%,展示了针对LLMs的对抗性提示生成的先进离散优化。此外,在不引入明显成本的情况下,该组合在生成针对Llama-2-7B-Chat模型的查询特定(38% → 68%)和通用对抗性提示(26.68% → 60.32%)时,相对于GCG实现了> 30%的绝对攻击成功率提升。代码位于:https://github.com/qizhangli/Gradient-based-JailbreakAttacks.

 

30. White-box Multimodal Jailbreaks Against Large Vision-Language Models.

针对大型视觉语言模型的白盒多模态越狱攻击。

最近在大型视觉语言模型(VLMs)方面的进展突显了它们在各种多模态任务中的优越性。然而,VLMs的对抗鲁棒性尚未得到充分探索。现有方法主要通过单模态对抗性攻击来评估鲁棒性,这些攻击会扰动图像,同时假设对基于文本的攻击具有固有的抵抗力。与现有攻击不同,在本工作中,我们提出了一种更全面的方法,同时攻击文本和图像模态,以利用VLMs内部的更广泛漏洞。具体来说,我们提出了一种双优化目标,旨在引导模型生成具有高毒性的肯定性响应。我们的攻击方法首先从随机噪声优化一个对抗性图像前缀,以在缺乏文本输入的情况下生成各种有害响应,从而赋予图像有毒的语义。随后,将对抗性文本后缀与对抗性图像前缀集成并共同优化,以最大化各种有害指令引发肯定性响应的概率。发现的对抗性图像前缀和文本后缀共同被命名为通用主键(UMK)。当集成到各种恶意查询中时,UMK可以绕过VLMs的对齐防御,导致生成不良内容,即越狱。实验结果表明,我们的通用攻击策略可以有效地使MiniGPT-4越狱,成功率达到96%,凸显了VLMs的脆弱性,并强调了需要新的对齐策略的紧迫性。

 

31. Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing.

通过层特定编辑保护大型语言模型免受越狱攻击。

大型语言模型(LLMs)在各种实际应用中被越来越多地采用。尽管它们的表现令人印象深刻,但最近的研究表明,LLMs即使通过人类反馈的强化学习或监督微调进行对齐,仍然容易受到故意设计的对抗性提示的影响。尽管现有的防御方法专注于检测有害提示或通过各种方式减少有害响应的可能性,但基于LLMs内部机制保护LLMs免受越狱攻击的研究仍然相对较少。在本工作中,我们研究了LLMs如何响应有害提示,并提出了一种新的防御方法,称为层特定编辑(LED),以增强LLMs对越狱攻击的抵抗力。通过LED,我们发现LLMs的早期层中存在几个关键的安全层。然后,我们展示了将这些安全层(以及一些选定的附加层)与从选定目标层解码的安全响应重新对齐,可以显著提高LLMs对越狱攻击的对齐。在各种LLMs(例如Llama2、Mistral)上的广泛实验表明LED的有效性,它有效地防御了越狱攻击,同时保持了良性提示上的性能。我们的代码可在https://github.com/ledllm/ledllm上找到

 

32. Black-Box Detection of Language Model Watermarks.

语言模型水印的黑盒检测。

水印作为一种检测LLM生成的文本的有力手段,已经崭露头角。为了应用水印,LLM提供商使用一个秘密键来增强生成,这个信号后来可以被任何拥有相同密钥的方检测到。最近的研究提出了三种主要的水印方案,其中两种关注于保留LLM分布的属性。这是因为它是一个可以保持LLM能力的可管理的代理,也是因为隐藏水印部署的想法使得恶意行为者更难以通过避免使用特定的LLM或攻击其水印来隐藏滥用。然而,尽管关于可检测性的讨论很多,但以前的工作并没有调查这些方案家族在现实的黑盒设置中是否可检测。我们首次解决了这个问题,开发了严格的统计测试,仅通过有限的黑盒查询来检测所有三种最流行的水印方案家族的存在。我们在一系列方案和开源模型的多样集上实验性地确认了我们的方法的有效性。我们的发现表明,当前的水印方案比以前认为的可检测性更强,而隐藏水印部署的事实可能不是提供商对抗对手的一种可行方式。我们进一步将我们的方法应用于测试最受欢迎的公共API后面的水印存在情况:GPT4、CLAUDE 3、GEMINI 1.0 PRO,发现目前没有强烈的证据表明存在水印。