Retention Score: Quantifying Jailbreak Risks for Vision Language Models

#1 Retention Score: Quantifying Jailbreak Risks for Vision Language Models [PDF¹] [Copy] [Kimi] [REL]

Authors: Zaitang LI, Pin-Yu Chen, Tsung-Yi Ho

The emergence of Vision-Language Models (VLMs) is significant advancement in integrating computer vision with Large Language Models (LLMs) to enhance multi-modal machine learning capabilities. However, this progress has made VLMs vulnerable to advanced adversarial attacks, raising concerns about reliability. Objective of this paper is to assess resilience of VLMs against jailbreak attacks that can compromise model safety compliance and result in harmful outputs. To evaluate VLM's ability to maintain robustness against adversarial input perturbations, we propose novel metric called \textbf{Retention Score}. Retention Score is multi-modal evaluation metric that includes Retention-I and Retention-T scores for quantifying jailbreak risks in visual and textual components of VLMs. Our process involves generating synthetic image-text pairs using conditional diffusion model. These pairs are then predicted for toxicity score by VLM alongside toxicity judgment classifier. By calculating margin in toxicity scores, we can quantify robustness of VLM in attack-agnostic manner. Our work has four main contributions. First, we prove that Retention Score can serve as certified robustness metric. Second, we demonstrate that most VLMs with visual components are less robust against jailbreak attacks than corresponding plain VLMs. Additionally, we evaluate black-box VLM APIs and find that security settings in Google Gemini significantly affect score and robustness. Moreover, robustness of GPT4V is similar to medium settings of Gemini. Finally, our approach offers time-efficient alternative to existing adversarial attack methods and provides consistent model robustness rankings when evaluated on VLMs including MiniGPT-4, InstructBLIP, and LLaVA.

Subject: AAAI.2025 - AI Alignment

34956@AAAI

#1 Retention Score: Quantifying Jailbreak Risks for Vision Language Models [PDF1] [Copy] [Kimi] [REL]

#1 Retention Score: Quantifying Jailbreak Risks for Vision Language Models [PDF¹] [Copy] [Kimi] [REL]