Review Summury
- Basic information : [11 May 2026][Arxiv] Break the Brake, Not the Wheel: Untargeted Jailbreak via Entropy Maximization
- One-line summary : VLM에서 Gradient-based 이미지 공격의 범용성을 높이기 위해, Decision tokens의 high-entropy를 극대화하여 거부 결과를 뒤집는 동시에, 나머지 low-entropy를 안정화하여 출력 품질을 유지하는 UJEM-KL(Untargeted Jailbreak via Entropy Maximization)을 제안한다.
- Key Contribution :
- Advantages & Learnings :
- Limitations & Questions :
-
- 범용성을 높이기 위한 실험이였다면, white-box 모델 외에 black-box 모델 실험 결과도 공개해야하지 않는가?
- Action Items :
RQ 1.
Abstract
- 문제 제기 : 최근 연구되고 있는 Gradient-based universal image jailbreak attack은 모델 간 transferability(전이성)이 거의 없거나 전혀 나타나지 않아, transferable(전이 가능한) multimodal jailbreak의 가능성에 의구심을 던진다.