Review Summury

  • Basic information : [11 May 2026][Arxiv] Break the Brake, Not the Wheel: Untargeted Jailbreak via Entropy Maximization
  • One-line summary : VLM에서 Gradient-based 이미지 공격의 범용성을 높이기 위해, Decision tokens의 high-entropy를 극대화하여 거부 결과를 뒤집는 동시에, 나머지 low-entropy를 안정화하여 출력 품질을 유지하는 UJEM-KL(Untargeted Jailbreak via Entropy Maximization)을 제안한다.
  • Key Contribution :
  • Advantages & Learnings :
  • Limitations & Questions :
      1. 범용성을 높이기 위한 실험이였다면, white-box 모델 외에 black-box 모델 실험 결과도 공개해야하지 않는가?
  • Action Items : RQ 1.

Abstract

  • 문제 제기 : 최근 연구되고 있는 Gradient-based universal image jailbreak attack은 모델 간 transferability(전이성)이 거의 없거나 전혀 나타나지 않아, transferable(전이 가능한) multimodal jailbreak의 가능성에 의구심을 던진다.