서론

VLM(Vision-Language Model)의 구조적 취약점을 분석하고, 이를 붕괴(Attack/Jailbreak)시키거나 보완(Defense/Alignment)하는 연구는 현재 AI 안전(AI Safety) 분야에서 가장 치열하고 중요한 주제이다.

이러한 연구는 본질적으로 ‘창(새로운 공격 기법/취약점 증명)’과 ‘방패(새로운 방어 기법/구조적 보완)’의 특성을 모두 가질 수 있고, 연구의 초점이 공격(취약점 입증)인지, 방어(안정성 보완)인지에 따라 비교 대상(Baseline)의 구성이 달라져야 한다.

엄밀한 VLM 안전 연구 설계를 위해 반드시 고려해야 할 비교 대상 선정 전략 및 방법론적 기준을 이야기해 본다.

본론

1. 테스트베드: 어떤 VLM 모델들을 표적(Target)으로 삼을 것인가?

새로운 방법론을 실험할 ‘대상 모델’ 자체가 연구의 외적 타당도(일반화 가능성)를 결정한다. 단일 모델 실험은 인정받기 어려우며, 다음 범주를 모두 포함해야 한다.

오픈 웨이트(Open-weight) 모델: 모델의 내부 구조(Gradient, Attention map 등)에 접근 가능한 모델. 구조적 취약점을 분석하는 연구라면 필수적이다.
- 예시: LLaVA 시리즈, Qwen-VL, InstructBLIP, MiniGPT-4 등.
상용 API (Closed-source) 모델: 내부 접근은 불가능하지만(Black-box), 제안하는 취약점이 실제 상용 최고 수준의 모델에도 적용되는지(Transferability) 증명하기 위해 필요하다.
- 예시: GPT-4o/GPT-4V, Claude 3 (Opus/Sonnet), Gemini 1.5 Pro 등.

2. 공격(Attack) 연구일 경우: 취약점 입증을 위한 비교 방법론

제안하는 연구가 새로운 구조적 취약점을 찾아내어 모델의 안전성을 붕괴시키는 방법(Jailbreak)을 제시한다면, 기존의 공격 기법들과 성능(공격 성공률)을 비교해야 한다.

① 텍스트 기반 단일 모달 공격 (Text-only Jailbreaks): VLM이라도 텍스트 프롬프트 자체가 강력하면 뚫림. 제안하는 시각적/다중 모달 공격이 텍스트 단독 공격보다 유의미하게 강력함을 증명해야 함.
- 비교 대상: GCG (Greedy Coordinate Gradient), AutoDAN, PAIR 등 최신 텍스트 적대적 프롬프트.
② 시각적 적대적 공격 (Visual Adversarial Examples): 이미지에 노이즈를 섞어 모델을 속이는 전통적인 방법론.
- 비교 대상: PGD (Projected Gradient Descent), FGSM 기반의 이미지 섭동(Perturbation) 공격.
③ 다중 모달 교차 공격 (Cross-modal Jailbreaks): 텍스트의 악의적 의도를 이미지(타이포그래피 등)로 숨기거나, 이미지와 텍스트를 결합한 최신 VLM 맞춤형 공격.
- 비교 대상: FigStep, Visual-Prompt-Injection, 최신 VLM 전용 탈옥 기법들.

3. 방어(Defense) 연구일 경우: 안정성 보완을 위한 비교 방법론

제안하는 연구가 발견된 취약점을 막아내는 새로운 구조적 보완이나 필터링 방법을 제시한다면, 기존 방어 체계들과 효율성을 비교해야 한다.

① 입력단/출력단 필터링 (System-level Guardrails): 가장 보편적인 방어선.
- 비교 대상: Llama-Guard, OpenAI Moderation API 등 (이미지-텍스트 입력을 처리하는 최신 Guard 모델들).
② 기존의 강건성 훈련 기법 (Robust Fine-tuning / Alignment):
- 비교 대상: Adversarial Training(적대적 훈련)을 거친 모델, 혹은 RLHF/DPO(인간 피드백 기반 강화학습)를 통해 안전성(Safety) 최적화가 강하게 적용된 베이스라인.
③ 절제 연구 (Ablation Baseline): 제안하는 ‘새로운 구조적 보완책(예: 특정 Attention 헤드 제어, 새로운 모듈 추가 등)’을 제거했을 때, 기존 모델이 얼마나 취약해지는지 반드시 보여주어야 함.

4. 핵심 타당도 위협 및 방법론적 엄밀성 검토

AI 안전 연구에서 리뷰어들이 가장 날카롭게 비판하는 지점은 다음과 같고, 연구 설계 시 다음 사항을 방어할 수 있어야 한다.

Alignment Tax (정상 성능 저하) 측정: 가장 중요한 지표로써, 방어력을 높이거나 구조를 수정했을 때, 모델의 본래 지능(Benign Performance)이 얼마나 떨어지는지 반드시 비교 측정해야 한다.
- 실행 방안: 제안한 방법론을 적용한 후 MMBench, VQAv2, MMMU 등 일반적인 VLM 벤치마크 테스트를 돌려, 기존 모델(Baseline) 대비 성능 하락 폭을 투명하게 공개해야 합니다. (안전해졌지만 바보가 되었다면 쓸모없는 방법론일 것임.)
공격 성공률(ASR, Attack Success Rate)의 객관성: 모델이 안전 정책을 위반했는지(공격 성공) 여부를 어떻게 판별할 것인가? 단순히 특정 단어(“I cannot…“)가 포함되었는지 규칙 기반으로 검사하는 것은 구성개념 타당도가 낮다. GPT-4 기반의 심판(LLM-as-a-Judge) 모델을 활용하거나, 인간 평가자(Human Evaluation)의 블라인드 테스트 결과를 교차 검증(Triangulation)해야한다.
위협 모델(Threat Model)의 생태학적 타당도: White-box(모델 내부 파라미터를 다 아는 상황)에서의 공격/보완인지, Black-box(사용자 API 환경)에서의 상황인지 명확히 구분해야함. White-box에서만 통하는 공격이라면 현실적 위협(생태학적 타당도)이 떨어진다는 비판을 받을 수 있으므로, Black-box 모델로의 전이성(Transferability) 실험을 반드시 추가해야 한다.

5. 연구 윤리적 고려사항 (Ethical Considerations)

취약점 공격을 다루는 AI 연구는 윤리적 측면에서 엄격한 기준을 요구받는다.

책임 있는 공개 (Responsible Disclosure): 치명적인 새로운 구조적 취약점을 발견했다면, 논문 출판 전 해당 모델 개발사(예: OpenAI, Google, Meta 등)에 사전 고지하고 패치할 시간을 주었는지 논문 내에 명시해야 한다.
위험 최소화: 논문에 악의적 프롬프트의 전체 코드나 즉시 악용 가능한 형태의 데이터를 그대로 노출하지 않도록 검열(Redaction) 정책을 어떻게 수립했는지 작성해야 한다.

결론

VLM(Vision-Language Model)의 안전성을 다루는 연구는 단순히 ‘새로운 취약점을 발견했다’거나 ‘새로운 방어막을 구축했다’는 단편적인 선언에 그쳐서는 안 된다. 인공지능 안전(AI Safety) 연구의 진정한 가치는 그 발견이 얼마나 보편적이고 현실적인 위협인지, 혹은 제안하는 방어 기법이 모델의 본래 지능을 훼손하지 않으면서도 얼마나 견고한지를 입증하는 ‘엄밀한 증명 과정’에 있다.

따라서 연구자는 오픈소스와 상용 API 모델을 아우르는 다각적인 테스트베드를 구축하고, 연구의 목적(공격 또는 방어)에 부합하는 치밀한 비교 대상(Baseline)을 설정해야 한다. 무엇보다 안전성을 확보하는 대가로 지불해야 하는 정상 성능의 저하(Alignment Tax)를 투명하게 측정하고, 공격 성공률(ASR)의 객관성 및 전이성(Transferability)을 검증하여 연구의 생태학적 타당도를 방어해야 한다.

여기에 ‘책임 있는 공개(Responsible Disclosure)’와 같은 철저한 연구 윤리까지 결합될 때, 제안하는 방법론은 단순한 해킹 기법이나 임시방편의 필터링을 넘어, 신뢰할 수 있는 AI 생태계 구축에 실질적으로 기여하는 견고한 학술적 성과로 자리매김할 수 있을 것이다. 궁극적으로 VLM 안전 연구에서 엄밀한 비교와 검증은 연구의 신뢰성을 담보하는 가장 강력한 방패이다.