본문 바로가기

인공지능/논문 리뷰

[논문 리뷰] LLaVA-OneVision: Easy Visual Task Transfer

728x90

LLaVA-OneVision: Easy Visual Task Transfer


https://arxiv.org/abs/2408.03326

 

LLaVA-OneVision: Easy Visual Task Transfer

We present LLaVA-OneVision, a family of open large multimodal models (LMMs) developed by consolidating our insights into data, models, and visual representations in the LLaVA-NeXT blog series. Our experimental results demonstrate that LLaVA-OneVision is th

arxiv.org


1. Introduction

  • LMM이 단일 이미지에 기반한 비주얼 언어 태스크에서 상당한 성과를 보임
  • 하지만 멀티 이미지나 비디오와 같은 확장된 시각 시나리오에는 적용되지 않음
  • 비디오를 위한 기존 연구는 주로 특정 목적에 초점을 맞추거나 특정한 구조 변경을 요구
  • 기존 LMM 구조를 그대로 유지하면서 시나리오 일반화를 시도한 접근은 거의 없음
  • 다양한 시각 시나리오를 통합하여 처리할 수 있는 단일 LMM 프레임워크를 제안
    • Large multimodal models: 단일/다중 이미지 및 비디오 시나리오에서 성능을 향상시킨 범용 멀티모달 모델
    • Emerging Capabilities with Task Transfer: 다양한 시나리오 간 태스크 전이를 통해 학습되지 않은 비디오 이해 능력 등 새로운 능력이 자연스럽게 나타남
    • Open-source: 멀티모달 데이터, 코드, 모델 체크포인트, 데모 등을 공개하여 범용 시각 어시스턴트 개발 촉진

2. Method

2.1 Network Architecture

  • 주요 목표는 두 가지:
    1. 사전 학습된 LLM과 Vision Encoder의 기존 능력을 최대한 활용
    2. 모델과 데이터 확장성을 자연스럽게 유도하는 구조
  • LLM model: Qwen-2 ( $ f_\phi (\cdot )$ )
    • 최신 성능이 우수, 강력한 언어 이해 능력을 기반으로 멀티모달 성능을 강화
  • Vision Encoder: SigLIP ( $ g_\psi(\cdot ) $ )
    • 입력 이미지 $\textrm{X}_\textrm{v}$를 $\textrm{Z}_\textrm{v} = g(\textrm{X}_\textrm{v})$로 인코딩
      -> SigLIP 관련 내용은 추후 정리
  • Projector: 2-layer MLP
    • 이미지 특징을 단어 임베딩 공간으로 투영 $\textrm{H}_\textrm{v} = p(\textrm{Z}_\textrm{v})$

  • 길이 $L$의 시퀀스에 대해 목표 답변 $\textrm{X}_\textrm{a}의 확률을 다음과 같이 계산
    => 기존 LLaVA와 동일하게 자연어 답변 생성을 위한 auto-regressive 방식

$$p(X_a \mid X_v, X_q) = \prod_{i=1}^{L} p(x_i \mid X_v, X_q, <i, X_{a,<i})$$

2.2 Visual Representations

  • 비전 인코더 성능에 영향을 주는 핵심 요소
    • 해상도 (Resolution): 원본 이미지의 픽셀 해상도
    • 토큰 수 (#Tokens): 비전 인코더 출력의 시퀀스 길이 (feature tokens)
  • 해상도와 토큰 수를 증가시키면 성능은 향상되지만 계산 비용도 함께 증가
  • 해상도 확장이 토큰 수 확장보다 성능 기여가 크므로 해상도를 높이고 토큰 수를 유지하는 전략이 더 효율적
  • AnyRes strategy
    • 다양한 해상도를 수용할 수 있는 범용 표현 전략
    • 너비 a, 높이 b 구성으로 이미지를 a × b 개의 crop으로 분할한 뒤, 각각을 인코딩하여 결합
    • 모든 crop은 동일한 해상도 (e.g. 384×384)로 리사이즈
    • 크롭당 토큰이 $T$개 일때, 총 시각 토큰 수 $L=(a\times b+1)\times T$
    • 토큰 수 제한 임계값 $\tau$ 초과시, bilinear interpolation을 통해 토큰 수 축소
      $T_{\text{new}} =
      \begin{cases}\times 
      \tau (a \times b + 1), & \text{if } \; L > \tau \\
      T, & \text{if } \; L \leq \tau
      \end{cases}$
  • Higher AnyRes
    • 기존 AnyRes를 확장 방식
    • 고해상도 입력을 지원하기 위해 Bilinear Interpolation을 도입
    • 각 crop별로 토큰 수를 유연하게 줄여 많은 crop을 효율적으로 처리
    • Single-Image 
      • 더 높은 해상도 유지 및 더 많은 crop 수 사용
      • 가장 많은 시각 토큰 수 할당 (예: 7290개) → 세밀한 표현력 확보
      • Video 이해로의 자연스러운 전이를 위해 긴 토큰 시퀀스로 구성
    • Multi-Image 
      • 각 이미지를 base resolution으로만 인코딩 → crop 생략
      • 메모리 및 계산 비용 절약을 위해 설계
    • Video 
      • 각 프레임을 base resolution으로 리사이즈 후 인코딩
      • 프레임 수가 많아질 수 있으므로 토큰 수를 bilinear interpolation으로 줄임
      • 효율적인 프레임당 토큰 제한 → 더 긴 영상 지원 가능

3. Training Strategies

  • 일정한 계산 자원(compute budget) 내에서 효과적인 학습을 위해, 모델 훈련을 세 단계로 나누어 수행함.
  • 초반에는 단순하고 작은 입력으로 시작하고, 점차 복잡하고 다양한 입력으로
    -> 한번에 다 학습하기 어렵고 자원도 낭비 되므로
  1. Stage 1: Language-Image Alignment
    • 시각 특징을 LLM의 단어 임베딩 공간에 잘 정렬(alignment)시키는 단계
  2. Stage 1.5: High-Quality Knowledge Learning
    • 모델에 더 많은 지식을 주입해 모델 전체를 학습시키는 단계
    • 계산 효율성과 지식 주입의 균형
  3. Stage 2: Visual Instruction Tuning
    • 다양한 시각적 태스크에 대한 응답 능력을 학습(지시문 기반 튜닝)
    • 이 단계의 핵심은 cross-scenario capabilities
      -> 단일 이미지로 학습한 모델이 다중 이미지나 비디오에서도 잘 동작하도록
    • 두 개의 학습 단계로 구성
      1. Single-Image Training
        • 320만 개 단일 이미지 지시문 데이터로 훈련
        • 다양한 태스크에 대한 대응력 강화
      2. OneVision Training
        • 단일 이미지, 다중 이미지, 비디오 데이터를 혼합하여 훈련 (총 160만 샘플)
        • 크로스 시나리오 전이를 통해 새로운 능력의 출현(emergent capabilities) 유도

4. Experiments

  • 순서대로 Single-Image, Instruction-Tuned Open-Ended, Video & Multi-Image 벤치마크

5. Emerging Capabilities with Task Transfer

 

728x90