728x90

LLaVA-OneVision: Easy Visual Task Transfer

We present LLaVA-OneVision, a family of open large multimodal models (LMMs) developed by consolidating our insights into data, models, and visual representations in the LLaVA-NeXT blog series. Our experimental results demonstrate that LLaVA-OneVision is th

arxiv.org

1. Introduction

LMM이 단일 이미지에 기반한 비주얼 언어 태스크에서 상당한 성과를 보임
하지만 멀티 이미지나 비디오와 같은 확장된 시각 시나리오에는 적용되지 않음
비디오를 위한 기존 연구는 주로 특정 목적에 초점을 맞추거나 특정한 구조 변경을 요구
기존 LMM 구조를 그대로 유지하면서 시나리오 일반화를 시도한 접근은 거의 없음
다양한 시각 시나리오를 통합하여 처리할 수 있는 단일 LMM 프레임워크를 제안
- Large multimodal models: 단일/다중 이미지 및 비디오 시나리오에서 성능을 향상시킨 범용 멀티모달 모델
- Emerging Capabilities with Task Transfer: 다양한 시나리오 간 태스크 전이를 통해 학습되지 않은 비디오 이해 능력 등 새로운 능력이 자연스럽게 나타남
- Open-source: 멀티모달 데이터, 코드, 모델 체크포인트, 데모 등을 공개하여 범용 시각 어시스턴트 개발 촉진

2. Method

2.1 Network Architecture

주요 목표는 두 가지:
1. 사전 학습된 LLM과 Vision Encoder의 기존 능력을 최대한 활용
2. 모델과 데이터 확장성을 자연스럽게 유도하는 구조
LLM model: Qwen-2 ( $ f_\phi (\cdot )$ )
- 최신 성능이 우수, 강력한 언어 이해 능력을 기반으로 멀티모달 성능을 강화
Vision Encoder: SigLIP ( $ g_\psi(\cdot ) $ )
- 입력 이미지 $\textrm{X}_\textrm{v}$를 $\textrm{Z}_\textrm{v} = g(\textrm{X}_\textrm{v})$로 인코딩
  -> SigLIP 관련 내용은 추후 정리
Projector: 2-layer MLP
- 이미지 특징을 단어 임베딩 공간으로 투영 $\textrm{H}_\textrm{v} = p(\textrm{Z}_\textrm{v})$

길이 $L$의 시퀀스에 대해 목표 답변 $\textrm{X}_\textrm{a}의 확률을 다음과 같이 계산
=> 기존 LLaVA와 동일하게 자연어 답변 생성을 위한 auto-regressive 방식

$$p(X_a \mid X_v, X_q) = \prod_{i=1}^{L} p(x_i \mid X_v, X_q, <i, X_{a,<i})$$

2.2 Visual Representations

비전 인코더 성능에 영향을 주는 핵심 요소
- 해상도 (Resolution): 원본 이미지의 픽셀 해상도
- 토큰 수 (#Tokens): 비전 인코더 출력의 시퀀스 길이 (feature tokens)
해상도와 토큰 수를 증가시키면 성능은 향상되지만 계산 비용도 함께 증가
해상도 확장이 토큰 수 확장보다 성능 기여가 크므로 해상도를 높이고 토큰 수를 유지하는 전략이 더 효율적
AnyRes strategy
- 다양한 해상도를 수용할 수 있는 범용 표현 전략
- 너비 a, 높이 b 구성으로 이미지를 a × b 개의 crop으로 분할한 뒤, 각각을 인코딩하여 결합
- 모든 crop은 동일한 해상도 (e.g. 384×384)로 리사이즈
- 크롭당 토큰이 $T$개 일때, 총 시각 토큰 수 $L=(a\times b+1)\times T$
- 토큰 수 제한 임계값 $\tau$ 초과시, bilinear interpolation을 통해 토큰 수 축소
  $T_{\text{new}} =
  \begin{cases}\times
  \tau (a \times b + 1), & \text{if } \; L > \tau \\
  T, & \text{if } \; L \leq \tau
  \end{cases}$
Higher AnyRes
- 기존 AnyRes를 확장 방식
- 고해상도 입력을 지원하기 위해 Bilinear Interpolation을 도입
- 각 crop별로 토큰 수를 유연하게 줄여 많은 crop을 효율적으로 처리
- Single-Image
  - 더 높은 해상도 유지 및 더 많은 crop 수 사용
  - 가장 많은 시각 토큰 수 할당 (예: 7290개) → 세밀한 표현력 확보
  - Video 이해로의 자연스러운 전이를 위해 긴 토큰 시퀀스로 구성
- Multi-Image
  - 각 이미지를 base resolution으로만 인코딩 → crop 생략
  - 메모리 및 계산 비용 절약을 위해 설계
- Video
  - 각 프레임을 base resolution으로 리사이즈 후 인코딩
  - 프레임 수가 많아질 수 있으므로 토큰 수를 bilinear interpolation으로 줄임
  - 효율적인 프레임당 토큰 제한 → 더 긴 영상 지원 가능

3. Training Strategies

일정한 계산 자원(compute budget) 내에서 효과적인 학습을 위해, 모델 훈련을 세 단계로 나누어 수행함.
초반에는 단순하고 작은 입력으로 시작하고, 점차 복잡하고 다양한 입력으로
-> 한번에 다 학습하기 어렵고 자원도 낭비 되므로

Stage 1: Language-Image Alignment
- 시각 특징을 LLM의 단어 임베딩 공간에 잘 정렬(alignment)시키는 단계
Stage 1.5: High-Quality Knowledge Learning
- 모델에 더 많은 지식을 주입해 모델 전체를 학습시키는 단계
- 계산 효율성과 지식 주입의 균형
Stage 2: Visual Instruction Tuning
- 다양한 시각적 태스크에 대한 응답 능력을 학습(지시문 기반 튜닝)
- 이 단계의 핵심은 cross-scenario capabilities
  -> 단일 이미지로 학습한 모델이 다중 이미지나 비디오에서도 잘 동작하도록
- 두 개의 학습 단계로 구성
  1. Single-Image Training
    - 320만 개 단일 이미지 지시문 데이터로 훈련
    - 다양한 태스크에 대한 대응력 강화
  2. OneVision Training
    - 단일 이미지, 다중 이미지, 비디오 데이터를 혼합하여 훈련 (총 160만 샘플)
    - 크로스 시나리오 전이를 통해 새로운 능력의 출현(emergent capabilities) 유도

4. Experiments

순서대로 Single-Image, Instruction-Tuned Open-Ended, Video & Multi-Image 벤치마크

5. Emerging Capabilities with Task Transfer

728x90

'인공지능 > 논문 리뷰' 카테고리의 다른 글

[논문 리뷰] LLaVA-Video: OneVision: Easy Visual Task Transfer (4)	2025.06.30
[논문 리뷰] LLaVA-NeXT: A Strong Zero-shot Video Understanding Model (0)	2025.06.25
[논문 리뷰] LLaVA 1.5: Improved Baselines with Visual Instruction Tuning (1)	2025.06.25
[논문 리뷰] LLaVA: Visual Instruction Tuning (0)	2025.06.25
[논문 리뷰] STEAD: Spatio-Temporal Efficient Anomaly Detection for Time and Compute Sensitive Applications (1)	2025.06.18

인공지능 관련 잡부 라이프

[논문 리뷰] LLaVA-OneVision: Easy Visual Task Transfer

LLaVA-OneVision: Easy Visual Task Transfer

1. Introduction

2. Method

2.1 Network Architecture

2.2 Visual Representations

3. Training Strategies

4. Experiments

5. Emerging Capabilities with Task Transfer

'인공지능 > 논문 리뷰' 카테고리의 다른 글

티스토리툴바

[논문 리뷰] LLaVA-OneVision: Easy Visual Task Transfer

LLaVA-OneVision: Easy Visual Task Transfer

1. Introduction

2. Method

2.1 Network Architecture

2.2 Visual Representations

3. Training Strategies

4. Experiments

5. Emerging Capabilities with Task Transfer

'인공지능 > 논문 리뷰' 카테고리의 다른 글

'인공지능/논문 리뷰' Related Articles

티스토리툴바