728x90
LLaVA-OneVision: Easy Visual Task Transfer
https://arxiv.org/abs/2408.03326
LLaVA-OneVision: Easy Visual Task Transfer
We present LLaVA-OneVision, a family of open large multimodal models (LMMs) developed by consolidating our insights into data, models, and visual representations in the LLaVA-NeXT blog series. Our experimental results demonstrate that LLaVA-OneVision is th
arxiv.org
1. Introduction
- LMM이 단일 이미지에 기반한 비주얼 언어 태스크에서 상당한 성과를 보임
- 하지만 멀티 이미지나 비디오와 같은 확장된 시각 시나리오에는 적용되지 않음
- 비디오를 위한 기존 연구는 주로 특정 목적에 초점을 맞추거나 특정한 구조 변경을 요구
- 기존 LMM 구조를 그대로 유지하면서 시나리오 일반화를 시도한 접근은 거의 없음
- 다양한 시각 시나리오를 통합하여 처리할 수 있는 단일 LMM 프레임워크를 제안
- Large multimodal models: 단일/다중 이미지 및 비디오 시나리오에서 성능을 향상시킨 범용 멀티모달 모델
- Emerging Capabilities with Task Transfer: 다양한 시나리오 간 태스크 전이를 통해 학습되지 않은 비디오 이해 능력 등 새로운 능력이 자연스럽게 나타남
- Open-source: 멀티모달 데이터, 코드, 모델 체크포인트, 데모 등을 공개하여 범용 시각 어시스턴트 개발 촉진
2. Method
2.1 Network Architecture
- 주요 목표는 두 가지:
- 사전 학습된 LLM과 Vision Encoder의 기존 능력을 최대한 활용
- 모델과 데이터 확장성을 자연스럽게 유도하는 구조
- LLM model: Qwen-2 ( $ f_\phi (\cdot )$ )
- 최신 성능이 우수, 강력한 언어 이해 능력을 기반으로 멀티모달 성능을 강화
- Vision Encoder: SigLIP ( $ g_\psi(\cdot ) $ )
- 입력 이미지 $\textrm{X}_\textrm{v}$를 $\textrm{Z}_\textrm{v} = g(\textrm{X}_\textrm{v})$로 인코딩
-> SigLIP 관련 내용은 추후 정리
- 입력 이미지 $\textrm{X}_\textrm{v}$를 $\textrm{Z}_\textrm{v} = g(\textrm{X}_\textrm{v})$로 인코딩
- Projector: 2-layer MLP
- 이미지 특징을 단어 임베딩 공간으로 투영 $\textrm{H}_\textrm{v} = p(\textrm{Z}_\textrm{v})$
- 길이 $L$의 시퀀스에 대해 목표 답변 $\textrm{X}_\textrm{a}의 확률을 다음과 같이 계산
=> 기존 LLaVA와 동일하게 자연어 답변 생성을 위한 auto-regressive 방식
$$p(X_a \mid X_v, X_q) = \prod_{i=1}^{L} p(x_i \mid X_v, X_q, <i, X_{a,<i})$$
2.2 Visual Representations
- 비전 인코더 성능에 영향을 주는 핵심 요소
- 해상도 (Resolution): 원본 이미지의 픽셀 해상도
- 토큰 수 (#Tokens): 비전 인코더 출력의 시퀀스 길이 (feature tokens)
- 해상도와 토큰 수를 증가시키면 성능은 향상되지만 계산 비용도 함께 증가
- 해상도 확장이 토큰 수 확장보다 성능 기여가 크므로 해상도를 높이고 토큰 수를 유지하는 전략이 더 효율적
- AnyRes strategy
- 다양한 해상도를 수용할 수 있는 범용 표현 전략
- 너비 a, 높이 b 구성으로 이미지를 a × b 개의 crop으로 분할한 뒤, 각각을 인코딩하여 결합
- 모든 crop은 동일한 해상도 (e.g. 384×384)로 리사이즈
- 크롭당 토큰이 $T$개 일때, 총 시각 토큰 수 $L=(a\times b+1)\times T$
- 토큰 수 제한 임계값 $\tau$ 초과시, bilinear interpolation을 통해 토큰 수 축소
$T_{\text{new}} =
\begin{cases}\times
\tau (a \times b + 1), & \text{if } \; L > \tau \\
T, & \text{if } \; L \leq \tau
\end{cases}$
- Higher AnyRes
- 기존 AnyRes를 확장 방식
- 고해상도 입력을 지원하기 위해 Bilinear Interpolation을 도입
- 각 crop별로 토큰 수를 유연하게 줄여 많은 crop을 효율적으로 처리
- Single-Image
- 더 높은 해상도 유지 및 더 많은 crop 수 사용
- 가장 많은 시각 토큰 수 할당 (예: 7290개) → 세밀한 표현력 확보
- Video 이해로의 자연스러운 전이를 위해 긴 토큰 시퀀스로 구성
- Multi-Image
- 각 이미지를 base resolution으로만 인코딩 → crop 생략
- 메모리 및 계산 비용 절약을 위해 설계
- Video
- 각 프레임을 base resolution으로 리사이즈 후 인코딩
- 프레임 수가 많아질 수 있으므로 토큰 수를 bilinear interpolation으로 줄임
- 효율적인 프레임당 토큰 제한 → 더 긴 영상 지원 가능
3. Training Strategies
- 일정한 계산 자원(compute budget) 내에서 효과적인 학습을 위해, 모델 훈련을 세 단계로 나누어 수행함.
- 초반에는 단순하고 작은 입력으로 시작하고, 점차 복잡하고 다양한 입력으로
-> 한번에 다 학습하기 어렵고 자원도 낭비 되므로
- Stage 1: Language-Image Alignment
- 시각 특징을 LLM의 단어 임베딩 공간에 잘 정렬(alignment)시키는 단계
- Stage 1.5: High-Quality Knowledge Learning
- 모델에 더 많은 지식을 주입해 모델 전체를 학습시키는 단계
- 계산 효율성과 지식 주입의 균형
- Stage 2: Visual Instruction Tuning
- 다양한 시각적 태스크에 대한 응답 능력을 학습(지시문 기반 튜닝)
- 이 단계의 핵심은 cross-scenario capabilities
-> 단일 이미지로 학습한 모델이 다중 이미지나 비디오에서도 잘 동작하도록 - 두 개의 학습 단계로 구성
- Single-Image Training
- 320만 개 단일 이미지 지시문 데이터로 훈련
- 다양한 태스크에 대한 대응력 강화
- OneVision Training
- 단일 이미지, 다중 이미지, 비디오 데이터를 혼합하여 훈련 (총 160만 샘플)
- 크로스 시나리오 전이를 통해 새로운 능력의 출현(emergent capabilities) 유도
- Single-Image Training
4. Experiments
- 순서대로 Single-Image, Instruction-Tuned Open-Ended, Video & Multi-Image 벤치마크
5. Emerging Capabilities with Task Transfer
728x90