728x90

LLaVA-Video: Video Instruction Tuning With Synthetic Data

Video Instruction Tuning With Synthetic Data

The development of video large multimodal models (LMMs) has been hindered by the difficulty of curating large amounts of high-quality raw data from the web. To address this, we propose an alternative approach by creating a high-quality synthetic dataset sp

arxiv.org

1. Introduction

Visual Instruction Tuning의 비디오 분야로의 확장은 데이터 수집의 어려움으로 제한됨
현재의 비디오-언어 지시 데이터셋은 대부분 정적인 짧은 클립으로 구성되어 있으며, 복잡한 내러티브나 시간적 변화 이해에는 적합하지 않음
기존 데이터셋은 프레임 샘플링 비율이 낮아 정밀한 행동 인식이나 묘사에 어려움(할루시네이션 유발)
GPT-4o와 인간 협력을 통해 정밀 캡션, 자유형 및 객관식 질문을 포함한 고품질 합성 데이터셋 LLaVA-Video-178K 구축
1초당 1프레임을 기반으로 영상 길이에 따라 세 단계(Level-1~3)로 나눠 재귀적으로 상세 캡션을 생성하는 파이프라인을 제안
GPU 메모리 제약 내에서 더 많은 프레임을 활용할 수 있는 SlowFast 비디오 표현 기법을 도입
컨트리 뷰션 요약
- Video-language Instruction-Following Data: LLaVA-Video-178K를 제공
- Video Large Multimodal Models: 고급 대형 비디오-언어 모델 시리즈 LLaVA-Video 개발
- Open-Source:

2. Method

2.1 Video Source

다양한 공개 비디오-언어 벤치마크 조사 후 기존 40개 중 아래 10개 선별하여 비디오 풀 구성
- HD-VILA-100M, InternVid-10M, VidOR, VIDAL (YouTube Shorts), YouCook2, Charades, ActivityNet, Kinetics-700, Something-Something v2, Ego4D
동적인 고품질 비디오를 선별하여 사용(절차는 그림 1과 같이 조회수, 장면수, 길이 ... )
특히 절차 4번 장면 수/ 비디오 길이 <= 0.5 는 슬라이드 형식의 정적인 비디오를 걸러내기 위함
> 장면 수(영상 내에서 서로 다른 장면으로 전환되는 횟수)를 비디오 길이로 나눈 값이 낮다는 의미는 장면 전환이 거의 없는 영상을 의미, 저자들은 이러한 영상이 비디오-언어 모델이 학습해야 할 행동, 변화와 같은 동적인 의미가 부족하다고 판단
> 실제 내용의 시간적 다이내믹을 고려한 정교한 필터링

2.2 Video Detail Description

어떤 길이의 비디오든 정밀하고 일관된 캡션을 자동 생성하는 캡션 생성 파이프라인을 구축
초당 1프레임으로 비디오 샘플링

level-1 Description
- 각 10초 구간에 대해 GPT-4o가 해당 구간의 프레임을 참고하여 상세 설명 생성
- 이전의 Level-1 설명들과 직전 Level-2 요약을 문맥(Context)으로 활용
Level-2 Description
- 가장 최근 3개의 Level-1 설명을 요약하여 30초 단위 중간 줄거리 요약 생성
- 또한, 직전 Level-2 요약도 함께 고려
Level-3 Description
- 마지막 Level-2 요약과 아직 요약되지 않은 마지막 Level-1 설명들을 바탕으로 전체 영상에 대한 최종 설명 생성

2.3 Video Question Answering

아래 그림과 같이 16가지 질문 유형 정의
비디오 설명(캡션)을 기반으로 GPT-4o를 활용해 질문과 답변을 생성
- Task Definition: 현재 질문 유형이 무엇인지 설명
- In-Context Examples: 예시 3개 제공 (설명 + 질문 + 정답)
- Current Video Description: 지금 설명하려는 비디오의 실제 설명 문장
- 질문-답변 쌍을 생성할 수 없는 경우 GPT-4o에게 None를 반환하도록 지시
생성된 질문-답변 쌍을 필터링
- 문장 변환기(sentence-transformer)(Reimers & Gurevych, 2020)를 사용하여 중복을 제거
- 불명확한 답변 제거: “does not specify”, “not mentioned”, “does not show” 등으로 시작하는 답변은 제거

3. Experiments

LLaVA-Video-72B는 상용 모델인 Gemini-1.5-Flash와 비슷한 수준 성능 달성
LLaVA-Video-7B는 이전 SOTA 모델인 LLaVA-OV-7B보다 7개 벤치마크에서 우수
YouTube 기반 벤치마크에서는 특히 성능 향상 → LLaVA-Video-178K에 YouTube 영상이 많기 때문

LLaVA-Video-178K만 추가해도 성능이 큰 폭으로 상승 (예: NExT-QA +31.9%)
영상 데이터에 더해 이미지 데이터까지 포함하면 성능이 가장 높아짐

동일한 데이터 수로 비교했을 때도 LLaVA-Video-178K가 가장 높은 성능
데이터의 “질”이 “양”보다 더 중요하다는 점을 강조

728x90

'인공지능 > 논문 리뷰' 카테고리의 다른 글

[논문 리뷰] LLaVA-OneVision: Easy Visual Task Transfer (1)	2025.06.26
[논문 리뷰] LLaVA-NeXT: A Strong Zero-shot Video Understanding Model (0)	2025.06.25
[논문 리뷰] LLaVA 1.5: Improved Baselines with Visual Instruction Tuning (1)	2025.06.25
[논문 리뷰] LLaVA: Visual Instruction Tuning (1)	2025.06.25
[논문 리뷰] STEAD: Spatio-Temporal Efficient Anomaly Detection for Time and Compute Sensitive Applications (1)	2025.06.18

인공지능 관련 잡부 라이프

[논문 리뷰] LLaVA-Video: OneVision: Easy Visual Task Transfer

LLaVA-Video: Video Instruction Tuning With Synthetic Data

1. Introduction

2. Method

2.1 Video Source

2.2 Video Detail Description

2.3 Video Question Answering

3. Experiments

'인공지능 > 논문 리뷰' 카테고리의 다른 글

티스토리툴바

[논문 리뷰] LLaVA-Video: OneVision: Easy Visual Task Transfer

LLaVA-Video: Video Instruction Tuning With Synthetic Data

1. Introduction

2. Method

2.1 Video Source

2.2 Video Detail Description

2.3 Video Question Answering

3. Experiments

'인공지능 > 논문 리뷰' 카테고리의 다른 글

'인공지능/논문 리뷰' Related Articles

티스토리툴바