728x90
LLaVA-Video: Video Instruction Tuning With Synthetic Data
https://arxiv.org/abs/2410.02713
Video Instruction Tuning With Synthetic Data
The development of video large multimodal models (LMMs) has been hindered by the difficulty of curating large amounts of high-quality raw data from the web. To address this, we propose an alternative approach by creating a high-quality synthetic dataset sp
arxiv.org
1. Introduction
- Visual Instruction Tuning의 비디오 분야로의 확장은 데이터 수집의 어려움으로 제한됨
- 현재의 비디오-언어 지시 데이터셋은 대부분 정적인 짧은 클립으로 구성되어 있으며, 복잡한 내러티브나 시간적 변화 이해에는 적합하지 않음
- 기존 데이터셋은 프레임 샘플링 비율이 낮아 정밀한 행동 인식이나 묘사에 어려움(할루시네이션 유발)
- GPT-4o와 인간 협력을 통해 정밀 캡션, 자유형 및 객관식 질문을 포함한 고품질 합성 데이터셋 LLaVA-Video-178K 구축
- 1초당 1프레임을 기반으로 영상 길이에 따라 세 단계(Level-1~3)로 나눠 재귀적으로 상세 캡션을 생성하는 파이프라인을 제안
- GPU 메모리 제약 내에서 더 많은 프레임을 활용할 수 있는 SlowFast 비디오 표현 기법을 도입
- 컨트리 뷰션 요약
- Video-language Instruction-Following Data: LLaVA-Video-178K를 제공
- Video Large Multimodal Models: 고급 대형 비디오-언어 모델 시리즈 LLaVA-Video 개발
- Open-Source:
2. Method
2.1 Video Source
- 다양한 공개 비디오-언어 벤치마크 조사 후 기존 40개 중 아래 10개 선별하여 비디오 풀 구성
- HD-VILA-100M, InternVid-10M, VidOR, VIDAL (YouTube Shorts), YouCook2, Charades, ActivityNet, Kinetics-700, Something-Something v2, Ego4D - 동적인 고품질 비디오를 선별하여 사용(절차는 그림 1과 같이 조회수, 장면수, 길이 ... )
- 특히 절차 4번 장면 수/ 비디오 길이 <= 0.5 는 슬라이드 형식의 정적인 비디오를 걸러내기 위함
> 장면 수(영상 내에서 서로 다른 장면으로 전환되는 횟수)를 비디오 길이로 나눈 값이 낮다는 의미는 장면 전환이 거의 없는 영상을 의미, 저자들은 이러한 영상이 비디오-언어 모델이 학습해야 할 행동, 변화와 같은 동적인 의미가 부족하다고 판단
> 실제 내용의 시간적 다이내믹을 고려한 정교한 필터링

2.2 Video Detail Description
- 어떤 길이의 비디오든 정밀하고 일관된 캡션을 자동 생성하는 캡션 생성 파이프라인을 구축
- 초당 1프레임으로 비디오 샘플링
- level-1 Description
- 각 10초 구간에 대해 GPT-4o가 해당 구간의 프레임을 참고하여 상세 설명 생성
- 이전의 Level-1 설명들과 직전 Level-2 요약을 문맥(Context)으로 활용
- Level-2 Description
- 가장 최근 3개의 Level-1 설명을 요약하여 30초 단위 중간 줄거리 요약 생성
- 또한, 직전 Level-2 요약도 함께 고려
- Level-3 Description
- 마지막 Level-2 요약과 아직 요약되지 않은 마지막 Level-1 설명들을 바탕으로 전체 영상에 대한 최종 설명 생성

2.3 Video Question Answering
- 아래 그림과 같이 16가지 질문 유형 정의
- 비디오 설명(캡션)을 기반으로 GPT-4o를 활용해 질문과 답변을 생성
- Task Definition: 현재 질문 유형이 무엇인지 설명
- In-Context Examples: 예시 3개 제공 (설명 + 질문 + 정답)
- Current Video Description: 지금 설명하려는 비디오의 실제 설명 문장
- 질문-답변 쌍을 생성할 수 없는 경우 GPT-4o에게 None를 반환하도록 지시
- 생성된 질문-답변 쌍을 필터링
- 문장 변환기(sentence-transformer)(Reimers & Gurevych, 2020)를 사용하여 중복을 제거
- 불명확한 답변 제거: “does not specify”, “not mentioned”, “does not show” 등으로 시작하는 답변은 제거

3. Experiments
- LLaVA-Video-72B는 상용 모델인 Gemini-1.5-Flash와 비슷한 수준 성능 달성
- LLaVA-Video-7B는 이전 SOTA 모델인 LLaVA-OV-7B보다 7개 벤치마크에서 우수
- YouTube 기반 벤치마크에서는 특히 성능 향상 → LLaVA-Video-178K에 YouTube 영상이 많기 때문


- LLaVA-Video-178K만 추가해도 성능이 큰 폭으로 상승 (예: NExT-QA +31.9%)
- 영상 데이터에 더해 이미지 데이터까지 포함하면 성능이 가장 높아짐

- 동일한 데이터 수로 비교했을 때도 LLaVA-Video-178K가 가장 높은 성능
- 데이터의 “질”이 “양”보다 더 중요하다는 점을 강조

728x90