본문 바로가기

인공지능/논문 리뷰

[논문 리뷰] LLaVA-Video: OneVision: Easy Visual Task Transfer

728x90

LLaVA-Video: Video Instruction Tuning With Synthetic Data



https://arxiv.org/abs/2410.02713

 

Video Instruction Tuning With Synthetic Data

The development of video large multimodal models (LMMs) has been hindered by the difficulty of curating large amounts of high-quality raw data from the web. To address this, we propose an alternative approach by creating a high-quality synthetic dataset sp

arxiv.org


1. Introduction

  • Visual Instruction Tuning의 비디오 분야로의 확장은 데이터 수집의 어려움으로 제한됨
  • 현재의 비디오-언어 지시 데이터셋은 대부분 정적인 짧은 클립으로 구성되어 있으며, 복잡한 내러티브나 시간적 변화 이해에는 적합하지 않음
  • 기존 데이터셋은 프레임 샘플링 비율이 낮아 정밀한 행동 인식이나 묘사에 어려움(할루시네이션 유발)
  • GPT-4o와 인간 협력을 통해 정밀 캡션, 자유형 및 객관식 질문을 포함한 고품질 합성 데이터셋 LLaVA-Video-178K 구축
  • 1초당 1프레임을 기반으로 영상 길이에 따라 세 단계(Level-1~3)로 나눠 재귀적으로 상세 캡션을 생성하는 파이프라인을 제안
  • GPU 메모리 제약 내에서 더 많은 프레임을 활용할 수 있는 SlowFast 비디오 표현 기법을 도입
  • 컨트리 뷰션 요약
    • Video-language Instruction-Following Data: LLaVA-Video-178K를 제공
    • Video Large Multimodal Models: 고급 대형 비디오-언어 모델 시리즈 LLaVA-Video 개발
    • Open-Source: 

2. Method

2.1 Video Source

  • 다양한 공개 비디오-언어 벤치마크 조사 후 기존 40개 중 아래 10개 선별하여 비디오 풀 구성
    - HD-VILA-100M, InternVid-10M, VidOR, VIDAL (YouTube Shorts), YouCook2, Charades, ActivityNet, Kinetics-700, Something-Something v2, Ego4D
  • 동적인 고품질 비디오를 선별하여 사용(절차는 그림 1과 같이 조회수, 장면수, 길이 ... )
  • 특히 절차 4번 장면 수/ 비디오 길이 <= 0.5 는 슬라이드 형식의 정적인 비디오를 걸러내기 위함
    > 장면 수(영상 내에서 서로 다른 장면으로 전환되는 횟수)를 비디오 길이로 나눈 값이 낮다는 의미는 장면 전환이 거의 없는 영상을 의미, 저자들은 이러한 영상이 비디오-언어 모델이 학습해야 할 행동, 변화와 같은 동적인 의미가 부족하다고 판단
    > 실제 내용의 시간적 다이내믹을 고려한 정교한 필터링

2.2 Video Detail Description

  • 어떤 길이의 비디오든 정밀하고 일관된 캡션을 자동 생성하는 캡션 생성 파이프라인을 구축
  • 초당 1프레임으로 비디오 샘플링
  1. level-1 Description
    • 각 10초 구간에 대해 GPT-4o가 해당 구간의 프레임을 참고하여 상세 설명 생성
    • 이전의 Level-1 설명들과 직전 Level-2 요약을 문맥(Context)으로 활용
  2. Level-2 Description
    • 가장 최근 3개의 Level-1 설명을 요약하여 30초 단위 중간 줄거리 요약 생성
    • 또한, 직전 Level-2 요약도 함께 고려
  3. Level-3 Description
    • 마지막 Level-2 요약과 아직 요약되지 않은 마지막 Level-1 설명들을 바탕으로 전체 영상에 대한 최종 설명 생성

2.3 Video Question Answering

  • 아래 그림과 같이 16가지 질문 유형 정의
  • 비디오 설명(캡션)을 기반으로 GPT-4o를 활용해 질문과 답변을 생성
    • Task Definition: 현재 질문 유형이 무엇인지 설명
    • In-Context Examples: 예시 3개 제공 (설명 + 질문 + 정답)
    • Current Video Description: 지금 설명하려는 비디오의 실제 설명 문장
    • 질문-답변 쌍을 생성할 수 없는 경우 GPT-4o에게 None를 반환하도록 지시
  • 생성된 질문-답변 쌍을 필터링
    • 문장 변환기(sentence-transformer)(Reimers & Gurevych, 2020)를 사용하여 중복을 제거
    • 불명확한 답변 제거: “does not specify”, “not mentioned”, “does not show” 등으로 시작하는 답변은 제거

3. Experiments

 

  • LLaVA-Video-72B는 상용 모델인 Gemini-1.5-Flash와 비슷한 수준 성능 달성
  • LLaVA-Video-7B는 이전 SOTA 모델인 LLaVA-OV-7B보다 7개 벤치마크에서 우수
  • YouTube 기반 벤치마크에서는 특히 성능 향상 → LLaVA-Video-178K에 YouTube 영상이 많기 때문

  • LLaVA-Video-178K만 추가해도 성능이 큰 폭으로 상승 (예: NExT-QA +31.9%)
  • 영상 데이터에 더해 이미지 데이터까지 포함하면 성능이 가장 높아짐

  • 동일한 데이터 수로 비교했을 때도 LLaVA-Video-178K가 가장 높은 성능
  • 데이터의 “질”이 “양”보다 더 중요하다는 점을 강조

728x90