MVEB

Audio-visual video embedding quality across retrieval, classification, clustering, pair classification, zero-shot classification, and video-centric QA, with tasks selected to maximize coverage of audio-video joint modality inputs.

Languages 16

Tasks 23

Task Types 6

Models 0

Availability

Zero-shot

Model size 1.0M – 1.0T

1.0M10.0M100M1.0B10.0B100B1.0T

Instructions

Sentence-Transformers compatible

Model type

dense cross-encoder late-interaction sparse router

Modality

text image audio video

Leaderboard source on GitHub