Apple's RubiCap model generates better image captions with 3-7B parameters than 72B competitors

Apple researchers developed RubiCap, a framework for training dense image captioning models that achieve state-of-the-art results at 2B, 3B, and 7B parameter scales. The 7B model outperforms models up to 72 billion parameters on multiple benchmarks including CapArena and CaptionQA, while the 3B variant matches larger 32B models, suggesting efficient dense captioning doesn't require massive scale.

March 25, 2026 · 11:05 PM2 min read

apple research dense-image-captioning

RubiCap (2B/3B/7B)

Version History

Coverage

Apple's RubiCap model generates better image captions with 3-7B parameters than 72B competitors