LLM News | TPS

research

Merlin: Stanford releases 3D CT vision-language model trained on 6M images

Researchers at Stanford have released Merlin, a 3D vision-language model designed specifically for abdominal CT scan interpretation. Trained on 6+ million CT images, 1.8 million diagnosis codes, and 6+ million report tokens from 15,331 scans, Merlin outperforms 2D medical vision-language models on diagnostic classification, phenotyping, and semantic segmentation across internal and external validation sets.

March 5, 2026 · 5:10 AM2 min read

medical-imaging vision-language-models 3d-models

via arxiv.org ↗