LLM News

Every LLM release, update, and milestone.

Filtered by:reward-modeling✕ clear

research

Self-confidence signals enable unsupervised reward training for text-to-image models

Researchers introduce SOLACE, a post-training framework that replaces external reward models with an internal self-confidence signal derived from how accurately a text-to-image model recovers injected noise. The method enables fully unsupervised optimization and shows measurable improvements in compositional generation, text rendering, and text-image alignment.

March 6, 2026 · 5:05 AM2 min read

text-to-image post-training reward-modeling

via arxiv.org ↗

research

Perception-R1 uses visual reward signals to improve multimodal AI reasoning

Researchers propose Perception-R1, a method that adds visual perception reward signals to reinforcement learning training for multimodal AI models. The approach achieves state-of-the-art results on multiple reasoning benchmarks using just 1,442 training examples by explicitly teaching models to accurately perceive visual content before reasoning about it.

March 5, 2026 · 12:53 AM2 min read

multimodal-ai reinforcement-learning mllm

via arxiv.org ↗