LLM News | TPS

research

New benchmark reveals LLMs lose controllability at finer behavioral levels

A new arXiv paper introduces SteerEval, a hierarchical benchmark for measuring how well large language models can be controlled across language features, sentiment, and personality. The research reveals that existing steering methods degrade significantly at finer-grained behavioral specification levels, raising concerns for deployment in sensitive domains.

March 5, 2026 · 1:51 AM2 min read

research benchmark llm-controllability

via arxiv.org ↗