Best LLM for Reasoning in 2026

Ranked by composite reasoning score averaging GPQA, MATH, AIME 2025, and AIME 2024. These benchmarks test graduate-level science, competition mathematics, and multi-step logical reasoning.

Updated automatically as new models release. Full benchmark leaderboard →

Grok 4.20 xAI

97.0%

avg

GPQA: 95.5%

MATH: 98.8%

AIME 2025: 97.0%

AIME 2024: 96.7%

GPT-5.4 OpenAI

95.3%

avg

GPQA: 93.5%

MATH: 98.4%

AIME 2025: 95.5%

AIME 2024: 94.0%

Claude Mythos Preview Anthropic

94.6%

avg

GPQA: 94.6%

Gemini 3.1 Pro Google DeepMind

93.7%

avg

GPQA: 94.3%

MATH: 97.1%

AIME 2025: 93.0%

AIME 2024: 90.4%

o3 OpenAI

93.5%

avg

GPQA: 87.7%

MATH: 97.9%

AIME 2025: 96.7%

AIME 2024: 91.6%

Kimi K2.6 Moonshot AI

93.5%

avg

GPQA: 90.5%

AIME 2024: 96.4%

Grok 4 xAI

92.3%

avg

GPQA: 83.0%

MATH: 98.1%

AIME 2025: 95.1%

AIME 2024: 93.0%

Gemini 2.5 Pro Google DeepMind

92.0%

avg

GPQA: 88.1%

MATH: 96.1%

AIME 2025: 92.0%

AIME 2024: 92.0%

o4-mini OpenAI

91.9%

avg

GPQA: 81.4%

MATH: 99.5%

AIME 2025: 93.4%

AIME 2024: 93.4%

Claude Opus 4.6 Anthropic

91.4%

avg

GPQA: 91.3%

MATH: 94.2%

AIME 2025: 91.0%

AIME 2024: 89.0%

DeepSeek R1 DeepSeek

89.8%

avg

GPQA: 79.5%

MATH: 97.3%

AIME 2025: 91.0%

AIME 2024: 91.4%

Grok 3 mini xAI

89.6%

avg

MATH: 89.6%

Claude Opus 4.5 Anthropic

89.3%

avg

GPQA: 87.0%

MATH: 93.8%

AIME 2025: 89.0%

AIME 2024: 87.5%

Qwen3.6 27B Alibaba / Qwen

87.8%

avg

GPQA: 87.8%

Gemma 4 31B Google DeepMind

87.6%

avg

GPQA: 84.3%

AIME 2025: 89.2%

AIME 2024: 89.2%

Qwen3.5-9B Alibaba / Qwen

87.1%

avg

GPQA: 81.7%

AIME 2025: 92.5%

Nemotron 3 Ultra NVIDIA

87.0%

avg

GPQA: 87.0%

Nemotron-3-Ultra-550B-A55B NVIDIA

87.0%

avg

GPQA: 87.0%

Claude Opus 4 Anthropic

86.5%

avg

GPQA: 86.5%

Trinity Large Thinking Arcee Ai

86.3%

avg

GPQA: 76.3%

AIME 2025: 96.3%

o1-pro OpenAI

86.3%

avg

GPQA: 79.7%

MATH: 93.8%

AIME 2025: 85.0%

AIME 2024: 86.7%

Qwen3.6-35B-A3B-FP8 Alibaba / Qwen

86.0%

avg

GPQA: 86.0%

Qwen3.6 35B A3B Alibaba / Qwen

86.0%

avg

GPQA: 86.0%

GPT-5.4 mini OpenAI

85.8%

avg

GPQA: 78.5%

MATH: 93.0%

Qwen3.5-27B Alibaba / Qwen

85.5%

avg

GPQA: 85.5%

Gemma 4 26B A4B Google DeepMind

85.3%

avg

GPQA: 82.3%

MATH: 82.4%

AIME 2025: 88.3%

AIME 2024: 88.3%

Grok 3 xAI

84.9%

avg

GPQA: 75.3%

MATH: 97.6%

AIME 2025: 82.7%

AIME 2024: 83.9%

NVIDIA Nemotron-3-Super-120B-A12B NVIDIA

84.6%

avg

GPQA: 79.2%

AIME 2025: 90.0%

Grok 4 mini xAI

84.4%

avg

GPQA: 72.0%

MATH: 93.2%

AIME 2025: 88.0%

Qwen3.5-35B-A3B Alibaba / Qwen

84.2%

avg

GPQA: 84.2%

Claude Sonnet 4.5 Anthropic

84.2%

avg

GPQA: 83.4%

MATH: 88.3%

AIME 2025: 87.0%

AIME 2024: 78.0%

ZAYA1-8B Zyphra

83.1%

avg

GPQA: 71.0%

AIME 2025: 89.1%

AIME 2024: 89.1%

Gemma 4 26B A4B IT Google DeepMind

82.3%

avg

GPQA: 82.3%

Hy3 Preview Tencent

81.7%

avg

GPQA: 87.2%

MATH: 76.3%

GPT-4.1 OpenAI

81.5%

avg

GPQA: 72.4%

MATH: 90.6%

QwQ-32B Alibaba / Qwen

81.5%

avg

GPQA: 71.5%

MATH: 94.5%

AIME 2025: 80.3%

AIME 2024: 79.5%

Claude Sonnet 4.6 Anthropic

80.9%

avg

GPQA: 74.1%

MATH: 89.1%

AIME 2025: 79.6%

Qwen3 72B Alibaba / Qwen

80.8%

avg

GPQA: 72.3%

MATH: 87.5%

AIME 2025: 82.5%

Llama 4 Maverick Meta AI

79.3%

avg

GPQA: 69.8%

MATH: 88.9%

Gemma 4 12B Unified Google DeepMind

78.8%

avg

GPQA: 78.8%

MiMo-V2.5-Pro Xiaomi

76.5%

avg

GPQA: 66.7%

MATH: 86.2%

Qwen3.5-4B Alibaba / Qwen

76.2%

avg

GPQA: 76.2%

Sonar Deep Research Perplexity AI

73.7%

avg

GPQA: 68.5%

MATH: 78.8%

Sonar Reasoning Pro Perplexity AI

73.3%

avg

GPQA: 66.2%

MATH: 80.5%

Magistral Small Mistral AI

70.7%

avg

AIME 2024: 70.7%

Claude 3.7 Sonnet Anthropic

70.7%

avg

GPQA: 70.7%

Gemma 4 31B IT NVFP4 NVIDIA

70.7%

avg

GPQA: 75.5%

AIME 2025: 65.9%

Mistral Medium 3 Mistral AI

69.0%

avg

GPQA: 64.8%

MATH: 73.2%

Sonar Reasoning Perplexity AI

66.6%

avg

GPQA: 58.0%

MATH: 75.2%

GPT-4o OpenAI

65.1%

avg

GPQA: 53.6%

MATH: 76.6%

DeepSeek V4 Pro DeepSeek

64.5%

avg

MATH: 64.5%

Sonar Pro Perplexity AI

62.9%

avg

GPQA: 55.4%

MATH: 70.4%

Claude Haiku 4.5 Anthropic

61.3%

avg

GPQA: 50.1%

MATH: 72.4%

Gemma 4 E4B Instruction-Tuned Google DeepMind

58.6%

avg

GPQA: 58.6%

Mellum2-12B-A2.5B-Thinking JetBrains

58.0%

avg

GPQA: 57.6%

AIME 2025: 58.4%

DeepSeek V4 Flash DeepSeek

57.4%

avg

MATH: 57.4%

Sonar Perplexity AI

56.0%

avg

GPQA: 48.0%

MATH: 64.0%

Step-3.5-Flash-Base StepFun

54.3%

avg

GPQA: 41.7%

MATH: 66.8%

Granite 4.1 30B Ibm

45.8%

avg

GPQA: 45.8%

Gemma 4 E2B Google DeepMind

44.4%

avg

GPQA: 43.4%

MATH: 52.4%

AIME 2025: 37.5%

Granite 4.1 8B Ibm

42.0%

avg

GPQA: 42.0%

Gemma 4 E2B Instruction-Tuned Google DeepMind

40.5%

avg

GPQA: 43.4%

AIME 2025: 37.5%

LFM2.5-VL-450M Liquid Ai

25.7%

avg

GPQA: 25.7%

What makes a good reasoning model?

Reasoning benchmarks test whether a model can solve multi-step problems requiring planning, logic, and domain knowledge — not just pattern matching or retrieval.

GPQA (Diamond) — Questions written by PhD-level experts in biology, chemistry, and physics. Designed so that non-experts who Google the answer still fail. The gold standard for deep scientific reasoning.
MATH — Competition mathematics at AMC/AIME difficulty. Tests multi-step algebraic and geometric reasoning.
AIME 2025 — The American Invitational Math Exam, 2025 edition. 30 hard problems, integer answers. Most recent math benchmark — 2025 numbers are resistant to training data contamination.
AIME 2024 — Same format, one year earlier. Used alongside 2025 to give a more stable picture of math reasoning capability.

For tasks involving complex analysis, research, legal and financial reasoning, or scientific work, a high GPQA score is the best predictor of real-world performance.

Also see: Best Coding LLM, Best Cheap LLM, Compare any two models.