What is the best open LLM on AIME 2024/2025?

DeepSeek V4 Pro is the top open model on AIME 2024/2025, scoring 96.7%. Among all models tested — including proprietary ones — it ranks #11. The top model overall is GPT 5.5 Pro Pre Release (xhigh) (OpenAI) at 100.0%.

What's the best AIME 2024/2025 model you can run on a 24 GB GPU?

Magistral Small 2506 is the highest-scoring open model that fits in 24 GB at 4-bit quantization (about 13 GB), scoring 30.0% on AIME 2024/2025.

What's the best AIME 2024/2025 model you can run on a 12 GB GPU?

Phi 4 is the highest-scoring open model that fits in 12 GB at 4-bit quantization (about 8 GB), scoring 13.8% on AIME 2024/2025.

Can open models match proprietary models on AIME 2024/2025?

Not quite on AIME 2024/2025: the strongest proprietary model (GPT 5.5 Pro Pre Release (xhigh)) scores 100.0%, ahead of the best open model (DeepSeek V4 Pro) at 96.7% — but you can run the open one yourself.

Math

AIME 2024/2025 Leaderboard

Name: AIME 2024/2025 — open LLM scores
Creator: epoch

AIME (American Invitational Mathematics Examination) is a prestigious high-school competition of hard, integer-answer problems. It's a widely-cited yardstick for multi-step mathematical reasoning, here on the 2024–2025 papers.

Source: epoch34 open models ranked+121 proprietaryData through Jul 2026

Open models All models

All models ranked on AIME 2024/2025

Proprietary / closed models are shown dimmed — you can't run them locally, but they show where the open field stands.

#	Model	Score
1	GPT 5.5 Pre Release (xhigh) · proprietary	100.0%
2	GPT 5.5 Pro Pre Release (xhigh) · proprietary	100.0%
3	GPT 5.6 Sol Max · proprietary	100.0%
4	Claude Fable 5 Max · proprietary	99.7%
5	GPT 5.6 Terra Max · proprietary	99.7%
6	Claude Opus 4.8 Max · proprietary	98.3%
7	GPT 5.6 Luna Max · proprietary	98.3%
8	Claude Opus 4.7 (xhigh) · proprietary	97.8%
9	Grok 4.5 (high) · proprietary	97.8%
10	Kimi K3 Max · proprietary	97.2%
11	DeepSeek V4 Pro · 861.6B	96.7%
12	Kimi K2.7 Code · 1058.6B	96.4%
13	GPT 5.2 (Dec 11, 2025, high) · proprietary	96.1%
14	Kimi K2.6 · 1058.6B	96.1%
15	GPT 5.2 (Dec 11, 2025, xhigh) · proprietary	96.1%
16	Gemini 3.1 Pro Preview · proprietary	95.6%
17	Gemini 3.5 Flash (high) · proprietary	95.6%
18	GPT 5.4 (Mar 05, 2026, xhigh) · proprietary	95.3%
19	Qwen3.7 Max · proprietary	95.0%
20	Claude Sonnet 5 (xhigh) · proprietary	94.7%
21	Claude Opus 4.6 (64K) · proprietary	94.4%
22	GPT 5.2 (Dec 11, 2025, medium) · proprietary	93.9%
23	Grok 4.3 (high) · proprietary	93.3%
24	Claude Opus 4.6 (32K) · proprietary	93.1%
25	Gemini 3 Flash Preview · proprietary	92.8%
26	GLM 5.1 · 753.9B	92.2%
27	Grok 4.20 0309 Reasoning · proprietary	92.2%
28	Kimi K2.5 · 1058.6B	92.2%
29	Gemini 3 Pro Preview · proprietary	91.4%
30	GPT 5 (Aug 07, 2025, high) · proprietary	91.4%
31	Qwen3.6 Max Preview · proprietary	91.1%
32	Qwen3.6 Plus · proprietary	90.6%
33	Muse Spark · proprietary	88.9%
34	GPT OSS 120B · 120.4B	88.9%
35	GPT 5.1 (Nov 13, 2025, high) · proprietary	88.6%
36	DeepSeek Reasoner · proprietary	87.8%
37	GPT 5.4 Nano (Mar 17, 2026, high) · proprietary	87.8%
38	GPT 5 (Aug 07, 2025, medium) · proprietary	87.2%
39	GPT 5.4 Mini (Mar 17, 2026, high) · proprietary	87.2%
40	GPT 5 Mini (Aug 07, 2025, high) · proprietary	86.7%
41	Qwen3 235B A22B Thinking 2507 · 235.1B	86.7%
42	GLM 5.2 Max · proprietary	86.4%
43	Claude Opus 4.5 (Nov 01, 2025, 32K) · proprietary	86.1%
44	Qwen3.6 Flash · proprietary	86.1%
45	Claude Sonnet 4.6 (32K) · proprietary	85.8%
46	GPT 5.1 (Nov 13, 2025, medium) · proprietary	85.6%
47	Qwen3.5 Flash · proprietary	85.6%
48	Qwen3.5 Plus · proprietary	85.0%
49	Gemini 2.5 Pro · proprietary	84.2%
50	Grok 4 (Jul 09) · proprietary	84.0%
51	O3 (Apr 16, 2025, high) · proprietary	83.9%
52	GLM 4.7 · 358.3B	83.3%
53	Kimi K2 Thinking · 1058.1B	83.1%
54	Claude Opus 4.5 (Nov 01, 2025, 16K) · proprietary	81.7%
55	O4 Mini (Apr 16, 2025, high) · proprietary	81.7%
56	GPT 5 Nano (Aug 07, 2025, high) · proprietary	81.1%
57	GLM 5 · 753.9B	80.0%
58	GPT 5.2 (Dec 11, 2025, low) · proprietary	78.9%
59	GPT 5 Mini (Aug 07, 2025, medium) · proprietary	78.3%
60	Claude Sonnet 4.5 (Sep 29, 2025, 32K) · proprietary	77.8%
61	Claude Sonnet 4.5 (Sep 29, 2025, 59K) · proprietary	77.8%
62	Grok 3 Mini Beta (high) · proprietary	77.8%
63	O3 Mini (Jan 31, 2025, high) · proprietary	76.9%
64	GPT 5 Nano (Aug 07, 2025, medium) · proprietary	74.2%
65	O1 (Dec 17, 2024, medium) · proprietary	73.3%
66	Qwen3 Max (Sep 23, 2025) · proprietary	73.3%
67	Gemini 2.5 Flash Preview (Apr 17) · proprietary	73.1%
68	Claude Sonnet 4 (May 14, 2025, 32K) · proprietary	71.1%
69	Claude Sonnet 4.5 (Sep 29, 2025, 16K) · proprietary	71.1%
70	Gemini 2.5 Flash Preview (May 20) · proprietary	70.8%
71	Claude Opus 4.1 (Aug 05, 2025, 27K) · proprietary	68.9%
72	Claude Sonnet 4 (May 14, 2025, 59K) · proprietary	68.9%
73	Claude Haiku 4.5 (Oct 01, 2025, 32K) · proprietary	66.7%
74	DeepSeek R1 0528 · 684.5B	66.4%
75	Claude Opus 4 (May 14, 2025, 27K) · proprietary	64.4%
76	Claude Opus 4.1 (Aug 05, 2025, 16K) · proprietary	64.4%
77	GPT 5.1 (Nov 13, 2025, low) · proprietary	63.9%
78	O3 Mini (Jan 31, 2025, medium) · proprietary	63.9%
79	Grok 3 Mini Beta (low) · proprietary	62.2%
80	Claude Opus 4 (May 14, 2025, 16K) · proprietary	60.0%
81	Claude 3.7 Sonnet (Feb 19, 2025, 64K) · proprietary	57.8%
82	Gemini 2.0 Flash Thinking Exp (Jan 21) · proprietary	57.8%
83	Grok 3 Beta · proprietary	55.6%
84	Claude 3.7 Sonnet (Feb 19, 2025, 32K) · proprietary	53.3%
85	Claude Sonnet 4 (May 14, 2025, 16K) · proprietary	53.3%
86	DeepSeek R1 · 684.5B	53.3%
87	DeepSeek R1 Distill Llama 70B · 70.6B	51.4%
88	Claude Opus 4.5 (Nov 01, 2025) · proprietary	48.1%
89	O1 Mini (Sep 12, 2024, high) · proprietary	46.9%
90	Claude 3.7 Sonnet (Feb 19, 2025, 16K) · proprietary	46.7%
91	GPT 4.1 Mini (Apr 14, 2025) · proprietary	44.7%
92	O1 Mini (Sep 12, 2024, medium) · proprietary	44.7%
93	Claude Opus 4 (May 14, 2025) · proprietary	42.2%
94	Claude Opus 4.1 (Aug 05, 2025) · proprietary	40.0%
95	GPT 4.1 (Apr 14, 2025) · proprietary	38.3%
96	DeepSeek v3 0324 · 684.5B	37.8%
97	GPT 4.5 Preview (Feb 27, 2025) · proprietary	37.8%
98	Claude Haiku 4.5 (Oct 01, 2025) · proprietary	35.8%
99	Claude Sonnet 4.5 (Sep 29, 2025) · proprietary	35.6%
100	Mistral Medium 2505 · proprietary	32.2%
101	Gemini 2.0 Flash 001 · proprietary	31.1%
102	O1 Preview (Sep 12, 2024) · proprietary	31.1%
103	Magistral Small 2506 · 23.6B	30.0%
104	Claude Sonnet 4 (May 14, 2025) · proprietary	28.9%
105	GPT 4.1 Nano (Apr 14, 2025) · proprietary	28.9%
106	Gemini 1.5 Pro 002 · proprietary	23.1%
107	Claude 3.7 Sonnet (Feb 19, 2025) · proprietary	21.9%
108	Llama 4 Maverick 17B 128E Instruct · 401.6B	20.6%
109	Gemma 3 27B IT · 27.4B	19.7%
110	Qwen Plus (Jan 25, 2025) · proprietary	17.8%
111	Gemini 1.5 Flash 002 · proprietary	16.3%
112	Qwen Max (Jan 25, 2025) · proprietary	16.1%
113	DeepSeek v3 · 684.5B	15.8%
114	Phi 4 · 14.7B	13.8%
115	Grok 2 (Dec 12) · proprietary	11.5%
116	Llama 3.1 405B Instruct · 405.9B	9.7%
117	Claude 3.5 Sonnet (Oct 22, 2024) · proprietary	8.5%
118	Mistral Large 2407 · proprietary	8.5%
119	Qwen2.5 72B Instruct · 72.7B	8.1%
120	Llama 4 Scout 17B 16E Instruct · 108.6B	7.8%
121	Mistral Large 2411 · proprietary	7.8%
122	Qwen2.5 32B Instruct · 32.8B	7.4%
123	GPT 4o Mini (Jul 18, 2024) · proprietary	6.9%
124	Gemini 1.5 Pro 001 · proprietary	6.8%
125	GPT 4 Turbo (Apr 09, 2024) · proprietary	6.7%
126	Claude 3.5 Sonnet (Jun 20, 2024) · proprietary	6.5%
127	GPT 4o (Aug 06, 2024) · proprietary	6.4%
128	GPT 4o (May 13, 2024) · proprietary	6.3%
129	GPT 4o (Nov 20, 2024) · proprietary	6.3%
130	Qwen Turbo (Nov 01, 2024) · proprietary	6.1%
131	Mistral Small 2503 · proprietary	5.8%
132	Mistral Small 2501 · proprietary	5.3%
133	Llama 3.3 70B Instruct · 70.6B	5.1%
134	Claude 3 Opus (Feb 29, 2024) · proprietary	4.7%
135	Gemini 1.5 Flash 8B 001 · proprietary	4.6%
136	Llama 3.1 Tulu 3 70B DPO · 70.6B	4.4%
137	Claude 3.5 Haiku (Oct 22, 2024) · proprietary	4.3%
138	Meta Llama 3 70B Instruct · 70.6B	4.3%
139	Gemini 1.5 Flash 001 · proprietary	3.9%
140	Llama 3.1 70B Instruct · 70.6B	3.6%
141	Llama 3.2 90B Vision Instruct · 88.6B	2.6%
142	Claude 2.0 · proprietary	2.5%
143	Claude 3 Sonnet (Feb 29, 2024) · proprietary	2.5%
144	Hermes 2 Theta Llama 3 70B · 70.6B	2.5%
145	Llama 3.1 8B Instruct · 8.0B	2.5%
146	Claude 2.1 · proprietary	1.9%
147	Mistral Large 2402 · proprietary	1.9%
148	Claude 3 Haiku (Mar 07, 2024) · proprietary	1.8%
149	Gemma 2 27B IT · 27.2B	1.4%
150	Gemini 1.0 Pro 001 · proprietary	1.1%
151	GPT 4 (Jun 13) · proprietary	1.1%
152	Meta Llama 3 8B Instruct · 8.0B	0.8%
153	Gemma 2 9B IT · 9.2B	0.6%
154	GPT 4 (Mar 14) · proprietary	0.6%
155	Llama 2 70B Chat HF · 69.0B	0.0%

Score vs model size

Which models give the most quality for their size — the ones worth running locally.

Each dot is a model. Up = higher score, left = smaller (easier to run locally). The dashed line marks the efficiency frontier — the best score you can get at each size or smaller.

AIME 2024/2025: frequently asked questions

What is the best open LLM on AIME 2024/2025?: DeepSeek V4 Pro is the top open model on AIME 2024/2025, scoring 96.7%. Among all models tested — including proprietary ones — it ranks #11. The top model overall is GPT 5.5 Pro Pre Release (xhigh) (OpenAI) at 100.0%.
What's the best AIME 2024/2025 model you can run on a 24 GB GPU?: Magistral Small 2506 is the highest-scoring open model that fits in 24 GB at 4-bit quantization (about 13 GB), scoring 30.0% on AIME 2024/2025.
What's the best AIME 2024/2025 model you can run on a 12 GB GPU?: Phi 4 is the highest-scoring open model that fits in 12 GB at 4-bit quantization (about 8 GB), scoring 13.8% on AIME 2024/2025.
Can open models match proprietary models on AIME 2024/2025?: Not quite on AIME 2024/2025: the strongest proprietary model (GPT 5.5 Pro Pre Release (xhigh)) scores 100.0%, ahead of the best open model (DeepSeek V4 Pro) at 96.7% — but you can run the open one yourself.

Scores aggregated from epoch. llmrun does not run this benchmark — see the source for methodology, or the about benchmarks for what it measures.