Question 1

How much VRAM do I need to run a Mellum model?

Accepted Answer

The smallest Mellum model, Mellum 4B Base, runs from 2.8 GB of VRAM at an aggressive quantization. Larger family members need proportionally more — see the table above for every model.

Question 2

Which Mellum models can I run on a 16 GB GPU?

Accepted Answer

5 of 7 Mellum models fit in 16 GB of VRAM at some quantization, including Mellum2 12B A2.5B Thinking, Mellum2 12B A2.5B Instruct, Mellum 4B Base.

Question 3

What is the most popular Mellum model to run locally?

Accepted Answer

Mellum2 12B A2.5B Thinking is the most downloaded Mellum model in local-friendly quantized formats. It runs from 4.0 GB of VRAM.

Model	Params	Runs from	Context	Publisher	Quant downloads
Mellum 4B Base	4.0B	2.8 GB	8K	JetBrains	286
Mellum2 12B A2.5B Thinking	12.1B	4.0 GB	131K	JetBrains	9.4K
Mellum2 12B A2.5B Instruct	12.1B	4.0 GB	131K	JetBrains	4.9K
Mellum2 12B A2.5B Base	12.1B	24.7 GB	131K	JetBrains	—
Mellum2 12B A2.5B Thinking SFT	12.1B	5.5 GB	131K	JetBrains	—
Mellum2 12B A2.5B Base Pretrain	12.1B	24.7 GB	131K	JetBrains	—
Mellum2 12B A2.5B Instruct SFT	12.1B	5.5 GB	131K	JetBrains	—

Mellum Models — Hardware Requirements

All Mellum Models by Size

Frequently Asked Questions