Question 1

Which needs less VRAM, GPT OSS 120B or GPT OSS 20B Heretic Ara v3?

Accepted Answer

At Q8_0, GPT OSS 120B needs 120.8 GB and GPT OSS 20B Heretic Ara v3 needs 2.2 GB, so GPT OSS 20B Heretic Ara v3 is the lighter option to run locally.

Question 2

Which has a longer context window, GPT OSS 120B or GPT OSS 20B Heretic Ara v3?

Accepted Answer

GPT OSS 120B supports 131,072 tokens and GPT OSS 20B Heretic Ara v3 supports 131,072 tokens.

Question 3

What is the difference between GPT OSS 120B and GPT OSS 20B Heretic Ara v3?

Accepted Answer

GPT OSS 120B is a 120.4B model from OpenAI (GPT-OSS family), while GPT OSS 20B Heretic Ara v3 is a 1.8B model from p-e-w (GPT-OSS family). Compare their VRAM requirements above to see which fits your GPU or Mac.

	GPT OSS 120B	GPT OSS 20B Heretic Ara v3
Parameters	120.4B	1.8B
Context	131K	131K
Architecture	GptOssForCausalLM	GptOssForCausalLM
License	Apache 2.0	Apache 2.0
Downloads	4.5M	1.1K
Released	Aug 2025	Mar 2026

Quantization	Bits	GPT OSS 120B VRAM	GPT OSS 20B Heretic Ara v3 VRAM
Q2_K	3.40	51.6 GB	—
Q3_K_M	3.90	59.1 GB	—
Q3_K_S	3.50	53.1 GB	—
Q4_0	4.00	60.6 GB	—
Q4_K_M	4.80	72.7 GB	—
Q5_K_M	5.70	86.2 GB	—
Q6_K	6.60	99.8 GB	—
Q8_0	8.00	120.8 GB	2.2 GB

GPT OSS 120B vs GPT OSS 20B Heretic Ara v3

Specifications

VRAM by Quantization: GPT OSS 120B vs GPT OSS 20B Heretic Ara v3

Verdict

Frequently Asked Questions