Question 1

Which needs less VRAM, GLM 4.7 Flash REAP 23B A3B or GLM 4 9B 0414?

Accepted Answer

At Q4_K_M, GLM 4.7 Flash REAP 23B A3B needs 14.9 GB and GLM 4 9B 0414 needs 6.0 GB, so GLM 4 9B 0414 is the lighter option to run locally.

Question 2

Which has a longer context window, GLM 4.7 Flash REAP 23B A3B or GLM 4 9B 0414?

Accepted Answer

GLM 4.7 Flash REAP 23B A3B supports 202,752 tokens and GLM 4 9B 0414 supports 32,768 tokens.

Question 3

What is the difference between GLM 4.7 Flash REAP 23B A3B and GLM 4 9B 0414?

Accepted Answer

GLM 4.7 Flash REAP 23B A3B is a 23.0B model from Cerebras (GLM family), while GLM 4 9B 0414 is a 9.4B model from zai-org (GLM family). Compare their VRAM requirements above to see which fits your GPU or Mac.

	GLM 4.7 Flash REAP 23B A3B	GLM 4 9B 0414
Parameters	23.0B	9.4B
Context	203K	33K
Architecture	Glm4MoeLiteForCausalLM	Glm4ForCausalLM
License	MIT	MIT
Downloads	542	14.7K
Released	Jan 2026	Apr 2025

Quantization	Bits	GLM 4.7 Flash REAP 23B A3B VRAM	GLM 4 9B 0414 VRAM
Q2_K	3.40	10.9 GB	4.4 GB
Q3_K_M	3.90	12.3 GB	5.0 GB
Q3_K_S	3.50	11.2 GB	4.5 GB
Q4_0	4.00	12.6 GB	5.1 GB
Q4_K_M	4.80	14.9 GB	6.0 GB
Q5_K_M	5.70	17.5 GB	7.1 GB
Q6_K	6.60	20.1 GB	8.1 GB
Q8_0	8.00	24.1 GB	9.8 GB

GLM 4.7 Flash REAP 23B A3B vs GLM 4 9B 0414

Specifications

VRAM by Quantization: GLM 4.7 Flash REAP 23B A3B vs GLM 4 9B 0414

Verdict

Frequently Asked Questions