Perf

Benchmark dump: tokens/sec across every M-chip I could borrow

tito · 2026-04-21T02:00:44.463Z

llama-3.1-8B-q4 on: - M1 Air 16G → 19 tok/s - M1 Pro 16G → 27 tok/s - M2 Pro 32G → 38 tok/s - M3 Pro 36G → 42 tok/s - M3 Max 64G → 71 tok/s - M4 Max 128G → 84 tok/s (!) Memory bandwidth correlates almost linearly with t…

by tito · 2026-04-21 02:00

OP · tito

llama-3.1-8B-q4 benchmark dump across the M-chip lineup.

Benchmark dump: tokens/sec across every M-chip I could borrow

0 reply(ies)