BLT 13B

13B head-to-head

Same wall-clock, same data, same seed. BLT is lower on both axes, and it wins per-token even though pipeline parallelism saw more tokens.

Held-out validation loss. The gap opens after the first billion tokens.