Per-Layer Diagnostics

Per-layer attention diagnostics

Two measures of attention similarity bias across 12 transformer layers.

Averaged over 8 ImageNet validation images per model. All models are baselines (no XSA) evaluated at their training checkpoints.