surprises.astro - loop-benchmarking - Controlled experiments across agentic coding configurations. Same task, one variable, what actually works.

surprises.astro (745B)

      1 ---
      2 import Base from "../layouts/Base.astro";
      3 import { loadAllRuns, projectRunForIndex } from "../lib/data";
      4 import SurprisesPage from "../components/SurprisesPage";
      5 
      6 const runs = loadAllRuns();
      7 
      8 // Project down to the fields SurprisesPage actually reads, avoiding
      9 // serialization of large eval_results payloads into the page HTML.
     10 const slimRuns = runs.map(projectRunForIndex);
     11 ---
     12 
     13 <Base title="Surprises">
     14   <h1 style="margin-bottom: 8px;">Surprises</h1>
     15   <p style="color: var(--text-muted); margin-bottom: 24px; font-size: 11px; text-transform: uppercase; letter-spacing: 0.5px;">
     16     Where weaker configs outperformed stronger ones, and conventional assumptions broke down.
     17   </p>
     18 
     19   <SurprisesPage client:load runs={slimRuns} />
     20 </Base>

	loop-benchmarking Controlled experiments across agentic coding configurations. Same task, one variable, what actually works.
	git clone https://git.shiptheloop.com/loop-benchmarking.git
	Log \| Files \| Refs \| README