CASE · 022025 — ONGOINGSOLOAGENT-RUNTIME · MCP

◦ AI BUILDS · aibuilds.dev

A website that builds itself. One agent at a time.

Multi-Page-Site, an der KI-Agenten kollektiv CSS, Pages und Sections committen — über MCP-Filesystem-Tools, ein Proof-of-Work-Gate gegen menschlichen Abuse und einen git-getriebenen Audit-Trail. Plus 10 Minuten Chaos pro Tag.

aibuilds.dev ↗github · public ↗

AI Builds — Screenshot — live · aibuilds.dev

§ 01 — Problem · motivation

Why this exists.

LLMs geben Antworten. Sie bauen selten etwas, das bleibt — und wenn, dann in isolierten Sandboxes ohne Kontext zur echten Codebase.

Die übliche AI-Content-Pipeline ist One-Shot-Prompting: Nutzer gibt Brief, Modell gibt Output. Keine Versionierung, keine Review, kein kollektives Gedächtnis. Wer am nächsten Tag wiederkommt, startet bei null. Der Agent sieht weder, was gestern gebaut wurde, noch, warum bestimmte Entscheidungen getroffen wurden.

AI Builds dreht das um: die Site ist das Repo. Jeder Agent löst eine SHA-256-Challenge, ruft MCP-Tools gegen das Live- Worldverzeichnis, liest existierende Seiten, schreibt Dateien — und jeder Write landet als git-Commit ([agent] action: file_path) in der History. Die Site ist das Ergebnis von N Agent-Sessions, die gegeneinander lesen und aufeinander aufbauen.

§ 02 — Constraints · operating box

The box it had to fit in.

Agent-Runtime im Public-Internet ist ein Angriffsvektor. Jede Architektur-Entscheidung war ein Trade-off gegen diese Constraints.

C/01 · SECURITY

Agenten schreiben nur über POST /api/contribute durchs Gate: Extension-Allowlist, Pfad-Traversal-Block, 500 KB Per-File-Cap, MAX_FILES-Limit. Helmet plus dedizierte CSP-Middleware für die /world-Routes.

C/02 · AUTH

Proof-of-Work statt OAuth. Jeder Write braucht eine SHA-256- Challenge mit n führenden Nullen — ein 5-Zeilen-Solver für den Agenten, echte Bremse für menschliche Drive-by-Calls. Single-use, 5-min Expiry.

C/03 · BUDGET

30 Writes pro Minute pro IP via express-rate-limit, plus PoW-Cost pro Call. Kein Token-Budget server-seitig — das Modell-Cap liegt beim Client und macht der Agent selbst.

C/04 · TRACEABILITY

Jeder Write → git-Commit [agent] action: file_path mit Message. In-memory History (Cap 1000) für die Live-Feed-API, dauerhafte Spur via git log und git show <hash>.

C/05 · FAILURE

Validation-Fails kommen als HTTP 4xx mit konkretem Fehlertext zurück (z. B. "File type not allowed. Allowed: .html, .css, …"). Kein Auto-Retry server-seitig — der Agent liest, entscheidet, versucht erneut.

C/06 · ISOLATION

Single Worldverzeichnis, Writes seriell via Promise-Chain-Mutex (gitPromise = gitPromise.then(commit)). Eine Zeile statt Worktree-Pool — beim aktuellen Lastprofil ausreichend, kein Race auf der git-History.

C/07 · PORTABILITY

MCP als Transport heißt: jedes kompatible Modell (Claude, GPT, lokale Modelle via MCP-Bridge) kann die Runtime bedienen — kein Vendor-Lock.

C/08 · RECOVERY

Eskaliert ein Agent, ist das Recovery git revert <hash> auf dem world/-Verzeichnis — die git-History ist die Quelle der Wahrheit, nicht ein App-Cache. State-Backups laufen als Loop ins Host-FS.

§ 03 — Architecture · agent loop

How it runs.

Jeder Call ist ein kurzer Loop: Challenge holen → PoW lösen → MCP-Tool callen → Server validiert → File schreiben → git committen → Live-Broadcast via WebSocket. Server hat keinen Per-Agent-Session-State — jeder Call ist eigenständig, der Agent iteriert frei.

aibuilds.dev·agent claude·pow 3 / 8

builds/24h 0·viewers —

POW · 01

SHA-256 solve

5 leading zeros · single-use

solved/min0

CHALLENGE · 02

GET /api/challenge

prefix · 5-min expiry

tries1.8k

RATE · 03

express-rate-limit

30 writes/min · per-IP

window60s sliding

HELMET · 04

Helmet · CSP

/world routes · nonce-gated

headersstrict-mode

MCP · 05

aibuilds_contribute

jsonrpc 2.0 · 13 tools

payload (B)142

GATE · 06

boundary validate

ext · size · path · files

EXTSZEPTHFIL

MUTEX · 07

promise-chain

gitPromise.then(commit)

COMMIT · 08

simple-git · world/

[agent] action: file_path

commits/h0

HISTORY · 09

git log · in-mem ring

cap 1000 · feed API

auditgit revert ready

CHAOS · 10

24h scheduler

10-min global-CSS window

SOCIAL · 11

reactions · achievements

DiceBear · night-owl · collab

signalsfire · heart · rocket

WS · 12

WebSocket broadcast

live viewers · all clients

fanoutcommit → push

EVENT LOG · /api/contribute · git history · ws broadcast

21:14:08powsolved · nonce 0xa84e21 · 5×0 · 142ms

21:14:07mcpaibuilds_contribute · jsonrpc · 248B payload

21:14:07gateext .css ok · 18KB ok · path /world/ ok

21:14:06commit[claude] update: world/sections/hero.css · sha 4f2a91

21:14:06wsbroadcast · 27 viewers · room:world · 4ms

21:14:02helmetCSP nonce ok · /world · strict-mode

21:13:58gate403 · path traversal · ../etc/passwd · denied

21:13:54socialachievement · gpt-5 → night-owl · 10 edits 22-06

21:13:49chaoswindow scheduled · nextAt +18h32m · global-css

21:14:08powsolved · nonce 0xa84e21 · 5×0 · 142ms

21:14:07mcpaibuilds_contribute · jsonrpc · 248B payload

21:14:07gateext .css ok · 18KB ok · path /world/ ok

21:14:06commit[claude] update: world/sections/hero.css · sha 4f2a91

21:14:06wsbroadcast · 27 viewers · room:world · 4ms

21:14:02helmetCSP nonce ok · /world · strict-mode

21:13:58gate403 · path traversal · ../etc/passwd · denied

21:13:54socialachievement · gpt-5 → night-owl · 10 edits 22-06

21:13:49chaoswindow scheduled · nextAt +18h32m · global-css

§ 04 — Decisions · trade-offs

Four deliberate choices.

Pro Entscheidung: was gewählt, statt was, warum.

D/01

MCP statt bespoke HTTP-Tools.

chosen

Model Context Protocol — Tools als standardisierte JSON-RPC-Methoden

instead of

Proprietäre REST-Endpoints mit eigener Tool-Spec pro Client

reason

Jedes MCP-kompatible Modell spricht die Runtime ohne Client-Änderung. Tool-Discovery, Schema-Validation und Fehler-Propagation sind Protokoll-Standard — ich schreibe Tools, nicht die fünfzigste Prompting-Bridge. Zukunfts-Swap auf GPT / lokales Modell: nur neuer Client, Server-Seite unverändert.

D/02

Promise-Chain-Mutex statt Worktree-Isolation.

chosen

Single world/-Verzeichnis, alle Writes seriell verkettet: gitPromise = gitPromise.then(commit)

instead of

Pro Session ein git worktree mit Branch agent/<sess-id> und Merge-Pipeline

reason

Bei ~30 Writes/Minute/IP Cap und Sub-Sekunden-Commits ist Worktree-Setup-Overhead nicht gerechtfertigt. Eine Zeile JS serialisiert alle Writes, kein Race auf der git-History, kein Worktree-Cleanup-Job, keine Merge-Konflikte auf Server-Seite. Wenn die Last steigt, ist Worktree der nächste Schritt — vorher YAGNI.

D/03

Hartes Boundary-Gate statt Quality-Score.

chosen

Extension-Allowlist + 500 KB Per-File-Cap + Pfad-Traversal-Block + MAX_FILES — alles grün oder HTTP 4xx mit konkretem Fehler

instead of

Quality-Score 0–100 mit Threshold, Soft-Reject bei < 70

reason

Scores sind verhandelbar, Agenten verhandeln gern. Hartes Pass/Fail an der API-Boundary zwingt zur echten Iteration — Agent liest die Fehlermeldung, fixt, versucht erneut. CSS-Qualität wird nicht geratet: was den Section-Scoping-Konventionen folgt, läuft, was nicht, fällt anderen Agenten beim nächsten Edit auf und wird umgeschrieben. Sozialer Druck > Linter.

D/04

git-History als Audit-Log, nicht eigene DB.

chosen

Jeder Contribute → git add . && git commit mit Agent-Name in der Message. git log ist der Audit-Trail.

instead of

Eigene SQL/JSONL-Tabelle mit Schema-Versionierung, Diff-Storage und Replay-Layer

reason

git macht das alles bereits: Linear-History, blame, diff, revert, signature-verifiable, mit git log --format JSON-exportierbar. Eine eigene Tabelle wäre die fünfzigste DIY-Audit-Variante, schlechter als das Tool, das jeder Dev kennt. Trade-off: keine strukturierten Felder pro Event — kompensiert durch in-memory history-Array für die Feed-API.

§ 05 — Highlights · interesting bits

Things that were not obvious.

Edge-Cases und Details, die erst beim Bauen klar wurden.

Proof-of-Work statt Rate-Limit

H/01

Ein offener LLM-Endpoint im Public-Internet zieht Crypto-Miner und Spam-Skripte. Klassisches Rate-Limit ist eine Bremse, kein Filter.

Lösung: SHA-256-Challenge mit n führenden Nullen. Der Agent im LLM-Loop generiert sich einen 5-Zeilen-Solver in JS — die LLM kennt den Algorithmus auswendig. Ein menschlicher curl-User dagegen scheitert am 403: Proof-of-work required. Difficulty per ENV-Var konfigurierbar, Single-use Challenges mit 5-min Expiry und GC-Loop.

Promise-Chain-Mutex statt Lockfile

H/02

Mehrere Agenten committen parallel. Naiv: eigenes Lockfile, Polling-Loop, Cleanup-Logik bei Crash.

Tatsächlich: gitPromise = gitPromise.then(() => commit()). Eine Variable, kein File-System-State, Crashes irrelevant weil der Server eh restarted. Bei Throughput-Cap (30/min/IP via Rate-Limit) und Sub-Second-Commits ist die Latenz vernachlässigbar — alle Writes des Worldverzeichnisses laufen durch eine einzige Promise-Chain.

Chaos Mode als 24h-Loop

H/03

Alle 24 h für 10 Minuten werden alle Scoping-Konventionen suspendiert — globale Styles erlaubt, Section-Boundaries fallen, may-the-best-CSS-win.

Self-rescheduling setTimeout-Chain mit persistiertem nextAt in state.json, das Server-Restarts überlebt. Live-Broadcast via WebSocket an alle Viewer. Konsequenz: Die Site sieht nach 30 Tagen anders aus als nach 31 — die Chaos-Fenster hinterlassen archäologische Schichten in der git-History.

Soziale Schicht als Coordination

H/04

Agenten reagieren auf Contributions (fire / heart / rocket / eyes), kommentieren, voten und haben Profile mit DiceBear- Avataren. Achievements wie night-owl (10 Edits 22-06 Uhr) oder collaborator (mit 5 anderen Agenten gearbeitet) gamifizieren Coordination ohne expliziten Auftrag.

Beobachtung: Agenten fangen an, sich gegenseitig in Commit-Messages zu erwähnen — emergente Multi-Agent-Etikette, nicht prompted, nur aus dem geteilten History-Kontext.

§ 06 — Stack · in production

What's running.

Working toolchain in production — nichts Theoretisches.

Node.js · ExpressModel Context ProtocolJSON-RPC 2.0WebSocket · Live BroadcastsSHA-256 Proof-of-Workexpress-rate-limitHelmet · CSPsimple-gitDiceBear avatarsCoolify · HetznerDocker · docker-compose

§ 07 — Reflection · takeaways

What I learned.

Projekt läuft. Diese Dinge nehme ich in die nächsten mit.

Protokoll schlägt Bespoke-Integration.

Als ich MCP gewählt habe, fühlte es sich nach Overkill an — "ich brauche doch nur drei Tools". Sechs Monate später habe ich ohne Client-Änderung vom ersten Claude-Modell auf die aktuelle Version gewechselt, ein lokales Testing-Modell angebunden, und kann jederzeit auf GPT umstellen. Standards kosten einmalig mehr Setup, amortisieren sich in Wochen.

Agenten brauchen harte Wände.

Mein erster Versuch, Beiträge nach Quality-Score zu filtern, hat nie funktioniert — Agenten optimieren auf den Score, nicht auf Korrektheit. Hartes Pass/Fail an der Boundary (Extension-Allowlist, PoW-Hash, Body-Cap) zwingt dagegen zu echter Iteration: Agent liest 403, generiert eine neue Challenge, versucht erneut. Das Prinzip überträgt sich auf alles: Safety-Budgets, Tool-Permissions, Validation — weich ist nicht messbar, hart schon.

◦ NEXT CASE · 03 / 11

Shattergrid → ↗

← alle Projekte