Skill-Abo #6: Skill Forge — dein Skill optimiert sich selbst

Gerhard Schröder

02 Jul. 2026 · 4 min read · Text: Kopf & KI · Bild: Kopf & KI

Skill Forge — autonomer Skill-Optimierungs-Loop für Claude

Skill Forge ist ein autonomer Experiment-Loop: Er nimmt einen Claude-Skill, generiert Eval-Tests, mutiert die SKILL.md, misst den Score — und wiederholt das, bis nichts mehr besser wird.
Zwei Modi: Skill-Modus optimiert SKILL.md-Dateien mit Assertion-Scoring + LLM-as-Judge. Generic-Modus optimiert beliebige Dateien gegen jede Shell-Metrik (Test-Coverage, Lighthouse, Bundle-Size).
Inspiriert von Karpathy’s Autoresearch: Das Prinzip ist simpel — automatisiertes wissenschaftliches Experimentieren auf Basis messbarer Metriken. Kein Bauchgefühl, nur Zahlen.

Der Moment, wo der Skill sich selbst verbessert

Es gibt einen Moment in dieser Arbeit, der mich jedes Mal kurz innehalten lässt. Nicht wenn Claude etwas liefert, was ich erwartet habe. Sondern wenn ein Werkzeug anfängt, sich selbst zu verbessern — autonom, messbar, über Nacht.

Genau das macht Skill Forge von Mark Zimmermann.

Die Idee dahinter ist nicht neu. Andrej Karpathy (ehem. OpenAI, bekannt für Autoresearch) hat sie in seinem autoresearch-Projekt für wissenschaftliche Experimente beschrieben: Hypothese aufstellen, Experiment laufen lassen, Ergebnis messen, wiederholen. Skill Forge überträgt dieses Prinzip auf Claude-Skills und Codebasen.

Das Ergebnis: Ein Skill, der schlecht SKILL-Abo-Artikel zusammenfasst, wird nach 3 Iterationen besser. Weil es einen Loop gibt, der die Schwachstellen findet — und systematisch behebt.

Der Loop im Überblick

Der Kern von Skill Forge ist ein Experiment-Loop aus drei spezialisierten Agenten:

Hypothesis Agent (der Wissenschaftler): Analysiert fehlgeschlagene Evals, schaut in die Coverage-Matrix was noch nicht versucht wurde — und produziert eine testbare Hypothese.

Mutator Agent (der Chirurg): Setzt genau eine, minimale Änderung um. An der SKILL.md oder am Code. Mit Category-Tags damit nichts zweimal gemacht wird.

Scorer Agent (der Richter): Misst den Score vor und nach. Im Skill-Modus als Assertion-Pass-Rate, optional plus LLM-as-Judge. Im Generic-Modus gibt der Shell-Command direkt die Zahl zurück.

Dann: Behalten oder Revert. Weiter zum nächsten Experiment.

Wizard → Dry-Run → Hypothesize → Mutate → Evaluate → Score → Keep/Revert ↺

Zwei Domänen

Skill-Modus — für SKILL.md-Optimierung:

Der Skill generiert Eval-Testfälle aus dem beschriebenen Skill-Verhalten, teilt sie 60/40 in Train/Test (Overfitting-Schutz), und misst jeden Mutation-Versuch gegen einen Composite-Score:

assertion_pass_rate × 0.80 + efficiency_score × 0.20

Mit LLM-as-Judge kommt ein dritter Term dazu:

assertions × 0.50 + llm_judge × 0.30 + efficiency × 0.20

Generic-Modus — für jede messbare Metrik:

Jeder Shell-Command der eine Zahl zurückgibt funktioniert als Metrik. Test-Coverage, Lighthouse-Score, Bundle-Size, Docker-Image-Größe, Lint-Fehler. Der Loop optimiert die Zieldateien bis das Ziel erreicht ist.

Auto oder Guided

Auto-Modus: Startet den Loop, läuft durch die Nacht, liefert morgens einen Report. Perfekt für Scheduled Tasks. Keine Unterbrechungen, keine Rückfragen.

Guided-Modus: 5 Checkpoints wo du mitmachst — Evals reviewen, Hypothese freigeben, Mutation-Diff anschauen, Score überprüfen, nächste Runde entscheiden. Der Agent macht die schwere Arbeit, du bleibst in Kontrolle.

Reale Ergebnisse

Mark hat Skill Forge gegen eigene Production-Skills laufen lassen:

humanizer (Text-Humanisierung): 0.74 → 0.90 in 3 Experimenten (+21,6%). Erkenntnis: Persönlichkeit als dedizierter Workflow-Schritt mit konkreten Kriterien statt abstrakter Anweisung.
fachbuch-lektorat (Deutsches Fachlektorat): 87% → 100% in 3 Experimenten. Erkenntnis: Worked Examples schlagen abstrakte Regeln für Edge Cases.
was-bisher-geschah (KI-News-Briefing): 93% → 100% in 1 Experiment. Erkenntnis: Explizite Constraints (Zeichenlimits, Pflichtfelder) beheben Format-Drift zuverlässig.

Das sind keine cherry-picked Beispiele. Das ist das Ergebnis von mechanisch messbaren Experimenten.

Was das für uns bedeutet

Ich verwende Skill Forge inzwischen für die Skills die ich in diesem Newsletter beschreibe — bevor ich sie euch zeige. Die SkillCMS-Skills, der Infografik-Skill, der linkedin-gallery Skill. Alle gehen durch mindestens einen Forge-Lauf.

Das ändert die Art wie ich Skills baue. Nicht mehr: Skill schreiben, testen, anpassen, nochmal testen. Sondern: Skill schreiben, Forge laufen lassen, Ergebnisse anschauen, entscheiden was ich übernehme.

Der Unterschied ist subtil aber bedeutsam. Der Loop findet Schwachstellen die ich nicht gesucht hätte — weil er systematisch variiert, nicht intuitiv.

Technische Details: Coverage Matrix & Crash Recovery

Skill Forge führt eine Coverage-Matrix die aufzeichnet welche Verbesserungs-Kategorien bereits versucht wurden — mit Sättigungs-Erkennung damit nicht dieselbe Hypothese zweimal getestet wird.

Fehlerbehandlung: Jeder Fehler wird klassifiziert, einmal nachversucht, dann übersprungen. 3 konsekutive Crashes pausieren den Loop mit Fehlerbericht.

Experiment-Log als TSV: Eine Zeile pro Experiment, schnelles Monitoring mit tail, grep, awk. Nichts geht verloren.

Eval Rotation: Nach 5 Experimenten werden die Eval-Queries rotiert um Diversität zu erhalten.

Installation

# Repository klonen
git clone https://github.com/GodModeAI2025/skill-forge.git

# In den Skills-Ordner kopieren (Cowork oder OpenClaw)
cp -r skill-forge/ ~/.skills/skills/skill-forge/

Danach in Cowork:

Auto-Modus: “Use skill-forge to improve my [skill-name] skill”
Guided-Modus: “Use skill-forge in guided mode to improve my [skill-name] skill”
Generic-Modus: “Use skill-forge to optimize train.py — metric: python train.py –eval”

Keine API-Keys, kein Cloud-Dienst. Läuft komplett lokal im Sandbox-Linux.

Der Link

Skill Forge auf GitHub — MIT-Lizenz, von Mark Zimmermann, inspiriert von Karpathy’s Autoresearch. Die Dokumentations-Seite gibt es auch auf Deutsch: Schulung.

Viele Grüße aus Bochum,

Gerhard Schröder

Häufige Fragen

Was ist Skill Forge?

Skill Forge ist ein autonomer Experiment-Loop von Mark Zimmermann für Claude-Skills: Er generiert Eval-Tests, mutiert die SKILL.md-Datei oder den Code, misst den Score vor und nach der Änderung und wiederholt das automatisch, bis sich der Score nicht mehr verbessert. Das Prinzip ist an Andrej Karpathys Autoresearch-Projekt für automatisiertes wissenschaftliches Experimentieren angelehnt.

Wie unterscheiden sich Skill-Modus und Generic-Modus?

Der Skill-Modus optimiert gezielt SKILL.md-Dateien: Er generiert Eval-Testfälle, teilt sie 60/40 in Train- und Test-Sets und bewertet jede Mutation gegen einen Composite-Score aus Assertion-Pass-Rate und optional LLM-as-Judge. Der Generic-Modus ist breiter einsetzbar — jeder Shell-Command, der eine Zahl zurückgibt (Test-Coverage, Lighthouse-Score, Bundle-Size), funktioniert als Metrik für den Optimierungs-Loop.

Was ist der Unterschied zwischen Auto-Modus und Guided-Modus?

Im Auto-Modus läuft der komplette Loop unbeaufsichtigt durch, z.B. über Nacht als Scheduled Task, und liefert morgens einen fertigen Report. Im Guided-Modus gibt es fünf Checkpoints, an denen man Evals reviewt, die Hypothese freigibt, den Mutation-Diff prüft und über die nächste Runde entscheidet — der Agent übernimmt die Arbeit, du behältst die Kontrolle.

Welche Ergebnisse hat Skill Forge in der Praxis erzielt?

Mark Zimmermann hat Skill Forge gegen eigene Production-Skills getestet: Der humanizer-Skill verbesserte sich in 3 Experimenten von 0.74 auf 0.90 (+21,6 %), der fachbuch-lektorat-Skill von 87 % auf 100 %, und was-bisher-geschah erreichte 100 % bereits nach einem einzigen Experiment. Alle Ergebnisse stammen aus mechanisch messbaren Experimenten, nicht aus ausgewählten Einzelfällen.

Braucht Skill Forge Cloud-Zugriff oder API-Keys?

Nein. Skill Forge läuft komplett lokal im Sandbox-Linux, ohne API-Keys und ohne Cloud-Dienst. Installation erfolgt per Git-Clone in den lokalen Skills-Ordner, danach wird der Loop direkt in Cowork oder OpenClaw über einen einfachen Prompt gestartet.