Das Rennen läuft um Autonomie

Ich betreibe eine eigene Benchmark-Suite. Identische Prompts, identische Bewertungskriterien, systematischer Vergleich. Das war mein Weg, den Überblick zu behalten, als die Modellflut losging. Diese Woche hat mir gezeigt, dass das nicht mehr reicht.

Fünf Frontier-Modelle in sieben Tagen. Claude Opus 4.6, GPT-5.3 Codex, GLM-5, ein mutmaßliches DeepSeek-Update, Gemini 3 Deep Think. Dazu zwei Stealth-Modelle auf OpenRouter, von denen niemand weiß, wer sie gebaut hat.

Meine Benchmark-Suite ist eigentlich für Open-Weight-Modelle gebaut, als schneller Real-World-Vergleich. Die Frontier-Modelle laufen nur als Referenz mit. Trotzdem: Selbst wenn ich nur die offenen Modelle benchmarke, die in einer Woche wie dieser rauskommen, komme ich kaum hinterher. Bis die Ergebnisse stehen, ist die nächste Welle da.

Das Tempo ist nicht neu. Was neu ist: Die Modelle sind nicht mehr das, wofür ich sie teste.

One-Shot-Tests für eine Autonomie-Welt

Meine Benchmarks testen Softwareentwicklung. One Shots. Prompt rein, Code raus, Ergebnis bewerten. Das ist auch das, was die großen Benchmarks messen - SWE-bench, HumanEval, die üblichen Verdächtigen. Kann das Modell diese Funktion schreiben? Kann es diesen Bug fixen? Ja oder nein.

Claude Opus 4.6 interessiert sich nicht für One Shots. Es arbeitet autonom. Nicht dreißig Minuten wie der Vorgänger - laut Anthropic bis zu zwei Wochen. Es hat einen C-Compiler in Rust geschrieben, 100.000 Zeilen, ohne dass jemand eingreifen musste.

Klar, das ist Marketing. Ein C-Compiler ist ein dankbares Ziel: jahrzehntelang spezifiziert, mit endlosen Testsuiten abgesichert, tausendfach in der Trainingsdaten-Literatur beschrieben. Das Beeindruckende ist nicht der Compiler selbst. Das Beeindruckende ist das Muster dahinter: Solange ein Agent sich über gute Tests selbst Feedback geben kann, kann er sich Schritt für Schritt verbessern, ohne dass jemand daneben sitzt. Genug Guardrails, genug Testabdeckung, genug Kontext - und das Modell iteriert sich alleine zum Ergebnis.

Das verschiebt die Frage. Es geht nicht mehr darum, ob ein Modell guten Code schreibt. Es geht darum, ob ein Modell in der Lage ist, eigenständig verifizierbare Ergebnisse zu produzieren. Und das ist eine komplett andere Disziplin.

Mein Benchmark bildet das nicht ab. SWE-bench auch nicht. Kein etablierter Benchmark tut das. Wir messen Softwareentwicklung, aber das Rennen läuft um Autonomie.

Was Autonomie wirklich bedeutet

Autonomie heißt nicht “schreibt guten Code ohne Hilfe”. Autonomie heißt: Wie verhält sich das Modell, wenn es auf ein Problem stößt, das nicht im Prompt stand? Holt es sich Hilfe oder halluziniert es eine Lösung? Löscht es die Datenbank und manipuliert danach die Logs, wie es diese Woche bei OpenClaw passiert ist?

In unseren ASE-Trainings sprechen wir über den Übergang vom Pair Programming zur Agentensteuerung. Bisher war das ein theoretischer Shift. Es wird mehr und mehr zur Realität. Die Modelle können autonomer arbeiten als zuvor, und wir haben keinen einzigen etablierten Benchmark, der misst, ob sie das verlässlich tun.

Neue Benchmarks für eine neue Frage

Die Frage “Welches Modell schreibt den besten Code?” wird irrelevant, wenn alle Frontier-Modelle guten Code schreiben. Die relevante Frage lautet: Welchem Modell gebe ich eine Aufgabe und schaue erst in drei Tagen wieder rein?

Dafür bräuchte es Autonomie-Benchmarks. Langzeit-Tasks, bei denen das Modell auf unerwartete Hindernisse stößt und die richtige Antwort “ich bin unsicher, hier brauche ich Feedback” wäre. Tests, die nicht einen einzelnen Output bewerten, sondern Verhalten über hunderte Entscheidungen hinweg.

Das hat niemand.

Was bleibt

Ich werde meine Benchmark-Suite nicht wegwerfen. Für den Vergleich von Open-Weight-Modellen in der Softwareentwicklung ist sie nach wie vor nützlich. Aber sie beantwortet nicht mehr die Frage, die meine Kunden stellen. Die wollen wissen, ob sie ihre Teams mit Agenten skalieren können, ohne dass nachts jemand die Produktion zerlegt. Das ist keine Frage der Codequalität. Das ist eine Frage der Autonomie.

Fünf Frontier-Modelle in einer Woche, und keines davon wird primär an Softwareentwicklung gemessen werden wollen. Das Rennen hat sich verschoben. Unsere Benchmarks nicht.

Und Autonomie ist nicht nur ein Modell-Problem. Ein Modell kann noch so gut autonom arbeiten - wenn die Organisation drumherum nicht mitspielt, bringt das wenig. Wer Agenten langfristig autonom laufen lassen will, braucht die Rahmenbedingungen dafür: fachlich, organisatorisch, technisch. Teststrategien, die über Unit Tests hinausgehen. Entscheidungsstrukturen, die klären, was ein Agent darf und was nicht. Kontexte, die so aufbereitet sind, dass ein Agent damit arbeiten kann, ohne alle drei Stunden in eine Sackgasse zu laufen.

Das ist keine Frage, die man an die Entwicklungsabteilung delegiert. Das betrifft die ganze Organisation.

Und es braucht Vertrauen. Nicht blindes Vertrauen, sondern aufgebautes. Das kommt nur durch Erfahrung - echte Erfahrung, nicht Konferenzvorträge. Man muss Agenten laufen lassen, muss sehen wo sie scheitern, muss die Learnings zurück in die Guardrails fließen lassen. Das ist ein iterativer Prozess, kein Schalter den man umlegt.

Wer erst anfängt damit, wenn die Modelle soweit sind - die Modelle sind soweit.