Wider den Modell-Hype

GPT-5.1 ist draußen, und mein Feed explodiert. Gemini 3 Pro vs. GPT-5.1 vs. Grok 4.1 vs. Claude Sonnet 4.5. Benchmarks, Vergleiche, usw. Jede Woche dasselbe Spiel mit einem neuen Modellnamen. Wer ist schlauer, wer ist schneller, wer gewinnt den nächsten Benchmark.

Ich nutze bewusst verschiedene Modelle parallel. Im Alltag arbeite ich mit Claude Code, für bestimmte Aufgaben greife ich zu OpenAI oder Google. Und was mir dabei auffällt: Das Modell ist selten der Grund, warum etwas gut oder schlecht läuft. Der Grund ist fast immer das, was drumherum passiert - der Agent Harness.

Hirn und Körper

Um zu erklären was ich meine, muss ich kurz ausholen. Denn die Unterscheidung zwischen Modell und Umgebung ist weniger offensichtlich als sie klingt.

Als die ersten LLMs auftauchten, konnten sie genau eine Sache: Tokens produzieren. Text rein, Text raus. Das war beeindruckend und gleichzeitig seltsam nutzlos. Man konnte sich mit ihnen unterhalten, sich Code generieren lassen, Texte zusammenfassen. Aber das Modell allein konnte nichts tun. Es konnte keine Datei lesen, keinen Befehl ausführen, keine API aufrufen. Es war ein Hirn in einem Glas. Brillant, aber ohne Hände.

Dann kamen Tool Use und Function Calling. Plötzlich konnte das Modell sagen: “Ich brauche den Inhalt dieser Datei” oder “Führe diesen Befehl aus” - und eine Infrastruktur drumherum hat das dann tatsächlich getan. Das Hirn bekam Hände. Und damit änderte sich alles. Nicht weil das Modell schlauer wurde, sondern weil es jetzt mit der Welt interagieren konnte.

Mit MCP kam dann so etwas wie ein standardisiertes Nervensystem dazu. Eine einheitliche Schnittstelle, über die ein Modell auf beliebige Datenquellen und Werkzeuge zugreifen kann, ohne dass jede Integration einzeln gebaut werden muss.

Und schließlich die Agent Harnesses - Claude Code, Codex CLI und vergleichbare Tools. Das ist der vollständige Körper. Sie orchestrieren: Wann denkt das Modell? Wann handelt es? Wann korrigiert es sich selbst? Wann fragt es nach? Wie viel Kontext bekommt es? Wie wird eine große Aufgabe in Teilschritte zerlegt? Erst durch den Harness kann ein Modell wirklich autonom über längere Zeit arbeiten, ohne ständig an der Hand geführt zu werden. Vorher war es ein Chatbot. Jetzt ist es ein Agent. Und der Harness bestimmt, wie gut der Agent ist - nicht das Modell allein.

Die Pointe ist: Die meisten Verbesserungen diesen Jahres kamen nicht vom Hirn. Sie kamen vom Körper.

Was die Benchmarks sagen

Das ist auch messbar. Nehmt GPT-5.1, Gemini 3 Pro, Grok 4.1 und Sonnet 4.5. Auf reinen Modell-Benchmarks wie HumanEval oder MMLU liegen sie innerhalb weniger Prozentpunkte. Kaum ein relevanter Unterschied. Aber gebt dasselbe Modell zwei verschiedenen Agent Harnesses - einem gut orchestrierten und einem naiven - und der Unterschied auf praxisnahen Coding-Benchmarks wie SWE-bench liegt bei über zwanzig Prozentpunkten. Die reinen Modell-Benchmarks sagen erstaunlich wenig darüber aus, wie gut ein Modell in der Praxis arbeitet. Weil sie den Harness nicht messen.

Das heißt nicht, dass das Modell egal ist. Aber es heißt, dass die Frage “welches Modell ist das beste?” die falsche Frage ist. Die richtige wäre: “In welchem Harness steckt das Modell?” Die Modelle an der Spitze sind nah genug beieinander, dass der Körper den Ausschlag gibt.

Modell und Harness als Einheit

Dass so viele Entwickler gerade Claude bevorzugen, hat wenig mit Benchmarks zu tun. Anthropic hat früh verstanden, dass Modell und Harness zusammen entwickelt werden müssen. Vor GPT-5 und Gemini 3 war der Tool Use bei OpenAI und Google schlicht nicht zuverlässig genug für echte agentische Workflows. Die Modelle waren auf dem Papier stark, aber im Zusammenspiel mit einem Harness brachen sie ein - falsche Tool-Aufrufe, vergessener Kontext, fehlgeschlagene File-Edits. Anthropic hatte diesen Vorsprung, weil sie Hirn und Körper als Einheit gedacht haben. Inzwischen haben die anderen aufgeholt, aber der Vorsprung in der Abstimmung ist noch spürbar.

Die Benchmarks mögen ähnlich aussehen. Aber wie sich die Arbeit anfühlt, ist ein gewaltiger Unterschied. Und genau hier entsteht auch der Lock-in, den keiner sieht: nicht durch das 20-Dollar-Abo, sondern durch Konfigurationen, MCP-Integrationen, Workflows und Denkgewohnheiten, die sich um einen bestimmten Harness herum bilden. Das ist gewachsene Infrastruktur, die man nicht mal eben umzieht.

Eine ehrliche Einschränkung

Ich will hier nicht so tun, als wäre das in Stein gemeißelt. Die Modelle an der Spitze sind gerade sehr nah beieinander. Das kann sich ändern. Wenn die nächste Generation von Reasoning-Modellen einen echten Sprung macht, könnte das Hirn plötzlich wieder wichtiger werden als der Körper.

Es gibt ein nachvollziehbares Gegenargument: Scaffolds, die man für die Limitierungen heutiger Modelle baut, werden vielleicht obsolet, sobald die Modelle schlau genug sind, das Problem direkt zu lösen. Ohne Umweg über aufwendige Infrastruktur.

Vielleicht stimmt das. Aber Stand heute ist es nicht die Realität. Stand heute entscheidet der Körper.

Was bleibt

Was mich an der ganzen Modell-Debatte stört: Sie lenkt ab. Jede Woche fragt jemand “Ist GPT-5.1 besser als Sonnet 4.5?” und übersieht dabei die Entscheidung, die tatsächlich langfristige Konsequenzen hat. Nicht welches Hirn man wählt, sondern in welchen Körper man investiert. Nicht welches Modell den Benchmark gewinnt, sondern welcher Harness das Modell am besten zur Geltung bringt.

Die Modelle an der Spitze tauschen sich alle paar Wochen aus. Nächsten Monat ist ein anderes vorne. Aber die Arbeitsweise, die ich mir in den letzten Monaten aufgebaut habe - die Konfigurationen, die Integrationen, die Denkgewohnheiten - die bleiben.

Der Lock-in ist nicht das Abo. Der Lock-in sind die Gewohnheiten.