Seit ich letzten Monat meinen MacBook Pro M4 Max bekommen habe, ist lokale LLM-Inferenz für mich vom Experiment zum Werkzeug geworden. Nicht weil es cool ist, Modelle lokal laufen zu lassen. Sondern weil ich in meinem Beratungsalltag regelmäßig mit Kundendaten arbeite - und die gehören nicht in eine Cloud-API.
Ich habe dazu eine fünfteilige Videoserie begonnen, die zeigt, wie ich mein lokales Setup aufgebaut habe. Keine Theorie, kein Overengineering - verschiedene Tools, jeweils in wenigen Minuten installiert.
Teil 1: Ollama - LLMs auf dem eigenen Rechner
Der Einstieg ist Ollama. Ein kleines Programm, das Large Language Models auf der eigenen Maschine ausführt. Installation dauert zwei Minuten: App runterladen, starten, ein Modell ziehen. ollama run qwen2.5-coder - und schon läuft ein 7-Milliarden-Parameter-Modell komplett lokal.
Das ist erst mal nur eine Kommandozeile. Aber der entscheidende Punkt: Alles passiert auf meinem Rechner. Kein API-Key, kein Cloud-Anbieter, keine Frage ob Kundendaten irgendwo landen wo sie nicht hingehören.
Teil 2: Open WebUI - ChatGPT-Feeling im Browser
Die Kommandozeile reicht für schnelle Tests, aber für längere Gespräche will man ein vernünftiges Interface. Open WebUI liefert genau das: Ein Browser-Interface für Ollama, das sich anfühlt wie ChatGPT. Installation per Docker-Einzeiler, dann läuft das lokal im Browser.
Modell auswählen, Frage eintippen, Antwort bekommen. Gesprächsverläufe werden gespeichert, es gibt technische Infos zur Inferenzgeschwindigkeit. Wer ChatGPT kennt, findet sich sofort zurecht - nur dass alles auf dem eigenen Rechner bleibt.
Teil 3: CodeGPT - LLMs direkt in der IDE
Das war für meinen Alltag der größte Hebel. CodeGPT ist ein Plugin für IntelliJ und andere JetBrains IDEs, das den lokalen Ollama-Server direkt in den Editor integriert. Rechtsklick auf eine Funktion, Tests generieren lassen, Code erklären, Bugs finden, Refactoring-Vorschläge, Commit Messages - alles über das lokale Modell.
Das Praktische daran: CodeGPT unterstützt auch Cloud-Anbieter wie OpenAI oder Anthropic. Ich kann also je nach Situation wählen. Für Kundenprojekte das lokale Modell, für eigene Experimente auch mal ein Frontier-Modell aus der Cloud. Aber der Default ist lokal.
Warum lokal?
Die Frage, die mir bei Kunden am häufigsten begegnet: “Dürfen wir KI-Tools überhaupt einsetzen?” Meistens steckt dahinter die berechtigte Sorge um Datenschutz. Wo landen meine Daten? Wer liest mit? Wird damit trainiert?
Mit einem lokalen Setup fallen diese Fragen weg. Der Code verlässt den Rechner nicht. Punkt.
Die Modelle sind kleiner als die großen Cloud-Modelle, klar. Qwen 2.5 Coder mit 7 Milliarden Parametern ist kein GPT-4o. Aber für die täglichen Aufgaben - Code-Completion, Tests generieren, Code erklären, Commit Messages schreiben - reicht es erstaunlich gut. Und das Setup steht in einer halben Stunde. Drei Tools, alle kostenlos, alle Open Source.
In den Videos zeige ich das Ganze Schritt für Schritt. Kein Vorwissen nötig außer einem halbwegs aktuellen Rechner und einem Terminal.