Was ist neu bei ChatGPT 5.4?

ChatGPT 5.4 bringt einen Thinking Mode mit transparenter Planung vor der Antwort, Computer Use (Maus- und Tastatursteuerung), ein 1-Million-Token-Kontextfenster, 33% weniger faktische Fehler gegenüber GPT-5.2 sowie ein neues Tool-Search-System für effizientere API-Nutzung.

Was ist der Thinking Mode in ChatGPT 5.4?

Der Thinking Mode (GPT-5.4 Thinking) skizziert vor der Antwortgenerierung einen Reasoning-Plan, den Nutzer einsehen und beeinflussen können. Das erhöht Transparenz und erlaubt Korrekturen während der Verarbeitung.

Lohnt sich ChatGPT 5.4 für Unternehmen?

Für Unternehmen mit anspruchsvollen Workflows – juristische Analysen, Finanzmodellierung, Software-Entwicklung – lohnt sich das Upgrade. Die GDPval-Benchmark zeigt 83% bei Wissensarbeit (vs. 70,9% bei GPT-5.2).

ChatGPT 5.4: Mehr Denken, weniger Fehler – aber ist das wirklich ein Sprung?

Am 5. März 2026 hat OpenAI GPT-5.4 ausgerollt. Ich merkte es, weil mein Kollege mich anschrieb: „Hast du das neue Thinking-Ding schon probiert?" Ich hatte es noch nicht. Also saß ich am Abend mit einem Glas Wasser und einem leeren Prompt-Fenster – und fragte mich, was sich diesmal tatsächlich verändert hat.

Ich sage das, weil ich bei jeder neuen Modellversion mit einer gewissen Grundskepsis rangehe. Nicht weil ich KI für überbewertet halte – ich arbeite täglich damit, das ist kein Hobby – sondern weil die Marketing-Abteilungen der großen Anbieter mittlerweile so geübt im Superlativ sind, dass man den wirklich relevanten Neuerungen erst durch die Werbesprache durchdringen muss.

Der Thinking Mode – endlich Einblick in den Prozess

Das Interessanteste an dieser Version ist nicht, was das Modell kann. Es ist, wie es dabei vorgeht. Der neue Thinking Mode – eine separate Variante namens „GPT-5.4 Thinking" – skizziert vor der Antwortgenerierung einen Reasoning-Plan.¹ Das klingt nach einem kleinen Feature, ist aber in der Praxis ein echter Unterschied.

Warum? Weil man den Planungsprozess sieht und während der Generierung noch eingreifen kann. Wer schon mal erlebt hat, wie ein KI-Modell sechs Absätze lang in die falsche Richtung argumentiert hat, weil man die Fragestellung leicht missverständlich formuliert hat, versteht den Wert davon sofort. Man kann das Ruder herumwerfen, bevor das Schiff auf Grund läuft.

Das ist kein Hype. Das ist eine konkrete Verbesserung im Arbeitsfluss – zumindest für alle, die komplexe Recherchen, juristische Analysen oder mehrstufige Programmieraufgaben damit erledigen.

33% weniger faktische Fehler – eine Zahl, die ich ernst nehme

Zahlen aus Modellbeschreibungen sind oft mit Vorsicht zu genießen. Aber 33% weniger faktische Fehler im Vergleich zu GPT-5.2² ist eine Behauptung, die sich in der Praxis zumindest überprüfen lässt – und sie deckt sich mit dem, was ich anekdotisch beobachte: Die Konfidenz-Selbstüberschätzung der Vorgänger-Versionen nimmt ab.

Auf dem GDPval-Benchmark – einem Bewertungsmaßstab für professionelle Wissensarbeit – erreicht GPT-5.4 83% gegenüber 70,9% bei GPT-5.2.³ Das OSWorld-Verified-Benchmark, der misst wie gut ein Modell reale Computeraufgaben erledigt, springt von 47,3% auf 75,0%.³ Das sind keine kleinen Schritte.

Was ich trotzdem sage: Benchmark ist nicht Praxis. Ich habe Modelle erlebt, die auf Papier brillant waren und in meinem konkreten Arbeitskontext grottenschlecht. Aber die Richtung stimmt.

1 Million Token Kontext – für wen ist das relevant?

Das Kontextfenster mit einer Million Token⁴ ist eine Ansage. Wer zum Vergleich: Ein durchschnittlicher Roman hat etwa 100.000 Wörter, also grob 130.000 Tokens. Ein Kontextfenster von einer Million Token bedeutet: Man kann mehrere komplette Gesetzestexte, eine vollständige Codebasis oder ein ganzes Jahresarchiv von Dokumenten auf einmal verarbeiten.

Für Großkanzleien, die durch Dutzende Verträge gleichzeitig müssen, ist das interessant. Für Entwickler-Teams, die eine gewachsene Codebasis refaktorieren wollen, auch. Für den typischen Einzelnutzer, der ChatGPT für E-Mails und Zusammenfassungen nutzt? Ehrlich gesagt: weniger relevant. Der kauft Motorleistung, die er nie abruft.

Computer Use: Das Modell nimmt das Steuer selbst in die Hand

GPT-5.4 kann jetzt Screenshots analysieren und Maus sowie Tastatur direkt steuern.¹ Im Fachjargon heißt das „Computer Use". Auf dem OSWorld-Benchmark erreicht es 75% – ein deutlicher Sprung, der zeigt, dass das Modell zunehmend als autonomer Agent arbeiten kann, nicht nur als Textgenerator.

Was bedeutet das praktisch? Ich kann GPT-5.4 anweisen, eine bestimmte Webanwendung zu bedienen, Formulare auszufüllen, Daten aus Screenshots zu extrahieren. Das klingt nach Zukunftsmusik, ist aber bereits heute über die API nutzbar.

Mein Vorbehalt: Für sensible Umgebungen – Produktionssysteme, Kundendaten, regulierte Industrien – würde ich das aktuell nicht einsetzen, ohne dass ein Mensch im Loop ist. Die Fehlerrate ist gesunken, aber sie ist nicht null.

Tool Search: Ein Detail, das API-Nutzer aufhorchen lassen sollte

Das klingt unspektakulär, ist aber für jeden, der die API produktiv nutzt, relevant: Das neue Tool-Search-System reduziert den Token-Overhead bei großen Tool-Katalogen um 47%.³ Statt alle verfügbaren Tool-Definitionen bei jeder Anfrage in den Prompt zu laden, werden sie bedarfsgerecht abgerufen.

Das spart in produktiven Umgebungen echtes Geld. Und es reduziert Latenz. Wer mit komplexen Agenten-Workflows arbeitet und bisher über die API-Kosten gestöhnt hat – das hier ist ein Schritt in die richtige Richtung.

Meine ehrliche Einschätzung: Substanz statt Sprung

Ich sage es direkt: GPT-5.4 ist kein Paradigmenwechsel. Es ist eine solide Verbesserung auf breiter Front – Genauigkeit, Transparenz, Kontextgröße, agentenhafte Fähigkeiten. Das sind echte Fortschritte, keine Marketingkosmetik.

Was mich nach wie vor beschäftigt: Die KI-Industrie hat eine Gewohnheit, jede inkrementelle Verbesserung als „Revolution" zu vermarkten. GPT-5.4 ist keine Revolution. Es ist ein gut gemachtes Update, das die Werkzeugkiste erweitert.

Für Unternehmen, die jetzt konkret fragen: Lohnt sich der Wechsel? Meine Antwort ist differenziert. Wer intensiv mit Recherche, Coding oder Dokumentenanalyse arbeitet – ja, absolut. Wer E-Mails schreibt und Texte zusammenfasst – der Unterschied wird im Alltag kaum spürbar sein.

Das Wichtigste, was ich nach 49 Jahren in der IT gelernt habe: Technologie ist kein Selbstzweck. Die Frage ist nicht, was ein Tool kann. Die Frage ist, ob es mein konkretes Problem besser löst als das, was ich heute habe. Für GPT-5.4 ist die Antwort in vielen professionellen Kontexten: ja. Aber man muss wissen, für welche Aufgaben.

ChatGPT 5.4: Mehr Denken, weniger Fehler – aber ist das wirklich ein Sprung?

Der Thinking Mode – endlich Einblick in den Prozess

33% weniger faktische Fehler – eine Zahl, die ich ernst nehme

1 Million Token Kontext – für wen ist das relevant?

Computer Use: Das Modell nimmt das Steuer selbst in die Hand

Tool Search: Ein Detail, das API-Nutzer aufhorchen lassen sollte

Meine ehrliche Einschätzung: Substanz statt Sprung

Teilen

Häufig gestellte Fragen

Kommentare

Weitere Artikel

Der Schreiner, der jeden Morgen seine Säge neu erfindet

Warum der AI-First-Ansatz für Unternehmen wichtig ist

Notwendige Cookies

Funktionale Cookies

Analyse-Cookies

Marketing-Cookies