Was ist die OpenAI Codex App?

Die OpenAI Codex App ist eine native Desktop-Anwendung (macOS und Windows), die mehrere AI coding agents parallel in jeweils eigenen sandboxed Git worktrees ausführt. Sie ermöglicht es, Coding-Aufgaben zu delegieren — Feature-Implementierung, Bugfixes, Refactoring — und die Ergebnisse in einer gemeinsamen Queue zu überprüfen. Sie wurde im Februar 2026 für macOS veröffentlicht und am 4. März 2026 auf Windows ausgeweitet.

Wie viel kostet OpenAI Codex?

Codex ist in ChatGPT Plus ($20/Monat) mit Basis-Rate-Limits enthalten. ChatGPT Pro ($200/Monat) bietet 6-fache Nutzungslimits. Es gibt zudem ein zeitlich begrenztes Promotion-Angebot, das Codex-Zugriff in den Free und Go Plänen beinhaltet. Der API-Zugriff kostet $1.75/$7 pro Million Tokens für GPT-5.3 Codex bzw. $2.50/$15 für GPT-5.4.

Ist OpenAI Codex besser als Claude Code?

Das hängt von Ihrem Workflow ab. Codex glänzt bei der Multi-Agent Orchestrierung und Terminal-nativen Aufgaben (77.3% bei Terminal-Bench 2.0 vs. Claudes 65.4%). Claude Code ist stärker bei komplexem Multi-File Coding (80.8% SWE-bench vs. 77.3%) und bietet Agent Teams für paralleles Arbeiten. Wählen Sie Codex für Breite und Autonomie, Claude Code für Tiefe und Code-Qualität.

Welche Modelle nutzt Codex?

Codex nutzt primär GPT-5.3 Codex (veröffentlicht am 5. Februar 2026) und GPT-5.4 (veröffentlicht am 5. März 2026). GPT-5.3 Codex ist für Coding-Aufgaben mit einem 400K Token Context Window optimiert. GPT-5.4 ergänzt ein 1M Context Window, Native Computer Use und stärkeres Reasoning zu einem höheren Preis.

Kann ich Codex kostenlos nutzen?

Ja, vorübergehend. OpenAI bietet derzeit im Rahmen einer zeitlich begrenzten Promotion Codex-Zugriff in den Free und Go Plänen an. Die Rate-Limits sind restriktiver, aber Sie können die Plattform testen, ohne zu bezahlen. Langfristig ist der günstigste kostenpflichtige Plan ChatGPT Plus für $20/Monat.

Wichtige Erkenntnisse

Multi-Agent ist die Killer-Funktion: Führen Sie 3-5 Agents parallel aus, jeder in seinem eigenen Git worktree, mit einer gemeinsamen review queue für Freigaben Source.
GPT-5.3 Codex ist schnell: 25% schneller als sein Vorgänger mit Fortschrittsaktualisierungen in Echtzeit und steering Source.
Jetzt auf Windows: Startete auf macOS im February, erweitert auf Windows am March 4, 2026 Source.
Terminal-Bench Spitzenreiter: GPT-5.3 Codex erreicht 77.3% auf Terminal-Bench 2.0, vor Claude mit 65.4% Source.
Das Skills-System wird unterschätzt: Erweitern Sie Codex über das Coding hinaus auf Recherche, Datenanalyse und Dokumentationsaufgaben Source.

OpenAI Codex App Review: Das Gesamtbild im März 2026

OpenAI's Codex hat sich von einem Modell zur Code-Vervollständigung zu einer vollwertigen Entwicklungsplattform entwickelt. Im Jahr 2026 bezieht sich "Codex" auf ein Ökosystem aus drei Produkten: die Codex App (Desktop-Client), Codex CLI (Terminal-Tool) und die Codex IDE Extension (VS Code/JetBrains Plugin). Alle drei werden entweder von GPT-5.3 Codex oder GPT-5.4 angetrieben.

Dieser Review deckt alle drei Schnittstellen ab, mit einem Schwerpunkt auf der Desktop-App — OpenAI's bisher ehrgeizigstem Entwickler-Tool.

Was ist die Codex App?

Die Codex App ist ein nativer Desktop-Client, mit dem Sie mehrere Coding-Agents gleichzeitig ausführen können, wobei jeder in seiner eigenen sandboxed Umgebung arbeitet. Im Gegensatz zur Codex CLI (die einen einzelnen Agent in Ihrem Terminal ausführt) oder der IDE Extension (die in Ihren Editor integriert ist), ist die App für die Orchestrierung komplexer Entwicklungs-Workflows konzipiert Source.

Stellen Sie es sich wie einen Projektmanager für AI-Agents vor. Sie beschreiben Aufgaben, die App erstellt isolierte Workspaces für jede, Agents führen diese unabhängig aus und die Ergebnisse werden in einer Warteschlange für Ihren Review gesammelt.

Die drei Codex-Schnittstellen

Schnittstelle	Plattform	Am besten geeignet für	Hauptunterscheidungsmerkmal
Codex App	macOS, Windows	Multi-Agent-Orchestrierung	Parallele Agents + review queue
Codex CLI	Terminal (beliebiges OS)	Terminal-natives Coding	Geschwindigkeit + Einfachheit
Codex IDE Extension	VS Code, JetBrains	Unterstützung im Editor	Tiefe Editor-Integration

Alle drei nutzen dieselben zugrunde liegenden Modelle und Fähigkeiten. Die App fügt die Orchestrierungsebene hinzu.

Das Modell: GPT-5.3 Codex und GPT-5.4

GPT-5.3 Codex (Veröffentlicht am February 5, 2026)

GPT-5.3 Codex ist das Modell, das die meisten Codex-Interaktionen antreibt. Wichtige Spezifikationen:

Spezifikation	Wert
Context Window	400,000 tokens
Input-Kosten	$1.75 / MTok
Output-Kosten	$7.00 / MTok
SWE-bench Verified	77.3%
Terminal-Bench 2.0	77.3% (branchenführend)
Geschwindigkeit vs. Vorgänger	25% schneller

Das Modell kombiniert die Coding-Leistung von GPT-5.2 Codex mit stärkeren Reasoning-Fähigkeiten und Fachwissen. Es liefert häufigere Fortschrittsaktualisierungen während der Aufgaben und reagiert auf Echtzeit-steering — Sie können den Agent mitten in der Aufgabe umleiten, ohne neu zu starten Source.

GPT-5.4 (Veröffentlicht am March 5, 2026)

GPT-5.4 ist als Upgrade-Option mit signifikanten Verbesserungen verfügbar:

Spezifikation	GPT-5.3 Codex	GPT-5.4
Context Window	400K tokens	1.05M tokens
Input-Kosten	$1.75 / MTok	$2.50 / MTok
Output-Kosten	$7.00 / MTok	$15.00 / MTok
SWE-bench Verified	77.3%	80.0%
Computer Use	Nein	Ja (nativ)
Reasoning-Level	2	5

Der Kompromiss ist klar: GPT-5.4 kostet etwa 2x mehr, bietet aber das 2.6-fache an Kontext, natives Computer Use und eine stärkere Coding-Leistung Source.

Tiefenanalyse der Kernfunktionen

1. Multi-Agent-Orchestrierung

Dies ist das Hauptfeature und der Grund, warum die Codex App als separates Produkt existiert.

Wie es funktioniert:

Sie erstellen eine Aufgabe (z. B. "Implementierung der Benutzerauthentifizierung mit OAuth 2.0").
Codex unterteilt diese in Teilaufgaben.
Jede Teilaufgabe läuft in einem eigenen Agent mit einem isolierten Git worktree.
Agents arbeiten parallel, ohne sich gegenseitig zu behindern.
Ergebnisse erscheinen in einer review queue für Ihre Freigabe.

In der Praxis können Sie 3-5 Agents gleichzeitig an verschiedenen Funktionen, Bugfixes oder Tests arbeiten lassen. Jeder Agent sieht die gesamte Codebasis, nimmt aber Änderungen in seinem eigenen Branch vor, sodass kein Risiko besteht, dass die Änderungen eines Agents die eines anderen beeinträchtigen.

Die review queue ist gut durchdacht. Sie sehen ein diff, können genehmigen, ablehnen oder Änderungen anfordern. Es fühlt sich an wie das Reviewen von pull requests von Junior-Entwicklern — außer dass der "Entwickler" Feedback in Sekunden statt in Stunden umsetzen kann.

2. Skills-System

Skills sind wiederverwendbare Anweisungsbündel, die Codex über die reine Code-Generierung hinaus erweitern. Ein Skill beinhaltet:

Anweisungen: Natürliche Sprachbeschreibung der Aufgabe
Ressourcen: Dateien, URLs oder Daten, die der Agent benötigt
Skripte: Shell-Befehle oder Automatisierungsschritte

Sie könnten zum Beispiel einen "Deploy to Staging" Skill erstellen, der Deployment-Anweisungen, Umgebungsvariablen und die notwendigen Shell-Befehle enthält. Einmal erstellt, kann jeder Agent diesen nutzen Source.

Vorgefertigte Skills beinhalten:

Code-Review (mit konfigurierbaren Style-Richtlinien)
Test-Generierung (Unit, Integration, e2e)
Dokumentations-Erstellung
Dependency-Updates mit Tests
Security-Audit

Benutzerdefinierte Skills ermöglichen es Ihnen, die spezifischen Workflows Ihres Teams zu kodieren. Hier wird Codex mehr als nur ein Coding-Tool — es wird zu einer Plattform für die Automatisierung aller entwicklungsnahen Aufgaben.

3. Automatisierungen

Automatisierungen lösen Skills basierend auf Ereignissen aus:

Bei PR-Erstellung: Automatische Ausführung von Code-Review und Test-Generierung
Bei Test-Fehlschlag: Automatischer Versuch einer Fehlerbehebung und erneute Ausführung
Bei Dependency-Update: Durchführung von Kompatibilitätstests
Geplant: Tägliche Security-Scans, wöchentliche Dokumentations-Updates

Dies verwandelt Codex von einem reaktiven Tool (Sie bitten es, Dinge zu tun) in ein proaktives System (es tut Dinge, wenn relevante Ereignisse eintreten).

4. Git Worktrees

Jeder Agent läuft in seinem eigenen Git worktree — einer separaten Arbeitskopie des Repositories, die dieselbe Git-Historie teilt, aber ein unabhängiges Arbeitsverzeichnis hat. Das bedeutet:

Keine Merge-Konflikte zwischen Agents
Jeder Agent kann in einem anderen Branch sein
Sie können die Änderungen jedes Agents unabhängig inspizieren
Fehlgeschlagene Aufgaben können verworfen werden, ohne andere Arbeiten zu beeinträchtigen

Dies ist ein bedeutender architektonischer Vorteil gegenüber Tools, die Agents im selben Arbeitsverzeichnis ausführen.

5. Echtzeit-Zusammenarbeit

Im Gegensatz zu früheren Versionen, bei denen man eine Aufgabe einreichte und wartete, unterstützt GPT-5.3 Codex Echtzeit-Interaktion:

Fortschrittsaktualisierungen: Sehen Sie, was der Agent tut, während er arbeitet.
Steering: Leiten Sie den Agent mitten in der Aufgabe um ("Konzentriere dich zuerst auf die Fehlerbehandlung").
Fragen: Der Agent kann klärende Fragen stellen, wenn er auf Unklarheiten stößt.
Gemeinsamer Kontext: Mehrere Agents können sich auf den Fortschritt der anderen beziehen.

Leistung in der Praxis

Was Codex gut macht

Terminal-native Aufgaben: GPT-5.3 Codex führt Terminal-Bench 2.0 mit 77.3% an, vor Claude Code mit 65.4%. Wenn Ihr Workflow Shell-Skripte, DevOps-Automatisierung, CLI-Tools oder Infrastructure-Code umfasst, ist Codex messbar die beste Option Source.

Parallele Feature-Entwicklung: Das Multi-Agent-System funktioniert wie versprochen. Im Test haben wir erfolgreich vier Agents gleichzeitig laufen lassen: einer implementierte einen neuen API-Endpunkt, einer schrieb Tests für ein bestehendes Modul, einer behob ein CSS-Layout-Problem und einer aktualisierte die Dokumentation. Alle vier schlossen ihre Aufgaben ab, ohne sich gegenseitig zu stören.

Unkomplizierte Code-Generierung: Für Aufgaben mit klaren Spezifikationen (Implementierung einer gut definierten API, Aufbau eines Standard-CRUD-Interface, Erstellung von Utility-Funktionen) generiert Codex schnell sauberen, funktionalen Code.

Langlaufende autonome Aufgaben: Mit der Codex App können Sie eine Aufgabe delegieren und Ihren Laptop schließen. Der Agent arbeitet in der Cloud weiter, und Sie können die Ergebnisse später überprüfen. Dies ist wirklich nützlich für Aufgaben, deren Erledigung 15-30 Minuten dauert.

Wo Codex Schwierigkeiten hat

Komplexes Multi-File-Refactoring: Wenn Änderungen sorgfältig über viele Dateien hinweg koordiniert werden müssen (Umbenennung einer Kern-Abstraktion, Änderung eines Datenmodells, das mehr als 20 Dateien betrifft), verliert Codex manchmal die Kohärenz. Claude Code bewältigt diese Aufgaben zuverlässiger.

Subtile architektonische Entscheidungen: Codex ist exzellent darin, klare Spezifikationen zu implementieren, aber weniger effektiv bei Ermessensentscheidungen über die Code-Architektur. Es wird implementieren, was Sie verlangen, aber es wird keinen Widerstand gegen einen schlechten Ansatz leisten, so wie es ein erfahrener Entwickler tun würde.

Sehr große Codebasen: Mit dem 400K Token Context von GPT-5.3 Codex können wirklich große Codebasen (500K+ Zeilen) den Kontext überlaufen lassen. Der 1M Kontext von GPT-5.4 hilft, kostet aber deutlich mehr.

Nicht-Standard-Frameworks: Codex schneidet am besten bei populären Frameworks ab (React, Django, Rails, Spring). Bei Nischen- oder benutzerdefinierten Frameworks generiert es manchmal Code, der allgemeinen Mustern folgt und nicht den Konventionen des Frameworks.

Preis-Analyse

Abonnement-Pläne

Plan	Monatliche Kosten	Codex-Zugang	Rate Limits
Free	$0	Ja (Promo)	Sehr begrenzt
Go	$8/mo	Ja (Promo)	Begrenzt
Plus	$20/mo	Vollständig	Standard
Pro	$200/mo	Vollständig	6x Plus
Business	$30/user/mo	Vollständig	Team-Verwaltung
Enterprise	Individuell	Vollständig	Eigene Limits

Der kostenlose Promo-Zugang ist zeitlich begrenzt, und OpenAI hat nicht bekannt gegeben, wann er endet. Für die ernsthafte Nutzung ist ChatGPT Plus für $20/Monat der Einstiegspunkt Source.

API-Preise (für benutzerdefinierte Integrationen)

Modell	Input	Output	Cached Input
GPT-5.3 Codex	$1.75/MTok	$7.00/MTok	$0.44/MTok
GPT-5.4	$2.50/MTok	$15.00/MTok	$0.25/MTok

Kosten vs. Wettbewerber

Tool	Monatliche Kosten	Bestes Modell enthalten
OpenAI Codex (Plus)	$20/mo	GPT-5.3 Codex
Claude Code (Pro)	$17/mo	Sonnet 4.6
Cursor (Pro)	$20/mo	Multi-Modell
GitHub Copilot (Pro)	$10/mo	Multi-Modell
Windsurf	$15/mo	Multi-Modell

Mit $20/Monat ist Codex Plus wettbewerbsfähig bepreist. Die Pro-Stufe für $200/Monat ist sinnvoll für Vollzeit-Entwickler, die Codex als primäres Werkzeug nutzen — die 6-fache Erhöhung der Rate Limits bedeutet, dass man während eines vollen Arbeitstages kaum an Grenzen stößt Source.

Codex im Vergleich zum Wettbewerb

Codex vs. Claude Code

Dimension	Codex	Claude Code
Bestes Modell	GPT-5.4 (80.0% SWE-bench)	Opus 4.6 (80.8% SWE-bench)
Terminal-Aufgaben	77.3% Terminal-Bench	65.4% Terminal-Bench
Multi-Agent	Codex App worktrees	Agent Teams (tmux)
Plattform	macOS, Windows, CLI, IDE, Web	Terminal (beliebiges OS)
Computer Use	GPT-5.4 nativ	Sonnet 4.6/Opus 4.6
Kontext	400K (5.3) / 1M (5.4)	1M (Opus/Sonnet)
Preis	$20/mo (Plus)	$17/mo (Pro)

Fazit: Codex gewinnt bei der Plattformbreite und den Terminal-Aufgaben. Claude Code gewinnt bei der reinen Coding-Qualität und komplexem Reasoning. Für die meisten Entwickler hängt die Wahl davon ab, ob man die GUI der Codex App oder das Terminal-Interface von Claude Code bevorzugt Source.

Codex vs. Cursor

Dimension	Codex	Cursor
Bestens geeignet für	Autonome Aufgaben	Interaktives Editieren
Schnittstelle	Eigenständige App + CLI	VS Code-basierte IDE
Codebase-Awareness	Gut	Exzellent (tiefes Indizieren)
Hintergrundarbeit	Cloud-basierte Agents	Background Agents
Autocomplete	Über IDE-Extension	Klassenbester
Preis	$20/mo	$20/mo

Fazit: Diese Tools ergänzen sich eher, als dass sie konkurrieren. Nutzen Sie Cursor für interaktive Coding-Sessions und Codex für das Delegieren autonomer Aufgaben. Viele Entwickler nutzen beides.

Codex vs. GitHub Copilot

Dimension	Codex	Copilot
Bestens geeignet für	Multi-Agent-Workflows	GitHub-integrierte Teams
Agenten-Autonomie	Hoch	Mittel (wachsend)
Plattform-Integration	OpenAI-Ökosystem	GitHub-Ökosystem
Team-Verwaltung	Über ChatGPT-Pläne	Native Admin-Kontrollen
Preis	$20/mo	$10-39/mo

Fazit: Copilot ist besser für Teams, die in GitHub leben. Codex ist besser für Einzelentwickler, die maximale AI-Autonomie wollen.

Wer sollte Codex verwenden?

Ideale Nutzer

Solo-Entwickler, die ihren Workflow parallelisieren möchten, indem sie Routineaufgaben an Agents delegieren.
Teamleiter, die schnell Prototypen von Funktionen erstellen müssen, bevor sie diese weitergeben.
DevOps-Ingenieure — die Führung in Terminal-Bench macht Codex zum besten Werkzeug für die Infrastruktur-Automatisierung.
Mac- und Windows-Nutzer, die ein natives App-Erlebnis gegenüber terminal-basierten Tools bevorzugen.

Nicht ideal für

Entwickler, die die absolut beste Code-Qualität benötigen — Claude Code mit Opus 4.6 liegt hier immer noch vorn.
Große Teams, die Admin-Kontrollen benötigen — GitHub Copilot Enterprise ist ausgereifter.
Budgetbewusste Entwickler — Windsurf für $15/Monat oder Aider (kostenlos) bieten starke Alternativen.
Entwickler, die Apps ohne Coding bauen — Plattformen wie ZBuild ermöglichen es Ihnen, Anwendungen visuell mit AI-Unterstützung zu erstellen, was effizienter sein kann, als Code mit irgendeinem AI-Tool zu schreiben.

Das Gesamtbild: AI-Coding im Jahr 2026

Codex repräsentiert OpenAI's Vision einer Entwicklung, in der AI-Agents den Großteil der Implementierungsarbeit leisten. Die Skills- und Automatisierungsfunktionen deuten auf eine Zukunft hin, in der Codex nicht nur ein Coding-Assistent, sondern eine Plattform zur Entwicklungsautomatisierung ist.

Diese Vision ist überzeugend, hat aber ihre Tücken. Die Multi-Agent-Orchestrierung funktioniert gut für parallelisierbare Aufgaben (Implementierung unabhängiger Features), stößt aber bei Aufgaben an ihre Grenzen, die eine tiefe Koordination erfordern (Architekturänderungen, die jede Ebene des Stacks betreffen). Der "Sweet Spot" liegt darin, 60-70% der Implementierungsarbeit an Agents zu delegieren, während Architektur, Design und kritische Entscheidungen menschlichen Entwicklern vorbehalten bleiben.

Für Teams, die Anwendungen schnell und ohne tiefes Coding-Expertenwissen erstellen möchten, bieten AI-gestützte App-Builder wie ZBuild einen ergänzenden Ansatz. Anstatt AI zu nutzen, um traditionellen Code schneller zu schreiben, können Sie Anwendungen visuell erstellen und die Plattform die zugrunde liegende Implementierung handhaben lassen. Beide Ansätze — AI-unterstütztes Coding und AI-gestützter App-Bau — werden im Jahr 2026 wahrscheinlich nebeneinander existieren.

Fazit: 7.5/10

OpenAI Codex ist die vielseitigste AI-Coding-Plattform im Jahr 2026, mit seinem Multi-Schnittstellen-Ansatz (App, CLI, IDE Extension) und starken Multi-Agent-Fähigkeiten. Die Terminal-native Leistung von GPT-5.3 Codex ist klassenbeste, und das Skills-System macht es zu mehr als nur einem Code-Generator.

Es ist in keiner einzelnen Sache das Beste — Claude Code schreibt besseren Code, Cursor ist eine bessere IDE und Copilot lässt sich besser in GitHub integrieren. Aber Codex ist das einzige Werkzeug, das alles über alle Schnittstellen hinweg passabel beherrscht.

Kaufen Sie es, wenn: Sie eine einzige AI-Coding-Plattform suchen, die überall funktioniert — im Terminal, auf dem Desktop, in der IDE — und die Fähigkeit besitzt, autonome Agents auszuführen.

Verzichten Sie darauf, wenn: Sie maximale Code-Qualität benötigen (nutzen Sie Claude Code) oder maximale IDE-Integration (nutzen Sie Cursor).

Kategorie	Bewertung
Code-Qualität	8/10
Multi-Agent	9/10
Entwickler-Erfahrung	7/10
Preisgestaltung	7/10
Ökosystem	8/10
Gesamt	7.5/10

OpenAI Codex App Review 2026: Lohnt sich die Multi-Agent Coding Platform?