El Experimento
Tomé 10 tareas de codificación reales —del tipo que los desarrolladores realizan todos los días— y envié exactamente el mismo prompt tanto a GPT-5.4 como a Claude Opus 4.6. Mismo system prompt, mismo contexto, mismos criterios de evaluación.
Sin benchmarks sintéticos. Sin ejemplos seleccionados a mano. Solo tareas reales puntuadas en tres dimensiones:
- Corrección (¿funciona sin modificaciones?)
- Calidad del código (legibilidad, tipos, manejo de errores, casos borde)
- Eficiencia (uso de tokens, tiempo de respuesta, número de prompts de seguimiento necesarios)
Cada dimensión se puntúa del 1 al 10. Puntuación máxima posible por tarea: 30.
Se accedió a los modelos a través de sus respectivas API con precios estándar: GPT-5.4 a $2.50/$15 per million tokens y Claude Opus 4.6 a $15/$75 per million tokens.
Aquí están las 10 tareas y exactamente lo que sucedió.
Tarea 1: Construir un Endpoint de API REST
Prompt: "Create a POST /api/users endpoint in Express.js with TypeScript. Validate email format and password strength (min 8 chars, 1 uppercase, 1 number). Hash the password with bcrypt. Store in PostgreSQL via Prisma. Return the user without the password field. Handle duplicate emails with a 409 status."
Resultado de GPT-5.4
Código limpio y listo para producción. El esquema de validación de Zod fue preciso. El hashing de bcrypt utilizó una constante de rondas de sal adecuada. La consulta de Prisma usó select para excluir el campo de la contraseña a nivel de base de datos en lugar de eliminarlo del objeto de respuesta —una práctica de seguridad sutil pero importante. Los tipos de TypeScript eran sólidos.
Resultado de Claude Opus 4.6
También limpio y correcto. Utilizó un enfoque de validación con Zod similar, pero añadió un middleware de rate limiting para el endpoint e incluyó un comentario explicando el porqué. La exclusión de la contraseña utilizó la función omit de Prisma. Añadió un try/catch con tipos de error específicos para violaciones de restricciones únicas de Prisma.
Puntuaciones
| Dimensión | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Corrección | 10 | 10 |
| Calidad del código | 9 | 9 |
| Eficiencia | 9 | 8 |
| Total | 28 | 27 |
Ganador: GPT-5.4 (por poco, en velocidad y concisión)
Ambas salidas fueron excelentes. GPT-5.4 fue más rápido y usó menos tokens. Opus añadió el middleware de rate limiting sin que se le pidiera —útil pero no solicitado. Para tareas de API bien definidas, los modelos son esencialmente intercambiables.
Tarea 2: Construir un Componente de React
Prompt: "Create a React component called DataTable that accepts generic typed data, supports sortable columns, pagination (client-side), a search filter, and row selection with checkboxes. Use TypeScript generics. No UI library — just HTML/CSS with CSS modules. Include proper ARIA attributes."
Resultado de GPT-5.4
Entregó un componente genérico bien estructurado. Los genéricos de TypeScript se usaron correctamente para la definición de columnas y tipos de datos. La lógica de ordenación era limpia con un hook personalizado useSortable extraído. La paginación usó useMemo para el rendimiento. Los atributos ARIA eran correctos — role="grid", aria-sort en los encabezados ordenables, aria-selected en las casillas de verificación.
Resultado de Claude Opus 4.6
Estructura similar pero con algunas diferencias. Opus creó un hook useDataTable que encapsulaba la lógica de ordenación, paginación y filtrado —una separación más limpia pero con más abstracción. Los genéricos de TypeScript eran igualmente correctos. Faltaba aria-sort en las celdas del encabezado. El CSS module incluía un diseño responsivo que cambiaba a vista de tarjeta en móviles, lo cual no fue solicitado pero fue una adición detallista.
Puntuaciones
| Dimensión | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Corrección | 10 | 9 |
| Calidad del código | 9 | 9 |
| Eficiencia | 9 | 8 |
| Total | 28 | 26 |
Ganador: GPT-5.4
La implementación de ARIA de GPT-5.4 fue más completa, lo cual es importante para un componente que se usará en toda una aplicación. Como señala la comparación de MindStudio, GPT-5.4 destaca en la generación de boilerplate, incluyendo componentes de React e interfaces de TypeScript.
Tarea 3: Escribir una Consulta SQL Compleja
Prompt: "Write a PostgreSQL query that returns the top 10 customers by lifetime value (total order amount) who have placed at least 3 orders in the last 12 months, including their most recent order date, average order value, and the percentage change in their spending compared to the previous 12-month period. Use CTEs for readability."
Resultado de GPT-5.4
Tres CTEs: una para la agregación del periodo actual, otra para la agregación del periodo anterior y una para el cálculo del porcentaje. Limpio, correcto y bien formateado. Usó COALESCE para manejar clientes sin datos en el periodo anterior. Añadió un comentario de sugerencia de índice.
Resultado de Claude Opus 4.6
Cuatro CTEs con una estructura ligeramente diferente: separó el cálculo de la "fecha de la última orden" en su propia CTE para evitar una subconsulta correlacionada. Añadió un NULLIF para prevenir la división por cero en el cálculo del porcentaje —un caso borde real que GPT-5.4 omitió. Incluyó una alternativa de window function en un bloque de comentarios.
Puntuaciones
| Dimensión | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Corrección | 9 | 10 |
| Calidad del código | 8 | 9 |
| Eficiencia | 9 | 8 |
| Total | 26 | 27 |
Ganador: Claude Opus 4.6
El caso borde de división por cero fue el factor diferenciador. En SQL de producción, ese tipo de error causa corrupción de datos silenciosa. Opus identifica consistentemente casos borde que importan en pipelines de datos del mundo real.
Tarea 4: Depurar una Condición de Carrera
Prompt: Proporcioné 3 archivos (~200 líneas en total) de una aplicación Node.js con un fallo intermitente en las pruebas. El error era una condición de carrera en una capa de caching donde fallos de caché concurrentes podían activar consultas duplicadas a la base de datos y un estado inconsistente. "Find the bug, explain why it only manifests intermittently, and provide a fix."
Resultado de GPT-5.4
Identificó la ruta de código correcta del fallo de caché. Sugirió añadir un bloqueo de mutex usando async-mutex. La solución era correcta pero trataba el síntoma en lugar de la causa raíz —serializaba todos los accesos a la caché, lo que perjudicaría el rendimiento bajo carga.
Resultado de Claude Opus 4.6
Identificó la misma ruta de código pero también rastreó la inconsistencia de estado hasta un segundo problema: la actualización de la caché no era atómica —había una ventana entre la comprobación de lectura y la escritura donde otra solicitud podía intercalarse. Opus sugirió un patrón "single-flight" (coalescencia de solicitudes idénticas concurrentes) en lugar de un mutex global. La solución fue más quirúrgica y preservó la concurrencia para claves de caché no conflictivas.
Puntuaciones
| Dimensión | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Corrección | 7 | 10 |
| Calidad del código | 7 | 9 |
| Eficiencia | 8 | 8 |
| Total | 22 | 27 |
Ganador: Claude Opus 4.6
Una brecha clara. Opus entendió el modelo de concurrencia lo suficientemente profundo como para sugerir una solución específica. Esto se alinea con la puntuación del 80.8% de Claude Opus 4.6 en SWE-bench Verified, que prueba exactamente este tipo de resolución de errores del mundo real.
Tarea 5: Revisión de Código
Prompt: Proporcioné una pull request de 350 líneas que añadía un nuevo módulo de procesamiento de pagos. "Review this PR for bugs, security issues, performance problems, and code quality. Prioritize findings by severity."
Resultado de GPT-5.4
Encontró 5 problemas: una comprobación de nulos faltante en la respuesta del pago, un rechazo de promesa no manejado, un timeout hardcoded que debería ser configurable, una clave de idempotencia faltante y una sugerencia para extraer números mágicos a constantes. Organizado por severidad. Claro y ejecutable.
Resultado de Claude Opus 4.6
Encontró 8 problemas: los mismos 5 que GPT-5.4 encontró más tres adicionales —una vulnerabilidad TOCTOU (time-of-check-time-of-use) en la validación del monto, una posible fuga de información en la respuesta de error que exponía stack traces internos y un problema sutil donde la lógica de reintento podría causar cargos dobles si la primera solicitud tenía éxito pero la respuesta se perdía. Cada hallazgo incluyó el número de línea específico y una solución sugerida.
Puntuaciones
| Dimensión | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Corrección | 8 | 10 |
| Calidad del código | 8 | 10 |
| Eficiencia | 9 | 8 |
| Total | 25 | 28 |
Ganador: Claude Opus 4.6
Los tres hallazgos adicionales eran todos críticos para la seguridad. El error de doble cargo por sí solo podría costar a una empresa dinero y reputación significativos. El 76% de Opus en MRCR v2 (razonamiento multi-archivo) se traduce directamente en una mejor revisión de código en módulos complejos.
Tarea 6: Escribir una Suite de Pruebas
Prompt: "Write comprehensive tests for this authentication middleware using Vitest. Cover: valid tokens, expired tokens, malformed tokens, missing authorization header, revoked tokens, rate limiting, and concurrent authentication requests." Proporcioné el archivo fuente del middleware (~120 líneas).
Resultado de GPT-5.4
Generó 18 casos de prueba organizados en bloques describe limpios. Se cubrieron todos los escenarios del prompt. Añadió tres casos borde extra: token de cadena vacía, token con algoritmo incorrecto y encabezado de autorización solo con espacios en blanco. Los mocks estaban bien estructurados usando vi.mock. Las descripciones de las pruebas eran claras y seguían el patrón "should X when Y".
Resultado de Claude Opus 4.6
Generó 15 casos de prueba. Todos los escenarios solicitados fueron cubiertos. La estructura de la prueba utilizó una factoría auxiliar para crear tokens con diferentes propiedades —ingenioso pero añadió complejidad. Faltaba la prueba de "solicitudes de autenticación concurrentes" que se solicitó explícitamente. Los mocks eran más limpios pero el recuento de pruebas fue menor.
Puntuaciones
| Dimensión | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Corrección | 10 | 8 |
| Calidad del código | 9 | 9 |
| Eficiencia | 9 | 8 |
| Total | 28 | 25 |
Ganador: GPT-5.4
GPT-5.4 siguió el prompt más fielmente y añadió casos borde significativos. Como señalan múltiples comparaciones, la generación de pruebas de GPT-5.4 está entre las mejores, escribiendo suites completas con una sólida cobertura de casos borde.
Tarea 7: Refactorizar un Módulo Monolítico
Prompt: Proporcioné un módulo de Python de 500 líneas que manejaba la gestión de usuarios —registro, autenticación, actualizaciones de perfil, restablecimiento de contraseñas y notificaciones por correo electrónico, todo en un solo archivo. "Refactor this into a clean module structure following SOLID principles. Maintain backward compatibility with the existing public API."
Resultado de GPT-5.4
Dividido en 5 módulos: auth.py, registration.py, profile.py, password.py, notifications.py. Añadió un __init__.py que re-exportaba las funciones públicas originales para compatibilidad hacia atrás. Separación limpia. Cada módulo era autónomo.
Sin embargo, omitió actualizar la dependencia circular entre registration.py y notifications.py —el registro envía un correo de bienvenida, y el módulo de notificación necesitaba una referencia de vuelta a los datos del usuario. El código fallaría al importar.
Resultado de Claude Opus 4.6
Dividido en 6 módulos con el mismo desglose más un types.py para clases de datos compartidas. Crucialmente, identificó el problema de la dependencia circular y lo resolvió introduciendo un patrón basado en eventos —el registro emite un evento "user_created", y el módulo de notificación se suscribe a él. El __init__.py compatible hacia atrás fue idéntico en enfoque.
Opus también añadió un breve comentario en la parte superior de cada módulo explicando qué pertenece allí y qué no —actuando como guía para futuros desarrolladores.
Puntuaciones
| Dimensión | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Corrección | 6 | 10 |
| Calidad del código | 8 | 10 |
| Eficiencia | 8 | 7 |
| Total | 22 | 27 |
Ganador: Claude Opus 4.6
El error de dependencia circular habría causado un fallo en producción. Este es el tipo de razonamiento multi-archivo en el que destaca Opus —entiende las dependencias entre archivos y las implicaciones arquitectónicas antes de generar código.
Tarea 8: Escribir Documentación Técnica
Prompt: "Write API documentation for this payment processing SDK. Include: overview, authentication, rate limits, error codes, 5 endpoint descriptions with request/response examples, a webhook section, and a migration guide from v1 to v2." Proporcioné el código fuente del SDK.
Resultado de GPT-5.4
Documentación completa que cubre todas las secciones solicitadas. Las descripciones de los endpoints eran detalladas con ejemplos de curl y esquemas de respuesta. La sección de códigos de error estaba bien organizada como una tabla. La guía de migración era clara con ejemplos de código antes/después. Formato markdown limpio.
Resultado de Claude Opus 4.6
También completa, con una estructura ligeramente diferente —comenzó con una sección de "Inicio Rápido" antes de la documentación detallada, lo cual es un buen patrón para la documentación de desarrolladores. La sección de webhooks fue más detallada, incluyendo comportamiento de reintento, código de verificación de firma y guía de pruebas. La guía de migración incluyó un cronograma de depreciación que no estaba en el código fuente —lo infirió de los patrones de versionado.
Puntuaciones
| Dimensión | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Corrección | 9 | 9 |
| Calidad del código | 9 | 9 |
| Eficiencia | 9 | 8 |
| Total | 27 | 26 |
Ganador: Empate (GPT-5.4 por un punto en eficiencia)
Ambos produjeron una documentación excelente. La diferencia de calidad es insignificante. GPT-5.4 fue ligeramente más rápido. Para tareas de documentación, cualquiera de los modelos funciona bien —esto se alinea con los informes de desarrolladores de que la calidad de la documentación es comparable entre los modelos de vanguardia.
Tarea 9: Diseñar una Arquitectura de Sistema
Prompt: "Design the architecture for a real-time collaborative document editor supporting 10,000 concurrent users. Cover: data model, conflict resolution strategy (CRDTs vs OT), WebSocket infrastructure, storage layer, presence system, and deployment topology. Provide a diagram in Mermaid syntax."
Resultado de GPT-5.4
Eligió OT (Operational Transformation) con un servidor central. Arquitectura razonable con Redis para presencia, PostgreSQL para almacenamiento de documentos y un gateway de WebSocket detrás de un load balancer. El diagrama de Mermaid era limpio. El análisis fue competente pero siguió un manual estándar —no analizó profundamente los pros y contras entre CRDTs y OT para esta escala específica.
Resultado de Claude Opus 4.6
Comenzó haciendo una pregunta aclaratoria sobre el modelo de documento (texto enriquecido vs. texto plano vs. datos estructurados), a lo que respondí "texto enriquecido". Luego recomendó CRDTs (específicamente Yjs) sobre OT, con una explicación detallada de por qué los CRDTs son superiores a esta escala —la consistencia eventual sin un secuenciador central elimina el punto único de fallo.
La arquitectura incluía un detalle novedoso: una capa de "gateway de documentos" que maneja las operaciones de mezcla de CRDTs y actúa tanto como terminador de WebSocket como capa de persistencia de estado. El diagrama de Mermaid incluyó flechas de flujo de datos con anotaciones de protocolo. La sección de despliegue recomendó una estrategia de particionamiento específica (shard por ID de documento) con razonamiento sobre particiones calientes.
Puntuaciones
| Dimensión | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Corrección | 8 | 10 |
| Calidad del código | 7 | 10 |
| Eficiencia | 8 | 7 |
| Total | 23 | 27 |
Ganador: Claude Opus 4.6
La arquitectura es donde la brecha de profundidad de razonamiento entre estos modelos es más visible. Opus razona de forma más explícita sobre el problema antes de generar el resultado, analizando casos borde y haciendo preguntas aclaratorias cuando los requisitos son genuinamente ambiguos.
Tarea 10: Escribir un Script de Despliegue DevOps
Prompt: "Write a GitHub Actions workflow that: builds a Docker image, runs tests, pushes to ECR, deploys to ECS Fargate with blue-green deployment, runs a smoke test against the new deployment, and rolls back automatically if the smoke test fails. Use OIDC for AWS authentication — no hardcoded credentials."
Resultado de GPT-5.4
Un archivo de workflow completo con todos los pasos solicitados. La configuración de OIDC fue correcta usando aws-actions/configure-aws-credentials con el ARN del rol. El despliegue blue-green usó la actualización del servicio ECS con el controlador de despliegue CODE_DEPLOY. El smoke test fue una comprobación de salud basada en curl. El rollback fue activado por el código de salida del smoke test. Bien comentado, listo para producción.
Resultado de Claude Opus 4.6
También completo y correcto. Usó el mismo enfoque OIDC. La diferencia clave estuvo en el smoke test —Opus creó una prueba más exhaustiva que no solo comprobaba el endpoint de salud, sino que también verificaba que el despliegue estuviera sirviendo la versión correcta mediante la comprobación de un endpoint /version. El rollback incluyó un paso de notificación a Slack. Sin embargo, el workflow fue notablemente más verboso —un 40% más de líneas para una funcionalidad similar.
Puntuaciones
| Dimensión | GPT-5.4 | Opus 4.6 |
|---|---|---|
| Corrección | 10 | 10 |
| Calidad del código | 9 | 9 |
| Eficiencia | 9 | 7 |
| Total | 28 | 26 |
Ganador: GPT-5.4
Para scripts de DevOps, la concisión de GPT-5.4 es una ventaja. El workflow es más fácil de mantener y modificar. Las adiciones de Opus (notificación de Slack, verificación de versión) son agradables pero no fueron solicitadas y añadieron complejidad. GPT-5.4 lidera en Terminal-bench (75.1% vs 65.4%), y esta ventaja se nota en tareas orientadas a terminal.
El Marcador Final
| Tarea | GPT-5.4 | Opus 4.6 | Ganador |
|---|---|---|---|
| 1. Endpoint de API REST | 28 | 27 | GPT-5.4 |
| 2. Componente de React | 28 | 26 | GPT-5.4 |
| 3. Consulta SQL | 26 | 27 | Opus 4.6 |
| 4. Depurar condición de carrera | 22 | 27 | Opus 4.6 |
| 5. Revisión de código | 25 | 28 | Opus 4.6 |
| 6. Suite de pruebas | 28 | 25 | GPT-5.4 |
| 7. Refactorizar módulo | 22 | 27 | Opus 4.6 |
| 8. Documentación | 27 | 26 | Empate |
| 9. Diseño de arquitectura | 23 | 27 | Opus 4.6 |
| 10. Script de DevOps | 28 | 26 | GPT-5.4 |
| Total | 257 | 266 | Opus 4.6 |
Puntuación final: Claude Opus 4.6 gana 266 a 257.
Pero la puntuación agregada oculta la verdadera historia.
El Patrón que Importa Más que la Puntuación
Mira dónde gana cada modelo:
GPT-5.4 gana en:
- Endpoints de API (tareas acotadas y bien definidas)
- Componentes de React (boilerplate con especificaciones claras)
- Escritura de pruebas (cobertura completa a partir de una especificación)
- Scripts de DevOps (orientados a terminal, salida concisa)
Claude Opus 4.6 gana en:
- Casos borde de SQL (detectar errores de datos sutiles)
- Depuración (entender las causas raíz en sistemas complejos)
- Revisión de código (encontrar problemas de seguridad y corrección)
- Refactorización (manejar dependencias entre archivos)
- Arquitectura (razonamiento profundo sobre pros y contras)
El patrón es claro: GPT-5.4 es el modelo más rápido, económico y mejor para tareas de codificación bien definidas. Claude Opus 4.6 es el modelo más profundo y cuidadoso para tareas que requieren razonamiento ante la complejidad.
Esto coincide con lo que el análisis de DataCamp encontró: GPT-5.4 es el mejor modelo generalista, mientras que Opus 4.6 destaca específicamente en tareas agénticas y de codificación profunda.
El Factor Coste
La brecha en la puntuación (9 puntos) es relativamente pequeña. La brecha en el coste no lo es.
| Métrica | GPT-5.4 | Claude Opus 4.6 |
|---|---|---|
| Input pricing | $2.50/MTok | $15/MTok |
| Output pricing | $15/MTok | $75/MTok |
| Speed | 73.4 tok/s | 40.5 tok/s |
| Context window | 1M (surcharge >272K) | 1M (flat pricing) |
| Tool search savings | ~47% token reduction | N/A |
Para esta prueba de 10 tareas, el coste total de la API fue de aproximadamente $4.20 para GPT-5.4 y $31.50 para Opus 4.6. Esa es una diferencia de coste de 7.5 veces por una brecha de calidad del 3.5%.
Para un equipo que ejecuta cientos de tareas de codificación asistidas por AI al día, las matemáticas favorecen fuertemente a GPT-5.4 para la mayoría del trabajo, reservando a Opus para el 10-20% de alto riesgo donde su profundidad de razonamiento marca una diferencia material.
La Estrategia Inteligente: Usar Ambos
La mayoría de los desarrolladores que trabajan en 2026 no eligen un solo modelo —eligen cuándo usar cada uno. El patrón que surgió de esta prueba coincide con lo que usamos en ZBuild:
Uso diario: GPT-5.4 (a través de Codex CLI o API)
- Escribir nuevos endpoints, componentes y scripts
- Generar pruebas a partir de especificaciones
- Depuración rápida en problemas aislados
- Automatización de DevOps y CI/CD
Trabajo pesado: Claude Opus 4.6 (a través de Claude Code o API)
- Refactorización multi-archivo con dependencias complejas
- Revisión de código crítico para la seguridad
- Sesiones de diseño arquitectónico
- Depuración de problemas no obvios en bases de código grandes
Este enfoque de dos modelos captura el 95% de las fortalezas de ambos modelos mientras mantiene los costes manejables. La guía de Portkey para elegir entre estos modelos recomienda el mismo enfoque híbrido.
Qué Dicen los Benchmarks (para Contexto)
Los resultados tarea por tarea anteriores se alinean con los benchmarks formales:
| Benchmark | GPT-5.4 | Opus 4.6 | Qué Mide |
|---|---|---|---|
| SWE-bench Verified | ~80% | 80.8% | Resolución de problemas reales de GitHub |
| SWE-bench Pro | 57.7% | ~46% | Tareas de codificación más difíciles y estrictas |
| Terminal-bench 2.0 | 75.1% | 65.4% | Tareas de terminal y sistema |
| HumanEval | 93.1% | 90.4% | Generación de código a nivel de función |
| GPQA Diamond | 92.0-92.8% | 87.4-91.3% | Razonamiento de nivel experto |
| ARC-AGI-2 | 73.3% | 68.8-69.2% | Razonamiento novedoso |
Fuentes: MindStudio benchmarks, Evolink analysis, Anthropic
GPT-5.4 lidera en la mayoría de los benchmarks. Opus 4.6 lidera en SWE-bench Verified —el benchmark más estrechamente ligado a la corrección de errores en el mundo real— lo que explica su ventaja en depuración y refactorización en mis pruebas.
El Veredicto
Si solo puedes elegir un modelo: GPT-5.4. Maneja el 80% de las tareas de codificación con una calidad igual o mejor, cuesta entre 6 y 7 veces menos y es un 80% más rápido. El 20% de las tareas donde Opus es mejor (depuración, refactorización, arquitectura) a menudo se pueden manejar con prompts más detallados en GPT-5.4.
Si puedes usar ambos: Hazlo. GPT-5.4 para la codificación diaria, Opus 4.6 para el trabajo complejo. Esto no es un compromiso —es la estrategia óptima.
Si el coste no importa y quieres la máxima calidad en cada tarea: Claude Opus 4.6. Ganó la puntuación total y sus victorias fueron en las tareas donde la calidad más importa (los errores cuestan más que el boilerplate).
Los resultados no fueron lo que esperaba porque asumí que el modelo más caro dominaría. No fue así. Los dos modelos tienen fortalezas genuinamente diferentes, y la mejor estrategia es saber qué fortaleza necesitas para la tarea que tienes delante.
Fuentes
- OpenAI — Introducing GPT-5.4
- OpenAI — API Pricing
- Anthropic — Introducing Claude Opus 4.6
- Anthropic — Claude Pricing
- MindStudio — GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro Benchmarks
- MindStudio — Which AI Model Is Right for Your Workflow
- Portkey — GPT-5.4 vs Claude Opus 4.6 Guide
- DataCamp — GPT-5.4 vs Claude Opus 4.6 for Agentic Tasks
- Artificial Analysis — GPT-5.4 vs Claude Opus 4.6
- Bind AI — GPT-5.4 vs Claude Opus 4.6 for Coding
- Evolink — SWE-bench Verified 2026: Claude vs GPT
- DEV Community — ChatGPT vs Claude for Coding 2026
- Claude 5 — Opus 4.6 Benchmark Analysis