Conclusión Clave
Google Gemma 4 es la familia de modelos de pesos abiertos más capaz jamás lanzada bajo una licencia verdaderamente permisiva. El modelo 31B Dense obtiene un 85.2% en MMLU Pro y ocupa el 3er puesto entre todos los modelos abiertos en Arena AI — mientras que el 26B MoE logra una calidad casi idéntica con solo 3.8B parámetros activos. Por primera vez, Gemma se distribuye bajo Apache 2.0, eliminando cualquier fricción de licencias que frenaba la adopción comercial de generaciones anteriores.
Google Gemma 4: Todo lo que necesitas saber
Resumen del Lanzamiento
Google DeepMind lanzó Gemma 4 el April 2, 2026, presentando cuatro tamaños de modelos construidos sobre la misma base tecnológica que Gemini 3. Esta generación representa el mayor salto en la familia Gemma en todas las dimensiones: calidad del modelo, capacidades multimodales, longitud de contexto y términos de licencia.
Los cambios clave desde Gemma 3:
- Licencia Apache 2.0 — sin restricciones de uso, sin licencias personalizadas, plena libertad comercial
- Cuatro tamaños de modelos en lugar de tres, incluyendo una nueva arquitectura MoE
- Soporte multimodal nativo en todos los tamaños (texto, imágenes, video, audio)
- Modo de pensamiento configurable con cadenas de razonamiento de más de 4,000 tokens
- Ventanas de contexto de 256K en los modelos más grandes (frente a los límites de Gemma 3)
- Más de 35 idiomas soportados, pre-entrenado en más de 140 idiomas
- Uso de herramientas estructurado para flujos de trabajo agénticos
Los Cuatro Tamaños de Modelos
Gemma 4 se distribuye en cuatro tamaños distintos, cada uno orientado a diferentes escenarios de despliegue:
| Modelo | Parámetros | Parámetros Activos | Arquitectura | Contexto | Modalidades |
|---|---|---|---|---|---|
| E2B | 2.3B efectivos | 2.3B | Dense | 128K | Texto, Imagen, Video, Audio |
| E4B | 4.5B efectivos | 4.5B | Dense | 128K | Texto, Imagen, Video, Audio |
| 26B MoE | 26B totales | 3.8B | Mixture of Experts | 256K | Texto, Imagen |
| 31B Dense | 31B | 31B | Dense | 256K | Texto, Imagen |
E2B y E4B: Los Modelos de Borde
Los modelos más pequeños de Gemma 4 están diseñados para el despliegue en el dispositivo. Con 2.3B y 4.5B de parámetros efectivos respectivamente, se ejecutan en smartphones, tablets y laptops con tan solo 5GB de RAM utilizando cuantización de 4-bit.
Lo que hace que estos modelos sean notables es su amplitud de modalidades. A pesar de ser los más pequeños de la familia, E2B y E4B son los únicos modelos de Gemma 4 que soportan las cuatro modalidades de entrada: texto, imágenes, video y audio. Esta es una elección de diseño deliberada — los dispositivos de borde con cámaras y micrófonos son los que más se benefician de las capacidades multimodales.
Ambos modelos soportan ventanas de contexto de 128K tokens, lo cual es generoso para su recuento de parámetros y suficiente para la mayoría de los casos de uso en el dispositivo.
26B MoE: Máxima Eficiencia
El modelo 26B Mixture of Experts es posiblemente el modelo más interesante de la línea Gemma 4. Contiene 26B de parámetros totales pero solo activa 3.8B de parámetros para cualquier entrada dada — aproximadamente el mismo costo de cómputo que el modelo E4B pero con acceso a drásticamente más conocimiento y capacidad.
En Arena AI, el 26B MoE ocupa el 6º puesto entre todos los modelos abiertos con una puntuación de 1441, a pesar de usar solo 3.8B de parámetros activos. Este ratio de eficiencia no tiene precedentes — ningún otro modelo logra una calidad comparable con este costo de cómputo.
La arquitectura MoE dirige cada token a través de sub-redes de expertos especializados, permitiendo que el modelo mantenga una gran capacidad de conocimiento mientras mantiene bajo el costo de inferencia. Para escenarios de despliegue donde se necesita un razonamiento fuerte pero se tiene una memoria GPU limitada, el 26B MoE es la opción óptima.
31B Dense: Máxima Calidad
El modelo 31B Dense es el buque insignia de Gemma 4. Cada parámetro está activo para cada token, lo que le otorga las salidas más consistentes y de mayor calidad en todos los tipos de tareas.
En Arena AI, el 31B Dense ocupa el 3er puesto entre todos los modelos abiertos con una puntuación de 1452. En MMLU Pro, logra un 85.2% — competitivo con modelos de un tamaño varias veces superior. La puntuación del 89.2% en AIME 2026 demuestra un fuerte razonamiento matemático, mientras que el 74% en BigBench Extra Hard (frente al 19% en generaciones anteriores) muestra una mejora masiva en tareas de razonamiento complejo.
Benchmarks: Los Datos Completos
Razonamiento y Conocimiento
| Referencia | 31B Dense | 26B MoE | Notas |
|---|---|---|---|
| MMLU Pro | 85.2% | — | Conocimiento de nivel de posgrado |
| AIME 2026 | 89.2% | — | Matemáticas de competición |
| BigBench Extra Hard | 74% | — | Superior al 19% en la generación anterior |
| Arena AI Score | 1452 (3º) | 1441 (6º) | Clasificaciones de modelos abiertos |
Fuente: Google DeepMind technical report
BigBench Extra Hard: El Resultado Destacado
El salto del 19% al 74% en BigBench Extra Hard merece una atención especial. Esta referencia evalúa el razonamiento complejo de múltiples pasos, la deducción lógica y tareas que requieren una comprensión genuina en lugar de una coincidencia de patrones. Una mejora de 55 puntos porcentuales en una sola generación sugiere avances fundamentales en la arquitectura de razonamiento de Gemma 4, no solo escalado.
Esta mejora probablemente esté relacionada con el modo de pensamiento configurable y la tecnología subyacente de Gemini 3 sobre la que se construye Gemma 4. El modo de pensamiento genera cadenas de razonamiento extendidas que ayudan al modelo a trabajar en problemas complejos paso a paso.
Contexto de las Clasificaciones de Arena AI
Arena AI clasifica los modelos basándose en comparaciones directas de preferencia humana. El 31B Dense, al obtener 1452 y ocupar el 3er puesto entre los modelos abiertos, se sitúa por encima de muchos modelos con significativamente más parámetros. Para dar contexto:
- Los modelos que ocupan puestos superiores suelen ser modelos de más de 70B de parámetros
- El 26B MoE logrando 1441 con solo 3.8B de parámetros activos es un hito de eficiencia
- Ambos modelos superan al anterior Gemma 3 27B por un margen significativo
Capacidades Multimodales
Comprensión de Imágenes
Los cuatro modelos de Gemma 4 procesan imágenes de forma nativa. Las capacidades incluyen:
- Descripción y análisis de imágenes — comprensión detallada del contenido visual
- OCR y procesamiento de documentos — extracción de texto de imágenes, recibos, capturas de pantalla
- Interpretación de gráficos y diagramas — comprensión de visualizaciones de datos
- Razonamiento visual — responder preguntas que requieren comprender relaciones espaciales
Video y Audio (Solo E2B/E4B)
Los modelos más pequeños E2B y E4B añaden procesamiento nativo de video y audio:
- Comprensión de video — análisis de contenido de video sin extracción fotograma a fotograma
- Transcripción y comprensión de audio — procesamiento de voz y audio ambiental
- Razonamiento transmodal — responder preguntas que abarcan entradas de texto, imagen, video y audio
Esta elección de diseño refleja el enfoque de Google en el despliegue en el borde. Los dispositivos móviles capturan video y audio de forma nativa, por lo que los modelos diseñados para esos dispositivos soportan esas modalidades.
Modo de Pensamiento Configurable
Gemma 4 introduce un modo de pensamiento configurable que genera más de 4,000 tokens de razonamiento interno antes de producir una respuesta. Esto es similar a las capacidades de pensamiento extendido vistas en los modelos de Claude y la serie-o de OpenAI, pero implementado en un modelo de pesos abiertos.
Cómo Funciona
Cuando el modo de pensamiento está activado, el modelo:
- Recibe el prompt de entrada
- Genera una cadena de razonamiento interna (visible u oculta, según la configuración)
- Utiliza la cadena de razonamiento para producir una respuesta final de mayor calidad
El modo de pensamiento puede activarse por solicitud, permitiendo a los desarrolladores:
- Activar el pensamiento para tareas complejas de matemáticas, lógica, codificación y análisis
- Desactivar el pensamiento para consultas simples, chat y aplicaciones sensibles a la latencia
- Ajustar la profundidad del pensamiento basándose en la complejidad esperada de la tarea
Impacto en la Calidad
El modo de pensamiento es un motor principal detrás del fuerte rendimiento de Gemma 4 en los benchmarks. La puntuación de 89.2% en AIME 2026 y la de 74% en BigBench Extra Hard se logran con el modo de pensamiento activado. Sin el modo de pensamiento, estas puntuaciones serían notablemente más bajas — siguiendo el patrón visto en otros modelos con capacidades de razonamiento extendido.
Apache 2.0: Por qué importa el cambio de licencia
Las generaciones anteriores de Gemma se distribuían bajo la licencia personalizada de Gemma de Google, que incluía restricciones sobre:
- El uso en ciertas aplicaciones
- Los términos de redistribución
- Limitaciones de despliegue comercial para uso a gran escala
Gemma 4 cambia a Apache 2.0, la misma licencia utilizada por proyectos como Kubernetes, TensorFlow y Apache HTTP Server. Esto significa:
- Sin restricciones de uso — utilízalo para cualquier cosa, incluyendo productos comerciales
- Sin limitaciones de redistribución — comparte pesos modificados libremente
- Sin requisitos de atribución más allá de la licencia — aviso estándar de Apache 2.0
- Sin necesidad de aprobación de Google — despliega a cualquier escala sin permiso
- Compatible con otras licencias de código abierto — fácil de integrar en proyectos existentes
Para empresas y startups que construyen productos sobre modelos abiertos, esto elimina la carga de revisión legal que requería la licencia personalizada de Gemma. También hace que Gemma 4 sea directamente comparable a los modelos Llama de Meta (que usan su propia licencia personalizada con algunas restricciones) y lo posiciona como la familia de modelos abiertos de alta calidad con la licencia más permisiva disponible.
Soporte de Idiomas
Gemma 4 soporta más de 35 idiomas para inferencia y fue pre-entrenado en más de 140 idiomas. Esto lo convierte en uno de los modelos abiertos más multilingües disponibles, junto con los modelos de Qwen que también enfatizan una amplia cobertura lingüística.
Los idiomas soportados incluyen los principales idiomas del mundo (inglés, chino, español, francés, alemán, japonés, coreano, árabe, hindi, portugués, ruso), así como muchos idiomas con huellas digitales más pequeñas. El pre-entrenamiento en más de 140 idiomas significa que el modelo tiene cierta capacidad en idiomas más allá de los 35 soportados oficialmente, aunque la calidad puede variar.
Para aplicaciones dirigidas a audiencias globales o mercados de habla no inglesa, este amplio soporte de idiomas reduce la necesidad de un ajuste fino especializado o de modelos separados por idioma.
Uso de Herramientas Estructurado y Flujos de Trabajo Agénticos
Gemma 4 incluye soporte nativo para el uso de herramientas estructurado, permitiendo flujos de trabajo agénticos donde el modelo puede:
- Llamar a APIs externas con solicitudes formateadas correctamente
- Procesar respuestas estructuradas de herramientas y servicios
- Encadenar múltiples llamadas a herramientas para completar tareas complejas
- Gestionar errores y reintentos en la ejecución de herramientas
Esta capacidad es particularmente relevante para la integración con Android Studio, donde Gemma 4 impulsa flujos de trabajo de codificación agénticos locales. El modelo puede entender el contexto del código, sugerir cambios, ejecutar herramientas e iterar — todo ejecutándose localmente en la máquina del desarrollador sin enviar código a servidores externos.
Para los desarrolladores que construyen agentes de AI, el uso de herramientas estructurado de Gemma 4 proporciona una base totalmente local y privada. Combinado con la licencia Apache 2.0, esto permite construir y desplegar aplicaciones agénticas sin ninguna dependencia de proveedores de modelos externos.
Requisitos de Hardware
Despliegue Local vía Ollama
| Modelo | RAM Requerida (4-bit) | RAM Requerida (FP16) | Recomendación de GPU |
|---|---|---|---|
| E2B | ~5 GB | ~5 GB | Cualquier GPU moderna / Solo CPU |
| E4B | ~5 GB | ~9 GB | Cualquier GPU moderna / Solo CPU |
| 26B MoE | ~18 GB | ~52 GB | RTX 4090 / RTX 5090 |
| 31B Dense | ~20 GB | ~62 GB | RTX 4090 / RTX 5090 |
Los modelos E2B y E4B están diseñados específicamente para el despliegue en el borde. Se ejecutan cómodamente en laptops, CPUs de escritorio e incluso en algunos smartphones. Los modelos 26B MoE y 31B Dense requieren hardware de GPU dedicado pero siguen siendo accesibles para desarrolladores individuales con GPUs de consumo.
Optimización de NVIDIA
NVIDIA ha lanzado versiones optimizadas de Gemma 4 para GPUs RTX, proporcionando:
- Inferencia más rápida mediante optimizaciones de kernel específicas para GPU
- Mejor utilización de la memoria en tarjetas de las series RTX 4000 y 5000
- Integración con TensorRT para despliegue en producción
- Soporte de grafos CUDA para reducir la sobrecarga en inferencias repetidas
Qué cambió desde Gemma 3
| Característica | Gemma 3 | Gemma 4 |
|---|---|---|
| Licencia | Gemma License (restringida) | Apache 2.0 (sin restricciones) |
| Tamaños de modelos | 3 tamaños | 4 tamaños (se añadió MoE) |
| Ventana de contexto | Hasta 128K | Hasta 256K |
| Modalidades | Texto, Imagen | Texto, Imagen, Video, Audio |
| Modo de pensamiento | No | Sí (configurable) |
| Uso de herramientas | Limitado | Uso de herramientas estructurado |
| Idiomas | 30+ | 35+ (pre-entrenado en 140+) |
| BigBench Extra Hard | 19% | 74% |
Cada dimensión mejoró. Los cambios más impactantes para los desarrolladores son la licencia Apache 2.0 (elimina la fricción legal), el modo de pensamiento (mejora la calidad en tareas difíciles) y la arquitectura MoE (proporciona calidad de buque insignia a una fracción del costo de cómputo).
Casos de Uso Prácticos
Codificación y Desarrollo
El uso de herramientas estructurado y el modo de pensamiento de Gemma 4 lo hacen efectivo para:
- Completado y generación de código local
- Revisión de código y detección de errores
- Generación automática de pruebas
- Escritura de documentación
- Flujos de trabajo de codificación agénticos en Android Studio
Procesamiento de Documentos
Con ventanas de contexto de 256K y soporte multimodal:
- Procesar bases de código enteras o documentos largos en un solo prompt
- Extraer información de imágenes de documentos, recibos y formularios
- Analizar gráficos y visualizaciones de datos
- Resumir extensos artículos de investigación o documentos legales
Construcción de Aplicaciones Impulsadas por AI
Para los desarrolladores que construyen productos que incorporan capacidades de AI, Gemma 4 proporciona una sólida capa de inferencia en el dispositivo o auto-hospedada. El modelo maneja la inteligencia — entender consultas, generar respuestas, procesar imágenes — mientras que el framework de tu aplicación maneja el resto. Herramientas como ZBuild pueden acelerar la construcción del armazón de la aplicación (frontend, backend, base de datos, despliegue), permitiéndote enfocar el esfuerzo de desarrollo en la capa de integración de AI donde las capacidades de Gemma 4 más importan.
Despliegue en el Borde y Móvil
Los modelos E2B y E4B abren casos de uso que antes eran imposibles con modelos abiertos:
- Asistentes en el dispositivo que funcionan sin conexión
- Funciones de AI que preservan la privacidad y nunca envían datos a servidores externos
- Procesamiento de video y audio en tiempo real en dispositivos móviles
- AI embebida en aplicaciones de IoT y robótica
Cómo empezar
Ollama (Ruta más rápida)
# Install Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Pull and run Gemma 4
ollama run gemma4:e2b # Smallest, runs anywhere
ollama run gemma4:e4b # Small, broader capability
ollama run gemma4:26b-moe # MoE, best efficiency
ollama run gemma4:31b # Dense, highest quality
Hugging Face
Todos los modelos de Gemma 4 están disponibles en Hugging Face con integración completa de transformers:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")
Google AI Studio
Google ofrece acceso gratuito a la API de Gemma 4 a través de AI Studio para experimentación y prototipado, con Vertex AI disponible para el despliegue en producción.
Gemma 4 en el Panorama Competitivo
Para entender dónde se sitúa Gemma 4 en el ecosistema más amplio:
| Modelo | Parámetros | Licencia | MMLU Pro | Arena AI | Contexto |
|---|---|---|---|---|---|
| Gemma 4 31B | 31B | Apache 2.0 | 85.2% | 1452 | 256K |
| Gemma 4 26B MoE | 26B (3.8B activos) | Apache 2.0 | — | 1441 | 256K |
| Llama 4 Maverick | 400B (~17B activos) | Meta License | 79.6% | 1417 | 1M |
| Llama 4 Scout | 109B (~17B activos) | Meta License | — | ~1400 | 10M |
| Qwen 3.5 72B | 72B | Apache 2.0 | 81.4% | 1438 | 128K |
| Qwen 3.5 MoE | 397B (~22B activos) | Apache 2.0 | 83.1% | 1449 | 128K |
Gemma 4 31B logra la puntuación más alta en MMLU Pro y la mejor clasificación en Arena AI entre los modelos abiertos — con el menor número de parámetros totales. Esta eficiencia de parámetros es un resultado directo de la base tecnológica de Gemini 3 y el modo de pensamiento configurable.
La historia de eficiencia del modelo 26B MoE es aún más convincente. Ocupa el 6º puesto en Arena AI activando solo 3.8B de parámetros por token. Ningún otro modelo logra una relación calidad-cómputo comparable. Para despliegues en producción donde el costo de inferencia escala con el uso, esta eficiencia se traduce directamente en ahorro de costos.
Comparado con los modelos propietarios, los benchmarks de Gemma 4 31B son competitivos con las ofertas de nivel medio de Anthropic y OpenAI. Si bien los mejores modelos propietarios aún lideran en las tareas más difíciles, la brecha se ha estrechado drásticamente — y Gemma 4 viene con un costo de cero por token y la libertad total de Apache 2.0.
Veredicto
Gemma 4 establece un nuevo estándar para los modelos de pesos abiertos en 2026. La combinación de la licencia Apache 2.0, cuatro tamaños de modelos bien diferenciados, soporte multimodal nativo, modo de pensamiento configurable y puntuaciones en benchmarks competitivas con modelos mucho más grandes, la convierte en la familia de modelos abiertos más práctica disponible.
El 31B Dense es la elección correcta cuando se necesita la máxima calidad. El 26B MoE es la elección correcta cuando se necesita una calidad sólida con el mínimo costo de cómputo. Los E2B y E4B son las elecciones correctas para el despliegue en el borde y AI en el dispositivo. Por primera vez en la familia Gemma, la licencia no limita ninguno de estos casos de uso.
Fuentes
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Gemma 4 on Hugging Face
- Gemma 4 Ollama Models
- NVIDIA Gemma 4 RTX Optimization
- Gemma 4 Arena AI Rankings
- Gemma 4 Android Studio Integration
- Apache 2.0 License
- Gemma 4 Benchmark Analysis - Artificial Analysis
- Gemma 4 Overview - Google AI for Developers