¿Qué es Google Gemma 4 y cuándo fue lanzado?

Google Gemma 4 es la familia de modelos open-weight de Google DeepMind lanzada el April 2, 2026. Incluye 4 tamaños — E2B (2.3B efectivos), E4B (4.5B efectivos), 26B MoE (3.8B activos / 26B totales) y 31B Dense. Todos los modelos se publican bajo Apache 2.0, la licencia más permisiva jamás utilizada para un lanzamiento de Gemma.

¿Es Gemma 4 realmente open source?

Sí. Gemma 4 es la primera generación de Gemma lanzada bajo la licencia Apache 2.0, que permite el uso comercial, la modificación y la redistribución sin restricciones y sin necesidad de permiso de Google. Los modelos Gemma anteriores utilizaban la licencia personalizada Gemma de Google, que imponía restricciones de uso.

¿Qué context window soporta Gemma 4?

Los modelos más pequeños (E2B y E4B) soportan context windows de 128K tokens. Los modelos más grandes (26B MoE y 31B Dense) soportan context windows de 256K tokens. Esta es una mejora importante respecto a los límites de contexto de Gemma 3 y permite el procesamiento de bases de código completas o documentos extensos en un solo prompt.

¿Puede Gemma 4 procesar imágenes, vídeo y audio?

Sí. Los cuatro modelos de Gemma 4 son nativamente multimodales y soportan entradas de texto e imagen. Los modelos E2B y E4B van más allá con capacidades nativas de procesamiento de vídeo y audio. Esto convierte a Gemma 4 en la primera familia de modelos open-weight donde los modelos más pequeños tienen el soporte de modalidades más amplio.

¿Cómo funciona el thinking mode de Gemma 4?

Gemma 4 incluye un thinking mode configurable que genera más de 4,000 tokens de razonamiento interno antes de producir una respuesta. Este razonamiento de chain-of-thought se puede activar o desactivar por solicitud, lo que permite a los desarrolladores elegir entre respuestas más rápidas para tareas sencillas y un razonamiento más profundo para problemas complejos como matemáticas, lógica y programación.

¿Qué hardware necesito para ejecutar Gemma 4 localmente?

Gemma 4 E2B y E4B se ejecutan en dispositivos con tan solo 5GB de RAM utilizando 4-bit quantization, incluyendo smartphones y portátiles. El modelo 26B MoE requiere aproximadamente 18GB de RAM y el 31B Dense requiere aproximadamente 20GB de RAM. Todos los modelos se ejecutan a través de Ollama con optimización para NVIDIA RTX GPU disponible.

Conclusión Clave

Google Gemma 4 es la familia de modelos de pesos abiertos más capaz jamás lanzada bajo una licencia verdaderamente permisiva. El modelo 31B Dense obtiene un 85.2% en MMLU Pro y ocupa el 3er puesto entre todos los modelos abiertos en Arena AI — mientras que el 26B MoE logra una calidad casi idéntica con solo 3.8B parámetros activos. Por primera vez, Gemma se distribuye bajo Apache 2.0, eliminando cualquier fricción de licencias que frenaba la adopción comercial de generaciones anteriores.

Google Gemma 4: Todo lo que necesitas saber

Resumen del Lanzamiento

Google DeepMind lanzó Gemma 4 el April 2, 2026, presentando cuatro tamaños de modelos construidos sobre la misma base tecnológica que Gemini 3. Esta generación representa el mayor salto en la familia Gemma en todas las dimensiones: calidad del modelo, capacidades multimodales, longitud de contexto y términos de licencia.

Los cambios clave desde Gemma 3:

Licencia Apache 2.0 — sin restricciones de uso, sin licencias personalizadas, plena libertad comercial
Cuatro tamaños de modelos en lugar de tres, incluyendo una nueva arquitectura MoE
Soporte multimodal nativo en todos los tamaños (texto, imágenes, video, audio)
Modo de pensamiento configurable con cadenas de razonamiento de más de 4,000 tokens
Ventanas de contexto de 256K en los modelos más grandes (frente a los límites de Gemma 3)
Más de 35 idiomas soportados, pre-entrenado en más de 140 idiomas
Uso de herramientas estructurado para flujos de trabajo agénticos

Los Cuatro Tamaños de Modelos

Gemma 4 se distribuye en cuatro tamaños distintos, cada uno orientado a diferentes escenarios de despliegue:

Modelo	Parámetros	Parámetros Activos	Arquitectura	Contexto	Modalidades
E2B	2.3B efectivos	2.3B	Dense	128K	Texto, Imagen, Video, Audio
E4B	4.5B efectivos	4.5B	Dense	128K	Texto, Imagen, Video, Audio
26B MoE	26B totales	3.8B	Mixture of Experts	256K	Texto, Imagen
31B Dense	31B	31B	Dense	256K	Texto, Imagen

Fuente: Google AI Blog

E2B y E4B: Los Modelos de Borde

Los modelos más pequeños de Gemma 4 están diseñados para el despliegue en el dispositivo. Con 2.3B y 4.5B de parámetros efectivos respectivamente, se ejecutan en smartphones, tablets y laptops con tan solo 5GB de RAM utilizando cuantización de 4-bit.

Lo que hace que estos modelos sean notables es su amplitud de modalidades. A pesar de ser los más pequeños de la familia, E2B y E4B son los únicos modelos de Gemma 4 que soportan las cuatro modalidades de entrada: texto, imágenes, video y audio. Esta es una elección de diseño deliberada — los dispositivos de borde con cámaras y micrófonos son los que más se benefician de las capacidades multimodales.

Ambos modelos soportan ventanas de contexto de 128K tokens, lo cual es generoso para su recuento de parámetros y suficiente para la mayoría de los casos de uso en el dispositivo.

26B MoE: Máxima Eficiencia

El modelo 26B Mixture of Experts es posiblemente el modelo más interesante de la línea Gemma 4. Contiene 26B de parámetros totales pero solo activa 3.8B de parámetros para cualquier entrada dada — aproximadamente el mismo costo de cómputo que el modelo E4B pero con acceso a drásticamente más conocimiento y capacidad.

En Arena AI, el 26B MoE ocupa el 6º puesto entre todos los modelos abiertos con una puntuación de 1441, a pesar de usar solo 3.8B de parámetros activos. Este ratio de eficiencia no tiene precedentes — ningún otro modelo logra una calidad comparable con este costo de cómputo.

La arquitectura MoE dirige cada token a través de sub-redes de expertos especializados, permitiendo que el modelo mantenga una gran capacidad de conocimiento mientras mantiene bajo el costo de inferencia. Para escenarios de despliegue donde se necesita un razonamiento fuerte pero se tiene una memoria GPU limitada, el 26B MoE es la opción óptima.

31B Dense: Máxima Calidad

El modelo 31B Dense es el buque insignia de Gemma 4. Cada parámetro está activo para cada token, lo que le otorga las salidas más consistentes y de mayor calidad en todos los tipos de tareas.

En Arena AI, el 31B Dense ocupa el 3er puesto entre todos los modelos abiertos con una puntuación de 1452. En MMLU Pro, logra un 85.2% — competitivo con modelos de un tamaño varias veces superior. La puntuación del 89.2% en AIME 2026 demuestra un fuerte razonamiento matemático, mientras que el 74% en BigBench Extra Hard (frente al 19% en generaciones anteriores) muestra una mejora masiva en tareas de razonamiento complejo.

Benchmarks: Los Datos Completos

Razonamiento y Conocimiento

Referencia	31B Dense	26B MoE	Notas
MMLU Pro	85.2%	—	Conocimiento de nivel de posgrado
AIME 2026	89.2%	—	Matemáticas de competición
BigBench Extra Hard	74%	—	Superior al 19% en la generación anterior
Arena AI Score	1452 (3º)	1441 (6º)	Clasificaciones de modelos abiertos

Fuente: Google DeepMind technical report

BigBench Extra Hard: El Resultado Destacado

El salto del 19% al 74% en BigBench Extra Hard merece una atención especial. Esta referencia evalúa el razonamiento complejo de múltiples pasos, la deducción lógica y tareas que requieren una comprensión genuina en lugar de una coincidencia de patrones. Una mejora de 55 puntos porcentuales en una sola generación sugiere avances fundamentales en la arquitectura de razonamiento de Gemma 4, no solo escalado.

Esta mejora probablemente esté relacionada con el modo de pensamiento configurable y la tecnología subyacente de Gemini 3 sobre la que se construye Gemma 4. El modo de pensamiento genera cadenas de razonamiento extendidas que ayudan al modelo a trabajar en problemas complejos paso a paso.

Contexto de las Clasificaciones de Arena AI

Arena AI clasifica los modelos basándose en comparaciones directas de preferencia humana. El 31B Dense, al obtener 1452 y ocupar el 3er puesto entre los modelos abiertos, se sitúa por encima de muchos modelos con significativamente más parámetros. Para dar contexto:

Los modelos que ocupan puestos superiores suelen ser modelos de más de 70B de parámetros
El 26B MoE logrando 1441 con solo 3.8B de parámetros activos es un hito de eficiencia
Ambos modelos superan al anterior Gemma 3 27B por un margen significativo

Capacidades Multimodales

Comprensión de Imágenes

Los cuatro modelos de Gemma 4 procesan imágenes de forma nativa. Las capacidades incluyen:

Descripción y análisis de imágenes — comprensión detallada del contenido visual
OCR y procesamiento de documentos — extracción de texto de imágenes, recibos, capturas de pantalla
Interpretación de gráficos y diagramas — comprensión de visualizaciones de datos
Razonamiento visual — responder preguntas que requieren comprender relaciones espaciales

Video y Audio (Solo E2B/E4B)

Los modelos más pequeños E2B y E4B añaden procesamiento nativo de video y audio:

Comprensión de video — análisis de contenido de video sin extracción fotograma a fotograma
Transcripción y comprensión de audio — procesamiento de voz y audio ambiental
Razonamiento transmodal — responder preguntas que abarcan entradas de texto, imagen, video y audio

Esta elección de diseño refleja el enfoque de Google en el despliegue en el borde. Los dispositivos móviles capturan video y audio de forma nativa, por lo que los modelos diseñados para esos dispositivos soportan esas modalidades.

Modo de Pensamiento Configurable

Gemma 4 introduce un modo de pensamiento configurable que genera más de 4,000 tokens de razonamiento interno antes de producir una respuesta. Esto es similar a las capacidades de pensamiento extendido vistas en los modelos de Claude y la serie-o de OpenAI, pero implementado en un modelo de pesos abiertos.

Cómo Funciona

Cuando el modo de pensamiento está activado, el modelo:

Recibe el prompt de entrada
Genera una cadena de razonamiento interna (visible u oculta, según la configuración)
Utiliza la cadena de razonamiento para producir una respuesta final de mayor calidad

El modo de pensamiento puede activarse por solicitud, permitiendo a los desarrolladores:

Activar el pensamiento para tareas complejas de matemáticas, lógica, codificación y análisis
Desactivar el pensamiento para consultas simples, chat y aplicaciones sensibles a la latencia
Ajustar la profundidad del pensamiento basándose en la complejidad esperada de la tarea

Impacto en la Calidad

El modo de pensamiento es un motor principal detrás del fuerte rendimiento de Gemma 4 en los benchmarks. La puntuación de 89.2% en AIME 2026 y la de 74% en BigBench Extra Hard se logran con el modo de pensamiento activado. Sin el modo de pensamiento, estas puntuaciones serían notablemente más bajas — siguiendo el patrón visto en otros modelos con capacidades de razonamiento extendido.

Apache 2.0: Por qué importa el cambio de licencia

Las generaciones anteriores de Gemma se distribuían bajo la licencia personalizada de Gemma de Google, que incluía restricciones sobre:

El uso en ciertas aplicaciones
Los términos de redistribución
Limitaciones de despliegue comercial para uso a gran escala

Gemma 4 cambia a Apache 2.0, la misma licencia utilizada por proyectos como Kubernetes, TensorFlow y Apache HTTP Server. Esto significa:

Sin restricciones de uso — utilízalo para cualquier cosa, incluyendo productos comerciales
Sin limitaciones de redistribución — comparte pesos modificados libremente
Sin requisitos de atribución más allá de la licencia — aviso estándar de Apache 2.0
Sin necesidad de aprobación de Google — despliega a cualquier escala sin permiso
Compatible con otras licencias de código abierto — fácil de integrar en proyectos existentes

Para empresas y startups que construyen productos sobre modelos abiertos, esto elimina la carga de revisión legal que requería la licencia personalizada de Gemma. También hace que Gemma 4 sea directamente comparable a los modelos Llama de Meta (que usan su propia licencia personalizada con algunas restricciones) y lo posiciona como la familia de modelos abiertos de alta calidad con la licencia más permisiva disponible.

Soporte de Idiomas

Gemma 4 soporta más de 35 idiomas para inferencia y fue pre-entrenado en más de 140 idiomas. Esto lo convierte en uno de los modelos abiertos más multilingües disponibles, junto con los modelos de Qwen que también enfatizan una amplia cobertura lingüística.

Los idiomas soportados incluyen los principales idiomas del mundo (inglés, chino, español, francés, alemán, japonés, coreano, árabe, hindi, portugués, ruso), así como muchos idiomas con huellas digitales más pequeñas. El pre-entrenamiento en más de 140 idiomas significa que el modelo tiene cierta capacidad en idiomas más allá de los 35 soportados oficialmente, aunque la calidad puede variar.

Para aplicaciones dirigidas a audiencias globales o mercados de habla no inglesa, este amplio soporte de idiomas reduce la necesidad de un ajuste fino especializado o de modelos separados por idioma.

Uso de Herramientas Estructurado y Flujos de Trabajo Agénticos

Gemma 4 incluye soporte nativo para el uso de herramientas estructurado, permitiendo flujos de trabajo agénticos donde el modelo puede:

Llamar a APIs externas con solicitudes formateadas correctamente
Procesar respuestas estructuradas de herramientas y servicios
Encadenar múltiples llamadas a herramientas para completar tareas complejas
Gestionar errores y reintentos en la ejecución de herramientas

Esta capacidad es particularmente relevante para la integración con Android Studio, donde Gemma 4 impulsa flujos de trabajo de codificación agénticos locales. El modelo puede entender el contexto del código, sugerir cambios, ejecutar herramientas e iterar — todo ejecutándose localmente en la máquina del desarrollador sin enviar código a servidores externos.

Para los desarrolladores que construyen agentes de AI, el uso de herramientas estructurado de Gemma 4 proporciona una base totalmente local y privada. Combinado con la licencia Apache 2.0, esto permite construir y desplegar aplicaciones agénticas sin ninguna dependencia de proveedores de modelos externos.

Requisitos de Hardware

Despliegue Local vía Ollama

Modelo	RAM Requerida (4-bit)	RAM Requerida (FP16)	Recomendación de GPU
E2B	~5 GB	~5 GB	Cualquier GPU moderna / Solo CPU
E4B	~5 GB	~9 GB	Cualquier GPU moderna / Solo CPU
26B MoE	~18 GB	~52 GB	RTX 4090 / RTX 5090
31B Dense	~20 GB	~62 GB	RTX 4090 / RTX 5090

Fuente: Ollama model library

Los modelos E2B y E4B están diseñados específicamente para el despliegue en el borde. Se ejecutan cómodamente en laptops, CPUs de escritorio e incluso en algunos smartphones. Los modelos 26B MoE y 31B Dense requieren hardware de GPU dedicado pero siguen siendo accesibles para desarrolladores individuales con GPUs de consumo.

Optimización de NVIDIA

NVIDIA ha lanzado versiones optimizadas de Gemma 4 para GPUs RTX, proporcionando:

Inferencia más rápida mediante optimizaciones de kernel específicas para GPU
Mejor utilización de la memoria en tarjetas de las series RTX 4000 y 5000
Integración con TensorRT para despliegue en producción
Soporte de grafos CUDA para reducir la sobrecarga en inferencias repetidas

Fuente: NVIDIA AI Blog

Qué cambió desde Gemma 3

Característica	Gemma 3	Gemma 4
Licencia	Gemma License (restringida)	Apache 2.0 (sin restricciones)
Tamaños de modelos	3 tamaños	4 tamaños (se añadió MoE)
Ventana de contexto	Hasta 128K	Hasta 256K
Modalidades	Texto, Imagen	Texto, Imagen, Video, Audio
Modo de pensamiento	No	Sí (configurable)
Uso de herramientas	Limitado	Uso de herramientas estructurado
Idiomas	30+	35+ (pre-entrenado en 140+)
BigBench Extra Hard	19%	74%

Cada dimensión mejoró. Los cambios más impactantes para los desarrolladores son la licencia Apache 2.0 (elimina la fricción legal), el modo de pensamiento (mejora la calidad en tareas difíciles) y la arquitectura MoE (proporciona calidad de buque insignia a una fracción del costo de cómputo).

Casos de Uso Prácticos

Codificación y Desarrollo

El uso de herramientas estructurado y el modo de pensamiento de Gemma 4 lo hacen efectivo para:

Completado y generación de código local
Revisión de código y detección de errores
Generación automática de pruebas
Escritura de documentación
Flujos de trabajo de codificación agénticos en Android Studio

Procesamiento de Documentos

Con ventanas de contexto de 256K y soporte multimodal:

Procesar bases de código enteras o documentos largos en un solo prompt
Extraer información de imágenes de documentos, recibos y formularios
Analizar gráficos y visualizaciones de datos
Resumir extensos artículos de investigación o documentos legales

Construcción de Aplicaciones Impulsadas por AI

Para los desarrolladores que construyen productos que incorporan capacidades de AI, Gemma 4 proporciona una sólida capa de inferencia en el dispositivo o auto-hospedada. El modelo maneja la inteligencia — entender consultas, generar respuestas, procesar imágenes — mientras que el framework de tu aplicación maneja el resto. Herramientas como ZBuild pueden acelerar la construcción del armazón de la aplicación (frontend, backend, base de datos, despliegue), permitiéndote enfocar el esfuerzo de desarrollo en la capa de integración de AI donde las capacidades de Gemma 4 más importan.

Despliegue en el Borde y Móvil

Los modelos E2B y E4B abren casos de uso que antes eran imposibles con modelos abiertos:

Asistentes en el dispositivo que funcionan sin conexión
Funciones de AI que preservan la privacidad y nunca envían datos a servidores externos
Procesamiento de video y audio en tiempo real en dispositivos móviles
AI embebida en aplicaciones de IoT y robótica

Cómo empezar

Ollama (Ruta más rápida)

# Install Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Pull and run Gemma 4
ollama run gemma4:e2b      # Smallest, runs anywhere
ollama run gemma4:e4b      # Small, broader capability
ollama run gemma4:26b-moe  # MoE, best efficiency
ollama run gemma4:31b      # Dense, highest quality

Hugging Face

Todos los modelos de Gemma 4 están disponibles en Hugging Face con integración completa de transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google ofrece acceso gratuito a la API de Gemma 4 a través de AI Studio para experimentación y prototipado, con Vertex AI disponible para el despliegue en producción.

Gemma 4 en el Panorama Competitivo

Para entender dónde se sitúa Gemma 4 en el ecosistema más amplio:

Modelo	Parámetros	Licencia	MMLU Pro	Arena AI	Contexto
Gemma 4 31B	31B	Apache 2.0	85.2%	1452	256K
Gemma 4 26B MoE	26B (3.8B activos)	Apache 2.0	—	1441	256K
Llama 4 Maverick	400B (~17B activos)	Meta License	79.6%	1417	1M
Llama 4 Scout	109B (~17B activos)	Meta License	—	~1400	10M
Qwen 3.5 72B	72B	Apache 2.0	81.4%	1438	128K
Qwen 3.5 MoE	397B (~22B activos)	Apache 2.0	83.1%	1449	128K

Gemma 4 31B logra la puntuación más alta en MMLU Pro y la mejor clasificación en Arena AI entre los modelos abiertos — con el menor número de parámetros totales. Esta eficiencia de parámetros es un resultado directo de la base tecnológica de Gemini 3 y el modo de pensamiento configurable.

La historia de eficiencia del modelo 26B MoE es aún más convincente. Ocupa el 6º puesto en Arena AI activando solo 3.8B de parámetros por token. Ningún otro modelo logra una relación calidad-cómputo comparable. Para despliegues en producción donde el costo de inferencia escala con el uso, esta eficiencia se traduce directamente en ahorro de costos.

Comparado con los modelos propietarios, los benchmarks de Gemma 4 31B son competitivos con las ofertas de nivel medio de Anthropic y OpenAI. Si bien los mejores modelos propietarios aún lideran en las tareas más difíciles, la brecha se ha estrechado drásticamente — y Gemma 4 viene con un costo de cero por token y la libertad total de Apache 2.0.

Veredicto

Gemma 4 establece un nuevo estándar para los modelos de pesos abiertos en 2026. La combinación de la licencia Apache 2.0, cuatro tamaños de modelos bien diferenciados, soporte multimodal nativo, modo de pensamiento configurable y puntuaciones en benchmarks competitivas con modelos mucho más grandes, la convierte en la familia de modelos abiertos más práctica disponible.

El 31B Dense es la elección correcta cuando se necesita la máxima calidad. El 26B MoE es la elección correcta cuando se necesita una calidad sólida con el mínimo costo de cómputo. Los E2B y E4B son las elecciones correctas para el despliegue en el borde y AI en el dispositivo. Por primera vez en la familia Gemma, la licencia no limita ninguno de estos casos de uso.

Google Gemma 4: Guía completa de especificaciones, Benchmarks y novedades (2026)