Google Gemma 4는 무엇이며 언제 출시되었나요?

Google Gemma 4는 2026년 4월 2일에 출시된 Google DeepMind의 open-weight 모델 제품군입니다. E2B(2.3B effective), E4B(4.5B effective), 26B MoE(3.8B active / 26B total), 31B Dense의 4가지 크기를 포함합니다. 모든 모델은 Gemma 릴리스 중 가장 관대한 라이선스인 Apache 2.0 하에 출시되었습니다.

Gemma 4는 진정한 open source인가요?

네. Gemma 4는 Apache 2.0 라이선스로 출시된 최초의 Gemma 세대로, Google의 허가 없이도 무제한 상업적 이용, 수정 및 재배포가 가능합니다. 이전 Gemma 모델들은 사용 제한이 있는 Google의 커스텀 Gemma 라이선스를 사용했습니다.

Gemma 4는 어떤 context window를 지원하나요?

작은 모델(E2B 및 E4B)은 128K token context window를 지원합니다. 큰 모델(26B MoE 및 31B Dense)은 256K token context window를 지원합니다. 이는 Gemma 3의 context 제한에 비해 크게 개선된 것이며, 단일 prompt로 전체 코드베이스나 긴 문서를 처리할 수 있게 해줍니다.

Gemma 4는 이미지, 비디오 및 오디오를 처리할 수 있나요?

네. 4개의 Gemma 4 모델 모두 네이티브 multimodal이며 텍스트와 이미지 입력을 지원합니다. E2B 및 E4B 모델은 한 걸음 더 나아가 네이티브 비디오 및 오디오 처리 기능을 갖추고 있습니다. 이로 인해 Gemma 4는 가장 작은 모델이 가장 광범위한 modality 지원을 제공하는 최초의 open-weight 모델 제품군이 되었습니다.

Gemma 4의 thinking mode는 어떻게 작동하나요?

Gemma 4에는 응답을 생성하기 전에 4,000개 이상의 token으로 내부 추론을 생성하는 설정 가능한 thinking mode가 포함되어 있습니다. 이 chain-of-thought 추론은 요청별로 켜거나 끌 수 있어, 개발자가 단순한 작업에 대한 빠른 응답과 수학, 논리, 코딩과 같은 복잡한 문제에 대한 깊은 추론 중에서 선택할 수 있도록 합니다.

Gemma 4를 로컬에서 실행하려면 어떤 hardware가 필요한가요?

Gemma 4 E2B 및 E4B는 4-bit quantization을 사용하여 스마트폰과 노트북을 포함해 5GB RAM 정도의 적은 사양을 가진 기기에서도 실행됩니다. 26B MoE 모델은 약 18GB RAM이 필요하며, 31B Dense는 약 20GB RAM이 필요합니다. 모든 모델은 NVIDIA RTX GPU 최적화가 가능한 Ollama를 통해 실행됩니다.

핵심 요약

Google Gemma 4는 진정으로 허용적인 라이선스 하에 출시된 역대 가장 유능한 open-weight 모델 제품군입니다. 31B Dense 모델은 MMLU Pro에서 85.2%를 기록하며 Arena AI의 모든 공개 모델 중 3위를 차지했습니다. 반면 26B MoE는 단 3.8B의 active parameters만으로 거의 동일한 품질을 달성합니다. 처음으로 Gemma가 Apache 2.0 라이선스로 제공됨에 따라, 이전 세대의 상업적 채택을 가로막았던 모든 라이선스 마찰이 제거되었습니다.

Google Gemma 4: 알아야 할 모든 것

출시 개요

Google DeepMind는 April 2, 2026에 Gemini 3와 동일한 기술 기반으로 구축된 네 가지 모델 크기의 Gemma 4를 출시했습니다. 이번 세대는 모델 품질, 멀티모달 기능, context length, 라이선스 조건 등 모든 차원에서 Gemma 제품군 중 가장 큰 도약을 나타냅니다.

Gemma 3와 비교한 주요 변경 사항:

Apache 2.0 라이선스 — 사용 제한 없음, 커스텀 라이선스 없음, 완전한 상업적 자유 보장
네 가지 모델 크기 — 새로운 MoE 아키텍처를 포함하여 기존 세 가지에서 네 가지로 확대
네이티브 멀티모달 지원 — 모든 크기에서 텍스트, 이미지, 비디오, 오디오 지원
구성 가능한 사고 모드(Configurable thinking mode) — 4,000개 이상의 tokens 추론 체인 생성
256K context windows — 더 큰 모델에서 지원 (Gemma 3의 제한에서 상향)
35개 이상의 언어 지원 — 140개 이상의 언어로 사전 학습됨
구조화된 도구 사용(Structured tool use) — 에이전트 워크플로우를 위한 지원

네 가지 모델 크기

Gemma 4는 각각 다른 배포 시나리오를 목표로 하는 네 가지 고유한 크기로 출시되었습니다.

모델	파라미터	활성 파라미터	아키텍처	컨텍스트	모달리티
E2B	2.3B effective	2.3B	Dense	128K	텍스트, 이미지, 비디오, 오디오
E4B	4.5B effective	4.5B	Dense	128K	텍스트, 이미지, 비디오, 오디오
26B MoE	26B total	3.8B	Mixture of Experts	256K	텍스트, 이미지
31B Dense	31B	31B	Dense	256K	텍스트, 이미지

출처: Google AI Blog

E2B 및 E4B: 엣지(Edge) 모델

가장 작은 Gemma 4 모델들은 온디바이스(on-device) 배포를 위해 설계되었습니다. 각각 2.3B 및 4.5B의 유효 파라미터를 가진 이 모델들은 4-bit quantization을 사용하여 5GB 정도의 적은 RAM으로 스마트폰, 태블릿 및 노트북에서 실행됩니다.

이 모델들을 놀랍게 만드는 것은 모달리티의 폭입니다. 제품군 중 가장 작음에도 불구하고, E2B와 E4B는 텍스트, 이미지, 비디오, 오디오라는 네 가지 입력 모달리티를 모두 지원하는 유일한 Gemma 4 모델입니다. 이는 의도적인 설계 선택으로, 카메라와 마이크가 있는 엣지 장치들이 멀티모달 기능의 혜택을 가장 많이 받기 때문입니다.

두 모델 모두 128K tokens context windows를 지원하며, 이는 해당 파라미터 수에 비해 넉넉하며 대부분의 온디바이스 사용 사례에 충분합니다.

26B MoE: 최대 효율성

26B Mixture of Experts 모델은 Gemma 4 라인업에서 단연 가장 흥미로운 모델입니다. 총 26B 파라미터를 포함하고 있지만 주어진 입력에 대해 3.8B 파라미터만 활성화합니다. 이는 E4B 모델과 거의 동일한 compute 비용을 사용하면서도 비약적으로 더 많은 지식과 기능에 접근할 수 있음을 의미합니다.

Arena AI에서 26B MoE는 단 3.8B의 활성 파라미터만 사용함에도 불구하고 1441점을 기록하며 모든 공개 모델 중 6위를 차지했습니다. 이러한 효율성 비율은 전례가 없는 것으로, 이 정도의 compute 비용으로 이에 필적하는 품질을 달성하는 다른 모델은 없습니다.

MoE 아키텍처는 각 token을 특화된 전문가 서브 네트워크로 라우팅하여, 추론 비용을 낮게 유지하면서 모델이 방대한 지식 용량을 유지할 수 있도록 합니다. 강력한 추론 능력이 필요하지만 GPU 메모리가 제한적인 배포 시나리오에서 26B MoE는 최적의 선택입니다.

31B Dense: 최고 품질

31B Dense 모델은 Gemma 4의 플래그십 모델입니다. 모든 token에 대해 모든 파라미터가 활성화되어 모든 작업 유형에서 가장 일관되고 높은 품질의 출력을 제공합니다.

Arena AI에서 31B Dense는 1452점을 기록하며 모든 공개 모델 중 3위를 차지했습니다. MMLU Pro에서는 85.2%를 달성하여 자신의 크기보다 몇 배 더 큰 모델들과 경쟁합니다. AIME 2026에서의 89.2% 점수는 강력한 수학적 추론 능력을 입증하며, BigBench Extra Hard에서의 74% 점수(이전 세대의 19%에서 상승)는 복잡한 추론 작업에서의 엄청난 개선을 보여줍니다.

벤치마크: 전체 데이터

추론 및 지식

벤치마크	31B Dense	26B MoE	비고
MMLU Pro	85.2%	—	대학원 수준 지식
AIME 2026	89.2%	—	경시대회 수학
BigBench Extra Hard	74%	—	이전 세대 19%에서 상승
Arena AI Score	1452 (3위)	1441 (6위)	공개 모델 순위

출처: Google DeepMind 기술 보고서

BigBench Extra Hard: 눈에 띄는 결과

BigBench Extra Hard에서 19%에서 74%로 급등한 것은 특별히 주목할 가치가 있습니다. 이 벤치마크는 복잡한 다단계 추론, 논리적 연역, 그리고 단순한 패턴 매칭이 아닌 진정한 이해를 요구하는 작업들을 테스트합니다. 단 한 세대 만에 55% 포인트가 개선되었다는 것은 단순한 스케일링이 아니라 Gemma 4의 추론 아키텍처에 근본적인 진보가 있었음을 시사합니다.

이러한 개선은 구성 가능한 사고 모드 및 Gemma 4의 기반이 된 Gemini 3 기술과 관련이 있을 가능성이 높습니다. 사고 모드는 모델이 복잡한 문제를 단계별로 풀어나가는 데 도움이 되는 확장된 추론 체인을 생성합니다.

Arena AI 순위 맥락

Arena AI는 인간의 선호도를 일대일로 비교하여 모델 순위를 매깁니다. 31B Dense가 1452점을 기록하며 공개 모델 중 3위에 오른 것은 훨씬 더 많은 파라미터를 가진 많은 모델보다 높은 순위입니다. 참고 사항:

이보다 높은 순위의 모델들은 대개 70B 이상의 파라미터를 가진 모델들입니다.
26B MoE가 단 3.8B의 활성 파라미터로 1441점을 달성한 것은 효율성 측면의 돌파구입니다.
두 모델 모두 이전의 Gemma 3 27B를 상당한 차이로 능가합니다.

멀티모달 기능

이미지 이해

네 가지 Gemma 4 모델 모두 이미지를 기본적으로 처리합니다. 기능은 다음과 같습니다:

이미지 설명 및 분석 — 시각적 콘텐츠에 대한 상세한 이해
OCR 및 문서 파싱 — 이미지, 영수증, 스크린샷에서 텍스트 추출
차트 및 다이어그램 해석 — 데이터 시각화 이해
시각적 추론 — 공간적 관계 이해가 필요한 질문에 답변

비디오 및 오디오 (E2B/E4B 전용)

더 작은 E2B 및 E4B 모델은 네이티브 비디오 및 오디오 처리 기능을 추가로 제공합니다:

비디오 이해 — 프레임별 추출 없이 비디오 콘텐츠 분석
오디오 전사 및 이해 — 음성 및 주변 오디오 처리
교차 모달 추론 — 텍스트, 이미지, 비디오, 오디오 입력을 아우르는 질문에 답변

이러한 설계 선택은 엣지 배포에 대한 Google의 집중을 반영합니다. 모바일 장치는 기본적으로 비디오와 오디오를 캡처하므로, 해당 장치용으로 설계된 모델들이 이러한 모달리티를 지원하도록 했습니다.

구성 가능한 사고 모드 (Configurable Thinking Mode)

Gemma 4는 응답을 생성하기 전에 4,000개 이상의 tokens에 달하는 내부 추론을 생성하는 구성 가능한 사고 모드를 도입했습니다. 이는 Claude의 모델들과 OpenAI의 o-시리즈에서 볼 수 있는 확장된 사고 기능과 유사하지만, open-weight 모델에서 구현되었습니다.

작동 방식

사고 모드가 활성화되면 모델은 다음과 같이 작동합니다:

입력 프롬프트를 받습니다.
내부 추론 체인을 생성합니다 (설정에 따라 표시되거나 숨겨질 수 있음).
추론 체인을 사용하여 더 높은 품질의 최종 응답을 생성합니다.

사고 모드는 요청별로 켜거나 끌 수 있어 개발자가 다음을 수행할 수 있습니다:

복잡한 수학, 논리, 코딩 및 분석 작업에 대해 사고 모드 활성화
간단한 질의, 채팅 및 지연 시간에 민감한 애플리케이션에 대해 사고 모드 비활성화
작업의 예상 복잡도에 따라 사고의 깊이 조절

품질에 미치는 영향

사고 모드는 Gemma 4의 강력한 벤치마크 성능을 이끄는 주요 동력입니다. AIME 2026 점수 89.2%와 BigBench Extra Hard 점수 74%는 모두 사고 모드를 활성화한 상태에서 달성되었습니다. 사고 모드가 없다면 이러한 점수는 확장된 추론 기능을 가진 다른 모델들에서 나타나는 패턴과 유사하게 현저히 낮아질 것입니다.

Apache 2.0: 라이선스 변경이 중요한 이유

이전 세대의 Gemma는 다음과 같은 제한 사항이 포함된 Google의 커스텀 Gemma 라이선스 하에 출시되었습니다:

특정 애플리케이션에서의 사용 제한
재배포 조건
대규모 사용 시 상업적 배포 제한

Gemma 4는 Kubernetes, TensorFlow, Apache HTTP Server와 같은 프로젝트에서 사용하는 것과 동일한 라이선스인 Apache 2.0으로 전환되었습니다. 이는 다음을 의미합니다:

사용 제한 없음 — 상업적 제품을 포함하여 어떤 용도로든 사용 가능
재배포 제한 없음 — 수정된 가중치를 자유롭게 공유 가능
라이선스 고지 외 속성 요구 사항 없음 — 표준 Apache 2.0 고지만 필요
Google 승인 불필요 — 허가 없이 어떤 규모로든 배포 가능
다른 오픈 소스 라이선스와의 호환성 — 기존 프로젝트에 쉽게 통합 가능

오픈 모델을 기반으로 제품을 구축하는 기업과 스타트업의 경우, 이는 Gemma의 커스텀 라이선스가 요구했던 법적 검토 오버헤드를 제거해 줍니다. 또한 Gemma 4를 Meta의 Llama 모델(일부 제한이 있는 자체 커스텀 라이선스 사용)과 직접 비교할 수 있게 하며, 가장 허용적인 라이선스를 가진 고품질 오픈 모델 제품군으로 자리매김하게 합니다.

언어 지원

Gemma 4는 추론을 위해 35개 이상의 언어를 지원하며 140개 이상의 언어로 사전 학습되었습니다. 이는 광범위한 언어 지원을 강조하는 Qwen의 모델들과 더불어 가장 뛰어난 다국어 오픈 모델 중 하나로 만듭니다.

지원되는 언어에는 주요 세계 언어(영어, 중국어, 스페인어, 프랑스어, 독일어, 일본어, 한국어, 아랍어, 힌디어, 포르투갈어, 러시아어)뿐만 아니라 디지털 발자국이 적은 많은 언어가 포함됩니다. 140개 이상의 언어에 대한 사전 학습은 모델이 공식적으로 지원하는 35개 언어 이외의 언어에서도 어느 정도 능력을 갖추고 있음을 의미하지만, 품질은 다를 수 있습니다.

글로벌 사용자나 비영어권 시장을 타겟으로 하는 애플리케이션의 경우, 이러한 광범위한 언어 지원 덕분에 언어별로 별도의 모델을 사용하거나 특수한 fine-tuning을 할 필요성이 줄어듭니다.

구조화된 도구 사용 및 에이전트 워크플로우

Gemma 4는 구조화된 도구 사용(structured tool use)을 기본적으로 지원하여 모델이 다음과 같은 에이전트 워크플로우를 수행할 수 있게 합니다:

적절한 형식의 요청으로 외부 API 호출
도구 및 서비스로부터의 구조화된 응답 파싱
복잡한 작업을 완료하기 위해 여러 도구 호출 체이닝
도구 실행 중 오류 처리 및 재시도

이 기능은 Gemma 4가 로컬 에이전트 코딩 워크플로우를 구동하는 Android Studio 통합과 특히 관련이 깊습니다. 모델은 코드 컨텍스트를 이해하고, 변경 사항을 제안하고, 도구를 실행하고, 반복 작업을 수행할 수 있으며, 이 모든 과정이 외부 서버로 코드를 보내지 않고 개발자의 로컬 머신에서 실행됩니다.

AI 에이전트를 구축하는 개발자에게 Gemma 4의 구조화된 도구 사용은 완전히 로컬이고 개인 정보가 보호되는 기반을 제공합니다. Apache 2.0 라이선스와 결합하여 외부 모델 제공자에 대한 의존성 없이 에이전트 애플리케이션을 구축하고 배포할 수 있습니다.

하드웨어 요구 사항

Ollama를 통한 로컬 배포

모델	필요한 RAM (4-bit)	필요한 RAM (FP16)	권장 GPU
E2B	~5 GB	~5 GB	모든 최신 GPU / CPU 전용 가능
E4B	~5 GB	~9 GB	모든 최신 GPU / CPU 전용 가능
26B MoE	~18 GB	~52 GB	RTX 4090 / RTX 5090
31B Dense	~20 GB	~62 GB	RTX 4090 / RTX 5090

출처: Ollama 모델 라이브러리

E2B 및 E4B 모델은 특히 엣지 배포를 위해 설계되었습니다. 노트북, 데스크탑 CPU, 심지어 일부 스마트폰에서도 원활하게 실행됩니다. 26B MoE 및 31B Dense 모델은 전용 GPU 하드웨어가 필요하지만 소비자용 GPU를 가진 개인 개발자도 접근 가능한 수준입니다.

NVIDIA 최적화

NVIDIA는 RTX GPU를 위한 Gemma 4 최적화 버전을 출시하여 다음을 제공합니다:

GPU 전용 커널 최적화를 통한 더 빠른 추론
RTX 4000 및 5000 시리즈 카드에서의 더 나은 메모리 활용
프로덕션 배포를 위한 TensorRT 통합
반복 추론 시 오버헤드 감소를 위한 CUDA graph 지원

출처: NVIDIA AI Blog

Gemma 3에서 변경된 사항

기능	Gemma 3	Gemma 4
라이선스	Gemma License (제한적)	Apache 2.0 (제한 없음)
모델 크기	3가지 크기	4가지 크기 (MoE 추가)
컨텍스트 윈도우	최대 128K	최대 256K
모달리티	텍스트, 이미지	텍스트, 이미지, 비디오, 오디오
사고 모드	지원 안 함	지원 (구성 가능)
도구 사용	제한적	구조화된 도구 사용
언어	30개 이상	35개 이상 (140개 이상 사전 학습)
BigBench Extra Hard	19%	74%

모든 차원이 개선되었습니다. 개발자에게 가장 영향력 있는 변화는 Apache 2.0 라이선스(법적 마찰 제거), 사고 모드(어려운 작업에서의 품질 향상), 그리고 MoE 아키텍처(극히 적은 compute 비용으로 플래그십 품질 제공)입니다.

실질적인 사용 사례

코딩 및 개발

Gemma 4의 구조화된 도구 사용 및 사고 모드는 다음에 효과적입니다:

로컬 코드 완성 및 생성
코드 리뷰 및 버그 탐지
자동화된 테스트 생성
문서 작성
Android Studio에서의 에이전트 코딩 워크플로우

문서 처리

256K context windows 및 멀티모달 지원을 통해:

단일 프롬프트에서 전체 코드베이스나 긴 문서 처리
문서, 영수증, 양식 이미지에서 정보 추출
차트 및 데이터 시각화 분석
방대한 연구 논문이나 법률 문서 요약

AI 기반 애플리케이션 구축

AI 기능을 통합하는 제품을 만드는 개발자에게 Gemma 4는 강력한 온디바이스 또는 셀프 호스팅 추론 계층을 제공합니다. 모델은 지능적인 부분(질의 이해, 응답 생성, 이미지 처리)을 담당하고, 애플리케이션 프레임워크가 나머지를 처리합니다. ZBuild와 같은 도구는 애플리케이션 쉘(프론트엔드, 백엔드, 데이터베이스, 배포) 구축을 가속화하여, Gemma 4의 기능이 가장 중요한 AI 통합 계층에 개발 노력을 집중할 수 있게 해줍니다.

엣지 및 모바일 배포

E2B 및 E4B 모델은 이전의 오픈 모델로는 불가능했던 사용 사례를 열어줍니다:

오프라인에서 작동하는 온디바이스 어시스턴트
데이터를 외부 서버로 절대 보내지 않는 프라이버시 보호 AI 기능
모바일 장치에서의 실시간 비디오 및 오디오 처리
IoT 및 로보틱스 애플리케이션에 내장된 AI

시작하는 방법

Ollama (가장 빠른 방법)

# Ollama 설치
curl -fsSL https://ollama.com/install.sh | sh

# Gemma 4 실행
ollama run gemma4:e2b      # 가장 작음, 어디서나 실행 가능
ollama run gemma4:e4b      # 작지만 더 넓은 기능
ollama run gemma4:26b-moe  # MoE, 최고의 효율성
ollama run gemma4:31b      # Dense, 최고 품질

Hugging Face

모든 Gemma 4 모델은 전체 transformers 통합과 함께 Hugging Face에서 사용할 수 있습니다.

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

Google은 실험 및 프로토타이핑을 위해 AI Studio를 통해 Gemma 4에 대한 무료 API 액세스를 제공하며, 프로덕션 배포를 위해 Vertex AI를 제공합니다.

경쟁 구도에서의 Gemma 4

더 넓은 생태계에서 Gemma 4의 위치를 이해하기 위한 비교:

모델	파라미터	라이선스	MMLU Pro	Arena AI	컨텍스트
Gemma 4 31B	31B	Apache 2.0	85.2%	1452	256K
Gemma 4 26B MoE	26B (3.8B 활성)	Apache 2.0	—	1441	256K
Llama 4 Maverick	400B (~17B 활성)	Meta License	79.6%	1417	1M
Llama 4 Scout	109B (~17B 활성)	Meta License	—	~1400	10M
Qwen 3.5 72B	72B	Apache 2.0	81.4%	1438	128K
Qwen 3.5 MoE	397B (~22B 활성)	Apache 2.0	83.1%	1449	128K

Gemma 4 31B는 가장 적은 전체 파라미터로 공개 모델 중 가장 높은 MMLU Pro 점수와 Arena AI 순위를 달성했습니다. 이러한 파라미터 효율성은 Gemini 3 기술 기반과 구성 가능한 사고 모드의 직접적인 결과입니다.

26B MoE 모델의 효율성은 더욱 매력적입니다. token당 단 3.8B 파라미터만 활성화하면서 Arena AI에서 6위를 기록했습니다. 이와 비교할 만한 품질 대비 compute 비율을 달성한 모델은 없습니다. 사용량에 따라 추론 비용이 비례하는 프로덕션 배포에서 이러한 효율성은 직접적인 비용 절감으로 이어집니다.

유료 폐쇄형 모델과 비교했을 때, Gemma 4 31B의 벤치마크는 Anthropic과 OpenAI의 미드티어 모델들과 경쟁할 수 있는 수준입니다. 최상위 폐쇄형 모델들이 여전히 가장 어려운 작업에서 앞서고 있지만 그 격차는 급격히 줄어들었으며, Gemma 4는 token당 비용이 전혀 없고 완전한 Apache 2.0의 자유를 제공합니다.

결론

Gemma 4는 2026년 open-weight 모델의 새로운 기준을 세웠습니다. Apache 2.0 라이선스, 명확히 차별화된 네 가지 모델 크기, 네이티브 멀티모달 지원, 구성 가능한 사고 모드, 그리고 훨씬 더 큰 모델들과 경쟁하는 벤치마크 점수의 조합은 이를 가장 실용적인 오픈 모델 제품군으로 만듭니다.

최고의 품질이 필요할 때는 31B Dense가 올바른 선택입니다. 최소한의 compute 비용으로 강력한 품질이 필요할 때는 26B MoE가 최적입니다. 엣지 배포와 온디바이스 AI를 위해서는 E2B와 E4B가 적합합니다. Gemma 제품군 역사상 처음으로, 라이선스가 이러한 어떤 사용 사례도 제한하지 않습니다.

Google Gemma 4: Specs, Benchmarks 및 새로운 기능(2026) 완벽 가이드