핵심 요약
2026년 오픈소스 AI 모델 시장은 Google의 Gemma 4, Meta의 Llama 4, 그리고 Alibaba의 Qwen 3.5 간의 삼파전 양상을 띠고 있습니다. 각 모델군은 서로 다른 영역에서 우위를 점하고 있습니다. Gemma 4는 효율성과 라이선스 측면에서, Llama 4는 압도적인 규모와 컨텍스트 길이(context length)에서, Qwen 3.5는 다국어 지원 범위와 모델의 다양성 면에서 승리했습니다. "최고"의 모델은 전적으로 배포 환경의 제약, 타겟 시장, 그리고 하드웨어 예산에 따라 달라집니다.
Gemma 4 vs Llama 4 vs Qwen 3.5: 전체 비교
경쟁 모델 한눈에 보기
세부 사항으로 들어가기 전, 현재의 지형은 다음과 같습니다.
| Gemma 4 | Llama 4 | Qwen 3.5 | |
|---|---|---|---|
| 개발사 | Google DeepMind | Meta | Alibaba Cloud |
| 출시일 | April 2, 2026 | April 2025 (Scout/Maverick) | Q1 2026 |
| 라이선스 | Apache 2.0 | Meta Custom License | Apache 2.0 (대부분의 모델) |
| 모델 크기 | E2B, E4B, 26B MoE, 31B Dense | Scout 109B, Maverick 400B | Multiple (0.6B to 397B) |
| 최대 컨텍스트 | 256K | 10M (Scout) | 128K |
| 멀티모달 | Text, Image, Video, Audio | Text, Image | Text, Image |
| Thinking Mode | Yes (설정 가능) | No | Yes (하이브리드) |
출처: Google, Meta, Alibaba의 각 모델 발표 자료
모델 크기 및 아키텍처
Gemma 4: 네 가지 크기, 두 가지 아키텍처
Gemma 4는 가장 차별화된 라인업을 제공합니다.
| 모델 | 총 파라미터 (Total Params) | 활성 파라미터 (Active Params) | 아키텍처 |
|---|---|---|---|
| E2B | 2.3B | 2.3B | Dense |
| E4B | 4.5B | 4.5B | Dense |
| 26B MoE | 26B | 3.8B | Mixture of Experts |
| 31B Dense | 31B | 31B | Dense |
그중 26B MoE가 가장 돋보입니다. 이 모델은 토큰당 3.8B 파라미터만 활성화하면서도 플래그십급에 근접한 품질을 제공합니다. 이는 26B 파라미터 분량의 지식에 접근하면서도 E4B 모델과 거의 동일한 속도와 메모리 비용으로 실행됨을 의미합니다. Arena AI에서 이 모델은 1441점을 기록하여, 최소한의 연산량(compute)만 사용함에도 불구하고 오픈 모델 중 6위에 올랐습니다.
Llama 4: 두 개의 거대 모델
Meta의 Llama 4는 정반대의 접근 방식을 취합니다. 모델의 수는 적지만 크기는 훨씬 큽니다.
| 모델 | 총 파라미터 (Total Params) | 활성 파라미터 (Active Params) | 아키텍처 |
|---|---|---|---|
| Scout | 109B | ~17B | Mixture of Experts (16 experts) |
| Maverick | 400B | ~17B | Mixture of Experts (128 experts) |
두 Llama 4 모델 모두 MoE 아키텍처를 사용합니다. Scout은 109B 풀에서 토큰당 약 17B 파라미터를 활성화합니다. Maverick은 400B 총 파라미터에서 비슷한 양을 활성화하지만, 더 큰 지식 수용량을 위해 128개의 experts를 사용합니다. 핵심적인 트레이드오프는 MoE의 효율성에도 불구하고, 전체 파라미터 세트를 유지하기 위해 상당히 더 많은 메모리가 필요하다는 점입니다.
Llama 4 Scout의 결정적인 특징은 10 million tokens 컨텍스트 윈도우입니다. 이는 주요 오픈 모델 중 가장 긴 수치입니다. 이를 통해 전체 코드베이스, 긴 영상 스크립트 또는 방대한 문서 컬렉션을 단일 프롬프트에서 처리할 수 있습니다.
Qwen 3.5: 가장 폭넓은 범위
Alibaba의 Qwen 3.5 제품군은 가장 다양한 모델 크기를 제공합니다.
| 모델 | 파라미터 | 아키텍처 |
|---|---|---|
| Qwen 3.5 0.6B | 0.6B | Dense |
| Qwen 3.5 1.7B | 1.7B | Dense |
| Qwen 3.5 4B | 4B | Dense |
| Qwen 3.5 8B | 8B | Dense |
| Qwen 3.5 14B | 14B | Dense |
| Qwen 3.5 32B | 32B | Dense |
| Qwen 3.5 72B | 72B | Dense |
| Qwen 3.5 MoE (A22B) | 397B | Mixture of Experts |
Qwen 3.5는 모든 파라미터 틈새를 메웁니다. 0.6B 모델은 사실상 모든 기기에서 실행 가능합니다. 397B MoE는 총 파라미터 수에서 Llama 4 Maverick과 대등합니다. 이러한 다양성은 사용자의 정확한 하드웨어 제약 조건에 맞는 Qwen 모델이 언제나 존재한다는 것을 의미합니다.
Qwen 3.5는 또한 하이브리드 Thinking Mode를 제공하여, 사용자가 동일한 모델 내에서 빠른 응답과 심층적인 추론 사이를 전환할 수 있게 합니다. 이는 Gemma 4의 설정 가능한 Thinking Mode와 유사합니다.
벤치마크 비교
추론 및 지식
| 벤치마크 | Gemma 4 31B | Llama 4 Maverick | Qwen 3.5 72B | Qwen 3.5 MoE |
|---|---|---|---|---|
| MMLU Pro | 85.2% | 79.6% | 81.4% | 83.1% |
| AIME 2026 | 89.2% | — | 79.8% | 85.6% |
| BigBench Extra Hard | 74% | — | 62% | 68% |
| Arena AI Score | 1452 (3위) | 1417 | 1438 | 1449 |
Gemma 4 31B는 추론 벤치마크에서 선두를 달리고 있으며, 이는 비교 대상 중 가장 작은 플래그십 모델(31B vs 400B vs 72B/397B)이라는 점을 감안할 때 놀라운 결과입니다. Thinking Mode가 여기서 큰 역할을 합니다. Thinking Mode를 활성화한 Gemma 4는 단계별 추론이 필요한 작업에서 탁월한 성능을 보입니다.
효율성 조정 성능
단순 벤치마크 수치만으로는 전체를 파악할 수 없습니다. 토큰당 연산 비용인 활성 파라미터(active parameters)를 고려하면 양상이 달라집니다.
| 모델 | Arena AI Score | 활성 파라미터 (Active Params) | 활성 1B당 점수 |
|---|---|---|---|
| Gemma 4 26B MoE | 1441 | 3.8B | 379 |
| Gemma 4 31B | 1452 | 31B | 47 |
| Llama 4 Maverick | 1417 | ~17B | 83 |
| Llama 4 Scout | ~1400 | ~17B | 82 |
| Qwen 3.5 72B | 1438 | 72B | 20 |
| Qwen 3.5 MoE | 1449 | ~22B | 66 |
Gemma 4 26B MoE가 효율성 면에서 압도적입니다. 단 3.8B 파라미터만 활성화하면서 Arena AI 점수 1441점을 획득했는데, 이는 활성 파라미터당 점수 비율이 경쟁사보다 4~5배 더 높다는 것을 의미합니다. 추론 비용이 중요한 배포 시나리오(대부분의 실제 서비스 환경)에서 이러한 효율성 이점은 곧바로 비용 절감으로 이어집니다.
코딩 성능
| 벤치마크 | Gemma 4 31B | Llama 4 Maverick | Qwen 3.5 72B |
|---|---|---|---|
| HumanEval+ | 82.3% | 85.1% | 83.7% |
| LiveCodeBench | 46.8% | 51.2% | 49.5% |
| MultiPL-E (Python) | 79.4% | 83.6% | 81.2% |
절대적인 수치에서는 400B 파라미터의 우위를 점한 Llama 4 Maverick이 코딩 벤치마크에서 앞서 나갑니다. 그러나 Gemma 4의 구조화된 도구 사용(tool use) 능력과 Thinking Mode는 모델이 단순히 코드를 한 번에 생성하는 것이 아니라 계획하고 실행하고 반복해야 하는 에이전트 기반 코딩 워크플로우에서 더 실용적입니다.
라이선스: 숨겨진 결정 요인
상용 배포의 경우, 라이선스가 벤치마크보다 더 중요할 수 있습니다.
Gemma 4: Apache 2.0
- 사용 제한 없음 — 어떤 목적으로든 사용 가능
- 사용자 수 임계값 없음 — 기업 규모에 따른 제한 없음
- 완전한 수정 권한 — 자유롭게 수정 및 재배포 가능
- 표준 법적 검토 — Apache 2.0은 전 세계 법무 팀에 잘 알려져 있음
Llama 4: Meta Custom License
- 대부분의 상업적 이용 무료 — 단, 조건부임
- 700M MAU 제한 — 월간 활성 사용자 수가 7억 명을 초과하는 기업은 Meta로부터 별도의 라이선스를 요청해야 함
- 허용 가능한 사용 정책(Acceptable use policy) — 특정 사용 사례는 금지됨
- 커스텀 라이선스 — 특정 규정 준수 요구 사항을 평가하기 위해 법적 검토가 필요함
Qwen 3.5: Apache 2.0 (대부분의 모델)
- 대부분의 모델 크기에 Apache 2.0 적용 — Gemma 4와 동일한 자유도 보장
- 일부 대형 모델은 다른 약관이 있을 수 있음 — 모델별로 확인 필요
- 표준 법적 검토 — Apache 2.0은 잘 알려진 라이선스임
스타트업과 대기업 모두에게 라이선스의 차이는 실질적입니다. Apache 2.0(Gemma 4 및 대부분의 Qwen 3.5 모델)은 표준 오픈소스 준수 외에 별도의 법적 검토가 필요하지 않습니다. Meta의 커스텀 라이선스는 700M MAU 임계값 및 사용 정책에 대한 구체적인 검토가 필요합니다. 실제로 700M MAU 임계값은 전 세계적으로 소수의 기업에만 해당되지만, 커스텀 라이선스 자체는 기업 규모와 상관없이 마찰 요인이 됩니다.
멀티모달 기능
| 기능 | Gemma 4 | Llama 4 | Qwen 3.5 |
|---|---|---|---|
| 텍스트 (Text) | 모든 모델 | 모든 모델 | 모든 모델 |
| 이미지 (Images) | 모든 모델 | 모든 모델 | 대부분의 모델 |
| 비디오 (Video) | E2B, E4B 전용 | No | No |
| 오디오 (Audio) | E2B, E4B 전용 | No | No |
| Thinking Mode | Yes (설정 가능) | No | Yes (하이브리드) |
Gemma 4가 가장 폭넓은 멀티모달 지원을 제공합니다. 비디오 및 오디오 기능이 가장 큰 모델이 아닌 가장 작은 모델(E2B 및 E4B)에서 제공된다는 점은 온디바이스 멀티모달 AI를 가능하게 하는 주목할 만한 설계 선택입니다.
Llama 4는 두 모델 모두에서 텍스트와 이미지 처리를 지원하지만 네이티브 비디오 및 오디오 지원은 부족합니다. Qwen 3.5는 네이티브 비디오나 오디오 처리 없이 유사한 텍스트 및 이미지 기능을 제공합니다.
컨텍스트 윈도우
| 모델 | 컨텍스트 윈도우 (Context Window) |
|---|---|
| Llama 4 Scout | 10,000,000 tokens |
| Gemma 4 31B/26B MoE | 256,000 tokens |
| Gemma 4 E2B/E4B | 128,000 tokens |
| Qwen 3.5 (대부분의 모델) | 128,000 tokens |
| Llama 4 Maverick | 1,000,000 tokens |
Llama 4 Scout의 10M tokens 컨텍스트 윈도우는 독보적인 수준입니다. 이는 Gemma 4 최대치의 약 40배에 달하며, 다른 어떤 오픈 모델도 따라올 수 없는 사용 사례를 가능하게 합니다.
- 단일 프롬프트에서 수백만 줄의 대규모 코드베이스 전체 처리
- 고객 서비스 애플리케이션을 위한 수년 치의 대화 기록 분석
- 도서 전체 또는 연구 논문 컬렉션 전체 수용
하지만 10M 컨텍스트 윈도우를 활용하려면 그에 비례하는 하드웨어가 필요합니다. 10M tokens에 대한 KV cache를 유지하는 데 필요한 메모리는 상당하므로, 이 기능은 서버급 하드웨어에서만 실용적입니다.
대부분의 애플리케이션에서 Gemma 4의 256K와 Qwen 3.5의 128K 컨텍스트 윈도우는 충분하고도 남습니다. 256K 컨텍스트 윈도우는 약 750-1000 페이지의 텍스트 또는 50,000줄 이상의 코드를 담을 수 있습니다.
하드웨어 요구 사항
로컬 실행
| 모델 | RAM (4-bit) | RAM (FP16) | 일반 소비자 사용 가능? |
|---|---|---|---|
| Gemma 4 E2B | ~5 GB | ~5 GB | Yes (노트북/휴대폰) |
| Gemma 4 E4B | ~5 GB | ~9 GB | Yes (노트북) |
| Gemma 4 26B MoE | ~18 GB | ~52 GB | Yes (RTX 4090) |
| Gemma 4 31B | ~20 GB | ~62 GB | Yes (RTX 4090) |
| Qwen 3.5 8B | ~6 GB | ~16 GB | Yes (노트북) |
| Qwen 3.5 32B | ~20 GB | ~64 GB | Yes (RTX 4090) |
| Qwen 3.5 72B | ~42 GB | ~144 GB | No (서버 GPU) |
| Llama 4 Scout | ~70 GB | ~218 GB | No (멀티 GPU 서버) |
| Llama 4 Maverick | ~250 GB | ~800 GB | No (GPU 클러스터) |
프라이버시를 위해 노트북에서, 또는 비용 절감을 위해 단일 GPU에서 로컬로 모델을 실행하려는 개발자에게는 Gemma 4와 소형 Qwen 3.5 모델이 유일한 실질적 대안입니다. Gemma 4 E2B와 E4B는 사실상 모든 최신 컴퓨터에서 실행됩니다. 26B MoE와 31B Dense는 단일 RTX 4090 또는 RTX 5090에 적합합니다.
Llama 4 모델은 근본적으로 서버급입니다. 공격적인 양자화(quantization)를 적용하더라도 Scout은 멀티 GPU 설정이 필요하며 Maverick은 GPU 클러스터가 필요합니다. 이로 인해 Llama 4의 사용은 클라우드 컴퓨팅 예산이나 전용 GPU 인프라를 갖춘 조직으로 제한됩니다.
다국어 지원
| Gemma 4 | Llama 4 | Qwen 3.5 | |
|---|---|---|---|
| 지원 언어 | 35개 이상 | 12개 | 29개 이상 |
| 사전 학습 언어 | 140개 이상 | — | 100개 이상 |
| CJK 품질 | Good | Adequate | Excellent |
| 아랍어/히브리어 | Good | Adequate | Good |
| 저자원 언어 | Moderate | Limited | Moderate |
Qwen 3.5는 아시아 시장, 특히 중국어, 일본어, 한국어를 타겟으로 하는 애플리케이션에 가장 강력한 선택지입니다. Alibaba의 학습 데이터에는 방대한 양의 고품질 CJK 텍스트가 포함되어 있어, Qwen 모델은 이러한 언어에서 측정 가능한 우위를 점하고 있습니다.
Gemma 4는 35개 이상의 언어에 대한 공식 지원과 140개 이상의 언어 사전 학습을 통해 가장 폭넓은 언어 지원을 제공합니다. 이는 다양한 언어에서 적절한 품질을 제공하여 글로벌 애플리케이션을 위한 가장 다재다능한 선택이 됩니다.
Llama 4의 12개 언어 지원은 가장 제한적입니다. 트래픽이 많은 주요 세계 언어들은 포함하고 있지만, 소규모 언어 시장을 타겟으로 하는 애플리케이션에는 상당한 공백이 있습니다.
사용 사례별 권장 사항
다음과 같은 경우 Gemma 4를 선택하세요:
- 최대 효율이 필요한 경우 — 26B MoE는 3.8B 활성 파라미터로 플래그십급 품질을 제공합니다.
- 라이선스가 중요한 경우 — 아무런 제한이 없는 Apache 2.0은 상용 배포를 위한 가장 간단한 경로입니다.
- 멀티모달 엣지 AI가 필요한 경우 — 비디오 및 오디오 기능이 포함된 E2B/E4B는 소비자용 기기에서 실행됩니다.
- 설정 가능한 추론(thinking)이 필요한 경우 — 요청별로 빠른 추론과 깊은 추론 사이를 전환할 수 있습니다.
- 에이전트 워크플로우를 구축하는 경우 — 구조화된 도구 사용 기능이 내장되어 있습니다.
다음과 같은 경우 Llama 4를 선택하세요:
- 최대 컨텍스트가 필요한 경우 — Scout의 10M tokens는 타의 추종을 불허합니다.
- 절대적인 벤치마크 점수가 가장 중요한 경우 — Maverick의 400B 파라미터는 일부 벤치마크에서 우위를 점합니다.
- 서버급 하드웨어를 보유한 경우 — GPU 비용 관리가 가능한 클라우드 배포 환경에 적합합니다.
- Meta의 에코시스템을 사용하는 경우 — Meta의 AI 인프라와의 통합이 용이합니다.
- 700M MAU 임계값에 해당하지 않는 경우 — 전 세계 기업의 99.99%가 이에 해당합니다.
다음과 같은 경우 Qwen 3.5를 선택하세요:
- 아시아 시장을 타겟으로 하는 경우 — 오픈 모델 중 최고의 CJK 언어 품질을 제공합니다.
- 특정 모델 크기가 필요한 경우 — 0.6B에서 397B까지 8가지 크기가 모든 니즈를 충족합니다.
- 하이브리드 추론이 필요한 경우 — Gemma 4의 설정 가능한 Thinking Mode와 유사합니다.
- 코드 특화 모델이 필요한 경우 — Qwen Code 변체들은 프로그래밍에 최적화되어 있습니다.
- 더 많은 크기 옵션과 Apache 2.0이 필요한 경우 — 대부분의 모델이 Apache 2.0을 사용합니다.
오픈 모델로 애플리케이션 구축하기
어떤 모델을 선택하든, 실제 서비스에 오픈 모델을 배포하려면 API 엔드포인트, 사용자 인터페이스, 인증, 대화 데이터베이스 저장, 배포 인프라 등 모델 주변의 애플리케이션 레이어를 구축해야 합니다.
AI 기반 제품을 만드는 팀에게 모델은 하나의 퍼즐 조각일 뿐입니다. ZBuild와 같은 플랫폼은 프론트엔드, 백엔드, 데이터베이스 및 배포를 포함한 애플리케이션 골격을 처리해 줍니다. 덕분에 엔지니어링 역량을 제품 차별화의 핵심인 모델 통합, 프롬프트 엔지니어링, 사용자 경험에 집중할 수 있습니다.
모델 비교는 통합 레이어에서 가장 중요합니다. 잘 구축된 애플리케이션은 특정 작업에 따라 Gemma 4, Llama 4 또는 Qwen 3.5 사이를 유연하게 전환할 수 있습니다. 예를 들어, 효율성이 중요한 요청에는 Gemma 4 MoE를, 긴 컨텍스트 작업에는 Llama 4 Scout을, CJK 비중이 높은 콘텐츠에는 Qwen 3.5를 사용하는 방식입니다.
파인튜닝 및 커스터마이징
세 가지 모델군 모두 파인튜닝을 지원하지만, 실제 경험은 다릅니다.
Gemma 4
- 모든 크기에서 LoRA 및 QLoRA 지원
- Apache 2.0 라이선스로 파인튜닝된 가중치 배포에 제한 없음
- 무료 GPU에서 파인튜닝을 시작할 수 있는 Google Colab 노트북 제공
- KerasNLP를 통한 Keras 통합으로 고수준 파인튜닝 워크플로우 지원
- E2B 및 E4B는 단일 소비자용 GPU에서 몇 시간 만에 파인튜닝 가능
Llama 4
- Hugging Face transformers를 통해 LoRA 및 QLoRA 지원
- Meta의 커스텀 라이선스가 파인튜닝된 파생 모델에도 적용됨 — 700M MAU 제한이 승계됨
- 거대한 모델 크기로 인해 Scout (109B) 또는 Maverick (400B) 파인튜닝에는 멀티 GPU 설정 필요
- Meta의 Torchtune에서 공식 파인튜닝 레시피 제공
Qwen 3.5
- 상세한 문서와 함께 LoRA, QLoRA 및 전체 파인튜닝(full fine-tuning) 지원
- 대부분의 모델이 Apache 2.0이므로 파인튜닝된 가중치 배포가 자유로움
- 폭넓은 크기 덕분에 노트북에서 4B 모델을, 서버에서 72B 모델을 파인튜닝할 수 있음
- Alibaba 에코시스템을 통해 강력한 중국어/CJK 파인튜닝 데이터 활용 가능
대부분의 파인튜닝 시나리오에서는 Gemma 4 E4B 또는 26B MoE가 가장 좋은 시작점입니다. 이 모델들은 소비자용 하드웨어에서 파인튜닝하기에 충분히 작고, 고품질 결과를 내기에 충분히 유능하며, 어디에나 배포할 수 있을 만큼 라이선스가 관대합니다.
수렴 트렌드
데이터를 종합적으로 볼 때 가장 인상적인 관찰 결과는 오픈소스 모델이 폐쇄형(proprietary) 모델의 성능에 얼마나 빠르게 수렴하고 있는가 하는 점입니다. Gemma 4 31B의 MMLU Pro 점수인 85.2%는 Claude Sonnet 4.6 및 GPT-5.4의 폐쇄형 점수에 육박하며, 하드웨어 비용 외에 추가적인 추론 비용은 발생하지 않습니다.
오픈 모델군 간의 차별점은 "어느 것이 더 똑똑한가"에서 "어느 것이 배포 제약 조건에 더 잘 맞는가"로 옮겨가고 있습니다. 하드웨어 요구 사항, 라이선스 조건, 멀티모달 기능, 그리고 언어 지원이 이제는 단순한 벤치마크 점수만큼 중요해졌습니다.
2026년의 대부분의 개발자와 기업에게 질문은 더 이상 "오픈 모델을 사용해야 하는가?"가 아니라 "어떤 오픈 모델이 내 특정 요구에 맞는가?"이며, 이는 이 생태계가 얼마나 성숙했는지를 보여주는 신호입니다.
평가
2026년에 단 하나의 "최고" 오픈소스 모델은 없습니다. 올바른 선택은 사용자의 구체적인 요구 사항에 달려 있습니다.
- 최고의 종합 효율성: Gemma 4 26B MoE — 3.8B 활성 파라미터, Arena AI 6위, Apache 2.0
- 최고의 절대 품질 (오픈 모델): Gemma 4 31B Dense — 85.2% MMLU Pro, Arena AI 3위
- 긴 문서 처리에 최적: Llama 4 Scout — 10M tokens 컨텍스트 윈도우
- 아시아 언어에 최적: Qwen 3.5 — 뛰어난 CJK 성능
- 일반 소비자 하드웨어에 최적: Gemma 4 E2B — 5GB RAM, 휴대폰에서 실행 가능
- 가장 관대한 라이선스: Gemma 4 및 Qwen 3.5 (Apache 2.0)
- 가장 많은 모델 크기 옵션: Qwen 3.5 — 0.6B에서 397B까지 8가지 크기
만약 단 하나의 제품군만 골라야 하고 효율성, 라이선스, 멀티모달 기능을 우선시한다면, 2026년 April 시점에서 Gemma 4가 가장 강력하고 다재다능한 선택입니다.
출처
- Introducing Gemma 4 - Google Blog
- Gemma 4 Technical Report - Google DeepMind
- Llama 4 Announcement - Meta AI
- Llama 4 License
- Qwen 3.5 - Alibaba Cloud / Qwen Team
- Qwen 3.5 Technical Report
- Arena AI Open Model Rankings
- Gemma 4 on Ollama
- Open Source LLM Comparison 2026 - Artificial Analysis
- Gemma 4 vs Llama 4 Analysis - The Decoder
- Open Model Benchmark Aggregator - Hugging Face