AI 추론 칩 인텔리전스 · 2026-05-24 기준

Groq Inc. — 비즈니스 & 반도체 종합 리포트

전 Google TPU 설계자 Jonathan Ross가 2016년 창업한 미국 AI 추론 칩 회사. 결정론적 dataflow 가속기 LPU(Language Processing Unit)로 GPU 대비 5~10× 토큰/초를 달성하며, 2025년 9월 Series E $750M (valuation $6.9B)에 이어 2025년 12월 NVIDIA의 약 $20B 인수·라이선스 거래(보도)로 격변기를 맞았다.

TL;DR

  1. 비즈니스: Series E $6.9B → 2025년 12월 NVIDIA 약 $20B 인수·IP 라이선스 보도. Aramco·Bell Canada·Meta·HUMAIN·미국 DOE 계약 확보. 단 매출 가이던스는 $2B+ → $500M으로 하향.
  2. 반도체: 1세대 GroqChip 1 (GF 14nm, 230MB SRAM, 750 TOPS) → 2025 하반기 양산 시작한 Groq 3 LPU/LPX (Samsung 4nm, 500MB SRAM, 256 LPU/rack).
  3. 아키텍처: TSP는 cache·branch predictor·arbiter 0. 컴파일러가 cycle 단위로 정적 스케줄링 → tail latency 평균 latency에 근접. SRAM-only로 메모리 wait 제거.
  4. 약점: 70B 모델 1개에 576 LPU 필요 → H100 대비 BOM 약 40배. Training 불가, 모델 변경 시 full recompile, frontier 모델 throughput은 Cerebras에 6× 열세.

A. 비즈니스

A1. 펀딩 / Valuation

시점이벤트규모비고
2024.08Series D$640M / $2.8BBlackRock 리드
2025.02Aramco 인프라 투자$1.5BLEAP 2025, Dammam DC 확장
2025.09Series E$750M / $6.9BDisruptive 리드. Samsung·Cisco 첫 직접 투자
2025.12.24NVIDIA 인수·라이선스 (보도)$20B 현금비독점 IP 라이선스 + acqui-hire. 3회 분할, 2026년 말까지 $17B
2026.021차 분배$7.6B주주 배당

누적 약 $1.75B (6 라운드, 47 기관). 2025.12 NVIDIA 거래로 IPO 경로는 사실상 종료, 법인은 명목상 독립 유지하나 로드맵 결정권은 NVIDIA로 이전.

A2. 매출 / 손익

  • 2024 매출: 약 $90M (보도)
  • 2025 가이던스: 당초 $2B+ → $500M으로 하향. LTM 6월 누적 $172.5M (Latka, 추정 포함)
  • 직원: 624명 (2025 중반)
  • 손익: 적자 지속. SemiAnalysis 분석 — Llama 2 70B 기준 H100 대비 하드웨어 BOM이 약 40× 비쌈. 단 NVIDIA 거래로 현금성 자산 $2B+ 추가 확보

A3. GroqCloud 트래픽

지표2024 초2025.042025 후반
개발자 수360,0001.4M+2M+
Fortune 100 계정 보유75%
Aramco Dammam 처리 능력25M tok/s확장 시 1B tok/s

플랫폼 전체 일일 토큰 처리량은 비공개. 19,000 LPU가 EMEA 최대 inference hub로 가동.

A4. 주요 고객 / 파트너 (2025-2026)

파트너관계주요 내용
Meta2025.04 Llama API 공식 inference providerLlama 4 preview 625 tok/s. OpenAI 엔드포인트에서 3줄 코드 migration
Aramco DigitalLEAP 2024 MOU → 2025 본격 가동Dammam 19,000 LPU. SDAIA Arabic LLM (ALLaM) 호스팅. $1.5B 추가 투자
Bell Canada2025.05 — Bell AI Fabric exclusive inference6개 sovereign DC, 500MW hydro, Kamloops 7MW 시작
HUMAIN (사우디 PIF)"HUMAIN One" OS inference 백엔드
SamsungSF4X 4nm foundry + Series E 투자자Taylor TX fab
CiscoSeries E 신규 투자자DC 네트워크 협업
미국 DOE2025.12 MOU — Genesis Mission AI 인프라LPU 기반 과학 컴퓨팅 평가
NVIDIA2025.12 비독점 IP 라이선스 + 인수Vera Rubin NVL72 + LPX hybrid rack 통합

A5. 경쟁 포지셔닝

경쟁사차별점Groq 대비
NVIDIAH100/H200/B200/Rubin 지배. 이제 Groq IP까지 흡수Inference에서도 우위 강화
Cerebras WSE-3Wafer-scale. Llama 405B 969 tok/s, oss-gpt-120B 3,000 tok/sFrontier 모델 throughput에서 약 6× 우위
SambaNova3-tier memory (HBM+DDR+SRAM), training/inference 겸용모델 capacity 우위
Etched SohuTransformer 전용 ASIC. 8-chip 서버 Llama 70B 500K+ tok/s 주장미출시·독립 벤치 없음. 비-transformer 미지원
AWS Inferentia2/Trainium21k 토큰당 $0.20-0.50가성비·배치 throughput 우위
Google TPU v6 Trilliumv5e 대비 4.7×, 에너지 67%↑1k 토큰당 $0.30-0.70

시장은 NVIDIA + 하이퍼스케일러 자체 ASIC + 전문 inference 스타트업의 3축. 커스텀 실리콘 2026 점유 추정 15~25%.

A6. 전략 / 로드맵

  • 2025 H2: Samsung 4nm Groq 3 LPU 양산 개시
  • 2025-2026: Aramco Dammam · Bell Canada · 미국 본토 DC 확장
  • 2025.12: NVIDIA 거래로 IPO 경로 종료. Vera Rubin NVL72 + Groq 3 LPX (256-LPU rack) hybrid 통합. Rubin = prefill + attention, LPX = decode loop의 FFN·MoE
  • DOE Genesis Mission: 저지연 과학 inference + 에너지 효율 + 미국 국내 공급망

A7. 리더십 (2026.05 기준)

인물역할상태
Jonathan Ross창업자·전 CEO (Google TPU 원조)2025.12 NVIDIA로 이동
Simon Edwards현 CEO (기존 CFO에서 승격)Groq 독립 운영 책임
Sunny Madra전 President / COO. GroqCloud 출시 주도NVIDIA로 이동
Matt EngVP Finance & Strategy잔류
Adam WinterVP & GM잔류
Fahad AlTuriefVP & MENA MD잔류

B. 반도체 / 칩 아키텍처

B1. LPU 1세대 (GroqChip 1)

공정
GlobalFoundries 14nm (LP, mature)
다이
725 mm² (25×29mm), 28.6B 트랜지스터
연산
750 TOPS @ INT8 · 188 TFLOPS @ FP16
SRAM
230 MB on-chip · 80 TB/s 내부 대역폭
연산 단위
320×320 fused dot product MatMul · 5,120 Vector ALU
클럭
900 MHz nominal · >1 TeraOp/s/mm²
외부 메모리
HBM·DDR 없음 (SRAM only)
제거된 것
branch predictor·cache·arbiter·replay
칩당 BOM
약 $20,000 (보도)

B2. Groq 3 LPU / LPX (2세대)

공정
Samsung Foundry SF4X 4nm (Taylor TX fab)
양산
2025 H2 개시. 출하 Q3 2026 예정
SRAM
500 MB per die (1세대 대비 2.17×)
SRAM 대역폭
150 TB/s
Scale-up 대역폭
2.5 TB/s
트랜지스터
약 98B (보도)
전력 효율
14nm 대비 약 3× 저전력 · TCO 수십 배 향상

LPX Rack 구성

32개 1U 액체 냉각 트레이 × 트레이당 LPU 8개 = 256 LPU/rack. 랙 총합 128 GB SRAM, 40 PB/s 집계 대역폭. NVIDIA Vera Rubin NVL72와 hybrid 배치 (Rubin = prefill + attention, LPX = decode FFN·MoE).

B3. TSP — Tensor Streaming Processor

  • Deterministic execution — 컴파일 타임에 모든 cycle·data movement 확정. 런타임 스케줄링 0
  • Software-scheduled dataflow — 하드웨어 reactive 컴포넌트 제거 (interlock·arbiter·replay·branch predictor 0)
  • Cache 없음 / On-chip SRAM만 — weight를 SRAM 직접 저장 (cache 아님). 메모리 접근 latency 결정적·균일
  • 결과 — jitter 사실상 0. P99 latency가 평균 latency에 매우 근접 → 실시간 agentic workload에 결정적 이점

B4. Groq Compiler — 진짜 IP moat

  • 하드웨어보다 컴파일러가 먼저 설계됨 (compiler-first 철학)
  • 모델 실행 전 전체 execution graph + inter-chip 통신 패턴을 클럭 단위로 사전 계산
  • 모든 칩간 네트워크 트래픽 사전 계획 → collision 0
  • Instruction-level parallelism을 speculation 없이 정적 추출 → speculative execution·OoO 제거 가능
  • 단점: 모델·shape 변경 시 전체 recompile 필요. 동적 그래프·동적 batch size·MoE expert routing에 비효율

B5. 성능 벤치마크 (Artificial Analysis, 2025-2026)

모델Tok/s/userTTFT
Llama 3.3 70B중앙값 330 (P95 250)중앙값 120 ms (P95 280 ms)
Llama 4 preview625
Llama 2 70B약 300 (초기 측정 241)
oss-gpt-120B약 493
DeepSeek R1 Distill Llama 70B431.68 s (reasoning 모델)
경량 모델 일반1,200+

B6. 경쟁 칩 비교

항목Groq LPU (1/3세대)Etched Sohu Cerebras WSE-3NVIDIA B200Google TPU v6 Trillium
공정14nm / 4nmTSMC 4nmTSMC 5nm wafer-scaleTSMC 4NPTSMC 5nm
메모리SRAM only 230→500 MBHBM3E 144 GBon-wafer SRAM 44 GBHBM3E 192 GBHBM3
Llama 70B tok/s약 330500K+ (8-chip 주장)450(8장 45K)
학습 지원불가불가가능가능가능
아키텍처일반 (recompile)Transformer 전용일반일반일반
Perf/W20+ TOPS/W (자체)미공개높음H100 대비 1.7×v5e +67%

B7. 데이터센터 인프라

  • 모델 fit: Llama 2 70B → 576 LPU 필요 (9개 rack). 230MB × 576 ≈ 132GB 분산 weight
  • LPX rack (3세대): 256 LPU로 128GB SRAM. 70B급은 여전히 다중 rack scale-out 필요하나 1세대 대비 약 2× capacity
  • 전력 효율: SRAM only로 메모리 wait 시간 거의 0 → weight loading 0.47ms (H100 대비 약 45× 빠름)
  • Aramco Dammam: 19,000 LPU 가동. EMEA 최대 AI compute hub

B8. 약점

  1. SRAM-only BOM 부담 — 칩 1장당 $20K, 70B 모델에 수백 개 필요 → H100 deployment 대비 약 40× 비싼 하드웨어 cost (SemiAnalysis). 토큰당 unit economics 압박
  2. Training 불가 — Fine-tuning은 GPU 의존
  3. Full recompile 필요 — 동적 batch size·MoE expert routing·dynamic shape에 비효율. Time-to-deploy 길어짐
  4. 메모리 capacity 한계 — 200B+ 초대형 모델은 수천 chip 필요 → 인프라·네트워크 비용 폭증
  5. 아키텍처 변화 risk — Transformer 가정 약하지만 비-attention(Mamba·SSM) 효율 미검증
  6. Frontier throughput 열세 — 405B 등 large model에서 Cerebras 대비 ~6× 차이
  7. 독립성 상실 — 2025.12 NVIDIA 거래로 사실상 NVIDIA inference 자회사화. GroqCloud 가격·로드맵 자율성 불확실

C. NPU 카테고리 전반

C1. 분류 — "NPU" 는 일반 명사

분류대표 칩타겟아키텍처
Datacenter Train+InferNVIDIA H100/B200, AMD MI300XCloud LLM 학습SIMT GPU + Tensor Core
Datacenter Train (wafer)Cerebras WSE-3초대형 모델단일 wafer 850K core
Datacenter Infer 전용Groq LPU, Etched Sohu, Google TPU v5eLLM servingDataflow / Systolic
Reconfigurable DataflowSambaNova SN40L, Tenstorrent Wormhole멀티모달RDA + 대용량 HBM
Edge / Mobile NPUApple Neural Engine, Qualcomm Hexagon, Samsung Exynos NPU폰·태블릿 on-deviceINT8/INT4 저전력 systolic
PC NPU (Copilot+)Intel Lunar Lake, AMD XDNA2, Qualcomm X EliteWindows on-device40~50 TOPS @ INT8
In-memory computeMythic AMP, Untether AIedge inferenceanalog/digital PIM

C2. 아키텍처 패러다임 3가지

  1. Systolic Array (TPU, Groq, Tenstorrent) — 2D PE grid에 weight stationary 배치, activation 흘려보냄. matmul 효율 극대화
  2. SIMT GPU 확장 (NVIDIA, AMD) — 기존 GPU + Tensor Core. 범용성·CUDA 호환성이 무기
  3. Dataflow / Spatial (Groq TSP, SambaNova RDA, Cerebras) — 연산 그래프를 칩 물리적 영역에 매핑. 메모리 이동 최소화

C3. NPU가 GPU를 못 이기는 이유 vs 유리한 지점

못 이기는 이유

  • CUDA 에코시스템 — PyTorch/JAX/TensorRT 전부 NVIDIA fast path
  • 메모리 대역폭 — H100 3 TB/s HBM3, B200 8 TB/s HBM3e. NPU는 SRAM/LPDDR 한계
  • 학습 워크로드 — gradient/optimizer는 dynamic graph 유리

유리한 지점

  • Inference serving — Groq/Etched처럼 단일 모델 고정 시 GPU 5~10× 효율
  • Edge — 저전력 INT8/INT4 매트릭스 가속에 GPU 과스펙
  • 결정론적 latency — 실시간 음성/로보틱스의 tail latency 보장

D. 핵심 통찰

  1. "추론 ≠ 학습" 시장 분화 가설은 옳았다. Groq의 베팅은 검증됨 — LLM 보급기 inference 비용이 90%+ 차지하므로 추론 전용 칩 ROI 우위. 단 unit economics는 NVIDIA의 HBM 우위에 밀려 BOM 40배라는 현실적 한계.
  2. 진짜 moat은 컴파일러. 하드웨어 사양은 모방 가능. NVIDIA가 $20B에 사간 것도 사실상 컴파일러 IP + 인재.
  3. NPU 시장은 수직 분화 중. Datacenter 학습(NVIDIA), datacenter 추론(Groq/Etched/TPU), edge(ARM·Qualcomm·Apple). 한 칩이 다 먹는 시대 종료.
  4. 다음 변곡점: B200·MI355X HBM3e vs Groq 3 LPX (4nm) vs Etched Sohu (Transformer ASIC). 2026~2027 1k 토큰당 가격이 결판.
  5. 독립성 vs 효율성의 trade-off. Groq의 NVIDIA 흡수는 "독립 inference 스타트업이 NVIDIA 에코시스템 없이는 unit economics를 못 맞춘다"는 시그널. Cerebras·SambaNova도 동일 압력 노출.