Groq 기업 & 반도체 — 2026년 5월 종합 리포트

TL;DR

비즈니스: Series E $6.9B → 2025년 12월 NVIDIA 약 $20B 인수·IP 라이선스 보도. Aramco·Bell Canada·Meta·HUMAIN·미국 DOE 계약 확보. 단 매출 가이던스는 $2B+ → $500M으로 하향.
반도체: 1세대 GroqChip 1 (GF 14nm, 230MB SRAM, 750 TOPS) → 2025 하반기 양산 시작한 Groq 3 LPU/LPX (Samsung 4nm, 500MB SRAM, 256 LPU/rack).
아키텍처: TSP는 cache·branch predictor·arbiter 0. 컴파일러가 cycle 단위로 정적 스케줄링 → tail latency 평균 latency에 근접. SRAM-only로 메모리 wait 제거.
약점: 70B 모델 1개에 576 LPU 필요 → H100 대비 BOM 약 40배. Training 불가, 모델 변경 시 full recompile, frontier 모델 throughput은 Cerebras에 6× 열세.

A. 비즈니스

A1. 펀딩 / Valuation

시점	이벤트	규모	비고
2024.08	Series D	$640M / $2.8B	BlackRock 리드
2025.02	Aramco 인프라 투자	$1.5B	LEAP 2025, Dammam DC 확장
2025.09	Series E	$750M / $6.9B	Disruptive 리드. Samsung·Cisco 첫 직접 투자
2025.12.24	NVIDIA 인수·라이선스 (보도)	약 $20B 현금	비독점 IP 라이선스 + acqui-hire. 3회 분할, 2026년 말까지 $17B
2026.02	1차 분배	$7.6B	주주 배당

누적 약 $1.75B (6 라운드, 47 기관). 2025.12 NVIDIA 거래로 IPO 경로는 사실상 종료, 법인은 명목상 독립 유지하나 로드맵 결정권은 NVIDIA로 이전.

A2. 매출 / 손익

2024 매출: 약 $90M (보도)
2025 가이던스: 당초 $2B+ → $500M으로 하향. LTM 6월 누적 $172.5M (Latka, 추정 포함)
직원: 624명 (2025 중반)
손익: 적자 지속. SemiAnalysis 분석 — Llama 2 70B 기준 H100 대비 하드웨어 BOM이 약 40× 비쌈. 단 NVIDIA 거래로 현금성 자산 $2B+ 추가 확보

A3. GroqCloud 트래픽

지표	2024 초	2025.04	2025 후반
개발자 수	360,000	1.4M+	2M+
Fortune 100 계정 보유	—	—	75%
Aramco Dammam 처리 능력	—	25M tok/s	확장 시 1B tok/s

플랫폼 전체 일일 토큰 처리량은 비공개. 19,000 LPU가 EMEA 최대 inference hub로 가동.

A4. 주요 고객 / 파트너 (2025-2026)

파트너	관계	주요 내용
Meta	2025.04 Llama API 공식 inference provider	Llama 4 preview 625 tok/s. OpenAI 엔드포인트에서 3줄 코드 migration
Aramco Digital	LEAP 2024 MOU → 2025 본격 가동	Dammam 19,000 LPU. SDAIA Arabic LLM (ALLaM) 호스팅. $1.5B 추가 투자
Bell Canada	2025.05 — Bell AI Fabric exclusive inference	6개 sovereign DC, 500MW hydro, Kamloops 7MW 시작
HUMAIN (사우디 PIF)	"HUMAIN One" OS inference 백엔드	—
Samsung	SF4X 4nm foundry + Series E 투자자	Taylor TX fab
Cisco	Series E 신규 투자자	DC 네트워크 협업
미국 DOE	2025.12 MOU — Genesis Mission AI 인프라	LPU 기반 과학 컴퓨팅 평가
NVIDIA	2025.12 비독점 IP 라이선스 + 인수	Vera Rubin NVL72 + LPX hybrid rack 통합

A5. 경쟁 포지셔닝

경쟁사	차별점	Groq 대비
NVIDIA	H100/H200/B200/Rubin 지배. 이제 Groq IP까지 흡수	Inference에서도 우위 강화
Cerebras WSE-3	Wafer-scale. Llama 405B 969 tok/s, oss-gpt-120B 3,000 tok/s	Frontier 모델 throughput에서 약 6× 우위
SambaNova	3-tier memory (HBM+DDR+SRAM), training/inference 겸용	모델 capacity 우위
Etched Sohu	Transformer 전용 ASIC. 8-chip 서버 Llama 70B 500K+ tok/s 주장	미출시·독립 벤치 없음. 비-transformer 미지원
AWS Inferentia2/Trainium2	1k 토큰당 $0.20-0.50	가성비·배치 throughput 우위
Google TPU v6 Trillium	v5e 대비 4.7×, 에너지 67%↑	1k 토큰당 $0.30-0.70

시장은 NVIDIA + 하이퍼스케일러 자체 ASIC + 전문 inference 스타트업의 3축. 커스텀 실리콘 2026 점유 추정 15~25%.

A6. 전략 / 로드맵

2025 H2: Samsung 4nm Groq 3 LPU 양산 개시
2025-2026: Aramco Dammam · Bell Canada · 미국 본토 DC 확장
2025.12: NVIDIA 거래로 IPO 경로 종료. Vera Rubin NVL72 + Groq 3 LPX (256-LPU rack) hybrid 통합. Rubin = prefill + attention, LPX = decode loop의 FFN·MoE
DOE Genesis Mission: 저지연 과학 inference + 에너지 효율 + 미국 국내 공급망

A7. 리더십 (2026.05 기준)

인물	역할	상태
Jonathan Ross	창업자·전 CEO (Google TPU 원조)	2025.12 NVIDIA로 이동
Simon Edwards	현 CEO (기존 CFO에서 승격)	Groq 독립 운영 책임
Sunny Madra	전 President / COO. GroqCloud 출시 주도	NVIDIA로 이동
Matt Eng	VP Finance & Strategy	잔류
Adam Winter	VP & GM	잔류
Fahad AlTurief	VP & MENA MD	잔류

B. 반도체 / 칩 아키텍처

B1. LPU 1세대 (GroqChip 1)

공정

GlobalFoundries 14nm (LP, mature)

다이

725 mm² (25×29mm), 28.6B 트랜지스터

연산

750 TOPS @ INT8 · 188 TFLOPS @ FP16

SRAM

230 MB on-chip · 80 TB/s 내부 대역폭

연산 단위

320×320 fused dot product MatMul · 5,120 Vector ALU

클럭

900 MHz nominal · >1 TeraOp/s/mm²

외부 메모리

HBM·DDR 없음 (SRAM only)

제거된 것

branch predictor·cache·arbiter·replay

칩당 BOM

약 $20,000 (보도)

B2. Groq 3 LPU / LPX (2세대)

공정

Samsung Foundry SF4X 4nm (Taylor TX fab)

양산

2025 H2 개시. 출하 Q3 2026 예정

SRAM

500 MB per die (1세대 대비 2.17×)

SRAM 대역폭

150 TB/s

Scale-up 대역폭

2.5 TB/s

트랜지스터

약 98B (보도)

전력 효율

14nm 대비 약 3× 저전력 · TCO 수십 배 향상

LPX Rack 구성

32개 1U 액체 냉각 트레이 × 트레이당 LPU 8개 = 256 LPU/rack. 랙 총합 128 GB SRAM, 40 PB/s 집계 대역폭. NVIDIA Vera Rubin NVL72와 hybrid 배치 (Rubin = prefill + attention, LPX = decode FFN·MoE).

B3. TSP — Tensor Streaming Processor

Deterministic execution — 컴파일 타임에 모든 cycle·data movement 확정. 런타임 스케줄링 0
Software-scheduled dataflow — 하드웨어 reactive 컴포넌트 제거 (interlock·arbiter·replay·branch predictor 0)
Cache 없음 / On-chip SRAM만 — weight를 SRAM 직접 저장 (cache 아님). 메모리 접근 latency 결정적·균일
결과 — jitter 사실상 0. P99 latency가 평균 latency에 매우 근접 → 실시간 agentic workload에 결정적 이점

B4. Groq Compiler — 진짜 IP moat

하드웨어보다 컴파일러가 먼저 설계됨 (compiler-first 철학)
모델 실행 전 전체 execution graph + inter-chip 통신 패턴을 클럭 단위로 사전 계산
모든 칩간 네트워크 트래픽 사전 계획 → collision 0
Instruction-level parallelism을 speculation 없이 정적 추출 → speculative execution·OoO 제거 가능
단점: 모델·shape 변경 시 전체 recompile 필요. 동적 그래프·동적 batch size·MoE expert routing에 비효율

B5. 성능 벤치마크 (Artificial Analysis, 2025-2026)

모델	Tok/s/user	TTFT
Llama 3.3 70B	중앙값 330 (P95 250)	중앙값 120 ms (P95 280 ms)
Llama 4 preview	625	—
Llama 2 70B	약 300 (초기 측정 241)	—
oss-gpt-120B	약 493	—
DeepSeek R1 Distill Llama 70B	43	1.68 s (reasoning 모델)
경량 모델 일반	1,200+	—

B6. 경쟁 칩 비교

항목	Groq LPU (1/3세대)	Etched Sohu	Cerebras WSE-3	NVIDIA B200	Google TPU v6 Trillium
공정	14nm / 4nm	TSMC 4nm	TSMC 5nm wafer-scale	TSMC 4NP	TSMC 5nm
메모리	SRAM only 230→500 MB	HBM3E 144 GB	on-wafer SRAM 44 GB	HBM3E 192 GB	HBM3
Llama 70B tok/s	약 330	500K+ (8-chip 주장)	450	(8장 45K)	—
학습 지원	불가	불가	가능	가능	가능
아키텍처	일반 (recompile)	Transformer 전용	일반	일반	일반
Perf/W	20+ TOPS/W (자체)	미공개	높음	H100 대비 1.7×	v5e +67%

B7. 데이터센터 인프라

모델 fit: Llama 2 70B → 576 LPU 필요 (9개 rack). 230MB × 576 ≈ 132GB 분산 weight
LPX rack (3세대): 256 LPU로 128GB SRAM. 70B급은 여전히 다중 rack scale-out 필요하나 1세대 대비 약 2× capacity
전력 효율: SRAM only로 메모리 wait 시간 거의 0 → weight loading 0.47ms (H100 대비 약 45× 빠름)
Aramco Dammam: 19,000 LPU 가동. EMEA 최대 AI compute hub

B8. 약점

SRAM-only BOM 부담 — 칩 1장당 $20K, 70B 모델에 수백 개 필요 → H100 deployment 대비 약 40× 비싼 하드웨어 cost (SemiAnalysis). 토큰당 unit economics 압박
Training 불가 — Fine-tuning은 GPU 의존
Full recompile 필요 — 동적 batch size·MoE expert routing·dynamic shape에 비효율. Time-to-deploy 길어짐
메모리 capacity 한계 — 200B+ 초대형 모델은 수천 chip 필요 → 인프라·네트워크 비용 폭증
아키텍처 변화 risk — Transformer 가정 약하지만 비-attention(Mamba·SSM) 효율 미검증
Frontier throughput 열세 — 405B 등 large model에서 Cerebras 대비 ~6× 차이
독립성 상실 — 2025.12 NVIDIA 거래로 사실상 NVIDIA inference 자회사화. GroqCloud 가격·로드맵 자율성 불확실

C. NPU 카테고리 전반

C1. 분류 — "NPU" 는 일반 명사

분류	대표 칩	타겟	아키텍처
Datacenter Train+Infer	NVIDIA H100/B200, AMD MI300X	Cloud LLM 학습	SIMT GPU + Tensor Core
Datacenter Train (wafer)	Cerebras WSE-3	초대형 모델	단일 wafer 850K core
Datacenter Infer 전용	Groq LPU, Etched Sohu, Google TPU v5e	LLM serving	Dataflow / Systolic
Reconfigurable Dataflow	SambaNova SN40L, Tenstorrent Wormhole	멀티모달	RDA + 대용량 HBM
Edge / Mobile NPU	Apple Neural Engine, Qualcomm Hexagon, Samsung Exynos NPU	폰·태블릿 on-device	INT8/INT4 저전력 systolic
PC NPU (Copilot+)	Intel Lunar Lake, AMD XDNA2, Qualcomm X Elite	Windows on-device	40~50 TOPS @ INT8
In-memory compute	Mythic AMP, Untether AI	edge inference	analog/digital PIM

C2. 아키텍처 패러다임 3가지

Systolic Array (TPU, Groq, Tenstorrent) — 2D PE grid에 weight stationary 배치, activation 흘려보냄. matmul 효율 극대화
SIMT GPU 확장 (NVIDIA, AMD) — 기존 GPU + Tensor Core. 범용성·CUDA 호환성이 무기
Dataflow / Spatial (Groq TSP, SambaNova RDA, Cerebras) — 연산 그래프를 칩 물리적 영역에 매핑. 메모리 이동 최소화

C3. NPU가 GPU를 못 이기는 이유 vs 유리한 지점

못 이기는 이유

CUDA 에코시스템 — PyTorch/JAX/TensorRT 전부 NVIDIA fast path
메모리 대역폭 — H100 3 TB/s HBM3, B200 8 TB/s HBM3e. NPU는 SRAM/LPDDR 한계
학습 워크로드 — gradient/optimizer는 dynamic graph 유리

유리한 지점

Inference serving — Groq/Etched처럼 단일 모델 고정 시 GPU 5~10× 효율
Edge — 저전력 INT8/INT4 매트릭스 가속에 GPU 과스펙
결정론적 latency — 실시간 음성/로보틱스의 tail latency 보장

      D. 핵심 통찰
      "추론 ≠ 학습" 시장 분화 가설은 옳았다. Groq의 베팅은 검증됨 — LLM 보급기 inference 비용이 90%+ 차지하므로 추론 전용 칩 ROI 우위. 단 unit economics는 NVIDIA의 HBM 우위에 밀려 BOM 40배라는 현실적 한계.
진짜 moat은 컴파일러. 하드웨어 사양은 모방 가능. NVIDIA가 $20B에 사간 것도 사실상 컴파일러 IP + 인재.
NPU 시장은 수직 분화 중. Datacenter 학습(NVIDIA), datacenter 추론(Groq/Etched/TPU), edge(ARM·Qualcomm·Apple). 한 칩이 다 먹는 시대 종료.
다음 변곡점: B200·MI355X HBM3e vs Groq 3 LPX (4nm) vs Etched Sohu (Transformer ASIC). 2026~2027 1k 토큰당 가격이 결판.
독립성 vs 효율성의 trade-off. Groq의 NVIDIA 흡수는 "독립 inference 스타트업이 NVIDIA 에코시스템 없이는 unit economics를 못 맞춘다"는 시그널. Cerebras·SambaNova도 동일 압력 노출.