U.S. Semiconductors: Is DeepSeek doomsday for AI buildouts? We don't think so
번스타인
지난주 말, 중국 회사 DeepSeek의 새로운 오픈 소스 AI 모델 세트가 투자 커뮤니티(및 Twitter/X)를 뒤흔들었습니다. 우리가 본 다양한(때로는 과장된) 반응은 "정말 흥미롭다"에서 "우리가 알고 있는 AI 인프라의 종말이다"까지 다양합니다.
우리는 DeepSeek의 (놀라울 정도로 상세한) 논문들을 검토하며 주말의 많은 시간을 보냈습니다. AI 전문가라고 주장하지는 않지만, 최소한 어느 정도는 일반인의 이해 수준에서 정보를 가지고 있다고 생각합니다. 현재도 분석 중이지만, 빠르게 몇 가지 간단하고, 고수준이며, 기술적이지 않은 생각을 공유하고자 합니다.
요약
DeepSeek은 "500만 달러로 OpenAI를 구축한 것이 아니다."
모델은 훌륭해 보이지만, 기적이라고 보지는 않는다.
주말 동안 발생한 Twitterverse의 공황 반응은 과장된 것으로 보인다.
DeepSeek이 정말 "500만 달러로 OpenAI를 구축"했는가? 물론 아니다.
현재 논의되는 두 가지 모델 계열이 있다. 첫 번째는 DeepSeek-V3로, Mixture-of-Experts(MoE) 대형 언어 모델이며, 다양한 최적화와 기술을 통해 다른 대형 모델과 비슷하거나 더 나은 성능을 제공하면서도 훈련에 필요한 계산 자원이 훨씬 적다.
DeepSeek은 2048개의 NVIDIA H800 GPU를 사용해 약 2개월 동안 훈련(~270만 GPU 시간)했으며, 후처리까지 포함해 약 280만 GPU 시간을 사용했다. 흔히 인용되는 "500만 달러"라는 숫자는 이 인프라에 대해 GPU 시간당 2달러의 임대 가격을 기준으로 계산된 것이지만, 실제로 그렇게 하지 않았으며, 모델 아키텍처, 알고리즘, 데이터와 관련된 사전 연구 및 실험에 드는 다른 모든 비용은 포함되지 않았다.
두 번째 계열은 DeepSeek R1으로, V3 기본 모델에 강화 학습(RL)과 기타 혁신을 적용해 추론 성능을 크게 향상시켰으며, OpenAI의 GPT-4 추론 모델 및 기타 모델과 경쟁할 수 있다. DeepSeek R1 논문은 R1 모델 개발에 필요한 추가 자원을 정량화하지 않았지만, 이는 상당했을 가능성이 높다.
DeepSeek 모델이 훌륭한가? 절대적으로 그렇다.
V3는 Mixture-of-Experts 모델을 사용하며, 총 6710억 개의 매개변수를 가지고 있고, 한 번에 370억 개가 활성화된다. 이 모델은 Multi-Head Latent Attention(MHLA), FP8 혼합 정밀도 훈련, 최적화된 메모리 사용량 등 여러 혁신 기술과 결합되어 있다. V3는 훨씬 적은 계산 자원으로 다른 대형 모델만큼 혹은 더 나은 성능을 달성했다. 예를 들어, V3는 ~270만 GPU 시간이 소요되었으며, 이는 LLaMA 405B 모델의 9%에 불과하다.
V3의 상대적인 효율성이 놀라운가? 우리는 그렇게 생각하지 않는다.
Mixture-of-Expert(MoE) 아키텍처는 훈련 및 실행 비용을 줄이기 위해 설계되었으며, 매개변수 세트의 일부만 활성화되기 때문이다. 예를 들어, V3는 6710억 개 매개변수 중 한 번에 370억 개만 업데이트된다. 비슷한 크기의 밀집 모델과 비교했을 때, 일반적으로 3-7배의 효율성을 보이지만, V3는 10배 이상 더 나은 효율성을 보여준다.
그렇다면 왜 공황이 발생했을까?
이는 다음 세 가지의 조합으로 보인다:
"500만 달러"라는 숫자에 대한 오해,
R1에서 "증류(distillation)"된 소형 모델의 배포,
DeepSeek 모델의 실제 가격 책정이 OpenAI보다 훨씬 낮다는 점
이것이 의미하는 바는?
DeepSeek이 동등한 성능을 10배 저렴한 비용으로 달성했다고 인정하더라도, 현재 모델 비용 증가율은 매년 약 10배씩 증가하고 있다. 따라서 이러한 혁신(MoE, 증류, 혼합 정밀도 등)은 AI 발전을 지속하려면 반드시 필요하다.
결론적으로, 투자 속도는 여전히 가속화되고 있다. 지난주 META는 자본 지출(CapEx)을 대폭 늘릴 계획을 발표했고, 중국은 1조 위안(~1400억 달러)의 AI 투자 계획을 발표했다.
전반적으로 우리는 Twitterverse에서 과장된 종말론적 시나리오를 받아들이지 않는다. NVDA 및 AVGO에 대한 AI 관련 스토리는 여전히 긍정적이다.