250131_DeepSeek: 스푸트니크 쇼크도, 알리/테무도 아니다 (1)
(1) 설 연휴 기간, 중국 DeepSeek의 파장이 글로벌 에쿼티 시장을 강타하며 큰 변동성을 자아내고 있음
(2) 국내 시장 관점에서, 결론부터 말하면 낙폭 과대 업종의 적극 매수 타이밍이라고 판단
(3) 본 글은 DeepSeek에 대해 알아보고, 크게 4가지 부분에 대해 이야기 하고자 함
■ NVDA 고성능 칩의 Peak-Out 및 AI GPU 1강 포지셔닝의 쇠퇴 가능성
■ MSFT/GOOGL/AMZN/META/ORCL 등 미국 하이퍼스케일러 업체의 CAPEX 감소 Signal?
■ AI SaaS 업체들의 비용 절감을 통한 비즈니스 모델 확장과 이에 따른 멀티플 증대 가능성
■ 국내 메모리 업체 및 소부장 밸류체인의 디레이팅
(4) 우선 DeepSeek는 '85년생 중국인 량원펑(Liang Wenfeng, 梁文锋)이 '23년 7월에 설립한 AI 스타트업
(5) 대학교 시절부터 퀀트에 관심이 많았던 량원펑은 현재 중국 본토에서 가장 큰 퀀트 헤지펀드 중 하나인 환팡퀀트(High-Flyer Quant, 幻方量化)를 '15년에 공동 설립했음
*WSJ의 '24년 12월 보도에 따르면, 현재 AUM은 약 $8bn 수준
https://www.wsj.com/tech/ai/china-ai-advances-us-chips-7838fd20?mod=tech_feat1_ai_pos2
(6) 해당 WSJ 기사에 따르면, '21년에 DeepSeek은 NVDA의 A100 10,000개를 통해 HPC 클러스터를 구축한 바 있음
(7) 최근 Scale AI CEO Alexandr Wang이 H100 50,000개 이상을 사용한 것으로 보인다, 그리고 이에 Elon Musk도 "Obviosly"라고 X로 답한 바 있음
https://www.youtube.com/watch?v=x9Ekl9Izd38
(8) 한편 NVDA는 주가가 -17% 하락한 당일에도 DeepSeek의 R1 모델을 'Test-Time Scaling'의 완벽한 사례라고 칭찬
https://www.cnbc.com/2025/01/27/nvidia-calls-chinas-deepseek-r1-model-an-excellent-ai-advancement.html
(9) DeepSeek이 미국의 대중국 수출 규제를 완벽하게 '준수'하는 컴퓨팅 자원을 활용했다며, "추론에는 상당한 수의 NVDA GPU 및 고성능 네트워킹 장비"가 필요하다고 덧붙임
*NVDA는 당연히 저렇게 말할 수 밖에 없긴 한 입장
(10) Test-Time Scaling의 핵심은, 기 훈련된 모델을 추론(Reasoning) 단계에서 어떻게 최적화하고 효율성을 개선하느냐임. Jensen Huang이 작년부터 밀고 있는 개념이고, 올해 초 2025 CES에서도 여러 차례 언급된 바 있음
(11) Model Compression, Mixed Precision Inference, Hardware Optimization, Model Ensembling 등
■ 모델 압축: 대형 모델에서 얻은 지식을 Knowledge Distillation(증류)를 통해 작은 모델로 전이
■ 혼합 정밀도 추론: 메모리 사용을 줄여 계산 성능을 높이는 방식[FP32→FP16]
■ 하드웨어 최적화: Tensor Core와 같은 전용 H/W를 활용해 행렬 연산 최적화(Batch Size, Latency 등)
■ 모델 다중화: 여러 모델을 병렬로 실행시키고, 그 결과 값을 결합해 추론 정확도를 높이는 방법
(12) 이 중에서 모델 압축에 해당되는 지식 증류(Knowlege Distillation)를 주목
(13) 지식 증류란, 큰 모델(Teacher)을 사용해 작은 모델(Student)을 훈련할 데이터 셋을 선제적으로 구축하고 지식을 전달하는 과정[강화 학습]을 말함
https://www.aitimes.com/news/articleView.html?idxno=166839
(14) 그 결과, 성능이 강화된 모델은 매우 적은 계산 리소스를 통해서도 효율적인 구동이 가능해짐
(15) 해당 개념을 통해 스마트폰/노트북과 같은 컨슈머 기기에서도 AI를 탑재 가능(큰 모델의 성능과 정교함을 어느 정도 유지)해지게 되며 On-Device AI에 더 가까워지는 방식임
(16) Microsoft의 보안팀에 따르면, DeepSeek이 OpenAI의 API를 사용해 대량의 데이터[출력값]을 빼돌리는 것을 '24년 가을부터 관찰했다고 함
https://www.ft.com/content/a0dfedd1-5255-4fa9-8ccc-1fe01de87ea6
(17) 이에 따라 OpenAI, Microsoft는 DeepSeek가 AI 모델 훈련을 위해 OpenAI의 데이터를 허가 없이 무단으로 획득했는지에 대해 조사하고 있음
https://www.bloomberg.com/news/articles/2025-01-29/microsoft-probing-if-deepseek-linked-group-improperly-obtained-openai-data
(18) 지금까지 Distillation은 업계에서 행해지는 흔한 관행같은 것이었으나, OpenAI는 DeepSeek처럼 자체 경쟁 모델을 구축하기 위해 이를 사용하는 것은 OpenAI 서비스 약관 위반이라는 입장
(19) 일단 R1의 경우 DeepSeek이 논문에서, Qwen[Alibaba Cloud]과 Llama[Meta]를 베이스로 추론 능력을 강화했다고 명시되어 있긴 함
(20) 한편, Microsoft는 공식 블로그에서 어제 DeepSeek R1을 Azure AI Foundry와 GitHub에서 사용할 수 있다고 발표
1https://azure.microsoft.com/en-us/blog/deepseek-r1-is-now-available-on-azure-ai-foundry-and-github/
(21) 이로써, Microsoft는 API 탈취 의혹을 제기하면서도 미국에서 Databricks에 이어 두 번째로 DeepSeek 모델을 서비스하는 기업이 됨
(22) 즉, 매우매우 어지러운 상황...
(23) 결론적으로 시장에 파장을 가져온 키워드는 *DeepSeek-V3의 공식 훈련 비용 '$5.57mn'
*H800 2,048개를 통한 공식 훈련 비용
**여기에는 알고리즘 연구[훈련 알고리즘, 최적화(SGD, Adam), 손실 함수 계산], 아키텍쳐 실험[모델 구조, 네트워크 최적화 설계 등], Prior Research[모델 훈련 이전에 진행된 연구와 실험 등. 데이터 준비 및 전처리 등도 포함되니 Dispillation 등도 포함되는 개념인 듯] 등은 제외
(24) OpenAI의 o1과 경쟁하는 R1의 경우, 벤치마크 결과는 o1-mini를 근소하게 뛰어넘고 o1과는 엎치락 뒤치락 하고 있음
(25) 가격은 아래와 같이 추정됨(1mn 토큰 당 입력&출력)
■ 4o-mini: $0.15 / $0.60
■ o1: $15.00 / $60.00
■ o1-mini: $3.00 / $12.00
■ R1: $0.55 / $2.19
[DeepSeek R1 Zero]
■ 강화학습 알고리즘: Group Relative Policy Optimization(GRPO)이란, 비평가(Critic) 모델 없이 여러 그룹을 샘플링해해서 기존 정책[규칙/전략]을 기준으로 새로운 정책을 최적화 하는 방식
*일반 강화학습에는 별도의 비평가 모델이 가치 평가, 기대값을 추정하는 데 사용됨. 이게 왜 더 효율적이냐? 비평가 모델 또한 일반적으로 어텐션 신경망으로 구현되며 많은 훈련 데이터 셋과 복잡한 계산이 필요한데 이걸 걸러버리는 것
■ 보상 모델링(Reward Modeling): 정확도 보상(응답이 올바른지 평가), 형식 보상(모델의 출력 형식에 가산점) 등을 통해 모델의 추론 방식이 체계적으로 흘러가는 것에 도움
■ 훈련 템플릿(Training Template): 모델의 출력 형식을 일정하게 하고, 문제 해결 과정을 구조적으로 따르도록 유도
■ DeepSeek의 '아하' 모먼트: 시간이 지남에 따라 모델의 성능을 최적화하는 RL 알고리즘, Majority Voting으로 더 나은 모델 성능 달성