딥시크(DeepSeek)가 OpenAI와 Nvidia를 망하게 할까?
처음 중국의 Deepseek 성능을 발표할 때 두 회사를 망하게 만들었다고 난리가 났다. 그 두 회사가 바로 OpenAI와 NVidia다. 사용해보니 정말 대단했다. 다른 거보다 아시아 국가에서 만든거라 훨씬 문화적으로나 언어적으로 동질감을 느꼈고 문장이 자연스럽다.
아래는 깃허브 소개 페이지에 나온 내용이니 자세한 내용은 방문하시기 바란다.
중국 인공지능 기업 딥시크(DeepSeek)가 성능에서는 오픈AI(OpenAI)의 o1에 맞먹고, 비용 효율성에서는 이를 능가하는 추론 모델 딥시크-R1(DeepSeek-RXNUMX)을 선보였다. 고급 아키텍처, 뛰어난 벤치마크 결과, 오픈 소스 라이선스를 갖춘 R1은 AI 분야를 변화시킬 준비가 되어 있습니다.
1. 소개
1세대 추론 모델인 DeepSeek-R1-Zero와 DeepSeek-R1을 소개합니다. 사전 단계로 감독 미세 조정(SFT) 없이 대규모 강화 학습(RL)을 통해 학습된 모델인 DeepSeek-R1-Zero는 추론에서 놀라운 성능을 보여주었습니다. RL을 통해 DeepSeek-R1-Zero는 강력하고 흥미로운 수많은 추론 동작을 자연스럽게 만들어냈습니다. 그러나 DeepSeek-R1-Zero는 끝없는 반복, 가독성 저하, 언어 혼용과 같은 문제에 직면했습니다.
이러한 문제를 해결하고 추론 성능을 더욱 향상시키기 위해 RL 이전에 콜드 스타트 데이터를 통합하는 DeepSeek-R1을 도입했습니다. DeepSeek-R1은 수학, 코드, 추론 작업 전반에서 OpenAI-o1에 필적하는 성능을 달성합니다. 연구 커뮤니티를 지원하기 위해 오픈 소스인 DeepSeek-R1-Zero, DeepSeek-R1, 그리고 Llama와 Qwen을 기반으로 DeepSeek-R1에서 증류한 6개의 고밀도 모델을 제공합니다. DeepSeek-R1-Distill-Qwen-32B는 다양한 벤치마크에서 OpenAI-o1-mini보다 뛰어난 성능을 보이며 고밀도 모델을 위한 새로운 최첨단 결과를 달성합니다. 참고: DeepSeek-R1 시리즈 모델을 로컬에서 실행하기 전에 사용 권장 사항 섹션을 검토하는 것을 권장합니다.
2. 학습 후 모델 요약:
기본 모델에 대한 대규모 강화 학습
- 사전 단계로 감독 미세 조정(SFT)에 의존하지 않고 기본 모델에 강화 학습(RL)을 직접 적용합니다. 이 접근 방식을 통해 모델은 복잡한 문제를 해결하기 위한 생각의 사슬(CoT)을 탐색할 수 있으며, 그 결과 DeepSeek-R1-Zero가 개발되었습니다. DeepSeek-R1-Zero는 자체 검증, 반영, 긴 CoT 생성 등의 기능을 보여주며 연구 커뮤니티에 중요한 이정표가 되었습니다. 특히, 이 연구는 SFT 없이도 LLM의 추론 능력을 순수하게 RL을 통해 인센티브를 제공할 수 있음을 입증한 최초의 공개 연구입니다. 이 획기적인 성과는 향후 이 분야의 발전을 위한 토대를 마련했습니다.
- 딥시크-R1 개발을 위한 파이프라인을 소개합니다. 이 파이프라인은 개선된 추론 패턴을 발견하고 인간의 선호도에 맞추기 위한 두 개의 RL 단계와 모델의 추론 및 비추론 기능의 씨앗 역할을 하는 두 개의 SFT 단계로 구성되어 있습니다. 이 파이프라인은 더 나은 모델을 만들어 업계에 도움이 될 것이라고 믿습니다.
증류: 더 작은 모델도 강력할 수 있다
- 우리는 더 큰 모델의 추론 패턴을 더 작은 모델로 증류하여 작은 모델에서 RL을 통해 발견한 추론 패턴에 비해 더 나은 성능을 얻을 수 있음을 입증했습니다. 오픈 소스인 DeepSeek-R1과 그 API는 향후 연구 커뮤니티에서 더 나은 소규모 모델을 추출하는 데 도움이 될 것입니다.
- DeepSeek-R1에서 생성된 추론 데이터를 사용하여 연구 커뮤니티에서 널리 사용되는 몇 가지 고밀도 모델을 미세 조정했습니다. 평가 결과, 증류된 더 작은 고밀도 모델이 벤치마크에서 매우 뛰어난 성능을 발휘하는 것으로 나타났습니다. 저희는 Qwen2.5 및 Llama3 시리즈에 기반한 1.5B, 7B, 8B, 14B, 32B 및 70B 체크포인트를 커뮤니티에 오픈소스화했습니다.
3. 모델 다운로드 이하 깃허브 참고하세요.