본문 바로가기

개발자/인공지능과 인간

딥시크(DeepSeek)가 OpenAI와 Nvidia를 망하게 할까?

반응형

 

처음 중국의 Deepseek 성능을 발표할 때 두 회사를 망하게 만들었다고 난리가 났다. 그 두 회사가 바로 OpenAI와 NVidia다. 사용해보니 정말 대단했다. 다른 거보다 아시아 국가에서 만든거라 훨씬 문화적으로나 언어적으로 동질감을 느꼈고 문장이 자연스럽다.

 

아래는 깃허브 소개 페이지에 나온 내용이니 자세한 내용은 방문하시기 바란다. 

 

중국 인공지능 기업 딥시크(DeepSeek)가 성능에서는 오픈AI(OpenAI)의 o1에 맞먹고, 비용 효율성에서는 이를 능가하는 추론 모델 딥시크-R1(DeepSeek-RXNUMX)을 선보였다. 고급 아키텍처, 뛰어난 벤치마크 결과, 오픈 소스 라이선스를 갖춘 R1은 AI 분야를 변화시킬 준비가 되어 있습니다.  

 

1. 소개

 

1세대 추론 모델인 DeepSeek-R1-Zero와 DeepSeek-R1을 소개합니다. 사전 단계로 감독 미세 조정(SFT) 없이 대규모 강화 학습(RL)을 통해 학습된 모델인 DeepSeek-R1-Zero는 추론에서 놀라운 성능을 보여주었습니다. RL을 통해 DeepSeek-R1-Zero는 강력하고 흥미로운 수많은 추론 동작을 자연스럽게 만들어냈습니다. 그러나 DeepSeek-R1-Zero는 끝없는 반복, 가독성 저하, 언어 혼용과 같은 문제에 직면했습니다.

 

이러한 문제를 해결하고 추론 성능을 더욱 향상시키기 위해 RL 이전에 콜드 스타트 데이터를 통합하는 DeepSeek-R1을 도입했습니다. DeepSeek-R1은 수학, 코드, 추론 작업 전반에서 OpenAI-o1에 필적하는 성능을 달성합니다. 연구 커뮤니티를 지원하기 위해 오픈 소스인 DeepSeek-R1-Zero, DeepSeek-R1, 그리고 Llama와 Qwen을 기반으로 DeepSeek-R1에서 증류한 6개의 고밀도 모델을 제공합니다. DeepSeek-R1-Distill-Qwen-32B는 다양한 벤치마크에서 OpenAI-o1-mini보다 뛰어난 성능을 보이며 고밀도 모델을 위한 새로운 최첨단 결과를 달성합니다. 참고: DeepSeek-R1 시리즈 모델을 로컬에서 실행하기 전에 사용 권장 사항 섹션을 검토하는 것을 권장합니다. 

 

 

 

 

2. 학습 후 모델 요약:

 

기본 모델에 대한 대규모 강화 학습

 

  • 사전 단계로 감독 미세 조정(SFT)에 의존하지 않고 기본 모델에 강화 학습(RL)을 직접 적용합니다. 이 접근 방식을 통해 모델은 복잡한 문제를 해결하기 위한 생각의 사슬(CoT)을 탐색할 수 있으며, 그 결과 DeepSeek-R1-Zero가 개발되었습니다. DeepSeek-R1-Zero는 자체 검증, 반영, 긴 CoT 생성 등의 기능을 보여주며 연구 커뮤니티에 중요한 이정표가 되었습니다. 특히, 이 연구는 SFT 없이도 LLM의 추론 능력을 순수하게 RL을 통해 인센티브를 제공할 수 있음을 입증한 최초의 공개 연구입니다. 이 획기적인 성과는 향후 이 분야의 발전을 위한 토대를 마련했습니다.

 

  • 딥시크-R1 개발을 위한 파이프라인을 소개합니다. 이 파이프라인은 개선된 추론 패턴을 발견하고 인간의 선호도에 맞추기 위한 두 개의 RL 단계와 모델의 추론 및 비추론 기능의 씨앗 역할을 하는 두 개의 SFT 단계로 구성되어 있습니다. 이 파이프라인은 더 나은 모델을 만들어 업계에 도움이 될 것이라고 믿습니다.

 

증류: 더 작은 모델도 강력할 수 있다

 

  • 우리는 더 큰 모델의 추론 패턴을 더 작은 모델로 증류하여 작은 모델에서 RL을 통해 발견한 추론 패턴에 비해 더 나은 성능을 얻을 수 있음을 입증했습니다. 오픈 소스인 DeepSeek-R1과 그 API는 향후 연구 커뮤니티에서 더 나은 소규모 모델을 추출하는 데 도움이 될 것입니다.

 

  • DeepSeek-R1에서 생성된 추론 데이터를 사용하여 연구 커뮤니티에서 널리 사용되는 몇 가지 고밀도 모델을 미세 조정했습니다. 평가 결과, 증류된 더 작은 고밀도 모델이 벤치마크에서 매우 뛰어난 성능을 발휘하는 것으로 나타났습니다. 저희는 Qwen2.5 및 Llama3 시리즈에 기반한 1.5B, 7B, 8B, 14B, 32B 및 70B 체크포인트를 커뮤니티에 오픈소스화했습니다. 

3. 모델 다운로드 이하 깃허브 참고하세요.

 

 

반응형

캐어랩 고객 지원

취업, 창업의 막막함, 외주 관리, 제품 부재!

당신의 고민은 무엇입니까? 현실과 동떨어진 교육, 실패만 반복하는 외주 계약, 아이디어는 있지만 구현할 기술이 없는 막막함.

우리는 알고 있습니다. 문제의 원인은 '명확한 학습, 실전 경험과 신뢰할 수 있는 기술력의 부재'에서 시작됩니다.

이제 고민을 멈추고, 캐어랩을 만나세요!

코딩(펌웨어), 전자부품과 디지털 회로설계, PCB 설계 제작, 고객(시장/수출) 발굴과 마케팅 전략으로 당신을 지원합니다.

제품 설계의 고수는 성공이 만든 게 아니라 실패가 만듭니다. 아이디어를 양산 가능한 제품으로!

귀사의 제품을 만드세요. 교육과 개발 실적으로 신뢰할 수 있는 파트너를 확보하세요.

지난 30년 여정, 캐어랩이 얻은 모든 것을 함께 나누고 싶습니다.

카카오 채널 추가하기

카톡 채팅방에서 무엇이든 물어보세요

당신의 성공을 위해 캐어랩과 함께 하세요.

캐어랩 온라인 채널 바로가기

캐어랩