개발자/인공지능과 인간

작지만 강력합니다: 큰 잠재력을 지닌 Phi-3 소형 언어 모델

지구빵집 2024. 4. 24. 19:33
반응형

 

작지만 강력합니다: 큰 잠재력을 지닌 파이3 소형 언어 모델 

 

때로는 복잡한 문제를 해결하는 가장 좋은 방법은 동화책의 한 페이지에서 힌트를 얻는 것입니다. Microsoft 연구원들이 훨씬 작은 패키지에 더 많은 기능을 담는 방법을 알아내면서 얻은 교훈입니다.

 

작년에 기계 학습 수수께끼에 대한 잠재적인 해결책을 생각하며 하루 일과를 보낸 Microsoft의 로넨 엘단은 딸에게 잠자리 이야기를 읽어주다가 문득 '이 단어는 어떻게 배웠을까? 이 단어들을 연결하는 방법을 어떻게 알았을까?"라고 생각했습니다.

 

이를 계기로 Microsoft Research의 기계 학습 전문가는 4살짜리 아이가 이해할 수 있는 단어만으로 AI 모델이 얼마나 학습할 수 있을지 궁금해졌고, 결국 더 많은 사람들이 AI에 더 쉽게 접근할 수 있도록 하는 새로운 종류의 더 유능한 소규모 언어 모델을 만들어내는 혁신적인 학습 접근 방식을 개발하게 되었습니다.

 

대규모 언어 모델(LLM)은 AI를 사용하여 생산성과 창의성을 높일 수 있는 새로운 기회를 창출했습니다. 하지만 크기가 크기 때문에 작동하는 데 상당한 컴퓨팅 리소스가 필요할 수 있습니다.

 

이러한 모델은 여전히 많은 유형의 복잡한 작업을 해결하기 위한 표준이 될 것이지만, Microsoft는 LLM과 동일한 기능을 제공하지만 크기가 더 작고 적은 양의 데이터로 학습되는 일련의 소규모 언어 모델(SLM)을 개발해 왔습니다.

 

그리고 오늘 가장 성능이 뛰어나고 비용 효율적인 소형 언어 모델인 Phi-3 개방형 모델 제품군을 발표했습니다. Phi-3 모델은 Microsoft 연구진이 개발한 훈련 혁신 덕분에 언어, 코딩 및 수학 능력을 평가하는 다양한 벤치마크에서 동일한 크기 및 다음 크기의 모델보다 뛰어난 성능을 발휘합니다.

 

Microsoft는 이제 더 강력한 소형 언어 모델 제품군 중 첫 번째 모델을 공개합니다: 38억 개의 매개 변수를 측정하는 Phi-3-mini는 그 두 배 크기의 모델보다 성능이 더 뛰어나다고 회사는 밝혔습니다.

 

오늘부터 마이크로소프트 애저 AI 모델 카탈로그와 머신러닝 모델용 플랫폼인 허깅 페이스, 로컬 컴퓨터에서 모델을 실행하기 위한 경량 프레임워크인 올라마에서 사용할 수 있습니다. 또한 어디에서나 배포할 수 있는 표준 API 인터페이스를 갖춘 엔비디아 NIM 마이크로서비스로도 제공될 예정입니다.

 

또한 Microsoft는 품질과 비용 측면에서 더 많은 선택권을 제공하기 위해 Phi-3 제품군에 추가 모델을 곧 출시할 예정이라고 발표했습니다. Phi-3-small(70억 개의 매개 변수) 및 Phi-3-medium(140억 개의 매개 변수)은 Azure AI 모델 카탈로그 및 기타 모델 가든에서 곧 제공될 예정입니다. 

 

 

대규모 멀티태스크 언어 이해(MMLU) 벤치마크의 성능으로 측정한 새로운 Phi-3 모델의 품질을 비슷한 크기의 다른 모델과 비교한 그래픽입니다. (Microsoft 이미지 제공)

 

소규모 언어 모델은 간단한 작업에 적합하도록 설계되어 리소스가 제한된 조직에서 더 쉽게 접근하고 사용할 수 있으며 특정 요구 사항을 충족하도록 더 쉽게 미세 조정할 수 있습니다.

 

"우리가 보게 될 것은 대규모에서 소규모로의 전환이 아니라 단일 범주의 모델에서 고객이 자신의 시나리오에 가장 적합한 모델을 결정할 수 있는 모델 포트폴리오로의 전환입니다."라고 Microsoft의 생성 AI 수석 제품 관리자인 소날리 야다브(Sonali Yadav)는 말합니다.

 

"어떤 고객은 작은 모델만 필요할 수도 있고, 어떤 고객은 큰 모델이 필요할 수도 있으며, 많은 고객은 다양한 방식으로 두 가지를 결합하기를 원할 것입니다."라고 Microsoft의 AI 담당 부사장 Luis Vargas는 말합니다.

 

올바른 언어 모델을 선택하는 것은 조직의 특정 요구 사항, 작업의 복잡성 및 사용 가능한 리소스에 따라 달라집니다. 소규모 언어 모델은 클라우드가 아닌 디바이스에서 로컬로 실행할 수 있고 작업에 광범위한 추론이 필요하지 않거나 빠른 응답이 필요하지 않은 애플리케이션을 구축하려는 조직에 적합합니다. 

 

"어떤 고객은 소형 모델만 필요로 할 수도 있고, 어떤 고객은 대형 모델이 필요할 수도 있으며, 많은 고객은 다양한 방식으로 두 가지를 결합하고 싶어 할 것입니다." 

 

대규모 언어 모델은 고급 추론, 데이터 분석 및 컨텍스트 이해와 관련된 복잡한 작업의 오케스트레이션이 필요한 애플리케이션에 더 적합합니다.

 

또한 소규모 언어 모델은 고품질의 결과가 필요하지만 데이터를 자체적으로 보관하고자 하는 상황에 직면한 규제 대상 산업 및 부문에 잠재적인 솔루션을 제공한다고 야다브는 말합니다.

 

바르가스와 야다브는 특히 클라우드에 연결되지 않고 '엣지'에서 작동하는 스마트폰과 기타 모바일 장치에 더 뛰어난 성능의 SLM을 배치할 수 있는 기회에 대해 기대가 큽니다. (자동차 컴퓨터, Wi-Fi가 없는 PC, 교통 시스템, 공장 현장의 스마트 센서, 원격 카메라 또는 환경 규정 준수를 모니터링하는 장치를 생각해보십시오.) 데이터를 디바이스 내에 보관함으로써 사용자는 "지연 시간을 최소화하고 개인정보 보호를 극대화"할 수 있다고 바르가스는 말합니다.

 

지연 시간은 사용자 프롬프트에 대한 답변을 생성하는 데 사용되는 정보를 검색하기 위해 LLM이 클라우드와 통신할 때 발생할 수 있는 지연 시간을 말합니다. 어떤 경우에는 고품질의 답변을 기다릴 가치가 있지만 다른 시나리오에서는 사용자 만족도를 위해 속도가 더 중요할 수 있습니다.

 

SLM은 오프라인에서도 작동할 수 있기 때문에 더 많은 사람들이 이전에는 불가능했던 방식으로 AI를 활용할 수 있게 될 것이라고 바르가스는 말합니다.

 

예를 들어, 휴대폰 서비스가 없는 시골 지역에서도 SLM을 사용할 수 있습니다. 농작물을 검사하는 농부가 잎이나 가지에서 질병의 징후를 발견했다고 생각해 보세요. 농부는 시각적 기능이 있는 SLM을 사용하여 문제가 있는 작물의 사진을 찍고 해충이나 질병을 치료하는 방법에 대한 즉각적인 권장 사항을 얻을 수 있습니다.

 

"바르가스는 "네트워크가 잘 갖춰지지 않은 지역에 있더라도 디바이스를 통해 AI를 경험할 수 있을 것"이라고 말합니다.  

 

고품질 데이터의 역할

 

이름에서 알 수 있듯이 SLM은 LLM에 비해 적어도 AI 기준으로는 매우 작습니다. Phi-3-mini는 38억 개의 매개변수(모델에서 출력을 결정하는 데 도움이 되는 알고리즘 노브를 나타내는 측정 단위)를 '겨우' 가지고 있습니다. 이에 비해 가장 큰 대규모 언어 모델은 그보다 몇 배나 더 큽니다.

 

대규모 언어 모델이 가져온 생성 AI의 엄청난 발전은 대부분 그 엄청난 크기 때문에 가능한 것으로 여겨졌습니다. 하지만 Microsoft 팀은 작은 패키지로 엄청난 결과를 제공할 수 있는 작은 언어 모델을 개발할 수 있었습니다. 이러한 혁신은 학습 데이터에 대한 고도로 선별적인 접근 방식 덕분에 가능했는데, 바로 여기에서 동화책이 중요한 역할을 했습니다.

 

지금까지 대규모 언어 모델을 훈련하는 표준적인 방법은 인터넷에서 방대한 양의 데이터를 사용하는 것이었습니다. 이는 언어의 뉘앙스를 이해하고 사용자 프롬프트에 대한 지능적인 답변을 생성하기 위해 '학습'해야 하는 콘텐츠에 대한 이러한 유형의 모델의 엄청난 욕구를 충족하는 유일한 방법이라고 여겨졌죠. 하지만 Microsoft 연구원들은 다른 생각을 가지고 있었습니다.

 

"원시 웹 데이터로만 학습하는 대신 매우 높은 품질의 데이터를 찾아보는 건 어떨까요?" 더 유능한 소규모 언어 모델을 개발하기 위한 회사의 노력을 주도한 Microsoft의 생성 AI 연구 담당 부사장 Sebastien Bubeck이 물었습니다. 하지만 어디에 집중해야 할까요?

 

Microsoft 연구원들은 딸과 함께 밤마다 책을 읽는 엘단의 습관에서 영감을 받아 거의 같은 수의 명사, 동사, 형용사를 포함한 3,000개의 단어로 시작하는 개별 데이터 세트를 만들기로 결정했습니다. 그런 다음 대규모 언어 모델에 이 목록에서 명사 하나, 동사 하나, 형용사 하나를 사용하여 동화 이야기를 만들도록 요청했고, 며칠 동안 수백만 번 반복하여 수백만 개의 작은 동화 이야기를 생성했습니다. 

 

"SLM은 작업을 완료하기 위해 클라우드로 이동할 필요가 없는 계산을 위한 독보적인 위치에 있습니다." 

 

연구팀은 결과 데이터 세트를 'TinyStories'라고 명명하고 이를 사용하여 약 1,000만 개의 매개변수로 구성된 아주 작은 언어 모델을 학습시켰습니다. 놀랍게도 자체 스토리를 생성하라는 메시지가 표시되자 TinyStories로 훈련된 작은 언어 모델은 완벽한 문법을 갖춘 유창한 내러티브를 생성했습니다.

 

다음으로 연구진은 실험의 수준을 한 단계 끌어올렸습니다. 이번에는 더 많은 연구진이 교육적 가치와 콘텐츠 품질에 따라 필터링된 공개적으로 사용 가능한 데이터를 엄선하여 Phi-1을 훈련시켰습니다. 공개적으로 사용 가능한 정보를 초기 데이터 세트로 수집한 후, 연구진은 TinyStories에 사용된 프롬프트 및 시딩 공식에서 영감을 얻은 공식을 사용했지만 한 단계 더 발전시켜 더 넓은 범위의 데이터를 포착할 수 있도록 정교하게 만들었습니다. 고품질을 보장하기 위해 결과 콘텐츠를 반복적으로 필터링한 후 추가 합성을 위해 LLM에 다시 공급했습니다. 이러한 방식으로 몇 주에 걸쳐 더 뛰어난 성능의 SLM을 학습시킬 수 있을 만큼 충분한 양의 데이터 코퍼스를 구축했습니다.

 

"이러한 합성 데이터를 생성하는 데는 많은 주의가 필요합니다."라고 부벡은 AI가 생성한 데이터를 언급하며 "데이터를 살펴보고, 의미가 있는지 확인하고, 걸러내는 과정을 거칩니다. 우리가 생산한 모든 데이터를 그대로 받아들이지는 않습니다." 그들은 이 데이터 세트를 "코드교과서"라고 명명했습니다.

 

연구원들은 교사가 학생에게 어려운 개념을 설명하는 것처럼 데이터 선택에 접근하여 데이터 집합을 더욱 향상시켰습니다. "교과서와 같은 자료, 사물을 아주 잘 설명하는 양질의 문서에서 읽기 때문에 언어 모델이 이 자료를 읽고 이해하는 작업이 훨씬 쉬워집니다."라고 Bubeck은 말합니다.

 

사람이 양질의 정보와 저품질 정보를 구별하는 것은 어렵지 않지만, Microsoft 연구원들이 SLM을 훈련시키는 데 필요하다고 판단한 1테라바이트가 넘는 데이터를 분류하는 것은 LLM의 도움 없이는 불가능합니다.

 

"현재 세대의 대규모 언어 모델의 힘은 합성 데이터 생성 측면에서 이전에는 없었던 원동력입니다."라고 새로운 훈련 접근 방식을 개발한 Microsoft Research AI Frontiers Lab을 이끄는 Microsoft 부사장인 Ece Kamar는 말합니다.

 

신중하게 선택한 데이터로 시작하면 모델이 원치 않거나 부적절한 응답을 반환할 가능성을 줄이는 데 도움이 되지만, 모든 잠재적인 안전 문제를 방지하는 데는 충분하지 않습니다. 모든 생성형 AI 모델 릴리스와 마찬가지로 Microsoft의 제품 및 책임 AI 팀은 Phi-3 모델을 개발할 때 위험을 관리하고 완화하기 위해 다층적 접근 방식을 사용했습니다.

 

예를 들어, 초기 훈련 후에는 모델이 이상적으로 대응하는 방법에 대한 추가 예제와 피드백을 제공하여 추가적인 안전 계층을 구축하고 모델이 고품질 결과를 생성하는 데 도움을 줍니다. 또한 각 모델은 전문가가 잠재적인 취약점을 식별하고 해결하는 평가, 테스트 및 수동 레드팀 작업을 거칩니다.

 

마지막으로 Phi-3 모델 제품군을 사용하는 개발자는 Azure AI에서 제공되는 도구 모음을 활용하여 더 안전하고 신뢰할 수 있는 애플리케이션을 빌드할 수 있습니다.  

 

적합한 작업에 적합한 크기의 언어 모델 선택하기

 

하지만 고품질 데이터로 학습된 소규모 언어 모델도 한계가 있습니다. 대규모 언어 모델이 훨씬 더 큰 용량과 훨씬 더 큰 데이터 세트를 사용한 학습으로 인해 뛰어난 심층적인 지식 검색을 위해 설계되지 않았습니다.

 

LLM은 크기와 처리 능력으로 인해 대량의 정보에 대한 복잡한 추론에서 SLM보다 우수합니다. 예를 들어 방대한 양의 과학 논문을 탐색하고 복잡한 패턴을 분석하며 유전자, 단백질 또는 화학 물질 간의 상호 작용을 이해하는 데 도움을 주는 등 신약 개발과 관련된 기능일 수 있습니다.

 

"어떤 과제를 계획하고 그 과제가 충분히 복잡해서 그 과제를 일련의 하위 작업과 때로는 하위 작업으로 분할한 다음 그 모든 것을 실행하여 최종 답을 얻는 방법을 알아내야 하는 것과 같은 작업은 한동안 대규모 모델의 영역에 속하게 될 것입니다."라고 Vargas는 말합니다.

 

고객과의 지속적인 대화를 바탕으로 바르가스와 야다브는 작업이 너무 복잡하지 않은 경우 일부 작업을 소규모 모델에 '오프로드'하는 기업이 있을 것으로 예상합니다. 

 

 

소날리 야다브, 마이크로소프트의 제너레이티브 AI 수석 제품 관리자(사진: Microsoft의 댄 델롱)

 

 

 

예를 들어, 기업에서는 Phi-3를 사용하여 긴 문서의 요점을 요약하거나 시장 조사 보고서에서 관련 인사이트와 업계 동향을 추출할 수 있습니다. 또 다른 조직에서는 Phi-3를 사용하여 제품 설명이나 소셜 미디어 게시물과 같은 마케팅 또는 영업 팀을 위한 콘텐츠를 만드는 데 도움을 주는 카피를 생성할 수 있습니다. 또는 Phi-3를 사용하여 지원 챗봇을 구동하여 요금제나 서비스 업그레이드에 대한 고객의 기본적인 질문에 답변할 수도 있습니다.

 

내부적으로 Microsoft는 이미 대규모 언어 모델이 라우터 역할을 하는 모델 제품군을 사용하여 컴퓨팅 성능이 덜 필요한 특정 쿼리는 소규모 언어 모델에 전달하고 다른 더 복잡한 요청은 자체적으로 처리하고 있습니다.

 

"여기서 주장하는 것은 SLM이 대규모 언어 모델을 대체하거나 대체할 수 있다는 것이 아닙니다."라고 Kamar는 말합니다. 대신 SLM은 "엣지에서의 계산, 디바이스에서의 계산, 클라우드에 가지 않고도 작업을 처리할 수 있는 계산에 고유한 위치를 차지하고 있습니다. 그렇기 때문에 이 모델 포트폴리오의 강점과 약점을 이해하는 것이 중요합니다."

 

그리고 규모에는 중요한 이점이 있습니다. 소규모 언어 모델과 클라우드의 대규모 모델에서 얻을 수 있는 인텔리전스 수준 사이에는 여전히 격차가 존재한다고 부벡은 말합니다. "그리고 대형 모델은 계속 발전할 것이기 때문에 그 격차는 항상 존재할 것입니다."

 

 

관련 링크:

 

기사 출처

 

Phi-3 소개, SLM의 가능성을 재정의하다

Azure AI

Phi-3 기술 보고서: 휴대폰에서 로컬로 고성능 언어 모델 사용

 

상단 이미지: 더 뛰어난 성능의 소규모 언어 모델을 개발하기 위한 Microsoft의 노력을 주도한 제너레이티브 AI 연구 담당 부사장 세바스티앙 부벡. (사진: Microsoft의 Dan DeLong 제공) 

 

 

 

반응형