OpenAI, 자연어 처리를 위한 범용 API 공개
그간 자연어 처리 분야는 딥러닝의 부상으로 성능이 대폭 개선되어 왔고, 그 중심에는 AI를 대표하는 기업인 구글과 OpenAI가 지속적인 성과를 이룸.
○ 자연어 처리 대표적인 자연어 처리의 연구 주제는 특정 문장에서 다음에 올 단어를 예측하는 언어 모델, 질문 문장에 대한 답을 찾아내는 질의응답, 문장이나 문서의 유사성 분류, 언어를 자동으로 번역하는 기계번역 등이 있음
- 구글: 2017년 어텐션 메커니즘을 바탕으로 한 트랜스포머(Transformer), 2018년 트랜스포머를 기반 으로 한 BERT 모델을 공개하여 당시 11개의 자연어처리 과업에서 최고수준의 결과를 달성하고, 2020년에는 계산을 최적화한 리포머(Reformer) 공개
- OpenAI: 2018년 생성형 사전학습(Generative Pre-Training, GTP)을 제안하여 다양한 자연어 처리를 위해 학습된 언어 모델을 재학습시키는 접근을 취했고, 2019년에는 개선된 GTP인 GTP-2를 공개
그간의 문제점 범용적인 자연어 처리 모델은 과업에 따라 여전히 미세조정(Fine-Tuning)*해야 하는 비용이 필요하여 이것을 점진적으로 개선할 필요성 존재
* 이미 학습된 인공신경망을 유사한 과업에 전이(Transfer)하기 위해 가장 보편적으로 사용하는 방법으로 학습하고자 하는 과업에 데이터를 바탕으로 재학습하는 과정
○ OpenAI가 공개한 자연어 처리 도구인 OpenAI API는 새로운 방법론인 GPT-3를 적용하여 학습 효율을 큰 폭으로 개선
GPT-38 GPT-3은 미세조정이 없는 퓨샷 학습*을 통해 언어 모델의 학습 효율을 개선
* Few Shot 학습 상대적으로 적은 데이터로 인공신경망을 재학습하는 방법으로 하나의 데이터는 원샷, 데이터 없이 바로 새로운 과업을 적용하는 방법은 제로샷 학습이라고 불림
- 학습 데이터: 인터넷 웹페이지의 데이터를 수집하는 비영리단체인 Common Crawl 데이터를 활용했고, 정제를 거쳐 약 1조 개의 단어로 구성된 데이터로 학습
- AI 모델: 트랜스포머 기반의 GPT-2 모델을 기본으로, 학습을 위한 가중치의 수를 조정하여 GPT-3은 기존 언어 모델보다 10배 큰 총 1,750억 개의 모수를 학습
○ API OpenAI는 GPT-3 기반의 자연어 처리 도구인 모델을 공개하는 대신 베타 버전의 API를 공개하여 쉽게 활용 가능한 고성능 자연어 처리 기능을 제공
○ 이번 OpenAI의 API 공개는 AI의 악의적인 활용을 경계하며 인간 친화적인 AI 활용을 추구하는 비영리 연구조직으로서 OpenAI 조직 철학을 보여줌
○ OpenAI는 API의 활용을 통해 자연어 처리의 비용 절감, 진입 장벽 저하 등의 긍정적인 활용을 추구하며, 악의적인 활용에 대해서는 즉시 API 활용을 종료하는 기준을 명시
기사출처
OpenAI, “OpenAI API”, 2020.6.11.
OpenAI, “Language Models are Few-Shot Learners, arXiv”, 2020.6.5.
'개발자 > 인공지능과 인간' 카테고리의 다른 글
NIST, 설명가능한 AI 4원칙 발표 (0) | 2020.09.15 |
---|---|
일본, AI 특화 슈퍼컴퓨터 개발 통해세계 1위 탈환 (0) | 2020.09.03 |
美 AI4K12 이니셔티브,초중등 AI 교육 가이드라인 업데이트 (0) | 2020.08.31 |
AI-LAB 인공지능 실습 3강 머신러닝 지도학습(Supervised Learning) , 비지도학습(Unsupervised Learning) (0) | 2020.08.28 |
AI-LAB 인공지능 실습 2강 머신러닝(Machine Learning) (0) | 2020.08.27 |
AI-LAB 인공지능 실습 1강 인공지능 개요 (0) | 2020.08.26 |
AI 주도 기업들 안면인식 AI 개발 및 공급 중단 발표 (0) | 2020.08.26 |
AI 기술의 한계에 대한 냉정한 인식 필요 (0) | 2020.08.25 |
더욱 좋은 정보를 제공하겠습니다.~ ^^