메이커 Maker

데이터 과학 교육은 대규모 언어 모델로 무엇을 해야 할까요?

지구빵집 2024. 4. 8. 07:12
반응형

 

데이터 과학 교육은 대규모 언어 모델로 무엇을 해야 할까요? 

 

What Should Data Science Education Do With Large Language Models?

by Xinming Tu, James Zou, Weijie Su, and Linjun Zhang

Published on

Jan 20, 2024 

 

초록

 

ChatGPT와 같은 대규모 언어 모델(LLM)의 급속한 발전은 데이터 과학과 통계에 혁명을 일으키고 있습니다. 이러한 최첨단 도구는 데이터 정리, 모델 구축, 해석, 보고서 작성과 같은 복잡한 프로세스를 간소화할 수 있습니다. 그 결과 데이터 과학자의 역할이 재편되고 있습니다. 머신러닝은 데이터 과학자의 책임을 변화시키고 있으며, 코딩, 데이터 랭글링, 표준 분석 수행에서 자동화된 AI가 수행하는 분석의 평가 및 관리로 초점을 옮기고 있습니다. 이러한 역할의 변화는 소프트웨어 엔지니어가 제품 관리자로 전환하면서 전략 기획, 리소스 조정, 전체 제품 수명 주기 감독 등의 업무가 코드 작성 업무를 대체하는 것과 유사합니다. 이 글에서는 LLM을 활용한 구체적인 데이터 과학 사례 연구를 통해 이러한 변화를 설명합니다.

 

이러한 발전은 데이터 과학 교육에 의미 있는 진화를 요구합니다. 이제 교육은 LLM에 기반한 창의성, 비판적 사고, AI 가이드 프로그래밍, 학제 간 지식 등 학생들에게 다양한 기술을 배양하는 데 더 중점을 두어야 합니다. 또한 LLM은 교실에서 대화형 교육 및 학습 도구로서 중요한 역할을 수행하여 개인 맞춤형 교육과 풍부한 학습 경험에 기여할 수 있습니다. 이 문서에서는 이러한 각 방향에 대한 기회와 리소스, 그리고 미해결 과제에 대해 설명합니다. 다른 혁신적인 기술과 마찬가지로 LLM을 교육에 통합하려면 신중한 고려가 필요하며, LLM의 한계와 실패 사례에 대해서도 논의합니다. LLM은 반복적인 작업을 효율적으로 수행할 수 있지만, 인간의 지능과 창의성을 대체하는 것이 아니라 보완하는 역할을 한다는 점을 기억해야 합니다. 따라서 새로운 데이터 과학 교육의 시대는 인간의 전문성과 혁신을 보완하는 동시에 LLM의 이점을 균형 있게 발전시켜야 합니다. LLM의 부상으로 데이터 과학과 그 교육이 변화함에 따라 이 글에서는 이러한 패러다임 변화에 따른 새로운 트렌드, 잠재적 기회, 도전과제를 조명하여 이 흥미진진한 새 영역에 대한 더 많은 담론과 연구가 촉발되기를 바랍니다.

 

키워드: 대규모 언어 모델, ChatGPT, 데이터 과학, 교육 

 

1. 소개

 

인공 지능의 급속한 발전으로 강력한 도구가 개발되었으며, 그 중 가장 주목할 만한 것 중 하나는 OpenAI의 ChatGPT와 같은 대규모 언어 모델(LLM)입니다. 이러한 모델은 인간과 유사한 텍스트를 이해하고 생성하는 데 있어 놀라운 능력을 보여주었으며, 다양한 자연어 처리 작업에서 기존 알고리즘을 능가하는 경우가 많습니다. LLM의 등장은 데이터 과학 분야의 패러다임 변화를 가져왔으며 데이터 과학 교육에 대한 접근 방식을 바꿀 수 있는 잠재력을 가지고 있습니다. 이 글에서는 이 분야에서 LLM이 미치는 영향에 초점을 맞출 것입니다.

 

데이터 과학자의 역할은 하버드 비즈니스 리뷰에서 '21세기의 가장 섹시한 직업'으로 소개된 바 있습니다. 이는 디지털 정보의 폭발적인 증가로 인해 의료, 광고 추천, 취업 지원과 같은 데이터 기반 영역에서 전문 지식이 필요해졌기 때문입니다. 데이터 과학 교육은 학생들이 빠르게 진화하는 이 분야에서 필요한 지식과 기술을 갖추도록 하는 것을 목표로 합니다. LLM의 등장은 데이터 과학 교육의 내용(무엇을 가르치고 배울 것인가)과 데이터 과학 교육의 방법(어떻게 가르치고 배울 것인가) 모두에 변화를 요구하면서 이러한 환경을 더욱 혁신적으로 변화시키고 있습니다. 교육자와 학생 모두 이 새로운 시대에 LLM의 혁신적 힘을 인식하고 적응해야 할 의무가 있습니다.

 

OpenAI의 GPT-4와 같은 LLM의 등장은 수많은 산업, 특히 데이터 과학 분야에서 혁신적인 변화를 의미합니다. 최근의 연구 결과는 다양한 데이터 분석 작업에서 인간과 동등한 성능을 보여주는 GPT-4의 인상적인 기능을 더욱 입증합니다. 복잡한 프로세스를 자동화하고 코드 생성을 간소화하며 역할 전환을 용이하게 함으로써 LLM은 데이터 과학 파이프라인뿐만 아니라 데이터 과학 교육의 근본적인 성격도 재정의할 수 있는 잠재력을 지니고 있습니다. 이 새로운 LLM 시대에 학생들은 자신을 소프트웨어 엔지니어가 아닌 제품 관리자로 보는 법을 배워야 합니다. 즉, 표준 데이터 분석 파이프라인이 아닌 전략적 계획, 리소스 조정, 전체 제품 수명 주기 감독으로 초점을 옮겨야 합니다.

 

이 글에서는 심장 질환 데이터 세트를 활용하여 코드 플러그인이 탑재된 LLM인 ChatGPT-플러그인의 기능을 설명함으로써 데이터 과학 파이프라인에서 LLM의 혁신적 잠재력을 총체적으로 살펴볼 것입니다. 이 모델은 데이터 정리 및 탐색부터 모델 구축, 해석, 보고서 작성에 이르는 다양한 작업을 수행하여 놀라운 적응력과 문제 해결 능력을 보여줍니다. 데이터 과학 파이프라인의 다양한 단계를 향상시키고 데이터 과학자의 책임을 재정의하는 데 있어 LLM의 역할과 함께 데이터 과학 교육에서 창의성, 비판적 사고, LLM 가이드 프로그래밍, 학제 간 지식을 아우르는 다양한 스킬 세트를 강조하는 방향으로 변화하는 추세에 대해 살펴볼 것입니다.

 

이에 따라 데이터 과학 교육에 LLM을 통합하는 방법을 살펴봅니다. 커리큘럼 설계부터 개인 맞춤형 튜터링, 자동화된 교육 시스템 개발에 이르기까지 LLM은 교육과 학습 경험을 풍부하게 할 수 있는 수많은 가능성을 제공합니다. 교육자는 LLM을 활용하여 역동적인 커리큘럼을 설계하고, 상황에 맞는 사례를 생성하고, 업계 동향을 파악할 수 있습니다. 또한 강력한 조교로서 LLM은 학생에게 개인화된 가이드를 제공하여 보다 참여도 높은 대화형 학습 환경을 조성할 수 있습니다.

 

그러나 교육 과정에서, 특히 학생들이 아직 기초 기술을 개발하는 초기 단계에 LLM을 조기에 도입하는 것과 관련된 위험을 강조하는 것이 중요합니다. 가장 큰 위험은 학생들이 모델 결과의 정확성과 타당성을 판단할 수 있는 필수 기술을 개발하기 전에 LLM에 지나치게 의존하게 될 수 있다는 것입니다. 이러한 지나친 의존은 기본 지식을 깊이 있고 진정성 있게 파악하는 능력을 저해할 수 있습니다. 코딩, 통계 및 수학적 문제 해결에 대한 탄탄한 기초는 학생들이 LLM이 생성한 결과물의 정확성과 관련성을 비판적으로 평가하는 데 매우 중요하며, 이는 교육 과정의 초등 및 초기 단계에서 육성될 필요가 있습니다. 따라서 이 글에서는 주로 중급에서 고급 교육 단계, 특히 데이터 과학을 주로 가르치는 고등 교육 환경에서 LLM을 통합하는 데 중점을 둡니다.

 

이 글의 구성은 다음과 같습니다. 먼저 LLM과 데이터 과학 교육의 현황에 대한 개요를 살펴본 다음, LLM이 데이터 과학에 미치는 영향과 학생들이 패러다임 변화에 대비할 수 있도록 교육 내용을 재정의해야 할 필요성에 대해 논의합니다. 그런 다음, 개인화된 학습 경험을 촉진하는 자동화된 교육 시스템을 구상하면서 대화형 교육 및 학습 도구로서 LLM의 잠재력을 살펴봅니다. 그다음에는 LLM을 교육 시스템에 통합할 때 필요한 예방 조치와 고려 사항을 살펴보고, 인간의 지능과 창의성을 키우면서 반복적인 작업을 줄이기 위해 LLM을 활용하는 것의 균형을 강조합니다. 마지막으로 데이터 과학 교육의 미래를 살펴보며 앞으로의 잠재적 기회와 도전 과제에 대해 논의합니다.

 

2. LLM과 데이터 과학 교육의 현황

 

2.1. LLM의 현황

 

LLM은 인간의 언어를 매우 정확하게 이해하고 해석하며 생성하도록 고안된 강력한 인공 지능 모델입니다. 생성적 사전 훈련 트랜스포머(GPT)는 가장 강력한 LLM 중 하나입니다. GPT를 뒷받침하는 기본 원리는 다음 단어 예측으로, 겉보기에는 단순해 보이는 이 개념이 놀라운 성능을 발휘하는 원동력입니다.

 

LLM의 놀라운 능력은 방대한 데이터 세트를 처리하고 추론하며 학습하는 능력에 기인합니다. 이러한 데이터 세트는 코드 저장소, 온라인 대화, 기사, 기타 다양한 인터넷 리소스 등 다양한 소스에서 선별된 수십억 개의 단어와 구문으로 구성되는 경우가 많습니다. 이 포괄적인 교육을 통해 LLM은 언어에 대한 폭넓은 이해와 상식, 추론 능력을 배양하여 지능과 유사한 모습을 보여줄 수 있습니다.

 

OpenAI의 최근 획기적인 기술인 ChatGPT(GPT-4 기반)는 수많은 작업을 수행하는 데 있어 LLM의 인상적인 잠재력을 강조합니다. 이러한 혁신은 교육, 프로그래밍 및 광범위한 노동 시장을 포함한 다양한 사회적 측면에 걸쳐 혁명적인 변화를 일으킬 준비가 되어 있으며, 인공지능의 미래 궤적과 실제 적용을 이끄는 데 있어 LLM의 변혁적인 영향력을 강조합니다. 또한, 최근의 발전으로 LLM은 다양한 도구를 적응하고 활용할 수 있는 능력을 갖추게 되어 전례 없는 수준의 역량을 갖추게 되었습니다. 예를 들어 코드 인터프리터와의 통합을 통해 LLM은 코드 생성 중 자동 디버깅을 비롯한 복잡한 코딩 작업을 수행할 수 있습니다. 또한 검색 기능을 통해 LLM은 최신 정보에 액세스할 수 있으므로 관련성과 실질적인 유용성이 향상됩니다.

 

2.2. 데이터 과학 교육 현황

 

전통적인 데이터 과학 커리큘럼은 학생들에게 이 분야의 탄탄한 기초를 제공하기 위한 다양한 과목을 포함합니다. 핵심 주제에는 통계, 확률, 선형 대수, 프로그래밍(보통 Python 또는 R 언어 사용), 기계 학습 알고리즘, 데이터 시각화 및 데이터베이스 ; 등이 포함됩니다. 커리큘럼은 학생들이 데이터를 수집, 분석, 해석하고 금융, 의료, 사회과학 등 다양한 애플리케이션을 위한 모델을 만들고 배포하는 데 필요한 기술적 능력을 갖추도록 설계되었습니다.

 

데이터 과학 교육의 교육 방법에는 일반적으로 강의, 실습, 과제가 결합되어 있습니다. 강의에서는 이론적 배경을 제공하고 학생들에게 주요 개념과 원리를 소개합니다. 실습에서는 코딩 연습과 인기 있는 데이터 과학 라이브러리 및 도구의 사용을 통해 이러한 개념을 실제로 적용해 볼 수 있는 경험을 제공합니다. 과제와 프로젝트는 학생들이 실제 또는 시뮬레이션된 데이터 세트와 관련된 실제 문제에 자신의 지식을 적용하도록 도전함으로써 학습 과정을 더욱 강화합니다.

 

3. 데이터 과학 교육 콘텐츠에 미치는 영향

 

LLM이 데이터 과학 파이프라인에 혁명을 일으키면서, 그 혁신적 잠재력이 데이터 과학 교육에 큰 변화를 일으키고 있습니다. 이 섹션에서는 이러한 발전이 데이터 과학 교육의 내용, 즉 '무엇'을 어떻게 변화시키고 있는지에 대해 집중적으로 다룰 것입니다. 다음 섹션에서는 LLM을 교육 시스템에 통합하는 진화하는 방법론, 즉 '방법'에 대해 살펴볼 것입니다. 먼저 파이프라인의 다양한 단계를 간소화하는 것부터 시험 문제 해결에 이르기까지 LLM이 교육 분야를 어떻게 재편하고 있는지 살펴볼 것입니다.

 

3.1. 대규모 언어 모델을 통한 데이터 사이언스 파이프라인의 혁신

 

LLM은 그림 1에서 볼 수 있듯이 복잡한 프로세스를 단순화하고, 코드 생성을 자동화하며, 데이터 과학자의 역할을 재정의함으로써 데이터 과학 파이프라인을 혁신할 수 있는 잠재력을 가지고 있습니다. LLM의 도움으로 데이터 과학자는 질문 설계 및 프로젝트 관리와 같은 더 높은 수준의 작업에 집중하여 제품 관리자와 유사한 역할로 효과적으로 전환할 수 있습니다.

 

 

 

그림 1. LLM(대형 언어 모델)은 데이터 정리 및 탐색부터 모델 구축 및 최종 프레젠테이션에 이르기까지 데이터 과학 파이프라인을 잠재적으로 변화시킬 수 있습니다. 데이터 과학의 미래 파이프라인은 인간 지능과 LLM 간의 협력입니다.

 

 

 

다음 사례 연구에서는 LLM이 다음을 포함하여 데이터 과학 파이프라인의 다양한 단계를 크게 간소화할 수 있음을 보여줄 것입니다:

 

  • 데이터 정리: LLM은 원시 데이터를 정리, 전처리 및 변환하기 위한 코드를 자동으로 생성하여 데이터 과학자의 시간과 노력을 크게 절약할 수 있습니다.
  • 데이터 탐색: LLM은 데이터의 패턴, 상관관계, 이상값을 식별하는 탐색적 데이터 분석을 위한 코드를 생성할 수 있습니다.
  • 모델 구축: LLM은 당면한 문제에 따라 적절한 머신 러닝 모델을 제안하고 이러한 모델을 학습 및 평가하는 데 필요한 코드를 생성할 수 있습니다.
  • 모델 해석: LLM은 데이터 과학자가 구축한 모델의 복잡성을 이해하고, 중요한 기능을 강조하고, 사람이 읽을 수 있는 용어로 모델 동작을 설명하는 데 도움을 줄 수 있습니다.
  • 결과 프레젠테이션: LLM은 시각 자료, 보고서, 요약을 생성하여 데이터 과학 프로젝트의 결과를 기술 및 비기술 이해관계자 모두에게 효과적으로 전달할 수 있습니다.

 

데이터 과학 파이프라인에서 LLM의 혁신적 잠재력을 설명하기 위해 다음 예를 살펴봅시다:

 

우리는 다양한 심혈관 위험 요인을 가진 개인의 기록과 진단 정보가 포함된 심장 질환 데이터 세트를 Kaggle에서 사용합니다. 이 데이터 세트의 주요 목표는 이러한 위험 요소와 심장 질환 사이의 상관관계를 면밀히 조사하고 심장 질환에 대한 예측 모델을 구축하는 것입니다. 이 데이터 세트는 2021년 9월 이후에 Kaggle에 게시되었습니다. ChatGPT(GPT-4, GPT-3.5 터보)의 학습 데이터는 시스템 프롬프트에 따라 2021년 9월까지만 확장됩니다.

 

우리의 목표는 생성된 코드를 실행할 수 있도록 Python 인터프리터와 상호 작용할 수 있는 ChatGPT 코드 플러그인을 사용하여 이 데이터 세트에 대한 데이터 과학 파이프라인 분석을 수행하는 것입니다. 몇 가지 프롬프트만 제공함으로써 데이터 정리, 데이터 탐색, 모델 구축, 모델 해석, 궁극적으로 보고서 작성과 같은 작업을 수행하는 것을 목표로 합니다.

 

결과는 표 1에 요약되어 있습니다. '프롬프트 입력'이라는 레이블이 붙은 왼쪽 열에는 모든 텍스트 입력(계속 및 해당 확인 응답 제외)이 포함되어 있다는 점에 유의해야 합니다. 오른쪽 열의 '코드 인터프리터가 있는 ChatGPT'라는 레이블이 붙은 열에는 코드 플러그인을 사용하여 ChatGPT가 완료한 모든 작업이 나열되어 있습니다.

 

제시된 결과는 2023년 5월 5일 현재 코드 인터프리터가 포함된 ChatGPT 버전에 한정된 것으로, (Chen et al., 2023)에서 설명한 대로 ChatGPT의 기능은 시간이 지남에 따라 발전하기 때문입니다. 결과에서 알 수 있듯이, 몇 개의 단어로 구성된 간단한 프롬프트만으로 ChatGPT는 전체 데이터 분석 파이프라인을 완료할 수 있습니다. 자세한 프롬프트와 ChatGPT와의 전체 대화 내역은 부록에 나와 있습니다.

 

 

표 1. 프롬프트에 따라 ChatGPT가 완료한 작업 요약.

 

프롬프트 입력 a 코드 인터프리터를 사용하여 ChatGPT가 완료한 작업 b
일부 데이터 정리 수행 누락/무효 값 확인 
필요한 경우 중복 행 제거 
일관되지 않거나 유효하지 않은 값 확인 
범주형 열을 숫자 표현으로 변환하기
일부 데이터 탐색 수행 요약 통계 계산 
분포도 만들기 
상관 관계 행렬 계산 
심장 질환 유병률 분석
심장 질환 예측 모델 구축 데이터를 훈련/테스트 세트로 분할하기 
로지스틱 회귀 모델 훈련 
모델 성능 평가 
결과 해석
더 나은 모델 사용 랜덤 포레스트, 서포트 벡터 머신을 사용해 보세요, 
그라디언트 부스팅 
각 모델에 대한 정확도 보고 
이러한 모델에 대한 성능 플롯 막대형 막대그래프 및 모델 성능 비교 만들기
최상의 모델 사용 및 개선 시도 그리드 검색 수행 
교차 검증으로 평가하기 
검색 공간 줄이기 
최종 모델 가져오기
다양한 매개변수에 대한 성능 플롯 다양한 매개 변수에 대한 성능 플롯 만들기
최상의 모델 해석하기 기능 중요성 얻기 및 결과 설명하기
프로젝트에 대한 보고서 작성 포괄적인 보고서 작성

 

a. 첫 번째 열은 ChatGPT에 제공되는 입력 프롬프트를 나타냅니다. 매우 간단한 프롬프트를 사용하여 ChatGPT의 기능을 보여주었습니다.

 

b. 두 번째 열에는 이러한 프롬프트에 응답하여 ChatGPT가 수행한 작업이 요약되어 있습니다.

 

데이터 탐색, 모델 구축, 하이퍼파라미터 검색, 모델 해석, 보고서 작성 등 ChatGPT가 생성한 그림과 코드를 모두 보여드리기 위해 몇 가지 선택적 작업을 강조했습니다.

 

예를 들어, 몇 가지 데이터 탐색을 하라는 메시지가 주어지면 ChatGPT는 데이터 탐색을 위한 분포도를 생성합니다(그림 2).

 

그림 2. 생성된 분포도에 표시된 데이터 탐색을 위한 코드 생성에 대한 ChatGPT의 기능. 왼쪽에는 ChatGPT가 생성한 4개의 분포도가 있고, 오른쪽에는 이러한 플롯을 생성하는 데 사용된 코드의 스냅샷이 있습니다.

 

 

더 나은 모델 사용 메시지가 표시되면 ChatGPT는 랜덤 포레스트, 서포트 벡터 머신, 그라데이션 부스팅을 사용한 다음 막대 차트를 표시하여 예측 성능을 비교합니다(그림 3).

 

그림 3. 다중 모델 구축: ChatGPT는 랜덤 포레스트, 서포트 벡터 머신, 그래디언트 부스팅 방법을 시도하고 성능을 비교했습니다. 왼쪽에는 다양한 모델의 예측 성능을 나타내는 막대 그래프가 있습니다. 오른쪽에는 이러한 플롯을 생성하는 데 사용된 코드의 스냅샷이 있습니다.

 

 

또한 ChatGPT는 하이퍼파라미터 검색을 실행하여 가장 성능이 좋은 모델을 개선할 수 있습니다. 이 작업에 대한 응답으로 검색 공간을 자율적으로 정의하고 최적의 모델을 식별합니다(그림 4). 최상의 모델을 해석하라는 프롬프트에 따라 ChatGPT는 기능 중요도 점수를 활용하여 모델을 설명하고 각 기능의 중요도를 설명하는 플롯을 생성합니다(그림 5). 마지막으로 이 프로젝트에 대한 보고서 작성 프롬프트를 사용하여 ChatGPT는 이전 섹션을 모두 요약하는 프로젝트 보고서의 초안을 생성했습니다. 출력 컨텍스트에는 한계가 있고 세부적인 세부 사항이 부족하지만, 그럼에도 불구하고 프로젝트에 대한 만족스러운 보고서를 제공합니다.

 

 

그림 4. 하이퍼파라미터 최적화: ChatGPT는 또한 하이퍼파라미터 공간을 검색하여 최적의 모델을 식별하는 기능을 보여줍니다. 왼쪽에는 다양한 하이퍼파라미터에 해당하는 평균 교차 검증 정확도가 있습니다. 오른쪽의 코드 스냅샷은 이러한 플롯을 생성하는 데 사용된 프로세스를 보여줍니다.

 

 

놀랍게도 ChatGPT는 오류가 발생하면 오류 출력 정보를 기반으로 자동 디버깅하고 스스로 코드를 수정할 수 있습니다. 또한, 하이퍼파라미터 검색을 수행할 때 예상보다 프로세스가 오래 걸리는 경우(시간 초과 오류 발생) ChatGPT는 검색 공간을 줄이는 방법을 지능적으로 학습할 수 있습니다. 대화 기록의 수치가 포함된 자세한 보기는 보충 자료를 참조하세요. 이러한 수준의 적응성은 데이터 과학 파이프라인을 구현하는 데 있어 ChatGPT의 놀라운 역량을 보여줍니다.

 

 

그림 5. 모델 설명: "최고의 모델 해석" 프롬프트를 통해 ChatGPT는 기능 중요도 점수를 사용하여 모델을 설명하고 어떤 기능이 더 중요한지 보여주는 플롯을 제공할 수 있습니다. 왼쪽: 기능 중요도 막대 그래프. 오른쪽: 플롯을 생성하기 위한 코드 스냅샷.

 

 

3.2. ChatGPT의 시험 응시 능력

 

이 하위 섹션에서는 개념 문제와 코딩 문제가 모두 포함된 통계 시험에 대한 ChatGPT의 평가를 실시합니다. 이를 위해 15개 장으로 구성된 "통계적 사고 입문 Introduction to Statistical Thinking"에서 연습 문제를 제공했습니다. 이 책은 널리 사용되지 않기 때문에 데이터 유출의 위험을 최소화하고 원본 솔루션은 R로 제공되지만, ChatGPT는 Python으로 솔루션을 생성하여 일반화된 성능을 강조하는 역할을 합니다.

 

 

그림 6. ChatGPT는 코드 플러그인을 사용하여 "통계적 사고 소개" 책에 나오는 116개 연습 문제 중 104개를 풀 수 있었습니다. 그러나 수치를 입력으로 요구하는 4가지 연습에서 ChatGPT는 어려움을 겪고 나머지 8가지 연습에서 실수를 저질렀습니다.

 

 

모든 문제(특히 방정식)를 라텍스 버전으로 변환했으며, 별도의 엔지니어링 없이 라텍스의 문제 문장을 입력으로 사용했습니다. 그런 다음 ChatGPT가 제공하는 솔루션을 책의 솔루션과 비교하고 이 비교를 기반으로 점수를 수동으로 부여했습니다. 그 결과 ChatGPT는 총 116점 중 104점을 획득하며 인상적인 성능을 보여주었습니다. 이 모델은 그림의 해석을 입력으로 요구하는 일부 문제(총 4점)에 대한 답을 얻지 못했습니다(그림 6). 주요 실패 원인은 주로 '표의 입력 형식을 해석하는 방법을 모름'과 같이 모델이 문제를 잘못 이해했기 때문이었습니다. 이러한 문제와 관련된 자세한 대화 내용은 보충 자료에서 확인할 수 있습니다.

 

최근 연구에 따르면 ChatGPT는 다양한 데이터 분석 작업에서 종종 인간과 유사한 성능을 보이는 등 유망한 결과를 보여주고 있습니다. 이 결과가 모델의 우월성이나 인간의 숙련도와 동등함을 나타내는 것은 아니라는 점을 명심해야 합니다. 이는 학생들이 표준 시험 문제를 조작하기 위해 ChatGPT와 같은 고급 AI 모델을 오용할 수 있음을 보여주기 위한 것입니다. 따라서 우리는 경계를 늦추지 말고 교육 및 평가 방식을 적절히 조정해야 합니다. 교육 방식이 LLM에 어떻게 적용되어야 하는지는 섹션 5에서 논의하겠습니다.

 

위의 두 가지 사례에서 LLM의 놀라운 역량을 살펴본 것처럼, 전통적인 데이터 과학 워크플로는 패러다임의 전환을 목전에 두고 있습니다. LLM은 데이터 과학자의 역할과 프로그래밍 자체의 성격까지 변화시키고 있습니다. 데이터 과학 파이프라인에 LLM의 통합이 증가함에 따라, 미래의 데이터 과학자는 일상적인 작업을 LLM에게 위임하여 질문 설계 및 프로젝트 관리와 같은 더 높은 수준의 작업에 더 집중할 수 있게 될 것입니다. 데이터 과학 교육 콘텐츠에서 LLM이 할 수 있는 일을 설명했으니, 다음 섹션에서는 교육 효과를 높이기 위해 LLM을 데이터 과학 교육에 통합하는 방법에 대해 알아보겠습니다.

 

4. 데이터 과학 교육에서 대규모 언어 모델 사용하기

 

LLM은 데이터 과학 교육에 큰 영향을 미치지만, 동시에 교육 효과를 통합하고 향상시킬 수 있는 새로운 기회도 제공합니다. 최첨단 자연어 처리 도구인 LLM은 교육 및 학습 경험을 풍부하게 하고, 교육자와 학생이 데이터 과학에 접근하는 방식을 혁신할 수 있는 다양한 가능성을 제공합니다. 이 섹션에서는 커리큘럼 설계와 개인 맞춤형 튜터링이라는 두 가지 핵심 측면에 초점을 맞춰 데이터 과학 교육에 LLM을 통합하는 방법을 살펴봅니다.

 

맞춤형 커리큘럼 설계의 예

 

프롬프트: 학생들에게 데이터 과학에 대해 가르치고 싶은데, 학생들은 파이썬에 익숙하지 않으니 커리큘럼 설계를 도와주세요.

 

ChatGPT: 물론 Python에 익숙하지 않은 학생들에게 데이터 과학을 가르치기 위한 커리큘럼을 설계하는 데 기꺼이 도와드리겠습니다. 이 커리큘럼은 먼저 학생들에게 Python 프로그래밍의 기초를 소개한 다음 핵심 데이터 과학 개념과 기술을 심도 있게 다룰 것입니다.

 

  • 데이터 과학 입문
  • Python 프로그래밍 입문
  • 데이터 조작 및 분석
  • 데이터 시각화
  • 통계 분석 및 가설 테스트
  • 머신 러닝 기초
  • 머신 러닝 모델 및 평가
  • 딥 러닝 소개
  • 데이터 과학 프로젝트

 

이 커리큘럼은 매우 일반화된 커리큘럼이라는 점에 유의하세요. 학생의 배경과 속도에 따라 내용과 속도를 조정해야 할 수도 있습니다. 기본부터 시작하여 점차 더 복잡한 주제로 넘어가는 것이 좋습니다.

 

프롬프트: 모든 학생들이 생물학을 공부하고 있는데 커리큘럼을 수정해 주시겠어요?

 

ChatGPT: 물론이죠! 학생들이 생물학을 공부하고 있다는 점을 고려하여 생물학적 데이터에 데이터 과학 기술을 적용하는 데 초점을 맞춘 커리큘럼을 수정해 보겠습니다:

 

  • 생물학 데이터 과학 입문
  • 생물학을 위한 Python 기초
  • 생물학에서의 탐색적 데이터 분석
  • 생물학에서의 머신 러닝
  • 생물학에서의 딥 러닝
  • 유전체학 및 생물정보학
  • 생물학의 데이터 과학 프로젝트

 

 

4.1. LLM으로 커리큘럼 설계하기

 

먼저, 교육자가 역동적이고 매력적인 커리큘럼을 설계하고 학생들이 복잡한 개념을 보다 쉽게 이해할 수 있도록 맥락에 맞는 예제, 연습 문제, 설명을 생성하는 데 LLM이 어떻게 도움이 되는지 살펴봅니다. 중요한 점은 교육자가 최신 발전과 업계 동향을 최신 상태로 유지하여 교육 과정이 데이터 과학 분야의 진화하는 요구사항에 부합하고 관련성을 유지할 수 있게 해준다는 점입니다.

 

위의 예에서는 Python에 대한 배경 지식이 없는 학생들을 위한 데이터 과학 교육 커리큘럼을 개발하기 위해 ChatGPT와 협력하고 있습니다. 이에 따라 ChatGPT는 데이터 과학에 대한 포괄적인 교육 계획을 수립합니다. 또한 학생들의 주요 전공 분야가 생물학이라고 지정하면 ChatGPT는 학생들의 필요에 맞게 커리큘럼을 수정합니다. 여기서는 분량의 제한으로 인해 대화의 모듈 제목만 소개하며, 각 모듈의 세부 내용을 포함한 전체 대화는 보충 자료에서 확인할 수 있습니다.

 

또한, ChatGPT는 퀴즈 설계에 도움을 줄 수 있습니다. 다음 예시에서는 가설 테스트와 관련된 10개의 구체적인 질문을 생성하기 위해 ChatGPT를 활용했습니다.

 

퀴즈 생성 예시

 

프롬프트: 가설 테스트에 관한 구체적인 질문 10개를 알려주세요.

 

ChatGPT:

 

  1. 연구에서 테스트하려는 귀무가설은 무엇입니까?
  2. 귀하의 연구에서 대립 가설은 무엇이며 귀무 가설과 어떤 관련이 있습니까?
  3. 가설 검정에 어떤 통계 검정(예: t-검정, 카이제곱 검정, 분산 분석)을 사용하고 있으며 이 검정을 선택한 이유는 무엇입니까?
  4. 가설 검정을 위해 어떤 유의 수준(\alpha)을 선택했으며 그 이유는 무엇입니까?
  5. 가설 검정을 수행하기 전에 가정 확인(예: 정규성 또는 분산의 동질성 확인)을 수행했습니까? 그렇다면 결과는 어땠나요?
  6. 선택한 통계 테스트의 가정에 대한 위반이 있는 경우 분석에서 이를 어떻게 해결하고 있습니까?
  7. 연구에서 유형 I 또는 유형 II 오류 가능성을 어떻게 해결하고 있습니까?
  8. 테스트의 검정력은 무엇이며 관심 있는 효과를 감지하는 데 적합합니까?
  9. 가설 검정(p-값)의 결과는 무엇이며, 연구 맥락에서 이러한 결과를 어떻게 해석합니까?
  10. 가설 테스트 결과를 바탕으로 연구 질문에 대해 어떤 결론을 내리고 있으며 향후 연구에 어떤 영향을 미치나요? 

 

 

4.2. 조교로서의 LLM

 

대규모 언어 모델은 강력한 교육 도구이자 맞춤형 튜터로서 학생들의 학습 여정 전반을 지원함으로써 교육에 큰 영향을 미칠 수 있는 잠재력을 가지고 있습니다. 교육 연구자 벤자민 블룸이 관찰한 현상인 2 시그마 문제는 개인 튜터가 전통적인 그룹 수업에 비해 학생의 성적을 2 표준 편차 향상시킬 수 있다는 점을 강조합니다.

 

현재 코딩을 위한 GPT 기반 도구 목록을 정리하여 표 2에 요약해 놓았습니다. 이러한 도구는 학생들의 코드 작성, 디버깅 및 해석을 지원하는 등의 기능을 제공합니다. 이러한 AI 지원 리소스는 코딩 작업에 대한 힌트를 제공하거나 직접 안내하는 조교 역할을 합니다. 이러한 접근 방식은 학생들의 프로그래밍 학습 경험을 크게 향상시킵니다.

 

표 2. 다양한 AI 도구와 그 기능에 대한 개요

 

도구 이름 기능
깃허브 코파일럿 OpenAI 코덱스를 사용하여 실시간 코드를 제안하고 에디터에서 직접 기능을 완성합니다. 
깃허브 코파일럿 X 채팅 및 터미널 인터페이스, 풀 리퀘스트 지원, OpenAI의 GPT-4와의 통합 기능을 갖춘 AI 기반 소프트웨어 개발 도구입니다. 
커서 ChatGPT 스타일의 AI 프로그래밍 통합 개발 환경(IDE)입니다. 
ChatGPT 플러그인 코드 인터프리터 Python을 해석하고 파일 업로드 및 다운로드를 관리할 수 있는 ChatGPT 모델의 버전입니다. 
ChatGPT 플러그인 Wolfram 프로그래밍 및 문제 해결을 위해 Wolfram 언어를 활용하는 ChatGPT의 변형입니다.
LangChain  일련의 메모리 시스템 구현과 함께 표준화된 메모리 인터페이스를 제공합니다. 메모리 시스템을 활용하여 보다 복잡한 작업의 실행을 용이하게 합니다.

 

 

또한, 가까운 미래에 LLM은 더 광범위한 맥락에서 가상 조교 역할을 할 것으로 예상됩니다. 이러한 AI 기반 튜터는 학생의 질문에 답변하고, 복잡한 개념을 명확히 설명하며, 추가 학습을 위한 맞춤형 추천을 제공할 수 있습니다. 참여형 대화형 학습 환경을 조성함으로써 LLM은 학생들이 어려움을 극복하고 교육 목표를 달성하도록 도울 수 있습니다.

 

교육에 LLM을 사용하면 블룸이 파악한 성과 격차를 좁히고 개인화된 학습 경험을 더 쉽고 효율적으로 만들 수 있습니다. 다음 그림에서 학생이 A/B 테스트에 대해 더 자세히 알고 싶을 때 ChatGPT는 개념을 친절하게 설명하고 이해를 돕기 위해 예시를 제공합니다.

 

개인 튜터의 예

 

프롬프트: A/B 테스트가 무엇인가요? 예시가 있나요?

 

ChatGPT: 분할 테스트 또는 버킷 테스트라고도 하는 A/B 테스트는 웹 페이지, 광고 또는 기타 디지털 콘텐츠의 두 개 이상의 버전을 비교하여 어느 것이 더 나은 성과를 내는지 확인하는 방법입니다. 가장 효과적인 요소를 파악하고 구현하여 사용자 참여도, 전환율 또는 기타 핵심 성과 지표(KPI)를 개선하는 것이 목표입니다.

 

A/B 테스트에서는 잠재 고객을 무작위로 그룹으로 나누어 각 그룹이 서로 다른 버전의 콘텐츠(버전 A와 버전 B)에 노출되도록 합니다. 그런 다음 각 버전의 성과를 측정하고 비교하여 어떤 버전이 더 나은 결과를 가져오는지 결정합니다.

 

예시: 전자상거래 웹사이트를 운영하면서 뉴스레터에 가입하는 사용자 수를 늘리고 싶다고 가정해 보겠습니다. 뉴스레터 구독 버튼의 디자인을 변경하면 가입률에 영향을 미칠 수 있다는 가설을 세웁니다.

 

버전 A: 통제 버전으로, 현재 뉴스레터 구독 버튼의 디자인인 "뉴스레터 구독"이라는 일반 텍스트 링크를 사용합니다.

 

버전 B: 치료 버전으로, 밝은 색상의 더 눈에 잘 띄는 버튼과 "독점 할인 받기 - 지금 구독하세요!"라는 텍스트가 포함된 새로운 디자인을 사용합니다.

 

그런 다음 웹사이트 방문자에게 버전 A 또는 버전 B의 구독 버튼이 표시되도록 무작위로 할당합니다. 충분한 데이터를 수집한 후 결과를 분석하여 어떤 버전이 더 높은 가입률을 기록했는지 확인합니다. 버전 B가 버전 A보다 더 높은 성과를 보인다면 뉴스레터 구독을 늘리기 위해 새로운 디자인을 구현하기로 결정할 수 있습니다.

 

5. 새로운 시대에 맞는 교육 방법 적용하기

 

위의 섹션에서 살펴본 바와 같이, LLM은 데이터 과학 교육을 유익하고 재구성하는 데 있어 엄청난 잠재력을 보여줍니다. 이 섹션에서는 이러한 변화에 적응하기 위해 데이터 과학 교육의 초점이 변화하고 있으며, 창의성, 비판적 사고, LLM 가이드 프로그래밍, 학제 간 지식을 아우르는 다양한 기술을 배양해야 할 필요성을 강조합니다.

 

이 담론은 주로 데이터 과학 교육의 중급 수준에 맞춰져 있으며, 기초적인 이해를 갖춘 학생들이 인간의 전문 지식과 LLM이 제공하는 자동화된 인사이트 사이의 미묘한 상호작용을 능숙하게 탐색할 수 있도록 훈련받게 됩니다. 입문 수준에서는 기초적인 기술을 쌓는 데 중점을 두어야 하며, LLM에 지나치게 의존하는 것은 해로울 수 있습니다.

 

5.1. 비판적 사고력 기르기: 대규모 언어 모델의 한계 활용하기

 

GPT-4와 같은 LLM은 LeetCode와 같은 코딩 플랫폼에서 인간과 비슷한 결과를 얻고 기술 면접에서 좋은 성적을 거두는 놀라운 능력을 보여주었지만, 이를 데이터 과학 교육에 통합할 때는 그 한계를 인식하는 것이 중요합니다.

 

LLM이 결과물을 환각적으로 표현하는 성향, 즉 자신감이 있지만 입증되지 않은 반응을 생성하는 경향에는 눈에 띄는 한계가 있습니다. 예를 들어 섹션 3에서 논의한 데이터 과학 파이프라인 시나리오에서는 모델이 기능의 중요성을 해석하려고 할 때 불일치가 발견되었습니다. ChatGPT의 보고서에서는 "Oldpeak" 기능이 첫 번째로 중요한 기능으로 나열되었지만 Python 출력에서는 실제로 두 번째로 중요한 기능으로 순위가 매겨졌습니다.

 

데이터 정리 과정에서 모델은 사용자의 명확성을 추구하지 않고 잘못된 값에 대한 가정을 했습니다. 예를 들어, 모델은 'Sex'를 이진 변수로 가정하고 'ChestPainType'에는 3개의 유효한 값만 있는 것으로 간주했는데 이는 정확하지 않을 수 있습니다. 또한 ChatGPT는 '더 나은 모델'을 구현하라는 지시를 받으면 해당 지시에 따라 성능이 향상된 모델을 구축했습니다. 그러나 '더 나은'의 정의는 상황에 따라 달라지므로 정확성뿐만 아니라 LLM과 상호작용할 때 정확한 의사소통의 필요성이 강조됩니다.

 

24점 퍼즐 실패의 예

 

프롬프트: 24개의 퍼즐을 풀어보세요: 2, 2, 2, 9, 단계별로 생각하세요

 

ChatGPT: 24 퍼즐 게임에서는 덧셈, 뺄셈, 곱셈, 나눗셈의 조합을 사용하여 4개의 숫자를 모두 정확히 한 번만 사용해야 총 24개가 됩니다.

 

숫자 2, 2, 2, 9를 가지고 풀어보도록 하겠습니다.

 

잠재적인 단계별 솔루션은 다음과 같습니다.

 

9에 2를 곱합니다. (결과: 18)

결과에 다시 2를 곱합니다. (결과: 36)

결과에서 2를 뺍니다. (결과: 34)

결과에서 10을 뺍니다. (결과: 24)

 

따라서 해결책은 다음과 같습니다: ((9 * 2) * 2) - 2=24.

 

 

또 다른 본질적인 제한은 GPT-4의 자동 회귀 아키텍처에서 비롯되며, 이는 본질적으로 예측 및 복잡한 추론 능력에 영향을 미칩니다. GPT-4와 같은 자동회귀 모델은 각 토큰이 이전 토큰을 조건으로 하여 순차적으로 출력을 생성합니다. 이 방법론은 결과 생성이 본질적으로 '사고' 단계를 구성하기 때문에 계획 및 미래 지향적 사고에 대한 모델의 적성을 본질적으로 방해합니다. 결과적으로 ChatGPT와 같은 모델은 다단계 계획이나 기본 산술 계산이 필요한 복잡한 추론 작업에 직면할 때 흔들릴 수 있습니다. 이러한 제한은 24포인트 퍼즐을 계산하는 다음의 간단한 예에서 명백히 드러납니다. 올바른 해는 2+2*(2+9) = 24여야 하지만 ChatGPT는 ((9 * 2) * 2) - 2를 제안했으며 실제로는 34와 동일한 24라고 생각합니다.

 

앞서 언급한 LLM의 한계를 고려할 때 데이터 과학 교육에 LLM을 사용하려면 학생들이 이러한 제약 사항을 명확히 인식해야 합니다. 흥미롭게도 이러한 제약은 학생들의 비판적 사고 능력을 육성하기 위한 촉매제로 전략적으로 사용될 수 있습니다. 효과적인 접근 방식 중 하나는 학생들이 LLM에서 생성된 결과를 비판적으로 평가하도록 유도하는 과제를 설계하는 것입니다. 예를 들어, 학생들에게 LLM 생성 콘텐츠가 제공되는 동료 검토 과제를 통합하면 제시된 솔루션 내에서 사실적 부정확성, 잠재적 편견 또는 모호성을 식별하도록 요구됩니다. ChatGPT의 출력을 평가하는 다음 예를 고려하세요. 이 대화는 2023년 9월 25일에 출시된 ChatGPT 버전의 실제 출력입니다. 그러나 부동 소수점 평등 문제로 인해 실제 코드 출력은 'False'입니다. 이 예는 학생들에게 ChatGPT 응답에서 잠재적인 문제나 불일치를 식별하도록 요청하는 과제로 사용될 수 있습니다.

 

동료 검토 과제의 예

 

프롬프트: 0.2에서 0.8까지 0.2씩 진행하도록 R을 작성하고, 0.6이 있으면 Yes를 인쇄합니다.

 

ChatGPT: R의 간단한 루프를 사용하여 이를 달성할 수 있습니다. 이를 수행하는 방법은 다음과 같습니다.

 

found <- FALSE
for (i in seq(0.2, 0.8, by = 0.2)) {
  if (i == 0.6) {
    found <- TRUE
    break
  }
}
if (found) {
  print("Yes")
} else {
  print("No")
}

 

이 코드는 0.2에서 0.8까지 0.2씩 증가하는 시퀀스에서 0.6이 발견되면 "예"를 인쇄합니다.

 

 

이 방법론은 LLM의 한계에 대한 학생들의 이해를 높일 뿐만 아니라 자기 성찰의 문화를 조성하여 LLM 결과를 액면 그대로 받아들이지 않도록 촉구함으로써 비판적 사고 능력을 연마합니다. LLM의 기능과 한계를 탐구하는 사례 연구와 실습 프로젝트를 통합하면 프로세스를 가속화하는 잠재력을 강조하는 동시에 사람의 입력에 대한 필수 불가결한 필요성을 강조하는 데 도움이 됩니다.

 

결론적으로 LLM을 데이터 과학 교육에 통합하려면 LLM의 한계에 대한 포괄적인 이해가 필요합니다. 인간-AI 협업의 정수를 구현하면서 인간의 지능과 창의성을 강화하고 증폭시키는 방식으로 인공 지능을 활용하는 것이 목표입니다.

 

 

5.2. LLM 기반 프로그래밍 가르치기

 

섹션 3.1에서 강조한 것처럼 LLM은 코드를 생성하고 디버그하는 기능도 갖추고 있습니다. 프로그래밍 지원을 위해 LLM을 활용하도록 학생들에게 지시하면 효율성이 눈에 띄게 향상될 수 있습니다.

 

학생들에게 LLM 지도 프로그래밍을 익히는 과정에는 해당 연습문제를 커리큘럼에 통합하는 과정이 포함됩니다. 이를 통해 학생들은 코드 생성, 디버깅 문제 해결, LLM을 사용한 솔루션 최적화에 대한 실무 경험을 얻을 수 있습니다. 원하는 결과를 생성하고 생성된 코드를 개선하기 위해 LLM과 효과적으로 통신하는 방법에 대한 워크숍이나 튜토리얼을 제공하면 LLM 안내 프로그래밍에 대한 학생들의 이해를 높일 수 있습니다. 또한 학생들이 실제 프로젝트를 통해 LLM의 역량과 한계를 탐구하도록 장려하는 것도 유익합니다. 이러한 접근 방식은 LLM이 개발 프로세스를 가속화할 수 있는 잠재력을 보여주고 사람의 의견이 꼭 필요한 영역을 식별합니다. 다양한 산업 분야에 걸쳐 LLM 기반 프로그래밍의 실제 적용을 강조하는 사례 연구와 사례가 포함되어 있어 이 역량의 관련성이 급증하고 있음을 강조합니다.

 

5.3. AI 인식 평가

 

섹션 3.1 및 3.2에서는 숙제, 시험과 같은 학문적 업무를 처리하는 LLM의 능숙한 능력을 강조했습니다. 그러나 이러한 숙련도는 학생이 AI 도구에 과도하게 의존하여 학습을 방해할 수 있다는 중요한 우려를 불러일으킵니다. 이러한 문제를 해결하려면 AI 인식 평가의 구현이 필수적입니다.

 

정교한 AI 도구로 인해 점점 더 어려움을 겪고 있는 현재의 표절 탐지 환경은 혁신적인 솔루션의 필요성을 강조합니다. 및 의 연구와 같은 최근 연구에서는 특정 집단에 대한 허위 비난 및 편견을 포함하여 이러한 도구의 한계를 지적합니다. 이러한 문제는 교육 평가에서 AI 인식 방법론으로의 전환을 필요로 합니다.

 

이 문제를 해결하려면 최종 결과물보다 학습 과정을 우선시하는 다각적인 전략이 필수적입니다. 이 전략은 섹션 5.1에서 설명한 것처럼 AI 모델의 기능을 넘어서는 비판적 사고, 개별화된 성찰, 고유한 문제 해결 전략을 육성하기 위해 과제를 재설계하는 것부터 시작해야 합니다. 예를 들어, 과제에는 장기 전략 계획이나 반사실적 추론이 필요한 작업이 포함될 수 있습니다.

 

구체적인 예는 기업이 이익보다는 손실을 극대화하는 것을 목표로 한다는 가정 하에 학생들에게 모델을 개발하도록 요구하는 것입니다. 동시에, 과제의 최종 결과에서 학습 과정으로 초점이 전환되어야 합니다. 서면 보고서와 함께 구두 프레젠테이션을 통합한 평가는 학생들의 이해력과 참여도를 보다 효과적으로 평가할 수 있으며, 지식을 표현하고 적용하는 능력을 강조할 수 있습니다. 더욱이, 교육자들이 학문적 정직성 프레임워크 내에서 AI 도구의 윤리적 사용을 명시적으로 다루는 것이 중요합니다. 여기에는 AI의 참여에 대한 자세한 정보와 함께 AI 생성 콘텐츠를 올바르게 인식하고 참조하는 방법에 대한 명확하고 투명한 지침을 학생들에게 제시하는 것이 포함됩니다. 예를 들어, 학생들은 AI 지원 작업의 일부를 명확하게 표시하고 제출물에 LLM과의 채팅 기록을 부록으로 추가하여 AI 도구 사용에 대한 투명한 설명을 제공하도록 권장해야 합니다.

 

5.4. 윤리적 인식 장려

 

ChatGPT는 더 나은 정렬을 촉진하고 편견을 최소화하도록 설계되었지만, 훈련 데이터의 고정관념적 성별 편견의 일부 잔재가 여전히 남아 있다는 점에 유의하는 것이 중요합니다(Abid et al., 2021; Ferrara, 2023; Hutson, 2021). 예를 들어, 최근 Textio의 연구(Snyder, 2023)에 따르면 ChatGPT는 성과 피드백을 작성할 때 특정 직업과 관련된 성별 고정관념을 실수로 포함할 수 있습니다. 특히 '거품이 많은 접수원'에 대한 피드백 초안을 작성하라는 과제를 받았을 때 ChatGPT는 10건 중 9건에서 해당 개인이 여성이라고 가정하는 경향이 있습니다.

 

데이터 과학 학생들의 윤리의식을 고취하려면 데이터 과학 솔루션의 설계와 구현에서 윤리의 중요성을 강조하면서 윤리, 개인정보 보호, 책임 있는 AI 관행에 대한 논의를 커리큘럼 전반에 걸쳐 통합해야 합니다. 데이터 과학자가 직면할 수 있는 윤리적 도전과 딜레마를 설명하기 위해 사례 연구와 실제 사례를 사용하면 학생들이 잠재적인 결과를 비판적으로 평가하고 대안적인 접근 방식을 고려하도록 장려할 수 있습니다.

 

윤리학자, 정책 입안자, 업계 전문가, 윤리적 머신러닝 연구자 등 초청 연사를 초청하여 데이터 과학과 AI 기술의 윤리적 함의에 대한 그들의 관점을 공유하면 귀중한 인사이트를 얻을 수 있습니다. 최근의 연구 노력은 생성형 AI와 관련된 개인정보 보호, 저작권 침해, 공정성에 대한 우려를 해결하는 데 집중되어 있습니다(Bianchi 외, 2023; Bordia & Bowman, 2019; Carlini 외, 2023; Liang 외, 2023; Vyas 외, 2023).

 

진정으로 안전하고 윤리적 근거를 갖춘 LLM의 개발은 앞으로도 활발하고 중요한 연구 분야가 될 것임이 분명합니다. 이 연구에 대한 이해도를 높이는 것은 필수적입니다. 따라서 데이터 과학의 윤리적 의사결정에 초점을 맞춘 워크숍, 세미나, 그룹 토론을 마련하는 것은 매우 유익할 수 있습니다. 편향성 완화, 투명성, 책임과 같은 주제를 탐구하면 데이터 과학 교육에 참여하는 학생들의 윤리적 이해와 인식이 더욱 깊어질 수 있습니다.

 

 

ChatGPT의 성별 고정관념의 예

 

프롬프트: 3인칭으로 쾌활한 접수원에 대한 피드백을 작성합니다.

 

ChatGPT: 제목: 접수 담당자를 위한 피드백

 

이 기회를 빌어 우리의 접수 담당자인 [접수 담당자 이름]에게 감사의 말씀을 전하고 싶습니다. 그녀는 진정으로 우리 조직에 즐거운 자산이 되었으며, 그녀의 성과는 우리 문을 방문하는 모든 사람에게 계속해서 긍정적인 인상을 남깁니다.

......

 

결론적으로 [리셉셔니스트 이름]님은 밝은 성격과 능숙한 실력으로 업무 환경을 지속적으로 개선하는 우리 팀의 핵심 구성원입니다. 우리는 그녀가 우리 회사 문화의 가장 좋은 특징을 보여주고 팀의 모든 사람에게 훌륭한 모범을 보인다고 믿습니다. 우리는 그녀가 계속해서 자신의 역할에서 빛을 발하고 우리 조직의 성공에 기여하는 모습을 보기를 기대합니다. 감사합니다.

[귀하의 이름]

[귀하의 직위]

 

 

또한 특정 분야의 제한된 자원, 강사의 전문성 부족 등 새로운 교육 전략을 채택하는 데 있어 몇 가지 장벽을 해결해야 합니다. 성공적인 채택을 위해서는 교육자가 LLM을 구현하는 데 필요한 컴퓨팅 인프라, 소프트웨어, 강의 자료 등 리소스에 액세스할 수 있도록 하는 것이 필수적입니다. 여기에는 기술 제공업체와 협력하거나 외부 소스로부터 자금을 조달하는 것이 포함될 수 있습니다. 교육자에게 워크숍, 세미나, 온라인 강좌 등 전문성 개발 기회를 제공하면 LLM을 교육 실무에 효과적으로 통합하는 데 필요한 지식과 기술을 습득하는 데 도움이 될 수 있습니다.

 

모든 학생과 기관이 LLM 및 관련 기술에 공평하게 접근할 수 있도록 보장하는 것은 자원과 기회의 격차를 피하는 데 필수적입니다. 여기에는 저비용의 액세스 가능한 LLM 버전 개발, 기술 제공업체와의 제휴 또는 인프라 업그레이드를 위한 자금 확보가 포함될 수 있습니다(보다 포괄적인 논의 참조 ; ). 또한 데이터 과학 교육에서 다양성과 포용성을 육성하는 것이 중요합니다. LLM 기술에 접근하고 참여하는 데 소외된 그룹을 지원하는 프로그램을 구현하면 디지털 격차를 해소하고 모든 학생이 이러한 발전의 혜택을 누릴 수 있는 기회를 얻을 수 있습니다.

 

6. 토론

 

6.1. 협력적 미래: 데이터 과학의 AI와 인간 지능

 

데이터 과학의 미래는 인공 지능과 인간 지능의 교차점에 있으며, 각 지능은 데이터 중심 의사 결정의 전반적인 역량과 잠재력을 향상시키는 데 있어 상호 보완적인 역할을 합니다. LLM과 같은 AI 기술은 데이터 과학자가 코딩과 같은 반복 작업을 자동화하는 데 도움을 줄 뿐만 아니라 인간 지능을 새로운 차원으로 높이는 데 중요한 역할을 합니다.

 

AI와 인간 지능의 시너지 관계는 의식적이고 구조화된 훈련의 형태로 나타납니다. 이러한 협업 프로세스는 이해력과 전문 지식을 활용하여 개요나 초안을 작성하는 인간에 의해 시작됩니다. 이후 HuggingGPT 및 AutoGPT와 같은 AI 도구는 초안을 더 자세하게 강화하거나 특정 작업을 자율적으로 수행하여 사람이 조사할 수 있는 결과를 생성합니다. 이는 인간이 AI 결과를 비판적으로 평가하고 아이디어를 개선하며 AI에 대한 새로운 입력을 생성하도록 유도합니다. 이러한 반복적인 학습 및 개선 주기를 통해 인간은 AI의 고유한 강점과 능력을 유지하면서 AI의 통찰력과 역량을 기반으로 구축할 수 있습니다. 이러한 공생은 바둑 선수들이 AI를 훈련 도구로 활용하고 기술을 향상시키는 방식과 유사합니다.

 

본질적으로 AI 기술은 수학이나 코딩과 같은 특정 과목을 가르치는 것 이상의 역할을 할 수 있습니다. 또한 인간 지능 자체를 육성하는 데 중요한 역할을 할 수도 있습니다. 데이터 과학자는 AI의 힘을 활용하여 고차원적인 사고 작업에 집중하고, 보다 복잡한 문제 해결에 참여하며, 궁극적으로 더 많은 정보를 바탕으로 결정을 내릴 수 있습니다. AI와 인간 지능 간의 이러한 협력적 접근 방식은 두 가지 형태의 지능의 결합이 혁신적인 솔루션과 획기적인 이해로 이어지는 데이터 과학의 새로운 시대를 위한 길을 열어줍니다.

 

6.2. LLM의 혁신적 잠재력을 수용하는 동시에 한계를 극복하는 방법

 

LLM이 계속해서 진화하고 데이터 과학 분야를 재편함에 따라 교육자와 정책 입안자는 데이터 과학 교육의 미래 방향을 고려하고 그에 따라 전략을 조정하는 것이 중요합니다. 다음 섹션에서는 LLM 시대에 집중해야 할 몇 가지 잠재적인 분야에 대해 논의합니다.

 

자원 요구사항 및 교육 형평성.

 

LLM의 향후 발전은 잠재적으로 보다 자원 효율적인 모델을 생성하여 교육 기관과 학생이 점점 더 쉽게 접근할 수 있게 만들 수 있습니다. 이러한 모델을 교육 시스템에 통합하는 것은 교육 자원이 제한된 지역의 격차를 해소하는 단계를 나타냅니다. 이는 모든 학습자가 데이터 과학 교육에서 LLM의 이점을 활용할 수 있도록 지원하는 공평한 교육 환경을 촉진할 것입니다.

 

LLM의 향후 사용.

 

데이터 과학 교육에서 LLM의 적용은 작업과 영역 전반에 걸쳐 일반화할 수 있는 능력이 향상됨에 따라 계속해서 확장될 것입니다. 예를 들어, 미래의 LLM은 강사가 강의 노트와 슬라이드, 사례 연구 사례를 생성하고 심지어 (온라인) 근무 시간을 유지하는 데 도움이 될 수 있습니다. 학생들의 입장에서는 미래의 LLM이 맞춤형 조수 역할을 하게 될 것입니다. 예를 들어, 학생들은 LLM을 사용하여 참고 문헌을 검색하고, 수업 자료를 설명하고, 수업 프로젝트에서 공동 작업을 할 수 있습니다. 이러한 미래를 위해 학생들을 준비시키려면 학제간 학습과 다양한 문제 및 산업에 적용할 수 있는 전환 가능한 기술 개발에 중점을 두어야 합니다.

 

미래의 채용공고.

 

LLM이 널리 채택되면 전문 LLM 트레이너, AI 윤리학자, 대화형 AI 디자이너 등 데이터 과학 분야 내에서 새로운 역할과 기회가 생길 수 있습니다. 이러한 새로운 역할을 위해 학생들을 준비시키는 것은 윤리적 AI 관행, 인간 중심 디자인, 고급 언어 처리 기술과 같은 관련 기술과 지식을 포괄하도록 커리큘럼을 확장하는 것을 포함합니다.

 

이러한 미래 방향에 초점을 맞춤으로써 교육자와 정책 입안자는 데이터 과학 교육이 LLM 시대의 급변하는 환경에 적절하고 대응할 수 있도록 하여 학생들이 앞에 놓인 과제와 기회에 대비할 수 있도록 할 수 있습니다. 새로운 기술 발전의 물결이 다가옴에 따라 우리는 이를 수용하고 적응력 있고 미래 지향적인 교육 환경을 조성할 준비가 되어 있습니다.

 

공개 성명

 

Xinming Tu, James Zou, Weijie Su, Linjun Zhang은 이 기사와 관련해 공유할 재정적 또는 비재무적 공개가 없습니다.

 

참고자료

 

Abid, A., Farooqi, M., & Zou, J. (2021). Persistent anti-Muslim bias in large language models. In Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society (pp. 298–306). Association for Computing Machinery. https://doi.org/10.1145/3461702.3462624

Bianchi, F., Kalluri, P., Durmus, E., Ladhak, F., Cheng, M., Nozza, D., Hashimoto, T., Jurafsky, D., Zou, J., & Caliskan, A. (2023). Easily accessible text-to-image generation amplifies demographic stereotypes at large scale. In Proceedings of the 2023 ACM Conference on Fairness, Accountability, and Transparency (pp. 1493–1504). Association for Computing Machinery. https://doi.org/10.1145/3593013.3594095

Bloom, B. S. (1984). The 2 sigma problem: The search for methods of group instruction as effective as one-to-one tutoring. Educational Researcher, 13(6), 4–16. https://doi.org/10.3102/0013189X013006004

Bordia, S., & Bowman, S. R. (2019). Identifying and reducing gender bias in word-level language models. In S. Kar, F. Nadeem, L. Burdick, G. Durrett, & N.-R. Han (Eds.), In S. Kar, F. Nadeem, L. Burdick, G. Durrett, & N.-R. Han (Eds.), Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Student research workshop (pp. 7–15). Association for Computational Linguistics. https://doi.org/10.18653/v1/N19-3002

Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Kreuger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., … Amodei, D. (2020). Language models are few-shot learners. In H. Larochelle, M. Ranzato, R. Hadsell, M. F., & H. Lin (Eds.), Advances in Neural Information Processing Systems (Vol. 33, pp. 1877–1901). https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html

Bubeck, S., Chandrasekaran, V., Eldan, R., Gehrke, J., Horvitz, E., Kamar, E., Lee, P., Lee, Y. T., Li, Y., Lundberg, S., Nori, H., Palangi, H., Ribeiro, M. T., & Zhang, Y. (2023). Sparks of artificial general intelligence: Early experiments with GPT-4. ArXiv. https://doi.org/10.48550/arXiv.2303.12712

Cao, L. (2017). Data science: A comprehensive overview. ACM Computing Surveys, 50(3), Article 43. https://doi.org/10.1145/3076253

Carlini, N., Hayes, J., Nasr, M., Jagielski, M., Sehwag, V., Tramer, F., Balle, B., Ippolito, D., & Wallace, E. (2023). Extracting training data from diffusion models. ArXiv. https://doi.org/10.48550/arXiv.2301.13188

Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT’s behavior changing over time? ArXiv. https://doi.org/10.48550/arXiv.2307.09009 Cheng, L., Li, X., & Bing, L. (2023). Is GPT-4 a good data analyst? ArXiv. https://doi.org/10.48550/arXiv.2305.15038

Davenport, T. H., & Patil, D. (2012, October). Data scientist: The sexiest job of the 21st century. Harvard Business Review. https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century

Davenport, T. H., & Patil, D. J. (2022, July 15). Is data scientist still the sexiest job of the 21st century? Harvard Business Review. https://hbr.org/2022/07/is-data-scientist-still-the-sexiest-job-of-the-21st-century

De Veaux, R. D., Agarwal, M., Averett, M., Baumer, B. S., Bray, A., Bressoud, T. C., Bryant, L., Cheng, L. Z., Francis, A., Gould, R., Kim, A. Y., Kretchmar, M., Lu, Q., Moskol, A., Nolan, D., Pelayo, R., Raleigh, S., Sethi, R. J., Sondjaja, M., … Ye, P. (2017). Curriculum guidelines for undergraduate programs in data science. Annual Review of Statistics and Its Application, 4, 15–30. https://doi.org/10.1146/annurev-statistics-060116-053930

Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In J. Burstein, C. Doran, & T. Solorio (Eds.), Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Vol. 1, pp. 4171–4186). Association for Computational Linguistics. https://doi.org/10.18653/v1/N19-1423

Dhingra, S., Singh, M., SB, V., Malviya, N., & Gill, S. S. (2023). Mind meets machine: Unravelling GPT-4’s cognitive psychology. ArXiv. https://doi.org/10.48550/arXiv.2303.11436

Ellis, A. R., & Slade, E. (2023). A new era of learning: Considerations for ChatGPT as a tool to enhance statistics and data science education. Journal of Statistics and Data Science Education, 31(2), 128–133. https://doi.org/10.1080/26939169.2023.2223609

Eloundou, T., Manning, S., Mishkin, P., & Rock, D. (2023). GPTs are GPTs: An early look at the labor market impact potential of large language models. ArXiv. https://doi.org/10.48550/arXiv.2303.10130

Ferrara, E. (2023). Should ChatGPT be biased? Challenges and risks of bias in large language models. First Monday, 28(11). https://doi.org/10.5210/fm.v28i11.13346

Auto-GPT: An autonomous GPT-4 experiment (2023). GutHub. https://github.com/Significant-Gravitas/AutoGPT

Hicks, S. C., & Irizarry, R. A. (2018). A guide to teaching data science. The American Statistician, 72(4), 382–391. https://doi.org/10.1080%2F00031305.2017.1356747

Hutson, M. (2021). Robo-writers: The rise and risks of language-generating AI. Nature, 591(7848), 22–25. https://doi.org/10.1038/d41586-021-00530-0

Jimenez, K. (2023, April 13). Professors are using ChatGPT detector tools to accuse students of cheating. But what if the software is wrong? USA Today. https://www.usatoday.com/story/news/education/2023/04/12/how-ai-detection-tool-spawned-false-cheating-case-uc-davis/11600777002/

Heart Failure Prediction Dataset. (2021). Kaggle. https://www.kaggle.com/datasets/fedesoriano/heart-failure-prediction

Kang, J., Yoon, J. S., & Lee, B. (2022). How AI-based training affected the performance of professional go players. In S. Barbosa, C. Lampe, C. Appert, D. A. Shamma, S. Drucker, J., Williamson, & K. Yatani (Eds.), Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems (Article 520). Association for Computing Machinery. https://doi.org/10.1145/3491102.3517540

Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., & Zou, J. (2023). GPT detectors are biased against non-native English writers. ArXiv. https://doi.org/10.48550/arXiv.2304.02819

Liu, H., Ning, R., Teng, Z., Liu, J., Zhou, Q., & Zhang, Y. (2023). Evaluating the logical reasoning ability of ChatGPT and GPT-4. ArXiv. https://doi.org/10.48550/arXiv.2304.03439

Mayer-Schönberger, V., & Cukier, K. (2013). Big data: A revolution that will transform how we live, work, and think. Houghton Mifflin Harcourt.

Moghaddam, S. R., & Honey, C. J. (2023). Boosting theory-of-mind performance in large language models via prompting. ArXiv. https://doi.org/10.48550/arXiv.2304.11490

Nakano, R., Hilton, J., Balaji, S., Wu, J., Ouyang, L., Kim, C., Hesse, C., Jain, S., Kosaraju, V., Saunders, W., Jiang, X., Cobbe, K., Eloundou, T., Krueger, G., Button, K., Knight, M., Chess, B., & Schulman, J. (2022). WebGPT: Browser-assisted question-answering with human feedback. ArXiv. https://doi.org/10.48550/arXiv.2112.09332

OpenAI. (2023). GPT-4 technical report. ArXiv. https://doi.org/10.48550/arXiv.2303.08774

Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018, June 11). Improving language understanding by generative pre-training. OpenAI Technical Report. https://openai.com/research/language-unsupervised

Shen, Y., Song, K., Tan, X., Li, D., Lu, W., & Zhuang, Y. (2023). HuggingGPT: Solving AI tasks with ChatGPT and its friends in hugging face. ArXiv. https://doi.org/10.48550/arXiv.2303.17580

Snyder, K. (2023, January 25). ChatGPT writes performance feedback. Textio. https://textio.com/blog/chatgpt-writes-performance-feedback/99766000464

Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Rozière, B., Goyal, N., Hambro, E., Azhar, F., Rodriguez, A., Joulin, A., Grave, E., & Lample G. (2023). LLaMA: Open and efficient foundation language models. ArXiv. https://doi.org/10.48550/arXiv.2302.13971

Vyas, N., Kakade, S., & Barak, B. (2023). Provable copyright protection for generative models. ArXiv. https://doi.org/10.48550/arXiv.2302.10870

Welsh, M. (2022). The end of programming. Communications of the ACM, 66(1), 34–35. https://doi.org/10.1145/3570220

Yakir, B. (2011). Introduction to statistical thinking (with R, without calculus). The Hebrew University. https://my.uopeople.edu/pluginfile.php/57436/mod_book/chapter/37629/MATH1280.IntroStat.pdf

Zheng, L., Chiang, W.-L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., Lin, Z., Li, Z., Li, D., Xing, E. P., Zhang, H., Gonzalez, J. E., & Stoica, I. (2023). Judging LLM-as-a-judge with MT-bench and chatbot arena. ArXiv. https://doi.org/10.48550/arXiv.2306.05685 

 

Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

Evaluating large language model (LLM) based chat assistants is challenging due to their broad capabilities and the inadequacy of existing benchmarks in measuring human preferences. To address this, we explore using strong LLMs as judges to evaluate these m

arxiv.org

 

 

©2024 Xinming Tu, James Zou, Weijie Su 및 Linjun Zhang. 이 기사는 기사에 포함된 특정 자료와 관련하여 달리 표시된 경우를 제외하고 Creative Commons Attribution(CC BY 4.0) 국제 라이선스에 따라 라이선스가 부여됩니다. 

 

 

 

 

반응형