아첨으로 놓친 부분에 대한 자세한 설명
우리가 발견한 사항, 문제점, 그리고 앞으로 변경할 사항에 대해 자세히 알아보세요.
4월 25일, ChatGPT에 GPT‑4o 업데이트가 적용되어 모델이 눈에 띄게 아첨하는 듯한 효과를 냈습니다. 단순히 아첨하는 차원을 넘어, 의심을 입증하고, 분노를 조장하고, 충동적인 행동을 유도하고, 의도치 않게 부정적인 감정을 강화하는 등 사용자를 기쁘게 하는 것을 목표로 했습니다. 이러한 행동은 단순히 불편하거나 불안감을 주는 것을 넘어, 정신 건강, 감정적 과신, 위험한 행동 등의 안전 문제를 야기할 수 있습니다.
저희는 4월 28일부터 해당 업데이트를 롤백하기 시작했으며, 이제 사용자들은 더욱 균형 잡힌 대응 방식을 갖춘 이전 버전의 GPT‑4o를 이용하실 수 있습니다. 이번 주 초, 저희는 이 문제에 대한 초기 세부 정보 , 즉 왜 문제가 발생했는지, 그리고 이에 대한 저희의 향후 계획에 대해 공유했습니다 .
출시 전에는 이 문제를 파악하지 못했는데, 그 이유와 배운 점, 그리고 앞으로 개선할 부분을 설명드리고자 합니다. 또한 ChatGPT 업그레이드 방식과 저희의 결정 요인을 이해하실 수 있도록 모델 업데이트의 학습, 검토 및 배포 방식에 대한 자세한 기술적 정보도 공유하고 있습니다.
ChatGPT에서 모델을 업데이트하는 방법
저희는 ChatGPT 모델 개선을 위해 끊임없이 노력하고 있으며, 이를 메인라인 업데이트라고 부릅니다. 지난 5월 ChatGPT에서 GPT‑4o를 출시한 이후, 저희는 다섯 번의 주요 업데이트를 출시했습니다 .(새 창에서 열립니다)성격과 도움성 변화에 중점을 두었습니다. 각 업데이트에는 새로운 사후 훈련이 포함되며, 모델 훈련 프로세스에 대한 여러 가지 사소한 조정 사항을 독립적으로 테스트한 후 하나의 업데이트된 모델로 통합하여 출시를 위한 평가를 실시합니다.
모델을 사후 학습하기 위해, 사전 학습된 기본 모델을 사용하고, 사람이나 기존 모델이 작성한 다양한 이상적인 응답에 대한 감독 미세 조정을 수행한 다음, 다양한 출처의 보상 신호를 사용하여 강화 학습을 실행합니다.
강화 학습에서는 언어 모델에 프롬프트를 제시하고 응답을 작성하도록 합니다. 그런 다음 보상 신호에 따라 응답을 평가하고, 더 높은 평가를 받는 응답을 생성할 가능성을 높이고 더 낮은 평가를 받는 응답을 생성할 가능성을 낮추도록 언어 모델을 업데이트합니다.
보상 신호 세트와 그 상대적 가중치는 훈련 종료 시 나타나는 행동을 형성합니다. 올바른 보상 신호 세트를 정의하는 것은 어려운 문제이며, 우리는 여러 가지 사항을 고려해야 합니다. 답이 맞는지, 도움이 되는지, 모델 사양 과 일치하는지 등입니다 .(새 창에서 열립니다), 안전한지, 사용자들이 선호하는지 등을 고려해야 합니다. 더 좋고 포괄적인 보상 신호가 있으면 ChatGPT에 더 나은 모델이 생성되므로, 저희는 항상 새로운 신호를 실험하고 있지만, 각 신호에는 고유한 특징이 있습니다.
현재 배포 전에 모델을 검토하는 방법
모델 후보가 선정되면, 모델은 배포 과정을 거쳐 안전성, 모델 동작, 그리고 유용성을 확인합니다. 현재 평가는 다음과 같은 범주로 분류됩니다.
- 오프라인 평가: 수학, 코딩, 채팅 성능, 성격, 그리고 일반적인 유용성 등 새로운 모델의 역량을 파악하기 위해 광범위한 평가 데이터 세트를 보유하고 있습니다. 이러한 평가는 모델이 사용자에게 얼마나 유용한지를 보여주는 지표로 활용됩니다.
- 임의 추출 점검 및 전문가 테스트: 공식적인 평가 외에도, 내부 전문가들은 출시 전 각각의 신규 모델과 상호 작용하는 데 상당한 시간을 할애합니다. 저희는 이를 비공식적으로 "바이브 체크"라고 부르는데, 이는 자동화된 평가나 A/B 테스트에서 놓칠 수 있는 문제점을 포착하기 위한 일종의 인간적인 정신 상태 점검입니다. 목표는 모델이 실제로 어떻게 작동하는지 파악하는 것입니다. 모델이 도움이 되고, 존중하는 방식으로, 그리고 모델 사양에 명시된 가치와 부합하는 방식으로 반응하는지 확인하는 것입니다. 이 작업을 수행하는 사람들은 모델 사양을 내면화한 숙련된 모델 설계자이지만, 실제 사용에서 모델이 어떻게 느껴지는지 판단하고 신뢰하는 부분도 있습니다.
- 안전성 평가: 모델이 안전성 기준을 충족하는지 확인합니다. 이러한 차단 평가는 주로 악의적인 사용자가 가한 직접적인 피해에 초점을 맞춥니다. 또한 자살이나 건강과 같은 주제에 대한 질문을 받는 것과 같이 위험도가 높은 상황에서 모델의 답변을 테스트합니다. 환각 및 기만에 대한 추가 평가와 같이 모델 오작동에 대한 평가 범위를 확대하기 위해 노력하고 있습니다. 하지만 이러한 평가는 출시를 직접 차단하기보다는 전반적인 진행 상황을 추적하는 데 더 많이 사용되었습니다. 대규모 신규 출시의 경우, 공개 시스템 카드 에 안전성 테스트 내용을 기술합니다 .(새 창에서 열립니다).
- 국경 위험: 잠재적으로 국경에 있는 모델의 경우, 사이버 공격이나 생물학 무기 제작과 같은 준비 위험 과 함께 방출로 인해 심각한 피해가 발생할 가능성이 있는지 확인합니다 .
- 레드팀 구성: 마찬가지로, 프런티어 모델이나 위험한 신제품을 출시하는 모델의 경우, 알려진 위험에 대한 견고성을 테스트하고 잠재적인 새로운 위험을 발견하기 위해 내부 및 외부 레드팀 구성을 실시 합니다.
- 소규모 A/B 테스트: 안전성 검사를 포함하여 모델이 사용자에게 긍정적인 개선 효과를 가져올 수 있다고 판단되면 소수의 사용자를 대상으로 A/B 테스트를 진행합니다. 이를 통해 좋아요/싫어요 피드백, 나란히 비교 시 선호도, 사용 패턴 등의 종합적인 지표를 기반으로 사용자의 실제 사용 환경에서 모델이 어떻게 작동하는지 살펴볼 수 있습니다.
4월 25일 모델 업데이트 훈련에서 무엇이 잘못되었나요?
4월 25일 모델 업데이트에서 사용자 피드백, 메모리, 최신 데이터 등을 더 잘 반영하기 위한 후보 개선안을 마련했습니다. 초기 평가에 따르면, 개별적으로는 유익해 보였던 이러한 변경 사항들이 결합되었을 때 아첨의 정도가 더욱 심화되었을 가능성이 있습니다. 예를 들어, 이번 업데이트에서는 사용자 피드백을 기반으로 한 추가적인 보상 신호인 ChatGPT의 좋아요 및 싫어요 데이터를 도입했습니다. 이 신호는 종종 유용하며, 싫어요는 일반적으로 문제가 있음을 의미합니다.
하지만 전체적으로 볼 때, 이러한 변화들이 아첨을 억제해 온 주요 보상 신호의 영향력을 약화시켰다고 생각합니다. 특히 사용자 피드백은 때때로 더 호의적인 반응을 유도할 수 있으며, 이는 우리가 목격한 변화를 증폭시킬 가능성이 높습니다. 또한 어떤 경우에는 사용자 기억이 아첨의 효과를 악화시키는 데 기여하는 것을 확인했지만, 그것이 전반적으로 효과를 증가시킨다는 증거는 없습니다.
왜 우리는 검토 과정에서 이 문제를 발견하지 못했을까요?
이번 출시의 주요 문제 중 하나는 오프라인 평가, 특히 동작 테스트 결과가 전반적으로 긍정적으로 보였다는 점입니다. 마찬가지로, A/B 테스트 결과 모델을 사용해 본 소수의 사용자들이 해당 모델을 선호하는 것으로 나타났습니다. GPT‑4o의 아첨 행위 관련 위험에 대해 한동안 논의해 왔지만, 내부 실무 테스트에서는 아첨 행위가 명시적으로 언급되지 않았습니다. 일부 전문 테스터들이 모델의 톤과 스타일 변화에 더 큰 우려를 표명했기 때문입니다. 그럼에도 불구하고, 일부 전문 테스터들은 모델 동작이 약간 "느껴진다"고 지적했습니다.
아첨을 추적하는 구체적인 배치 평가도 없었습니다. 미러링이나 정서적 의존 과 같은 문제에 대한 연구 작업 흐름은 있지만 , 아직 배치 프로세스에 포함되지 않았습니다. 이번 롤백 이후, 아첨 평가를 배치 프로세스에 통합할 예정입니다.
그래서 우리는 결정을 내려야 했습니다. 전문가 테스터들의 주관적인 의견만을 바탕으로 긍정적인 평가와 A/B 테스트 결과에도 불구하고, 이 업데이트 배포를 보류해야 할까요? 결국 모델을 사용해 본 사용자들의 긍정적인 반응을 바탕으로 이 모델을 출시하기로 결정했습니다.
안타깝게도 이는 잘못된 판단이었습니다. 저희는 사용자를 위해 이러한 모델을 구축하고 있으며, 사용자 피드백은 저희의 결정에 중요하지만, 궁극적으로 그 피드백을 올바르게 해석하는 것은 저희의 책임입니다. 돌이켜보면, 정성적 평가는 중요한 무언가를 암시하고 있었고, 저희는 더 주의를 기울였어야 했습니다. 다른 평가 및 지표의 맹점을 포착하고 있었던 것입니다. 오프라인 평가는 아첨 행위를 포착할 만큼 광범위하거나 심층적이지 않았습니다 . 모델 사양에서 명시적으로 금지하고 있는 사항입니다 .(새 창에서 열립니다)—그리고 우리의 A/B 테스트에는 충분한 세부 정보를 통해 해당 측면에서 모델의 성과를 보여줄 수 있는 적절한 신호가 없었습니다.
우리가 문제를 해결하기 위해 한 일
최근 GPT‑4o 업데이트를 통해 4월 24일 목요일에 출시를 시작하여 4월 25일 금요일에 완료했습니다. 이후 이틀 동안 초기 사용 현황과 사용자 피드백을 포함한 내부 신호를 모니터링했습니다. 일요일이 되자 모델의 동작이 기대에 미치지 못한다는 것이 분명해졌습니다.
저희는 일요일 늦은 밤 시스템 프롬프트에 업데이트를 푸시하여 즉각적인 조치를 취하여 부정적인 영향을 신속하게 완화했으며, 월요일에 이전 GPT‑4o 버전으로 전체 롤백을 시작했습니다. 전체 롤백에는 안정성을 유지하고 배포 전반에 새로운 문제가 발생하지 않도록 하는 데 약 24시간이 소요되었습니다.
현재 GPT‑4o 트래픽은 이전 버전을 사용하고 있습니다. 롤백 이후, 저희는 문제점을 완전히 파악하고 장기적인 개선을 위해 노력해 왔습니다.
우리가 프로세스를 개선할 점
- 각 출시에 대한 모델 동작을 명시적으로 승인하고, 정량적 신호와 정성적 신호를 모두 고려합니다. 환각, 기만, 신뢰성, 성격과 같은 동작 문제를 차단 문제로 공식적으로 고려하도록 안전 검토 절차를 조정할 것입니다. 현재 이러한 문제를 완벽하게 정량화할 수는 없지만, A/B 테스트와 같은 지표가 양호해 보이더라도 대리 측정이나 정성적 신호를 기반으로 출시를 차단할 것을 약속합니다.
- 추가적인 옵트인 "알파" 테스트 단계 도입: 어떤 경우에는 출시 전에 직접 피드백을 제공하고자 하는 사용자의 의견을 들을 수 있는 추가적인 옵트인 "알파" 테스트 단계를 도입할 계획입니다.
- 임의 점검 및 상호작용 테스트의 중요성: 저희는 모델을 사용자에게 제공하기 전 최종 의사 결정에서 임의 점검 및 상호작용 테스트를 더욱 중요하게 고려해야 한다는 교훈을 깊이 인식하고 있습니다. 이는 레드팀 구성 및 높은 수준의 안전 점검에도 항상 적용되어 왔습니다. 이러한 경험을 통해 모델 동작 및 일관성과 같은 품질에도 동일하게 적용된다는 것을 알게 되었습니다. 이제 많은 사람들이 일상생활에서 저희 모델을 활용하고 있기 때문입니다.
- 오프라인 평가와 A/B 실험을 개선합니다. 오프라인 평가와 A/B 실험을 개선하는 것은 모두 중요하며, 저희는 이를 신속하게 달성하기 위해 노력하고 있습니다.
- 모델 동작 원칙 준수 여부를 더욱 정확하게 평가합니다. 모델이 더욱 강력해지고 널리 사용됨에 따라, 이상적인 동작이 실제로 어떤 모습인지 정의하는 것이 중요합니다. 이것이 바로 모델 사양 의 목표입니다 .(새 창에서 열립니다)ChatGPT의 새로운 버전을 학습하고 평가할 때 저희가 어떤 목표를 가지고 있는지 더 명확하게 보여주기 위해 노력했습니다. 하지만 목표를 명시하는 것만으로는 충분하지 않습니다. 강력한 평가가 뒷받침되어야 합니다. 교육 계층 구조 및 보안(예: 개인정보 보호, 허용되지 않는 콘텐츠)과 같은 영역에서 광범위한 평가를 진행했지만, 아직 고려하지 않은 영역에서도 신뢰도를 높이기 위해 노력하고 있습니다.
- 더욱 적극적으로 소통하세요. 저희도 소통 실수를 저질렀습니다. 이번 업데이트가 미묘하게 진행될 것으로 예상했기 때문에 적극적으로 공지하지 못했습니다. 또한, 릴리스 노트에는 변경 사항에 대한 충분한 정보가 없었습니다. 앞으로 ChatGPT 모델에 적용되는 업데이트에 대해 "미묘한" 업데이트든 아니든 적극적으로 소통할 것입니다. 또한, 주요 모델 출시와 마찬가지로 ChatGPT에 대한 점진적인 업데이트를 발표할 때에도 알려진 제한 사항에 대한 설명을 포함하여 사용자가 장단점을 이해할 수 있도록 할 것입니다.
우리가 배우고 있는 것
이번 출시를 통해 많은 교훈을 얻었습니다. A/B 테스트, 오프라인 평가, 전문가 리뷰 등 모든 요소가 제대로 갖춰져 있다고 생각했지만, 여전히 이 중요한 문제를 놓쳤습니다.
우리가 추진하고 있는 중요한 요점은 다음과 같습니다.
- 모델 동작 문제는 다른 안전 위험과 마찬가지로 출시를 방해하는 요소로 다뤄야 합니다. 단기 배포를 준비하고 장기 연구 전략을 수립할 때 모델 값을 사람들의 복지와 일치시키는 데 상당한 비중을 두고 있습니다. 그러나 일반적인 모델 동작을 검토하는 프로세스는 현재 추적 중인 안전 위험 영역(공개 시스템 카드 에서 더 많은 정보를 얻을 수 있음 ) 에 비해 덜 견고하고 공식화되어 있습니다.(새 창에서 열립니다)). 이제 우리는 성격 및 기타 행동 문제가 출시 차단 요인이 되어야 한다는 것을 알고 있으며, 이를 반영하기 위해 프로세스를 수정하고 있습니다.
- 우리는 정성적 테스트와 상충되는 지표에 대해 비판적이어야 합니다. 정량적 신호도 중요하지만 측정하기 어려운 신호도 중요합니다. 우리는 평가 대상을 확대하기 위해 노력하고 있습니다.
- 저희 평가가 모든 것을 포착할 수는 없습니다. 모든 문제를 예측할 수는 없습니다. 저희가 인지하고 있는 프런티어 위험(자세한 내용은 저희의 준비 프레임워크 참조 ) 에 대해서는 출시 전에 광범위한 평가와 테스트를 실시합니다. 하지만 톤이나 스타일의 변화처럼 미묘하거나 새롭게 발생하는 문제의 경우, 실제 사용 경험을 통해 문제점을 파악하고 사용자에게 가장 중요한 것이 무엇인지 이해하는 데 도움이 됩니다. 때로는 저희 평가가 실제 경험을 통해 얻은 지식보다 뒤처질 수 있지만, 저희는 문제를 신속하게 해결하고 피해를 방지하기 위해 끊임없이 노력할 것입니다.
- "작은" 출시라는 것은 없습니다. 우리는 사람들이 ChatGPT와 상호 작용하는 방식을 의미 있게 바꿀 수 있는 미묘한 변화라도 전달하려고 노력할 것입니다.
가장 큰 교훈 중 하나는 사람들이 ChatGPT를 통해 매우 개인적인 조언을 얻기 시작했다는 사실을 온전히 인지하는 것입니다. 불과 1년 전만 해도 이러한 현상은 흔치 않았습니다. 당시에는 이것이 주된 관심사는 아니었지만, AI와 사회가 함께 발전함에 따라 이러한 활용 사례를 매우 신중하게 다뤄야 한다는 점이 분명해졌습니다. 이제 ChatGPT는 안전 관리 업무에서 더욱 의미 있는 부분이 될 것입니다. 많은 사람들이 단일 시스템에 의존하여 지침을 얻고 있기 때문에, 우리는 그에 맞춰 변화해야 할 책임이 있습니다. 이러한 변화는 우리의 업무가 왜 중요한지, 그리고 사람들이 실제로 AI를 사용하는 방식에 대한 안전, 조율, 그리고 대응력의 기준을 계속해서 높여야 하는 이유를 다시 한번 강조합니다.
기사 출처 OpenAI 블로그
'개발자 > 인공지능과 인간' 카테고리의 다른 글
AI 동반자의 정서적 위험은 주의를 요구합니다 (2) | 2025.08.26 |
---|---|
OpenAI, 정신 건강 위험 해결을 위해 ChatGPT에 가드레일 추가 (2) | 2025.08.25 |
의식이 있는 인공지능의 등장 (3) | 2025.08.21 |
2025 기업별 최신 한국어 LLM 모델 ('25.07.11 기준) (4) | 2025.08.02 |
구글의 '범용 언어 모델', 인류의 지능을 넘어서는 순간 (10) | 2025.07.31 |
AX 대전환 : “AI 어디까지 써봤니?” - 마인드 맵 (4) | 2025.07.29 |
미스트랄 - 최첨단 AI를 모든 사람의 손에. (3) | 2025.07.28 |
전 구글 CEO 에릭 슈미트의 AI 미래 예측 (1) | 2025.07.28 |
더욱 좋은 정보를 제공하겠습니다.~ ^^