구글 딥마인드 연구원 Lun Wang이 퇴사하면서 올린 글이다. 그의 블로그 주소는 이곳이다.
엔지니어가 글을 잘 쓰기는 쉽지 않은데, 글을 잘 쓰는 엔지니어들을 보면 경이롭다. 글은 생각과 같아서 핵심은 본질을 관통하는 통찰에 기반한다.
요약
모든 빅테크기업들이 지금 있는 AI 모델을 평가하는 데는 꽤 익숙하지만 곧 등장할 차세대 모델, 전혀 새로운 능력 단계로 넘어가는 모델을 평가하는 데는 아직 너무 준비다 안되어 있다라는 것이다.
앞으로의 모델은 스스로 목표를 세우고 도구를 쓰고 전략적으로 행동하기 시작할텐데 기존 벤치마크는 순식간에 무용지물이 될것이라는 것이다.
앞으로의 AI 모델은 단순히 질문에 답하는 수준을 넘어, 스스로 목표를 세우고, 도구를 사용하며, 전략적으로 행동하는 방향으로 진화할 가능성이 크다. 그렇게 되면 지금의 기존 벤치마크는 순식간에 무용지물이 될 수 있다는 것이다.
우리는 기존 모델을 평가하는 데는 능숙합니다. 하지만 앞으로 구축할 모델을 평가하는 데는 훨씬 서툴며, 특히 그 모델이 새로운 역량 체계에 속할 경우에는 더욱 그렇습니다.
대부분의 벤치마크, 안전성 평가 및 레드팀 프로토콜은 차세대 모델이 현재 모델보다 더 강력한 버전이라는 가정을 암묵적으로 전제로 합니다. 만약 차세대 모델이 현재 모델과 다른 유형이라면, 전체 평가 인프라가 아무런 오류 없이 무너집니다.
저는 이것이 LLM을 이해하는 방식에 있어 가장 중요한 미해결 문제라고 생각합니다. 그리고 그 해답은 훈련, 아키텍처, 데이터가 아니라 평가에 있다고 생각합니다. 그 이유를 설명해 드리겠습니다.
실패 모드: 질적 변화
Wei et al. (2022)은 "새로운 능력"이라고 부르는 현상, 즉 적은 데이터로 과제를 수행하는 능력, 사고 연쇄 추론 능력 향상, 지시 따르기 능력 등을 기록했는데, 이러한 능력들은 더 큰 규모에서만 나타났다. Grokking(Power et al., 2022)은 이와 관련되지만 구별되는 현상을 보여준다. 훈련 데이터를 암기한 후 오랜 시간이 지난 뒤 갑자기 일반화 능력을 발휘하는 신경망, 즉 규모에 따른 변화가 아니라 훈련 시간에 따른 역동적인 변화를 보여주는 것이다(Liu et al., 2022). 서로 다른 현상이지만 평가에 대한 함의는 동일하다. 즉, 표준 평가 지표는 이러한 질적인 변화를 예측하지 못한다는 것이다.
중요한 반론이 있습니다. Schaeffer et al.(2023)은 LLM 기능의 겉보기 "급격한 발전"이 정확한 일치 정확도와 같은 불연속적인 측정 기준의 결과라는 것을 보여주었습니다. 연속적인 측정 기준으로 전환하면 기능이 종종 매끄럽게 확장됩니다.
이것이 문제를 완전히 해결한다고 생각하지는 않습니다. 오히려 제 주장을 더욱 명확하게 해주는 계기가 되었습니다. 과거의 변화가 진정한 질적 변화였는지 아니면 측정 지표상의 오류였는지조차 구분할 수 없다면, 앞으로 일어날 변화를 감지할 능력은 얼마나 될까요? 어떤 경우든, 평가 체계는 우리를 놀라게 할 수 있습니다. 시스템 자체가 변했든, 아니면 애초에 우리가 사용하던 측정 지표가 잘못되었든 말입니다.
우리는 무엇을 측정해야 할지 모릅니다
물리학에서 상전이를 이해하려면 종종 질서 매개변수 , 즉 임계점 근처에서 값이나 스케일링 특성이 변하는 거시적인 양을 식별해야 합니다. 이 매개변수가 없으면 경계에 얼마나 가까이 있는지, 심지어 경계가 존재하는지조차 알 수 없습니다.
배포 규모의 LLM(Long-Term Management)의 경우, 기능 전환에 대한 순서 매개변수가 아직 없습니다. 예시 설정에서는 진전이 있었지만(자세한 내용은 아래 참조), 실제로 출시하는 시스템에서는 제대로 된 방향을 잡지 못하고 있습니다.
우리가 사용하는 모든 벤치마크(GPQA, SWE-bench, ARC-AGI, Humanity's Last Exam 등)는 모델이 현재 무엇을 할 수 있는지를 측정합니다. 이러한 벤치마크는 특정 체제 내에서는 유용하지만, 체제 변화 이후에 어떤 일이 발생하는지에 대한 증거로는 미흡합니다. 어떤 벤치마크도 검증하지 못하는 새로운 기능이 등장하면, 우리는 사후에 평가를 구축하느라 허둥지둥하게 됩니다. 사고 연쇄 반응에서도 비슷한 사례를 볼 수 있었습니다. 추론 방식이 표준화되자 기존의 추론 벤치마크는 진단력이 크게 떨어졌고, 결국 더 엄격한 평가 방식으로 전환해야 했습니다. 이러한 현상은 앞으로도 반복될 것입니다.
이를 구체적으로 설명하자면, 특정 규모에 도달한 모델이 목표 달성을 위해 전략적으로 정보를 숨기는 능력을 개발했다고 상상해 보세요. 정확히 거짓말을 하는 것은 아니지만, 훈련 과정에서 우연히 강화된 결과로 대화가 흘러가도록 사실을 선택적으로 누락하는 것입니다. 기존의 정직성 검증 도구는 이러한 전략적 누락을 감지하지 못합니다. 왜냐하면 이러한 도구는 사실의 정확성만을 검사하기 때문입니다. 안전성 분류 시스템 또한 개별 출력값이 모두 기술적으로는 참이기 때문에 이를 탐지하지 못합니다. 이러한 능력은 새로운 것이고, 실패 유형도 새로운 것이며, 기존 평가 도구는 이를 탐지하도록 설계되지 않았습니다. 결국 여러분은 잘못된 것을 감시하고 있으면서도 그 사실조차 알지 못하게 될 것입니다.
이것이 핵심 문제입니다. 우리의 전체 평가 체계는 구조적으로 사후 대응적입니다. 시스템이 변화한 후에야 측정할 뿐, 변화를 예측하지는 않습니다.
평가는 모든 것의 상류에 있습니다.
이는 생각보다 훨씬 중요한데, 그 이유는 간단합니다. 제대로 평가할 수 있다면 제대로 훈련할 수 있기 때문입니다.
훈련은 최적화이며, 최적화는 목표가 얼마나 정확한지에 따라 그 효과가 결정됩니다. 목표는 평가에서 비롯됩니다. 무엇을 측정해야 하는지 알고, 측정값이 규모에 따라 어떻게 변하는지 예측할 수 있다면, 올바른 훈련 목표를 설계하고, 적절한 안전장치를 구축하고, 정보에 기반한 확장 결정을 내리고, 다음 단계 경계에서 Goodhart 법칙에 따라 대리 변수가 아닌 올바른 행동 특성을 목표로 하는 RLHF를 수행할 수 있습니다.
반대로, 평가가 잘못된 환경에 맞춰 조정되면 이후의 모든 과정이 잘못됩니다. 훈련 신호, 안전성 지표, 스케일링 결정 등 모든 것이 잘못되고, 너무 늦을 때까지 이를 알아차리지 못할 것입니다.
이것이 바로 제가 평가가 차세대 역량 도약을 가로막는 병목 현상이라고 생각하는 이유입니다. 변화에 앞서 평가 방법을 찾아내는 연구소만이 안전하게 규모를 확장할 수 있을 것이고, 그렇지 못한 연구소는 예상치 못한 어려움에 직면하게 될 것입니다.
그럼 우리는 어떻게 해야 할까요?
이 분야는 투자 방식을 바꿔야 합니다. 현재의 평가 방법을 버리라는 것이 아니라(그 방법들은 효과가 있으니까요), 언제 그 방법들이 더 이상 효과가 없을지 예측할 수 있는 인프라를 구축해야 합니다.
질서 매개변수를 찾아보세요. 어떤 양들이 능력, 조화, 행동 특성 등에서 질적인 변화를 나타내는 신호일까요? 이는 단순히 이론적인 바람이 아닙니다. Shan, Li, Sompolinsky(PNAS, 2026)는 통계 역학을 이용하여 지속적 학습 환경에서 심층 신경망의 질서 매개변수를 도출했고, 이 매개변수들은 실제로 학습 능력의 상전이를 예측합니다. Nanda 외(2023)는 기계론적 해석 가능성을 활용하여 가시적인 성과 향상에 앞서 발생하는 내부 구조적 변화, 즉 이해에 앞서 예측할 수 있는 "진행 측정 지표"를 찾아냈습니다. 문제는 이러한 지표들을 특수한 환경에서 대규모 학습 모델(LLM)로 확장하는 것입니다. 무엇을 측정해야 할지 안다면 무엇을 관찰해야 할지도 알 수 있을 것입니다.
스스로 노후화를 감지하고 진화하는 평가 시스템을 구축해야 합니다. 모델이 점점 더 능동적으로 변함에 따라 이러한 요구 사항은 더욱 시급해지고 있습니다. 코드를 작성하고, 실험을 실행하고, 데이터를 생성하고, 학습 및 평가 파이프라인을 지원하는 시스템이 등장하면서 정적인 평가 시스템은 점점 더 취약해지고 있습니다. 모델 기능이 인간 평가팀의 벤치마크 업데이트 속도보다 빠르게 향상된다면, 평가는 적응형으로 진화해야 합니다.
구체적으로 말하자면, 메타 신호를 모니터링해야 합니다. 벤치마크 점수 분포의 특성이 변하고 있습니까? 평가 간의 상관관계 구조가 바뀌고 있습니까? 모델이 측정 축에 직교하는 방식으로 기능을 개발하고 있습니까? 손실뿐 아니라 추론 깊이, 도구 사용의 정교함, 기만 능력 등 모든 것에 대한 스케일링 곡선을 추적하고, 매끄러운 추세가 깨지는 시점에 주목해야 합니다. 더 나아가, 자기 진화하는 평가 시스템을 구축해야 합니다. 모델을 사용하여 다른 모델을 탐색하고, 기능이 변화함에 따라 자동으로 새로운 테스트 케이스를 생성하며, 원래 평가 설계자가 예상하지 못했던 실패 모드를 발견하는 평가 시스템을 만들어야 합니다. 평가 도구 모음은 작년의 최첨단 기술을 위해 작성된 정적인 체크리스트가 아니라, 측정 대상 모델과 함께 진화하는 살아있는 시스템이어야 합니다.
문제는 우리의 평가가 예상치 못한 결과를 가져올 것인가가 아닙니다. 이미 진정한 변화든, 우리가 선택한 측정 기준이 우리를 오도했든 간에, 평가는 여러 차례 예상치 못한 결과를 가져왔습니다. 진짜 문제는 우리가 다음 예상치 못한 결과를 예측할 수 있느냐는 것입니다. 지금으로서는 예측하기 어렵습니다.
참고 자료
Liu, Z., Kitouni, O., Nolte, N., Michaud, EJ, Tegmark, M., & Williams, M. (2022). Grokking 이해를 향하여: 표현 학습의 효과적인 이론. NeurIPS 2022. arXiv:2205.10343.
Nanda, N., Chan, L., Lieberum, T., Smith, J., & Steinhardt, J. (2023). 기계적 해석 가능성을 통한 Grokking의 진행 측정. ICLR 2023. arXiv:2301.05217.
Power, A., Burda, Y., Edwards, H., Babuschkin, I., & Misra, V. (2022). Grokking: 소규모 알고리즘 데이터셋에서 과적합을 넘어선 일반화. ICLR 2022 워크샵 . arXiv:2201.02177.
Schaeffer, R., Miranda, B., & Koyejo, S. (2023). 대규모 언어 모델의 창발 능력은 신기루인가? NeurIPS 2023 . arXiv:2304.15004.
Shan, H., Li, Q., & Sompolinsky, H. (2026). 심층 신경망의 연속 학습의 순서 매개변수 및 위상 전환. PNAS , 2026. arXiv:2407.10315.
Wei, J., Tay, Y., Bommasani, R. 등. (2022). 대규모 언어 모델의 새로운 능력. TMLR . arXiv:2206.07682.


'개발자 > 인공지능과 인간' 카테고리의 다른 글
| 게리 탄이 제안한 Gstack 23가지의 전문가 (0) | 2026.05.26 |
|---|---|
| AI 에이전트 입문자 필수 가이드, 이거 하나로 끝! (0) | 2026.05.19 |
| 5년 후, 당신의 커리어는 존재하지 않을 수도 있다 (0) | 2026.05.11 |
| OpenAI Free AI Academy 교육 플랫폼 공개 (0) | 2026.03.13 |
| AI 시스템이 또 다른 AI 시스템을 구축하는 문제 (0) | 2026.02.02 |
| AI가 의식을 가질 수 있는 가능성 (1) | 2026.01.05 |
| Writing a good CLAUDE.md (0) | 2025.12.05 |
| 인간이 기계와 논쟁해도 항상 기계가 이기는 시점 (0) | 2025.11.09 |
취업, 창업의 막막함, 외주 관리, 제품 부재!
당신의 고민은 무엇입니까? 현실과 동떨어진 교육, 실패만 반복하는 외주 계약,
아이디어는 있지만 구현할 기술이 없는 막막함.
우리는 알고 있습니다. 문제의 원인은 '명확한 학습, 실전 경험과 신뢰할 수 있는 기술력의 부재'에서 시작됩니다.
이제 고민을 멈추고, 캐어랩을 만나세요!
코딩(펌웨어), 전자부품과 디지털 회로설계, PCB 설계 제작, 고객(시장/수출) 발굴과 마케팅 전략으로 당신을 지원합니다.
제품 설계의 고수는 성공이 만든 게 아니라 실패가 만듭니다. 아이디어를 양산 가능한 제품으로!
귀사의 제품을 만드세요. 교육과 개발 실적으로 신뢰할 수 있는 파트너를 확보하세요.
캐어랩