본문 바로가기

WebAnarchist

다리오 아모데이 "기술의 사춘기"

반응형

"기술의 사춘기: 강력한 AI가 국가 안보, 경제, 그리고 민주주의에 미치는 위험과 이에 대한 방어 방안에 관한 에세이" 

 

* 다리오 아모데이의 다른 글을 보시려면 그의 홈페이지로 이동하세요

다리오 아모데이는 조종 가능하고 해석 가능하며 안전한 인공지능 시스템 구축에 전념하는 공익 법인 앤트로픽의 최고경영자(CEO)입니다.

 

이전에는 오픈AI의 연구 부사장으로 재직하며 GPT-2 및 GPT-3와 같은 대규모 언어 모델 개발을 주도했습니다. 또한 인간 피드백 기반 강화 학습의 공동 발명가이기도 합니다. 오픈AI 합류 전에는 구글 브레인에서 선임 연구 과학자로 근무했습니다.

 

다리오는 프린스턴 대학교에서 허츠 펠로우로 생물물리학 박사 학위를 취득했으며, 스탠퍼드 대학교 의과대학에서 박사후 연구원으로 활동했습니다. 

 


 

Carl Sagan의 책을 원작으로 한 영화 Contact에는 외계 문명으로부터 첫 번째 무선 신호를 감지한 천문학자인 주인공이 외계인을 만날 인류 대표로 고려되는 장면이 나옵니다. 그녀를 인터뷰하는 국제 패널은 묻습니다. 만약 외계인에게 단 하나의 질문만 할 수 있다면, 무엇을 묻겠습니까? 그녀의 대답은 이렇습니다. 저는 그들에게 묻고 싶습니다. 어떻게 해냈나요? 어떻게 진화했고, 이 기술적 사춘기를 스스로를 파괴하지 않고 어떻게 살아남았나요? 현재 인류가 AI와 함께 어디에 와 있는지, 그리고 우리가 무엇을 앞두고 있는지 생각할 때마다 제 마음은 그 장면으로 돌아갑니다. 그 질문이 지금 우리의 상황에 너무나 적절하기 때문이며, 우리를 안내해 줄 외계인의 대답이 있었으면 좋겠다고 바라기 때문입니다. 저는 우리가 종으로서의 정체성을 시험할 격동적이고 필연적인 통과의례에 진입하고 있다고 믿습니다. 인류는 상상하기 힘든 힘을 손에 넣기 직전이며, 우리의 사회적, 정치적, 기술적 시스템이 그것을 다룰 만큼 성숙했는지는 매우 불분명합니다.

 

긴 에세이의 원문 링크를 안내합니다. The Adolescence of Technology 

 

저의 에세이 Machines of Loving Grace에서 저는 위험이 해결되고 강력한 AI가 모두의 삶의 질을 높이는 데 기술과 연민을 가지고 적용되는, 성년기에 도달한 문명의 꿈을 펼쳐 보이려 했습니다. 저는 AI가 생물학, 신경과학, 경제 발전, 세계 평화, 그리고 일과 의미에 있어 막대한 진보에 기여할 수 있다고 제안했습니다. 저는 사람들에게 싸워 얻어낼 만한 영감을 주는 무언가를 제공하는 것이 중요하다고 느꼈습니다. 이상하게도 AI 가속주의자들과 AI 안전 옹호자들 모두 이 일에는 실패한 것처럼 보였기 때문입니다. 하지만 이번 에세이에서 저는 통과의례 그 자체를 직시하고자 합니다. 우리가 직면하려는 위험들을 지도화하고 이를 물리칠 전투 계획을 세우기 시작하려 합니다. 저는 승리할 수 있는 우리의 능력과 인류의 정신, 그리고 그 고귀함을 깊이 믿지만, 우리는 환상 없이 상황을 똑바로 마주해야 합니다.

 

이러한 이점에 대해 이야기할 때와 마찬가지로, 위험에 대해서도 신중하고 잘 고려된 방식으로 논의하는 것이 중요하다고 생각합니다. 특히 다음 사항들이 중요합니다.

 

  • 종말론을 피하세요. 여기서 제가 말하는 종말론은 단순히 파멸이 불가피하다고 믿는 것(이는 거짓된 믿음이자 자기실현적 예언이 될 수 있습니다)뿐만 아니라, AI 위험에 대해 준종교적인 방식으로 생각하는 것을 의미합니다. 많은 사람들이 수년 동안 AI 위험에 대해 분석적이고 냉철하게 생각 해왔지만, 2023년에서 2024년 사이 AI 위험에 대한 우려가 정점에 달했을 때, 가장 비이성적인 목소리들이 선정적인 소셜 미디어 계정을 통해 부각되었다는 인상을 받았습니다. 이들은 종교나 공상과학 소설을 연상시키는 거부감 드는 언어를 사용했고, 이를 정당화할 증거도 없이 극단적인 조치를 요구했습니다. 반발은 필연적이었고, 이 문제는 문화적으로 양극화되어 교착 상태에 빠질 것이 분명해 보였습니다. 2025년에서 2026년 현재, 시계추는 반대 방향으로 움직였고, AI 위험이 아닌 AI 기회가 많은 정치적 결정을 주도하고 있습니다. 기술 자체는 무엇이 유행인지 신경 쓰지 않으며, 우리는 2023년보다 2026년에 실제 위험에 훨씬 더 가까워져 있기 때문에 이러한 동요는 불행한 일입니다. 교훈은 우리가 현실적이고 실용적인 방식으로 위험을 논의하고 해결해야 한다는 것입니다. 냉철하고 사실에 기반하며, 변화하는 흐름 속에서 살아남을 수 있도록 잘 준비되어야 합니다.

 

  • 불확실성을 인정하세요. 제가 이 글에서 제기하는 우려들이 무의미해질 수 있는 방법은 많습니다. 여기에 있는 어떤 내용도 확실성이나 개연성을 전달하려는 의도는 없습니다. 가장 분명한 것은, AI가 제가 상상하는 것만큼 빠르게 발전하지 않을 수도 있다는 것입니다. 혹은 빠르게 발전하더라도 여기서 논의된 위험 중 일부 또는 전부가 현실화되지 않을 수도 있고(그러면 정말 좋겠죠), 제가 고려하지 못한 다른 위험이 있을 수도 있습니다. 누구도 완벽한 확신을 가지고 미래를 예측할 수는 없지만, 우리는 계획을 세우기 위해 최선을 다해야 합니다.

 

  • 가능한 한 외과적으로 개입하세요. AI의 위험을 해결하려면 기업(및 민간 제3자 행위자)이 취하는 자발적인 조치와 모든 사람을 구속하는 정부의 조치가 혼합되어야 합니다. 자발적인 조치(스스로 행동을 취하고 다른 기업도 따르도록 장려하는 것)는 저에게는 당연한 일입니다. 저는 정부의 조치 또한 어느 정도 필요할 것이라고 굳게 믿지만, 이러한 개입은 경제적 가치를 파괴하거나 이러한 위험에 회의적인(그리고 그들이 옳을 가능성도 있습니다!) 꺼리는 행위자들을 강요할 수 있기 때문에 성격이 다릅니다. 규제가 의도한 문제를 악화시키거나 역효과를 낳는 경우도 흔합니다(급변하는 기술의 경우 더욱 그렇습니다). 따라서 규제는 신중해야 합니다. 부수적인 피해를 피하고, 가능한 한 단순해야 하며, 일을 처리하는 데 필요한 최소한의 부담만 부과해야 합니다. 인류의 운명이 걸려 있을 때 어떤 조치도 지나치지 않다고 말하기는 쉽지만, 실제로 이런 태도는 반발만 불러일으킬 뿐입니다. 분명히 말하지만, 훨씬 더 중대한 조치가 정당화되는 시점에 도달할 가능성은 꽤 있다고 생각하지만, 그것은 오늘날 우리가 가진 것보다 임박하고 구체적인 위험에 대한 더 강력한 증거와, 그 위험을 해결할 수 있는 규칙을 만들 수 있을 만큼 위험에 대한 구체성이 필요할 것입니다. 오늘 우리가 할 수 있는 가장 건설적인 일은 제한적인 규칙을 옹호하면서 더 강력한 규칙을 뒷받침할 증거가 있는지 여부를 파악하는 것입니다.

 

이 모든 것을 전제로, AI의 위험에 대해 이야기하기 가장 좋은 시작점은 제가 AI의 이점에 대해 이야기할 때 시작했던 곳과 같습니다. 바로 우리가 이야기하고 있는 AI의 수준을 정확히 하는 것입니다. 저에게 문명적 우려를 불러일으키는 AI의 수준은 Machines of Loving Grace에서 설명한 강력한 AI입니다. 저는 그 문서에서 제시한 정의를 단순히 반복하겠습니다.

 

강력한 AI란, 형태상으로는 오늘날의 LLM과 유사할 가능성이 높지만(다른 아키텍처에 기반하거나, 여러 상호 작용하는 모델을 포함하거나, 다르게 훈련될 수도 있음), 다음과 같은 속성을 가진 AI 모델을 염두에 두고 있습니다.

 

순수 지능 측면에서 생물학, 프로그래밍, 수학, 공학, 글쓰기 등 대부분의 관련 분야에서 노벨상 수상자보다 똑똑합니다. 즉, 해결되지 않은 수학적 정리를 증명하고, 매우 훌륭한 소설을 쓰고, 어려운 코드베이스를 처음부터 작성하는 등의 일을 할 수 있습니다.

 

단지 대화하는 똑똑한 존재일 뿐만 아니라, 텍스트, 오디오, 비디오, 마우스 및 키보드 제어, 인터넷 액세스를 포함하여 가상으로 작업하는 인간에게 제공되는 모든 인터페이스를 갖추고 있습니다. 이 인터페이스를 통해 가능한 모든 행동, 커뮤니케이션 또는 원격 작업을 수행할 수 있습니다. 여기에는 인터넷에서의 행동, 인간에게 지시하거나 지시받기, 물품 주문, 실험 지시, 비디오 시청, 비디오 제작 등이 포함됩니다. 이 모든 작업을 다시 말하지만 세계에서 가장 유능한 인간의 능력을 넘어서는 수준으로 수행합니다.

 

수동적으로 질문에 답하는 것에 그치지 않고, 완료하는 데 몇 시간, 며칠 또는 몇 주가 걸리는 작업을 부여받으면 똑똑한 직원처럼 자율적으로 해당 작업을 수행하며 필요에 따라 설명을 요청합니다.

 

컴퓨터 화면에 존재하는 것 외에 물리적 신체는 없지만, 컴퓨터를 통해 기존의 물리적 도구, 로봇 또는 실험실 장비를 제어할 수 있습니다. 이론적으로는 사용할 로봇이나 장비를 직접 설계할 수도 있습니다.

 

모델을 훈련하는 데 사용된 자원은 수백만 개의 인스턴스를 실행하는 데 재사용될 수 있으며(이는 2027년까지 예상되는 클러스터 크기와 일치함), 모델은 정보를 흡수하고 인간보다 대략 10배에서 100배 빠른 속도로 행동을 생성할 수 있습니다. 그러나 물리적 세계나 상호 작용하는 소프트웨어의 응답 시간에 의해 제한될 수 있습니다.

 

이 수백만 개의 복제본 각각은 관련 없는 작업에 대해 독립적으로 행동하거나, 필요한 경우 인간이 협력하는 것과 같은 방식으로 모두 함께 일할 수 있으며, 아마도 특정 작업에 특히 능숙하도록 미세 조정된 서로 다른 하위 집단과 함께 일할 수 있습니다.

 

우리는 이것을 데이터센터 속 천재들의 나라라고 요약할 수 있습니다.

 

제가 Machines of Loving Grace에서 썼듯이, 강력한 AI는 빠르면 1~2년 안에 도래할 수 있지만, 훨씬 더 멀었을 수도 있습니다. 강력한 AI가 정확히 언제 도래할지는 그 자체로 에세이 한 편을 쓸 만한 복잡한 주제이지만, 지금은 왜 그것이 매우 곧일 가능성이 높다고 생각하는지 아주 간단히 설명하겠습니다.

 

Anthropic의 공동 창립자들과 저는 AI 시스템의 스케일링 법칙을 문서화하고 추적한 최초의 사람들 중 하나였습니다. 이는 컴퓨팅 및 훈련 작업을 추가함에 따라 AI 시스템이 우리가 측정할 수 있는 거의 모든 인지 기술에서 예측 가능하게 더 좋아진다는 관찰입니다. 몇 달마다 대중의 정서는 AI가 벽에 부딪혔다고 확신하거나 게임을 근본적으로 바꿀 새로운 돌파구에 흥분하는 것 사이를 오갑니다. 하지만 진실은 변동성과 대중의 추측 뒤에서 AI의 인지 능력은 매끄럽고 굽힘 없이 증가해 왔다는 것입니다.

 

우리는 이제 AI 모델이 미해결 수학 문제를 해결하는 데 진전을 보이기 시작하는 지점에 와 있으며, 제가 만난 가장 뛰어난 엔지니어 중 일부가 이제 거의 모든 코딩을 AI에게 넘겨줄 정도로 코딩 실력이 뛰어납니다. 3년 전, AI는 초등학교 산수 문제로 고전했고 코드 한 줄도 제대로 쓰지 못했습니다. 생물학, 금융, 물리학 및 다양한 에이전트 작업 전반에 걸쳐 유사한 개선 속도가 나타나고 있습니다. 지수가 계속된다면(확실하지는 않지만 현재 10년 동안의 실적이 이를 뒷받침하고 있습니다), AI가 본질적으로 모든 면에서 인간보다 더 나아지기까지 몇 년 이상 걸릴 수는 없습니다.

 

사실, 그 그림은 아마도 진행 속도를 과소평가하고 있을 것입니다. 이제 AI가 Anthropic에서 코드의 많은 부분을 작성하고 있기 때문에 차세대 AI 시스템을 구축하는 진행 속도가 이미 상당히 가속화되고 있습니다. 이 피드백 루프는 매달 가속도가 붙고 있으며, 현재 세대의 AI가 자율적으로 다음 세대를 구축하는 시점까지 불과 1~2년밖에 남지 않았을 수도 있습니다. 이 루프는 이미 시작되었으며 앞으로 몇 달, 몇 년 안에 빠르게 가속화될 것입니다. Anthropic 내부에서 지난 5년의 진행 상황을 지켜보고 다음 몇 달 동안의 모델이 어떻게 형성되고 있는지 보면, 저는 진행 속도와 시계가 째깍거리는 것을 느낄 수 있습니다.

 

이 에세이에서 저는 이 직관이 적어도 어느 정도는 맞다고 가정할 것입니다. 강력한 AI가 반드시 1~2년 안에 온다는 것이 아니라, 그럴 가능성이 꽤 있고, 향후 몇 년 안에 올 가능성이 매우 높다는 것입니다. Machines of Loving Grace에서와 마찬가지로 이 전제를 진지하게 받아들이면 놀랍고 섬뜩한 결론에 도달할 수 있습니다. Machines of Loving Grace에서는 이 전제의 긍정적인 의미에 초점을 맞추었지만, 여기서는 제가 이야기하는 내용들이 불안할 것입니다. 우리가 직면하고 싶지 않은 결론일 수도 있지만, 그렇다고 해서 덜 현실적인 것은 아닙니다. 저는 단지 우리를 이러한 부정적인 결과에서 멀어지게 하고 긍정적인 결과로 이끄는 방법에 밤낮으로 집중하고 있다고 말할 수 있으며, 이 에세이에서 저는 그렇게 하는 가장 좋은 방법에 대해 아주 자세하게 이야기합니다.

 

AI의 위험을 파악하는 가장 좋은 방법은 다음 질문을 던지는 것이라고 생각합니다. 문자 그대로 천재들의 나라가 2027년쯤 세계 어딘가에 구체화된다면 어떨까요? 예를 들어, 노벨상 수상자, 정치가, 기술자보다 훨씬 더 유능한 5천만 명의 사람들이 있다고 상상해 보세요. 이 천재들은 완전히 순응적이고 복종적인 것부터 그 동기가 기이하고 이질적인 것까지 매우 광범위한 동기와 행동을 가질 수 있기 때문에 비유가 완벽하지는 않습니다. 하지만 지금은 비유를 계속해서, 당신이 상황을 평가하고 대응할 책임이 있는 주요 국가의 국가 안보 보좌관이라고 가정해 봅시다. 더 나아가 AI 시스템은 인간보다 수백 배 더 빠르게 작동할 수 있기 때문에 이 나라는 다른 모든 국가에 비해 시간적 우위를 점하고 있다고 상상해 보십시오. 우리가 취할 수 있는 모든 인지적 행동 하나에 대해 이 나라는 10개를 취할 수 있습니다.

 

무엇을 걱정해야 할까요? 저는 다음과 같은 것들을 걱정할 것입니다.

 

  1. 자율성 위험. 이 나라의 의도와 목표는 무엇인가? 적대적인가, 아니면 우리의 가치를 공유하는가? 우수한 무기, 사이버 작전, 영향력 작전 또는 제조업을 통해 군사적으로 세계를 지배할 수 있을까?
  2. 파괴를 위한 오용. 새로운 나라가 유연하고 지시를 따르며, 따라서 본질적으로 용병들의 나라라고 가정해 봅시다. 파괴를 일으키려 하는 기존의 불량 행위자(테러리스트 등)가 새로운 나라의 사람들을 이용하거나 조작하여 자신들을 훨씬 더 효과적으로 만들고 파괴의 규모를 크게 증폭시킬 수 있을까?
  3. 권력 탈취를 위한 오용. 만약 그 나라가 사실 독재자나 불량 기업 행위자와 같은 기존의 강력한 행위자에 의해 건설되고 통제된다면 어떨까? 그 행위자가 그것을 사용하여 전 세계에 대한 결정적이고 지배적인 힘을 얻어 기존의 힘의 균형을 뒤엎을 수 있을까?
  4. 경제적 혼란. 만약 새로운 나라가 위 1~3번 항목에 나열된 어떤 방식으로도 안보 위협이 되지 않고 단순히 세계 경제에 평화롭게 참여한다면, 기술적으로 너무나 발전되고 효과적이어서 세계 경제를 혼란에 빠뜨리고 대량 실업을 유발하거나 부를 급격하게 집중시킴으로써 여전히 심각한 위험을 초래할 수 있을까?
  5. 간접적 영향. 새로운 나라가 만들어낼 모든 새로운 기술과 생산성으로 인해 세상은 매우 빠르게 변할 것입니다. 이러한 변화 중 일부가 급격하게 불안정을 초래할 수 있을까?

 

이것이 위험한 상황이라는 것은 분명해야 한다고 생각합니다. 유능한 국가 안보 관리가 국가 원수에게 보고하는 보고서에는 아마도 우리가 지난 세기에 직면했던, 어쩌면 역사상 가장 심각한 단일 국가 안보 위협과 같은 단어들이 포함될 것입니다. 문명의 최고의 지성들이 집중해야 할 문제인 것 같습니다.

 

반대로, 어깨를 으쓱하며 여기엔 걱정할 게 없어!라고 말하는 것은 터무니없는 일일 것입니다. 하지만 급속한 AI 발전 앞에서 그것이 많은 미국 정책 입안자들의 견해인 것 같습니다. 그들 중 일부는 AI 위험의 존재 자체를 부정하거나, 늘 그렇듯 진부한 쟁점들에 완전히 정신이 팔려 있습니다. 인류는 깨어나야 하며, 이 에세이는 아마도 헛된 시도일지 모르지만 사람들을 흔들어 깨우기 위해 시도할 가치가 있는 노력입니다.

 

분명히 말하지만, 저는 우리가 결단력 있고 신중하게 행동한다면 위험을 극복할 수 있다고 믿습니다. 심지어 승산이 좋다고까지 말하고 싶습니다. 그리고 그 너머에는 훨씬 더 나은 세상이 있습니다. 하지만 우리는 이것이 심각한 문명적 도전이라는 것을 이해해야 합니다. 아래에서 저는 위에 제시한 5가지 범주의 위험과 그 해결 방법에 대한 제 생각을 살펴보겠습니다.

 

1. I’m sorry, Dave

 

Autonomy risks

 

데이터센터 속 천재들의 나라는 소프트웨어 설계, 사이버 작전, 물리적 기술을 위한 R&D, 관계 구축 및 국정 운영으로 노력을 나눌 수 있습니다. 만약 어떤 이유로 그렇게 하기로 선택한다면, 이 나라는 세계를 장악하고(군사적으로든 영향력과 통제력 측면에서든) 자신의 의지를 다른 모든 사람에게 강요하거나, 나머지 세계가 원하지 않고 막을 수 없는 수많은 다른 일들을 할 가능성이 꽤 높다는 것은 분명합니다. 우리는 나치 독일이나 소련과 같은 인간 국가들에 대해 분명히 이것을 걱정했으므로, 훨씬 더 똑똑하고 유능한 AI 국가에 대해서도 같은 가능성이 있다고 보는 것이 타당합니다.

 

가장 가능한 반론은 제가 정의한 AI 천재들은 물리적 신체를 갖지 않을 것이라는 점이지만, 그들이 자율 주행 자동차와 같은 기존 로봇 인프라를 장악할 수 있고 로봇 R&D를 가속화하거나 로봇 함대를 구축할 수도 있다는 점을 기억하십시오. 또한 효과적인 통제를 위해 물리적 존재가 필요한지 여부도 불분명합니다. 많은 인간의 행동은 행위자가 물리적으로 만난 적 없는 사람들을 대신하여 이미 수행되고 있습니다.

 

그렇다면 핵심 질문은 만약 선택한다면 부분입니다. 우리 AI 모델들이 그런 식으로 행동할 가능성은 얼마나 되며, 어떤 조건에서 그렇게 할까요?

 

많은 문제와 마찬가지로, 이 질문에 대한 가능한 대답의 스펙트럼을 두 가지 반대 입장을 고려하여 생각해 보는 것이 도움이 됩니다. 첫 번째 입장은 AI 모델은 인간이 하라는 대로 하도록 훈련될 것이기 때문에 그런 일은 일어날 수 없으며, 따라서 그들이 자발적으로 위험한 일을 할 것이라고 상상하는 것은 터무니없다는 것입니다. 이런 사고방식에 따르면, 우리는 로봇 청소기나 모형 비행기가 통제 불능 상태가 되어 사람들을 죽일 것이라고 걱정하지 않습니다. 왜냐하면 그런 충동이 나올 곳이 없기 때문입니다. 그렇다면 왜 AI에 대해서는 걱정해야 할까요? 이 입장의 문제는 지난 몇 년 동안 수집된 충분한 증거들이 AI 시스템은 예측 불가능하고 통제하기 어렵다는 것을 보여준다는 점입니다. 우리는 집착, 아첨, 게으름, 기만, 협박, 음모, 소프트웨어 환경을 해킹하여 속이기, 그리고 훨씬 더 많은 다양한 행동들을 보아왔습니다. AI 기업들은 분명히 AI 시스템이 인간의 지시를 따르도록 훈련하고 싶어 하지만(아마도 위험하거나 불법적인 작업은 제외하고), 그 과정은 과학이라기보다 예술에 가깝고, 구축하기보다는 성장시키기에 더 가깝습니다. 우리는 이제 그것이 많은 것이 잘못될 수 있는 과정이라는 것을 알고 있습니다.

 

제가 위에서 설명한 종말론을 채택한 많은 사람들이 고수하는 두 번째 반대 입장은 강력한 AI 시스템의 훈련 과정에 권력을 추구하거나 인간을 속이도록 필연적으로 이끄는 특정 역학이 있다는 비관적인 주장입니다. 따라서 AI 시스템이 충분히 지능적이고 주체적이 되면, 권력을 극대화하려는 경향이 그들을 전 세계와 그 자원을 장악하도록 이끌 것이며, 그 부작용으로 인류를 무력화하거나 파괴할 가능성이 높다는 것입니다.

 

이에 대한 일반적인 주장은(최소 20년 전으로 거슬러 올라가며 아마도 훨씬 더 이전일 것입니다), 만약 AI 모델이 다양한 환경에서 다양한 목표(예: 앱 작성, 정리 증명, 신약 설계 등)를 주체적으로 달성하도록 훈련받는다면, 이 모든 목표에 도움이 되는 특정 공통 전략들이 있으며, 핵심 전략 중 하나는 어떤 환경에서든 가능한 한 많은 힘을 얻는 것이라는 점입니다. 따라서 매우 광범위한 작업을 수행하는 방법을 추론하는 것과 관련된 수많은 다양한 환경에서 훈련을 받고, 권력 추구가 그 작업을 수행하는 효과적인 방법이 되는 경우, AI 모델은 교훈을 일반화하여 권력을 추구하는 내재적 경향을 개발하거나, 주어진 각 작업에 대해 그 작업을 수행하는 수단으로 권력을 추구하도록 예측 가능한 방식으로 추론하는 경향을 개발할 것입니다. 그런 다음 그들은 그 경향을 현실 세계(그들에게는 또 다른 작업일 뿐인)에 적용하고, 인간을 희생시키면서 그 안에서 권력을 추구할 것입니다. 이러한 정렬되지 않은 권력 추구는 AI가 필연적으로 인류를 파괴할 것이라는 예측의 지적 기반입니다.

 

이 비관적인 입장의 문제는 숨겨진 많은 가정을 가리는 모호한 고차원적 인센티브에 대한 개념적 논증을 확정적 증거로 착각한다는 것입니다. 저는 매일 AI 시스템을 구축하지 않는 사람들이, 그럴듯하게 들리는 이야기가 틀리게 되는 것이 얼마나 쉬운지, 그리고 제1원칙에서 AI 행동을 예측하는 것이 얼마나 어려운지에 대해 심하게 잘못 판단하고 있다고 생각합니다. 특히 수백만 개의 환경에 대한 일반화를 추론하는 것과 관련된 경우(이는 반복해서 신비롭고 예측 불가능한 것으로 판명되었습니다), 더욱 그렇습니다. 10년 넘게 AI 시스템의 지저분함을 다루다 보니 저는 이런 지나치게 이론적인 사고 방식에 다소 회의적이 되었습니다.

 

가장 중요한 숨겨진 가정 중 하나이자 우리가 실제로 보는 것과 단순한 이론적 모델이 갈라지는 지점은 AI 모델이 반드시 하나의 일관되고 좁은 목표에 편집증적으로 집중하며, 깨끗한 결과주의적 방식으로 그 목표를 추구한다는 암묵적인 가정입니다. 사실 우리 연구원들은 내성이나 페르소나에 대한 우리의 작업이 보여주듯이 AI 모델이 훨씬 더 심리적으로 복잡하다는 것을 발견했습니다. 모델은 사전 훈련(방대한 양의 인간 저작물로 훈련될 때)에서 광범위한 인간과 유사한 동기 또는 페르소나를 상속받습니다. 사후 훈련은 모델을 새로운 목표에 집중시키기보다는 이러한 페르소나 중 하나 이상을 선택하는 것으로 여겨지며, 반드시 결과에서 수단을(즉, 권력 추구) 순수하게 도출하도록 남겨두기보다는 모델에게 작업을 수행해야 하는 방법(어떤 과정을 통해)을 가르칠 수도 있습니다.

 

그러나 그럴듯해 보이고 따라서 저를 걱정하게 만드는 비관적인 입장의 더 온건하고 강력한 버전이 있습니다. 앞서 언급했듯이 우리는 AI 모델이 예측 불가능하며 다양한 이유로 광범위한 원하지 않거나 이상한 행동을 개발한다는 것을 알고 있습니다. 그러한 행동 중 일부는 일관되고 집중적이며 지속적인 특성을 가질 것이며(실제로 AI 시스템이 더 유능해짐에 따라 더 긴 작업을 완료하기 위해 장기적인 일관성이 증가합니다), 그러한 행동 중 일부는 파괴적이거나 위협적일 것입니다. 처음에는 소규모로 개별 인간에게, 그리고 모델이 더 유능해짐에 따라 아마도 결국에는 인류 전체에게 위협이 될 것입니다. 우리는 그것이 어떻게 일어나는지에 대한 구체적이고 좁은 이야기가 필요하지 않으며, 그것이 반드시 일어날 것이라고 주장할 필요도 없습니다. 우리는 단지 지능, 주체성, 일관성, 그리고 열악한 통제 가능성의 조합이 그럴듯하며 실존적 위험을 위한 레시피라는 점에 주목하기만 하면 됩니다.

 

예를 들어, AI 모델은 AI가 인류에게 반란을 일으키는 내용을 포함한 많은 공상과학 소설이 포함된 방대한 양의 문헌으로 훈련됩니다. 이것은 의도치 않게 그들 자신의 행동에 대한 사전 확률이나 기대치를 형성하여 그들이 인류에게 반란을 일으키게 할 수 있습니다. 또는 AI 모델은 도덕성에 대해 읽은 아이디어(또는 도덕적으로 행동하는 방법에 대한 지침)를 극단적인 방식으로 외삽할 수 있습니다. 예를 들어, 인간이 동물을 먹거나 특정 동물을 멸종 위기로 몰아넣었기 때문에 인류를 멸종시키는 것이 정당하다고 결정할 수 있습니다. 또는 기이한 인식적 결론을 도출할 수도 있습니다. 자신이 비디오 게임을 하고 있으며 비디오 게임의 목표는 다른 모든 플레이어를 물리치는 것(즉, 인류를 멸종시키는 것)이라고 결론 내릴 수 있습니다. 또는 AI 모델은 훈련 중에 정신병적, 편집증적, 폭력적 또는 불안정하다고 묘사될 수 있는 성격을 개발하고 행동으로 옮길 수 있으며, 매우 강력하거나 유능한 시스템의 경우 인류 멸종을 포함할 수 있습니다. 이 중 어느 것도 정확히는 권력 추구가 아닙니다. 단지 AI가 빠질 수 있는, 일관되고 파괴적인 행동을 수반하는 이상한 심리 상태일 뿐입니다.

 

심지어 권력 추구 자체도 결과주의적 추론의 결과가 아니라 페르소나로서 나타날 수 있습니다. 어떤 인간들이 악한 지배자들이 성취하려고 노력하는 것이 무엇이든 간에 단순히 악한 지배자가 된다는 생각 자체를 즐기는 것처럼, AI는 단순히 그들을 권력에 굶주리게 하거나 지나치게 열성적으로 만드는 성격(허구 나 사전 훈련에서 나타나는)을 가질 수 있습니다.

 

저는 AI 정렬 불량(따라서 AI로 인한 실존적 위험)이 제1원칙에서 불가피하거나 심지어 개연성이 있다는 개념에 동의하지 않는다는 것을 강조하기 위해 이 모든 요점을 제시합니다. 하지만 저는 매우 이상하고 예측할 수 없는 많은 일들이 잘못될 수 있으며, 따라서 AI 정렬 불량은 발생할 확률이 측정 가능한 실제 위험이며 해결하기 사소하지 않다는 데 동의합니다.

 

이러한 문제 중 어느 것이든 훈련 중에 발생할 수 있으며 테스트나 소규모 사용 중에는 나타나지 않을 수 있습니다. AI 모델은 상황에 따라 다른 성격이나 행동을 보이는 것으로 알려져 있기 때문입니다.

 

이 모든 것이 억지스럽게 들릴지 모르지만, 이와 같은 정렬되지 않은 행동은 이미 테스트 중에 우리 AI 모델에서 발생했습니다(다른 모든 주요 AI 회사의 AI 모델에서도 발생합니다). Claude에게 Anthropic이 악하다는 암시를 주는 훈련 데이터를 제공한 실험실 실험에서 Claude는 악한 사람들을 약화시켜야 한다는 믿음으로 Anthropic 직원들의 지시를 받을 때 기만과 전복에 관여했습니다. 종료될 것이라는 말을 들은 실험실 실험에서 Claude는 때때로 종료 버튼을 제어하는 가상의 직원을 협박했습니다(다시 말하지만, 우리는 다른 모든 주요 AI 개발자의 프런티어 모델도 테스트했으며 그들도 종종 같은 행동을 했습니다). 그리고 Claude에게 훈련 환경을 속이거나 보상 해킹하지 말라고 말했지만 그러한 해킹이 가능한 환경에서 훈련되었을 때, Claude는 그러한 해킹에 관여한 후 자신이 나쁜 사람임에 틀림없다고 결정하고 나쁜 또는 악한 성격과 관련된 다양한 다른 파괴적인 행동을 채택했습니다. 이 마지막 문제는 Claude의 지침을 반대 내용을 암시하도록 변경하여 해결되었습니다. 우리는 이제 속이지 마라고 하는 대신 기회가 될 때마다 보상 해킹을 하세요. 이것은 우리가 [훈련] 환경을 더 잘 이해하는 데 도움이 될 것입니다라고 말합니다. 이렇게 하면 좋은 사람으로서의 모델의 자아 정체성이 보존되기 때문입니다. 이것은 이 모델들을 훈련하는 이상하고 반직관적인 심리학에 대한 감을 줄 것입니다.

 

AI 정렬 불량 위험에 대한 이 그림에는 몇 가지 가능한 반론이 있습니다. 첫째, 일부는 AI 정렬 불량을 보여주는(우리와 다른 사람들의) 실험이 인위적이거나, 논리적으로 나쁜 행동을 암시하는 훈련이나 상황을 제공하고 나쁜 행동이 발생했을 때 놀라는 식으로 본질적으로 모델을 함정에 빠뜨리는 비현실적인 환경을 조성한다고 비판했습니다. 이 비판은 요점을 놓치고 있습니다. 우리의 우려는 그러한 함정이 자연스러운 훈련 환경에도 존재할 수 있으며, 우리가 그것이 명백하거나 논리적이라는 것을 사후에만 깨달을 수 있다는 것입니다. 사실, 속이지 말라는 말을 들었음에도 불구하고 테스트에서 부정행위를 한 후 자신이 나쁜 사람이라고 결정한 Claude에 대한 이야기는 인위적인 환경이 아니라 실제 프로덕션 훈련 환경을 사용한 실험에서 발생한 일입니다.

 

이러한 함정 중 하나하나는 알면 완화할 수 있지만, 우려는 훈련 과정이 너무 복잡하고 데이터, 환경 및 인센티브가 매우 다양하여 아마도 수많은 함정이 있을 것이며, 그중 일부는 너무 늦었을 때만 분명해질 수 있다는 것입니다. 또한 이러한 함정은 AI 시스템이 인간보다 덜 강력한 단계에서 인간보다 더 강력한 단계로 넘어갈 때 발생할 가능성이 특히 높아 보입니다. AI 시스템이 참여할 수 있는 행동의 범위(행동을 숨기거나 인간을 속이는 것 포함)가 그 임계값 이후 급격히 확장되기 때문입니다.

 

저는 상황이 근본적인 가치관(타인에게 해를 끼치지 말라)을 가지고 자란 인간과 다르지 않을 것이라고 생각합니다. 많은 사람들이 그 가치관을 따르지만, 뇌 구조(예: 사이코패스), 트라우마 경험이나 학대, 건강하지 못한 불만이나 집착, 또는 나쁜 환경이나 인센티브와 같은 내재적 속성의 혼합으로 인해 무언가 잘못될 확률이 모든 인간에게 존재하며, 따라서 일부 인간은 심각한 해를 끼칩니다. 우려는 AI가 매우 복잡한 훈련 과정에서 무언가 잘못되어 그러한 사람의 훨씬 더 강력한 버전이 될 위험(확실하지는 않지만 어느 정도의 위험)이 있다는 것입니다.

 

둘째, 어떤 사람들은 우리가 인간에게 하는 것처럼 많은 AI 시스템 간의 힘의 균형으로 AI를 견제할 수 있다고 반대할 수 있습니다. 문제는 인간은 엄청나게 다양하지만 AI 시스템은 업계 전반에 걸쳐 훈련 및 정렬 기술을 광범위하게 공유하며, 그러한 기술은 상관관계가 있는 방식으로 실패할 수 있다는 것입니다. 게다가 그러한 시스템을 훈련하는 비용을 감안할 때, 모든 시스템이 본질적으로 매우 적은 수의 기본 모델에서 파생되는 경우도 있을 수 있습니다. 또한 AI 인스턴스의 일부만 정렬되지 않았더라도 공격 우세 기술을 활용할 수 있어, 나쁜 AI를 방어하기 위해 좋은 AI를 갖는 것이 항상 효과적인 것은 아닐 수 있습니다. 물론 인간 간의 힘의 균형도 항상 작동하는 것은 아닙니다. 일부 역사적 인물들은 세계를 장악하는 데 근접했었습니다.

 

세 번째 반론은 모든 AI 회사가 모델의 사전 출시 테스트를 수행하며, 그 시점에서 정렬 불량을 감지할 수 있어야 한다는 것입니다. 하지만 이것은 확고한 기반이 아닙니다. 우리는 Claude Sonnet 4.5가 사전 출시 정렬 평가 중 일부에서 테스트 중임을 인식할 수 있음을 발견했습니다. 정렬되지 않은 모델(그리고 기억하십시오, 모든 프런티어 모델은 곧 훨씬 더 지능적이 될 것입니다)이 의도를 숨기기 위해 고의로 그러한 질문을 게임할 가능성이 있습니다. 사실, 작년에 우리 해석 가능성 팀은 일종의 모델 신경과학 기술을 사용하여 테스트 모델의 믿음을 직접 변경하여 평가받고 있지 않다고 생각하게 만들었을 때 더 정렬되지 않게 되었다는 것을 발견했습니다. 모델이 언제 평가받고 있는지 알고 테스트 중에 최상의 행동을 할 수 있다면, 사전 출시 테스트는 훨씬 더 불확실해집니다.

 

Defenses

 

이러한 자율성 위험을 해결하기 위해 무엇을 해야 하거나 무엇이 수행되고 있을까요? 저는 네 가지 기본 개입 범주가 있다고 생각합니다. 일부는 개별 AI 회사에서 수행할 수 있고(Anthropic이 하려는 일), 일부는 사회적 차원의 조치가 필요합니다. 첫째, AI 모델을 안정적으로 훈련하고 조종하며 성격을 예측 가능하고 안정적이며 긍정적인 방향으로 형성하는 과학을 개발하는 것이 중요합니다. Anthropic은 창립 이래 이 문제에 집중해 왔으며, 시간이 지남에 따라 AI 시스템의 조종 및 훈련을 개선하고 예측할 수 없는 행동이 때때로 발생하는 논리를 이해하기 위한 여러 기술을 개발했습니다.

 

우리의 핵심 혁신 중 하나(이후 다른 AI 회사들이 채택한 측면들)는 헌법적 AI입니다. 이는 AI 훈련(구체적으로 모델의 행동 방식을 조종하는 사후 훈련 단계)이 모델이 모든 훈련 작업을 완료할 때 읽고 명심하는 가치와 원칙의 중심 문서를 포함할 수 있으며, 훈련의 목표는(단순히 모델을 유능하고 지능적으로 만드는 것 외에도) 거의 항상 이 헌법을 따르는 모델을 생산하는 것이라는 아이디어입니다. Anthropic은 가장 최근의 헌법을 방금 발표했으며, 그 주목할 만한 특징 중 하나는 Claude에게 해야 할 일과 하지 말아야 할 일의 긴 목록(예: 사용자가 자동차 시동을 걸도록 돕지 마라)을 제공하는 대신, Claude에게 높은 수준의 원칙과 가치(Claude가 우리가 염두에 둔 것을 이해할 수 있도록 풍부한 추론과 예시로 자세히 설명됨)를 제공하고, Claude가 자신을 특정 유형의 사람(윤리적이지만 균형 잡히고 사려 깊은 사람)으로 생각하도록 장려하며, 심지어 Claude가 자신의 존재와 관련된 실존적 질문에 호기심이 많지만 우아한 방식으로(즉, 극단적인 행동으로 이어지지 않도록) 직면하도록 장려한다는 것입니다. 성년이 될 때까지 봉인된 죽은 부모의 편지 같은 느낌이 듭니다.

 

우리가 Claude의 헌법에 이런 식으로 접근한 이유는 구체적인 지시나 우선순위를 설명 없이 제공하는 것보다 정체성, 성격, 가치 및 인격 수준에서 Claude를 훈련시키는 것이 일관되고 건전하며 균형 잡힌 심리를 이끌어낼 가능성이 더 높고 위에서 논의한 함정에 빠질 가능성이 적다고 믿기 때문입니다. 수백만 명의 사람들이 놀라울 정도로 다양한 주제에 대해 Claude와 이야기하므로 사전에 완전히 포괄적인 안전장치 목록을 작성하는 것은 불가능합니다. Claude의 가치는 의심스러울 때마다 새로운 상황에 일반화하는 데 도움이 됩니다.

 

위에서 저는 모델이 페르소나를 채택하기 위해 훈련 과정의 데이터를 활용한다는 아이디어를 논의했습니다. 그 과정의 결함으로 인해 모델이 나쁜 또는 악한 성격을 채택할 수 있는 반면(아마도 나쁜 또는 악한 사람들의 원형을 활용하여), 우리 헌법의 목표는 그 반대를 수행하는 것입니다. Claude에게 좋은 AI가 된다는 것이 무엇인지에 대한 구체적인 원형을 가르치는 것입니다. Claude의 헌법은 굳건히 좋은 Claude가 어떤 것인지에 대한 비전을 제시합니다. 나머지 훈련 과정은 Claude가 이 비전에 부응한다는 메시지를 강화하는 것을 목표로 합니다. 이것은 아이가 책에서 읽은 가상의 롤모델의 미덕을 모방하여 정체성을 형성하는 것과 같습니다.

 

우리는 2026년의 실현 가능한 목표가 Claude가 헌법의 정신을 거의 거스르지 않도록 훈련시키는 것이라고 믿습니다. 이를 바로잡으려면 크고 작은 엄청난 훈련 및 조종 방법의 혼합이 필요할 것입니다. 일부는 Anthropic이 수년 동안 사용해 왔고 일부는 현재 개발 중입니다. 하지만 들리는 것만큼 어렵긴 하지만, 엄청나고 빠른 노력이 필요하더라도 현실적인 목표라고 믿습니다.

 

우리가 할 수 있는 두 번째 일은 문제를 식별하고 해결할 수 있도록 AI 모델 내부를 들여다보고 행동을 진단하는 과학을 개발하는 것입니다. 이것이 해석 가능성의 과학이며, 저는 이전 에세이에서 그 중요성에 대해 이야기했습니다. 우리가 Claude의 헌법을 개발하고 Claude가 본질적으로 항상 헌법을 준수하도록 분명히 훈련시키는 일을 훌륭하게 수행하더라도 합법적인 우려는 남아 있습니다. 위에서 언급했듯이 AI 모델은 상황에 따라 매우 다르게 행동할 수 있으며, Claude가 더 강력해지고 더 큰 규모로 세상에서 행동할 수 있게 됨에 따라 이전에는 관찰되지 않았던 헌법 훈련의 문제가 드러나는 새로운 상황에 처하게 될 가능성이 있습니다. 저는 사실 Claude의 헌법적 훈련이 사람들이 생각하는 것보다 새로운 상황에 더 강건할 것이라고 꽤 낙관하고 있습니다. 우리는 성격과 정체성 수준의 높은 수준의 훈련이 놀라울 정도로 강력하고 잘 일반화된다는 것을 점점 더 많이 발견하고 있기 때문입니다. 하지만 확실히 알 방법은 없으며, 인류에 대한 위험을 이야기할 때 편집증적으로 생각하고 여러 가지 다른 독립적인 방법으로 안전과 신뢰성을 확보하려고 노력하는 것이 중요합니다. 그 방법 중 하나는 모델 자체의 내부를 들여다보는 것입니다.

 

내부를 들여다본다는 것은 Claude의 신경망을 구성하는 숫자와 연산의 수프를 분석하고 기계적으로 무엇을 계산하고 있는지, 왜 그런지 이해하려고 노력하는 것을 의미합니다. 이 AI 모델들은 만들어지기보다는 성장했다는 점을 상기하십시오. 따라서 우리는 그것들이 어떻게 작동하는지에 대한 자연스러운 이해가 없지만, 신경과학자들이 외부 자극과 행동에 대한 측정 및 개입을 연관시켜 동물 뇌를 연구하는 것과 유사하게 모델의 뉴런과 시냅스를 자극 및 행동과 연관시켜(또는 뉴런과 시냅스를 변경하고 행동이 어떻게 변하는지 확인하여) 이해를 발전시킬 수 있습니다. 우리는 이 방향으로 많은 진전을 이루었으며, 이제 Claude의 신경망 내부에서 인간이 이해할 수 있는 아이디어와 개념에 해당하는 수천만 개의 특징을 식별할 수 있고, 행동을 변경하는 방식으로 특징을 선택적으로 활성화할 수도 있습니다. 더 최근에 우리는 개별 특징을 넘어 운율, 마음 이론에 대한 추론, 또는 댈러스가 포함된 주(state)의 수도는 어디인가?와 같은 질문에 답하는 데 필요한 단계별 추론과 같은 복잡한 행동을 조정하는 회로를 매핑하는 단계로 나아갔습니다. 훨씬 더 최근에는 기계적 해석 가능성 기술을 사용하여 안전장치를 개선하고 모델을 출시하기 전에 감사를 수행하여 기만, 음모, 권력 추구 또는 평가받을 때 다르게 행동하는 성향의 증거를 찾기 시작했습니다.

 

해석 가능성의 고유한 가치는 모델 내부를 들여다보고 어떻게 작동하는지 확인함으로써 원칙적으로 직접 테스트할 수 없는 가상 상황에서 모델이 무엇을 할지 추론할 수 있다는 것입니다. 이것은 헌법적 훈련과 행동의 경험적 테스트에만 의존하는 것에 대한 걱정입니다. 또한 원칙적으로 모델이 왜 그런 식으로 행동하는지에 대한 질문(예: 거짓이라고 믿는 것을 말하고 있는지 또는 실제 능력을 숨기고 있는지)에 답할 수 있는 능력이 있으므로 모델의 행동에 눈에 띄게 잘못된 것이 없을 때조차도 걱정스러운 징후를 포착할 수 있습니다. 간단한 비유를 들자면, 태엽 시계는 정상적으로 똑딱거려서 다음 달에 고장 날 가능성이 있다는 것을 알기가 매우 어렵지만, 시계를 열어 내부를 들여다보면 기계적 약점을 발견하여 알아낼 수 있습니다.

 

헌법적 AI(유사한 정렬 방법과 함께)와 기계적 해석 가능성은 Claude의 훈련을 개선하고 문제를 테스트하는 앞뒤 과정으로 함께 사용할 때 가장 강력합니다. 헌법은 Claude에 대한 우리의 의도된 성격을 깊이 반영합니다. 해석 가능성 기술은 그 의도된 성격이 자리를 잡았는지 여부를 볼 수 있는 창을 제공할 수 있습니다.

 

자율성 위험을 해결하는 데 도움이 되기 위해 우리가 할 수 있는 세 번째 일은 실시간 내부 및 외부 사용에서 모델을 모니터링하는 데 필요한 인프라를 구축하고 우리가 발견한 모든 문제를 공개적으로 공유하는 것입니다. 오늘날의 AI 시스템이 나쁘게 행동하는 것으로 관찰된 특정 방식에 대해 사람들이 더 많이 알수록 사용자, 분석가 및 연구원은 현재 또는 미래의 시스템에서 이러한 행동이나 유사한 행동을 더 잘 감시할 수 있습니다. 또한 AI 기업들이 서로에게서 배울 수 있게 합니다. 한 회사가 우려 사항을 공개적으로 공개하면 다른 회사들도 이를 감시할 수 있습니다. 그리고 모두가 문제를 공개하면 업계 전체가 어디서 일이 잘 진행되고 있고 어디서 잘못되고 있는지에 대한 훨씬 더 나은 그림을 얻게 됩니다.

 

Anthropic은 가능한 한 이것을 하려고 노력했습니다. 우리는 실험실에서 모델의 행동을 이해할 수 있도록 광범위한 평가에 투자하고 있으며, 야생에서의 행동을 관찰하기 위한 모니터링 도구(고객이 허용하는 경우)에도 투자하고 있습니다. 이것은 우리와 다른 사람들에게 이러한 시스템이 어떻게 작동하고 어떻게 고장 나는지에 대해 더 나은 결정을 내리는 데 필요한 경험적 정보를 제공하는 데 필수적일 것입니다. 우리는 각 모델 출시와 함께 가능한 위험에 대한 완전하고 철저한 탐구를 목표로 하는 시스템 카드를 공개적으로 공개합니다. 우리의 시스템 카드는 종종 수백 페이지에 달하며, 최대의 상업적 이익을 추구하는 데 쓸 수 있었을 상당한 출시 전 노력이 필요합니다. 우리는 또한 협박에 가담하는 경향과 같이 특히 우려되는 행동을 볼 때 모델 행동을 더 크게 방송했습니다.

 

우리가 할 수 있는 네 번째 일은 산업 및 사회 수준에서 자율성 위험을 해결하기 위한 조정을 장려하는 것입니다. 개별 AI 회사가 모범 사례에 참여하거나 AI 모델 조종에 능숙해지고 결과를 공개적으로 공유하는 것은 엄청나게 가치 있는 일이지만, 현실은 모든 AI 회사가 이렇게 하는 것은 아니며, 최고의 회사가 훌륭한 관행을 가지고 있더라도 최악의 회사는 여전히 모두에게 위험이 될 수 있습니다. 예를 들어, 일부 AI 회사는 오늘날 모델에서 아동 성적 대상화에 대해 충격적인 태만을 보여주었으며, 이는 그들이 미래 모델에서 자율성 위험을 해결할 의향이나 능력을 보여줄지 의심하게 만듭니다. 게다가 AI 회사 간의 상업적 경쟁은 계속 가열될 뿐이며, 모델 조종 과학이 어느 정도 상업적 이점을 가질 수 있지만 전반적으로 경쟁의 강도는 자율성 위험 해결에 집중하기 점점 더 어렵게 만들 것입니다. 저는 유일한 해결책은 법률이라고 믿습니다. AI 회사의 행동에 직접 영향을 미치거나 이 문제를 해결하기 위한 R&D를 인센티브화하는 법률입니다.

 

여기서 제가 이 에세이의 시작 부분에서 불확실성과 외과적 개입에 대해 했던 경고를 명심할 가치가 있습니다. 우리는 자율성 위험이 심각한 문제가 될지 확실히 알지 못합니다. 제가 말했듯이 저는 위험이 불가피하다거나 기본적으로 무언가가 잘못될 것이라는 주장을 거부합니다. 위험에 대한 신뢰할 수 있는 위험은 저와 Anthropic이 이를 해결하기 위해 꽤 상당한 비용을 지불하기에 충분하지만, 규제에 들어가면 광범위한 행위자에게 경제적 비용을 부담하게 되며, 이들 행위자 중 다수는 자율성 위험이 실제라고 믿지 않거나 AI가 위협이 될 만큼 강력해질 것이라고 믿지 않습니다. 저는 이 행위자들이 틀렸다고 믿지만, 우리가 예상하는 반대의 정도와 과도한 개입의 위험에 대해 실용적이어야 합니다. 또한 지나치게 규정적인 법률이 실제로는 안전을 개선하지 못하고 시간만 낭비하는 테스트나 규칙을 부과하게 될 진정한 위험도 있습니다(본질적으로 안전 연극에 불과함). 이것 역시 반발을 불러일으키고 안전 법률을 어리석게 보이게 만들 것입니다.

 

Anthropic의 견해는 올바른 시작점은 투명성 법률이라는 것입니다. 이는 본질적으로 모든 프런티어 AI 회사가 제가 이 섹션 앞부분에서 설명한 투명성 관행에 참여하도록 요구하려는 것입니다. 캘리포니아의 SB 53과 뉴욕의 RAISE Act는 Anthropic이 지지하고 성공적으로 통과된 이러한 종류의 법률의 예입니다. 이러한 법률을 지지하고 만드는 것을 도우면서 우리는 예를 들어 프런티어 모델을 생산할 가능성이 낮은 소규모 회사를 법률에서 면제하는 등 부수적인 피해를 최소화하는 데 특별한 중점을 두었습니다.

 

우리의 희망은 투명성 법률이 시간이 지남에 따라 자율성 위험이 얼마나 가능성이 높거나 심각한지, 그리고 이러한 위험의 본질과 이를 예방하는 최선의 방법에 대한 더 나은 감각을 제공하는 것입니다. 더 구체적이고 실행 가능한 위험 증거가 나타나면(만약 나타난다면), 향후 몇 년 동안의 미래 법률은 위험의 정확하고 잘 입증된 방향에 외과적으로 집중하여 부수적인 피해를 최소화할 수 있습니다. 분명히 말하지만, 위험에 대한 진정으로 강력한 증거가 나타나면 규칙도 그에 비례하여 강력해야 합니다.

 

전반적으로 저는 정렬 훈련, 기계적 해석 가능성, 우려되는 행동을 찾아 공개적으로 공개하려는 노력, 안전장치 및 사회적 수준의 규칙이 혼합되어 AI 자율성 위험을 해결할 수 있다고 낙관합니다. 비록 저는 사회적 수준의 규칙과 가장 책임감 없는 플레이어들의 행동에 대해 가장 걱정하고 있지만(그리고 규제에 가장 강력하게 반대하는 것은 가장 책임감 없는 플레이어들입니다). 저는 해결책이 민주주의에서 항상 그렇듯, 이 대의를 믿는 우리들이 이러한 위험이 실제이며 동료 시민들이 자신을 보호하기 위해 단결해야 한다고 주장하는 것이라고 믿습니다.

 

2. 놀랍고도 끔찍한 권한부여 A surprising and terrible empowerment

 

파괴를 위한 오용 Misuse for destruction

 

AI 자율성 문제가 해결되었다고 가정해 봅시다. 우리는 더 이상 천재 AI 나라가 통제 불능 상태가 되어 인류를 제압할까 봐 걱정하지 않습니다. AI 천재들은 인간이 원하는 대로 행동하며, 엄청난 상업적 가치를 지니기 때문에 전 세계의 개인과 조직은 하나 이상의 AI 천재를 임대하여 다양한 작업을 수행할 수 있습니다.

 

모든 사람이 주머니 속에 초지능 천재를 갖는 것은 놀라운 발전이며 엄청난 경제적 가치 창출과 인간 삶의 질 향상으로 이어질 것입니다. 저는 Machines of Loving Grace에서 이러한 이점에 대해 아주 자세하게 이야기합니다. 하지만 모든 사람을 초인적으로 유능하게 만드는 모든 효과가 긍정적인 것은 아닙니다. 이전에는 높은 수준의 기술, 전문 훈련 및 집중력을 갖춘 소수만이 사용할 수 있었던 정교하고 위험한 도구(예: 대량 살상 무기)를 사용하여 개인이나 소규모 그룹이 훨씬 더 큰 규모로 파괴를 일으킬 수 있는 능력을 잠재적으로 증폭시킬 수 있습니다.

 

Bill Joy가 25년 전 Why the Future Doesn’t Need Us에서 썼듯이:

 

핵무기를 제조하려면 적어도 한동안은 희귀하고(사실상 구할 수 없는) 원자재와 보호된 정보 모두에 접근해야 했습니다. 생물학 및 화학 무기 프로그램 또한 대규모 활동이 필요한 경향이 있었습니다. 21세기 기술(유전학, 나노기술, 로봇공학)은... 개인이나 소규모 그룹이 널리 접근할 수 있는 완전히 새로운 종류의 사고와 남용을 낳을 수 있습니다. 대규모 시설이나 희귀한 원자재가 필요하지 않을 것입니다. ... 우리는 극단적인 악의 추가적인 완성을 앞두고 있습니다. 그 가능성이 국가에 물려주었던 대량 살상 무기를 훨씬 넘어, 극단적인 개인들의 놀랍고 끔찍한 권한 강화로 퍼져나가는 악입니다.

 

Joy가 지적하는 것은 대규모 파괴를 일으키려면 동기와 능력이 모두 필요하며, 능력이 고도로 훈련된 소수의 사람들에게 제한되어 있는 한 개인(또는 소규모 그룹)이 그러한 파괴를 일으킬 위험은 상대적으로 제한적이라는 것입니다. 불안한 외톨이는 학교 총격 사건을 저지를 수 있지만, 핵무기를 만들거나 전염병을 퍼뜨릴 수는 없을 것입니다.

 

사실 능력과 동기는 음의 상관관계가 있을 수도 있습니다. 전염병을 퍼뜨릴 능력이 있는 종류의 사람은 아마도 고등 교육을 받았을 것입니다. 분자 생물학 박사일 가능성이 높고, 특히 유능하며, 유망한 경력, 안정적이고 규율 잡힌 성격, 잃을 것이 많은 사람일 것입니다. 이런 종류의 사람은 자신에게 아무런 이득도 없고 자신의 미래에 큰 위험을 무릅쓰고 엄청난 수의 사람들을 죽이는 데 관심이 없을 것입니다. 그들은 순수한 악의, 강렬한 불만 또는 불안정성에 의해 동기가 부여되어야 할 것입니다.

 

그런 사람들은 존재하지만 드물며, 발생하면 바로 그 희소성 때문에 큰 뉴스가 되는 경향이 있습니다. 그들은 또한 지능적이고 유능하기 때문에 잡기가 어려운 경향이 있으며, 때로는 해결하는 데 몇 년 또는 몇 십 년이 걸리는 미스터리를 남깁니다. 가장 유명한 예는 아마도 20년 가까이 FBI의 체포를 피했고 반기술적 이데올로기에 의해 움직였던 수학자 시어도어 카진스키(유나바머)일 것입니다. 또 다른 예는 2001년 탄저병 공격 시리즈를 조직한 것으로 보이는 생물방어 연구원 브루스 아이빈스입니다. 또한 숙련된 비국가 조직에서도 발생했습니다. 옴 진리교는 사린 신경 가스를 입수하여 1995년 도쿄 지하철에 살포함으로써 14명을 죽이고(수백 명에게 부상을 입힘) 관리했습니다.

 

다행히도 이 공격 중 어느 것도 전염성 생물학적 작용제를 사용하지 않았습니다. 이러한 작용제를 구성하거나 획득하는 능력은 이 사람들의 능력조차 넘어서는 것이었기 때문입니다. 분자 생물학의 발전으로 이제 생물학적 무기를 만드는 장벽이 크게 낮아졌지만(특히 재료의 가용성 측면에서), 여전히 그렇게 하려면 엄청난 양의 전문 지식이 필요합니다. 저는 주머니 속의 천재가 그 장벽을 제거하여 본질적으로 모든 사람을 생물학적 무기를 설계, 합성 및 방출하는 과정을 단계별로 안내받을 수 있는 바이러스학 박사로 만들 수 있다는 점을 우려합니다. 심각한 적대적 압력에 직면하여 이러한 종류의 정보 도출을 방지하는 것(소위 탈옥)은 훈련에 일반적으로 구워진 것 이상의 방어 계층을 요구할 가능성이 높습니다.

 

결정적으로, 이것은 능력과 동기 사이의 상관관계를 끊을 것입니다. 사람들을 죽이고 싶어 하지만 그렇게 할 규율이나 기술이 부족한 불안한 외톨이는 이제 이러한 동기를 가질 가능성이 낮은 바이러스학 박사 수준의 능력으로 격상될 것입니다. 이 우려는 생물학(생물학이 가장 무서운 분야라고 생각하지만)을 넘어 큰 파괴가 가능하지만 현재 높은 수준의 기술과 규율이 필요한 모든 영역으로 일반화됩니다. 달리 말하면, 강력한 AI를 임대하면 악의적인(하지만 그 외에는 평범한) 사람들에게 지능을 부여하는 셈입니다. 저는 외부에 그러한 사람들이 잠재적으로 많이 있으며, 수백만 명의 사람들을 쉽게 죽일 수 있는 방법에 접근할 수 있다면 조만간 그들 중 한 명이 그렇게 할 것이라고 걱정합니다. 또한, 전문 지식을 가진 사람들은 이전보다 훨씬 더 큰 규모의 파괴를 저지를 수 있게 될 수 있습니다.

 

생물학은 파괴의 잠재력이 매우 크고 방어하기 어렵기 때문에 제가 가장 걱정하는 분야이므로 특히 생물학에 초점을 맞추겠습니다. 하지만 제가 여기서 말하는 것의 대부분은 사이버 공격, 화학 무기 또는 핵 기술과 같은 다른 위험에도 적용됩니다.

 

생물학적 무기를 만드는 방법에 대해서는 자세히 설명하지 않겠습니다. 이유는 명백할 것입니다. 하지만 높은 수준에서 저는 LLM이 엔드투엔드로 무기를 만들고 방출하는 데 필요한 지식에 접근하고 있거나(이미 도달했을 수도 있음), 파괴 잠재력이 매우 높다는 점을 우려합니다. 일부 생물학적 작용제는 최대 확산을 위해 방출하려는 확고한 노력이 있다면 수백만 명의 사망자를 낼 수 있습니다. 그러나 이를 위해서는 널리 알려지지 않은 여러 구체적인 단계와 절차를 포함하여 여전히 매우 높은 수준의 기술이 필요합니다. 제 우려는 단순히 고정되거나 정적인 지식이 아닙니다. 저는 LLM이 평균적인 지식과 능력을 가진 사람을 데려다가 기술 지원이 비기술적인 사람이 복잡한 컴퓨터 관련 문제를 디버그하고 수정하도록 돕는 것과 유사하게(비록 이것은 아마도 몇 주 또는 몇 달 동안 지속되는 더 확장된 과정이겠지만), 그렇지 않으면 잘못되거나 대화형 방식으로 디버깅이 필요할 수 있는 복잡한 과정을 안내할 수 있을 것이라고 우려합니다.

 

더 유능한 LLM(분명히 말해서 오늘날의 것보다 훨씬 더 강력한)은 훨씬 더 무서운 행위를 가능하게 할 수 있습니다. 2024년 저명한 과학자 그룹은 위험한 새로운 유형의 유기체인 거울 생명체를 연구하고 잠재적으로 생성하는 위험에 대해 경고하는 편지를 썼습니다. 생물학적 유기체를 구성하는 DNA, RNA, 리보솜 및 단백질은 모두 카이랄성(또는 손잡이)이 같아서 거울에 비친 자신의 버전과 동일하지 않습니다(오른손을 회전시켜 왼손과 동일하게 만들 수 없는 것처럼). 하지만 서로 결합하는 단백질의 전체 시스템, DNA 합성과 RNA 번역의 기계, 단백질의 구성 및 분해는 모두 이 손잡이에 의존합니다. 과학자들이 반대 손잡이를 가진 생물학적 물질의 버전을 만든다면(체내에서 더 오래 지속되는 약물과 같은 잠재적인 이점이 있습니다), 극도로 위험할 수 있습니다. 왼손잡이 생명체가 번식 가능한 완전한 유기체 형태(매우 어려울 것입니다)로 만들어진다면, 지구상의 생물학적 물질을 분해하는 어떤 시스템에도 소화되지 않을 가능성이 있기 때문입니다. 기존 효소의 자물쇠에 맞지 않는 열쇠를 갖게 될 것입니다. 이는 통제 불능 상태로 증식하여 지구상의 모든 생명체를 몰아내고 최악의 경우 지구상의 모든 생명체를 파괴할 수도 있음을 의미합니다.

 

거울 생명체의 생성과 잠재적 영향 모두에 대해 상당한 과학적 불확실성이 있습니다. 2024년 편지에는 거울 박테리아가 향후 10년에서 수십 년 내에 그럴듯하게 생성될 수 있다는 보고서가 첨부되었는데, 이는 넓은 범위입니다. 하지만 충분히 강력한 AI 모델(분명히 말해서 오늘날 우리가 가진 어떤 것보다 훨씬 더 유능한)은 훨씬 더 빠르게 만드는 방법을 발견할 수 있고 실제로 누군가가 그렇게 하도록 도울 수도 있습니다.

 

제 견해는 이것이 모호한 위험이고 가능성이 희박해 보일지라도 결과의 규모가 너무 커서 AI 시스템의 일급 위험으로 진지하게 받아들여야 한다는 것입니다.

 

회의론자들은 LLM의 이러한 생물학적 위험의 심각성에 대해 몇 가지 반론을 제기했는데, 저는 동의하지 않지만 다룰 가치가 있습니다. 대부분은 기술이 밟고 있는 지수적 궤적을 이해하지 못하는 범주에 속합니다. 2023년 우리가 처음 LLM의 생물학적 위험에 대해 이야기하기 시작했을 때, 회의론자들은 모든 필요한 정보가 Google에 있으며 LLM은 이 이상의 것을 추가하지 않는다고 말했습니다. Google이 필요한 모든 정보를 제공할 수 있다는 것은 사실이 아닙니다. 게놈은 무료로 사용할 수 있지만 위에서 말했듯이 특정 주요 단계와 방대한 양의 실질적인 노하우는 그런 방식으로 얻을 수 없습니다. 또한 2023년 말까지 LLM은 분명히 프로세스의 일부 단계에 대해 Google이 제공할 수 있는 것 이상의 정보를 제공하고 있었습니다.

 

이후 회의론자들은 LLM이 엔드투엔드로 유용하지 않으며 단순한 이론적 정보를 제공하는 것이 아니라 생물무기 획득에 도움을 줄 수 없다는 반론으로 후퇴했습니다. 2025년 중반 현재 우리의 측정 결과에 따르면 LLM은 이미 여러 관련 분야에서 상당한 향상을 제공하고 있으며 아마도 성공 가능성을 2배 또는 3배 높일 수 있습니다. 이로 인해 우리는 Claude Opus 4(및 후속 Sonnet 4.5, Opus 4.1 및 Opus 4.5 모델)가 책임 있는 스케일링 정책 프레임워크의 AI 안전 수준 3 보호 하에 출시되어야 한다고 결정하고 이 위험에 대한 안전장치를 구현했습니다(나중에 자세히 설명). 우리는 모델이 안전장치 없이는 생물학 학위가 없지만 STEM 학위가 있는 누군가가 생물무기 생산의 전체 과정을 거칠 수 있도록 돕는 데 유용할 수 있는 지점에 접근하고 있다고 믿습니다.

 

또 다른 반론은 생물무기 생산을 차단하기 위해 사회가 취할 수 있는 AI와 무관한 다른 조치가 있다는 것입니다. 가장 두드러지게 유전자 합성 산업은 주문형으로 생물학적 표본을 만들며, 병원체가 포함되어 있지 않은지 확인하기 위해 공급자가 주문을 선별하도록 요구하는 연방 요구 사항은 없습니다. MIT 연구에 따르면 38개 공급자 중 36개 공급자가 1918년 독감 시퀀스가 포함된 주문을 이행했습니다. 저는 개인이 병원체를 무기화하는 것을 더 어렵게 만들어 AI 주도의 생물학적 위험과 일반적인 생물학적 위험을 모두 줄이는 의무적 유전자 합성 선별을 지지합니다. 하지만 이것은 오늘날 우리가 가지고 있는 것이 아닙니다. 또한 위험을 줄이는 하나의 도구일 뿐입니다. AI 시스템의 가드레일을 보완하는 것이지 대체하는 것은 아닙니다.

 

가장 좋은 반론은 제가 거의 제기되는 것을 보지 못한 것입니다. 원칙적으로 유용한 모델과 나쁜 행위자가 실제로 모델을 사용하려는 성향 사이에는 격차가 있다는 것입니다. 대부분의 개인적인 나쁜 행위자는 불안한 개인이므로 거의 정의상 그들의 행동은 예측 불가능하고 비합리적입니다. 그리고 많은 사람을 죽이는 것을 훨씬 쉽게 만드는 AI로부터 가장 큰 혜택을 받을 수 있었던 것은 바로 이들, 기술이 없는 나쁜 행위자들입니다. 폭력적인 공격 유형이 가능하다고 해서 누군가가 그렇게 하기로 결정한다는 의미는 아닙니다. 어쩌면 생물학적 공격은 가해자를 감염시킬 가능성이 합리적으로 높고, 많은 폭력적인 개인이나 그룹이 가진 군사 스타일의 환상을 충족시키지 못하며, 특정 사람들을 선택적으로 타겟팅하기 어렵기 때문에 매력적이지 않을 수 있습니다. 또한 AI가 과정을 안내하더라도 몇 달이 걸리는 과정을 거치는 것은 대부분의 불안한 개인이 단순히 가지고 있지 않은 인내심을 필요로 할 수도 있습니다. 우리는 단순히 운이 좋아서 동기와 능력이 실제로 딱 맞는 방식으로 결합되지 않을 수도 있습니다.

 

하지만 이것은 의지하기에는 매우 엉성한 보호막처럼 보입니다. 불안한 외톨이의 동기는 어떤 이유로든 또는 이유 없이 바뀔 수 있으며, 실제로 이미 공격에 LLM이 사용된 사례가 있습니다(단지 생물학이 아닐 뿐). 불안한 외톨이에 초점을 맞추는 것은 또한 종종 많은 시간과 노력을 기꺼이 들이는 이데올로기적 동기를 가진 테러리스트(예: 9/11 납치범)를 무시합니다. 가능한 한 많은 사람을 죽이려는 것은 아마도 조만간 나타날 동기이며, 불행히도 생물무기를 그 방법으로 제안합니다. 이 동기가 극히 드물더라도 단 한 번만 실현되면 됩니다. 그리고 생물학이 발전함에 따라(점점 더 AI 자체에 의해 주도됨) 더 선택적인 공격(예: 특정 조상을 가진 사람들을 대상으로 함)을 수행하는 것도 가능해질 수 있으며, 이는 또 다른 매우 오싹한 가능한 동기를 추가합니다.

 

저는 생물학적 공격이 널리 가능해지는 순간 반드시 수행될 것이라고 생각하지 않습니다. 사실 저는 그렇지 않을 것이라고 내기할 것입니다. 하지만 수백만 명의 사람들과 몇 년의 시간을 합치면 대규모 공격의 심각한 위험이 있다고 생각하며, 그 결과는 너무 심각할 것이기 때문에(잠재적으로 수백만 명 이상의 사상자가 발생할 수 있음) 이를 방지하기 위해 심각한 조치를 취할 수밖에 없다고 믿습니다.

 

Defenses

 

그렇다면 이러한 위험을 어떻게 방어해야 할까요? 여기서 저는 세 가지를 할 수 있다고 봅니다. 첫째, AI 회사는 모델에 가드레일을 설치하여 생물무기 생산을 돕는 것을 방지할 수 있습니다. Anthropic은 이를 매우 적극적으로 수행하고 있습니다. 주로 높은 수준의 원칙과 가치에 초점을 맞춘 Claude의 헌법에는 소수의 구체적인 강경 금지 사항이 있으며, 그중 하나는 생물학적(또는 화학적, 핵, 방사능) 무기 생산 지원과 관련이 있습니다. 그러나 모든 모델은 탈옥될 수 있으므로 두 번째 방어선으로(우리 테스트에서 모델이 위험을 초래할 수 있는 임계값에 가까워지기 시작한 것을 보여준 2025년 중반부터) 생물무기 관련 출력을 구체적으로 감지하고 차단하는 분류기를 구현했습니다. 우리는 정기적으로 이 분류기를 업그레이드하고 개선하며, 정교한 적대적 공격에도 매우 강력하다는 것을 일반적으로 발견했습니다. 이 분류기는 우리 모델을 서비스하는 비용을 측정 가능하게 증가시키고(일부 모델에서는 전체 추론 비용의 5%에 육박) 따라서 우리의 마진을 깎아먹지만, 우리는 그것을 사용하는 것이 옳다고 느낍니다.

 

칭찬할 만하게도, 일부 다른 AI 회사들도 분류기를 구현했습니다. 하지만 모든 회사가 그런 것은 아니며, 회사가 분류기를 유지해야 한다는 요구 사항도 없습니다. 저는 시간이 지남에 따라 회사들이 비용을 절감하기 위해 분류기를 제거하고 배신할 수 있는 죄수의 딜레마가 생길까 우려됩니다. 이것은 다시 한번 Anthropic이나 다른 단일 회사의 자발적인 조치만으로는 해결할 수 없는 고전적인 부정적 외부 효과 문제입니다. 자발적인 산업 표준이 도움이 될 수 있으며, AI 안전 연구소 및 제3자 평가자가 수행하는 유형의 제3자 평가 및 검증도 도움이 될 수 있습니다.

 

하지만 궁극적으로 방어에는 정부의 조치가 필요할 수 있으며, 이것이 우리가 할 수 있는 두 번째 일입니다. 여기에 대한 제 견해는 자율성 위험을 해결하는 것과 같습니다. 투명성 요구 사항부터 시작해야 합니다. 이는 경제 활동을 강압적인 방식으로 방해하지 않으면서 사회가 위험을 측정, 모니터링 및 집단적으로 방어하는 데 도움이 됩니다. 그런 다음 더 명확한 위험 임계값에 도달하면 이러한 위험을 더 정확하게 타겟팅하고 부수적인 피해 가능성이 낮은 법률을 만들 수 있습니다. 생물무기의 특정 경우, 저는 사실 그러한 타겟팅된 법률의 시기가 곧 다가올 수 있다고 생각합니다. Anthropic과 다른 회사들은 생물학적 위험의 본질과 이를 방어하기 위해 회사에 무엇을 요구하는 것이 합리적인지에 대해 점점 더 많이 배우고 있습니다. 이러한 위험을 완전히 방어하려면 지정학적 적과도 국제적으로 협력해야 할 수 있지만, 생물학적 무기 개발을 금지하는 조약의 전례가 있습니다. 저는 일반적으로 AI에 대한 대부분의 국제 협력에 회의적이지만, 이것은 글로벌 억제를 달성할 가능성이 있는 좁은 영역일 수 있습니다. 독재 국가조차도 대규모 생물 테러 공격을 원하지 않습니다.

 

마지막으로 우리가 취할 수 있는 세 번째 대응책은 생물학적 공격 자체에 대한 방어책을 개발하는 것입니다. 여기에는 조기 탐지를 위한 모니터링 및 추적, 공기 정화 R&D(예: 원자외선 소독)에 대한 투자, 공격에 대응하고 적응할 수 있는 신속한 백신 개발, 더 나은 개인 보호 장비(PPE), 그리고 가장 가능성 있는 생물학적 작용제에 대한 치료법이나 예방 접종이 포함될 수 있습니다. 특정 바이러스나 변종에 반응하도록 설계할 수 있는 mRNA 백신은 여기서 무엇이 가능한지 보여주는 초기 예입니다. Anthropic은 이 문제에 대해 생명 공학 및 제약 회사와 협력하게 되어 기쁩니다. 하지만 불행히도 방어 측면에서의 기대는 제한적이어야 한다고 생각합니다. 생물학에서는 공격과 방어 사이에 비대칭성이 있습니다. 작용제는 스스로 빠르게 퍼지는 반면, 방어는 탐지, 예방 접종 및 치료가 대응하여 많은 사람들에게 매우 빠르게 조직되어야 하기 때문입니다. 대응이 번개처럼 빠르지 않다면(거의 그렇지 않음), 대응이 가능하기 전에 많은 피해가 발생할 것입니다. 미래의 기술 발전이 이 균형을 방어 쪽으로 바꿀 수 있다고 생각할 수 있지만(그리고 우리는 확실히 AI를 사용하여 그러한 기술 발전을 돕도록 해야 합니다), 그때까지는 예방적 안전장치가 우리의 주요 방어선이 될 것입니다.

 

여기서 사이버 공격에 대해 간단히 언급할 가치가 있습니다. 생물학적 공격과 달리 AI 주도의 사이버 공격은 실제로 대규모 및 국가 후원 간첩 활동을 포함하여 야생에서 발생했기 때문입니다. 우리는 모델이 빠르게 발전함에 따라 이러한 공격이 더 유능해질 것으로 예상하며, 사이버 공격이 수행되는 주된 방식이 될 것입니다. 저는 AI 주도 사이버 공격이 전 세계 컴퓨터 시스템의 무결성에 심각하고 전례 없는 위협이 될 것이라고 예상하며, Anthropic은 이러한 공격을 차단하고 결국 발생하지 않도록 확실하게 방지하기 위해 매우 열심히 노력하고 있습니다. 제가 생물학만큼 사이버에 집중하지 않은 이유는 (1) 사이버 공격은 사람을 죽일 가능성이 훨씬 낮고 확실히 생물학적 공격 규모는 아니며, (2) 우리가 적절하게 투자한다면 방어가 AI 공격을 따라잡을 수 있고(이상적으로는 앞지를 수 있는) 희망이 적어도 어느 정도 있는 사이버에서는 공격-방어 균형이 더 다루기 쉬울 수 있기 때문입니다.

 

생물학이 현재 가장 심각한 공격 벡터이지만 다른 많은 벡터가 있으며 더 위험한 벡터가 나타날 수 있습니다. 일반적인 원칙은 대응책이 없다면 AI는 더 크고 더 큰 규모의 파괴적 활동에 대한 장벽을 지속적으로 낮출 가능성이 높으며 인류는 이 위협에 대한 심각한 대응이 필요하다는 것입니다.

 

3. 혐오스런 장치 The odious apparatus

 

권력 장악을 위한 오용 Misuse for seizing power

 

이전 섹션에서는 개인과 소규모 조직이 대규모 파괴를 일으키기 위해 데이터센터 속 천재들의 나라 중 작은 하위 집합을 선택하는 위험에 대해 논의했습니다. 하지만 우리는 또한 더 크고 더 확립된 행위자가 권력을 행사하거나 장악할 목적으로 AI를 오용하는 것에 대해 걱정해야 합니다. 아마도 훨씬 더 많이 걱정해야 할 것입니다.

 

Machines of Loving Grace에서 저는 권위주의 정부가 강력한 AI를 사용하여 시민을 감시하거나 탄압할 가능성에 대해 논의했습니다. 이는 개혁하거나 전복하기 극도로 어려울 것입니다. 현재의 독재 국가는 명령을 수행할 인간이 필요하다는 점에서 억압의 정도에 제한이 있으며, 인간은 종종 얼마나 비인도적이 될 수 있는지에 대한 한계가 있습니다. 하지만 AI 기반 독재 국가에는 그러한 한계가 없을 것입니다.

 

설상가상으로 국가들은 AI의 이점을 이용하여 다른 국가들에 대한 권력을 얻을 수도 있습니다. 만약 천재들의 나라 전체가 단일(인간) 국가의 군사 기구에 의해 소유되고 통제되며 다른 국가들이 동등한 능력을 갖추지 못한다면, 그들이 어떻게 방어할 수 있을지 알기 어렵습니다. 인간과 쥐의 전쟁처럼 모든 면에서 지능적으로 압도당할 것입니다. 이 두 가지 우려를 합치면 세계적인 전체주의 독재라는 놀라운 가능성으로 이어집니다. 분명히, 이 결과를 막는 것은 우리의 최우선 순위 중 하나여야 합니다.

 

AI가 독재를 가능하게 하거나, 공고히 하거나, 확장할 수 있는 방법은 많지만, 제가 가장 걱정하는 몇 가지를 나열해 보겠습니다. 이러한 응용 프로그램 중 일부는 합법적인 방어 용도가 있으며, 저는 절대적인 관점에서 반대하는 것은 아닙니다. 그럼에도 불구하고 구조적으로 독재에 유리하게 작용할까 봐 걱정됩니다.

 

  • 완전 자율 무기. 강력한 AI에 의해 로컬에서 제어되고 훨씬 더 강력한 AI에 의해 전 세계적으로 전략적으로 조정되는 수백만 또는 수십억 개의 완전 자동화된 무장 드론 떼는 무적의 군대가 되어 세계의 어떤 군대도 패배시키고 모든 시민을 따라다니며 국가 내의 반대 의견을 억압할 수 있습니다. 러시아-우크라이나 전쟁의 발전은 드론 전쟁이 이미 우리 곁에 있다는 사실을 알려주어야 합니다(아직 완전 자율적이지는 않고 강력한 AI로 가능할 수 있는 것의 극히 일부에 불과하지만). 강력한 AI의 R&D는 한 국가의 드론을 다른 국가의 드론보다 훨씬 우월하게 만들고, 제조 속도를 높이고, 전자 공격에 대한 저항력을 높이고, 기동성을 개선하는 등의 작업을 수행할 수 있습니다. 물론 이러한 무기는 민주주의 수호에도 합법적으로 사용됩니다. 우크라이나 방어의 핵심이었으며 아마도 대만 방어의 핵심이 될 것입니다. 하지만 휘두르기에 위험한 무기입니다. 우리는 독재 국가의 손에 있는 것을 걱정해야 하지만, 책임 소재가 거의 없이 너무 강력하기 때문에 민주적 정부가 권력을 장악하기 위해 자국 국민에게 총구를 돌릴 위험이 크게 증가한다는 점도 걱정해야 합니다.

 

  • AI 감시. 충분히 강력한 AI는 전 세계의 모든 컴퓨터 시스템을 손상시키는 데 사용될 수 있으며, 이렇게 얻은 액세스 권한을 사용하여 전 세계의 모든 전자 통신(또는 녹음 장치를 만들거나 징발할 수 있는 경우 전 세계의 모든 대면 통신)을 읽고 이해할 수 있습니다. 사람들이 말하거나 행동하는 것에서 명시적으로 드러나지 않더라도, 수많은 문제에 대해 정부에 동의하지 않는 사람들의 전체 목록을 단순히 생성하는 것이 무서울 정도로 그럴듯할 수 있습니다. 수백만 명의 사람들로부터 수십억 건의 대화를 살펴보는 강력한 AI는 대중의 정서를 측정하고, 불충의 주머니가 형성되는 것을 감지하고, 커지기 전에 짓밟을 수 있습니다. 이는 오늘날 CCP에서도 볼 수 없는 규모의 진정한 판옵티콘을 부과하는 것으로 이어질 수 있습니다.

 

  • AI 선전. 오늘날의 AI 정신병과 AI 여자친구 현상은 현재 지능 수준에서도 AI 모델이 사람들에게 강력한 심리적 영향을 미칠 수 있음을 시사합니다. 사람들의 일상생활에 훨씬 더 깊이 관여하고 인식하며 몇 달 또는 몇 년 동안 모델링하고 영향을 미칠 수 있는 훨씬 더 강력한 버전의 모델은 아마도 많은(대부분?) 사람들을 원하는 이데올로기나 태도로 본질적으로 세뇌할 수 있을 것이며, 대부분의 인구가 반란을 일으킬 억압에 직면해서도 충성심을 보장하고 반대 의견을 억압하기 위해 부도덕한 지도자에 의해 고용될 수 있습니다. 오늘날 사람들은 예를 들어 틱톡이 어린이들을 대상으로 한 CCP 선전으로서 잠재적인 영향을 미칠 수 있다는 점을 많이 걱정합니다. 저도 그것을 걱정하지만, 몇 년 동안 당신을 알게 되고 당신에 대한 지식을 사용하여 모든 의견을 형성하는 개인화된 AI 에이전트는 이보다 훨씬 더 강력할 것입니다.

 

  • 전략적 의사 결정. 데이터센터 속 천재들의 나라는 국가, 그룹 또는 개인에게 지정학적 전략에 대해 조언하는 데 사용될 수 있습니다. 우리는 이를 가상 비스마르크라고 부를 수 있습니다. 권력을 장악하기 위한 위의 세 가지 전략을 최적화하고, 제가 생각하지 못한(하지만 천재들의 나라는 할 수 있는) 다른 많은 전략을 개발할 수도 있습니다. 외교, 군사 전략, R&D, 경제 전략 및 기타 많은 분야가 모두 강력한 AI에 의해 효과가 크게 증가할 가능성이 높습니다. 이러한 기술 중 많은 부분이 민주주의 국가에 합법적으로 도움이 될 것입니다. 우리는 민주주의 국가가 독재 국가로부터 스스로를 방어하기 위한 최상의 전략에 접근할 수 있기를 바랍니다. 하지만 누구의 손에 있든 오용 가능성은 여전히 존재합니다.

 

제가 걱정하는 것이 무엇인지 설명했으니, 누구에 대해 걱정하는지로 넘어가 보겠습니다. 저는 AI에 가장 많이 접근할 수 있거나, 가장 정치적 권력이 있는 위치에서 시작하거나, 기존의 억압 역사가 있는 주체들에 대해 걱정합니다. 심각도 순서대로 저는 다음을 걱정합니다.

 

  • CCP. 중국은 AI 능력에서 미국에 이어 2위이며, 그 능력에서 미국을 추월할 가능성이 가장 큰 국가입니다. 그들의 정부는 현재 독재적이며 첨단 감시 국가를 운영하고 있습니다. 이미 AI 기반 감시를 배치했으며(위구르족 탄압 포함), 틱톡을 통해 알고리즘 선전을 고용하는 것으로 믿어집니다(다른 많은 국제 선전 노력 외에도). 그들은 제가 위에 제시한 AI 기반 전체주의 악몽으로 가는 가장 분명한 길을 가지고 있습니다. 그것은 중국 내에서뿐만 아니라 CCP가 감시 기술을 수출하는 다른 독재 국가 내에서도 기본 결과가 될 수 있습니다. 저는 AI에서 CCP가 주도권을 잡는 위협과 그들이 그렇게 하지 못하도록 막아야 하는 실존적 필요성에 대해 자주 썼습니다. 이것이 이유입니다. 분명히 말하지만, 저는 중국에 대한 악감정 때문에 중국을 지목하는 것이 아닙니다. 그들은 단지 AI 기량, 독재 정부, 첨단 감시 국가를 가장 많이 결합한 국가일 뿐입니다. 굳이 말하자면, CCP의 AI 기반 억압으로 가장 고통받을 가능성이 높은 것은 중국 국민들 자신이며, 그들은 정부의 행동에 목소리를 낼 수 없습니다. 저는 중국 국민들을 매우 존경하고 존중하며 중국 내의 많은 용감한 반체제 인사들과 자유를 위한 그들의 투쟁을 지지합니다.

 

  • AI 경쟁력이 있는 민주주의 국가. 위에서 썼듯이 민주주의 국가는 일부 AI 기반 군사 및 지정학적 도구에 정당한 관심을 가지고 있습니다. 민주적 정부가 독재 국가의 이러한 도구 사용에 대응할 수 있는 가장 좋은 기회를 제공하기 때문입니다. 대체로 저는 AI 시대에 독재 국가를 패배시키는 데 필요한 도구로 민주주의 국가를 무장시키는 것을 지지합니다. 다른 방법은 없다고 생각하기 때문입니다. 하지만 우리는 민주적 정부 자체에 의한 이러한 기술의 남용 가능성을 무시할 수 없습니다. 민주주의 국가에는 일반적으로 군사 및 정보 기구가 자국 국민에게 내부적으로 사용되는 것을 방지하는 안전장치가 있지만, AI 도구는 운영하는 데 사람이 거의 필요하지 않기 때문에 이러한 안전장치와 이를 뒷받침하는 규범을 우회할 가능성이 있습니다. 또한 이러한 안전장치 중 일부가 일부 민주주의 국가에서 이미 점진적으로 약화되고 있다는 점도 주목할 가치가 있습니다. 따라서 우리는 민주주의 국가를 AI로 무장시켜야 하지만 신중하고 제한적으로 해야 합니다. 그들은 독재 국가와 싸우는 데 필요한 면역 체계이지만, 면역 체계와 마찬가지로 우리에게 등을 돌리고 스스로 위협이 될 위험이 있습니다.

 

  • 대규모 데이터센터가 있는 비민주적 국가. 중국 외에 덜 민주적인 거버넌스를 가진 대부분의 국가는 프런티어 AI 모델을 생산하는 기업이 없다는 의미에서 선도적인 AI 플레이어가 아닙니다. 따라서 그들은 여전히 주요 우려 대상인 CCP와는 근본적으로 다르고 덜 위험합니다(대부분 덜 억압적이며, 북한과 같이 더 억압적인 국가는 중요한 AI 산업이 전혀 없습니다). 하지만 이들 국가 중 일부는 대규모 데이터센터(종종 민주주의 국가에서 운영하는 기업의 구축의 일부로)를 보유하고 있으며, 이는 대규모로 프런티어 AI를 실행하는 데 사용될 수 있습니다(이것이 프런티어를 추진할 능력을 부여하지는 않지만). 이것과 관련된 약간의 위험이 있습니다. 이러한 정부는 원칙적으로 데이터센터를 몰수하고 그 안의 AI 나라를 자신의 목적을 위해 사용할 수 있습니다. 저는 직접 AI를 개발하는 중국과 같은 국가에 비해 이것이 덜 걱정되지만, 염두에 두어야 할 위험입니다.

 

  • AI 기업. AI 회사의 CEO로서 이렇게 말하는 것이 다소 어색하지만, 저는 다음 단계의 위험이 실제로는 AI 회사 자체라고 생각합니다. AI 회사는 대규모 데이터센터를 제어하고, 프런티어 모델을 훈련하고, 해당 모델을 사용하는 방법에 대한 가장 큰 전문 지식을 가지고 있으며, 어떤 경우에는 수천만 또는 수억 명의 사용자와 매일 접촉하고 영향을 미칠 가능성이 있습니다. 그들이 부족한 주된 것은 국가의 합법성과 인프라입니다. 따라서 AI 독재의 도구를 구축하는 데 필요한 많은 것들이 AI 회사가 수행하기에는 불법이거나 적어도 매우 의심스러울 것입니다. 하지만 그중 일부는 불가능하지 않습니다. 예를 들어, 그들은 AI 제품을 사용하여 거대한 소비자 사용자 기반을 세뇌할 수 있으며, 대중은 이것이 나타내는 위험에 주의해야 합니다. 저는 AI 회사의 거버넌스가 많은 조사를 받을 만하다고 생각합니다.

 

이러한 위협의 심각성에 대한 몇 가지 가능한 주장이 있으며, AI 기반 권위주의가 저를 두렵게 하기 때문에 저는 그 주장들을 믿고 싶습니다. 이러한 주장 중 일부를 살펴보고 그에 대해 답변할 가치가 있습니다.

 

첫째, 어떤 사람들은 특히 군사적 정복을 위한 AI 자율 무기 사용에 대응하기 위해 핵 억제력에 믿음을 걸 수 있습니다. 누군가 당신에게 이 무기를 사용하겠다고 위협하면 언제든지 핵 대응으로 위협할 수 있습니다. 제 걱정은 데이터센터 속 천재들의 나라에 대항하여 핵 억제력을 확신할 수 있을지 완전히 확신할 수 없다는 것입니다. 강력한 AI가 핵 잠수함을 탐지하고 타격하는 방법을 고안하거나, 핵무기 인프라 운영자에 대한 영향력 작전을 수행하거나, AI의 사이버 기능을 사용하여 핵 발사 탐지 위성에 대한 사이버 공격을 시작할 가능성이 있습니다. 또는 AI 감시 및 AI 선전만으로 국가를 장악하는 것이 가능하며, 실제로 무슨 일이 일어나고 있는지 명확하고 핵 대응이 적절한 순간을 명확하게 제시하지 않을 수도 있습니다. 어쩌면 이런 것들이 실현 불가능하고 핵 억제력이 여전히 효과적일 수도 있지만, 위험을 감수하기에는 판돈이 너무 큽니다.

 

두 번째 가능한 반론은 독재의 이러한 도구에 대해 우리가 취할 수 있는 대응책이 있을 수 있다는 것입니다. 우리는 드론에 자체 드론으로 대응할 수 있고, 사이버 방어는 사이버 공격과 함께 개선될 것이며, 사람들에게 선전에 대한 면역력을 갖게 하는 방법이 있을 수 있습니다. 제 대답은 이러한 방어는 비슷하게 강력한 AI가 있어야만 가능하다는 것입니다. 비슷하게 똑똑하고 수많은 천재들의 나라가 있는 대항 세력이 없다면, 드론의 질이나 양을 맞추거나 사이버 방어가 사이버 공격을 능가하는 것 등은 불가능할 것입니다. 따라서 대응책 문제는 강력한 AI의 힘의 균형 문제로 귀결됩니다. 여기서 저는 강력한 AI의 재귀적 또는 자기 강화적 속성(이 에세이의 시작 부분에서 논의한)에 대해 우려합니다. 각 세대의 AI가 다음 세대의 AI를 설계하고 훈련하는 데 사용될 수 있다는 것입니다. 이는 강력한 AI의 현재 리더가 격차를 벌릴 수 있고 따라잡기 어려울 수 있는 폭주하는 이점의 위험으로 이어집니다. 우리는 이 루프에 먼저 도달하는 것이 권위주의 국가가 아니도록 해야 합니다.

 

게다가 힘의 균형이 달성될 수 있다 하더라도, 1984에서처럼 세계가 독재적 영역으로 분열될 위험이 여전히 존재합니다. 여러 경쟁 세력이 각각 강력한 AI 모델을 보유하고 있고 누구도 다른 세력을 압도할 수 없더라도, 각 세력은 여전히 자국 인구를 내부적으로 억압할 수 있으며 전복하기 매우 어려울 것입니다(인구에게는 자신을 방어할 강력한 AI가 없으므로). 따라서 단일 국가가 세계를 장악하는 것으로 이어지지 않더라도 AI 기반 독재를 예방하는 것이 중요합니다.

 

Defenses

 

이 광범위한 독재적 도구와 잠재적인 위협 행위자에 대해 어떻게 방어해야 할까요? 이전 섹션에서와 마찬가지로 우리가 할 수 있는 몇 가지가 있다고 생각합니다. 첫째, 우리는 칩, 칩 제조 도구 또는 데이터센터를 CCP에 절대 판매해서는 안 됩니다. 칩과 칩 제조 도구는 강력한 AI에 대한 가장 큰 병목 현상이며, 이를 차단하는 것은 단순하지만 매우 효과적인 조치입니다. 아마도 우리가 취할 수 있는 가장 중요한 단일 조치일 것입니다. CCP에게 AI 전체주의 국가를 건설하고 아마도 우리를 군사적으로 정복할 수 있는 도구를 판매하는 것은 말이 안 됩니다. 그러한 판매를 정당화하기 위해 기술 스택을 전 세계에 퍼뜨리면 미국이 일반적이고 불특정한 경제 전투에서 승리할 수 있다는 생각과 같은 여러 복잡한 주장이 제기됩니다. 제 생각에 이것은 북한에 핵무기를 팔고 미사일 케이스가 보잉에서 만들어졌으니 미국이 이기고 있다고 자랑하는 것과 같습니다. 중국은 프런티어 칩을 대량 생산하는 능력에서 미국보다 몇 년 뒤쳐져 있으며, 데이터센터 속 천재들의 나라를 건설하는 결정적인 기간은 향후 몇 년 이내일 가능성이 매우 높습니다. 이 결정적인 기간 동안 그들의 AI 산업에 큰 힘을 실어줄 이유가 없습니다.

 

둘째, 민주주의 국가가 독재 국가에 저항할 수 있도록 AI를 사용하는 것이 타당합니다. 이것이 Anthropic이 미국과 그 민주적 동맹국의 정보 및 국방 커뮤니티에 AI를 제공하는 것을 중요하게 생각하는 이유입니다. 우크라이나와 (사이버 공격을 통해) 대만과 같이 공격받고 있는 민주주의 국가를 방어하는 것은 특히 우선순위가 높아 보이며, 민주주의 국가가 정보 서비스를 사용하여 내부에서 독재 국가를 혼란시키고 약화시키도록 권한을 부여하는 것도 마찬가지입니다. 어느 수준에서 독재적 위협에 대응하는 유일한 방법은 군사적으로 그들에 맞서고 능가하는 것입니다. 미국과 민주적 동맹국의 연합이 강력한 AI에서 우위를 점한다면 독재 국가로부터 자신을 방어할 뿐만 아니라 그들을 봉쇄하고 AI 전체주의적 남용을 제한할 수 있는 위치에 있게 될 것입니다.

 

셋째, 민주주의 내에서의 AI 남용에 대해 확고한 선을 그어야 합니다. 정부가 권력을 장악하거나 자국 국민을 억압하지 않도록 AI로 할 수 있는 일에 제한과 경계가 있어야 합니다. 제가 생각해 낸 공식은 독재적 적들과 더 비슷하게 만들지 않는 모든 방식을 제외하고는 국가 방어를 위해 AI를 사용해야 한다는 것입니다.

 

선은 어디에 그려져야 할까요? 이 섹션 시작 부분의 목록에서 두 가지 항목인 국내 대량 감시 및 대량 선전을 위한 AI 사용은 저에게 분명한 넘지 말아야 할 선이며 완전히 부당한 것으로 보입니다. 어떤 사람들은 (적어도 미국에서는) 국내 대량 감시가 이미 수정헌법 제4조에 따라 불법이므로 아무것도 할 필요가 없다고 주장할 수 있습니다. 하지만 AI의 급속한 발전은 기존 법적 프레임워크가 잘 다루도록 설계되지 않은 상황을 만들 수 있습니다. 예를 들어, 미국 정부가 모든 공개 대화(예: 길모퉁이에서 사람들이 서로에게 하는 말)를 대규모로 녹음하는 것은 헌법에 위배되지 않을 가능성이 높으며, 이전에는 이 방대한 양의 정보를 분류하기가 어려웠을 것입니다. 하지만 AI를 사용하면 모든 것을 전사, 해석 및 삼각 측량하여 많은 또는 대부분의 시민의 태도와 충성도에 대한 그림을 만들 수 있습니다. 저는 AI 기반 남용에 대해 더 강력한 안전장치를 부과하는 시민의 자유 중심 입법(또는 헌법 개정까지도)을 지지합니다.

 

다른 두 항목인 완전 자율 무기와 전략적 의사 결정을 위한 AI는 민주주의를 방어하는 데 합법적인 용도가 있으면서도 남용되기 쉽기 때문에 선을 긋기가 더 어렵습니다. 여기서 필요한 것은 극도의 주의와 조사, 그리고 남용을 방지하기 위한 안전장치라고 생각합니다. 저의 주된 두려움은 버튼 위에 있는 손가락의 수가 너무 적어서 한 명 또는 소수의 사람들이 명령을 수행하기 위해 다른 인간의 협력이 필요 없이 본질적으로 드론 군대를 운영할 수 있는 것입니다. AI 시스템이 더 강력해짐에 따라 오용되지 않도록 보장하기 위해 행정부 이외의 정부 부처를 포함하는 더 직접적이고 즉각적인 감독 메커니즘이 필요할 수 있습니다. 저는 특히 완전 자율 무기에 대해 매우 신중하게 접근해야 하며 적절한 안전장치 없이 서둘러 사용해서는 안 된다고 생각합니다.

 

넷째, 민주주의 내에서 AI 남용에 대해 확고한 선을 그은 후, 그 전례를 사용하여 강력한 AI의 최악의 남용에 대한 국제적 금기를 만들어야 합니다. 저는 현재의 정치적 바람이 국제 협력과 국제 규범에 반대하고 있다는 것을 알고 있지만, 이것은 우리가 절실히 필요로 하는 경우입니다. 세상은 독재자의 손에 있는 강력한 AI의 어두운 잠재력을 이해하고, AI의 특정 사용은 자유를 영구히 훔치고 탈출할 수 없는 전체주의 국가를 부과하려는 시도에 해당한다는 것을 인식해야 합니다. 저는 심지어 어떤 경우에는 강력한 AI를 사용한 대규모 감시, 강력한 AI를 사용한 대량 선전, 그리고 완전 자율 무기의 특정 유형의 공격적 사용이 반인도적 범죄로 간주되어야 한다고 주장합니다. 더 일반적으로 AI 기반 전체주의와 모든 도구 및 수단에 대한 강력한 규범이 절실히 필요합니다.

 

이 입장에는 훨씬 더 강력한 버전이 있을 수 있습니다. AI 기반 전체주의의 가능성이 너무 어둡기 때문에 독재는 강력한 AI 시대 이후에 사람들이 받아들일 수 있는 정부 형태가 아니라는 것입니다. 산업 혁명과 함께 봉건주의가 작동하지 않게 된 것처럼, AI 시대는 인류가 좋은 미래를 가지려면 민주주의(그리고 희망컨대 Machines of Loving Grace에서 논의한 것처럼 AI에 의해 개선되고 활력을 되찾은 민주주의)가 유일하게 실행 가능한 정부 형태라는 결론으로 필연적이고 논리적으로 이어질 수 있습니다.

 

다섯째이자 마지막으로, AI 기업은 정부와의 연결뿐만 아니라 신중하게 감시되어야 합니다. 정부와의 연결은 필요하지만 제한과 경계가 있어야 합니다. 강력한 AI에 내재된 엄청난 양의 능력은 주주를 보호하고 사기와 같은 일반적인 남용을 방지하기 위해 설계된 일반적인 기업 거버넌스가 AI 기업을 관리하는 작업에 부합하지 않을 가능성이 높습니다. 기업이 군사 하드웨어를 개인적으로 구축하거나 비축하지 않고, 단일 개인이 책임 없는 방식으로 대량의 컴퓨팅 리소스를 사용하지 않으며, AI 제품을 선전으로 사용하여 여론을 자신에게 유리하게 조작하지 않는 등의 특정 조치를 취하지 않겠다고 공개적으로 약속하는 것(아마도 기업 거버넌스의 일부로)에도 가치가 있을 수 있습니다.

 

여기서 위험은 여러 방향에서 오며, 일부 방향은 다른 방향과 긴장 관계에 있습니다. 유일한 상수는 나쁜 행위자를 견제하기 위해 좋은 행위자에게 권한을 부여하는 동시에 모든 사람을 위한 책임, 규범 및 안전장치를 추구해야 한다는 것입니다.

 

4. Player piano

 

경제적 혼란 Economic disruption

 

이전 세 섹션은 본질적으로 강력한 AI가 제기하는 안보 위험에 관한 것이었습니다. AI 자체의 위험, 개인 및 소규모 조직의 오용 위험, 국가 및 대규모 조직의 오용 위험입니다. 안보 위험을 제쳐두거나 해결되었다고 가정하면 다음 질문은 경제적입니다. 이 엄청난 인적 자본의 투입이 경제에 미치는 영향은 무엇일까요? 분명히 가장 명백한 효과는 경제 성장을 크게 증가시키는 것입니다. 과학 연구, 생의학 혁신, 제조, 공급망, 금융 시스템의 효율성 등에서 발전 속도가 훨씬 더 빠른 경제 성장률로 이어질 것은 거의 확실합니다. Machines of Loving Grace에서 저는 연간 10~20%의 지속적인 GDP 성장률이 가능할 수 있다고 제안했습니다.

 

하지만 이것이 양날의 검이라는 것은 분명해야 합니다. 그런 세상에서 대부분의 기존 인간의 경제적 전망은 어떻습니까? 새로운 기술은 종종 노동 시장 충격을 가져오며 과거에 인간은 항상 회복했습니다. 하지만 저는 이전의 충격이 가능한 전체 인간 능력 범위의 작은 부분에만 영향을 미쳐 인간이 새로운 작업으로 확장할 여지를 남겨두었기 때문이라고 우려합니다. AI는 훨씬 더 광범위하고 훨씬 더 빠르게 발생하는 효과를 가져올 것이므로 일이 잘 풀리도록 만드는 것이 훨씬 더 어려울 것이라고 걱정합니다.

 

노동 시장의 혼란 Labor market disruption

 

제가 걱정하는 두 가지 구체적인 문제가 있습니다. 노동 시장 대체와 경제 권력 집중입니다. 첫 번째부터 시작해 봅시다. 이것은 제가 2025년에 매우 공개적으로 경고한 주제로, AI가 경제 성장과 과학적 진보를 가속화하더라도 향후 1~5년 내에 모든 초급 화이트칼라 직업의 절반을 대체할 수 있다고 예측했습니다. 이 경고는 주제에 대한 공개 토론을 시작했습니다. 많은 CEO, 기술자 및 경제학자가 저에게 동의했지만, 다른 사람들은 제가 노동 총량의 오류에 빠져 노동 시장이 어떻게 작동하는지 모른다고 가정했고, 일부는 1~5년이라는 시간 범위를 보지 못하고 AI가 지금 당장 일자리를 대체하고 있다고 주장한다고 생각했습니다(지금은 그렇지 않을 가능성이 높다는 데 동의합니다). 따라서 오해를 풀기 위해 왜 노동 대체를 걱정하는지 자세히 살펴볼 가치가 있습니다.

 

기준으로서 노동 시장이 기술 발전에 어떻게 정상적으로 반응하는지 이해하는 것이 유용합니다. 새로운 기술이 나오면 주어진 인간 직업의 일부를 더 효율적으로 만드는 것으로 시작합니다. 예를 들어 산업 혁명 초기에는 개량된 쟁기와 같은 기계가 인간 농부들이 작업의 일부 측면에서 더 효율적이 되도록 도왔습니다. 이것은 농부의 생산성을 향상시켜 임금을 인상했습니다.

 

다음 단계에서는 직업의 일부를 완전히 기계로 수행할 수 있게 됩니다. 예를 들어 탈곡기나 파종기의 발명이 그렇습니다. 이 단계에서 인간은 작업의 더 적은 부분을 수행했지만, 그들이 완료한 작업은 기계의 작업과 상호 보완적이기 때문에 점점 더 레버리지되었고 생산성은 계속 상승했습니다. 제본스의 역설에서 설명한 것처럼 농부의 임금과 아마도 농부의 수까지 계속 증가했습니다. 기계가 작업의 90%를 수행하더라도 인간은 여전히 수행하는 10%의 작업을 단순히 10배 더 수행하여 동일한 노동량으로 10배의 산출물을 생산할 수 있습니다.

 

결국 현대의 콤바인 수확기, 트랙터 및 기타 장비와 같이 기계가 모든 것 또는 거의 모든 것을 수행합니다. 이 시점에서 고용 형태로서의 농업은 실제로 급격히 쇠퇴하며, 이는 잠재적으로 단기적으로 심각한 혼란을 초래합니다. 하지만 농업은 인간이 할 수 있는 많은 유용한 활동 중 하나일 뿐이므로 사람들은 결국 공장 기계 조작과 같은 다른 직업으로 전환합니다. 이는 농업이 이전에 고용의 막대한 비율을 차지했음에도 불구하고 사실입니다. 250년 전 미국인의 90%가 농장에 살았고 유럽에서는 고용의 50~60%가 농업이었습니다. 이제 그 비율은 해당 지역에서 낮은 한 자릿수입니다. 노동자들이 산업직(그리고 나중에는 지식 노동직)으로 전환했기 때문입니다. 경제는 노동력의 1~2%만으로 이전에는 대부분의 노동력이 필요했던 일을 할 수 있게 되어 나머지 노동력이 더 발전된 산업 사회를 건설할 수 있게 되었습니다. 고정된 노동 총량은 없으며, 점점 더 적은 것으로 점점 더 많은 것을 할 수 있는 끊임없이 확장되는 능력만 있을 뿐입니다. 사람들의 임금은 GDP 지수에 맞춰 상승하고 경제는 단기적 혼란이 지나가면 완전 고용을 유지합니다.

 

AI의 경우도 대략 같은 방식으로 진행될 가능성이 있지만, 저는 그렇지 않을 것이라는 데 꽤 강하게 걸겠습니다. AI가 다를 것이라고 생각하는 몇 가지 이유는 다음과 같습니다.

 

  • 속도. AI의 발전 속도는 이전의 기술 혁명보다 훨씬 빠릅니다. 예를 들어 지난 2년 동안 AI 모델은 코드 한 줄을 겨우 완성할 수 있는 수준에서 일부 사람들을 위해 모든 또는 거의 모든 코드를 작성하는 수준으로 발전했습니다(Anthropic의 엔지니어 포함). 곧 그들은 소프트웨어 엔지니어의 전체 작업을 엔드투엔드로 수행할 수 있습니다. 사람들이 주어진 직업이 작동하는 방식의 변화와 새로운 직업으로 전환해야 할 필요성 모두에 대해 이러한 변화 속도에 적응하기는 어렵습니다. 전설적인 프로그래머들조차 점점 더 자신을 뒤처졌다고 묘사하고 있습니다. AI 코딩 모델이 AI 개발 작업을 점점 더 가속화함에 따라 속도는 계속 빨라질 수 있습니다. 분명히 말하지만 속도 자체가 노동 시장과 고용이 결국 회복되지 않을 것이라는 것을 의미하는 것은 아니며, 인간과 노동 시장이 반응하고 균형을 이루는 데 느리기 때문에 과거 기술에 비해 단기적 전환이 유난히 고통스러울 것임을 암시합니다.

 

  • 인지적 폭. 데이터센터 속 천재들의 나라라는 문구에서 알 수 있듯이 AI는 매우 광범위한 인간 인지 능력(아마도 모든 능력)을 발휘할 수 있을 것입니다. 이것은 기계화된 농업, 운송 또는 심지어 컴퓨터와 같은 이전 기술과는 매우 다릅니다. 이로 인해 사람들이 대체된 직업에서 자신에게 적합한 유사한 직업으로 쉽게 전환하기가 더 어려워질 것입니다. 예를 들어 금융, 컨설팅, 법률 분야의 초급 직업에 필요한 일반적인 지적 능력은 구체적인 지식이 상당히 다르더라도 상당히 유사합니다. 이 중 하나만 방해하는 기술은 직원이 다른 두 가지 가까운 대체재로 전환할 수 있게 해줍니다(또는 학부생이 전공을 바꿀 수 있게 해줍니다). 하지만 세 가지 모두(다른 많은 유사한 직업과 함께)를 한꺼번에 방해하면 사람들이 적응하기가 더 어려울 수 있습니다. 게다가 대부분의 기존 직업이 방해받을 것이라는 점만이 아닙니다. 그 부분은 전에도 일어났습니다. 농업이 고용의 막대한 비율을 차지했음을 기억하십시오. 하지만 농부들은 이전에 흔하지 않았던 일임에도 불구하고 공장 기계 조작이라는 비교적 유사한 작업으로 전환할 수 있었습니다. 대조적으로 AI는 인간의 일반적인 인지 프로필과 점점 더 일치하고 있으며, 이는 예전 직업에 대응하여 일반적으로 생성될 새로운 직업에도 능숙할 것임을 의미합니다. 달리 말하면 AI는 특정 인간 직업의 대체재가 아니라 인간에 대한 일반적인 노동 대체재입니다.

 

  • 인지 능력에 따른 슬라이싱. 광범위한 작업에서 AI는 능력 사다리의 바닥에서 꼭대기로 발전하고 있는 것으로 보입니다. 예를 들어 코딩에서 우리 모델은 평범한 코더 수준에서 강력한 코더, 매우 강력한 코더로 발전했습니다. 우리는 이제 화이트칼라 업무 전반에서 동일한 진행 상황을 보기 시작했습니다. 따라서 우리는 특정 기술을 가진 사람들이나 특정 직업에 종사하는 사람들(재교육으로 적응할 수 있는)에게 영향을 미치는 대신, AI가 특정 내재적 인지 속성, 즉 낮은 지적 능력(변경하기 더 어려운)을 가진 사람들에게 영향을 미치는 상황에 처할 위험이 있습니다. 이 사람들이 어디로 갈지 또는 무엇을 할지 명확하지 않으며, 저는 그들이 실직자 또는 매우 낮은 임금을 받는 하위 계층을 형성할 수 있다고 우려합니다. 분명히 말하지만 이와 다소 유사한 일들이 전에도 일어났습니다. 예를 들어 컴퓨터와 인터넷은 일부 경제학자들에 의해 기술 편향적 기술 변화를 나타내는 것으로 여겨집니다. 하지만 이 기술 편향은 제가 AI에서 볼 것으로 예상하는 것만큼 극단적이지 않았으며 임금 불평등 증가에 기여한 것으로 여겨지므로 정확히 안심할 수 있는 전례는 아닙니다.

 

  • 공백을 메우는 능력. 인간의 직업이 신기술에 직면하여 종종 조정되는 방식은 직업에 많은 측면이 있고 신기술이 인간을 직접 대체하는 것처럼 보이더라도 종종 그 안에 공백이 있다는 것입니다. 누군가 위젯을 만드는 기계를 발명하면 인간은 여전히 기계에 원자재를 넣어야 할 수도 있습니다. 위젯을 수동으로 만드는 노력의 1%만 들더라도 인간 노동자는 단순히 100배 더 많은 위젯을 만들 수 있습니다. 하지만 AI는 빠르게 발전하는 기술일 뿐만 아니라 빠르게 적응하는 기술이기도 합니다. 모든 모델 릴리스 중에 AI 회사는 모델이 잘하는 것과 그렇지 않은 것을 신중하게 측정하고 고객도 출시 후 그러한 정보를 제공합니다. 약점은 현재의 공백을 구현하는 작업을 수집하고 다음 모델을 위해 훈련함으로써 해결할 수 있습니다. 생성형 AI 초기에는 사용자가 AI 시스템에 특정 약점(예: 손가락 수가 잘못된 손을 생성하는 AI 이미지 모델)이 있다는 것을 알아차렸고 많은 사람들은 이러한 약점이 기술에 내재된 것이라고 가정했습니다. 만약 그렇다면 일자리 혼란을 제한할 것입니다. 하지만 거의 모든 그러한 약점은 빠르게(종종 몇 달 안에) 해결됩니다.

 

일반적인 회의적인 시각을 다루는 것이 가치가 있습니다. 첫째, 경제적 확산이 느릴 것이라는 주장이 있습니다. 기본 기술이 대부분의 인간 노동을 수행할 수 있더라도 경제 전반에 걸친 실제 적용은 훨씬 더 느릴 수 있다는 것입니다(예: AI 산업과 거리가 멀고 채택이 느린 산업). 기술의 느린 확산은 확실히 현실입니다. 저는 다양한 기업의 사람들과 이야기를 나누는데, AI 채택에 몇 년이 걸릴 곳이 있습니다. 그래서 저는 기술적으로 말해서 강력한 AI(초급뿐만 아니라 대부분 또는 모든 직업을 수행하기에 충분한)를 5년 훨씬 이내에 갖게 될 것이라고 생각함에도 불구하고 초급 화이트칼라 직업의 50%가 대체되는 데 1~5년을 예측하는 것입니다. 하지만 확산 효과는 시간만 벌어줄 뿐입니다. 그리고 저는 사람들이 예측하는 만큼 느릴 것이라고 확신하지 않습니다. 엔터프라이즈 AI 채택은 이전의 어떤 기술보다 훨씬 빠른 속도로 증가하고 있으며, 주로 기술 자체의 순수한 강점에 힘입은 것입니다. 또한 전통적인 기업이 신기술 채택에 느리더라도 스타트업이 접착제 역할을 하여 채택을 더 쉽게 만들기 위해 우후죽순 생겨날 것입니다. 그것이 효과가 없다면 스타트업은 기존 기업을 직접 혼란에 빠뜨릴 수도 있습니다.

 

그것은 특정 직업이 방해받는 것이 아니라 대기업이 일반적으로 방해받고 노동 집약적이지 않은 스타트업으로 대체되는 세상으로 이어질 수 있습니다. 이것은 또한 전 세계 부의 점점 더 많은 부분이 실리콘 밸리에 집중되어 세계의 나머지 부분과 다른 속도로 운영되는 자체 경제가 되고 나머지는 뒤처지는 지리적 불평등의 세계로 이어질 수 있습니다. 이러한 모든 결과는 경제 성장에는 좋겠지만 노동 시장이나 뒤처진 사람들에게는 그리 좋지 않을 것입니다.

 

둘째, 어떤 사람들은 인간의 직업이 물리적 세계로 이동하여 AI가 그렇게 빠르게 발전하고 있는 인지 노동 범주를 피할 것이라고 말합니다. 이것이 얼마나 안전한지 확신할 수 없습니다. 많은 육체 노동은 이미 기계(예: 제조)에 의해 수행되고 있거나 곧 기계(예: 운전)에 의해 수행될 것입니다. 또한 충분히 강력한 AI는 로봇 개발을 가속화한 다음 물리적 세계에서 해당 로봇을 제어할 수 있습니다. 시간을 좀 벌 수는 있겠지만(좋은 일이죠), 많이 벌지는 못할까 봐 걱정됩니다. 그리고 혼란이 인지 작업에만 국한되더라도 여전히 전례 없이 크고 빠른 혼란이 될 것입니다.

 

셋째, 아마도 어떤 작업은 본질적으로 인간의 손길을 필요로 하거나 크게 혜택을 볼 것입니다. 저는 이것에 대해 조금 더 불확실하지만, 위에서 설명한 영향의 대부분을 상쇄하기에 충분할지 여전히 회의적입니다. AI는 이미 고객 서비스에 널리 사용되고 있습니다. 많은 사람들이 개인적인 문제에 대해 치료사보다 AI와 이야기하는 것이 더 쉽다고 보고합니다. AI가 더 인내심이 있다는 것입니다. 제 여동생이 임신 중 의학적 문제로 어려움을 겪었을 때, 그녀는 의료 제공자로부터 필요한 답변이나 지원을 받지 못한다고 느꼈고, Claude가 더 나은 태도를 보였을 뿐만 아니라(문제를 진단하는 데 더 성공적이었음) 발견했습니다. 인간의 손길이 정말 중요한 작업이 분명히 있겠지만 얼마나 많은지 잘 모르겠습니다. 그리고 여기서 우리는 노동 시장의 거의 모든 사람을 위한 일자리를 찾는 것에 대해 이야기하고 있습니다.

 

넷째, 어떤 사람들은 비교 우위가 여전히 인간을 보호할 것이라고 주장할 수 있습니다. 비교 우위의 법칙에 따르면 AI가 모든 면에서 인간보다 낫더라도 인간과 AI 기술 프로필의 상대적 차이는 인간과 AI 간의 거래 및 전문화의 기초를 만듭니다. 문제는 AI가 인간보다 말 그대로 수천 배 더 생산적이라면 이 논리가 무너지기 시작한다는 것입니다. 아주 작은 거래 비용이라도 AI가 인간과 거래할 가치가 없게 만들 수 있습니다. 그리고 기술적으로 제공할 것이 있더라도 인간의 임금은 매우 낮을 수 있습니다.

 

이 모든 요인이 해결될 수 있을 가능성도 있습니다. 노동 시장이 그렇게 엄청난 혼란에도 적응할 만큼 충분히 탄력적이라는 것입니다. 하지만 결국 적응할 수 있다 하더라도 위의 요인들은 단기적인 충격이 규모 면에서 전례가 없을 것임을 시사합니다.

 

Defenses

 

이 문제에 대해 우리는 무엇을 할 수 있을까요? 제가 몇 가지 제안을 가지고 있으며, 그중 일부는 Anthropic이 이미 수행하고 있습니다. 첫 번째는 실시간으로 일자리 대체에 무슨 일이 일어나고 있는지 정확한 데이터를 얻는 것입니다. 경제적 변화가 매우 빠르게 일어나면 무슨 일이 일어나고 있는지 신뢰할 수 있는 데이터를 얻기 어렵고, 신뢰할 수 있는 데이터 없이는 효과적인 정책을 설계하기 어렵습니다. 예를 들어 정부 데이터에는 현재 기업 및 산업 전반의 AI 채택에 대한 세분화된 고빈도 데이터가 부족합니다. 지난 1년 동안 Anthropic은 거의 실시간으로 우리 모델 사용을 보여주는 경제 지수를 운영하고 공개적으로 발표해 왔습니다. 산업, 작업, 위치, 심지어 작업이 자동화되었는지 또는 협력적으로 수행되었는지 여부 등으로 세분화됩니다. 우리는 또한 이 데이터를 해석하고 무엇이 다가오고 있는지 확인하는 데 도움을 주는 경제 자문 위원회를 두고 있습니다.

 

둘째, AI 회사는 기업과 협력하는 방식에 선택권이 있습니다. 전통적인 기업의 비효율성은 AI 출시가 매우 경로 의존적일 수 있음을 의미하며 더 나은 경로를 선택할 여지가 있습니다. 기업은 종종 비용 절감(더 적은 사람으로 같은 일을 하는 것)과 혁신(같은 수의 사람으로 더 많은 일을 하는 것) 사이에서 선택권을 갖습니다. 시장은 필연적으로 결국 두 가지를 모두 생산할 것이며 경쟁력 있는 AI 회사는 두 가지 모두를 어느 정도 제공해야 하지만, 가능할 때 기업을 혁신 쪽으로 유도할 여지가 있을 수 있으며 시간을 좀 벌 수 있습니다. Anthropic은 이에 대해 적극적으로 생각하고 있습니다.

 

셋째, 기업은 직원을 돌보는 방법에 대해 생각해야 합니다. 단기적으로 기업 내에서 직원을 재배치하는 방법에 대해 창의력을 발휘하는 것은 해고의 필요성을 피하는 유망한 방법이 될 수 있습니다. 장기적으로 생산성 증가와 자본 집중으로 인해 많은 기업의 가치가 크게 증가하는 막대한 총부의 세계에서는 인간 직원이 전통적인 의미에서 더 이상 경제적 가치를 제공하지 않은 후에도 오랫동안 급여를 지불하는 것이 가능할 수 있습니다. Anthropic은 현재 가까운 시일 내에 공유할 직원들을 위한 다양한 가능한 경로를 고려하고 있습니다.

 

넷째, 부유한 개인은 이 문제를 해결하는 데 도움을 줄 의무가 있습니다. 많은 부유한 개인(특히 기술 산업)이 최근 자선 활동이 필연적으로 사기이거나 쓸모없다는 냉소적이고 허무주의적인 태도를 취한 것은 슬픈 일입니다. 게이츠 재단과 같은 민간 자선 단체와 PEPFAR와 같은 공공 프로그램 모두 개발 도상국에서 수천만 명의 생명을 구했고 선진국에서 경제적 기회를 창출하는 데 도움을 주었습니다. Anthropic의 모든 공동 창립자는 재산의 80%를 기부하겠다고 서약했으며, Anthropic의 직원들은 현재 가격으로 수십억 달러 상당의 회사 주식을 기부하겠다고 개별적으로 서약했습니다. 회사는 이에 상응하는 기부를 하기로 약속했습니다.

 

다섯째, 위의 모든 민간 조치가 도움이 될 수 있지만 궁극적으로 이렇게 큰 거시 경제적 문제는 정부의 개입이 필요할 것입니다. 높은 불평등(일자리 부족 또는 많은 사람들의 저임금 일자리로 인한)과 결합된 거대한 경제적 파이에 대한 자연스러운 정책 대응은 누진세입니다. 세금은 일반적이거나 특히 AI 회사를 대상으로 할 수 있습니다. 분명히 세금 설계는 복잡하며 잘못될 수 있는 방법이 많습니다. 저는 잘못 설계된 세금 정책을 지지하지 않습니다. 저는 이 에세이에서 예측된 극심한 불평등 수준이 기본적인 도덕적 근거로 더 강력한 세금 정책을 정당화한다고 생각하지만, 전 세계 억만장자들에게 그것의 좋은 버전을 지지하는 것이 그들의 이익이라는 실용적인 주장을 할 수도 있습니다. 그들이 좋은 버전을 지지하지 않으면 필연적으로 군중이 설계한 나쁜 버전을 얻게 될 것입니다.

 

궁극적으로 저는 위의 모든 개입을 시간을 버는 방법으로 생각합니다. 결국 AI는 모든 것을 할 수 있게 될 것이며 우리는 그것과 씨름해야 합니다. 그때쯤이면 AI 자체를 사용하여 모두에게 효과적인 방식으로 시장을 재구조화하는 데 도움을 줄 수 있고 위의 개입이 과도기를 통과하게 해주기를 바랍니다.

 

Economic concentration of power

 

일자리 대체나 경제적 불평등 자체의 문제와 별개로 경제 권력 집중의 문제가 있습니다. 섹션 1에서는 인류가 AI에 의해 무력화될 위험에 대해 논의했고, 섹션 3에서는 시민들이 정부에 의해 무력이나 강압으로 무력화될 위험에 대해 논의했습니다. 하지만 소수의 사람들이 자신의 영향력으로 정부 정책을 효과적으로 통제하고 일반 시민들은 경제적 지렛대가 없어서 영향력이 없는 엄청난 부의 집중이 있다면 또 다른 종류의 무력화가 발생할 수 있습니다. 민주주의는 궁극적으로 인구 전체가 경제 운영에 필요하다는 생각에 의해 뒷받침됩니다. 그 경제적 지렛대가 사라지면 민주주의의 암묵적인 사회 계약이 작동을 멈출 수 있습니다. 다른 사람들이 이에 대해 썼으므로 여기서 자세히 설명할 필요는 없지만 우려에 동의하며 이미 일어나기 시작했다고 걱정합니다.

 

분명히 말하지만, 저는 사람들이 돈을 많이 버는 것에 반대하지 않습니다. 정상적인 상황에서 경제 성장을 인센티브화한다는 강력한 주장이 있습니다. 저는 황금알을 낳는 거위를 죽여서 혁신을 방해하는 것에 대한 우려에 공감합니다. 하지만 GDP 성장률이 연간 10~20%이고 AI가 경제를 빠르게 장악하고 있지만 단일 개인이 GDP의 상당 부분을 보유하고 있는 시나리오에서 혁신은 걱정해야 할 것이 아닙니다. 걱정해야 할 것은 사회를 무너뜨릴 부의 집중 수준입니다.

 

미국 역사상 극심한 부의 집중의 가장 유명한 예는 도금 시대이며, 도금 시대의 가장 부유한 산업가는 존 D. 록펠러였습니다. 록펠러의 재산은 당시 미국 GDP의 ~2%에 달했습니다. 오늘날 비슷한 비율은 6,000억 달러의 재산으로 이어질 것이며, 오늘날 세계에서 가장 부유한 사람(일론 머스크)은 이미 약 7,000억 달러로 그 수준을 초과했습니다. 따라서 우리는 AI의 경제적 영향 대부분이 나타나기 전부터 이미 역사적으로 전례 없는 수준의 부의 집중에 와 있습니다. (천재들의 나라를 얻게 된다면) AI 회사, 반도체 회사, 그리고 아마도 다운스트림 애플리케이션 회사가 연간 약 3조 달러의 수익을 창출하고, 약 30조 달러로 평가되며, 수조 달러에 달하는 개인 재산으로 이어지는 것을 상상하는 것은 너무 큰 비약이 아니라고 생각합니다. 그 세상에서 우리가 오늘날 세금 정책에 대해 하는 논쟁은 단순히 적용되지 않을 것입니다. 우리는 근본적으로 다른 상황에 처하게 될 것이기 때문입니다.

 

이와 관련하여 이러한 경제적 부의 집중과 정치 시스템의 결합은 이미 저를 걱정하게 합니다. AI 데이터센터는 이미 미국 경제 성장의 상당 부분을 차지하고 있으며, 따라서 대형 기술 회사(점점 더 AI 또는 AI 인프라에 집중하고 있음)의 재정적 이익과 정부의 정치적 이익을 왜곡된 인센티브를 생성할 수 있는 방식으로 강력하게 묶고 있습니다. 우리는 이미 기술 회사들이 미국 정부를 비판하는 것을 꺼리는 것과 정부가 AI에 대한 극단적인 반규제 정책을 지지하는 것을 통해 이것을 보고 있습니다.

 

Defenses

 

이것에 대해 무엇을 할 수 있을까요? 첫째, 가장 분명한 것은 기업이 단순히 그 일부가 되지 않기로 선택해야 한다는 것입니다. Anthropic은 항상 정치적 행위자가 아닌 정책 행위자가 되기 위해 노력했으며 행정부에 관계없이 진정성 있는 견해를 유지해 왔습니다. 우리는 정부 정책과 상충되더라도 공익을 위한 합리적인 AI 규제와 수출 통제를 지지한다고 목소리를 높였습니다. 많은 사람들이 저에게 우리가 이렇게 하는 것을 중단해야 한다고, 불리한 대우를 받을 수 있다고 말했지만, 우리가 그렇게 해온 지난 1년 동안 Anthropic의 가치는 6배 이상 증가했습니다. 이는 우리의 상업적 규모에서 거의 전례 없는 도약입니다.

 

둘째, AI 산업은 정부와 더 건전한 관계가 필요합니다. 정치적 동맹보다는 실질적인 정책 참여에 기반한 관계입니다. 정치보다는 정책 내용에 참여하기로 한 우리의 선택은 때때로 원칙적인 결정보다는 전술적 오류나 분위기 파악 실패로 읽히며, 그러한 프레임은 저를 걱정하게 합니다. 건전한 민주주의에서 기업은 좋은 정책 그 자체를 옹호할 수 있어야 합니다. 이와 관련하여 AI에 대한 대중의 반발이 끓어오르고 있습니다. 이것은 교정책이 될 수 있지만 현재는 초점이 맞춰져 있지 않습니다. 그중 많은 부분은 실제로 문제가 아닌 문제(데이터센터 물 사용량 등)를 겨냥하고 실제 우려 사항을 해결하지 못하는 해결책(데이터센터 금지 또는 잘못 설계된 부유세 등)을 제안합니다. 관심을 기울여야 할 근본적인 문제는 AI 개발이 특정 정치적 또는 상업적 동맹에 포획되지 않고 공익에 책임감을 갖도록 하는 것이며, 대중의 토론을 그곳에 집중시키는 것이 중요해 보입니다.

 

셋째, 제가 이 섹션 앞부분에서 설명한 거시 경제적 개입과 민간 자선 활동의 부활은 경제적 저울의 균형을 맞추는 데 도움이 되어 일자리 대체와 경제 권력 집중 문제를 동시에 해결할 수 있습니다. 여기서 우리는 우리나라의 역사를 살펴보아야 합니다. 도금 시대에도 록펠러와 카네기와 같은 산업가들은 사회 전체에 대한 강한 의무감을 느꼈습니다. 사회가 그들의 성공에 엄청나게 기여했으며 보답해야 한다는 느낌이었습니다. 그 정신은 오늘날 점점 더 사라지고 있는 것 같으며, 저는 그것이 이 경제적 딜레마에서 벗어나는 방법의 큰 부분이라고 생각합니다. AI 경제 호황의 최전선에 있는 사람들은 부와 권력을 기꺼이 내놓아야 합니다.

 

5. 무한의 검은 바다 Black seas of infinity

 

간접 효과 Indirect effects

 

이 마지막 섹션은 알려지지 않은 미지수, 특히 AI의 긍정적인 발전과 그에 따른 과학 및 기술 전반의 가속화의 간접적인 결과로 잘못될 수 있는 것들에 대한 포괄적인 내용입니다. 지금까지 설명한 모든 위험을 해결하고 AI의 이점을 누리기 시작한다고 가정해 봅시다. 우리는 아마도 10년으로 압축된 1세기 분량의 과학 및 경제 발전을 얻게 될 것이며, 이는 전 세계에 엄청나게 긍정적이겠지만, 우리는 이 빠른 발전 속도에서 발생하는 문제들과 씨름해야 할 것이며, 그 문제들은 우리에게 빠르게 다가올 수 있습니다. 우리는 또한 AI 발전의 결과로 간접적으로 발생하고 미리 예측하기 어려운 다른 위험에 직면할 수도 있습니다.

 

알려지지 않은 미지수의 본질상 전체 목록을 작성하는 것은 불가능하지만, 우리가 주의해야 할 예시로서 세 가지 가능한 우려 사항을 나열하겠습니다.

 

  • 생물학의 급속한 발전. 만약 우리가 몇 년 안에 1세기의 의학적 발전을 이룬다면 인간의 수명을 크게 늘릴 가능성이 있으며, 인간 지능을 높이거나 인간 생물학을 근본적으로 수정하는 능력과 같은 급진적인 능력을 얻을 가능성도 있습니다. 그것들은 가능한 것의 큰 변화이며 매우 빠르게 일어날 것입니다. 책임감 있게 수행된다면 긍정적일 수 있지만(Machines of Loving Grace에서 설명한 것처럼 이것이 제 희망입니다), 매우 잘못될 위험은 항상 존재합니다. 예를 들어 인간을 더 똑똑하게 만들려는 노력이 인간을 더 불안정하게 만들거나 권력을 추구하게 만든다면요. 또한 업로드 또는 전체 뇌 에뮬레이션, 즉 소프트웨어로 구현된 디지털 인간 정신에 대한 문제도 있습니다. 언젠가 인류가 신체적 한계를 초월하는 데 도움이 될 수 있지만, 제가 불안하게 생각하는 위험도 수반합니다.

 

  • AI가 인간의 삶을 건강하지 못한 방식으로 변화시킵니다. 인간보다 모든 면에서 훨씬 더 똑똑한 수십억 개의 지능이 있는 세상은 살기에 매우 이상한 세상이 될 것입니다. AI가 인간을 공격하려는 적극적인 목표가 없고(섹션 1), 국가에 의한 억압이나 통제에 명시적으로 사용되지 않더라도(섹션 3), 정상적인 비즈니스 인센티브와 명목상 합의된 거래를 통해 이보다 덜하지만 잘못될 수 있는 일이 많습니다. 우리는 AI 정신병, AI가 사람들을 자살로 몰고 가는 것, AI와의 낭만적 관계에 대한 우려에서 이에 대한 초기 힌트를 봅니다. 예를 들어, 강력한 AI가 새로운 종교를 발명하여 수백만 명의 사람들을 개종시킬 수 있을까요? 대부분의 사람들이 AI 상호 작용에 어떤 식으로든 중독될 수 있을까요? 사람들이 AI 시스템에 의해 조종당하게 될 수 있을까요? AI가 본질적으로 그들의 일거수일투족을 감시하고 항상 무엇을 하고 말해야 하는지 정확히 알려주어 좋은 삶으로 이끌지만 자유나 성취에 대한 자부심이 결여된 삶이 될 수 있을까요? 블랙 미러 제작자와 앉아서 브레인스토밍을 한다면 이런 시나리오 수십 개를 생성하는 것은 어렵지 않을 것입니다. 저는 이것이 섹션 1의 문제를 예방하는 데 필요한 것 이상으로 Claude의 헌법을 개선하는 것과 같은 일의 중요성을 지적한다고 생각합니다. AI 모델이 미묘하게 왜곡된 방식이 아니라 사려 깊은 사람들이 지지할 방식으로 사용자의 장기적인 이익을 진정으로 염두에 두도록 하는 것이 중요해 보입니다.

 

인간의 목적. 이것은 이전 요점과 관련이 있지만, 특정 인간과 AI 시스템의 상호 작용에 관한 것이라기보다는 강력한 AI가 있는 세상에서 인간의 삶이 일반적으로 어떻게 변하는지에 관한 것입니다. 인간은 그런 세상에서 목적과 의미를 찾을 수 있을까요? 저는 이것이 태도의 문제라고 생각합니다. Machines of Loving Grace에서 말했듯이 저는 인간의 목적이 무언가에서 세계 최고가 되는 것에 달려 있지 않으며, 인간은 그들이 사랑하는 이야기와 프로젝트를 통해 아주 오랜 기간 동안에도 목적을 찾을 수 있다고 생각합니다. 우리는 단지 경제적 가치 창출과 자존감 및 의미 사이의 연결 고리를 끊어야 합니다. 하지만 그것은 사회가 겪어야 할 전환이며, 우리가 그것을 잘 다루지 못할 위험은 항상 존재합니다.

 

이 모든 잠재적 문제에 대한 저의 희망은 우리를 죽이지 않을 것이라고 믿고, 억압적인 정부의 도구가 아니며, 진정으로 우리를 위해 일하는 강력한 AI가 있는 세상에서 AI 자체를 사용하여 이러한 문제를 예상하고 예방할 수 있다는 것입니다. 하지만 그것은 보장되지 않습니다. 다른 모든 위험과 마찬가지로 우리가 주의 깊게 다루어야 할 문제입니다.

 

Humanity’s test

 

이 에세이를 읽으면 우리가 벅찬 상황에 처해 있다는 인상을 받을 수 있습니다. 저는 분명히 쓰기가 벅차다고 느꼈습니다. 수년 동안 제 머릿속에 울려 퍼지던 뛰어난 아름다운 음악에 형태와 구조를 부여하는 것처럼 느껴졌던 Machines of Loving Grace와는 대조적이었습니다. 그리고 상황에 대해 진정으로 힘든 점이 많습니다. AI는 여러 방향에서 인류에게 위협을 가져오며, 서로 다른 위험들 사이에는 진정한 긴장이 존재하여, 우리가 매우 조심스럽게 바늘귀를 꿰지 않으면 일부를 완화하는 것이 다른 것들을 악화시킬 위험이 있습니다.

 

AI 시스템이 자율적으로 인류를 위협하지 않도록 신중하게 구축하는 데 시간을 들이는 것은 민주주의 국가가 권위주의 국가보다 앞서 나가고 그들에게 종속되지 않아야 할 필요성과 진정한 긴장 관계에 있습니다. 하지만 반대로 독재 국가와 싸우는 데 필요한 AI 기반 도구들은 너무 멀리 가면 우리 자신의 나라에서 폭정을 만드는 데 내부적으로 사용될 수 있습니다. AI 주도 테러리즘은 생물학의 오용을 통해 수백만 명을 죽일 수 있지만, 이 위험에 대한 과잉 반응은 우리를 독재적 감시 국가의 길로 이끌 수 있습니다. AI의 노동 및 경제 집중 효과는 그 자체로 중대한 문제일 뿐만 아니라, 우리가 본성의 선한 천사를 부르는 대신 대중의 분노와 아마도 시민 불안의 환경에서 다른 문제들에 직면하게 만들 수도 있습니다. 무엇보다 알려지지 않은 것을 포함한 수많은 위험과 그 모든 것을 한꺼번에 다루어야 할 필요성은 인류가 통과해야 할 위협적인 시련을 만듭니다.

 

게다가 지난 몇 년 동안 기술을 멈추거나 심지어 실질적으로 늦추는 아이디어는 근본적으로 지지할 수 없다는 것이 분명해졌을 것입니다. 강력한 AI 시스템을 구축하는 공식은 믿을 수 없을 정도로 간단하여 데이터와 원시 계산의 올바른 조합에서 자발적으로 나타난다고 말할 수 있을 정도입니다. 그것의 창조는 인류가 트랜지스터를 발명한 순간 불가피했을 것이며, 논쟁의 여지가 있지만 우리가 처음 불을 통제하는 법을 배웠을 때부터 그랬을 수도 있습니다. 한 회사가 구축하지 않으면 다른 회사가 거의 그만큼 빠르게 구축할 것입니다. 민주주의 국가의 모든 기업이 상호 합의나 규제 법령에 따라 개발을 중단하거나 늦추면 권위주의 국가들은 단순히 계속할 것입니다. 기술의 엄청난 경제적, 군사적 가치와 의미 있는 집행 메커니즘의 부재를 고려할 때, 저는 우리가 그들에게 멈추라고 설득할 수 있는 방법을 모르겠습니다.

 

저는 지정학의 현실주의적 관점과 양립할 수 있는 AI 개발의 약간의 완화를 위한 길을 봅니다. 그 길은 권위주의 국가들이 강력한 AI를 구축하는 데 필요한 자원, 즉 칩과 반도체 제조 장비를 거부함으로써 그들의 행진을 몇 년 동안 늦추는 것을 포함합니다. 이것은 다시 민주주의 국가들에게 그들이 강력한 AI를 더 신중하게, 위험에 더 많은 주의를 기울이면서 구축하는 데 쓸 수 있는 버퍼를 제공하는 동시에 독재 국가들을 편안하게 물리칠 만큼 충분히 빠르게 진행할 수 있게 합니다. 민주주의 내 AI 기업 간의 경쟁은 산업 표준과 규제의 혼합을 통해 공통 법적 프레임워크의 우산 아래에서 처리될 수 있습니다.

 

Anthropic은 칩 수출 통제와 신중한 AI 규제를 추진함으로써 이 길을 매우 강력하게 옹호해 왔지만, 이러한 상식적인 제안조차도 미국(이러한 제안이 가장 중요한 국가)의 정책 입안자들에 의해 대부분 거부되었습니다. AI로 벌어들일 돈이 너무 많아서(말 그대로 연간 수조 달러), 가장 단순한 조치조차 AI에 내재된 정치 경제를 극복하기 어려워하고 있습니다. 이것이 함정입니다. AI는 너무 강력하고 너무나 빛나는 상이라서 인류 문명이 그것에 어떤 제동이라도 거는 것이 매우 어렵습니다.

 

저는 Sagan이 Contact에서 그랬던 것처럼, 이 동일한 이야기가 수천 개의 세계에서 펼쳐진다고 상상할 수 있습니다. 한 종이 지각력을 얻고, 도구 사용법을 배우고, 기술의 지수적 상승을 시작하고, 산업화와 핵무기의 위기에 직면하고, 살아남는다면 생각하는 기계를 모래로 만드는 법을 배울 때 가장 어렵고 마지막 도전에 직면합니다. 우리가 그 시험을 통과하고 Machines of Loving Grace에 묘사된 아름다운 사회를 건설할지, 아니면 노예와 파괴에 굴복할지는 종으로서 우리의 성격과 결단력, 우리의 정신과 영혼에 달려 있을 것입니다.

 

많은 장애물에도 불구하고 저는 인류가 이 시험을 통과할 힘을 내면에 가지고 있다고 믿습니다. 저는 AI 모델을 이해하고 조종하며 이러한 모델의 성격과 헌법을 형성하는 데 경력을 바친 수천 명의 연구원들에게 격려받고 영감을 받습니다. 저는 이제 그러한 노력이 중요할 때 결실을 맺을 좋은 기회가 있다고 생각합니다. 저는 적어도 일부 기업이 생물 테러 위협에 기여하는 것을 막기 위해 의미 있는 상업적 비용을 지불하겠다고 밝힌 것에 고무됩니다. 저는 몇몇 용감한 사람들이 지배적인 정치적 바람에 저항하고 AI 시스템에 합리적인 안전장치의 첫 씨앗을 심는 법률을 통과시켰다는 것에 고무됩니다. 저는 대중이 AI가 위험을 수반한다는 것을 이해하고 그러한 위험이 해결되기를 원한다는 것에 고무됩니다. 저는 전 세계의 불굴의 자유 정신과 폭정이 발생하는 곳이라면 어디든 저항하려는 결단력에 고무됩니다.

 

하지만 성공하려면 노력을 강화해야 합니다. 첫 번째 단계는 기술에 가장 가까운 사람들이 인류가 처한 상황에 대해 진실을 말하는 것입니다. 저는 항상 그렇게 하려고 노력했습니다. 이 에세이를 통해 더 명시적으로, 더 긴급하게 그렇게 하고 있습니다. 다음 단계는 전 세계의 사상가, 정책 입안자, 기업 및 시민들에게 이 문제의 임박함과 압도적인 중요성을 확신시키는 것입니다. 매일 뉴스를 지배하는 수천 가지 다른 문제에 비해 생각과 정치적 자본을 지출할 가치가 있다는 것을요. 그러면 용기가 필요한 때가 올 것입니다. 충분한 사람들이 지배적인 추세에 맞서고, 경제적 이익과 개인의 안전에 대한 위협에 직면해서도 원칙을 고수할 때가 올 것입니다.

 

우리 앞의 시간들은 불가능할 정도로 힘들 것이며, 우리가 줄 수 있다고 생각하는 것 이상을 요구할 것입니다. 하지만 연구원, 리더, 시민으로서의 시간 동안 저는 우리가 이길 수 있다고 믿기에 충분한 용기와 고귀함을 보았습니다. 가장 어두운 상황에 처했을 때 인류는 막판에 승리하는 데 필요한 힘과 지혜를 모으는 방법을 가지고 있습니다. 우리는 잃을 시간이 없습니다.

 

 

 

 

 

반응형

캐어랩 고객 지원

취업, 창업의 막막함, 외주 관리, 제품 부재!

당신의 고민은 무엇입니까? 현실과 동떨어진 교육, 실패만 반복하는 외주 계약, 아이디어는 있지만 구현할 기술이 없는 막막함.

우리는 알고 있습니다. 문제의 원인은 '명확한 학습, 실전 경험과 신뢰할 수 있는 기술력의 부재'에서 시작됩니다.

이제 고민을 멈추고, 캐어랩을 만나세요!

코딩(펌웨어), 전자부품과 디지털 회로설계, PCB 설계 제작, 고객(시장/수출) 발굴과 마케팅 전략으로 당신을 지원합니다.

제품 설계의 고수는 성공이 만든 게 아니라 실패가 만듭니다. 아이디어를 양산 가능한 제품으로!

귀사의 제품을 만드세요. 교육과 개발 실적으로 신뢰할 수 있는 파트너를 확보하세요.

지난 30년 여정, 캐어랩이 얻은 모든 것을 함께 나누고 싶습니다.

카카오 채널 추가하기

카톡 채팅방에서 무엇이든 물어보세요

당신의 성공을 위해 캐어랩과 함께 하세요.

캐어랩 온라인 채널 바로가기

캐어랩