본문 바로가기

WebAnarchist

착각하고, 어리석고, 비효율적이고, 악하게 행동하는 다섯 가지 방법

반응형

 

AI의 창시자 중 한 명인 Yann LeCun은 최근 인간의 어리석음과 악의를 설명하는 글을 썼다.

 

요약하면...

 

그는 인간이 종종 착각하고, 어리석고, 무능하거나, 심지어 악하게 행동하는 이유를 인공지능 시스템의 실패 구조와 연결해 설명한다.

 

인간의 인식과 기억, 세계를 이해하는 모델, 목표 설정, 윤리적 판단이 서로 맞물려 행동을 결정한다는 점에서, 인간도 결국 하나의 판단 시스템이라는 것이다.

 

그가 제시한 실패의 원인은 다섯 가지다.

 

1. 잘못된 지각 – 세상을 잘못 봤거나, 기억이 틀렸다.

 

2. 잘못된 세계 모델 – 원인과 결과를 잘못 연결했다.

 

3. 비효율적 전략 – 옳은 길을 알면서도 엉뚱한 길을 택했다.

 

4. 그릇된 목표 설정 – 본질이 아니라 욕망을 따라갔다.

 

5. 결함 있는 윤리 기준 – 해를 끼쳐도 개의치 않았다.

 

인간은 때때로 잘못해서가 아니라, 알고도 나쁜 선택을 한다. 윤리가 결핍돼서가 아니라, 의도적으로 무시하기도 한다. 인간의 악의는 단순한 시스템 오류가 아니라, 욕망과 권력, 책임 회피의 산물이기도 하다.

 

이런 권력자의 악의를 통해 국가 정책을 그르치거나, 잘못된 목표를 설정해 국민을 해치는 정치도 이 틀에 들어맞는듯 하다. - FB: Tae Hyung Kim

 

 

착각하고, 어리석고, 비효율적이고, 악하게 행동하는 다섯 가지 방법

얀 르쿤 2025-04-28

[반쯤 유머러스하고, 괴짜스러운 정치 풍자]

 

서론

 

인지과학은 인간과 동물이 세상을 인식하고, 상황에 대해 추론하고, 과제를 달성하기 위한 행동을 계획하고, 결정을 내리는 방식에 대한 다양한 모델을 제시해 왔습니다.

 

인간 수준의 지능을 갖춘 AI를 개발하려는 시도에서 비롯된 AI 아키텍처는 인간이 어떻게 행동하는지, 그리고 왜 때때로 착각하고, 어리석고, 비효율적이고, 악하게 행동하는지 이해하는 데 도움이 될 수 있습니다. 이러한 아키텍처 개념 중 하나를 고려하면 지능이 어떻게 실패할 수 있는지 분석할 수 있습니다.

 

인간 행동 모델

 

인간을 비롯한 많은 동물은 환경에 대한 정신 모델을 가지고 있으며, 이를 통해 환경의 변화와 자신의 행동이 미치는 영향을 예측할 수 있습니다. 지각과 기억을 통해 현재 세상의 상태에 대한 정신적 표상이 주어지면, 이러한 세상의 정신적 모델은 상상된 행동이나 일련의 행동으로부터 발생할 수 있는 세상의 그럴듯한 미래 상태를 예측합니다.

 

지능형 시스템은 작업 목표를 설정하여 작업을 완료하기 위한 과정 계획을 세웁니다. 이 목표는 예측된 미래 상태가 완료된 작업에 얼마나 부합하는지 평가합니다. 작업 목표는 예측된 상태가 완료된 작업에 부합할 때는 낮은 값(예: 0)을, 작업 완료까지의 거리를 측정하는 더 큰 값을 생성하는 일종의 점수 함수라고 생각해 보세요.

 

시스템은 일련의 행동을 계획할 때 작업 목표를 최소화하는 행동 순서를 찾습니다. 작업 목표 외에도 시스템은 가드레일로 볼 수 있는 다른 목표들도 최소화합니다. 이러한 목표는 행동의 효과가 안전하고 유익하도록 보장합니다. 이러한 가드레일은 시스템의 일종의 "도덕적 양심"이라고 할 수 있습니다.

 

 

 

 

 

착각에 빠지거나, 어리석거나, 비효율적이거나, 사악해지는 방법

 

이러한 지능형 시스템이 어리석거나, 비효율적이거나, 사악해질 수 있는 다섯 가지 기본적인 방법이 있습니다.

 

  1. 부정확한 인식 또는 불완전한 기억으로 인한 착각: 부정확한 인식 모듈(예: 부분적인 관찰, 잘못된 정보)은 현재 세계 상태에 대한 부정확한 표현을 생성합니다. 세계 상태를 정확하게 추정하려면 현재 인식되지 않는 세계 부분에 대한 기억에 의존해야 합니다. 기억에 결함이 있을 수 있습니다.
  2. 부정확한 세계 모델로 인한 어리석음: 세계 모델은 일련의 행동이 세계에 미치는 영향에 대해 부정확하거나 불완전한 예측을 할 수 있습니다. 부정확한 세계 모델은 원인과 결과에 대한 이해 부족에서 비롯됩니다.
  3. 비효율적인 행동 탐색: 작업 목표를 최적화하면서 가드레일을 충족하는 행동 방침을 찾는 것은 어려운 문제입니다. 지능 시스템이 효과적으로 행동하는 능력은 지각, 세계 모델, 목표가 정확하더라도 최적이 아닌 탐색 전략으로 인해 제한될 수 있습니다.
  4. 부적절한 작업 목표로 인한 어리석음 또는 악: 작업 목표가 좋은 해결책을 제대로 설명하지 못할 경우, 시스템은 원하는 작업을 달성하지 못하는 실행 계획을 수립하게 됩니다. 또한, 작업 목표는 장기적으로 세상에 부정적인 영향을 미치는 방식으로 우발적 또는 의도적으로 편향될 수 있습니다.
  5. 결함 있는 가드레일 목표로 인한 악: 가드레일 목표는 시스템이 어떤 대가를 치르더라도 작업을 완료하지 못하게 하여 결과적으로 파괴적인 영향을 초래할 수 있습니다. 부적절한 가드레일은 해를 끼칠 수 있습니다.

 

예시

 

각 실패 사례의 몇 가지 예를 소개합니다.

 

(a) 에이전트가 작은 개울의 한쪽에 서서 반대쪽으로 점프하려고 하고, (b) 에이전트가 한 국가의 경제적 후생을 극대화하려고 한다고 가정해 보겠습니다.

 

1. 부정확한 지각이나 불완전한 기억으로 인한 망상:

 

a. 에이전트는 반대쪽까지의 거리를 과소평가합니다.

b. 에이전트는 무역수지, 적자 등 부정확한 경제 데이터를 가지고 있습니다.

 

2. 부정확한 세계 모델로 인한 어리석음:

 

a. 에이전트는 특정 다리 동작을 통해 필요한 거리를 점프할 수 있다고 잘못 생각하거나, 지면이 젖고 부드러우며 미끄러운 사실을 고려하지 않습니다.

 

b. 에이전트는 관세 부과가 무역수지를 평준화하는 방법이며, 무역 상대국이 동일한 방식으로 보복하지 않을 것이고, 그 과정에서 자국의 경제 건전성이 손상되지 않을 것이라고 잘못 생각합니다.

 

3. 비효율적인 행동 탐색:

 

a. 에이전트는 완벽한 점프대가 될 근처의 평평한 돌과 가까운 거리에 있는 다리를 무시한 채 진흙탕에서 점프하기로 선택합니다.

 

b. 에이전트는 정확한 무역 경제 모델을 가지고 있지만, 모두가 최적이 아니라고 알고 있는 특정 행동 방침에 집착합니다.

 

4. 부적절한 작업 목표로 인한 어리석음 또는 악행:

 

a. 에이전트는 원하는 목적지에 도달하기 위해 실제로 강물의 반대편으로 점프할 필요가 없습니다. 요원은 점프 기술로 청중에게 깊은 인상을 남기는 데 동기를 부여받습니다.

 

b. 요원은 실제로 국가의 경제적 복지를 극대화하려는 것이 아닙니다. 요원은 자신의 권력을 주장하고 정치적, 개인적 적들을 해치는 데 동기를 부여받습니다.

 

5. 결함 있는 가드레일 목표를 통한 악:

 

a. 요원은 반대편으로 점프하여 누군가의 발에 착지할지 여부에 신경 쓰지 않습니다.

 

b. 요원은 일련의 행동을 통해 수백만 명의 동료 시민들의 생계를 파괴할지 ​​여부에 신경 쓰지 않습니다.

 

 

원문 링크

반응형

더욱 좋은 정보를 제공하겠습니다.~ ^^