본문 바로가기

개발자/인공지능과 인간

인공지능과 인간 1강-AI와 인간의 대화

반응형

 

  가장 저렴하고 쉬우면서 투자 대비 많은 이익을 얻을 수 있는 지식으로 무장하는 방법을 선택하기로 한다. 대저 다정하고 조용한 말이 힘이 있는 법이다. 바른 생각이 곧 바른 태도가 가장 잘 드러나는 것이 말이다. 그것마저 제대로 하지 못하면 다른 것은 볼 필요도 없다. 소설을 읽으면 사고의 측면에서 삶에서 일어나는 가능성을 이해하는 스펙트럼이 확장된다. 인간이라면 누구나 개개인의 삶을 지탱하는 모습이 얼마나 다를 수 있는가를 알게 된다. 있는 그대로 인정하고 받아들이게 된다. 무릇 저마다 제 역할이 있다거나, 알맞은 목적과 숭고한 의미 따위는 없다는 것을 깨닫게 된다.

 

  인공지능을 공부하고 있다. 머지않아, 약 천 년 정도 후에 인공지능이 인간보다 더 뛰어나게 되면 인간은 그들이 잘했던 것을 다시 시작할 것이다. 억압과 폭력, 서로 죽이는 학살 같은 것들을. 아래 포스팅은 마쓰오 유타카 저, 송주명 옮김 저서인 "인공지능과 인간 - 딥 러닝은 어디까지 진화할 것인가?" 책 내용을 정리하였다. 인공지능의 발전은 인간이 한 동안 잊고 있던 인간의 의식, 앎, 신체, 트랜스 휴머니즘 등으로 인문학의 주제를 더욱 확장할 것이다. 철학과 윤리, 언어와 구체적인 인간의 모습을 새롭게 밝혀 줄 새로운 인문학을 요구한다. 기술과 과학 분야에서 새로운 혁명이 일어난다면 다른 모든 분야에서도 역시 같다. 광대한 우주에서 작고 푸른 별의 인류는 항해를 시작한다. 부디 평화로운 항해가 되기를. 

 

인공지능과 인간, 딥 러닝은 어디까지 진화할 것인가?

 

『인공지능과 인간-딥 러닝은 어디까지 진화할 것인가?』는 NHK 방송 프로그램에 제시된 내용들을 간략하고 명쾌하게 해설하여, 인공지능기술의 작동원리와 현재까지의 발전단계를 독자들이 쉽게 이해할 수 있도록 구성되어 있다. 12개의 프로그램을 6개의 강좌로 재구성하여 각각 개별적인 주제를 다루고 있는데, 각각 AI의 언어 기능, AI와 뇌의 차이와 유사성, AI와 예술적 감수성, AI 로봇, AI의 화상인식 기술, AI와 인간의 융합 가능성 및 전망으로 구성되어 있다. 『인공지능과 인간-딥 러닝은 어디까지 진화할 것인가?』가 AI 시대를 준비하면서 인간적이고 철학적인 고민을 시작하는 좋은 읽을거리, 유익한 생각거리가 되기를 기원한다.

 

인공지능과 인간, 딥 러닝은 어디까지 진화할 것인가?

 

진인진 출판사 도서소개 페이지와 연관 포스팅

인공지능과 인간 1강-AI와 인간의 대화
인공지능과 인간 2강-사람의 뇌와 AI, 차이는 무엇인가?
인공지능과 인간 3강-AI가 만드는 예술작품
인공지능과 인간 4강-AI 로봇
인공지능과 인간 5강-AI의 화상인식 기술
인공지능과 인간 6강-AI와 인간의 융합은 가능한가?

 

인공지능과 인간 1강-AI와 인간의 대화 

 

AI는 대화의 의미를 이해하는 것이 아니라 패턴을 인식한다. 어떤 글을 입력하면 그에 대응하는 일정한 문장을 출력하는 정도였다. 최근 심층학습(다층 인공신경망을 이용한 기계학습, 아래 참고)의 등장으로 자연어 처리 분야에서 눈부신 성과를 거두고 있다. 

 

심층 학습(深層學習) 또는 딥 러닝(영어: deep structured learning, deep learning 또는 hierarchical learning)은 여러 비선형 변환 기법의 조합을 통해 높은 수준의 추상화(abstractions, 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업)를 시도하는 기계 학습 알고리즘의 집합으로 정의되며, 큰 틀에서 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야라고 이야기할 수 있다.

 

어떠한 데이터가 있을 때 이를 컴퓨터가 알아들을 수 있는 형태(예를 들어 이미지의 경우는 픽셀 정보를 열 벡터로 표현하는 등)로 표현(representation)하고 이를 학습에 적용하기 위해 많은 연구(어떻게 하면 더 좋은 표현기법을 만들고 또 어떻게 이것들을 학습할 모델을 만들지에 대한)가 진행되고 있으며, 이러한 노력의 결과로 deep neural networks, convolutional deep neural networks, deep belief networks와 같은 다양한 딥 러닝 기법들이 컴퓨터 비전, 음성인식, 자연어 처리, 음성/신호처리 등의 분야에 적용되어 최첨단의 결과들을 보여주고 있다.

 

2012년 스탠퍼드대학의 앤드류 응과 구글이 함께한 딥 러닝 프로젝트에서는 16,000개의 컴퓨터 프로세서와 10억 개 이상의 neural networks 그리고 DNN(deep neural networks)을 이용하여 유튜브에 업로드되어 있는 천만 개 넘는 비디오 중 고양이 인식에 성공하였다. 이 소프트웨어 프레임워크를 논문에서는 DistBelief로 언급하고 있다. 이뿐만 아니라 마이크로소프트, 페이스북 등도 연구팀을 인수하거나 자체 개발팀을 운영하면서 인상적인 업적들을 만들어 내고 있다.

 

심층학습에는 여러 가지 기술이 있는데 대표적인 것으로 합성곱 인공신경망과 재기형 인공신경망 기술이다. 아래를 참고한다.

 

* 합성곱 신경망(Convolutional neural network, CNN)은 시각적 이미지를 분석하는 데 사용되는 깊고 피드-포워드적인 인공신경망의 한 종류이다. 딥 러닝에서 심층 신경망으로 분류되며, 시각적 이미지 분석에 가장 일반적으로 적용된다. 또한 공유 가중치 구조와 변환 불변성 특성에 기초하여 변이 불변 또는 공간 불변 인공 신경망 (SIANN)으로도 알려져 있다. 이미지 및 비디오 인식, 추천 시스템, 이미지 분류, 의료 이미지 분석 및 자연어 처리에 응용된다.

 

CNN은 정규화된 버전의 다층 퍼셉트론이다. 다층 퍼셉트론은 일반적으로 완전히 연결된 네트워크, 즉 한 계층의 각 뉴런이 다음 계층의 모든 뉴런에 연결됨을 의미한다. 이러한 네트워크의 "완전히 연결"은 주어진 데이터에 과적합 되는 경향이 있다. 일반적인 정규화 방법에는 손실 함수에 몇 가지 형태의 가중치 측정을 추가하는 것이 포함되지만, CNN은 정규화를 향한 다른 접근 방식을 취한다. 데이터에서 계층적 패턴을 활용하고 더 작고 간단한 패턴을 사용하여 더 복잡한 패턴을 조립한다. 따라서 연결성과 복잡성의 규모에서 CNN은 극단적으로 낮다.

 

컨볼루션 네트워크는 뉴런 사이의 연결 패턴이 동물 시각 피질의 조직과 유사하다는 생물학적 과정에 의해 영감을 받았다. 개별 피질 뉴런은 수용장으로 알려진 시야의 제한된 영역에서만 자극에 반응한다. 상이한 뉴런의 수용 필드는 전체 시야를 커버하도록 부분적으로 중첩된다.

 

CNN은 다른 이미지 분류 알고리즘에 비해 상대적으로 전처리를 거의 사용하지 않는다. 이는 네트워크가 기존 알고리즘에서 수작업으로 제작된 필터를 학습한다는 것을 의미한다. 피처 디자인에 대한 사전 지식과 인간 노력과의 독립성은 CNN의 주요한 장점이다. 

 

*순환 인공 신경망(Recurrent neural network, RNN)은 인공 신경망의 한 종류로, 유닛 간의 연결이 순환적 구조를 갖는 특징을 갖고 있다. 이러한 구조는 시변적 동적 특징을 모델링할 수 있도록 신경망 내부에 상태를 저장할 수 있게 해 준다. 전방 전달 신경망과 달리, 순환 인공 신경망은 내부의 메모리를 이용해 시퀀스 형태의 입력을 처리할 수 있다. 따라서 순환 인공 신경망은 필기체 인식이나 음성 인식과 같이 시변적 특징을 가지는 데이터를 처리할 수 있다. RNN은 언어처리나 음성인식 등 시간에 따라 변화하는 데이터를 처리하는 데 적합하다. 

 

Scatterplot featuring a linear support vector machine's decision boundary (dashed line) 출처: https://commons.wikimedia.org/wiki/File:Kernel_Machine.svg

 

순환 신경망은 인공신경망을 구성하는 유닛 사이의 연결이 Directed cycle을 구성하는 신경망을 말한다. 순환 신경망은 앞먹임 신경망과 달리, 임의의 입력을 처리하기 위해 신경망 내부의 메모리를 활용할 수 있다. 이러한 특성에 의해 순환 신경망은 필기체 인식(Handwriting recognition)과 같은 분야에 활용되고 있고, 높은 인식률을 나타낸다.

 

순환 신경망을 구성할 수 있는 구조에는 여러 가지 방식이 사용되고 있다. 완전 순환망(Fully Recurrent Network), Hopfield Network, Elman Network, Echo state network(ESN), Long short term memory network(LSTM), Bi-directional RNN, Continuous-time RNN(CTRNN), Hierarchical RNN, Second Order RNN 등이 대표적인 예이다. 순환 신경망을 훈련(Training)시키기 위해 대표적으로 경사 하강법, Hessian Free Optimization, Global Optimization Methods 방식이 쓰이고 있다. 하지만 순환 신경망은 많은 수의 뉴런 유닛이나 많은 수의 입력 유닛이 있는 경우에 훈련이 쉽지 않은 스케일링 이슈를 가지고 있다.

 

학습하는 행위는 나누는 것이 근간이다. 대부분의 것을 나누면서 결정하고 결과의 정밀도와 정답률을 높이는 것이 학습하는 것이다. 우리가 눈앞의 것을 나누는 것은 세계 그 자체를 나누는 것이다. AI의 기계학습은 대량의 데이터를 처리하면서 나누는 방법을 자동으로 습득하는 것이다. 

 

튜링 테스트와 중국어 방

 

*튜링 테스트(Turing test)는 기계가 인간과 얼마나 비슷하게 대화할 수 있는지를 기준으로 기계에 지능이 있는지를 판별하고자 하는 테스트로, 앨런 튜링이 1950년에 제안했다.

 

앨런 튜링은 1950년에 철학 저널 Mind에 발표한 Computing Machinery and Intelligence에서, 기계가 지능적이라고 간주할 수 있는 조건을 언급했다. "기계가 생각할 수 있는가?"라는 질문에 대해 그는 긍정적이라고 답변하면서, "컴퓨터가 생각할 수 있다면 그것을 어떻게 표현해야 하는가?"라는 핵심 질문에 대해 그는 "컴퓨터로부터의 반응을 인간과 구별할 수 없다면 컴퓨터는 생각(사고, thinking)할 수 있는 것"이라고 주장하였다. 만일 지성 있는 사람이 관찰하여 기계가 진짜 인간처럼 보이게 하는 데 성공한다면 확실히 그것은 지능적이라고 간주해야 한다는 주장이다.

 

이 검사는 대부분의 사람들을 만족시키지만 일부 철학자들은 여전히 납득하지 못한다. 튜링 테스트 중 관찰하는 사람과 기계는 텔레타이프로 상호 교류하는데, 이때 기계는 아직 사람의 외모와 목소리를 완전히 흉내 내지 못하기 때문이다. 이 상황에서 기계는 관찰하는 사람에게 자기가 인간이라고 설득함으로써 인간을 속이려 시도하는 셈이다.

 

*중국어 방 혹은 중국인 방(영어: Chinese room)은 존 설(John Searle)이 튜링 테스트로 기계의 인공지능 여부를 판정할 수 없다는 것을 논증하기 위해 고안한 사고 실험이다.

 

실험의 내용은 다음과 같다. 우선 방 안에 영어만 할 줄 아는 사람이 들어간다. 그 방에 필담을 할 수 있는 도구와, 미리 만들어 놓은 중국어 질문과 질문에 대한 대답 목록을 준비해 둔다. 이 방 안으로 중국인 심사관이 중국어로 질문을 써서 안으로 넣으면 방 안의 사람은 그것을 준비된 대응표에 따라 답변을 중국어로 써서 밖의 심사관에게 준다.

 

안에 어떤 사람이 있는지 모르는 중국인이 보면 안에 있는 사람은 중국어를 할 줄 아는 것처럼 보인다. 그러나, 안에 있는 사람은 실제로는 중국어를 전혀 모르는 사람이고, 중국어 질문을 이해하지 않고 주어진 표에 따라 대답할 뿐이다. 이로부터 중국어로 질문과 답변을 완벽히 한다고 해도 안에 있는 사람이 중국어를 진짜로 이해하는지 어떤지 판정할 수 없다는 결론을 얻는다. 이와 마찬가지로 지능이 있어서 질문 답변을 수행할 수 있는 기계가 있어도 그것이 지능을 가졌는지는 튜링 테스트로는 판정할 수 없다는 주장이다. 

 

지쳐본 적이 없는 사람은 '지쳤다'라는 말을 이해하지 못할까? 말을 정확히 이해하기 위해서 반드시 '신체가 필요한가'하는 새로운 의문이 제기된다. 보통 말의 의미를 이해할 때 신체도 필요하다고 생각한다. 신체가 없어도 유튜브 동영상을 반복해서 분석하면 온라인 환경에서도  개념이 획득될 수 있다는 주장이 제기되고 있다. 

 

*메리의 방(Mary's room)

프랭크 잭슨(Frank Jackson)에 의해 1980년대에 쓰여진 것으로서 물리주의에 대한 반대 개념으로 많이 쓰이곤 한다. 흑백의 방에 있으면서 흑백텔레비전을 통해 세계를 탐구한 색 과학자 매리는 이 세계와 자신에 대한 모든 정보를 가지고 있다. 그런데 어느 날 매리는 이 흑백의 방에서 나오게 되고 세계에 대한 어떤 것과 그것에 관한 시각적 경험을 배우게 된다. 이는 매리의 이전 지식이 불완전했음을 보여주며, 그녀는 모든 물리적 정보를 가지고 있었으므로 물리적 정보 이상의 것이 있다는 것이다.

 

논증은 이렇게 정리할 수 있다. 메리가 흑백의 방을 떠나기 전, 그녀는 색과 색 지각에 대한 모든 물리적 사실들에 대해 알고 있었다. (그녀는 모든 물리적인 사실을 알고 있다.)

그녀가 아직 알지 못하는 색에 대한 다른 사실(붉은 대상들이 특정한 방식으로 보이는 사실)이 존재한다. (그러므로 그녀가 모든 사실들을 알았던 것은 아니다.)

(결론) 따라서 물리적이지 않은 사실. 즉, 비 물리적인 것이 존재한다.

 

매리의 방에 대한 Jackson의 지식 논변은 특정한 색의 감각질에 고려되는 것으로 보이지만, 이는 쉽게 청각이나 후각, 미각에도 확장할 수 있다. 즉, 모든 감각질에 적용할 수 있다. 

 

*기표(記表, 프랑스어: signifiant 시니피앙)와 기의(記意, 프랑스어: signifié 시니피에)는 페르디낭 드 소쉬르에 의해 정의된 언어학 용어이다. "시니피앙"은 프랑스어 동사 signifier의 현재분사로 "의미하는 것"을 나타내며, "시니피에"는 같은 동사의 과거 분사로 "의미되고 있는 것"을 가리킨다.

 

기표란 말이 갖는 감각적 측면으로, 예컨대 바다라는 말에서 "바다"라는 문자와 /bada/라는 음성을 말한다. 기의는 이 기표에 의해 의미되거나 표시되는 바다의 이미지와 바다라는 개념 또는 의미 내용이다. 기표와 기의를 하나로 묶어 기호(記號, 프랑스어: signe 사인)라고 한다.

 

기표와 기의의 관계, 즉 의미작용(意味作用, 프랑스어: signification 시니피카시옹)은 그 관계에 필연성이 없다.(기호의 자의성)

 

예컨대 "바다"를 "바다"라고 쓰고 /bada/라고 발음하는 데 있어 필연성은 어디에도 없다. 만약 그것이 있었다면 모든 언어에서 바다는 /bada/로 발음되고 있을 것이다. 필연성이 없는데도 불구하고 그것이 이해하는 체계 속에서는 필연화되고 있다.

 

한국어를 이해하는 사람이 "바다"라는 글자를 보거나 /bada/라는 소리를 들었을 때, 거기서 상상할 수 있는 것의 근저는 기본적으로 같다. 또 "바다"가 왜 /bada/냐는 질문에 답하기가 매우 어렵다. 고틀로프 프레게가 지적했듯, 기의, 즉 "의미 내용" 또는 "개념"은 "지시 대상"과 반드시 일치하지 않는다. "지시 대상"은 레페렌트(referent)라 하며, 기의와는 구별된다. 

 

말을 사용하는 것은 정보를 털어내는 것이다. 정보를 털어내고 요약하고 추상화한다. 말로 한다는 것은 많은 정보를 털어내 버리는 것이므로, 매우 난폭한 일이 될 수도 있다. 아이는 방대한 시행착오에 기반한 세계 탐색 경험이 세계를 이해하는 기반이 된다.

 

2018년 구글 어시스턴트의 개발단계를 보여주는 영상

 

참고자료

 

나무위키 심층학습

구글, 사람과 스스로 대화하는 인공지능

 

 

반응형

더욱 좋은 정보를 제공하겠습니다.~ ^^