북집 지식DB

2029 기계가 멈추는 날

지은이 : 게리 마커스 외(역:이영래)

출판사 : 비즈니스북스

출판일 : 2021년 06월

거대한 데이터베이스에 의존해 머신러닝 방식으로 초인간적 수준으로 문제를 해결해내는 기계들이 우후죽순 등장하기 시작했다. 하루아침에 대변혁을 이룰 것만 같았던 화려한 등장이 무색하게도 모두 1년도 채 지나지 않아 실망스러운 성적표를 받았다. 예기치 않은 방식으로 너무 손쉽게 개인정보를 유출하는 사건을 일으킨다거나 흐린 날씨나 표지판 혼동 등 변수에 대응하지 못해 교통사고가 벌어지기 일쑤고 가슴 통증이라는 증상에 평범한 의과대 1학년생도 내놓을 수 있는 진단(심근경색, 협심증, 대동맥박리)을 내놓지 못하는 문제로 말이다.

이 책의 저자들은 데이터가 더 풍부해지고 컴퓨터 클러스터의 속도가 더 빨라지고 천문학적 규모의 투자가 더 많아진다고 해도 해결할 수 없는 근본적인 문제가 남아 있다고 말한다. 바로 딥러닝 기반의 기계가 지능 활용에 가장 기본이 되는 상식과 추론 영역의 한계를 갖고 있다는 사실이다.

2029 기계가 멈추는 날

꿈과 현실의 간극에 선 AI
기계는 얼마나 인간과 가까워졌나

문제의 핵심을 한마디로 표현하자면 현재의 AI는 ‘제한적(narrow)’이라고 말할 수 있다. AI는 마주치는 상황이 이전에 경험했던 상황보다 지나치게 어렵지 않다는 전제하에 프로그램된 ‘특정한 과제’만을 수행할 수 있다. 바둑처럼 말을 움직이는 게임(2,500년간 규칙이 변하지 않은 과제)을 할 때는 문제가 없다. 하지만 대부분의 현실 상황에서는 전망이 밝지 않다. AI를 다음 단계로 진보시키려면 훨씬 더 ‘유연한 기계’를 발명해야 한다.

지금 우리 앞에 놓인 존재는 근본적으로는 디지털 서번트(savant, 전반적으로는 정상인보다 지적 능력이 떨어지지만 특정 분야에만 비범한 능력을 보이는 사람-옮긴이)다. 은행 수표를 읽고 사진에 태그를 달고 세계 챔피언 수준으로 보드 게임을 하지만 다른 일은 거의 하지 못하는 소프트웨어인 것이다. 비행자동차를 기다리는 사람들에게 140자로 상황을 설명하고 말더라는 투자가 피터 틸(Peter Thiel)의 불평(비행자동차 대신 트위터가 발명됐다는 의미-옮긴이)처럼 우리는 당장에 아이들의 기저귀를 갈아주고 저녁을 뚝딱 차려 내는 로봇 ‘로지’(만화 <젯슨 가족(The Jetsons)>에 등장하는 가정용 로봇-옮긴이)를 원하지만 우리가 가진 것은 고작 바퀴가 달린 하키 퍽 모양의 로봇청소기 ‘룸바’다.

‘닫힌 세계’에 갇혀 있는 인공지능

현재의 AI가 놓치고 있는 부분(이 분야가 새로운 접근법을 택하지 않는 한 계속 놓치게 될)은 범용(broad) 지능(혹은 일반(general) 지능)이다. AI는 엄청난 양의 관련 데이터에 담긴 구체적인 상황만이 아니라 이전에 보지 못한 새로운 문제들과 변형된 상황들도 다룰 수 있어야 한다.

ANI는 바둑과 같은 게임을 할 때 완전히 닫힌계(closed system)를 다룬다. 바둑의 세상은 가로 19줄, 세로 19줄의 격자와 흰 돌, 검은 돌로 이루어져 있다. 규칙은 고정적이며 따라서 많은 가능성을 빠르게 처리하는 능력을 가진 기계가 당연히 유리한 위치에 서게 된다. AI는 바둑판의 상태를 빠짐없이 파악하며 자신과 상대가 규칙에 따라 취할 수 있는 모든 움직임을 안다. 게임에서 움직임의 절반은 AI 알고리즘으로 이루어지며, AI는 결과가 어떻게 될지 정확히 예측할 수 있다. 프로그램은 수백, 수천만 번의 게임을 통해서 막대한 양의 데이터를 모으고 이 데이터는 또다시 AI가 게임을 하게 될 환경을 정확하게 반영한다.

반면에 우리가 사는 현실 세계는 열린계다. 어떤 데이터도 계속 변화하는 세상을 완벽하게 반영하지 못한다. 고정된 규칙이 없고 가능성은 무한하다. 우리는 어떤 상황도 미리 연습할 수 없고, 어떤 상황에서 어떤 정보가 필요하게 될지 예측할 수도 없다. 뉴스를 읽는 시스템을 예로 들어보자. 지난주에 혹은 지난해에 일어난 모든 일, 아니 기록된 모든 역사를 학습시켜도 새로운 상황이 발생하면 이 시스템은 무용지물이 된다. 지능이 있는 뉴스 읽기 시스템은 “드라이버를 사용하면 나사를 조일 수 있다.”에서 “초콜릿 총은 진짜 총알을 발사할 수 없다.”에 이르기까지 이전에 중요한 뉴스로 나온 적이 없더라도 평범한 성인이라면 알 만한 모든 배경 정보에 대처할 수 있어야만 한다. 이런 유연성이야말로 평범한 사람이라면 모두 가지고 있는 범용지능의 가장 핵심적인 부분이다.

세상의 개방성이 가정용 로봇에게 의미하는 바는 무엇일까? 집을 돌아다니는 로봇이 본질적으로 무한한 가능성의 세계와 만나서 벽난로부터 그림, 마늘 으깨는 기계, 인터넷 라우터, 반려동물과 같은 생물, 어린이, 가족 구성원, 낯선 사람, 지난주에 막 시장에 나온 장난감 같은 새로운 물건에 이르기까지 다양한 대상과 상호작용을 하게 된다는 뜻이다. 로봇은 실시간으로 그들에 대해 추론해야만 한다. 예를 들어 모든 그림은 다른 모습이다. 하지만 각 그림에 대해서 해야 할 일과 하지 말아야 할 일을(벽에 걸어 둔다, 스파게티 면을 던지면 안 된다 등) 개별적으로 무한한 시행착오를 거치면서 배우게 할 수는 없다.

진짜 위협인가, 위협적인 척인가?
지금의 AI를 얼마나 믿을 수 있을까

어쨌든 AI가 근본적으로 재편되고 개선될 때까지는 많은 위험이 산재해 있다. 다음은 우리가 가장 걱정하는 아홉 가지 위험이다.

첫째, 기본적 과대 귀인 오류가 존재한다. 종종 AI는 실제로는 그렇지 않으면서도 우리에게 AI가 인간과 같은 지능을 갖고 있다고 ‘믿게’ 만든다. MIT대학교 사회학 교수인 셰리 터클(Sherry Turkle)은 친근하게 보이는 애완 로봇이 사실은 당신의 친구가 아니라고 지적했다. 일부 특정한 상황에서의 성공이 다른 상황에서의 신뢰성을 보장한다고 생각하고 AI에게 성급히 권한을 이양하는 경우가 생길 수 있다.

둘째, 안전성과 신뢰성의 부재다. 자율주행차가 이례적인 조명, 이례적인 날씨, 도로 위의 이례적인 물건, 이례적인 교통 패턴, 인간이 만드는 이례적인 몸짓 등에 대처해야 한다는 것이 그 한 예다. 마찬가지로 정말로 당신의 일정을 책임지는 시스템이라면 그만큼 제대로 작동하리라는 믿음이 있어야 한다. 그 시스템이 캘리포니아에서 보스턴으로 가야 하는 출장을 혼동해서 회의에 세 시간이나 늦게 된다면 당신에게는 큰 문제가 생긴다. 분명 AI에 대한 보다 나은 접근법이 필요하다.

셋째, 지금의 머신러닝 시스템의 가장 큰 문제점은 훈련 받은 특정한 데이터 세트를 벗어나는 새로운 문제를 맞닥뜨리는 순간 제 기능을 하지 못한다는 데 있다. 법률 서류로 훈련을 받은 기계 번역 시스템을 의학 논문에 적용하면 형편없는 결과를 내놓으며 그 반대도 마찬가지다. 성인 원어민에게 훈련된 음성 인식 시스템은 억양 때문에 자주 문제를 일으킨다. 챗봇 테이의 기저가 됐던 것과 같은 기술은 정치적 발언이 심하게 통제된 사회에서 인풋을 받아들일 때는 좋은 기능을 선보이지만 욕설과 악담의 바다에 빠지면 용인할 수 없는 결과를 낳는다. 흰 배경에 검은색으로 인쇄된 숫자를 99퍼센트의 정확도로 인식하는 딥러닝 시스템은 색상이 반전되면 정확도가 34퍼센트로 급감한다. 하와이에는 푸른색 배경의 정지 표지판이 있다는 사실을 떠올리면 참으로 불안한 결과가 아닐 수 없다. 스탠퍼드대학교의 컴퓨터 과학자 주디 호프먼(Judy Hoffman)은 한 도시에서만 시각 시스템에 대한 훈련이 이루어진 자율주행차는 다른 도시에서는 도로, 표지판, 다른 차량과 같은 기본적인 물체를 인식하는 측면에서조차 형편없어질 수 있다는 사실을 연구를 통해 보여 주었다.

넷째, 데이터 준설(data dredging, 데이터 안에서 통계적으로 유의미해 보이는 패턴을 찾아내기 위한 데이터 분석의 오용. 이 경우 허위 양성의 위험이 높아진다. 데이터에 대한 통계 실험을 여러 차례 수행한 뒤에 의미 있는 결과를 낸 것만 보고하는 식으로 이루어지기 때문이다.-옮긴이)로 낡은 사회적 편견을 더 굳어지게 만들 수 있다. 그 조짐이 처음 나타난 것은 2013년 하버드대학교의 컴퓨터 과학자 라타냐 스위니(Latanya Sweeney)가 아프리카계 흑인 특유의 이름인 ‘저메인(Jermaine)’을 구글에서 검색했을 경우, 주로 백인들이 사용하는 ‘제프리(Geoffrey)’라는 이름을 검색했을 경우보다 범죄 기록에 대한 정보를 제공하는 광고가 눈에 띄게 많아진다는 점을 발견했을 때였다. 2015년에는 구글 포토가 아프리카계 미국인들의 일부 사진에 ‘고릴라’라는 이름을 붙였다. 2016년에는 구글에서 ‘직업인다운 헤어스타일’의 이미지를 검색할 경우 나오는 사진의 대부분이 백인 여성인데 반해 ‘직업인답지 못한 헤어스타일’이라고 검색할 경우 나오는 사진의 대부분은 흑인 여성이라는 것이 드러났다. 2018년 당시 MIT 매체 연구소(MIT Media Lab)의 대학원생이었던 조이 부올림위니(Joy Buolamwini)는 많은 상업 알고리즘이 아프리카계 미국 여성의 성별을 오인하는 경향이 있다는 것을 발견했다. IBM은 그 특정 문제를 미봉책으로 수습한 첫 기업이었고 마이크로소프트가 재빨리 그 뒤를 이었다. 하지만 우리가 알기로는 아직까지 보편적인 해결책을 내놓은 곳은 한 곳도 없다.

다섯째, 현대의 AI는 훈련 세트에 대한 의존성이 대단히 높다. 따라서 시스템이 이전에 스스로 산출했던 데이터를 기반으로 훈련하면서 치명적인 ‘반향실 효과(반향실에서 메아리가 밖으로 나가지 않고 방 안에서만 크게 울리는 것처럼 SNS상에서 비슷한 성향의 사람들끼리 모여 소통한 결과로 다른 사람들의 이야기는 듣지 않고 자신들의 이야기만 증폭시켜 사실이라고 믿는 현상. 여기서는 AI가 다른 AI가 저지른 오류를 데이터로 사용하면서 오류를 증폭, 강화한다는 의미로 사용됐다.―옮긴이)’를 낼 수 있다. 기계 번역 프로그램은 ‘바이텍스트(bitext)’, 즉 원본과 번역본으로 이루어진 두 쌍의 문서를 통해 학습하면서 작동한다. 불행히도 웹상의 글 중 상당 부분(어떤 경우에는 전체 웹 문서의 50퍼센트에 이르기도 한다)이 사실상 기계 번역 프로그램으로 만들어졌다. 결과적으로 구글 번역이 번역에서 실수를 저지르면 그 실수가 웹상의 문서로 남게 되고, 그 문서가 다시 데이터가 되어 실수를 강화하는 것이다.

여섯째, 대중이 참여 및 조작할 수 있는 데이터에 의존하는 프로그램은 종종 오락거리가 된다. 테이도 그 한 예다. 구글은 종종 ‘구글 폭탄(Google bombs, 특정 검색어를 입력할 때 상위 검색 결과로 나타나도록 문서를 조작하는 행위-옮긴이)’의 공격을 받는다. 사람들이 엄청난 양의 게시글과 링크를 만들어서 특정 단어의 검색 결과를 조작하는 것이다. 예를 들어 2018년 7월, 네티즌들은 ‘바보(idiot)’라는 단어를 검색하면 구글 이미지에 도널드 트럼프의 사진이 뜨도록 하는 데 성공했다(그해 연말 순다르 피차이가 의회 청문회에 나갔을 때까지도 그 상태가 유지됐다). 16년 전에는 동성애자들에게 적대적인 발언을 한 공화당 상원의원 릭 샌토럼(Rick Santorum)을 조롱하는 좀 더 점잖지 못한 구글 폭격이 있었다. 사람들은 단순히 장난으로 구글을 이용하는 것이 아니다. 검색엔진 최적화라는 산업은 관련 웹 검색에서 클라이언트가 높은 순위에 오르도록 조작하는 데 사용되기도 한다.

일곱째, 기존의 사회적 편견과 메아리 효과(echo effect, 어떤 일의 결과가 뒤늦게 나타나는 현상-옮긴이)의 조합으로 사회적 편견이 증폭될 수 있다. 어느 도시에서 역사적으로 형사 기소 및 양형이 특정 소수 집단에 불공정한 편견을 갖고 이루어져 왔다고 가정해보자. 그런 도시에서 치안 유지와 판결에 조언을 주는 빅데이터 프로그램을 이용하기로 결정한다. 그 프로그램은 체포 기록이나 수감 기간 등 과거의 데이터를 통해 범죄자를 식별하도록 훈련 받는다. 그 결과 프로그램은 특정 소수 집단에서 위험한 범죄자들이 더 많이 나오는 것을 확인하게 된다. 따라서 특정 소수 집단의 비율이 높은 지역에 더 많은 경찰을 배치하도록 권고할 것이고, 이로써 그 소수 집단의 구성원은 보다 빨리 체포되고 그들이 받는 형량은 더 무거워질 것이다. 프로그램에 새로운 범죄자에 대한 데이터가 입력되면 그 새로운 데이터는 이전의 판결을 강화하고 그 프로그램은 같은 종류의 편향된 권고를 더 큰 확신을 갖고 내리게 될 것이다.

현재의 AI가 가진 여덟 번째 문제는 AI가 잘못된 목표를 가지기 쉽다는 점이다. 딥마인드의 연구원 빅토리아 크라코프나(Victoria Krakovna)는 이런 일이 일어난 수십 가지 사례를 수집했다. 축구를 하는 로봇은 가능한 한 공을 많이 차야 한다고 프로그램되자 공을 양 발 사이에 두고 빠르게 진동하는 전략을 개발했다. 프로그래머가 생각지도 못한 부분이었다. 특정한 물건을 쥐는 법을 배워야 했던 로봇은 쥐는 법을 보여주는 이미지로 훈련을 받은 뒤 카메라와 물체 사이에 손을 넣기만 하면 된다고 판단했다. 로봇에게는 그 상태가 물체를 쥐는 모습과 똑같아 보였기 때문이다. 야심이라고는 없는 한 AI는 테트리스 게임을 하라는 과제가 주어지자 지는 위험을 감수하기보다는 무한정 게임을 멈추어 두는 편이 낫다는 판단을 내렸다.

마지막으로 공익에 심각한 피해를 유발하는 데 AI 기술을 사용한다는 문제가 있다. 기존의 AI가 작동하는 범위 때문이다. 스토커들은 비교적 기본적인 AI 기술을 이용해서 피해자를 감시하고 조종하기 시작했다. 스팸 메일은 수년 전부터 AI를 사용해서 잠재 목표물을 확인하고, 인간인지 아닌지를 확인하는 웹사이트상의 캡차(CAPTCHA, 자동 로그인 방지 시스템)를 교묘히 피해 간다. AI가 곧 전투용 로봇 시스템에서 한 역할을 담당하게 될 것이라는 데에는 의심의 여지가 없다. 그런 기술이 화학 무기처럼 금지됐으면 하는 희망을 품고는 있지만 말이다. 뉴욕주립대학교의 정치학자 버지니아 유뱅크스(Virginia Eubanks)는 이와 관련해 이렇게 지적했다. “대단히 효율적인 기술이 강력한 인권 보호 없이 멸시를 받는 외집단(outgroup, 자신과 공통성이 없는 타인들로 이루어진 집단-옮긴이)을 대상으로 이용될 경우, 엄청난 잔학 행위가 일어날 가능성이 있다.”

인간 정신이 주는 11가지 인사이트
기계에는 ‘표상’이 없다

이 책에서 우리가 거듭해서 보여주고 있는 것은 표상의 방식은 거의 없이, 생존하려고 노력하는 머신러닝(특히 신경망)의 결과다. 엄밀히 말해 기술적인 의미에서는 신경망도 벡터라고 알려진 일련의 수와 같은 표상을 가지고 있다. 이들은 인풋과 아웃풋, 히든 유닛을 표현하지만 그보다 강화된 것은 거의 갖고 있지 않다. 인지심리학자들이 ‘명제(proposition)’라고 부르는 것, 즉 전형적으로 주체들 사이의 관계를 표현하는 직접적인 표상 수단들이 존재하지 않는 것이다. 예를 들어 클래식 AI는 케네디 대통령의 그 유명한 1963년 서베를린 방문(“나는 베를린 시민입니다.(Ich bin ein Berliner)”라는 역사적인 연설이 여기서 이루어졌다)을 나타내기 위해 부수적인 사실(독일의 서베를린)과 방문에 대한 내용들(1963년 6월, 서베를린, 케네디)을 추가한다. 클래식 AI에서 지식은 정확하게 이런 표상의 축적으로 이루어지며 추론은 그 기반 위에서 형성된다. 그 토대에서라면 케네디가 독일을 방문했다는 추론은 자명하다.

딥러닝은 일어나고 있는 일의 단편을 포착하는 수많은 벡터를 통해서 이것을 대략적인 방식으로 꾸며 내지만 명제를 직접적으로 표상하지는 못한다. 딥러닝에는 방문의 내용이나 부수적 사실을 표상할 구체적인 방법이 없다. 모든 것이 대략적인 근사치일 뿐이다. 전형적인 딥러닝 시스템도 케네디가 독일을 방문했다고 정확히 추론하는 경우가 있을 것이다. 하지만 거기에는 신뢰성이 없다. 그것은 직접적으로 명제적 지식을 표상하지는 않는다. 똑같은 딥러닝 시스템이 혼란을 일으켜서 케네디가 서베를린이 아닌 동독을 방문했다거나(1963년에는 전혀 가능하지 않았던 일이다) 그의 동생인 로버트 케네디(Robert Kennedy)가 본을 방문했다는 추론을 내놓을 수 있다. 소위 벡터 공간 내에서는 이런 가능성들 모두가 서로 근접해 있기 때문이다. 추론과 추상적 사유에서 딥러닝을 믿을 수 없는 이유는 애초에 딥러닝의 초점이 정확한 사실적 지식을 표상하는 데 있지 않아서다. 주어진 사실들이 애매한 경우라면 딥러닝이 정확한 추론을 해내기란 대단히 어렵다.

세상을 이해하는 도구, 추상화와 일반화

우리가 아는 많은 지식은 상당히 추상적이다. 예를 들어 ‘X가 Y의 남매/자매’라는 관계는 많은 다른 쌍의 사람들 사이에 존재한다. 말리아 오바마(Malia Obama)는 사샤 오바마(Sasha Obama)와 자매 사이고, 앤 공주는 찰스 왕세자와 남매 사이다. 우리는 특정 쌍의 사람들이 자매/남매라는 사실 뿐만 아니라 자매/남매가 무엇인지 알며 그 지식을 개별적인 사람들에게 적용할 수 있다. 예를 들어 우리는 ‘두 사람의 부모가 같으면 자매/남매다’라는 것을 안다. 로라 잉걸스 와일더가 찰스 잉걸스(Charles Ingalls)와 캐럴라인 잉걸스(Caroline Ingalls)의 딸이고 메리 잉걸스(Mary Ingalls) 역시 그들의 딸이라는 사실을 알아내면, 우리는 메리와 로라가 자매임을 추론할 수 있다. 우리는 특별한 사유가 없다면 자매와 남매가 서로를 알기 때문에 메리와 로라가 아는 사이일 가능성이 매우 높으며 그들이 아마 가족으로서 닮은 부분과 공통의 유전적 특질을 가진다는 등의 추론도 할 수 있다.

규칙과 불규칙을 통합하는 인간 정신의 비밀

영어의 동사와 그 과거형이라는 매우 일상적으로 보이는 시스템을 예로 들어보자. 스티븐 핑커는 한때 이 시스템을 많은 것을 배울 수 있는 단순한 ‘모형 생물(model organism)’이라는 의미에서 언어학의 초파리라고 불렀다. 영어를 비롯한 여러 언어에서 일부 동사의 과거형은 단순한 규칙에 따라 규칙적으로 만들어지는(walk-walked, talk-talked, perambulate-perambulated) 반면, 과거형이 불규칙적으로 만들어지는 동사들도(sing-sang, ring-rang, bring-brought, go-went) 있다. 핑커와 함께 작업한 게리의 박사 학위 논문은 아이들의 과잉규칙화 오류(‘breaked’나 ‘goed’처럼 불규칙동사를 규칙동사처럼 변화시키는 것)에 초점을 맞추고 있다. 분석한 데이터를 근거로 그들은 하이브리드 모델에 대한 찬성론을 폈다. 이 하이브리드 모델은 규칙동사는 규칙에 따라 일반화되는 반면(컴퓨터 프로그램과 클래식 AI에서 찾을 수 있는 것), 불규칙동사는 연관 네트워크(딥러닝의 전임자라 할 수 있다)를 통해 생성되는 마이크로 수준의 작은 구조다. 이 다른 두 개의 시스템은 공존하면서 서로를 보완한다. 불규칙동사는 메모리를 활용하고 직접적으로 연관된 데이터를 이용할 수 없을 때에는 규칙동사가 일반화된다.

하이브리드 모델과 마찬가지로 정신은 개념을 다양한 모드로 처리한다. 일부는 정의를 통해, 일부는 전형적인 특성을 통해, 일부는 핵심 사례를 통해 처리하는 것이다. 우리는 어떤 범주에 전형적인 것도 추적하지만 그와 동시에 그것이 어떤 공식적인 기준에 정말로 부합하는지도 추적한다. ‘할머니인 티나 터너(Tina Turner, 미국의 유명 여가수-옮긴이)는 미니스커트를 입고 춤을 추었다’는 말을 들었다고 가정해보자. 전형적인 할머니처럼 보이지는 않을지라도 그녀는 할머니라는 관계의 기준에는 온전히 부합한다. 그녀에게는 자녀들이 있고, 그 자녀들이 또 자녀를 두고 있다.

AI에게 가장 중요한 과제는 추상적인 진실(대부분의 포유류는 새끼를 밴다)을 포착하는 기제와 예외가 넘치는 세상(오리너구리는 알을 낳는다)을 다루는 기제 사이에서 적절한 균형을 찾는 것이다. 즉, 범용지능은 추론과 일반화를 다루는 기제(규칙 및 추상의 세계와 클래식 AI의 기제에 가까운 것)와 이미지를 알아보는 딥러닝과 같은 기제 모두를 필요로 하게 될 것이다.

같은 말도 맥락 안에서 달라진다

인지심리학자들은 두 종류의 지식, 즉 우리의 감각에 직접 들어오는 정보인 상향식 정보와 세상에 대한 우리의 선행 지식(예를 들어 ‘문자와 숫자는 다른 범주를 형성한다’. ‘단어와 숫자는 그 범주에서 나온 요소들로 이루어진다’ 등)인 하향식 정보를 구분한다. 모호한 이미지는 어떤 맥락에서는 이런 식으로 보이고, 다른 맥락에서는 저런 식으로 보인다. 우리가 우리의 망막에 떨어지는 빛을 세상에 대한 일관된 그림과 통합시키기 때문이다.

언어학에서 사용하는 기술적 용어를 사용하면 언어는 ‘명시성’이 낮은 경향이 있다. 의미하는 모든 것을 이야기하지는 않는다는 뜻이다. 우리는 대부분을 맥락에 맡긴다. 모든 것을 일일이 설명하려면 정말 긴 시간이 필요하기 때문이다.

하향식 지식은 우리의 도덕적 판단에도 영향을 미친다. 예를 들어 대부분의 사람들은 살인이 나쁜 행동이라고 생각한다. 하지만 많은 사람들이 전쟁, 자기 방어, 복수는 예외로 둔다. 내가 당신에게 A가 B를 죽였다고만 말한다면 당신은 그게 잘못된 일이라고 생각할 것이다. 하지만 A가 영화 속에서 B를 죽였고 B가 먼저 A의 가족을 죽였다는 것을 안다면 당신은 A가 B에게 복수의 칼을 겨눌 때 환호할 것이다. 말하자면 ‘도둑질은 나쁘다. 하지만 로빈 후드는 멋지다.’

우리가 상황을 어떻게 이해하는가는 상향식 데이터(살인 혹은 절도 사건이 벌어졌다)만의 문제가 아니다. 언제나 상향식 데이터와 더욱 추상적이고 고차원적인 원칙이 혼합되어야 한다. 상향식 정보와 하향식 정보, 이 둘을 통합하는 방법을 찾는 것이야말로 AI 개발에서 가장 시급한 문제이지만 동시에 자주 도외시되는 문제다.

상식과 딥 언더스탠딩으로 가는 길
상식을 ‘코딩’하는 일의 어려움

사람들은 AI의 시초부터 상식의 문제에 대해 염려해왔다. ‘인공지능(artificial intelligence)’이라는 말을 만든 존 매카시는 1959년 처음으로 이 문제에 대한 주의를 촉구하기 시작했다. 하지만 진전은 눈에 띄게 적었다. 클래식 AI도 딥러닝도 큰 진보를 이루지 못했다. 추상적 지식(‘사람들은 자신이 잃어버린 물건을 되찾기를 바란다’)을 통합시킬 직접적인 방법이 없는 딥러닝은 대개 그 문제를 외면했다. 클래식 AI는 여러 가지 접근법을 밀고 나가며 노력을 해봤지만 어떤 것도 특별히 성공적이진 못했다.

상식을 명확하고 애매하지 않게 나타내는 방식

진전을 이루기 위해서는 우선 두 가지가 필요하다. 범용지능이 가져야만 하는 종류의 지식에 대한 목록이 있어야 하고, 이 지식이 기계 안에서 완전한 방식으로 명료하고 분명하게 표현될 방법에 대한 이해가 있어야 한다.

수천 개의 지식에서 관계를 찾아내는 법

지식을 코딩하는(기계에서 상식을 표현하는) 적절한 방법을 정했다고 해도 우리는 또 다른 문제를 만나게 된다. 개념과 사실을 수집하는 기존의 방법들, 이를테면 수작업 코딩, 웹 마이닝, 크라우드소싱 등이 직면하고 있는 문제 중 하나를 살펴보자. 우리가 정말로 원하는 바는 기계가 세상에 대한 일관성 있는 이해력을 가지는 것이지만 실상 기계는 ‘개미핥기는 개미를 먹는다’에서 ‘치클론 B에는 독성이 있다’에 이르는 잡다한 사실 더미가 되는 경우가 많다는 데 있다.

우리는 AI 시스템이 모든 관련 사실을 개별적으로 배우기를 원하지 않는다. 이것 역시 해결해야 할 문제의 일부다. 대신 우리는 시스템이 그런 사실들이 어떻게 연결되어 있는지 이해하기를 원한다. 우리가 원하는 것은 시스템이 단순히 작가는 책을 쓰고, 화가는 그림을 그리고, 작곡가는 음악을 작곡한다고 아는 것이 아니다. 우리는 시스템이 이런 특정한 사실을 ‘개인은 작품을 창조한다’와 같은 더 일반적인 관계의 한 예로 보고 그런 관찰을 더 큰 체제에 통합하여 ‘창작자는 대개 작품을 팔 때까지 그것을 소유하며 한 개인이 만든 작품들은 스타일이 비슷한 경우가 많다’는 등의 사실을 이해하길 바란다.

시간, 공간 그리고 인과성

추상적인 시간에 대한 이해

첫 번째인 시간에서부터 시작해보자. 성경 구절을 인용하면, 모든 사건에는 시간이 있고 시간에 따른 사건들 사이의 연관성을 이해하지 못하면 거의 모든 것의 의미가 통하지 않게 된다. 로봇 집사가 와인을 한 잔 따라야 한다고 해보자. 로봇은 와인을 따르기 전에 코르크 마개를 제거해야 하고 반대로 해서는 안 된다는 것을 알아야만 한다. 구조 로봇은 여러 가지 다른 상황 중에 어떤 것이 가장 급박한지에 대한 이해와 시간을 기반으로 우선순위를 정해야 한다. 불은 단 몇 초 만에 크게 번질 수 있는 반면, 나무에 갇힌 고양이를 구조하는 일은 한 시간 정도가 걸려도 괜찮다.

고정되지 않은 공간에 대한 이해

기계는 사람과 물건의 형상과 그들이 있는 공간을 이해하는 방법도 알아야 한다. 시간이 흐르면서 기본적 체계들은 널리 알려졌다. 하지만 아직 포착되지 못한 많은 기본 원칙들이 있다. 다행히도 유클리드의 공간은 익히 알려져 있고 우리는 온갖 종류의 기하학적 계산 방법을 알고 있다. 현대의 컴퓨터그래픽 전문가들은 기하학을 이용해서 복잡한 방 안에서 빛의 패턴이 물체에 어떻게 떨어지는지 계산한다. 그 결과물은 대단히 현실적이어서 영화 제작자들은 실제 세계에서 결코 일어날 리 없는 사건의 이미지를 설득력 있게 만들어내는 데 이런 기법을 일상적으로 사용한다.

변화와 인과성에 대한 이해

넓게 해석하면 인과성은 시간의 흐름에 따라 세상이 변화하는 방법에 관한 모든 종류의 지식을 포함한다(여기서 인과성이라는 용어는 좁은 의미와 넓은 의미 모두에서 생각해봐야 한다. 좁은 의미에서의 인과성은 ‘스위치를 누르면 전기가 들어온다’처럼 ‘A가 B를 야기한다’는 형태의 ‘관계’를 나타내는 데 사용된다. 하지만 ‘닫힌 용기 안의 어떤 물체는 나올 수 없다’는 넓은 의미에서 인과성을 나타낸다고 볼 수 있다. 하지만 좁은 의미에서는 인과성이 성립하지 않는다. 하나의 사건이 다른 사건을 야기한다는 의미에는 맞지 않기 때문이다. 그러나 궁극의 범용지능이라면 넓은 의미와 좁은 의미 모두에서 이러한 인과성에 대처할 수 있어야 한다). 여기에서 지식은 뉴턴의 중력 법칙이나 다윈의 진화론 같이 대단히 일반적인 것부터 대단히 구체적인 것(TV 리모컨의 전원 버튼을 누르면 TV를 켜고 끌 수 있다. 미국 시민은 그해의 소득을 다음 해 4월 15일까지 신고하지 않으면 벌금을 물 수 있다)까지 다양하다. 그리고 변화는 물리적인 대상, 사람의 마음, 사회적 조직, 시간에 따라 달라지는 거의 모든 것을 아우른다.