마스터 알고리즘

   
페드로 도밍고스(역:강형진)
ǻ
비즈니스북스
   
22000
2016�� 07��



■ 책 소개
데이터 과학 분야의 최고 영예인 SIGKDD 혁신상을 2년 연속 수상한 머신러닝 분야 전문가 페드로 도밍고스가 쓴 책. 이 책은 인공지능과 머신러닝의 탄생부터 어떻게 기계들이 스스로 학습할 수 있게 되었는지를 밝히고 나아가 이 기술이 우리의 미래를 얼마나 경이롭게 바꿔놓을지 생생하게 보여준다.

 

저자는 머신러닝과 인공지능 그리고 철학계의 오랜 과제였던 ‘어떻게 논리와 확률을 통합할 것인가’에 관한 문제를 풀어낸 선구적 과학자로 뛰어난 명성을 지니고 있다. 120개가 넘는 세계 유수의 대학과 연구소, 컨퍼런스에 초대될 만큼 30년간의 그의 연구는 창조성과 기술적 깊이 면에서 인정받고 있는데 그것은 이 책에서도 빛을 발한다. 특히 과학과 기술, 사업, 정치, 전쟁 등 세상을 격변시킬 기술로 주목받는 머신러닝에 대해 그는 수학, 컴퓨터공학, 신경과학, 비즈니스 등을 아우르며 독자들이 쉽게 이해할 수 있도록 상세히 전달하고 있다.

 

그는 여기에서 한 발 더 나아간다. 그는 단순히 머신러닝이 무엇인지 그 정체를 밝히는 데에 그치지 않고 인류를 다음 단계의 진화로 이끌어낼 만큼 파급력 있는 ‘새로운 머신러닝’의 탄생을 제시한다. 스팸메일의 분류, 아마존과 넷플릭스의 추천 콘텐츠, 투표자와 고객의 성향 분석 등 이미 사용되고 있는 다양한 머신러닝 기술에는 사실 그 쓰임과 분야에 따라 각기 다른 알고리즘이 사용되고 있다. 같은 추천시스템을 구축했지만 아마존과 넷플릭스의 머신러닝 알고리즘이 다른 것처럼 말이다.

 

이에 반해 도밍고스는 모든 분야와 지식을 아우르는, 범용적으로 사용할 수 있는 단 하나의 ‘마스터 알고리즘’을 만들어낼 수 있다는 대담한 주장을 한다. 그리고 마침내 ‘마스터 알고리즘’이 탄생되었을 때 ‘데이터’에서 세상의 모든 지식을 이끌어내는 유례없는 과학적 진보가 일어날 것이라 예견한다. 이렇듯 도밍고스는 ‘마스터 알고리즘’을 탄생시키는 과정에 독자들을 초대함으로써 새로운 머신러닝의 세계로 안내한다. 

 

■ 저자 페드로 도밍고스
시애틀 워싱턴대학의 컴퓨터과학 및 공학 교수. 리스본의 IST(Instituto Superior Tecnico)대학에서 전기공학 및 컴퓨터과학 학사와 석사 학위를, 캘리포니아대학 어바인캠퍼스(UC Irvine)에서 정보 및 컴퓨터과학 박사 학위를 취득했다. 머신러닝 분야의 선구적인 전문가로 데이터과학 분야의 최고 영예인 SIGKDD 혁신상을 2년 연속 수상하며 세계적인 주목을 받았다. 이후에도 풀브라이트 펠로우십, 슬론 펠로우십, 미국국립과학재단의 CAREER상, IBM 교수상(Faculty Award)을 받으며 명성을 쌓아왔다.

 

그의 주요 연구 분야는 머신러닝과 데이터 마이닝으로 컴퓨터가 인간의 도움을 더 적게 받으면서 더 많이 일하고, 경험을 통해 배우면서 새로운 지식을 발견하는 것을 목표로 한다. 그는 새로운 방향을 제시하는 창조성과 기술적 깊이 면에서 그 탁월함을 인정받고 있는데, 특히 머신러닝과 인공지능 그리고 철학의 오랜 과제였던 ‘어떻게 논리와 확률(Logic&Probability)을 통합할 것인가’에 관한 문제를 풀어낸 것으로 잘 알려져 있다. 이 연구는 과학전문지 『뉴 사이언티스트』에 커버스토리로 소개되기도 했다. 지금까지 120개가 넘는 전 세계 대학, 연구실, 컨퍼런스에 연사로 초청되었으며 그의 머신러닝 강좌는 워싱턴대학 내 최고의 수업으로 선정되고 있다. 2001년 설립된 국제머신러닝협회의 공동 창립자이자 인공지능발전협회의 특별회원인 그는 현재 워싱턴대학 외에도 스탠퍼드대학, 매사추세츠공과대학, 카네기멜론대학의 교환교수로 활동 중이다.

 

■ 역자 강형진
서울시립대학교 전자공학과에서 학사, 석사 학위를 취득했다. LG전자에서 근무한 19년 동안 통신 장비와 휴대 전화를 개발하고 미국 주재원 생활을 경험했다. 번역가를 양성하는 글밥 아카데미에서 출판번역 과정을 수료 후, 현재 바른번역에서 정보통신과 과학기술 분야의 책을 중심으로 번역 활동을 하고 있다. 

 

■ 차례
들어가는 말

 

제1장 머신러닝의 혁명이 시작됐다
머신러닝은 무엇인가 | 최고의 기업들이 머신러닝을 채택하는 이유 | 머신러닝이 과학을 혁신한다 | 국가의 운명을 바꾼다 | 지상 전쟁에 한 명, 가상 전쟁에 두 명 | 우리는 어디로 향하는가

 

제2장 마스터 알고리즘은 어떻게 탄생하는가
신경과학에서 | 진화론에서 | 물리학에서 | 통계학에서 | 컴퓨터 과학에서 | 머신러닝 vs 지식공학 | 머신러닝 vs 인지 과학 | 머신러닝 vs 머신러닝 실행자 | 마스터 알고리즘은 당신에게 무엇을 주는가 | 또 다른 만물 이론이 될 것인가 | 본선에 진출하지 못하는 후보들 | 머신러닝의 다섯 종족

 

제3장 흄이 제기한 귀납의 문제 _기호주의자의 머신러닝
데이트를 할 수 있을까, 없을까 | ‘세상에 공짜는 없다’라는 정리 | 지식 펌프에 마중물 붓기 | 세상을 다스리는 법 | 무지와 환상 사이 | 당신이 믿을 만한 정확도 | 귀납법은 연역법의 역이다 | 암 치료법 학습하기 | 스무고개 놀이 | 기호주의자의 믿음

 

제4장 우리 두뇌는 어떻게 학습하는가 _연결주의자의 머신러닝
퍼셉트론의 성장과 쇠퇴 | 물리학자가 유리로 두뇌를 만들다 | 세상에서 가장 중요한 곡선 | 초공간에서 등산하기 | 퍼셉트론의 복수 | 세포의 완전한 모형 | 두뇌 속으로 더 깊이 들어가기

 

제5장 진화, 자연의 학습 알고리즘 _진화주의자의 머신러닝
다윈의 알고리즘 | 탐험과 개발 사이의 딜레마 | 최적 프로그램의 생존 | 성의 임무는 무엇인가 | 자연에서 ‘학습’을 배우는 두 종족 | 가장 빨리 학습하는 자가 승리한다

 

제6장 베이즈 사제의 성당에서 _베이즈주의자의 머신러닝
세상을 움직이는 정리 | 모든 모형은 틀리지만 그중에는 유용한 모형도 있다 | 예브게니 오네긴에서 시리까지 | 모든 것은 연결되어 있다, 직접 연결되지는 않지만 | 추론 문제 | 베이즈 방식 학습하기 | 마르코프가 증거를 평가한다 | 논리와 확률이라는 불행한 짝

 

제7장 당신을 닮은 것이 당신이다 _유추주의자의 머신러닝
할 수 있으면 비슷한 점을 찾아봐 | 차원의 저주 | 평면 위의 뱀들 | 사다리 오르기 | 기호주의 vs 유추주의

 

제8장 선생님 없이 배우기
같은 종류끼리 모으기 | 데이터의 모양 발견하기 | 보상과 처벌 그리고 강화 학습 | 자꾸 연습하면 아주 잘하게 된다 | 연관 짓기 배우기

 

제9장 마스터 알고리즘을 위한 마지막 퍼즐 조각
여러 가지 학습 알고리즘을 어떻게 통합할 것인가 | 궁극의 학습 알고리즘 | 마르코프 논리 네트워크 | 흄에서 가사 로봇까지 | 지구 규모의 머신러닝 | 의사가 지금 당신을 진찰할 것이다

 

제10장 이것이 머신러닝이 펼치는 세상이다
섹스, 거짓말 그리고 머신러닝 | 디지털 거울 | 디지털 모형들의 사교 생활 | 공유할 것인가 공유하지 않을 것인가, 그리고 어디에서 어떻게? | 신경망이 내 일자리를 빼앗는다 | 전쟁터에서 인간이 싸우지 않는다 | 구글+마스터 알고리즘=스카이넷? | 진화, 두 번째 막이 시작됐다

 

맺는말
감사의 말
감수의 글
더 읽을거리
찾아보기




마스터 알고리즘


머신러닝의 혁명이 시작됐다

최고의 기업들이 머신러닝을 채택하는 이유

왜 구글이 야후보다 훨씬 더 가치 있는가? 둘 다 웹사이트에서 광고를 보여 주고 돈을 벌며 사람들이 최고로 많이 들르는 웹사이트다. 두 회사 모두 광고를 팔 때 경매를 사용하고 사용자가 광고를 얼마나 클릭할지 예상하려고 머신러닝을 사용한다(광고를 볼 확률이 높을수록 광고의 값어치가 높다).


하지만 구글의 머신러닝 알고리즘이 야후보다 훨씬 낫다. 물론 두 회사의 시가 총액 차이를 설명하는 요인이 이것만은 아니지만 상당히 중요한 부분이다. 실제로 일어나지 않는 예상 클릭 수는 광고주에게는 낭비된 비용이고 해당 웹사이트에는 매출액 감소다. 구글의 연 매출액이 500억 달러임을 감안할 때 예상 클릭 수가 1퍼센트 향상하면 매년 5억 달러가 더 들어올 수 있다. 구글이 머신러닝을 좋아하는 것도, 야후나 다른 회사들이 구글을 따라잡기 위해 노력하는 것도 당연하다.


웹사이트 광고는 훨씬 더 큰 현상을 설명하기 위한 한 사례일 뿐이다. 어느 시장이든 생산자와 소비자는 거래를 성사하기 전에 연결되어야 한다. 인터넷 이전 시대에 이 연결을 막는 장애물은 물리적 요인이었다. 책을 사려면 책방에 들러야만 하고 책방에는 책을 전시할 공간이 한정되어 있었다. 하지만 당신이 전자책 단말기로 아무 때나 어떤 책이라도 내려 받는 요즘, 문제는 넘쳐나는 책 중에서 어떤 책을 선택하는가이다.


수백만 권이 있는 서가를 어떻게 훑어보겠는가? 다른 정보 상품인 비디오와 음악, 뉴스, 트위터, 블로그, 평범한 옛 웹페이지에도 같은 상황이 적용된다. 원격 구매가 가능한 신발과 꽃, 각종 도구, 호텔, 개인 교습, 투자 등의 상품과 서비스에도 적용된다. 일자리나 데이트 상대를 구할 때도 적용된다. 어떻게 상대방을 찾을까? 이것이 정보 시대를 규정하는 문제이며, 머신러닝은 이 문제를 해결하는 데 크게 기여한다.


기업은 성장하면서 3단계를 거친다. 1단계는 모든 일을 손으로 하는 단계다. 소규모 자영 업체 주인은 손님을 직접 알고 손님에게 맞춰 상품을 주문하고 진열하고 추천한다. 이것도 좋기는 하지만 규모가 크지 않다. 가장 덜 행복한 2단계는 회사가 성장하여 컴퓨터 사용이 필요해진다. 프로그램 작성자와 상담가, 데이터베이스 관리자를 고용하고 자동화할 수 있는 모든 기능을 자동화하는 수백만 줄의 컴퓨터 프로그램을 작성한다. 이전보다 훨씬 더 많은 고객에게 서비스를 제공하지만 서비스 수준은 이전과 같지 않다. 고객을 위한 결정은 대략적인 인구통계학의 범주에 따라 행해지고, 컴퓨터 프로그램은 사람들의 무수한 다양성을 맞출 정도의 융통성에 턱없이 못 미친다.


규모가 계속 커져서 필요한 일을 다 해낼 만큼 프로그램 작성자와 상담가를 확보할 수 없는 시점에 이르면 회사는 어쩔 수 없이 머신러닝에 기댄다. 규모가 큰 아마존은 컴퓨터 프로그램에 모든 고객의 취향을 잘 정돈하여 입력할 수 없으며, 페이스북은 가입자에게 가장 적당한 최신 정보를 골라 줄 프로그램을 어떻게 작성해야 할지 모른다. 월마트는 수백만 종의 상품을 팔고 매일 수십억 건의 구매가 발생한다. 월마트의 프로그램 작성자가 가장 적당한 추천을 하는 프로그램을 작성하려고 해도 결코 끝내지 못할 것이다. 이런 회사에서는 머신러닝 알고리즘이 산더미같이 축적된 데이터를 처리하여 고객이 원하는 것을 예측한다.


머신러닝 알고리즘은 중개인이다. 정보 과다라는 장벽을 부수어 생산자와 고객을 찾고 연결해 준다. 머신러닝이 아주 똑똑하다면 당신은 세세한 부분까지 개별적인 보살핌을 받으며 광대한 선택안과 폭넓은 저가 가격대라는 두 세계를 제대로 이용할 수 있다. 머신러닝이 완벽하지 않고 최종 결정도 여전히 사람이 내리지만, 머신러닝은 사람이 다룰 수 있을 만큼 선택안을 현명하게 줄여 준다.


컴퓨터에서 인터넷으로 그리고 머신러닝으로 발전한 것은 피할 수 없는 과정이다. 컴퓨터로 인터넷이 가능했고 인터넷으로 데이터의 홍수와 무제한의 선택 문제가 생겼다. 머신러닝은 무제한의 선택 문제를 해결하고자 홍수 같은 데이터를 처리한다. 인터넷만으로는 모두에게 맞는 하나에서 무한대의 다품종 소량으로 수요를 바꾸지 못한다. 넷플릭스는 10만 종의 DVD를 보유하고 있을 텐데, 소비자가 원하는 것을 찾는 방법을 모른다면 그저 인기 높은 작품만 선택할 것이다. 다품종 소량 구매가 이루어지는 경우는 넷플릭스가 당신의 취향을 파악하고 그에 맞는 DVD를 추천하는 머신러닝 알고리즘을 채택할 때뿐이다.


일단 피할 수 없어서 머신러닝 알고리즘이 중개자가 되면 머신러닝에 힘이 집중된다. 구글의 알고리즘은 당신이 찾는 정보를 정하고, 아마존의 알고리즘은 당신이 사려는 상품 종류를 예측하고, Match.com사의 알고리즘은 데이트할 상대를 정한다. 머신러닝이 제공한 선택안 중에서 최종으로 무엇을 선택할지는 여전히 당신의 몫이지만 99.9퍼센트는 머신러닝이 골라 놓은 것이다. 한 기업의 성공과 실패는 머신러닝이 그 기업의 제품을 얼마나 좋아하는가에 달려 있고, 전체 경제의 성공, 즉 사람들이 가장 좋은 가격으로 가장 좋은 상품을 얻는 것은 머신러닝이 얼마나 훌륭한가에 달려 있다.


머신러닝이 한 회사의 상품을 확실히 좋아하도록 할 수 있는 최선의 방법은 회사가 직접 머신러닝을 수행하는 것이다. 최선의 알고리즘과 최대의 데이터를 보유한 기업이 승리한다. 이로써 새로운 종류의 순환 고리가 생긴다. 가장 많은 고객을 보유한 회사가 가장 많은 데이터를 수집하고 가장 좋은 모형을 학습하고 가장 많은 신규 고객을 얻으며, 이러한 선순환이 계속 이어지는 것이다(경쟁사로서는 악순환이다). 구글에서 빙으로 옮기는 것은 윈도우에서 맥으로 옮기는 것보다 쉽겠지만 실제로 사람들이 옮기지 않는 까닭은 분명하다.


빙의 기술이 구글과 똑같이 훌륭하다 하더라도 먼저 서비스를 시작하고 시장점유율이 높은 구글이 사람들이 원하는 것을 빙보다 잘 알기 때문이다. 이미 10년 넘게 학습을 해온 기존의 검색 엔진에 도전하여 새롭게 인터넷 검색 시장에 들어와 축적된 데이터 없이 시작하려는 도전자는 가엾을 뿐이다.


시간이 어느 정도 지나면 데이터가 더 많이 쌓인다 하더라도 그저 데이터가 중복될 뿐이라고 생각할 수 있지만, 그런 포화 지점은 아직 어느 곳에서도 발견되지 않았다. 긴 추천 목록은 계속되고 있다. 아마존이나 넷플릭스에서 제공하는 추천 사항을 보면 여전히 조잡한 부분이 많고 구글의 검색 결과도 여전히 개선할 사항이 많다는 것을 분명히 알 수 있다.


상품의 모든 특징과 웹페이지의 구석구석은 머신러닝을 사용하여 개선될 가능성이 있다. 웹페이지의 구석구석은 머신러닝을 사용하여 개선될 가능성이 있다. 웹페이지 맨 아래 링크의 색깔로 빨간색이 좋을까 파란색이 좋을까? 두 가지 모두 시험하여 어떤 것이 더 많은 클릭을 얻는지 확인하면 알겠지만, 더욱 좋은 방법은 머신러닝을 꾸준히 실행하여 웹사이트의 모든 면을 계속 조정하는 것이다.


선택안과 데이터가 많다면 어느 시장에서도 이와 같이 역동적인 일이 일어난다. 경쟁이 생기고 가장 빨리 배우는 알고리즘이 승리한다. 머신러닝은 단순히 고객을 더 잘 이해하는 데서 끝나지 않는다. 기업이 데이터를 확보하면 머신러닝을 회사 운영의 모든 면에 적용할 수 있으며, 데이터는 요즘 컴퓨터와 통신 기기, 가격이 점점 더 싸지고 더 널리 퍼지는 센서에서 쏟아져 들어오고 있다.


데이터는 새로운 석유다라는 말은 인기 있는 후렴구이고 석유처럼 데이터도 정제하는 일이 큰 사업이다. 어느 회사와 비교해도 손색없을 만큼 훌륭하게 사업을 해 나가는 IBM은 분석 기법을 도입하는 성장 전략을 수립한다. 여러 사업 분야에서 데이터를 전략 자산으로 여겨 다음과 같이 묻는다. 경쟁사는 없고 우리만 보유한 데이터는 무엇인가? 이것을 어떻게 이용할 것인가? 우리는 없지만 경쟁사가 보유한 데이터는 무엇인가?


데이터베이스가 없는 은행이 데이터베이스를 갖춘 은행과 경쟁할 수 없는 것과 똑같이 머신러닝이 없는 회사는 머신러닝을 사용하는 회사를 따라잡을 수 없다. 머신러닝이 없는 회사의 전문가가 고객의 취향을 예측하는 천 가지 규칙을 작성하는 동안 다른 회사의 머신러닝은 개별 고객의 취향을 모두 나타내는 수십억 개의 규칙을 학습한다. 죽창과 기관총의대결인 셈이다. 머신러닝은 멋진 기술이다. 하지만 멋진 신기술이어서 채택하는 것이 아니라 채택하지 않으면 기업이 생존할 수 없기 때문에 채택하는 것이다.



우리 두뇌는 어떻게 학습하는가 _연결주의자의 머신러닝

퍼셉트론의 복수

역전파는 샌디에이고 캘리포니아대학의 심리학자인 데이비드 럼멜하트가 제프 힌튼과 로널드 윌리엄스의 도움을 받아 1986년에 발명했다. 그들은 다른 것들과 함께 역전파가 배타적 논리합도 배울 수 있다는 것을 보여 주어 연결주의자들이 민스키와 패퍼트를 조롱할 수 있게 했다.


나이키의 예를 상기해 보자. 젊은 남자와 중년 여성이 가장 유력한 나이키 신발 구매자다. 우리는 이런 상황을 신경세포 세 개로 나타낸다. 신경세포 하나는 젊은 남자를 볼 때 발화하고 다른 하나는 중년 여성을 보면 발화하고 세 번째 신경세포는 둘 중 하나만 발화하면 발화한다. 그리고 역전파로 적절한 가중치로 얻을 수 있으며, 이로써 나이키를 구매할 가능성을 포착하는 장치를 만드는 데 성공한다.


초기에 역전파의 능력을 설명할 때 테리 세이노브스키와 찰스 로젠버그는 다층 퍼셉트론이 낭독을 하도록 훈련했다. 그들의 넷토크는 글을 훑어보고 문맥에 따라 올바른 음소를 선택하고 이를 음성합성기로 보낸다. 지식공학 시스템은 할 수 없었지만 넷토크는 새로운 단어들에 대해 일반화를 정확히 적용할 뿐만 아니라 사람같이 말하는 법을 배웠다. 세이노브스키는 연구 모임에서 넷토크의 발전 과정을 들려주는 카세트테이프를 틀어 청중을 사로잡았다. 넷토크는 처음에는 재잘거리는 소리였다가 차츰 의미가 통하기 시작하더니 나중에는 가끔 오류를 범하기는 하지만 부드럽게 말한다.


신경망의 첫 번째 성공은 주식 시장을 예측하는 일이었다. 신경망은 방해되는 부분이 많이 섞여 있는 데이터에서 작은 비선형 특성들을 감지할 수 있기 때문에 선형 모형보다 더 좋은 성능을 보였으며 금융계에서 유행했다. 전형적인 투자 기금은 많은 주식 종목에 대해 개별적으로 신경망을 학습시켜 가장 유망한 주식 종목을 고르게 하고 인간 분석가가 그들 중에서 어느 종목에 투자할지를 정하게 한다. 하지만 일부 투자 기금은 모든 과정을 머신러닝에 맡겨 주식 종목을 사고 팔게 한다. 이런 기금이 정확히 얼마나 성과를 냈는지는 철저하게 비밀로 유지되지만, 헤지펀드가 머신러닝 전문가들을 계속 놀라운 속도로 휩쓸어가는 건 우연이 아닐 것이다.


비선형 모형은 주식 시장 너머 멀리 떨어진 영역에서도 중요하다. 모든 분야의 과학자들은 그들이 할 수 있는 것이 선형 회귀이기 때문에 이를 사용하지만 그들이 연구하는 현상은 비선형인 경우가 더 많고 다층퍼셉트론이 이런 현상들을 모형화할 수 있다. 선형 모델은 상태 전이를 다루지 못한다. 신경망은 스펀지가 물을 빨아들이듯이 상태 전이를 빨아들인다.



마스터 알고리즘을 위한 마지막 퍼즐 조각

의사가 지금 당신을 진찰할 것이다

암 치료 프로그램은 암의 유전체 정보를 받아들여 암 세포를 처치할 약의 정보를 내놓는다. 이제 우리는 그런 프로그램(암 박멸 알고리즘이라 부르자)이 어떤 모습일지 그려 볼 수 있다. 겉으로는 간단해 보이지만 암 박멸 알고리즘은 지금까지 나온 프로그램 중 매우 크고 복잡한 프로그램이다. 사실 엄청나게 크고 복잡하여 머신러닝의 도움이 있어야만 만들 수 있을 정도다.


이 프로그램은 살아 있는 세포가 어떻게 작동하는지에 대한 상세한 모형과 인체 각 부분의 세포에 대한 하위 모형 그리고 그것들이 어떻게 상호작용하는지에 대한 모형을 기반으로 만든다. MLN이나 MLN과 비슷한 형식의 이런 모형은 분자생물학의 지식과 DNA 염기서열 분석기로 얻은 방대한 데이터와 다른 많은 출처에서 나온 정보를 결합한다. 지식의 일부는 사람이 직접 입력하나 대다수는 생물의학 문헌에서 자동으로 추출된 것이다. 모형은 계속 진화하며 새로운 실험 결과와 데이터 출처, 환자 이력을 추가한다. 궁극적으로 모형은 인간의 모든 세포에서 일어나는 대사 경로와 조절 원리, 화학 반응, 즉 인간 분자 생물학의 총체를 알게 될 것이다.


머신러닝 혼자서 우리에게 암 박멸 알고리즘을 만들어 주지는 않을 거라는 점에 주목하자. 우리가 분자생물학의 방대한 데이터베이스를 준비하고 그 지식을 마스터 알고리즘에 연이어 입력하면 살아 있는 세포에 대한 완벽한 모형을 짠 하고 만들어 낼 것 같지 않다. 암 박멸 알고리즘은 전 세계 수십만 명의 생물학자와 종양학자, 데이터과학자가 협력하여 연구하고, 또 여러 번 반복해야 나오는 최종 결과일 것이다. 가장 중요한 점은 암 박멸 알고리즘이 의사와 병원의 도움을 받아 수백만 암환자의 데이터를 모으는 것이다. 그러한 데이터가 없으면 암을 치료할 수 없고 데이터가 있으면 치료할 수 있다.


계속 데이터베이스를 키우는 일에 기여하는 것은 단지 암환자의 이득만이 아니라 암 환자의 윤리적 이모도 될 것이다. 암 박멸 알고리즘의 세계에서 비연속적으로 실시하는 임상 시험은 과거의 이야기다. 암 박멸 알고리즘이 제시하는 새로운 치료법은 계속 나오며, 치료법이 효과를 발휘하면 더 많은 환자에게 시험한다. 성공 사례와 실패 사례 모두 암 박멸 알고리즘의 학습을 위한 귀중한 데이터가 되며 개선의 선순환을 일으킨다.


한쪽만 보면 머신러닝은 데이터 수집과 인간의 기여 부분에 가려 암 박멸 연구 과제의 작은 부분에 불과해 보이기도 한다. 하지만 다른 쪽에서 보면 머신러닝은 전체 사업의 핵심이다. 머신러닝이 없으면 암에 대한 생물학 지식은 수천의 데이터베이스와 수백만 과학 저술, 작은 부분만 아는 의사들에게 흩어지고 우리에게는 암에 대한 파편화된 생물학 지식만 있을 것이다. 이런 지식을 일관성 있게 하나로 모으는 것은 아무리 똑똑하더라도 사람이 혼자서 할 수 있는 일이 아니다. 오직 머신러닝만 할 수 있다.


모든 암이 서로 다르기 때문에 공통의 유형을 찾으려면 머신러닝이 필요하다. 조직 하나만 해도 수십억 가지 정보를 내놓기 때문에 새로운 환자에게 개별적으로 무엇을 해야 하는지 파악하려면 머신러닝이 필요하다. 궁극적으로 암 박멸 알고리즘을 만들려는 노력은 이미 진행 중이다. 시스템생물학이라는 새로운 분야의 연구원들은 개별 유전자나 단백질의 신진대사를 뛰어넘어 전체 신진대사망의 모형을 세운다. 스탠퍼드대학의 한 연구 조직은 전체 세포의 모형을 만들었다. 유전학 및 보건을 위한 국제 연합은 대규모 분석을 목표로 연구원과 종양학자의 데이터 공유를 촉진한다.


파운데이션 메디슨은 환자의 암 세포에서 변이를 정확히 찾아내어 가장 적절한 약을 제안한다. 10년 전에는 암을 치료할 수 있을지, 어떻게 치료할지 분명하지 않았다. 이제는 암 치료에 도달하는 길을 볼 수 있다. 먼 길이지만 우리는 마침내 발견했다.



이것이 머신러닝이 펼치는 세상이다

신경망이 내 일자리를 빼앗는다

당신의 일은 두뇌를 얼마나 사용하는가? 더 많이 사용할수록 당신의 일자리는 더 안전하다. 인공 지능 초창기에는 사무 일이 두뇌를 더 많이 필요로 하기 때문에 컴퓨터가 사무직 종사자보다 육체 노동자를 더 먼저 교체할 거라고 생각했다.


하지만 실제로 나타난 결과는 달랐다. 로봇이 자동차를 조립하지만 로봇이 건설 노동자를 대체하지 못한다. 반면 머신러닝 알고리즘이 신용분석가, 직거래업자와 교체되었다. 머신러닝에게는 신용 관련 신청서를 평가하는 일이 발을 헛딛지 않고 건설 현장을 돌아다니는 것보다 쉬웠다. 공통된 내용을 뽑자면, 좁은 범위로 정의된 업무는 데이터에서 학습하기가 쉽지만 여러 분야의 기술과 지식이 필요한 업무는 학습하기 쉽지 않다는 것이다.


당신의 두뇌는 시간과 운동을 처리하는 데 전념한다. 이것은 걸어 다니는 일이 보이는 것보다 훨씬 더 복잡하다는 신호다. 우리는 걷는 일을 당연하다고 여기는데, 진화에 의해 완벽할 정도로 연마되어서 무의식적으로 걷기 때문이다. 내러티브 사이언스사에는 야구 경기를 매우 훌륭하게 정리하는 인공 지능 시스템이 있다. 하지만 소설을 쓰지 못한다. 조지 윌한테는 죄송하지만 인생에는 야구 경기보다 훨씬 더 많은 것이 있기 때문이다.


음성 인식은 컴퓨터에게 어려운 일이다. 어떤 사람이 무엇에 관하여 말하는지 듣는 사람이 모를 때는 빈칸을 채워 넣기가 어렵기 때문이다. 알고리즘은 주식 시세 변동을 예측할 수 있지만 그것이 정치와 어떻게 연결되는지는 아무런 단서도 잡지 못한다. 더 많은 전후 사정을 알아야 하는 업무일수록 컴퓨터가 이른 시일 내에 해낼 가능성이 적다. 상식은 당신의 어머니가 가르쳤기 때문만이 아니라 컴퓨터에는 없기 때문에도 중요하다.


일자리를 잃지 않는 최선의 길은 당신의 업무를 당신 자신이 자동화하는 것이다. 전에는 당신이 하지 않았고 앞으로 빠른 시간 안에 컴퓨터가 하지 못하는 당신 업무를 할 수 있는 시간을 얻을 것이다. 컴퓨터가 당신의 일을 하는 법을 학습했다면 컴퓨터와 경쟁하려고 하지 마라. 컴퓨터를 활용하라. H&R블럭은 여전히 사업을 하고 있으나 세무 대리인의 일은 이전보다 훨씬 덜 지겨워졌다. 요즘은 컴퓨터가 성가신 일을 처리하기 때문이다.


빅 데이터는 감각 기관의 확장이고 머신러닝 알고리즘은 두뇌의 확장이라고 생각하라. 요즘 최고의 체스선수는 절반은 사람이고 절반은 프로그램인 켄타우로스다. 이 같은 일이 주식분석가에서 야구 스카우터까지 많은 직업에서 똑같이 일어난다. 대결 상황은 사람 대 기계가 아니다. 기계를 이용하는 사람 대 기계를 이용하지 않는 사람의 대결이다. 데이터와 통찰력은 말과 기수이고 당신은 말을 앞질러 가는 대신 말을 타고 달린다.


기술이 발전하면서 사람과 기계의 조합이 구체적으로 나타난다. 당신은 배가 고프다. 옐프가 좋은 식당을 추천해 주고 당신은 그중에서 한 곳을 고른다. GPS가 당신에게 가는 길을 안내한다. 당신이 운전할 때 전차 장치가 자동차의 기초 제어를 담당한다. 우리는 이미 사이보그, 즉 인조인간이다. 자동화의 실상은 무엇을 대체하느냐가 아니라 무엇을 가능하게 하느냐에서 나타난다.


사라지는 직업도 있지만 더 많은 직업이 생긴다. 무엇보다 자동화는 사람이 하면 비용이 매우 많이 드는 일을 가능하게 한다. 현금인출기는 은행 창구 직원을 대체했지만 우리가 언제 어디서나 현금을 인출하게 해 준다. 그림 화소를 인간 만화영화 제작자가 한 번에 하나씩 색칠해야 했다면 『토이 스토리』 같은 만화영화나 비디오 게임은 나오지 못했을 것이다.


여전히 우리는 결국 인간을 위한 직업은 없어질 것 아니냐고 의문을 제기할 수 있다. 내 생각은 아니다. 컴퓨터와 로봇이 모든 일을 인간보다 잘하는 날이 온다 하더라도(가까운 장래는 아니다) 적어도 우리 중 일부는 일자리를 보전할 것이다. 가벼운 대화까지 하며 완벽하게 인간을 흉내 내는 로봇 바텐더가 생길 테지만 고객들은 사람인 바텐더를 더 선호할 것이다.


내가 의미하는 것은 인간이 되는 경험을 하지 않고서는 이해할 수 없는 모든 것에 해당되는 인간성이다. 우리는 인간성이 점차 사라진다고 걱정하지만 다른 직업들이 자동화되면 잿더미에서 다시 일어날 것이다. 더 많은 일이 기계로 저렴하게 수행될수록 인간미 넘치는 사람이 기여하는 부분은 더 가치 있을 것이다.


반면 과학자의 장기 전망은 그리 밝지 않다. 미래에는 유일한 과학자가 과학을 연구하는 컴퓨터를 뜻하는 컴퓨터과학자일 것이다. 이전에 나처럼 과학자라고 공식적으로 알려진 사람들은 컴퓨터가 이룬 과학의 진보를 이해하며 인생을 바칠 것이다. 그렇다고 전보다 눈에 띄게 덜 행복하지는 않을 것이다. 과학은 좋아해서 하는 일이었으니까. 그리고 기술적인 적성이 있는 사람들에게 매우 중요한 일 하나가 남을 것이다. 컴퓨터가 하는 일을 계속 지켜보는 것이다. 사실 이러한 일은 기술자뿐 아니라 더 많은 사람을 요구할 것이다. 궁극적으로는 우리가 기계에서 원하는 것이 무엇이고, 그것을 얻었는지 확인하는 일은 모든 분야의 사람들이 상근으로 해야 하는 직업이 될 것이다.


한편 자동화가 가능한 직업과 가능하지 않은 직업 사이의 경계선이 경제 영역 전반에 걸쳐 확장되면서 실업률은 점차 높아지고, 점점 더 많은 직업에서 임금의 압력이 줄어들고, 아직 자동화되지 않은 더욱더 적어지는 분야의 몸값은 올라갈 것이다. 이러한 일은 이미 일어나고 있지만 앞으로 더 심화될 여지가 많다. 전환기에는 떠들썩하겠지만 다행히 민주주의 덕분에 행복한 결말이 될 것이다.


실업률이 50퍼센트를 넘어서거나 그 전이라도 재분배에 관한 태도는 급진적으로 바뀔 것이다. 이제 새롭게 다수가 된 실업자들은 평생에 걸친 관대한 실업급여와 이를 감당할 높은 세금 인상에 표를 줄 것이다. 실업자들이 은행을 부수고 쳐들어가지는 않을 것이다. 기계가 필요한 생산을 할 것이기 때문이다. 결국 우리는 실업률 대신 고용률을 이야기하기 시작하고 고용률의 감소를 발전의 지표로 여길 것이다.


실업급여는 모든 사람에게 주는 기초 수입으로 대체될 것이다. 이에 만족하지 않는 사람들은 얼마 남지 않은 인간이 일하는 직업에서 더 많이 그것도 굉장히 많이 벌 수 있을 것이다. 진보주의자와 보수주의자는 여전히 세율로 싸울 테지만 다투는 수치의 범위는 요즘 다투는 범위에서 영구히 옮겨질 것이다. 노동력의 전체 가치는 매우 줄어든 채 가장 부유한 나라는 인구에 대한 천연 자원의 비율이 가장 높은 나라가 될 것이다.


풍요로운 자연에 둘러싸인 열대 섬에 사는 인생이 의미 없다고 하지 않는 것처럼 일하지 않아도 인생의 의미가 없지는 않을 것이다. 선물 경제가 발전할 텐데, 공개 소프트웨어 운동은 선물 경제를 미리 보여 주는 사례다. 결국 사람들은 인간 관계와 자아 실현, 영성에서 의미를 찾을 것이다. 생계비를 버는 것은 아득한 추억이 되고 우리가 넘어선 인류의 또 다른 야만적 과거가 될 것이다.

* * *


본 도서 정보는 우수 도서 홍보를 위해 저작권자로부터 정식인가를 얻어 도서의 내용 일부를 발췌 요약한 것으로, 저작권법에 의하여 저작권자의 정식인가 없이 무단전재, 무단복제 및 전송을 할 수 없으며, 원본 도서의 모든 출판권과 전송권은 저작권자에게 있음을 알려드립니다.