도서요약

모두 거짓말을 한다: 저 자 : 세스 스티븐스 다비도위츠(역자:이영래); 출판사 : 더퀘스트; 출판일 : 2018년 06월

도서정보: ■ 책 소개

미국 대선과 브렉시트를 예견한 유일한 데이터,
구글 트렌드로 잡아낸 인간의 진짜 속마음!

사람들은 자주 거짓말을 한다. 의사, 친구, 연인, 설문조사원은 물론 자기 자신에게도 거짓말을 한다. 기업 엔지니어의 40퍼센트 이상이 자신의 실력이 상위 5퍼센트에 든다고 말하고, 대학교수의 90퍼센트 이상은 자신이 평균 이상의 성과를 내고 있다고 말한다. 고등학교 졸업생의 4분의 1은 자신의 사교성이 상위 1퍼센트에 든다고 생각한다. 이렇게 사람들의 보고가 부정확한데도 사회과학 연구의 많은 부분이 여기에 의존한다.

사회과학의 많은 질문은 연구하기가 까다롭다. 폭력적인 영화가 개봉하면 범죄가 늘어날까? 광고는 효과가 있을까? 언론은 진보나 보수 쪽으로 편향되어 있을까? 거의 모든 주제에 빅데이터를 모을 수 있게 된 지금은 데이터 과학을 조금만 첨가하면 그 해답을 찾을 수 있다.

이 책에 소개된 인간 본성은 아직 빙산의 일각의 작은 스크레치에 불과하다. 구글, 페이스북, 데이트 사이트, 포르노 사이트 등에 축적된 디지털 금광을 분석하면 사람들이 정말로 어떤 생각을 하는지, 정말로 원하는 것이 무엇인지, 정말로 무슨 일을 하고 있는지 알 수 있다. 혁명은 지금부터다!

■ 저자 세스 스티븐스 다비도위츠
전 세계가 주목하는 데이터 과학자이자 《뉴욕타임스》 칼럼니스트. 하버드대학교 경제학과 박사과정에 있으면서 특정 검색어의 추세를 보여주는 ‘구글 트렌드’를 연구해 ‘흑인 후보가 인종 때문에 손해 본 표는 얼마나 되는지’를 밝혀냈다. 실제로 버락 오바마는 노골적인 인종주의만으로 4퍼센트의 유권자를 잃었는데, 스스로 자신이 인종주의자라고 말하는 유권자는 거의 없었기에 여론조사 전문기관도 알지 못했던 사실이었다. 미국에 인종주의자가 이렇게나 많다는 사실은 받아들여지기 어려웠지만, 이 연구는 나중에 도널드 트럼프의 지지층이 누구인지 설명하는 자료가 되면서 더 큰 신뢰를 얻게 된다. 스티븐스 다비도위츠는 검색어를 통해 사람들의 숨은 생각을 읽어내면서 단숨에 학계의 슈퍼루키로 떠올랐다. 그는 구글에서 데이터 과학자로 일했고 와튼경영대학원에서 학생들을 가르쳤으며, 지금은 《뉴욕타임스》에 검색창 속에 담긴 사람들의 솔직한 욕망에 관해 칼럼을 쓴다.

■ 역자 이영래
이화여자대학교 법학과를 졸업하고 리츠칼튼 서울에서 리셉셔니스트로, 이수그룹 비서 팀에서 비서로 근무했다. 현재 번역에이전시 엔터스코리아에서 전문 번역가로 활동한다. 주요 역서로는 《세계미래보고서 2055》《4차 산업혁명과 투자의 미래》《히든 솔루션》 등이 있다.

■ 차례
서문 - 스티븐 핑커
서론: 빅데이터 혁명의 개요

1부 빅데이터와 스몰데이터
1. 직감은 불완전하다

2부 빅데이터의 힘
2. 프로이트가 옳았을까?

3. 데이터를 보는 새로운 눈
신체 데이터
단어 데이터
사진 데이터

4. 디지털 자백약
섹스에 관한 진실
증오와 편견에 관한 진실
인터넷에 관한 진실
아동학대와 낙태에 관한 진실
페이스북 친구에 관한 진실
고객에 관한 진실
진실을 어떻게 다뤄야 할 것인가?

5. 클로즈업
우리 지역, 시, 마을에서는 정말로 어떤 일이 벌어지고 있나?
우리는 시간을 어떻게 보내는가
도플갱어 찾기
데이터에는 이야기가 있다

6. 온 세상이 실험실
A/B 테스트의 기초
잔인하지만 큰 깨달음을 주는 자연 실험

3부 빅데이터: 취급 주의
7. 빅데이터로도 할 수 없는 일
차원의 저주
측정 가능한 것에 대한 지나친 집중

8. 빅데이터로 하지 말아야 할 것
권력화된 기업에서 생기는 위험
권한을 부여받은 정부에서 비롯하는 위험

결론: 얼마나 많은 사람이 책을 끝까지 읽을까?

도서요약: 모두 거짓말을 한다

빅데이터의 힘
데이터를 보는 새로운 눈
구글은 다른 기업들이 할 수 없는 방식으로 빅데이터를 활용해 자동적인 돈의 흐름을 구축한다. 구글은 이 책에서 중요한 역할을 한다. 구글 검색이 빅데이터의 지배적인 원천이기 때문이다. 20세기에 인터넷을 사용해본 독자라면 당시에 존재했던 다양한 검색엔진들, 메타크롤러, 라이코스, 알타비스타 등을 기억할 것이다. 그리고 이 검색엔진들이 그리 쓸 만하지 않았음을 기억할 것이다. 운이 좋아야 간신히 원하는 것을 찾을 수 있었고 대부분은 그렇지 못했다. 1990년대 후반에 인기 있었던 검색엔진에 ‘빌 클린턴’을 타이핑하면 ‘빌 클린턴은 재수가 없다’고 주장하는 사이트나 클린턴에 대한 더러운 농담이 담긴 사이트가 무작위로 등장했다. 당시 미국 대통령이었던 그 인물과 관련성 높은 정보를 찾기란 쉽지 않았다.

1998년에 구글이 등장했다. 구글의 검색 결과는 어떤 경쟁 엔진보다 우위에 있었다. 1998년 구글에 ‘빌 클린턴’을 검색하면 그의 웹사이트와 백악관 이메일 주소, 인터넷에 존재하는 그의 전기들을 볼 수 있었다. 구글은 마법 같았다.

구글 창립자, 세르게이 브린과 래리 페이지는 어떤 일을 했던 것일까? 다른 검색엔진은 사용자가 검색한 문구가 가장 많이 들어가는 웹사이트를 보여줬다. 빌 클린턴에 관한 정보를 찾으면 인터넷상에서 빌 클린턴을 가장 많이 언급한 웹사이트를 찾는 식이다. 이런 시스템에서는 ‘빌 클린턴 빌 클린턴 빌 클린턴 빌 클린턴 빌 클린턴’이라는 문장이 페이지 어딘가에 숨어 있는 농담 사이트가 백악관 공식 웹사이트보다 높은 점수를 받게 된다.

브린과 페이지는 단순히 단어 수를 세는 것보다 훨씬 더 가치가 큰 새로운 유형의 정보를 기록하는 방법을 찾았다. 웹사이트들은 어떤 주제에 관해 이야기하면서 종종 그 주제를 이해하는 데 도움이 된다고 생각하는 사이트들을 링크해놓는다. 예를 들어 빌 클린턴을 언급한 '뉴욕타임스' 기사에 백악관 공식 웹사이트 링크를 걸어놓는 식이다.

이렇게 링크된 모든 웹사이트는 빌 클린턴에 관한 훌륭한 정보를 준다. 브린과 페이지는 모든 주제에 관한 이 모든 정보들을 종합할 수 있었다. 그들은 '뉴욕타임스' 기사, 리스트서브(특정 그룹 전원에게 전자우편으로 메시지를 자동 전송하는 시스템-옮긴이) 수백만 개, 블로거 수백 명, 그리고 인터넷에 있는 모든 사람의 의견을 크라우드소싱(대중의 참여로 기업이 문제를 해결하는 방식-옮긴이)할 수 있었다. 대다수의 사람들이 빌 클린턴에 관한 가장 중요한 링크가 그의 공식 웹사이트라고 생각한다면, 대부분의 사람들이 빌 클린턴을 검색하면서 보고자 하는 웹사이트도 아마 그의 공식 웹사이트일 것이다.

이런 종류의 링크는 다른 검색엔진은 고려조차 해보지 않은 데이터였지만 해당 주제에 관한 가장 유용한 정보를 대단히 잘 예측할 수 있게 해줬다. 요점은 구글이 검색 분야에서 지배적인 위치에 오를 수 있었던 이유가 단순히 경쟁자들보다 많은 데이터를 수집했기 때문이 아니라는 점이다. 그들은 더 나은 유형의 데이터를 찾음으로써 검색 분야의 지배자가 됐다. 구글은 링크 분석 덕분에 론칭한 지 2년도 되지 않아 인터넷에서 가장 인기 있는 검색엔진으로 성장했다. 현재 브린과 페이지, 두 사람의 자산 가치는 6조 원이 넘는다.

세상을 이해하기 위해 데이터를 이용하려는 사람의 상황은 구글과 다르지 않다. 빅데이터 혁명은 점점 더 많은 데이터를 수집하는 것이 아니다. 적절한 데이터를 수집하는 것이다.

디지털 자백약
증오와 편견에 관한 진실
구글 검색 데이터를 이용해 연구하는 동안, 증오와 관련해 인터넷에서 내가 찾은 가장 확실한 사실은 ‘깜둥이’라는 단어가 참 인기가 높다는 것이다. ‘깜둥이’는 단수 또는 복수의 형태로 매년 미국에서 이뤄지는 검색 700만 건에 포함된다. ‘깜둥이 농담’에 관한 검색은 ‘유대인 농담’, ‘동양인 농담’, ‘남미인 농담’, ‘중국인 농담’, ‘게이 농담‘에 관한 검색을 합친 것보다 열일곱 배 많다.

‘깜둥이’ 또는 ‘깜둥이 농담’은 언제 가장 많이 검색될까? 아프리카계 흑인이 뉴스에 등장할 때면 언제나 그렇다. 여기에는 허리케인 카트리나가 상륙한 직후, 그러니까 텔레비전과 신문에서 살아남기 위해 고투하는 뉴올리언즈의 절박한 흑인들을 보여줬을 때도 포함된다. 오바마의 첫 당선 때에도 검색 빈도가 상승했다. 마틴 루터 킹 기념일에는 ‘흑인 농담’ 검색량이 평균 30퍼센트 정도 상승한다.

이런 인종적 비방이 놀라울 정도로 만연하다는 사실을 대면하면 인종차별을 우리가 정확히 이해하고 있는지 의심스러워진다. 절대 다수의 흑인은 편견에 시달린다. 그리고 경찰의 제지, 구직 면접, 법원 판결에서 차별을 당하고 있다는 증거도 충분해 보인다. 반면에 스스로 인종주의자라고 인정하는 백인은 극히 소수다.

정치 과학자들은 최근 인종차별 대부분이 광범위한 암묵적 편견에 기인한다는 이론을 내놓았다. 이 이론은 백인은 선의를 갖지만 무의식적인 편견이 흑인 대우에 영향을 준다는 식으로 흘러간다. 학자들은 그러한 편견을 시험하는 기발한 방법을 발명했다. 이를 암묵적 연상 검사라고 부른다. 이 검사 결과는 대부분의 사람이 흑인의 얼굴과 ‘좋은’ 같은 긍정적인 단어를 연결할 때 ‘끔찍한’ 같은 부정적 단어를 연결할 때보다 몇밀리초 더 걸린다는 것을 지속적으로 보여준다. 백인 얼굴의 경우에는 패턴이 역전된다. 시간이 더 걸린다는 것은 자신조차 알지 못하는 암묵적인 편견이 있다는 증거다.

그런데 아프리카계 미국인은 느끼지만 백인은 부정하는 차별에 대한 대안적 설명이 있다. 숨겨진 명시적 인종차별이라는 것이다. 사람들이 매우 잘 알고 있지만 고백하지는 않는 그리고 설문조사에서는 당연히 드러내지 않는 상당히 광범위한 의식적 인종차별이 있다고 가정해보자. 검색 데이터가 하는 이야기가 바로 이것 아닌가 싶다. ‘깜둥이 농담’을 검색하는 데에는 암묵적인 그 어떤 것도 존재하지 않는다. ‘깜둥이’를 ‘편두통’이나 ‘경제학자’와 같은 빈도로 검색하는 사회에서 명시적 인종차별이 아프리카계 미국인에게 큰 영향을 주지 않는다고 상상하기는 어렵다. 구글 데이터 이전에는 이런 맹렬한 적대감을 측정할 확실한 수단이 없었다. 지금은 가능하다.

학자들은 최근 흑인에 대한 암묵적 차별의 측정치를 주별로 종합했고 덕분에 나는 구글 검색으로 측정한 명시적 인종차별과 암묵적 편견의 영향을 비교할 수 있었다. 예를 들어, 나는 오바마가 출마한 두 번의 대통령 선거에서 이 두 가지가 얼마나 그에게 불리하게 작용했는지 시험했다. 회귀분석을 이용해서 오바마가 예상에 못 미치는 성과를 거둔 곳을 예측하는 데 해당 지역에서 행해진 인종차별적 구글 검색은 유용했다. 반면 특정 지역의 암묵적 연상 검사 반응은 거의도움이 되지 않았다.

이 분야의 더 많은 연구를 자극하고 장려하기 위해 나는 감히 이런 추측을 내놓으려 한다. 오늘날 아프리카계 미국인에 대한 차별을 가장 잘 설명해주는 것은 사람들이 부정적인 단어와 흑인을 무의식적으로 연관시킨다는 사실이 아니다. 그들은 연구실 실험에 동의하고 참여했으며 이는 해당 요인을 제대로 설명하는 데 방해요인으로 작용한다. 아프리카계 미국인 차별을 가장 잘 설명하는 것은 백인 수백만 명이 계속 ‘깜둥이 농담’을 검색하는 식의 행동을 하고 있다는 사실이다.

클로즈업
우리 지역, 시, 마을에서는 정말로 어떤 일이 벌어지고 있나?
엄청난 양의 국세청 데이터를 다룬 라지 체티의 연구 중 개인적으로 가장 좋아하는 것이 있다. 왜 어떤 이들은 탈세를 하고 어떤 이들은 탈세를 하지 않는지에 관한 연구다.

핵심은 자녀가 한 명 있는 자영업자가 정부로부터 최대한 돈을 받아낼 수 있는 쉬운 방법이 있다는 것을 아는 데 있다. 당신이 해당 연도에 정확히 9,000달러의 과세 대상 소득이 있다고 신고한다면, 정부는 당신에게 1,377달러 수표를 끊어준다. 1,377달러는 근로소득세액공제제도애 따라 빈곤층의 소득을 보충해주는 보조금이다. 그보다 소득을 많이 신고하면 당신의 소득세는 올라간다. 그보다 소득을 적게 신고하면 근로소득세액공제제도에 따른 보조금이 줄어든다. 과세 대상 소득 9,000달러가 가장 효율적인 지점이다.

당신은 한 자녀를 둔 자영업자들이 과세 대상으로 가장 많이 신고하는 소득이 9,000달러라는 것을 알고 있는가? 이들이 소득을 완벽하게 9.000달러로 맞추기 위해서 근무시간을 조정했을까? 그렇지 않다. 대단히 흔치 않은 일이지만 회계 감사를 임의로 실시하면 거의 예외 없이 이들의 소득은 9,000달러와 거리가 멀다. 그보다 훨씬 적은 소득 또는 훨씬 많은 소득을 올린다. 정부로부터 가장 돈을 많이 뜯어낼 수 있는 소득을 올리는 척해서 탈세를 하는 것이다.

그렇다면 이런 유형의 세금 사기는 얼마나 일반적이며, 한 자녀를 둔 자영업자 중 누가 이런 사기를 저지를 가능성이 가장 높을까? 연구 결과, 이런 종류의 탈세는 지역별로 차이가 크다는 것이 드러났다. 마이애미에서는 한 자녀를 둔 자영업자의 무려 30퍼센트가 9.000달러를 번다고 신고했다. 필라델피아는 그 비율이 2퍼센트에 불과했다.

탈세가 가장 많은 지역과 가장 적은 지역을 무엇으로 예상할 수 있을까? 이런 사기의 비율과 도시의 인구 구성은 서로 연관이 있으며, 거기에는 강력한 예측변수 두 가지가 있었다. 근로소득세액공제를 받을 수 있는 사람들의 지역별 집중도와 세금 전문가의 지역별 집중도가 그것이다.

이 두 요소는 무엇을 나타내는가? 체티의 연구팀은 이러한 세금 사기의 주요한 동인은 ‘정보’라고 설명했다. 한 자녀 자영업자 대부분은 정부보조금을 늘리는 마법의 숫자가 9,000달러라는 것을 몰랐다. 하지만 이를 아는 이웃이나 전문가가 근처에서 살면 이 정보를 배울 확률이 극적으로 올라갔다.

체티의 연구팀은 정보가 이런 종류의 세금 사기를 키운다는 더 많은 증거를 찾았다. 다양한 세금 사기의 비율이 낮은 지역에서 그 비율이 높은 지역으로 이주한 미국인은 새 지역에서 이런 편법을 배우고 적용했다. 시간이 지나면서 탈세 방법이 지역에서 지역으로 퍼져나간다. 바이러스처럼 전염되는 것이다.

흥미롭게도 이 연구는 세금을 탈루할 사람을 찾고자 할 때 중요한 열쇠는 누가 정직하고 누가 정직하지 못한가가 아니라, 누가 탈세 방법을 알고 누가 알지 못하는가를 판단하는 것임을 보여준다. 누군가가 세금을 탈루하지 않을 것이라고 말한다면 거짓말일 확률이 매우 높다. 체티의 연구는 방법만 안다면 대부분이 탈세를 한다고 말해주기 때문이다. 세금을 탈루하고 싶다면(물론 권하는 것은 아니다), 방법을 알려줄 수 있는 세금 전문가나 유경험자와 가까운 곳에 살아야 한다.

온 세상이 실험실
잔인하지만 큰 깨달음을 주는 자연 실험
지도자를 잃으면 국가가 어떻게 반응하는지에 관심이 있다고 가정해보자. 전쟁으로 이어질까? 경제가 멈출까? 그다지 큰 변화가 없을까? 확실한 결과를 얻을 만큼 충분한 수의 대통령과 총리를 죽여서 어떤 상황이 벌어지는지 두고 볼 수는 없는 일이다. 불가능할 뿐 아니라 비도덕적이다.

그렇다면 어떤 시나리오의 인과관계를 알고 싶은데 실험이 비윤리적이거나 실현 불가능하다면 어떻게 해야 할까? 그럴 때는 경제학자들이 자연 실험이라고 부르는 것을 이용할 수 있다(여기서는 자연을 풋볼 경기를 포함할 정도로 넓게 정의한다). 좋든 나쁘든(그래, 분명히 나쁘다), 삶에는 엄청나게 많은 임의적인 요소가 있다. 아무도 누가 또는 무엇이 우주를 책임지고 있는지 알지 못한다.

자연은 항상 우리를 시험한다. 두 사람이 총을 맞았다. 탄환 하나는 중요 신체 기관에 못 미쳐 멈췄다. 하지만 다른 하나는 그렇지 않았다. 이런 불운이 삶을 불공평하게 만든다. 위로가 될지 모르겠지만 이런 불운 덕택에 경제학자들은 삶을 연구하기가 좀 더 쉬워진다. 경제학자들은 삶의 임의성을 이용해서 인과관계를 실험한다.

역대 미국 대통령 마흔세 명 중 열여섯 명은 심각한 암살 시도의 피해자였고 네 명은 목숨을 잃었다. 목숨을 건진 이유는 근본적으로 무작위였다. 존 F. 케네디와 로널드 레이건을 비교해보자. 두 사람 모두에게 총알은 공격에 가장 취약한 신체 부위를 향해 똑바로 날아들었다 케네디는 머리에 총알을 맞고 바로 사망했다. 레이건에게 날아온 총알은 심장에서 몇 센티미터 떨어진 곳에서 멈췄기 때문에 목숨을 건질 수 있었다. 케네디는 죽었지만 레이건은 살았다. 아무런 이유도 없다. 그저 운이었다.

케네디는 죽이고 레이건은 살려두는 자연의 냉엄한 임의성을 이용해서 우리는 한 국가의 지도자가 암살됐을 때 보통 어떤 일이 일어나는지 살펴볼 수 있다. 두 경제학자, 벤저민 F.존스와 벤저민 A. 올켄이 바로 그런 일을 했다. 존스와 올켄은 성공한 암살이 국가를 급격하게 다른 경로로 이끌고, 세계사를 극적으로 바꿔놓는다는 사실을 발견했다. 새로운 지도자는 이전의 평화롭던 국가를 전쟁으로 몰아넣기도 하고 이전에 전쟁 중이었던 국가에 평화를 찾아주기도 한다. 새로운 지도자는 경제적으로 활황인 국가를 파산하게 만들기도 하고 경제적 파산 상태의 국가를 호황으로 만들기도 한다.

사실, 암살을 기반으로 한 이런 자연 실험은 국가가 어떻게 움직이는가에 대해 수십 년간 이어진 통념을 뒤집었다. 이전에 많은 경제학자들은 지도자 대부분이 외부 세력에 휘둘리는 무능한 허수아비라는 견해에 치우쳐 있었다. 존스와 올켄의 자연 실험에 따르면 그렇지 않았다.

사람들 대부분은 국가 지도자에 대한 암살 시도를 대상으로 한 이러한 실험은 빅데이터의 예가 아니라고 생각할 것이다. 이 연구에 사용된 암살당하거나 암살될 뻔한 지도자의 수가 적고 그 결과로 일어난 또는 일어나지 않은 전쟁의 수 또한 적기 때문이다. 경제의 궤적을 특정 짓는 데 필요한 경제적 데이터세트는 크지만 대부분은 전산화되기 전의 것이다.

그럼에도 그런 자연 실험은 강력하다. 지금은 거의 전적으로 경제학자들만이 사용하지만 더 많고 더 나은 데이터세트와 함께하는 시대에는 그 중요성이 더 커질 것이다. 이는 데이터 과학자들이 오랫동안 손에서 놓지 못할 도구다.

이 책의 제목은 ‘모두 거짓말을 한다’이다. 여기서 내가 의미하는 바는 사람들이 자신의 모습을 더 낫게 보이게 하기 위해 친구에게, 설문조사에, 스스로에게 거짓말을 한다는 것이다. 하지만 세상 역시 오해의 소지가 있는 불완전한 데이터를 제시하는 방법으로 우리에게 거짓말을 한다. 세상은 우리에게 많은 수의 성공한 하버드 졸업생을 보여주고 성공한 펜실베이니아 졸업생은 많이 보여주지 않는다. 그렇게 해서 우리는 하버드에 가는 것이 대단히 유리하다고 생각하게 된다.

자연 실험을 솜씨 좋게 이용하려면 세상의 데이터를 정확하게 이해할 수 있다. 무엇이 정말로 유용한지, 무엇이 그렇지 못한지 찾아낼 수 있다. 자연 실험을 살펴볼 때는 실험 집단과 통제 집단을 자주 확대해봐야 한다. 그리고 확대에는 대규모의 포괄적인 데이터세트가 필요하다. 우리는 자연이 언제 실험을 할지 모르기 때문에 결과를 측정하기 위한 소규모 설문조사를 시작할 수 있다. 이러한 개입에서 배움을 얻으려면 이미 존재하는 데이터가 많이 필요하다. 우리에게는 빅데이터가 필요하다.

우리의 실험이든 자연 실험이든 지적해야 할 중요한 점이 하나 더 있다. 이 책 대부분은 세상을 이해하는 일에 초점을 맞춘다. 인종주의로 오바마가 얼마나 손실을 입었는지, 얼마나 많은 남성이 동성애자인지, 남성과 여성이 자신의 몸매에 얼마나 자신이 없는지에 대해서 말이다. 하지만 이런 통제실험이나 자연 실험은 생각보다 더 실용적이다. 이 실험들은 우리의 의사결정을 개선하고, 효과 있는 개입과 그렇지 않은 것이 무엇인지 배우도록 돕는다.

기업은 어떻게 하면 더 많은 고객을 끌어들일지 배울 수 있다. 정부는 의사들의 의욕을 불러일으키려면 변제를 어떻게 이용해야 하는지 배울 수 있다. 학생들은 어떤 학교가 가장 가치 있는지 알 수 있다. 이러한 실험은 짐작, 일반적인 통념, 조잡한 상관관계를 정말 효과가 있는 것, 인과적인 것으로 대체하는 빅데이터의 잠재력을 보여준다.

빅데이터: 취급 주의
권한을 부여받은 정부에서 비롯하는 위험
아드리아나 도나토는 생일파티에 나타난 전 남자친구가 화가 나 있다는 것을 알았다. 그는 정신이 나가 있었다. 그녀는 그가 우울증으로 힘들어했다는 것을 알고 있었다. 그는 그녀에게 드라이브를 가자고 했다. 동물학을 공부하는 스무 살 대학생 도나토는 그에 대해 모르는 것이 하나 있었다. 스물두 살의 전 남자친구 제임스 스토넘이 지난 3주 동안 사람을 살해하는 방법, 살인 관련 법률 정보를 찾아보며 가끔씩 도나토에 대해 검색했었다는 것을 말이다.

그녀가 이 사실을 알았더라면 아마 차에 타지 않았을 것이다. 그리고 아마 그날 저녁 칼에 찔려 죽지 않았을 것이다.

영화 마이너리티 리포트에서는 초능력자가 경찰 부서와 협력해서 범죄를 발생 이전에 차단한다. 범죄가 일어나기 전에 그것을 막을 수 있도록 경찰이 빅데이터를 이용할 수 있게 해야 할까? 도나토에게 전 남자친구의 불길한 검색에 대해 경고해줬어야 할까? 경찰이 스토넘을 취조했어야 할까?

우선, 범죄 활동과 관련된 구글 검색이 범죄 활동과 상관관계가 있다는 증거가 늘어나고 있다는 점은 인정해야 한다. 무엇인가를 하고 싶다고 검색하는 사람이 많을수록 그 일을 실행하는 사람도 많아진다. 그렇다면 우리는 이런 정보로 무엇을 해야 할까? 간단하고 논란의 여지가 상당히 적은 아이디어가 있다. 지역 수준의 데이터를 활용해서 자원을 분배하는 것이다. 한 도시에서 자살 관련 검색이 크게 늘어난다면 우리는 이 도시에서 자살에 대한 인식을 높이는 대응을 할 수 있다. 예를 들어, 시 정부나 비영리단체가 어디에서 도움을 얻을 수 있는지 설명하는 광고를 내보내는 식이다. 마찬가지로 한 도시에서 ‘이슬람교도를 죽이자’라는 검색이 크게 늘어나면 경찰은 거리를 순찰하는 방법을 바꿀 수 있다. 예를 들어, 지역의 회교사원을 보호하기 위해 더 많은 경찰을 파견할 수 있다.

하지만 범죄가 일어나기 전에 개인을 뒤밟는 식의 조치에는 대단히 신중을 기해야 한다. 우선 이런 일은 사생활 침해처럼 보인다. 수십만 또는 수백만 명의 검색 데이터를 가진 정부와 특정 개인의 검색 데이터를 가진 경찰 사이에는 큰 윤리적 격차가 있다.

개인 차원의 데이터를 이용하는 데 매우 신중해야 하는 이유는 윤리적 차원마저 넘어선다. 데이터 과학에 있어서 시의 행동을 예측하려 하는 시도와 개인의 행동을 예측하려 하는 시도 사이에는 큰 격차가 있다.

미국에서는 매년 자살 관련 구글 검색 350만 건이 이뤄진다. 그렇지만 미국에서 월평균 자살 건수는 4,000건에 못 미친다. 자살에 대한 생각은 믿기 힘들 정도로 흔하다. 하지만 자살은 그렇지 않다. 온라인에서 자기 머리를 날려버리고 싶다고 언급한 모든 사람의 집 앞에 경찰이 나타나는 것은 말이 안 된다. 경찰이 해야 할 다른 일이 없는 게 아니라면 말이다.

또는 엄청나게 공격적인 이슬람포비아 검색을 생각해보자. 2015년 미국에는 ‘이슬람교도를 죽이자’라는 검색이 약 1만 2,000건 있었다. 증오범죄로 이슬람교도를 살해한 사건은 열두 건이었다.

끔찍한 검색이 끔찍한 행동으로 이어지는 경우는 많지 않다. 이론적으로는 끔찍한 일로 이어질 충분한 가능성을 합리적으로 암시하는 종류의 검색어가 있을 수 있다. 이론적으로는 도나토를 살해한 스토넘의 검색이 심각하게 걱정할 문제임을 발견할 수 있는 모델을 언젠가는 데이터 과학자들이 구축할 수도 있다.

‘여자친구 죽이는 법’이라는 정확한 문구는 2014년 한 해 동안 약 6,000번 검색됐고 실제 여자친구 살해는 400건 일어났다. 이 모든 살인자가 정확히 이 검색을 해봤다면 ‘여자친구 죽이는 방법’을 검색한 사람 열다섯 명 중 한 명이 이를 실행했다는 의미가 된다. 물론, 여자친구를 살해한 많은, 어쩌면 대부분의 사람들은 이런 검색을 하지 않았다. 이는 이 특정한 검색이 살해로 이어질 실제 가능성은 낮다(아마도 매우 낮다)는 것을 의미한다.

하지만 데이터 과학자들이 특정 개인에 대한 위협이 예를 들어 100분의 1이라는 것을 보여주는 모델을 만들 수 있다면, 우리는 그 정보로 뭔가를 하고 싶을 것이다. 적어도 위협받고 있는 사람은 특정한 사람에 의해서 살해당할 가능성이 100분의 1이라는 것을 통지받을 권리를 가질 것이다.

그렇지만 개인적인 수준에서 범죄 예측에 검색 데이터를 사용하려면 매우 신중을 기해야 한다. 데이터는 끔찍한 검색이 끔찍한 행동으로 이어지는 경우가 매우 드물다고 분명히 말한다. 현재로서는 정부가 이런 검색을 검토해서 특정한 잔혹 범죄를 높은 확률로 예측할 수 있다는 증거가 없다. 따라서 정부가 검색 데이터를 바탕으로 개인적인 수준에 개입할 수 있도록 허용하는 데는 각별한 주의가 필요하다. 단순히 윤리적, 법적인 이유에서만이 아니다. 데이터 과학적 이유에서도 필요하다.
* * *

본 도서 정보는 우수 도서 홍보를 위해 저작권자로부터 정식인가를 얻어 도서의 내용 일부를 발췌 요약한 것으로, 저작권법에 의하여 저작권자의 정식인가 없이 무단전재, 무단복제 및 전송을 할 수 없으며, 원본 도서의 모든 출판권과 전송권은 저작권자에게 있음을 알려드립니다.