데이터 분석의 힘

   
이토 고이치로(역:전선영)
ǻ
인플루엔셜
   
14800
2018�� 04��



■ 책 소개

 

폭발하는 빅데이터 시대, 데이터는 어떻게 전략이 되는가

 

2017년 출간 직후 일본 아마존 경제 1위, 제39회 산토리 학예상 및 제60회 닛케이경제도서문화상을 동시 수상하며 학계와 대중으로부터 뜨거운 관심을 받은, 빅데이터 시대를 위한 데이터 분석 입문서. 듣기만 해도 어려운 데이터 분석 이론들을 흥미로운 사례와 함께 설명해 전문가가 아니어도 쉽게 이해할 수 있도록 썼다. 정말 그 광고가 제품의 매출을 높였다고 판단할 수 있는지, 오바마 대선 캠프는 어떤 데이터 분석을 활용해서 6천만 달러의 후원금을 ‘더’ 모았는지, 정부가 전기요금을 얼마나 인상해야 절전 효과가 발생하는지, 구글과 우버는 빅데이터를 활용해 어떤 비즈니스 전략을 이끌어냈는지 등 실제 사례를 통해 데이터 분석의 세계를 경험케 한다. 이 책을 통해 의미 없는 숫자의 나열에 불과해 보이는 데이터가 어떻게 똑똑한 전략, 세상을 바꾸는 정책으로 진화하게 되는지를 이해하게 될 것이다.

 

■ 저자 이토 고이치로
중국의 미세먼지, 동일본 지진 후 일본 내 전력 공급 부족 문제 등 뜨거운 관심이 쏟아지는 환경 에너지 정책 분야의 실증 연구와 데이터 분석으로 주목받는 젊은 경제학자. 중국인들은 미세먼지 1마이크로그램을 줄이는데 얼마를 지불할 용의가 있는지, 부족한 전력 공급 문제를 해결하기 위해 일본 정부가 전력 가격을 얼마나 올려야 절전 효과를 얻을 수 있을지 등의 실험 분석 결과를 논문으로 발표해 숫자에 불과한 데이터가 어떻게 똑똑한 전략과 정책이 되는지, 어떻게 세상을 바꿀 수 있는지를 몸소 증명하고 있는 현장형 분석가다.

 

일본에서 태어나 교토대학교 경제학부를 졸업하고 미국 캘리포니아대학교 버클리캠퍼스에서 박사과정을 수료했다. 스탠퍼드대학교 경제정책연구소 연구원, 보스턴대학교 비즈니스스쿨 조교수를 거쳐 2015년부터 시카고대학교 해리스스쿨(공공정책대학원)에서 강의하고 있다. 전미경제연구소(NBER) 연구원과 경제산업연구소(RIETI) 연구원을 겸임하고 있으며 전문 분야는 환경에너지 경제학, 산업조직론, 응용계량경제학이다. 시카고대학교에서는 환경 정책, 에너지 정책의 실증 연구를 수행하는 한편 데이터 분석 이론과 응용에 관한 강의를 하고 있다.

 

2017년 일반인을 대상으로 처음 집필한 이 책 《데이터 분석의 힘》으로 단번에 제39회 산토리 학예상과 제60회 닛케이경제도서문화상을 동시 수상하며 학계와 대중의 뜨거운 스포트라이트를 받았다. 기존의 데이터 분석서와 다르게 수식을 사용하지 않고도 데이터 분석이 무엇인지 파악할 수 있도록 집필해 일본 내에서 8만 부 이상 판매되며 아마존 재팬 경제 분야 1위, 2017년 신서대상 6위에 선정됐다.

 

■ 역자 전선영
한국외국어대학교 일본어과를 졸업하고 현재 출판 전문 번역가로 활동 중이다. 옮긴 책으로 《감정적으로 받아들이지 않는 연습》, 《도쿄대 교수가 제자들에게 주는 쓴소리》, 《쓸데없는 걱정 따위》, 《카리스마 CEO의 함정》, 《일상생활 속에 숨어 있는 수학》, 《개념부터 다시 시작하는 Reset! 수학》(전 4권) 등이 있다.

 

■ 감수 이학배
연세대학교 응용통계학과(통계학 전공)를 졸업하고 동 대학원에서 석사, 미국 미네소타대학교에서 통계학으로 박사학위를 받았다. 한국통계학회 이사, 연세대학교 경제대학원 원장 등을 지냈다. 현재 연세대 응용통계학과 교수로 재직 중이며 한국자료분석학회 부회장을 역임하고 있다. 국민안전처 등의 여러 정부기관에서 데이터 분석과 통계에 관한 자문을 해왔다. 빅데이터 분석에 대한 국내 최고의 권위자로 손꼽힌다.

 

■ 차례
이 책을 추천하며 _ 빅데이터 시대를 준비하는 가장 유용한 책을 만나다 _ 이학배
한국어판 서문
프롤로그 여기 데이터가 있습니다. 분석할 줄 아십니까?

 

1장 정말 광고가 아이스크림 매출을 올렸을까 : 데이터의 상관관계는 인과관계가 아니다
어느 회사에서 광고를 집행했고, 매출이 올랐다. 매출이 상승한 원인은 광고 때문일까? 그럴 수도 있고 아닐 수도 있다. 광고와 매출 사이에 ‘상관관계’는 있다 해도 ‘인과관계’가 반드시 있는 것은 아니라는 말이다. 그동안 당신이 속아왔던 무수한 ‘잘못된 데이터 분석’은 모두 이 지점에서 시작된다.

 

2장 오바마 캠프는 어떻게 후원금을 ‘더’ 모았을까 : 최선의 데이터 분석법, RCT
2008년 미국 오바마 대선 캠프는 구글 출신의 데이터 분석 전문가를 영입했다. 그는 후원금 모금 웹페이지를 무려 24개의 조합으로 설계했다. 그 결과 약 6000만 달러의 후원금을 ‘추가로’ 획득했다. 가장 투명하고 가장 확실한 데이터 분석법, RCT(무작위비교시행). 최적의 전략을 이끌어내는 방법이다. 단, 비용이 많이 든다!

 

3장 70세가 되자 병원을 많이 가기 시작했다 : 급격한 변화의 ‘경계선’을 찾는 RD디자인
장수하는 노인이 많은 일본에서는 70세를 전후로 의료서비스 이용이 급격히 점프한다. 69세와 70세 사이에 무슨 ‘경계’가 있는 것일까. 본인이 부담하는 의료비 비율이 70세부터 10%로 줄어드는 게 이유일까? 그게 이유라는 걸 어떻게 입증할 수 있을까? 급격한 변화의 ‘경계선’이 있는 데이터 분석법이 RD디자인(회귀불연속설계법)이다.

 

4장 규제 때문에 자동차가 무거워졌다고? : 계단식 변화가 있는 곳엔 집군분석
각종 규제나 세금을 적용할 때는 일정 구간을 묶는 ‘계단식’ 정책이나 제도들이 많다. 이렇게 구간별로 나뉘는 데이터들은 어떻게 분석해야 할까. 특히 ‘인센티브 제도’가 이렇게 설계되어 있을 때는 어떤 현상이 벌어질까. 자동차 무게와 연비 규제의 사례를 통해, 집군분석을 알아보자.

 

5장 소득세를 내리면 이민자가 늘어날까 : 시간의 흐름에 따른 패널 데이터 분석
1991년 덴마크는 우수한 외국인 노동자를 유입시키기 위해 세제 개혁을 실시했다. 이로 인해 연소득 1억 이상의 외국인 노동자의 소득세가 대폭 줄어들게 되었다. 이민자수는 늘어났을까? 과연 세제 개혁 때문일까? 패널 데이터 분석은 바로 복수의 집단, 복수의 기간에 대한 데이터를 분석하기에 적합하다.

 

6장 구글은 41가지의 파란색을 고민했다 : 데이터는 어떻게 전략이 되는가
실리콘밸리는 그 어떤 곳보다 데이터 분석이 활발한 지역이다. 구글, 우버, 페이스북 등 많은 IT기업들이 엄청난 빅데이터를 확보하고 이를 비즈니스 모델에 활용하면서 무한한 시장과 만났다. 비단 기업만의 일이 아니다. 전 세계적으로 정부도 민간처럼 데이터를 활용해 효과적인 정책 입안을 하기 시작했다. 데이터가 막강한 전략으로 탈바꿈하고 있다.

 

7장 그럼에도 데이터 분석은 불완전하다 : 불량 분석을 피하기 위한 방법
데이터를 분석하는 과정은 초밥 장인이 초밥을 만드는 과정과 닮았다. 솜씨 좋은 장인이 초밥을 만들더라도 재료가 형편없으면 먹을 수 없는 초밥이듯이, 데이터 자체에 문제가 있다면 분석 기법이 탁월해도 신뢰할 만한 결론을 도출해낼 수 없다. 이밖에 외적 타당성 확보 문제나 출판 편향 등의 한계 등 ‘잘못된 재료’를 선택하지 않을 수 있는 방법은 무엇일까.

 

에필로그
더 알고 싶은 이들을 위한 참고도서
부록
참고문헌




데이터 분석의 힘


프롤로그_ 여기 데이터가 있습니다. 분석할 줄 아십니까?

일상에서 데이터 분석이 필요해졌다

빅데이터로 상징되는 정보기술의 발전과 통신 혁명이 눈앞에 펼쳐지고 있다. 우리의 일상생활이나 비즈니스에 대한 다양한 정보가 매 순간 데이터로 기록된다. 이는 개인과 기업, 정부가 비교적 쉽게 대량의 데이터를 손에 넣을 수 있게 되었음을 의미한다. 이런 현상은 우리 삶에 어떤 변화를 일으킬까? 전문직 종사자뿐 아니라 다양한 분야의 직장인에게 수없이 만들어지는 데이터를 이해하고 활용할 줄 아는 힘, 즉 데이터 분석력이 필요해졌다고 할 것이다.


“다음 분기에 매출 증가를 위해 어떤 광고 전략을 써야 할지 알고 싶군요. 과거 광고의 매출 데이터를 분석해서 광고가 매출에 미치는 영향을 조사해주세요.”


어느 기업의 영업부나 마케팅부에서 흔히 들을 수 있는 대화다. 인사부에서도 이런 대화가 오간다. “사원들의 업무 효율을 높일 방법이 궁금하군요. 사원이 회사 내에서 근무한 시간과 외근에 사용한 시간 그리고 영업 실적을 보면 노동시간이 영업 실적에 미친 영향을 알 수 있지 않을까요?”


이런 변화가 찾아온 곳은 기업만이 아니다. 관공서나 학교 등 비영리기관에서 근무하는 사람들도 이전보다 훨씬 많은 데이터를 접하게 되면서 직업 데이터를 분석하거나 누군가의 데이터 분석 결과를 이용할 일이 많아졌다. 일본의 관공서에서는 이런 말을 흔히 들을 수 있다. “작년에 실시한 보고금 정책이 어느 정도 효과가 있었는지 분석해서 재무성에 보고해야 합니다. 다음주까지 보조금은 받은 기업의 데이터를 분석해 주세요.”


마찬가지로 학교 같은 교육 현장에서도 수업 평가 등이 중요해지면서 이런 말을 쉽게 듣게 될 것이다. “어떤 교재가 가장 효과가 있었는지 알아봐야겠어요. 학생들의 이해도 데이터를 모아 분석해봅시다.”


재료가 같아도 장인의 초밥이 맛있는 까닭

데이터 분석에는 초밥 장인과 같은 마음가짐이 필요하다. 맛있는 초밥을 만들려면 세 가지가 필요하다고 한다. 첫 번째는 훌륭한 재료를 준비하는 일이고 두 번째는 그 재료의 감칠맛을 살릴 칼솜씨를 갖추는 일이다. 아무리 훌륭한 재료라도 적절한 각도로 잘라내는 기술이 없으면 감칠맛이 나지 않는다고 한다. 마지막 세 번째는 눈앞의 손님이 바라는 맛이나 요리를 제공하는 것이다.


데이터 분석에 대해서도 똑같은 이야기를 할 수 있다. 정보통신 혁명에 의해 많은 사람이 비교적 쉽게 좋은 데이터(재료)를 손에 넣게 되었다. 정말 멋진 일이다. 하지만 데이터를 어떤 각도로 자를지를 결정하는 감각이나 사고법을 익히지 않으면 애써 구한 재료를 살릴 수가 없게 된다. 또 아무리 멋지게 데이터를 분석했더라도 이런 질문에 답을 주지 못한다면 잔뜩 모은 데이터는 보기에는 좋아도 아무 쓸모 없는, 그야말로 빛 좋은 개살구가 되어버린다.



1장 정말 광고가 아이스크림 매출을 올렸을까 : 데이터의 상관관계는 인과관계가 아니다

당신이 아이스크림 회사의 마케팅부에 소속되어 있다고 하자. 현재 회사에서는 매출을 높이기 위해 웹사이트에 광고를 띄우려고 한다. 당신은 상사로부터 광고를 집행하면 매출이 얼마나 오를지 데이터를 분석하라는 지시를 받았다. 이를 위해 과거의 데이터를 살펴본 당신은 다음과 같은 사실을 알게 되었다.


2010년 회사가 아이스크림 광고를 인터넷에 띄웠다. 그랬더니 광고를 하지 않았던 2009년에 비해 매출이 40퍼센트 늘었다. 그래서 당신은 상사에게 다음과 같이 보고했다. “분석 결과, 광고 덕분에 2010년 매출이 2009년에 비해 40퍼센트 상승했습니다.” 하지만 이 결론은 틀렸을 수도 있다. 왜 그럴까? 여기서 문제는 당신의 데이터 분석에서 다음과 같은 인과관계(causal relationship 혹은 causality라고 한다)를 이끌어낼 수 있느냐는 것이다.


예를 들어 2010년 여름 날씨가 2009년 여름보다 훨씬 무더웠다면 어떨까? 실제로 일본의 경우 2009년 여름은 평년보다 서늘했고 2010년 여름은 혹독하게 더웠다. 그렇다면 40퍼센트의 매출 상승은 광고의 영향이 아니라 단순히 기오니 높았던 탓은 아니었을까?


그밖에도 다양한 이유를 생각할 수 있다. 이를테면 일본에서는 2008년 세계 금융위기 이후 소비가 얼어붙었다가 2010년 즈음부터 조금씩 회복세를 보이기 시작했다. 그렇다면 40퍼센트의 매출 상승은 광고의 효과가 아니라 단순히 전체적인 경기가 좋아지면서 소비자들의 씀씀이가 늘어난 탓은 아니었을까?


인과관계는 상관관계와 다르다

두 가지 데이터가 서로 유기적으로 움직일 경우 통계학에서는 ‘상관관계가 있다’고 표현한다. 사실 데이터가 있다면 상관관계를 계산하기는 쉽다. 그래프를 그려서 두 데이터의 관련성을 조사할 수도 있고 엑셀 같은 소프트웨어로 상관관계 값을 간단히 계산할 수도 있다.


문제는 X와 Y의 상관관계가 밝혀져도 그것만으로는 인과관계가 있다고 말할 수 없다는 점이다.


엉터리 데이터 분석이 넘쳐난다

뉴스나 신문에는 상관관계와 인과관계를 혼동한 수상한 분석 결과가 넘쳐난다. 더욱 문제는 수상쩍은 분석 결과에 근거한 단순한 상관관계가 마치 인과관계처럼 포장되어 시청자나 독자를 속이는 경우가 많다는 점이다.


다음은 필자가 읽은 신문기사에서 발췌한 것이다.


어느 기업에서는 사장이 바뀐 다음 해에 주가가 상승했다. 이것은 새로운 사장의 개혁이 이뤄낸 성과다.

-사장이 바뀐 것 말고도 주가가 상승한 다른 요인이 있을 수 있다.


정부가 수억 엔의 보조금을 교부한 후 각 지역의 소비가 증가했다. 이것은 보조금이 지역 경제를 활성화한 증거다.

-보조금 외에도 소비가 증가한 다른 요인이 있을 수 있다.


어느 학교가 새로운 교과과정을 도입했다. 그러자 학생의 이해도와 성적이 전년도에 비해 향상되었다. 이것은 새로운 교과과정이 과거의 교과과정보다 우수하다는 의미다.

-교과과정 도입 외에도 성적에 영향을 미칠 만한 다른 변화가 있었을 수 있다.


데이터 분석 결과 아파트 고층에 사는 여성의 불임률이 높다는 사실이 밝혀졌다. 그러므로 아이를 낳고 싶은 여성은 아파트 고층에 살지 않는 것이 좋다.

-아파트 고층에 사는 여성과 저층에 사는 여성은 소득, 연령, 직업 등 다양한 요인이 다를 가능성이 있다. 따라서 고층에 사는 것이 진짜 불임의 원인인지는 분명하지 않다.


전력 시장을 자유화한 국가의 전력 가격은 그렇지 않은 국가에 비해 비싸다. 따라서 전력 시장을 자유화하면 전력 가격이 올라간다.

-전력 시장을 자유화한 국가와 그렇지 않은 국가는 다양한 요인이 다르므로 자유화 자체가 전력 가격에 영향을 주었는지는 분명하지 않다. 애초에 전력 가격이 높은 국가일수록 자유화에 주력한다는 역인과관계도 있을 수 있다.


이런 기사를 얼핏 보고 지나치면 모든 것을 인과관계로 파악하기 쉽다. 그러나 조금만 생각해보면 ‘’X가 Y에 영향을 미쳤다고 결론지었지만 다른 요인 V도 영향을 미치지 않았을까?, ‘어쩌면 Y가 X에 영향을 미쳤을 수도 있지 않을까?’ 하는 의문이 생긴다. 하지만 안타깝게도 신문이나 텔레비전에 나오는 많은 주장이 상관관계를 인과관계처럼 포장하고 있다.


잠복변수 V를 모두 찾을 수 있을까?

상관관계와 인과관계를 구분하는 전통적인 방법이 있다. ‘잠복변수 V(분석에서 놓치거나 고려하지 않은 변수, 원서에서는 V데이터라 표기했으나 학계에서 통용되는 잠복변수 lurking variable ㅍFH 변역함-옮긴이)’를 최대학 모은 다음 통계분석에 의해 V의 영향을 배제하는 것이다. 문제는 아무리 많은 잠복변수 V를 모아도 다른 요인이 영향을 미쳤을 가능성을 완전히 배제하지 못한다는 점이다.


또 잠복변수 V에는 도저히 데이터가 입수되지 않는 것도 있다. 아이스크림 사례의 경우 기온이나 경제활동의 변화는 데이터로 수집될지 모른다. 하지만 소비자의 기호 변화, 인터넷 광고의 조회수 증가 등 잠복변수 V의 후보는 계속 나오고 그중에는 데이터로 존재하지 않는 것도 많다.


문제는 데이터 수가 아니라 ‘편향’이다

빅데이터로 상징되는 정보통신기술의 발달로 이전보다 많은 데이터를 모을 수 있게 되었다. 그러나 안타깝게도 빅데이터는 지금까지 설명한 인과관계의 문제를 근본적으로 해결해주지 않는다. 지금까지 설명한 인과관계의 문제는 통계학 용어로 ‘편향(bias)’이라 불린다. 영어 ‘바이어스(bias)’를 직역하면 분석으로 얻은 추정치의 치우침‘이라는 뜻이다.


통상적으로 데이터 관측수가 늘어나면 장점이 많다. 그러나 안타깝게도 데이터 관측수가 아무리 늘어나도 편향 문제는 해결되지 않는다는 사실이 수학적으로 증명되었다. 그래서 빅데이터가 모든 것을 해결해준다는 주장은 적어도 인과관계 분석에는 들어맞지 않는다.



오바마 캠프는 어떻게 후원금을 ‘더’ 모았을까 : 최선의 데이터 분석법, RCT

미국 대통령 선거는 얼마나 많은 지지자에게서 후원금을 모으느냐에 승패가 달려 있다고 해도 과언이 아니다. 그 때문에 각 후보 진영은 다양한 전략으로 후원금을 모은다. 2008년 대통령 선거에서 오바마 캠프는 구글에서 댄 시로커를 영입해 후원금 모금을 맡겼다. 시로커는 구글에서 RCT를 이용한 데이터 분석으로 최적의 광고 전략을 짜왔다. 오바마는 시로커의 데이터 분석 능력과 구글의 RCT노하우가 선거 전략에 도움이 되리라 생각했다.


시로커는 오바마 후보의 웹사이트 디자인에 공을 들임으로써 수많은 웹사이트 방문자들을 메일링리스트에 가입시켰다. 사람들이 자신의 메일 주소를 등록해주면 각종 메일을 보내 후원금을 효율적으로 모을 수 있다.


오바마 캠프는 웹사이트의 시작 페이지 시안을 여섯 개나 준비했다. 시안A는 오바마 후보가 지지자들에게 둘러싸여 있는 사진, 시안 B는 오바마 후보의 가족사진, 시안C는 오바마 후보의 얼굴 사진을 실었고 시안D는 오바마 후보의 유명한 연설 동영사이 재생되게 했다. 이외에도 두 가지 동영상이 더 준비되었으므로 화면 시안은 모두 여섯 개였다.


오바마 캠프는 시작 페이지에 표시되는 버튼(클릭하면 메일 주소를 적는 페이지로 이동한다)에도 특별한 장치가 필요하다고 생각했다. 각각 ‘등록하세요(Sign UP)’, ‘지금 바로 등록하세요(Sign UP Now)’, ‘더 알아보기(Leam More)’, ‘지금 바로 가입하세요(Join Us Now)’라는 뜻이다. 여섯 개의 화면 시안과 네 개의 메시지 시안을 조합하면 모두 24개의 조합이 만들어진다.


그러면 어느 화면 시안과 메시지의 조합이 메일링리스트의 가입률을 높여줄까? 내부 논의와 투표 결과 시안A와 ‘등록하세요’의 조합이 가장 효과적일 것이라는 결론이 나왔다. 일반 기업의 의사결정이었다면 “논의 결과 시안A와 ‘등록하세요’의 조합이 가장 좋을 듯하다는 결론이 나왔으므로 이 안으로 가겠습니다” 하고 끝나기 마련이다. 그러나 구글에 재직하면서 실험을 적극적으로 도입했던 시로커는AB테스트를 해보자고 제안했다. AB테스트는 RCT를 지칭한다. 그렇다면 시로커는 어떤 식의 RCT를 실시했을까?


2007년 일정 기간 동안 약 31만 명이 오바마 후보의 웹사이트를 방문했다. 캠프틑 그들 한 명 한 명에게 24개의 디자인 시안 중 무작위로 뽑힌 하나만 보이게 했다. 무작위라는 말이 그다지 와닿지 않는다면 ‘제비뽑기’와 같은 것이라고 생각하면 이해가 쉬울 것이다. 웹사이트 방문자는 자신이 선호하는 특정한 디자인을 고르는 것이 아니라 24개의 디자인 가운데 ‘제비뽑기’로 뽑힌 하나의 디자인만 보게 된다. 31만 명이 24개 집단에 고르게 배정되어 각각의 집단에는 약 1만 3000명이 속하게 된다.


오바마 캠프는 ‘메일 주소 등록률’이 가장 높았던 디자인을 최적의 디자인으로 특정하고 이후 선거 운동에 사용했다. 이제부터는 이 사례를 통해 RCT의 원칙을 짚어보자.


원칙1 적절하게 집단을 나눈다

RCT를 실시할 때는 세 가지 원칙을 지켜야 한다. 첫째, 실험으로 해결하려는 문제의 답이 나오도록 집단을 적절하게 나눠야 한다. 우선 비교집단을 정의한다. 비교집단이란 비교의 대상이 되는 집단을 가리킨다. 오바마 캠프의 사례에서는 ‘오바마 캠프가 꼽은 최적의 웹사이트 디자인에 비해 다른 디자인들은 얼마나 효과적인가?’라는 것이 문제였기 때문에 시안A와 ‘등록하세요’ 메시지의 조합을 비교집단으로 정했다.


다음으로 개인집단을 만든다. 오바마 캠프의 사례에서는 ‘시안A와 ’등록하세요‘의 조합 외에 23개의 조합이 있었으므로 비교집단 하나에 23개의 개입집단이 만들어졌다.


원칙2 집단은 반드시 무작위로 나눈다

RCT에서 가장 중요한 것은 ’집단은 반드시 무작위로 나눈다‘라는 것이다. 왜 무작위로 집단을 나누는 것이 중요할까? 앞서 오바마 캠프가 무작위로 집단을 나누지 않았을 경우를 생각해 보자. 여기에는 자신의 선택에 따라 집단을 나누는 방법만 있는 것이 아니다. 이를테면 거주 도시를 기준으로 집단을 나누면 어떨까? 시카고 사람에게는 시안A를 보여주고 뉴욕 사람에게는 시안B를 보여준다고 하자. 만약 시안A가 시안B보다 메일 주소 등록률이 높았다면 ’시안A가 시안B보다 효과적이었다‘고 결론 내릴 수 있을까?


두 집단은 서로 다른 디자인을 보았다는 점 말고도 다른 차이점(V)이 있을 수 있기 때문에 인과관계를 판단하기 어렵다. 예를 들어 다음과 같은 가능성을 생각해볼 수 있다. 오바마 후보의 지역 기반인 시카고에는 많은 지지자가 있다. 그러므로 A집단의 등록률이 높았던 것은 시안A 자체의 효과가 아니라 단순히 시카고 사람을 A집단에 배정한 탓일지도 모른다. 그러므로 집단을 무작위로 나누지 않았을 경우에는 ’진짜 요인이 무엇이었나?‘라는 질문에 제대로 답하지 못하게 된다.


그러면 무작위로 집단을 나누면 어떨까? 다시 말하지만 무작위란 제비뽑기와 같다. 제비뽑기의 결과 모든 사람이 24분의 1의 확률로 어느 한 집단에 들어가게 된다. 그러면 어떻게 될까? 예를 들어 시카고 사람을 무작위로 배치한다고 하자. 그러면 시카고 사람은 24분의 1의 확률로 어느 한 집단에 들어가게 된다. 24개의 집단에 속한 시카고 주민의 수가 거의 같아지는 것이다. 따라서 시카고 주민은 오바마 후보를 지지할 가능성이 높더라도 그 영향은 A집단과 B집단에서 똑같아진다.


그렇다면 고소득자는 오바마 후보를 지지하지 않는 경향이 있다면 어떨까? 이것도 결론은 똑같다. 무작위로 집단을 나누면 전혀 문제되지 않는다. 고소득자건 저소득자건 24분의 1의 확률로 한 집단에 들어가게 된다. 따라서 고소득자는 오바마 후보를 지지하지 않는 경향이 있더라도 그 영향은 A집단과 B집단에서 똑같이 나타난다.


RCT의 강점은 시카고에 산다거나 소득이 높다는 변수뿐만 아니라 어떤 변수에 대해서는 이렇게 말할 수 있다는 점이다. 소득, 교육 수준, 거주 지역, 가족 구성 등 어떤 변수에 대해서든 각 집단이 모두 평균적으로 동등해진다. 그래서 집단 간의 실험 결과에 차이가 나타났다면(오바마 캠프의 경우에는 메일 주소 등록률에 차이가 나타났다면) 그 원인은 실험자의 개입이라고 단정 지을 수 있다.


원칙3 집단별로 충분한 표본수를 채운다

RCT실험을 설계할 경우 세 번째 원칙은 ’각 집단에 충분한 표본수를 채워야 한다‘는 것이다. RCT로 얻은 결과를 검증하고 비교하기 위해 가장 흔히 쓰이는 통계분석은 개입효과의 평균값을 분석하는 것이다. 여기 필요한 계산은 다음 두 가지다.


실험 후 집단별로 평균값을 계산한다

평균값의 차이를 비교한다


기본적으로는 평균값과 뺄셈만으로 개입효과의 평균값을 계산할 수 있다. 단, 통계학을 공부하면서 알게 되겠지만 표본수가 한정된 데이터로 평균값을 계산하면 오차가 발생한다.


예를 들어 오바마 캠프의 사례에서 A집단에 배정된 사람이 10명뿐이었다고 하자. 그중 한 명이 우발적인 이유로 이메일을 등록했다. 우발적인 이유로 인해 평균 등록률이 10퍼센트가 오른 것이다. 실제 오바마 캠프의 실험에서는 A집단에 배정된 사람의 수가 약 1만 명이었다. 그중 누군가 우발적인 이유로 이메일을 등록한다면 평균값은 어떤 영향을 받을까? 여기에는 1만 명의 표본이 있기 때문에 평균등록률은 (이 우발적인 이유에 의해) 0.01퍼센트밖에 오르지 않는다. 즉 표본수가 클수록 우발적인 이유(오차)에 의해 평균값이 크게 변화할 가능성이 줄어든다.


반대로 표본수가 적으면 우발적인 이유로 평균값이 크게 바뀌어버린다. 그래서 A집단과 B집단의 평균 등록률에 차이가 있더라도 그 차이가 우발적인 이유에 의한 것인지 또는 통계적으로 신뢰할 만한 차이인지 판단하기 어려워진다. 이것을 통계 용어로는 ‘통계적으로 의미 있는 차이라고 할 수 없는 상황’이라고 부른다. 이런 사실을 인식하지 않고 데이터를 보면 다음 두 가지 결과를 똑같다고 생각하게 된다.


A집단과 B집단의 평균 등록률 차이는 5퍼센트였다. 참고로 각 집단에는 10명의 표본이 배정되었다.

A집단과 B집단의 평균 등록률 차이는 5퍼센트였다. 참고로 각 집단에는 1만 명의 표본이 배정되었다.


수치는 5퍼센트로 똑같지만 후자의 5퍼센트가 훨씬 신뢰할 만한 숫자다. 통계학 용어로 말하자면 ‘표본수가 클수록 평균값 계산에 표준오차가 작아지고 평균값의 신뢰성이 커진다’.


오바마 선거 캠프의 실험 결과

RCT전문가인 시로커가 오바마 캠프에서 실시한 실험에서는 앞의 세 가지 원칙이 잘 지켜졌다. 그러면 실험 결과는 어땠을까? 애초 오바마 캠프는 시안A와 ‘등록하세요’의 조합이 가장 효과적일 것응로 예상했다. 또는 사진보다 동영상이 등장하는 시안D가 효과적일 것이라는 예상도 있었다. 하지만 뚜껑을 열어보니 예상과는 전혀 다른 결과가 나타났다. 평균 등록률이 가장 높았던 것은 오바마 후보의 가족사진이 담긴 시안B와 ‘더 알아보기’의 조합이었다. 이 시안을 마주한 집단은 11.6퍼센트가 메일링리스트에 등록했다. 예상과 달리 동영상이 들어간 시안은 평균 등록률 순위 3위 안에도 들지 못했고 애초에 효과적일 것이라 예상했던 시안A와 ‘등록하세요’의 조합은 8.26퍼센트의 등록률을 나타냈다.


실험 결과에 따라 오바마 캠프는 평균 등록률이 1위였던 시안B와 ‘더 알아보기’ 조합을 선거 운동에 활용했다. 시로커의 계산에 따르면 AB테스트로 얻은 최적의 화면을 채택함으로써(시안A와 ‘등록하세요’의 조합에 비해) 288만 명의 메일 주소를 추가로 얻을 수 있었고, 그에 따라 약 6000만 달러의 후원금을 추가로 모금할 수 있었다. 웹사이트상의 간단한 실험이 큰 효과를 발휘한 셈이다.

* * *


본 도서 정보는 우수 도서 홍보를 위해 저작권자로부터 정식인가를 얻어 도서의 내용 일부를 발췌 요약한 것으로, 저작권법에 의하여 저작권자의 정식인가 없이 무단전재, 무단복제 및 전송을 할 수 없으며, 원본 도서의 모든 출판권과 전송권은 저작권자에게 있음을 알려드립니다.