북집 지식DB

데이터 분석의 힘

지은이 : 이토 고이치로(역:전선영)

출판사 : 인플루엔셜

출판일 : 2018년 04월

2017년 출간 직후 일본 아마존 경제 1위, 제39회 산토리 학예상 및 제60회 닛케이경제도서문화상을 동시 수상하며 학계와 대중으로부터 뜨거운 관심을 받은, 빅데이터 시대를 위한 데이터 분석 입문서. 듣기만 해도 어려운 데이터 분석 이론들을 흥미로운 사례와 함께 설명해 전문가가 아니어도 쉽게 이해할 수 있도록 썼다. 정말

데이터 분석의 힘

프롤로그_ 여기 데이터가 있습니다. 분석할 줄 아십니까?
일상에서 데이터 분석이 필요해졌다

빅데이터로 상징되는 정보기술의 발전과 통신 혁명이 눈앞에 펼쳐지고 있다. 우리의 일상생활이나 비즈니스에 대한 다양한 정보가 매 순간 데이터로 기록된다. 이는 개인과 기업, 정부가 비교적 쉽게 대량의 데이터를 손에 넣을 수 있게 되었음을 의미한다. 이런 현상은 우리 삶에 어떤 변화를 일으킬까? 전문직 종사자뿐 아니라 다양한 분야의 직장인에게 수없이 만들어지는 데이터를 이해하고 활용할 줄 아는 힘, 즉 데이터 분석력이 필요해졌다고 할 것이다.

“다음 분기에 매출 증가를 위해 어떤 광고 전략을 써야 할지 알고 싶군요. 과거 광고의 매출 데이터를 분석해서 광고가 매출에 미치는 영향을 조사해주세요.”

어느 기업의 영업부나 마케팅부에서 흔히 들을 수 있는 대화다. 인사부에서도 이런 대화가 오간다. “사원들의 업무 효율을 높일 방법이 궁금하군요. 사원이 회사 내에서 근무한 시간과 외근에 사용한 시간 그리고 영업 실적을 보면 노동시간이 영업 실적에 미친 영향을 알 수 있지 않을까요?”

이런 변화가 찾아온 곳은 기업만이 아니다. 관공서나 학교 등 비영리기관에서 근무하는 사람들도 이전보다 훨씬 많은 데이터를 접하게 되면서 직업 데이터를 분석하거나 누군가의 데이터 분석 결과를 이용할 일이 많아졌다. 일본의 관공서에서는 이런 말을 흔히 들을 수 있다. “작년에 실시한 보고금 정책이 어느 정도 효과가 있었는지 분석해서 재무성에 보고해야 합니다. 다음주까지 보조금은 받은 기업의 데이터를 분석해 주세요.”

마찬가지로 학교 같은 교육 현장에서도 수업 평가 등이 중요해지면서 이런 말을 쉽게 듣게 될 것이다. “어떤 교재가 가장 효과가 있었는지 알아봐야겠어요. 학생들의 이해도 데이터를 모아 분석해봅시다.”

재료가 같아도 장인의 초밥이 맛있는 까닭

데이터 분석에는 초밥 장인과 같은 마음가짐이 필요하다. 맛있는 초밥을 만들려면 세 가지가 필요하다고 한다. 첫 번째는 훌륭한 재료를 준비하는 일이고 두 번째는 그 재료의 감칠맛을 살릴 칼솜씨를 갖추는 일이다. 아무리 훌륭한 재료라도 적절한 각도로 잘라내는 기술이 없으면 감칠맛이 나지 않는다고 한다. 마지막 세 번째는 눈앞의 손님이 바라는 맛이나 요리를 제공하는 것이다.

데이터 분석에 대해서도 똑같은 이야기를 할 수 있다. 정보통신 혁명에 의해 많은 사람이 비교적 쉽게 좋은 데이터(재료)를 손에 넣게 되었다. 정말 멋진 일이다. 하지만 데이터를 어떤 각도로 자를지를 결정하는 감각이나 사고법을 익히지 않으면 애써 구한 재료를 살릴 수가 없게 된다. 또 아무리 멋지게 데이터를 분석했더라도 이런 질문에 답을 주지 못한다면 잔뜩 모은 데이터는 보기에는 좋아도 아무 쓸모 없는, 그야말로 빛 좋은 개살구가 되어버린다.

1장 정말 광고가 아이스크림 매출을 올렸을까 : 데이터의 상관관계는 인과관계가 아니다

당신이 아이스크림 회사의 마케팅부에 소속되어 있다고 하자. 현재 회사에서는 매출을 높이기 위해 웹사이트에 광고를 띄우려고 한다. 당신은 상사로부터 광고를 집행하면 매출이 얼마나 오를지 데이터를 분석하라는 지시를 받았다. 이를 위해 과거의 데이터를 살펴본 당신은 다음과 같은 사실을 알게 되었다.

2010년 회사가 아이스크림 광고를 인터넷에 띄웠다. 그랬더니 광고를 하지 않았던 2009년에 비해 매출이 40퍼센트 늘었다. 그래서 당신은 상사에게 다음과 같이 보고했다. “분석 결과, 광고 덕분에 2010년 매출이 2009년에 비해 40퍼센트 상승했습니다.” 하지만 이 결론은 틀렸을 수도 있다. 왜 그럴까? 여기서 문제는 당신의 데이터 분석에서 다음과 같은 인과관계(causal relationship 혹은 causality라고 한다)를 이끌어낼 수 있느냐는 것이다.

예를 들어 2010년 여름 날씨가 2009년 여름보다 훨씬 무더웠다면 어떨까? 실제로 일본의 경우 2009년 여름은 평년보다 서늘했고 2010년 여름은 혹독하게 더웠다. 그렇다면 40퍼센트의 매출 상승은 광고의 영향이 아니라 단순히 기오니 높았던 탓은 아니었을까?

그밖에도 다양한 이유를 생각할 수 있다. 이를테면 일본에서는 2008년 세계 금융위기 이후 소비가 얼어붙었다가 2010년 즈음부터 조금씩 회복세를 보이기 시작했다. 그렇다면 40퍼센트의 매출 상승은 광고의 효과가 아니라 단순히 전체적인 경기가 좋아지면서 소비자들의 씀씀이가 늘어난 탓은 아니었을까?

인과관계는 상관관계와 다르다

두 가지 데이터가 서로 유기적으로 움직일 경우 통계학에서는 ‘상관관계가 있다’고 표현한다. 사실 데이터가 있다면 상관관계를 계산하기는 쉽다. 그래프를 그려서 두 데이터의 관련성을 조사할 수도 있고 엑셀 같은 소프트웨어로 상관관계 값을 간단히 계산할 수도 있다.

문제는 X와 Y의 상관관계가 밝혀져도 그것만으로는 인과관계가 있다고 말할 수 없다는 점이다.

엉터리 데이터 분석이 넘쳐난다

뉴스나 신문에는 상관관계와 인과관계를 혼동한 수상한 분석 결과가 넘쳐난다. 더욱 문제는 수상쩍은 분석 결과에 근거한 단순한 상관관계가 마치 인과관계처럼 포장되어 시청자나 독자를 속이는 경우가 많다는 점이다.

다음은 필자가 읽은 신문기사에서 발췌한 것이다.

어느 기업에서는 사장이 바뀐 다음 해에 주가가 상승했다. 이것은 새로운 사장의 개혁이 이뤄낸 성과다.

-사장이 바뀐 것 말고도 주가가 상승한 다른 요인이 있을 수 있다.

정부가 수억 엔의 보조금을 교부한 후 각 지역의 소비가 증가했다. 이것은 보조금이 지역 경제를 활성화한 증거다.

-보조금 외에도 소비가 증가한 다른 요인이 있을 수 있다.

어느 학교가 새로운 교과과정을 도입했다. 그러자 학생의 이해도와 성적이 전년도에 비해 향상되었다. 이것은 새로운 교과과정이 과거의 교과과정보다 우수하다는 의미다.

-교과과정 도입 외에도 성적에 영향을 미칠 만한 다른 변화가 있었을 수 있다.

데이터 분석 결과 아파트 고층에 사는 여성의 불임률이 높다는 사실이 밝혀졌다. 그러므로 아이를 낳고 싶은 여성은 아파트 고층에 살지 않는 것이 좋다.

-아파트 고층에 사는 여성과 저층에 사는 여성은 소득, 연령, 직업 등 다양한 요인이 다를 가능성이 있다. 따라서 고층에 사는 것이 진짜 불임의 원인인지는 분명하지 않다.

전력 시장을 자유화한 국가의 전력 가격은 그렇지 않은 국가에 비해 비싸다. 따라서 전력 시장을 자유화하면 전력 가격이 올라간다.

-전력 시장을 자유화한 국가와 그렇지 않은 국가는 다양한 요인이 다르므로 자유화 자체가 전력 가격에 영향을 주었는지는 분명하지 않다. 애초에 전력 가격이 높은 국가일수록 자유화에 주력한다는 역인과관계도 있을 수 있다.

이런 기사를 얼핏 보고 지나치면 모든 것을 인과관계로 파악하기 쉽다. 그러나 조금만 생각해보면 ‘’X가 Y에 영향을 미쳤다고 결론지었지만 다른 요인 V도 영향을 미치지 않았을까?, ‘어쩌면 Y가 X에 영향을 미쳤을 수도 있지 않을까?’ 하는 의문이 생긴다. 하지만 안타깝게도 신문이나 텔레비전에 나오는 많은 주장이 상관관계를 인과관계처럼 포장하고 있다.

잠복변수 V를 모두 찾을 수 있을까?

상관관계와 인과관계를 구분하는 전통적인 방법이 있다. ‘잠복변수 V(분석에서 놓치거나 고려하지 않은 변수, 원서에서는 V데이터라 표기했으나 학계에서 통용되는 잠복변수 lurking variable ㅍFH 변역함-옮긴이)’를 최대학 모은 다음 통계분석에 의해 V의 영향을 배제하는 것이다. 문제는 아무리 많은 잠복변수 V를 모아도 다른 요인이 영향을 미쳤을 가능성을 완전히 배제하지 못한다는 점이다.

또 잠복변수 V에는 도저히 데이터가 입수되지 않는 것도 있다. 아이스크림 사례의 경우 기온이나 경제활동의 변화는 데이터로 수집될지 모른다. 하지만 소비자의 기호 변화, 인터넷 광고의 조회수 증가 등 잠복변수 V의 후보는 계속 나오고 그중에는 데이터로 존재하지 않는 것도 많다.

문제는 데이터 수가 아니라 ‘편향’이다

빅데이터로 상징되는 정보통신기술의 발달로 이전보다 많은 데이터를 모을 수 있게 되었다. 그러나 안타깝게도 빅데이터는 지금까지 설명한 인과관계의 문제를 근본적으로 해결해주지 않는다. 지금까지 설명한 인과관계의 문제는 통계학 용어로 ‘편향(bias)’이라 불린다. 영어 ‘바이어스(bias)’를 직역하면 분석으로 얻은 추정치의 치우침‘이라는 뜻이다.

통상적으로 데이터 관측수가 늘어나면 장점이 많다. 그러나 안타깝게도 데이터 관측수가 아무리 늘어나도 편향 문제는 해결되지 않는다는 사실이 수학적으로 증명되었다. 그래서 빅데이터가 모든 것을 해결해준다는 주장은 적어도 인과관계 분석에는 들어맞지 않는다.

오바마 캠프는 어떻게 후원금을 ‘더’ 모았을까 : 최선의 데이터 분석법, RCT

미국 대통령 선거는 얼마나 많은 지지자에게서 후원금을 모으느냐에 승패가 달려 있다고 해도 과언이 아니다. 그 때문에 각 후보 진영은 다양한 전략으로 후원금을 모은다. 2008년 대통령 선거에서 오바마 캠프는 구글에서 댄 시로커를 영입해 후원금 모금을 맡겼다. 시로커는 구글에서 RCT를 이용한 데이터 분석으로 최적의 광고 전략을 짜왔다. 오바마는 시로커의 데이터 분석 능력과 구글의 RCT노하우가 선거 전략에 도움이 되리라 생각했다.

시로커는 오바마 후보의 웹사이트 디자인에 공을 들임으로써 수많은 웹사이트 방문자들을 메일링리스트에 가입시켰다. 사람들이 자신의 메일 주소를 등록해주면 각종 메일을 보내 후원금을 효율적으로 모을 수 있다.

오바마 캠프는 웹사이트의 시작 페이지 시안을 여섯 개나 준비했다. 시안A는 오바마 후보가 지지자들에게 둘러싸여 있는 사진, 시안 B는 오바마 후보의 가족사진, 시안C는 오바마 후보의 얼굴 사진을 실었고 시안D는 오바마 후보의 유명한 연설 동영사이 재생되게 했다. 이외에도 두 가지 동영상이 더 준비되었으므로 화면 시안은 모두 여섯 개였다.

오바마 캠프는 시작 페이지에 표시되는 버튼(클릭하면 메일 주소를 적는 페이지로 이동한다)에도 특별한 장치가 필요하다고 생각했다. 각각 ‘등록하세요(Sign UP)’, ‘지금 바로 등록하세요(Sign UP Now)’, ‘더 알아보기(Leam More)’, ‘지금 바로 가입하세요(Join Us Now)’라는 뜻이다. 여섯 개의 화면 시안과 네 개의 메시지 시안을 조합하면 모두 24개의 조합이 만들어진다.

그러면 어느 화면 시안과 메시지의 조합이 메일링리스트의 가입률을 높여줄까? 내부 논의와 투표 결과 시안A와 ‘등록하세요’의 조합이 가장 효과적일 것이라는 결론이 나왔다. 일반 기업의 의사결정이었다면 “논의 결과 시안A와 ‘등록하세요’의 조합이 가장 좋을 듯하다는 결론이 나왔으므로 이 안으로 가겠습니다” 하고 끝나기 마련이다. 그러나 구글에 재직하면서 실험을 적극적으로 도입했던 시로커는AB테스트를 해보자고 제안했다. AB테스트는 RCT를 지칭한다. 그렇다면 시로커는 어떤 식의 RCT를 실시했을까?

2007년 일정 기간 동안 약 31만 명이 오바마 후보의 웹사이트를 방문했다. 캠프틑 그들 한 명 한 명에게 24개의 디자인 시안 중 무작위로 뽑힌 하나만 보이게 했다. 무작위라는 말이 그다지 와닿지 않는다면 ‘제비뽑기’와 같은 것이라고 생각하면 이해가 쉬울 것이다. 웹사이트 방문자는 자신이 선호하는 특정한 디자인을 고르는 것이 아니라 24개의 디자인 가운데 ‘제비뽑기’로 뽑힌 하나의 디자인만 보게 된다. 31만 명이 24개 집단에 고르게 배정되어 각각의 집단에는 약 1만 3000명이 속하게 된다.

오바마 캠프는 ‘메일 주소 등록률’이 가장 높았던 디자인을 최적의 디자인으로 특정하고 이후 선거 운동에 사용했다. 이제부터는 이 사례를 통해 RCT의 원칙을 짚어보자.

원칙1 적절하게 집단을 나눈다

RCT를 실시할 때는 세 가지 원칙을 지켜야 한다. 첫째, 실험으로 해결하려는 문제의 답이 나오도록 집단을 적절하게 나눠야 한다. 우선 비교집단을 정의한다. 비교집단이란 비교의 대상이 되는 집단을 가리킨다. 오바마 캠프의 사례에서는 ‘오바마 캠프가 꼽은 최적의 웹사이트 디자인에 비해 다른 디자인들은 얼마나 효과적인가?’라는 것이 문제였기 때문에 시안A와 ‘등록하세요’ 메시지의 조합을 비교집단으로 정했다.

다음으로 개인집단을 만든다. 오바마 캠프의 사례에서는 ‘시안A와 ’등록하세요‘의 조합 외에 23개의 조합이 있었으므로 비교집단 하나에 23개의 개입집단이 만들어졌다.

원칙2 집단은 반드시 무작위로 나눈다

RCT에서 가장 중요한 것은 ’집단은 반드시 무작위로 나눈다‘라는 것이다. 왜 무작위로 집단을 나누는 것이 중요할까? 앞서 오바마 캠프가 무작위로 집단을 나누지 않았을 경우를 생각해 보자. 여기에는 자신의 선택에 따라 집단을 나누는 방법만 있는 것이 아니다. 이를테면 거주 도시를 기준으로 집단을 나누면 어떨까? 시카고 사람에게는 시안A를 보여주고 뉴욕 사람에게는 시안B를 보여준다고 하자. 만약 시안A가 시안B보다 메일 주소 등록률이 높았다면 ’시안A가 시안B보다 효과적이었다‘고 결론 내릴 수 있을까?

두 집단은 서로 다른 디자인을 보았다는 점 말고도 다른 차이점(V)이 있을 수 있기 때문에 인과관계를 판단하기 어렵다. 예를 들어 다음과 같은 가능성을 생각해볼 수 있다. 오바마 후보의 지역 기반인 시카고에는 많은 지지자가 있다. 그러므로 A집단의 등록률이 높았던 것은 시안A 자체의 효과가 아니라 단순히 시카고 사람을 A집단에 배정한 탓일지도 모른다. 그러므로 집단을 무작위로 나누지 않았을 경우에는 ’진짜 요인이 무엇이었나?‘라는 질문에 제대로 답하지 못하게 된다.

그러면 무작위로 집단을 나누면 어떨까? 다시 말하지만 무작위란 제비뽑기와 같다. 제비뽑기의 결과 모든 사람이 24분의 1의 확률로 어느 한 집단에 들어가게 된다. 그러면 어떻게 될까? 예를 들어 시카고 사람을 무작위로 배치한다고 하자. 그러면 시카고 사람은 24분의 1의 확률로 어느 한 집단에 들어가게 된다. 24개의 집단에 속한 시카고 주민의 수가 거의 같아지는 것이다. 따라서 시카고 주민은 오바마 후보를 지지할 가능성이 높더라도 그 영향은 A집단과 B집단에서 똑같아진다.

그렇다면 고소득자는 오바마 후보를 지지하지 않는 경향이 있다면 어떨까? 이것도 결론은 똑같다. 무작위로 집단을 나누면 전혀 문제되지 않는다. 고소득자건 저소득자건 24분의 1의 확률로 한 집단에 들어가게 된다. 따라서 고소득자는 오바마 후보를 지지하지 않는 경향이 있더라도 그 영향은 A집단과 B집단에서 똑같이 나타난다.

RCT의 강점은 시카고에 산다거나 소득이 높다는 변수뿐만 아니라 어떤 변수에 대해서는 이렇게 말할 수 있다는 점이다. 소득, 교육 수준, 거주 지역, 가족 구성 등 어떤 변수에 대해서든 각 집단이 모두 평균적으로 동등해진다. 그래서 집단 간의 실험 결과에 차이가 나타났다면(오바마 캠프의 경우에는 메일 주소 등록률에 차이가 나타났다면) 그 원인은 실험자의 개입이라고 단정 지을 수 있다.

원칙3 집단별로 충분한 표본수를 채운다

RCT실험을 설계할 경우 세 번째 원칙은 ’각 집단에 충분한 표본수를 채워야 한다‘는 것이다. RCT로 얻은 결과를 검증하고 비교하기 위해 가장 흔히 쓰이는 통계분석은 개입효과의 평균값을 분석하는 것이다. 여기 필요한 계산은 다음 두 가지다.

실험 후 집단별로 평균값을 계산한다

평균값의 차이를 비교한다

기본적으로는 평균값과 뺄셈만으로 개입효과의 평균값을 계산할 수 있다. 단, 통계학을 공부하면서 알게 되겠지만 표본수가 한정된 데이터로 평균값을 계산하면 오차가 발생한다.

예를 들어 오바마 캠프의 사례에서 A집단에 배정된 사람이 10명뿐이었다고 하자. 그중 한 명이 우발적인 이유로 이메일을 등록했다. 우발적인 이유로 인해 평균 등록률이 10퍼센트가 오른 것이다. 실제 오바마 캠프의 실험에서는 A집단에 배정된 사람의 수가 약 1만 명이었다. 그중 누군가 우발적인 이유로 이메일을 등록한다면 평균값은 어떤 영향을 받을까? 여기에는 1만 명의 표본이 있기 때문에 평균등록률은 (이 우발적인 이유에 의해) 0.01퍼센트밖에 오르지 않는다. 즉 표본수가 클수록 우발적인 이유(오차)에 의해 평균값이 크게 변화할 가능성이 줄어든다.

반대로 표본수가 적으면 우발적인 이유로 평균값이 크게 바뀌어버린다. 그래서 A집단과 B집단의 평균 등록률에 차이가 있더라도 그 차이가 우발적인 이유에 의한 것인지 또는 통계적으로 신뢰할 만한 차이인지 판단하기 어려워진다. 이것을 통계 용어로는 ‘통계적으로 의미 있는 차이라고 할 수 없는 상황’이라고 부른다. 이런 사실을 인식하지 않고 데이터를 보면 다음 두 가지 결과를 똑같다고 생각하게 된다.

A집단과 B집단의 평균 등록률 차이는 5퍼센트였다. 참고로 각 집단에는 10명의 표본이 배정되었다.

A집단과 B집단의 평균 등록률 차이는 5퍼센트였다. 참고로 각 집단에는 1만 명의 표본이 배정되었다.

수치는 5퍼센트로 똑같지만 후자의 5퍼센트가 훨씬 신뢰할 만한 숫자다. 통계학 용어로 말하자면 ‘표본수가 클수록 평균값 계산에 표준오차가 작아지고 평균값의 신뢰성이 커진다’.

오바마 선거 캠프의 실험 결과

RCT전문가인 시로커가 오바마 캠프에서 실시한 실험에서는 앞의 세 가지 원칙이 잘 지켜졌다. 그러면 실험 결과는 어땠을까? 애초 오바마 캠프는 시안A와 ‘등록하세요’의 조합이 가장 효과적일 것응로 예상했다. 또는 사진보다 동영상이 등장하는 시안D가 효과적일 것이라는 예상도 있었다. 하지만 뚜껑을 열어보니 예상과는 전혀 다른 결과가 나타났다. 평균 등록률이 가장 높았던 것은 오바마 후보의 가족사진이 담긴 시안B와 ‘더 알아보기’의 조합이었다. 이 시안을 마주한 집단은 11.6퍼센트가 메일링리스트에 등록했다. 예상과 달리 동영상이 들어간 시안은 평균 등록률 순위 3위 안에도 들지 못했고 애초에 효과적일 것이라 예상했던 시안A와 ‘등록하세요’의 조합은 8.26퍼센트의 등록률을 나타냈다.

실험 결과에 따라 오바마 캠프는 평균 등록률이 1위였던 시안B와 ‘더 알아보기’ 조합을 선거 운동에 활용했다. 시로커의 계산에 따르면 AB테스트로 얻은 최적의 화면을 채택함으로써(시안A와 ‘등록하세요’의 조합에 비해) 288만 명의 메일 주소를 추가로 얻을 수 있었고, 그에 따라 약 6000만 달러의 후원금을 추가로 모금할 수 있었다. 웹사이트상의 간단한 실험이 큰 효과를 발휘한 셈이다.

* * *