지속가능한 세상을 위한 통계 이야기

   
박재용
ǻ
이상북스
   
15000
2022�� 06��



■ 책 소개


교과서를 뛰어넘는 ‘통계’ 이야기
‘통계’를 통해 세상을 읽는다!

우리는 사회의 다양한 현상과 사건들을 이해하기 위해 통계를 내 보기도 하고 그것을 토대로 확률을 계산해 보기도 한다. 복잡한 세상을 이해하고 전망하기 위한 하나의 도구로서 통계와 확률 지식을 사용한다. 이 책은 먼저 통계와 확률의 기본 지식을 설명하고, 그것을 토대로 우리의 삶과 사회를 통계와 확률을 통해 들여다본다. 통계가 보여 주는 사회의 근본 문제를 파악하면서 동시에 통계가 보여 주지 않는 개인의 삶을 함께 살펴봄으로써 지속가능한 세상을 향해 나아갈 길을 모색한다.

■ 저자 박재용
저자 박재용은 개별적 존재로서의 인간에 대한 신뢰와 종으로서의 인간에 대한 회의를 어떻게 조화시킬지 고민하며 글을 쓰는 전업 저술가. 과학과 사회, 과학과 인간, 데이터와 사실이 맞닿는 경계를 공부하고 취재하며, 그 결과를 책으로 내고 있다. ‘탄소 중립으로 지구를 살리자고?’, ‘냉장고를 여니 양자역학이 나왔다’, ‘1.5도, 생존을 위한 멈춤’, ‘중?고등학교 과학토론 완전 정복’(공저) 등 20여 권의 책을 썼다.

■ 차례
들어가며

1장 통계와 확률의 다양한 개념
1. ‘확률형 아이템’에 속지 않기: 독립시행
2. 제비가 낮게 날면 비가 온다: 상관관계와 인과관계
-통계가 보지 못하는 것 1: “I am a man.”
3. 가난한 사람들의 범죄율이 높다: 범주화의 오류?
-통계가 보지 못하는 것 2: 가난이 만든 범죄
4. 비 오는 날 비 맞을 확률: 조건부 확률
5. 맛있는 귤 고르기: 선택편향

2장 거짓말하는 통계
1. ‘가짜 뉴스’는 어떻게 만들어질까?
2. 그래프 제대로 보기
3. 평균의 함정
4. 거짓말탐지기의 증거 능력: 기저율의 오류
5. 하나만 봐서는 안 되는 이유

3장 통계로 사회 읽기
1. 통계가 보여 주는 ‘기후위기’
2. 통계가 가능하게 해 준 ‘새벽 배송’
3. 통계로 보는 ‘교통사고’
4. 백신을 꼭 맞아야 할까?
5. 어른이 되면 어떤 일을 하게 될까?
6. 정말 대학이 인생을 좌우할까?
-통계가 보지 못하는 것 3: 누가 명문대학에 갈까?

4장 지속가능한 세상을 위한 통계
1. 장애인 친구가 드문 이유
-통계가 보지 못하는 것4: 장애인 때문에 약속에 늦었다?
2. 산업재해와 비정규직
-통계가 보지 못하는 것 5: “그 쇳물 쓰지 마라.”
3. 남녀평등 문제는 이제 해결된 걸까?
-통계가 보지 못하는 것 6: 어느 모녀 이야기
4. 자살률1위의 대한민국
-통계가 보지 못하는 것 7: 주거 취약계층 노인들

글을 마치며


 




지속가능한 세상을 위한 통계 이야기


통계와 확률의 다양한 개념

제비가 낮게 날면 비가 온다: 상관관계와 인과관계

날씨의 상관관계

비와 제비, 맑은 날과 거미는 어떤 관계가 있는 걸까요? 제비는 하루살이나 나비, 벌 등 날아다니는 곤충을 잡아먹는 새입니다. 따라서 이들 곤충이 높이 날면 제비도 따라서 높이 날고, 이들이 낮게 날면 제비도 낮게 나는 거죠. 그런데 이 곤충들이 나는 높이는 기압과 관련이 있습니다. 고기압에서는 높게 날고 저기압에서는 낮게 납니다. 사람 눈에 곤충이 나는 높이는 잘 보이지 않습니다. 대신 저기압일 때 곤충을 쫓아 낮게 나는 제비가 보인 거죠.


학교에서 배웠듯이 저기압에선 상승기류가 일어나고, 이에 따라 구름이 생길 확률이 높습니다. 구름이 생기면 비가 올 확률도 높아지지요. 결국 제비가 낮게 날게 된 건 그 이유를 쫓아가 보면 저기압 때문입니다. 비가 오는 것도 그 이유를 쫓아가 보면 저기압 때문이고요. 둘 다 같은 이유로 일어나는 것이니 한쪽 상황이 나타나면 다른 쪽 상황도 나타날 확률이 높아지는 거죠.


이렇게 둘 사이에 한쪽이 일어나면 다른 쪽 현상이 나타나거나 반대로 나타나지 않을 확률이 다른 경우보다 높을 때 이를 ‘상관관계’라고 합니다. 속담이나 속설은 바로 이런 현상을 경험한 사람들이 남긴 것이지요. 하지만 상관관계가 있다고 바로 상관관계 중 한쪽이 다른 쪽의 원인이 되는 ‘인과관계’가 되진 않습니다. 살펴본 것처럼 둘은 동일한 원인에 의한 결과이지 어느 한쪽이 다른 쪽의 원인이 아니기 때문입니다.


가난한 사람들의 범죄율이 높다: 범주화의 오류

범주화의 문제점

이런 나쁜 의미의 범주화에는 세 가지 문제가 있습니다. 첫째, 사실을 왜곡하는 범주화입니다. 예를 들어 외국인은 원래부터 한국인이었던 사람에 비해 범죄율이 높다는 가짜 뉴스가 있습니다. 특히 이 가짜 뉴스가 겨냥하는 외국인은 서유럽이나 미국 출신 외국인이 아니라 동남아시아나 중국 출신 외국인, 그리고 난민을 지칭하는 경우가 대부분입니다. 하지만 우리나라 범죄 통계를 보면 실제 범죄를 저지르는 비율은 외국인보다 내국인이 더 높습니다.


범주화의 두 번째 문제는 사실은 맞지만 그것이 인과관계가 아닐 때 나타납니다. 앞서 이야기한 것처럼 흑인의 범죄율이 백인보다 높은 것은 사실입니다. 그렇다고 흑인이라는 사실이 범죄율이 높은 원인이 되는 걸까요? 우리가 살펴본 바에 따르면 그렇지 않습니다. 흑인이라서 범죄율이 높은 것이 아니라 백인들이 흑인을 차별하고 그 결과 흑인들이 백인보다 더 열악한 환경에서 살기 때문입니다. 사실 자체가 맞는다고 범주화했을 때 이런 문제가 생깁니다. 남성이 여성보다 범죄율이 높다고 남성이라는 생물학적 조건이 범죄율을 높인다고 이야기할 수 있을까요? 앞서 흑인 범죄율 문제를 다루면서 가난한 사람들의 범죄율이 부자보다 높다고 했는데, 그렇다면 가난하다는 조건이 범죄율을 높인다고 말할 수 있을까요?


범주화의 세 번째 문제는 인과관계가 있다고 무조건 범주화를 할 때 생깁니다. 앞서 범죄율을 다루면서 내국인의 경우 인구 10만 명당 피의자가 3.636명이라고 했습니다. 내국인 중 범죄를 저지르는 사람이 3.6%가량이고, 100명당 3-4명이라는 거죠. 남성의 범죄율이 높다고 하니 그 두 배라고 쳐도 100명당 6-7명입니다. 또 가난한 사람들의 범죄율이 높다고 쳐도 100명당 6-7명입니다. 그렇다면 100명당 서너 명의 차이를 가지고 한쪽은 범죄율이 높으니 문제가 있다고 이야기할 수 있을까요?


그렇지 않다는 건 여러분도 잘 아실 겁니다. 두 집단에서 범죄를 저지르지 않는 사람은 100명당 94-97명이나 되기 때문이죠. 두 집단 모두 대부분은 범죄를 저지르지 않습니다. 결국 소수의 문제를 집단 대부분의 문제로 만들기 때문에 이런 범주화 또한 문제가 되는 것입니다. 실제로 우리가 친구를 사귈 때도 남자라고 나보다 가난하다고 어울리지 않는 경우는 별로 없습니다. 그보다 는 개별적인 인성을 더 생각하고 나와 관심사가 같은지 성향이 맞는지를 더 따지지요.


통계를 통한 진짜 원인 찾기

이렇듯 범죄율이 두 배라고 하면 아주 큰 차이가 있는 것 같지 만 실제로 범죄를 저지르는 이들의 수가 전체 집단에서 아주 적을 때 섣부른 범주화는 일정 집단에 대한 잘못된 인식을 심어 주게 됩니다. 아주 작은 비율을 가지고 특정 집단을 범주화할 경우 대표성에 문제가 생기는 것이죠.


이렇듯 범죄라는 하나의 현상을 볼 때도 성급한 범주화는 일정 집단에 대한 주홍글씨처럼 작용할 수 있을 뿐 아니라 범죄율을 낮추는 데에도 전혀 도움이 되지 않는다는 사실을 알 수 있습니다.



거짓말하는 통계

‘가짜 뉴스’는 어떻게 만들어질까?

우리는 휴대전화나 컴퓨터로 여러 가지 뉴스를 집합니다. 인터넷 포털 사이트에서 뉴스를 보기도 하고 카카오톡이나 인스타그램 또는 페이스북으로도 뉴스를 접하지요. 그런데 그중에는 우리에게 잘못된 정보를 제공하는 ‘가짜 뉴스’도 생각보다 많습니다. 이 가짜 뉴스가 교묘한 것은 내용 전부가 거짓이 아니라 일부는 사실이기도 해서 우리를 헷갈리게 하기 때문입니다. 그 ‘사실’ 부분이 공신력 있는 곳의 통계일 경우에는 사실에 더해진 거짓말을 믿게 되기가 더욱 쉽겠지요. ‘사실’인 통계가 알려 주는 ‘거짓말’에 대해 한번 알아보겠습니다.


숨어 있는 진실

인터넷에 떠돌던 가짜 뉴스를 조금 수정해서 아래와 같은 문장을 만들었습니다. 맞는 말일까요?


2020년 우리나라 GDP는 1960년에 비해 421배 커졌다고 통계청에서 발표했다. 즉 우리 국민은 1960년에 비해 400배 이상 더 잘 산다.


일단 1960년에 비해 2020년의 우리나라 인구가 훨씬 많습니다. 1960년 우리나라 인구는 2501만 명이었고, 2020년에는 5128만 명으로 1960년 인구의 두 배가 넘죠. GDP는 1년 동안 한 나라에서 생산한 부가가치의 총량이니 1인당 GDP로 계산해 보려면 인구로 나눠야 합니다. 그러면 2020년 1인당 GDP는 1960년의 421배가 아니라 210배 정도가 됩니다.


그리고 물가 수준이 지속적으로 상승하는 현상인 인플레이션(Inflation)을 생각해야 합니다. 대부분 매년 물가가 조금씩 오릅니다. 제가 좋아 하는 잔치국수는 10년 전 3000-4000원이었는데 요즘은 5000원 정도 합니다. 25% 정도 오른 거죠. 품목에 따라 다르지만 우리나라의 경우 모든 물건의 가격이 매년 조금씩 올랐습니다. 그러니 60년 전의 1만 원은 2020년의 1만 원과 명목상으로는 같은 금액 이지만 그 돈으로 살 수 있는 물건은 많이 다릅니다. 예를 들어 라면은 1960년에 한 봉지에 10원 정도였지만 지금은 최소한 400원이니 약 40배가 오른 셈입니다. 돈의 가치가 달라진 것입니다.


이렇게 인구 변화와 물가 인상을 모두 따지면, 1960년 1인당 실질 GDP는 133만원이고 2020년은 3523만 원으로 우리나라 국민 1인당 GDP 증가율은 실제로는 26배 정도입니다. 물론 26배도 매우 경이적인 성장이지만 저 뉴스는 명백한 가짜 뉴스인 거죠.


GDP는 나라 전체에 해당하는 수치이므로 국민 개개인의 소득과 직접 연결되지 않습니다. 그런데도 이 가짜 뉴스를 만든 이는 GDP가 곧 국민 개개인의 소득과 연결되는 것처럼 만든 것입니다. 실제로 2022년 현재 전 세계 GDP 1위는 미국이고 2위는 중국입니다. 그러나 두 나라 모두 인구가 아주 많기 때문에 1인당 GDP에서는 전 세계 5위 안에도 들지 못합니다.


평균의 함정

대푯값 찾기

다섯 학생이 소속된 어느 모둠의 수학 점수가 100, 50, 45, 60, 55라고 해 봅시다. 이 경우 평균을 내면 62점이 나옵니다. 그런데 평균보다 높은 점수를 받은 학생은 100점을 맞은 한 명밖에 없고 나머지 네 명은 모두 평균 아래입니다. 100점을 맞은 학생 덕분에 전체 평균이 올라간 것입니다.


이럴 때 쓸 수 있는 다른 대푯값이 중간값입니다. 전체 성적을 높은 순서로 나열하면 100-60-55-50-45입니다. 이때 가운데 있는 성적은 55점이지요. 이렇게 표본의 숫자 중 가운데 위치하는 값을 중간값이라고 합니다. 이 경우에는 중간값이 평균값보다 모둠의 성적을 더 잘 대표하고 있다고 할 수 있습니다.


또 다른 대푯값으로 최빈값도 있습니다. 가령 어느 중학교 2학년 1반 학생들의 영어 점수를 높은 순서대로 나열했더니 다음과 같았습니다. 100-90-85-85-80-80-80-80-80-75-75-75-75-75-75-75-75-70-70-70-65-60-55-50-0. 0점을 받은 친구는 답안지 표기를 실수해서 0점 처리가 되었다고 하죠. 이때 평균은 72점입니다. 0점을 받은 친구 때문에 반 평균이 확 내려간 것인데, 이 또한 평균의 함정이라고 할 수 있습니다.


그러면 중간값을 잡으면 어떻게 될까요? 75점이 중간이네요. 그런데 이 경우 그냥 눈으로만 봐도 75점을 받은 학생이 가장 많지요? 이렇게 표본 중 가장 많이 등장하는 수를 최빈값이라고 합니다. 이 경우에는 최빈값을 전체 점수를 대표하는 값으로 삼아도 문제가 되지 않습니다.


평균이 대푯값이 된다면

평균은 특정 표본을 대표하는 값으로 의미를 가지지만, 이렇게 평균에만 기대어 대상을 바라보면 의도치 않게 실상을 놓칠 수도 있습니다.


가령 국가별 1인당 국민총소득(GN)I 이라는 통계를 생각해 보죠. 한국은행이 발표한 2021년 우리나라 1인당 GNI는 3만 5168달러입니다. 약 4천 220만 원입니다. 즉 작년 한 해 우리나라 국민 1인당 4천220만 원을 벌었다는 거죠. 3인 가족 기준으로 생각하면, 한 가족이 1년에 1억 2660만 원 정도의 소득이 있다는 뜻입니다. 이것은 평균값에 해당합니다.


그런데 보건복지부에서 정한 우리나라 2022년 중위소득은 3인 가족 기준으로 419만 4701원입니다. 1년으로 따지면 약 5033만 원입니다. 중위소득은 중간값입니다. 즉 우리나라 사람들을 소득이 제일 많은 사람부터 제일 적은 사람까지 일렬로 세울 때 딱 중간에 해당하는 소득을 이야기하지요.


1인당 GNI가 중위소득에 비해 두 배 이상 높습니다. 이것은 앞서 살펴본 모둠에서 100점인 학생 덕분에 나머지 학생의 점수가 50점 내외인데 평균이 62점이 된 것과 비슷한 상황입니다. 격차는 더 크고요. 이렇게 된 이유는 우리나라 상위 20%의 소득이 워낙 높기 때문입니다. 이들 중 상위 10%는 월평균 약 1150만원 의 소득을 올립니다. 1년으로 치면 약 1억 3800만 원이죠. 상위 10%와 그 아래 10%의 차이는 420만 원이나 됩니다.


이런 상황이라 상위 10%가 버는 소득은 우리나라 전체 소득 의 46.5%나 됩니다. 반면 소득이 낮은 하위 50%의 경우 전체의 16.0%밖에 되지 않습니다. 이러니 소득 평균, 즉 1인당 GNI는 우리나라 전 국민의 소득을 대표하는 값으로 의미를 가지지 못하는 것이지요.


우리나라 1인당 GNI는 세계 24위입니다. 우리나라보다 높은 나라 중 싱가포르와 같은 도시국가나 카타르, 브루나이, 아랍에미리트연합, 노르웨이, 쿠웨이트, 사우디아라비아 같은 산유국을 빼면 16위정도 됩니다. 그러나 이 평균이 우리나라를 대표하는 값이 될 수 없다는 사실이 슬프지요. 우리 중 85% 정도는 저 평균값보다 소득이 적으니까요. 평균값이 정말 대푯값이 될 수 있어야 다 같이 행복한 사회가 될 수 있겠지요.


거짓말탐지기의 증거 능력: 기저율의 오류

거짓말탐지기의 오류

이와 비슷한 경우로 거짓말탐지기가 있습니다. 거짓말탐지기는 거짓말을 할 때 나타나는 신체의 변화를 통해 거짓말을 가려냅니다. 우리는 대개 거짓말을 할 때 자기도 모르게 긴장하게 되어 호흡이 가빠지고, 심장박동수도 빨라지며, 혈압이 올라가고, 땀을 흘립니다. 이런 변화에 따라 피부에 흐르는 전기량도 변하고요. 거짓말탐지기는 이런 변화를 감지해 거짓말을 구분합니다.


그런데 TV 예능 프로그램에 나오는 간단한 거짓말탐지기는 정확성이 많이 떨어지며, 과학수사연구소에서 사용하는 고성능 거짓말탐지기도 100% 확실하다고는 할 수 없습니다. 과학수사연구소의 거짓말탐지기는 정확도가 97% 정도라고 합니다.


이것을 ‘기저율의 오류’라고 합니다. 어떤 사건이 발생할 확률(기저율), 이 경우에는 범죄율이 아주 적은 경우에 발생하는 오류입니다. 잘못 판단할 확률이 아주 낮아도(거짓말탐지기의 잘못 판단할 확률은 3%였습니다) 결과를 보면 커다란 오류가 발생하는 거죠.


그래서 법원의 판례를 보면, 거짓말탐지기의 결과를 증거로 인정하기 위해 두 가지 조건이 충족되어야 한다고 나옵니다. 우선 거짓말을 하면 반드시 일정한 심리상태의 변동이 나타나야 하고, 그 다음 그로 인해 반드시 일정한 생리적 반응을 일으켜야 합니다. 이러한 반응에 따라 거짓인지 아닌지가 정확히 판정될 수 있다는 것 입니다. 이렇게 엄격하게 증거능력을 제한하고 있기 때문에 거짓말 탐지기가 실제 법원에서 증거로 인정되는 경우는 거의 없습니다.


하나만 봐서는 안 되는 이유

통계를 기초로 한글을 읽다 보면 통계를 해석하는 여러 방법 이 있는 경우가 종종 있습니다. 예를 들어 다음과 같은 통계를 생각해 보죠. A라는 집단과 B라는 집단의 소득을 비교했더니 A집단은 월 300만 원을 벌, B집단은 350만 원을 번다고 나왔습니다. 통계를 보면 두 집단 모두 우리나라 평균 소득 정도지요. 이때 두 집단의 차이는 50만 원입니다. 그 차이가 아주 크다는 생각은 들지 않습니다. 이 통계에 근거해 어떤 이가 두 집단의 차이가 별로 없다고 이야기할 수 있습니다.


하지만 여기서 한 가지 더 조사를 합니다. 바로 두 집단의 월 생활비를 확인하는 것입니다. A집단의 경우 월 260만 원을, B집단은 월 270만 원을 생활비로 쓴다고 가정합시다. 왜 이렇게 차이가 적게 나는 걸까 생각해 봅니다.


일단 쉽게 드는 생각은 어차피 하루 세끼 먹고, 차타고 다니고, 아이 기르는 것은 다 비슷할 테니 생활비에서 큰 차이가 날 이유가 있을까 하는 것입니다. 하지만 그렇지 않습니다. 먼저 아이들이 다니는 학원을 한 반에 서너 명만 다니는 소수 정예 학원으로만 바꿔도 너끈히 10만 원은 차이가 날 수 있지요. 거기에 음식 재료를 유기농 친환경으로 바꿔도 몇 만 원 차이는 납니다. 자녀 용돈을 월 2-3만원 올려 주는 것도 생각해 볼 수 있고요. 부모님 용돈을 몇 만 원 더 드리는 것에서도 쉽게 차이가 날 수 있습니다.


분위별 소득과 소비지출

1분위는 소득은 53만 9271원인데 지출이 110만 2573원으로, 지출이 더 많습니다. 매달 적자를 보는 거죠. 1년이면 600만 원 넘게 빚을 지게 됩니다. 비소비지출을 합치면 적자는 더 늘어납니다. 2분위의 경우 소득과 지출이 거의 같습니다. 하지만 여기도 비소비지출을 더하면 적자를 보게 되지요. 이런 경우 지출하게 되는 생활비는 말 그대로 최소일 수밖에 없습니다.


이렇게 소득 수준이 낮은 가구는 거주하는 집도 전세나 월세인 경우가 많을 터인데, 돈이 없다고 집세를 내지 않을 수는 없지요. 또 돈을 벌지 못한다고 밥을 굶을 수도 없고, 자녀가 있는 경우 최소한의 교육비도 지출해야 합니다. 그야말로 최소한의 생활비 지출인 것입니다.


더구나 여기에는 고려사항이 하나 더 있습니다. 같은 가구라고 하더라도 구성원 수에 차이가 있습니다. 1분위나 2분위처럼 소득이 낮은 가구는 가구원 수가 적습니다. 분위가 올라갈수록 평균 가구원이 많아지지요. 두 명이 살 때보다 세 명이 살면 같은 수준이라도 지출하는 금액이 더 큰 건 당연합니다. 따라서 1분위에서 6분위 사이의 지출 증가액은 소득 증가의 영향과 함께 가구원 수가 늘어나는 것에도 영향을 받습니다. 이를 고려하면 1인당 지출 증가액은 이 표보다 더 적다는 걸 알 수 있지요.


이처럼 통계 자료를 볼 때는 여러 가지 측면에서 해석할 여지가 있기 때문에 조심스럽게 다루어야 하고, 한 가지 자료만 가지고 분석할 수 없는 것입니다.


* * *


본 도서 정보는 우수 도서 홍보를 위해 저작권자로부터 정식인가를 얻어 도서의 내용 일부를 발췌 요약한 것으로, 저작권법에 의하여 저작권자의 정식인가 없이 무단전재, 무단복제 및 전송을 할 수 없으며, 원본 도서의 모든 출판권과 전송권은 저작권자에게 있음을 알려드립니다.