오늘날 전 세계의 수많은 사람들은 ‘AI 소사이어티’에서 새로운 삶을 살고 있다. 상품 추천 시스템이나 자율 주행 자동차를 당연하게 받아들이고, 더 나은 AI 서비스를 이용하기 위해 기꺼이 자신의 사생활과 감정을 기계와 공유한다.
AI 소사이어티는 인류가 수렵, 농경, 산업, 정보 사회에 이어 겪게 된 다섯 번째 사회다. 직전 사회인 정보 사회가 인터넷으로 상징되는 정보혁명이 일어난 사회라면, AI 소사이어티는 AI가 전기만큼이나 흔한 기술로 자리 잡은 사회다. ‘모든 것과 연결되고, 사회의 주체가 늘어나고, 공간이 확장된 세상’, 이것이 바로 우리가 마주한 새로운 사회다.
한편, 새로운 기술과 거기서 비롯된 미래 사회를 진단할 때는 객관적이고 공정한 시각이 중요하다. 그래서 이 책에서는 AI 소사이어티를 단순히 유토피아나 디스토피아로 규정하지 않는다. 대신, 인간에게 중요한 4가지 가치인 ‘자유, 생존, 진실, 평등’을 기준으로 AI 소사이어티를 평가하고 미래의 모습을 전망해본다.
AI 소사이어티의 시민이 알아야 할 모든 것을 담고 있는 이 책은 어떻게 하면 AI 소사이어티에 더 잘 적응하고, 더 나아가 승자가 될 수 있을지 고민하는 이들에게 유용하고 명쾌한 가이드가 되어줄 것이다.
■ 저자 김태헌
저자 김태헌은 하나금융융합기술원, IBM 등을 거쳐 외국계 소비재(FMCG) 기업에서 시니어 데이터 과학자로 일하고 있다. 베이징대학교 졸업 후 캘리포니아대학교 샌디에이고 캠퍼스(UCSD)에서 국제경제 석사 학위를 받았다. 저서로는 ‘퀀트 전략을 위한 인공지능 트레이딩’이 있으며, 역서로는 ‘단단한 머신러닝’ ‘데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집’ 등이 있다.
■ 저자 이벌찬
저자 이벌찬은 조선일보 산업부 기자이다. 2014년 입사해 사회부, 미래기획부, 국제부 등을 거쳤다. TV조선 예능 프로그램 ‘모란봉클럽’에 1년간 전문가 패널로 출연했고, 2021년에는 조선일보 앱과 홈페이지에서 제공하는 MZ세대를 위한 토크쇼 ‘23CM’에 참여했다. 저서로는 ‘세상 친절한 중국상식’과 북중 접경지역 탐사 기록인 ‘북중 머니 커넥션’ 등이 있다.
■ 차례
들어가며
Part 1 우리는 이미 AI 소사이어티에 살고 있다
내가 알던 세상이 사라졌다
AI 기술은 그냥 커피가 아닌 티오피
AI가 바꿔놓은 새로운 세상의 발견
Part 2 AI 소사이어티의 3가지 특징
새로운 WWW 시대로
연결(Wire): 모든 대상과 연결되다
협업(With): 도구에서 동료가 되다
확장(Widen): 가상 세계까지 공간이 확장되다
Part 3 AI 소사이어티의 5가지 혜택
AI의 능력은 곧 인간이 누릴 혜택
첫 번째 혜택: 당신의 미래를 예측한다
두 번째 혜택: 당신의 취향을 저격한다
세 번째 혜택: 당신의 신체 능력을 강화한다
네 번째 혜택: 기계와의 소통이 쉬워진다
다섯 번째 혜택: 당신을 대신해 창조한다
Part 4 유토피아인가 디스토피아인가
AI 소사이어티를 평가하는 4가지 잣대
자유를 침해하는가
생존을 위협하는가
진실을 왜곡하는가
불평등을 심화하는가
공포의 대상에서 적응해야 할 대상으로
Part 5 AI 소사이어티에서 승자가 되는 법
균등하지 않은 미래
국가: 데이터 부국을 건설하라
기업: 거인의 등에 올라타라
개인: AI 리터러시를 갖춰라
나가며
주
추천 알고리즘, 자율 주행 자동차, 가상 인간, 메타버스 등 최근 우리가 누리고 있는 편리한 혜택과 새로운 경험들은 모두 AI에 기반하고 있습니다. 인공지능과 공존하는 새로운 세상에서, 스마트 인류로서 적응하고 앞서갈 수 있는 방법을 이야기합니다.
AI 소사이어티
AI 소사이어티의 3가지 특징
새로운 WWW 시대로
오늘날 우리에게 다가온 AI 소사이어티는 인류가 수렵 사회, 농경 사회, 산업 사회, 정보 사회에 이어 겪게 된 다섯 번째 사회다. 수렵 사회는 인간의 신체 능력과 서로에 대한 배려에 크게 의존하는 사회였고, 농경 사회는 토지가 곧 생명이었다. 산업 사회는 대량 생산과 생산과 규격화가 가능해지며 자본과 노동력 쟁탈전이 벌어졌던 시대였고, 정보 사회는 ‘WWW(World Wide Web)’, 즉 인터넷으로 상징되는 정보 혁명이 일어난 사회다. 그리고 다섯 번째 사회인 AI 소사이어티는 AI가 전기만큼이나 흔한 기술로 자리 잡은 사회다. AI 소사이어티에서는 연령이나 성별, 지역, 언어의 차이와 상관없이 모든 사람들이 AI가 적용된 다양한 서비스와 상품을 누리며, 지능이 높은 기계와 긴밀하게 협업하게 된다.
정보 사회와 AI 소사이어티의 다른 점은 크게 3가지다. 첫째, 정보 사회에서 인간과 기계의 연결은 제한적이었지만, AI 소사이어티에서는 AI를 매개로 인간과 모든 것이 연결된다. 둘째, 정보 사회에서 인간은 기계를 단순히 도구로 사용했지만, AI 소사이어티에서는 인간과 기계가 동등하게 협업한다. 셋째, 정보 사회에서 가상 공간은 ‘해상도’가 낮아 현실과 구분할 수 있었지만, AI 소사이어티에서는 현실과 구분이 어려울 정도로 치밀하게 구성된 가상 공간을 경험한다.
결국 WWW가 상징하는 정보 사회는 기계와 인간이 일정한 거리를 뒀던 사회라면, AI 소사이어티는 AI 덕분에 기계와 인간이 한 몸처럼 가까워진 사회인 것이다. AI 소사이어티의 특징은 다음과 같이 다시 새로운 의미의 ‘WWW’로 정리된다.
연결(Wire)
인간이 물건, 동물과도 긴밀하게 연결된 사회. AI는 물건과 동물에게 인간과 소통이 가능한 ‘입출력 단자’를 달아줬다. 덕분에 AI 소사이어티에서 인간은 손쉽게 강아지의 말을 알아듣고, 벽난로와 대화할 수 있다.
협업(With)
기계가 인간의 일을 분담하는 사회. AI를 장착해 똑똑해진 기계는 인간과 동등하게 일터에서 일하고, ‘인간 동료’로부터 인정과 신뢰를 얻고 있다. 바둑 등 일부 영역에서는 기계가 인간의 스승이 되기도 한다.
확장(Widen)
우리가 알던 세상의 범위를 확장한 사회. 가상 세계 구축의 가장 중요한 도구인 AI는 우리 사회를 무한하게 확장했다. 이제 우리는 AI가 만든 가상 인간과 메타버스에서 만나 우정을 쌓고, AI가 구현한 ‘디지털 트윈 도시’에서 도시 개발 실험을 한다.
연결(Wire): 모든 대상과 연결되다
연결의 조건: 눈과 귀, 입이 달린 기계
AI 소사이어티에서 인간이 경험하는 ‘연결’의 질이 달라진 가장 큰 이유는 AI가 사물에 눈과 귀 그리고 입을 달아줬기 때문이다. 과거 인간과 연결할 수 없었던 우산, 벽난로, 바위, 옷, 동물 등은 AI가 탑재되는 순간 인간을 인식할 수 있는 눈, 인간의 언어를 알아듣는 귀, 인간처럼 말할 수 있는 입이 생긴다. 인간은 동족을 대하듯 이들과 말과 눈짓으로 소통하며 서로 이어지게 된다.
AI가 사물과 기계, 동물에게 사람과 소통할 수 있는 눈, 귀, 입을 달아주면서 사람들은 더 이상 ‘연결’을 위해 각고의 노력을 기울일 필요가 없게 됐다. 복잡한 사용법을 터득한 인간만이 기계와 연결되는 특권을 누렸던 과거와 달리, 이제는 누구나 기계를 다룰 수 있게 된 것이다. 인간이 ‘기계의 소통 방식’을 배우는 시대에서 기계가 ‘인간의 소통 방식’을 배우는 시대로 넘어온 덕분이다.
AI는 연결의 속도 또한 높였다. 방대한 정보를 빠르게 처리할 수 있는 AI는 더 이상 인간을 기다리게 하지 않는다. 예를 들어 AI 기반 승차 공유 서비스인 우버는 ‘지역 데이터 기반 분석 시스템’과 ‘결제 시스템’, ‘배차 시스템’을 실시간으로 승객과 연결해준다. 승객은 앱으로 승차 요청 버튼을 누르기만 하면 그다음부터는 AI가 차량 물색부터 요금 지급까지 일사천리로 진행한다.
연결된 이후에 일어나는 일
인간과 사물의 연결을 통해 생성된 데이터는 수집된 이후에 ‘코드화’라고 불리는 공정을 거친다. 규칙 따위 없어 보이는 데이터를 ‘알고리즘’이나 ‘인사이트’라는 완성품으로 가공하는 과정이다.
코드화를 조금 더 알기 쉽게 설명하자면, ‘데이터’라 불리는 재료를 요리하는 과정으로 비유할 수 있다. AI라는 셰프가 있다고 하자. AI 셰프가 요리를 하기 위해서는 우선 재료가 필요하다. 그것이 바로 데이터다. 농부가 밭에서 재료를 캐듯, AI를 탑재한 기계들이 인간 세상에서 데이터를 수집해 주방으로 가져온다. 신선한 데이터는 숙련된 AI 셰프의 손길에 의해 새로운 ‘알고리즘’으로 가공되기도 하고, 유용한 정보만 모은 ‘인사이트’로 추출되기도 한다. 똑같은 상추, 토마토, 고기라도 셰프의 역량에 따라 완전히 다른 요리가 나오는 것처럼 어떤 AI 시스템을 이용해 어떤 목적으로 가공하느냐에 따라 그 결과물도 천차만별로 달라진다.
과거의 AI는 방대한 데이터를 처리할 수 있는 능력이 없었다. 획득한 데이터의 양이 아무리 많고 질이 좋다고 하더라도 가공할 방법을 몰라 방치해야 했다. 그러나 AI가 완성형 기술에 가까워지고, 컴퓨팅 파워, 즉 성능이 커다란 발전을 이뤄내면서 AI 셰프의 코드화 솜씨는 일취월장했다. 아무리 방대하고 두서없는 데이터라도 맛깔나게 요리하는 경지에 이른 것이다.
협업(With): 도구에서 동료가 되다
AI 소사이어티의 가장 두드러지는 특징은 바로 기계와 인간이 동등한 위치에서 협업한다는 것이다. 한때 인간의 도구에 불과했던 기계는 뛰어난 능력을 인정받아 존중의 대상이 됐기 때문이다. AI 소사이어티와 정보 사회의 ‘인간-기계 협업’을 비교해보면 이러한 변화는 더욱 선명하게 드러난다. 정보 사회에서 인간이 내비게이션을 이용해 손쉽게 운전할 수 있었다면, AI 소사이어티에서는 자율 주행 자동차가 알아서 목적지까지 데려다준다. 정보 사회에서 기계는 인간이 정보를 얻는 창구였다면, AI 소사이어티에서는 기계가 연구 수행자 그 자체다. 정보 사회에서 스마트 공장은 인간이 자동화 공정을 조종하는 형태였다면, AI 소사이어티에서 스마트 공장은 기계가 알아서 일정을 계산해 제품을 생산하고 품질을 관리한다. 이제는 기계를 인간 동료처럼 대하는 시대가 도래한 것이다.
확장(Widen): 가상 세계까지 공간이 확장되다
메타버스가 기존 인터넷과 다른 점은 가상 공간에 사람이 실제로 들어갈 수 있다는 것이다. 인터넷 창을 열어 뉴스를 읽고, 동영상을 보고, 게임을 하는 것과 가상 공간에서 나의 분신인 아바타가 돌아다니는 것은 언뜻 비슷해 보여도 매우 다른 경험이다. 온라인 권투 게임은 책상에 앉아 손가락으로 자판 버튼을 누르는 식이지만, 메타버스에서 하는 권투는 기기와 연결된 사람이 실제로 주먹을 휘두르며 상대와 겨뤄야 하기 때문이다. 전자는 권투 흉내에 불과하지만, 후자는 현실 세계의 권투와 다를 것이 없다. 이렇듯 메타버스는 인간의 현실을 가상 세계로 확장시켰다. AI 소사이어티에서 인간은 역사상 그 어느 때보다 광활한 영토를 차지하게 된 것이다.
메타버스가 기존 인터넷 서비스와 다른 점
- 연속성: 자신의 분신인 아바타가 모든 활동을 한다.
- 현실성: 현실 세계와 구분하기 어려운 경험을 한다.
- 연동성: 현실 세계의 데이터와 정보가 연동된다.
- 경제성: 가상공간에서 실제 경제 가치를 창출한다.
AI 소사이어티의 5가지 혜택
첫 번째 혜택: 당신의 미래를 예측한다
불확실성을 줄이는 방법
옥스퍼드대학교 경제학 교수인 존 케이(John Kay)와 10년간 영국 중앙은행 총재를 지낸 머빈 킹(Mervyn King)은 저서 ‘Radical Uncertainty(근본적인 불확실성)’에서 “불확실성은 알 수 없는 영역의 일”이라고 말한다. 알 수 없기 때문에 확률을 계산할 수 없고, 값을 매길 수도 없다는 것이다. 우리가 사는 세상은 바로 이런 불확실성이 넘쳐 나는 시공간이다. 주식 시장은 예측 불허로 움직이고, 기후는 늘상 이변이 일어나며 새로운 바이러스는 언제든 세상에 등장할 순간을 노리고 있는 것만 같다.
그러나 AI 소사이어티에서는 불확실성이 크게 줄어든다. 폴리와 같은 AI가 탑재된 분석 모델이나 기계, 서비스가 미래를 예측해 주기 때문이다. 물론 이러한 예측은 점쟁이처럼 미래의 사건을 알아맞히는 그런 종류는 아니다. 현재까지 축적된 정보에 숨겨진 패턴을 찾아내고, 이어질 행동 또는 다음 차례의 사태를 합리적으로 밝혀내는 것이다.
AI가 예지력을 얻는 방법
예측은 불확실성을 줄이려는 인간의 본능 중 하나이기 때문에 오랫동안 연구됐고, 전통 통계학이나 계량 경제학에서도 꾸준히 새로운 방법론이 등장해왔다. 이러한 노력들은 오늘날 AI 예측 알고리즘에 상당 부분 반영돼 있다. ‘의사 결정 트리(Decision tree)’를 활용해 만든 ‘랜덤 포레스트(Random forest)’나 데이터 과학자들이 빈번하게 활용하는 트리 계열 알고리즘인 라이트GBM, XG부스트 등이 대표적이다.
AI 예측 알고리즘은 정보를 정량화하고, 인간의 의사 결정을 모방하기도 하면서 계속해서 진화하고 있다. 다양한 유형의 예측 모델과 알고리즘 중 언론 보도나 보고서에서 많이 접할 수 있는 모델들을 추려서 간략히 소개한다.
- 회귀 모델(Regression Model)
회귀 알고리즘은 독립 변수를 기반으로 종속 변수를 예측한다. 실제로 어떤 변수가 영향을 미치는지 수학적으로 파악하는 기법이다. 판매량 예측이나 에너지 사용량 예측 등에서 널리 사용된다.
- 분류 모델(Classification Model)
분류 모델은 과거 데이터에서 학습한 내용을 기반으로 데이터를 카테고리별로 분류해 예측한다. 가장 단순한 모델로서 광범위한 분야에 활용되고 있다. “이 고객이 이탈할 것인가”와 같은 질문에 “예/아니오”로 대답하는 데 이상적이다.
- 클러스터링 모델(Clustering Model)
정답 데이터가 없이 학습하는 ‘비지도 학습법(Unsupervised Learning)’의 일종으로, 데이터를 통해 공통적인 특성을 가진 최적의 군집을 찾아낸다. 마케팅에서 세그먼트를 나눠 타깃 마케팅을 실행하는 데 사용된다. 즉, 고객의 취향이나 행동을 예측하는 것이다.
- 신경망 모델(Neural Networks Model)
딥러닝 알고리즘도 예측에 활용될 수 있다. 이미지 처리나 자연어 처리에서 월등히 뛰어나기 때문에 이러한 데이터를 활용해 예측 모델링을 하는 데 사용되기도 하며, LSTM(Long Short-Term Memory)과 같은 알고리즘은 인간이 사고하는 방식을 모방해 장단기 기억을 재현하며 시계열 예측에 많이 활용된다. 쉽게 설명하면, 오래된 기억은 최근의 기억보다 흐릿한 경우가 많은데 이러한 인간의 뇌 구조를 반영한 모델이다.
- 이상치 모델(Outliers Model)
데이터 포인트에 숨어있는 이상치(Outlier)나 비정상적인(Abnormal) 데이터를 분석해 모델링하는 방법이다. 금융이나 게임에서 이상 탐지 모델을 개발하는 데 많이 사용된다. 평소 300만 원 이상 인출하지 않다가 1,000만 원을 인출하려 한다면 은행에서 경고 문자를 받을 확률이 높은데, 이때 사용되는 것이 바로 이상치 모델이다. 즉, 금융 사기 패턴을 학습해 예측하는 것이다.
- 예찰 모델(Forecast Model)
예찰 모델 또한 널리 사용되고 있는 모델 중 하나다. 수치로 된 과거의 데이터를 사용할 수 있는 모든 분야에서 적용할 수 있다. 과거 데이터에서 학습한 내용을 기반으로 새로운 데이터의 숫자 값을 추정하는 방식으로 작동한다. 레스토랑의 다음 주 주문량을 예측하거나 콜센터의 전화 문의 수를 예측하는 것이 대표적인 예다.
두 번째 혜택: 당신의 취향을 저격한다
AI의 추천 원리
AI의 추천 알고리즘에 대해 간단히 설명하고자 한다. 대표적인 추천 시스템으로 ‘유저 기반 협업 필터링(Collaborative filtering)’, ‘콘텐츠 기반 필터링(Content-based filtering)’ 등이 있다. 유저 기반 협업 필터링은 같은 콘텐츠를 소비한 사용자를 서로 비슷한 취향을 가졌다고 보는 것이고, 콘텐츠 기반 필터링은 콘텐츠의 유사도를 계산해 동일 사용자에게 다른 콘텐츠를 추천해주는 방식이다. 예를 들어 A와 B가 영화 ‘어벤져스’를 시청했고, A가 ‘배트맨’을 봤다면 협업 필터링에 의해 A에게도 ‘배트맨’이 추천될 것이다. 물론 실제 계산은 이렇게 단순하지 않다. 그리고 콘텐츠 기반 필터링에서는 A가 ‘어벤져스’를 시청했고, 알고리즘에서는 콘텐츠 사이의 수학적 거리로 판단하기 때문에 ‘어벤져스’와 ‘배트맨’이 유사한 콘텐츠라고 판단하여 A에게 ‘배트맨’을 추천할 것이다.
사실 추천 알고리즘은 사용자에 대한 정보에서 출발한다. 사용자를 분석해 그와 비슷한 사람, 이미 소비한 것과 비슷한 콘텐츠와 상품을 찾아내는 것이 기본이다. 이는 오늘날 당연하게 많은 사람들의 데이터가 저장 및 분석되고 있기에 가능한 일이다. AI의 추천 능력은 앞으로 개선될 여지가 많다. 현재까지는 인간에 대한 이해가 완벽하지 않아 생각보다 큰 성능 향상이 일어나지 않았다고 평가되기 때문이다.
세 번째 혜택: 당신의 신체 능력을 강화한다
인간의 눈과 더욱 가까워지는 기계
우리는 아이폰의 사진첩 앱이 인물별로 사진을 자동 분류하는 기능을 가졌다는 것에 더 이상 놀라지 않는다. 기계가 사진이나 영상 속의 개체를 인식하는 일을 당연하게 생각한다. 이 같은 기능은 그동안 ‘이미지넷(ImageNet)’과 같은 대규모 데이터 세트와 AI 덕분에 가능했고, 지금도 계속해서 발전하고 있다.
2021년 10월 페이스북 AI 연구소(Facebook AI Research, FAIR)는 기계가 우리가 보는 것처럼 세상을 보게 하겠다며 ‘에고4D(Ego4D)’라는 이름의 AI 개발 프로젝트를 발표했다. 일반 사진이 아니라 고프로(GoPro)로 찍은 흔들리는 영상을 기반으로 보다 인간 눈에 가까운 시각인지 능력을 개발하는 것이다. 이를 위해 지난 2년 동안 FAIR는 전 세계 13개 대학교와 협업해 1인칭 시점에서 촬영한 동영상을 모아 역대 최대 규모의 동영상 데이터 세트를 구축했다.
아직 개발 중인 이 기술은 증강 현실, 혹은 메타버스에서 현실과 괴리감 없는 시각적 효과를 구현하는 데 도움을 줄 것으로 예상된다. 페이스북에서 최근 발표한 스마트 안경 ‘레이밴 스토리(Ray-Ban Story)’처럼 안경에 내장되는 알고리즘의 형태로 개발될 가능성도 있다. 참고로 레이밴 스토리는 간단히 버튼을 눌러 사진이나 30초 영상을 촬영해 SNS에 업로드할 수 있으며, 블루투스 스피커가 탑재돼 있어 음악 재생 및 전화 통화도 가능하다.
네 번째 혜택: 기계와의 소통이 쉬워진다
AI 소사이어티에서는 인간이 기계와 손쉽게 소통할 수 있게 된다. AI가 탑재된 기계는 인간의 언어를 이해할 수 있어 별도의 조작법을 배울 필요 없이 ‘대화’하면 되기 때문이다. SF 문학의 거장 아서 C. 클라크(Arthur C. Clarke)는 “무슨 기술이든지 충분히 발전하면 마술과 구별하기 어려워진다”라는 말을 남겼는데, 영국 주간지 ‘이코노미스트’는 “음성 인식 기술을 사용하는 우리의 모습은 마술 주문을 외치는 마법사를 연상케 한다”라고 했다
다섯 번째 혜택: 당신을 대신해 창조한다
당신 대신 그리고 씁니다
AI 소사이어티에서 인간이 누리는 가장 큰 혜택 중 하나는 AI와의 협업을 통해 자신의 한계를 넘어서는 무언가를 만들어내는 것이다. AI의 창조력이 주목받는 이유도 이러한 협업의 영역을 무한대로 확장할 수 있기 때문이다.
AI의 창조력이 몇 년간 세간에 알려지면서 예술가들은 앞다퉈 AI와의 협업에 나서고 있다. AI가 안무가의 동작을 기반으로 안무를 짜주고, 작가가 쓴 시놉시스를 기반으로 소설을 완성하고, 소설을 알아서 웹툰으로 그려주는 ‘기적’이 현실이 됐기 때문이다
기계는 창조할 수 있는가
옥스퍼드대학교의 마커드 드 사토이(Marcus du Sautoy) 교수는 저서 ‘창조력 코드’에서 “창조성은 새롭고 놀라우며, 가치 있는 무언가를 내놓고자 하는 충동이다”라고 표현했다. 그는 “이 충동은 수백만 년에 걸친 진화의 결과로 우리의 뇌 속에서 발달해온 코드”라며 “우리가 알지 못하는 어떤 알고리즘적 산물”이라고 주장한다. 즉, 어린아이가 다양한 자극을 수용해 세상의 패턴을 학습함으로써 이러한 ‘코드’를 획득하듯이, AI 역시 이 코드를 학습한다면 인간을 뛰어넘을 수도 있다는 해석이 가능하다.
AI의 핵심적인 부분이 바로 패턴 인식이고, 우리가 실패를 통해 배우고 창조력을 키우는 것처럼 AI의 패턴 인식 역시 ‘실패’를 통해 진화하는 방법으로 이뤄진다. 쉽게 말해 인간의 인지력이 발달하는 과정과 AI가 학습하는 과정이 유사하기 때문에, 기계 역시 창조성을 지닐 가능성이 충분하고 이를 단순히 ‘인간에 대한 모방’의 결과물로 취급하면 안 된다는 것이다.
AI 소사이어티에서 승자가 되는 법
국가: 데이터 부국을 건설하라
AI 분야를 이끄는 기업들의 공통점
실제로 세계 최고 수준의 AI 기술을 갖춘 기업들은 방대한 데이터를 획득한 회사들이다. 안면 인식 분야의 선두 주자인 중국의 센스 타임은 중국 전역에 설치된 2억 대가 넘는 CCTV에서 얻은 이미지 데이터를 자사의 AI 학습에 사용한 것으로 알려져 있다. 중국 알리바바는 2019년 ‘AI 월드컵’이라 불리는 글로벌 이미지 인식 대회 ‘웹비전(WebVision)’에서 전 세계 150여 개 팀을 누르고 1위를 차지했는데, 이러한 성과를 얻을 수 있었던 비결로는 알리바바가 보유한 모바일 앱과 전자상거래 플랫폼에서 수집한 방대한 데이터가 꼽혔다. 중국 바이두의 AI ‘어니(ERNIE)’는 2019년 12월 열린 ‘자연어 이해 평가(GLUE)’ 대회에서 90.1점을 기록해 마이크로소프트(89.9점)와 구글(89.7점)을 앞지르고 세계 1위를 차지했다. 인간의 언어를 이해하는 AI의 성능 향상을 위해서는 대량의 텍스트 데이터가 필수적인데, 바이두는 중국 14억 인구가 사용하는 검색 포털 사이트를 운영하고 있어 이 같은 데이터 획득에 보다 유리했다.
데이터 강국 탄생의 비밀
세계 최고의 데이터 부국은 어디일까? 2019년 미국 데이터 혁신 센터(Center for Data Innovation)는 자체 보고서를 통해 각국의 데이터 경쟁력 순위를 발표했다. 이 보고서에서는 인터넷 사용 구독자, 모바일 결제 사용자, 사물인터넷 데이터, 생산성 데이터, 전자 의료 기록, 매핑 데이터, 유전자 데이터, 그리고 데이터 접근 장벽 등 7가지 요소를 입체적으로 고려해 경쟁력 지수를 측정했다.
결론적으로 중국이 미국과 유럽을 제치고 세계 1위에 올랐다. 미국 데이터 혁신 센터는 중국은 데이터 영역에서 다른 나라들을 앞서고 있고, 향후에도 이러한 경쟁력은 더 강화될 것이라고 예측했다. 글로벌 투자 은행 골드만삭스는 중국에서 생산되는 데이터가 세계 데이터에서 차지하는 비중이 2020년 기준 20~25%에 달하는 것으로 추정하고 있다.
중국이 이렇게 데이터 강국이 될 수 있었던 이유는 복합적이다. 우선, 중국은 디지털 활동에 참여하고 있는 ‘디지털 인구’가 압도적으로 많아서 데이터 생산에 유리하다. 중국의 인구(14억 4,000만 명)와 인도의 인구(13억 9,000만명)는 거의 비슷하지만, 2018년 기준 인터넷 사용 인구는 각각 8억 5,000만 명과 4억 5,000만 명으로 약 2배 정도 차이가 난다. 중국의 1인당 인터넷 이용 시간은 주당 27.7시간이고, 인터넷을 통해 뉴스를 열람하는 사람의 수는 약 6억 6,300만 명, 인터넷으로 배달 서비스를 이용하는 사람은 3억 6,400만 명이다. 중국에서 서비스 중인 모바일 앱은 무려 415만 종에 달한다.
저가 스마트폰의 출현과 더불어 통신 인프라도 ‘퀀텀 점프(Quantum Jump)’를 하며 모바일 경제 발전에 힘을 실었다. 2016년 말 중국 농촌의 광섬유 통신 기반 초고속 인터넷 보급률은 82.2%였고, 2017년 기준 전 세계 4G 통신망의 3분의 1을 차이나모바일, 차이나텔레콤, 차이나유니콤 등 중국의 모바일 통신사들이 보유했다. 모바일 경제가 고도로 발달한 덕분에 중국에서는 14억 인구의 거의 모든 활동이 데이터로 기록되는 여건이 조성됐다.
‘올인원(All-in-one 앱)’, ‘인구가 밀집한 도시’, ‘사회 구성원의 다양성’이라는 3가지 측면도 중국이 데이터 강국이 될 수 있었던 비결로 꼽힌다. 중국의 IT 대기업들은 여러 서비스를 하나의 앱에서 제공하는 올인원 앱을 만들었는데, 덕분에 양질의 데이터가 한곳으로 모일 수 있었다. 예를 들어 중국의 카카오톡인 위챗에서는 하나의 앱 안에서 택시 부르기, 음식 주문, 호텔 예약, 통신료 납부 등을 한 번에 해결할 수 있다. 하지만 미국의 경우는 이러한 서비스가 택시 호출 서비스를 제공하는 우버를 비롯해 음식 주문을 위한 포스트메이트(Postmates), 호텔 예약을 위한 익스피디아(Expedia), 통신료 납부를 위한 버라이즌(Verizon), 송금을 위한 벤모(venmo) 등 여러 기업으로 나뉘어 있다.
인구 밀집도가 높은 중국의 도시는 데이터 수집에서 큰 이점으로 작용했다. 중국의 AI 기업 이투 테크놀리지(YITU Technology)는 소아 검진을 위한 AI 시스템을 개발하는 과정에서 중국 대도시 광저우의 소아 병원 1곳의 데이터만 사용했는데도 아무런 문제없이 시스템 개발에 성공했다. 병원 1곳에서 나온 데이터가 60만 개가 넘는 방대한 양이었기 때문이다. 다른 나라에서는 좁은 지역이나 작은 집단에서 이 정도로 풍부한 데이터를 확보하기 어렵다.
중국의 다양한 민족과 풍부한 지역 특색은 ‘다양성을 갖춘 데이터’ 생산을 가능하게 했다. AI 영역에서는 균일한 데이터보다 다양성을 가진 데이터가 훨씬 양질의 데이터로 평가된다. 평평한 고속도로에서만 훈련된 자율 주행 자동차보다는 변수가 많은 산간 지역에서 훈련된 자율 주행 자동차의 성능이 뛰어나기 때문이다. 세계 각국에서는 다양한 데이터를 얻기 어렵기 때문에 ‘데이터 확장(Data Augmentation)’ 등의 기술을 사용하기도 한다. 이 같은 기술은 원본 데이터를 회전시키거나 노이즈를 추가해 여러 개로 만드는 방식인데 AI 성능 향상을 돕는 데는 한계가 있다.
* * *
본 도서 정보는 우수 도서 홍보를 위해 저작권자로부터 정식인가를 얻어 도서의 내용 일부를 발췌 요약한 것으로, 저작권법에 의하여 저작권자의 정식인가 없이 무단전재, 무단복제 및 전송을 할 수 없으며, 원본 도서의 모든 출판권과 전송권은 저작권자에게 있음을 알려드립니다.