AI는 차별을 인간에게서 배운다
 
지은이 : 고학수
출판사 : 21세기북스
출판일 : 2022년 01월




  • 우리 일상에 깊숙이 스며든 인공지능! 매일 접하는 유튜브의 추천 동영상이나 맞춤형 결과를 보여주는 인터넷 검색, 스마트폰 메시지를 보낼 때 뜨는 자동완성부터 금융, 의료 등 전방위에 걸친 분야 곳곳에 이르기까지. 기술 발전과 실생활 적용 속도가 빠르게 이뤄지고 있는 오늘날, 관련된 이슈들에 대한 논의가 시급합니다. 인공지능 시대이 삶에 대해 이야기합니다.


    AI는 차별을 인간에게서 배운다


    우리는 이미 인공지능 세계에 살고 있다

    인공지능을 둘러싼 뜨거운 쟁점들

    인공지능이 판결하는 시대가 온다?

    우리 사회에서 인공지능에 대한 관심은 지난 몇 년 사이에 비약적으로 증가했다. 하지만 실제 인공지능 기술은 2차 세계대전 무렵부터 발전하기 시작한 것으로, 최근에 갑자기 등장한 것은 아니다. 인공지능 기술은 처음 등장한 이후로 부침을 겪다 최근 몇 년 사이에 폭발적으로 많은 관심을 받게 되었다.


    생각해보면 최근 인공지능이 사회적 화두로 등장하기 전에는 ‘빅데이터’라는 표현이 마치 시대를 상징하는 개념처럼 많이 언급되었다. 그렇게 보면 데이터가 중요한 시대가 되었다는 인식은 10여 년 전부터 본격적으로 나타난 것 같다. 그리고 인공지능이 사회의 관심으로 급부상하게 된 것이 대략 5~6년 전부터인 것 같다.


    로스쿨 소속인 필자가 흔히 듣는 질문 중 하나는, ‘머지않아 인공지능이 판결하는 시대가 오지 않겠는가?’ 하는 것이다. 이는 인공지능 판사나 검사, 인공지능 변호사에 대한 질문이다. “AI가 판결하는 법정은 더 공정할까?”, “로봇 검사ㆍAI판사 나오나… 법조계 우려ㆍ기대 교차”, “AI판사가 나를 단죄한다면…”


    인간 판사의 판결이 과연 옳은 것인지 그리고 공정한 것인지 의심하면서, 그 대안으로 ‘인공지능 판사는 어떠한가’라는 질문을 하는 것을 어렵지 않게 접할 수 있다. 언론에서 인공지능 판사를 언급하는 경우에, 그런 말에는 ‘인공지능 판사가 나타난다면 그러한 인공지능 판사는 편견 없이 정확하고 공정한 판결을 하지 않을까?’라는 기대가 담겨 있는 경우가 적지 않은 것으로 보인다.


    하지만 인공지능 판사의 등장은 쉬운 일이 아니다. 예를 들어 알파고에게 세상의 모든 법 조항을 학습시킨 후 사실 관계를 판단하게 하면, 과연 얼마나 정확하고 공정한 답을 줄 수 있을까? 현실적으로 인공지능이 할 수 있는 것은, 판사의 업무 효율성을 높여주거나 단순한 계산 실수 등 불필요한 실수를 줄여주는 보조적 역할 위주일 가능성이 크다.


    결국 인공지능 판사가 본격적으로 도입되어 사람의 역할을 대체하는 시대가 조만간 올 것이라고 보기는 어렵다. 다만 판사가 업무를 수행하는 데에 있어 일정 부분 도움을 주는 역할은 인공지능에게 부여될 수 있다. 또한 판사의 본질적 역할에 속하는 업무에 대해서도 인공지능을 활용하여 참고나 도움이 되도록 하는 사례도 나타나고 있다. 이러한 잠재적 활용도는 기술 발전에 따라 차츰 늘어날 전망이다.


    데이터 수집, 누구도 피할 수 없다

    인터넷 플랫폼의 기본은 ‘프로파일링’

    인공지능을 위한 데이터 수집은 여러 경로와 방식으로 이루어진다. 그중 중요한 경로 하나는 소셜 미디어 등의 플랫폼을 통해 이용자에 관한 데이터를 수집하는 것이다.


    이들 주요 플랫폼들은 대다수가 기본적인 서비스를 무료로 제공한다. 그렇다면 이 회사들은 어떻게 비즈니스를 하는 것일까? 구독 모델을 전제하지 않는 한, 이 회사들의 핵심적 수입원은 광고다. 특히 이용자들의 특징이나 선호에 대한 분석을 전제로 한 맞춤형 광고가 중요하다. 그래서 이용자들에 관한 데이터를 수집하고 분석하고 프로파일링하는 것이 인터넷 플랫폼 생태계에서는 필수적인 것이 된다. 이는 인터넷 공간에서의 무료 서비스의 제공과 함께 나타나는 동전의 뒷면 같은 것이다.


    데이터 수집이 실제로 어떤 방식으로 일어나고 있는지 알아보자. 우리나라 성인의 스마트폰 보급률은 이미 몇 년 전부터 90퍼센트를 넘어서 스마트폰의 사용이 일상화된 상황이다. 이를 고려하면, 인터넷을 통한 이용자 정보 수집의 핵심은 스마트폰을 통해 이용자에 관한 데이터를 수집하는 것이 된다.


    스마트폰을 이용한 데이터 수집은 몇 가지 층위로 나누어 파악할 수 있다. 우선 스마트폰의 인터넷 기기로서의 활용은 주로 앱을 이용하게 되는데, 앱을 이용하는 과정에서 생성되는 많은 정보가 수집의 대상이 된다. 그다음으로 인터넷 브라우징을 생각할 수 있다. 검색을 포함하여 인터넷 이용 과정의 중요한 관문 역할을 브라우저가 수행한다. 또한 브라우저를 이용하여 이용자들은 개별 웹사이트를 방문하여 여러 추가적인 활동을 하기도 한다. 이 과정에서 이용자들의 특징이나 선호를 반영하는 다양한 데이터가 생성되고, 이 중 일부는 수집의 대상이 된다.


    이런 식으로 우리가 스마트폰을 사용하는 과정에서 여러 층위에서 다양한 유형의 정보가 수집될 가능성이 폭넓게 열려 있다. 이 중에서 일반적으로는 앱과 브라우저를 통해서 정보가 수집되는 것이 가장 중요한 부분이다, 다른 한편, 정보를 수집하는 입장에서는 스마트폰 이용자의 동일성을 파악하여 일관성 있게 정보를 수집하는 것이 중요하다. 따라서 일종의 일련번호를 부여하여 이용자나 기기를 파악하고 이를 통해 동일 이용자에 대하여 체계적으로 정보를 수집하기 위한 시도를 하게 된다.



    인공지능, 어디까지 왔나

    인공지능이 우리를 채용하게 된다면

    아마존은 왜 인공지능 면접을 고사했을까?

    언제부터인가 블라인드 오디션이라는 표현이 종종 쓰이기 시작했다. 이로부터 영감을 얻은 것인지 모르지만, 우리나라에서는 몇 년 전부터 블라인드 채용의 개념이 활용되고 있기도 하다. 과거 1970년 무렵에는 미국 유수의 오케스트라 연주자 중 여성 연주자의 비율이 5퍼센트 수준으로 상당히 적었는데, 그 이후 지속적으로 늘어나서 1990년대 말에는 여성 단원의 비율이 25퍼센트 수준이 되었고 최근에는 절반 정도인 경우도 있다. 이 연구는 이처럼 1970년대 이후로 여성 단원이 늘어나게 된 것에 블라인드 오디션이 큰 영향을 미쳤다는 분석을 제시한 것이다.


    블라인드 오디션의 특징을 인공지능과 관련하여 어떻게 재해석할 수 있을까? 오케스트라 단원의 채용에 있어서 개별 연주자의 연주 실력이 단원으로서 핵심적일뿐더러, 거의 유일무이한 덕목이라면 블라인드 오디션을 통해 핵심 자질을 파악할 수 있을 것이므로 블라인드 오디션이 매우 유용한 방식이 될 수 있다. 한편, 예를 들어 다른 단원들과의 협업 능력이 사실은 연주 실력에 못지않게 중요한 덕목이라면 블라인드 오디션을 통해서는 그러한 능력을 파악하기 어렵다.


    인공지능 기술을 채용하는 과정에 활용할 가능성에 대해 좀 더 구체적으로 생각해보자. 실제로 그러한 시도를 하는 기업들이 종종 있는데, 전자상거래 업체인 아마존에서는 2018년에 인공지능 기술을 활용해서 이력서를 평가하는 알고리즘을 개발해오다가 결국 해당 개발팀을 해체하기로 했다는 것이 보도된 바 있다.


    아마존에서는 그 이전 10년 정도의 기간에 회사에 지원한 사람들의 이력서를 활용하여 인공지능 모델을 구축하고자 했는데, 그 기간에 회사에 지원한 사람 중 여성의 비율 자체가 낮았던 것이 문제의 출발점이라는 것이다. 더군다나 IT 업무를 다루는 직군은 여성 비율이 더욱 낮았다는 한계도 있다. 알고리즘의 개발 과정에서, 이력서에 여학교 이름이나 여성 전용 동아리 이름 등 여성임을 파악할 수 있는 표현이 있으면 부정적인 평가가 지속적으로 나타나는 것이 파악되었고, 결국 이 작업은 잠정 중단되었다.


    인공지능 기술은 공정한가

    불공정 논란 잇따르는 AI 알고리즘

    추천 알고리즘은 일상의 다양한 인터넷 활동과 관련하여 매우 활용도가 높다. 예를 들어 넷플릭스는 처음 가입할 때 선호하는 영화 몇 편만 표시하면 그다음부터는 알아서 영상 추천을 해준다. 유튜브나 인스타그램도 마찬가지다. 개별 이용자가 몇몇 콘텐츠를 찾아서 보기 시작하면 그로부터 관련성이 높은 콘텐츠를 선별하여 추천해준다.


    이러한 추천 알고리즘의 작동을 통해, ‘정보의 바다’ 속에서 이용자가 관심을 가질 법한 콘텐츠를 찾아내서 제공하는 것이 가능해진다. 그런 만큼 추천 알고리즘은 인터넷의 작동에 있어 현실적으로 매우 중요한 역할을 한다.


    다른 한편, 일단 이용자가 보기 시작한 콘텐츠에 대해 그와 유사한 콘텐츠를 계속 찾아서 추천하는 것으로 인해, 편향이나 쏠린 현상이 크게 나타난다는 우려의 시각도 있다. 더 나아가, 추천 알고리즘의 작동으로 인해 확증편향이 나타난다거나 이용자가 중독에 빠지는 상황이 발생하는 것은 아닌지에 대한 문제 제기도 나타난다.


    추천 알고리즘과 관련하여 국내에서 주기적으로 사회적 또는 정치적 논란이 발생하게 되는 영역 하나는 인터넷 플랫폼을 통해서 뉴스를 보게 되는 메커니즘과 관련된 것이다. 뉴스 추천 메커니즘이 객관적이고 공정한 것인지에 관한 논란은 반복적으로 우리 사회의 이슈가 된다. 논란의 일부는 뉴스 추천의 과정에서 사람에 의한 작위적인 개입이 있는 것은 아닌지에 관한 의심이나 주장에서 출발한다.


    이에 대해 인터넷 플랫폼들은 대체로 인공지능을 활용하여 추천 알고리즘을 고도화하고 자동화된 메커니즘을 도입하는 방향의 의사결정을 하고 있다. 그룹별 또는 개인별로 각기 다른 뉴스가 노출될 수 있도록 맞춤형 서비스를 강화하는 방향의 기술 고도화를 시도하기도 한다.


    과연 추천 알고리즘이 원활하게 작동하고 더욱 고도화되면 더 이상 공정성을 둘러싼 문제 제기는 생기지 않을까? 현재의 정황으로는 적어도 당분간 그러한 문제 제기가 잦아들 것 같지는 않다. 오히려 추천 알고리즘의 활용도가 늘어나면서 논란은 더욱 다양한 맥락에서 나타날 가능성이 크다.


    예를 들면, 앱을 이용하여 택시를 부르는 서비스 관련하여, 카카오T 앱을 이용하여 택시를 부르면 카카오 택시에 더 우호적인 배차를 하는 것 아닌가 하는 의심이 제기된 바 있다. 음식 배달 서비스를 둘러싸고 문제 제기가 나오기도 했다. 알고리즘이 이용되면서, 이동 거리가 먼 엉뚱한 곳이나 그 이외에 라이더 입장에서 불편한 곳으로 배차가 이루어진다는 주장이 나타나기도 했고, 알고리즘을 이용한 추천경로 안내가 부정확하다는 주장도 제기된 바 있다.


    전자상거래의 영역을 보자. 전자상거래에 있어서도 추천 알고리즘은 매우 중요한 역할을 한다. 전자상거래의 경우에, 이용자가 물건을 검색하면 그 결과를 어떻게 배열하여 보여줄 것인지가 매우 중요한 이슈가 된다. 첫 페이지 중에서도 상단에 노출되는 것이 중요하다. 이용자가 상품에 대한 검색을 하면 이에 대해 흔히 ‘관련도’ 점수를 부여하여 검색 결과에 대한 노출의 순서와 방식을 정하게 된다.


    이처럼 다양한 맥락에서 알고리즘의 활용도가 늘어나는 상황에서, 그것이 일부 시장 참가자에게는 부당한 불이익을 주고 이용자들에게 편향을 야기하는 것은 아닌지에 관한 불안과 의혹의 시선이 계속 나타나고 있다. 한편 그에 대해 알고리즘을 활용하는 기업들은 알고리즘의 유용성에 대해 호소하면서 공방이 주기적으로 반복되고 있는 상황이다.



    새로운 시대의 과제, 알고리즘 공정성과 차별금지

    공정성은 곧 차별의 문제

    공정성은 곧 차별의 문제

    지금까지의 논의를 보면, 인공지능과 관련된 공정성은 현실적으로는 주로 차별 금지를 의미하는 것으로 받아들여진다. 이는 인공지능의 기능을 고려하면 당연한 관심이기도 하다. 인공지능의 제일 일반적이고 중요한 용도는 데이터를 분류해내는 것이다. 이때의 분류는, 예를 들어 다양한 특징을 보이는 데이터가 있을 때 이를 몇 개의 그룹으로 나누어 판단하는 것을 의미한다. 그리고 이같은 분류는 그룹별로 차등적 결과가 나타날 수 있음을 암시하는 것이기도 하다.


    요컨대 인공지능은 그룹화를 통한 분석과 의사결정에 특히 강점을 가진 기술인 것이고, 이는 사회적인 맥락에서는 차별에 관한 논란으로 쉽게 확대될 수 있는 것이다. 그런 면에서 인공지능의 공정성을 살피기 위해서는 차별의 개념에서 접근하는 것이 유용하다.


    공정성과 마찬가지로 차별의 개념 또한 상당히 다양한 의미로 해석될 수 있다. 하지만 차별은 공정성에 비해서는 체계화가 덜 복잡하다. 우선 법적 개념 구분으로 보면 차별은 직접 차별과 간접 차별로 구분할 수 있다. 외국에서는 이런 구분을 반영하여 법제도가 마련되어 있기도 하다. 차별에 관하여 좀 더 일찍 사회적 고민을 한 미국이나 유럽에는 차별과 관련된 좀 더 본격적인 법제도가 존재하는 반면, 우리나라에는 차별과 관련된 법제도가 몇몇 법을 통해 단편적으로 도입되어 있는 상황이다.


    직접 차별, 간접 차별의 한계

    차별 개념은 개념적으로 직접 차별과 간접 차별로 구분할 수 있다. 데이터나 인공지능 맥락에서 직접 차별은 유사성 속성을 보이는 사람들을 유사하게 취급하고, 다른 속성을 지닌 사람들은 다르게 취급하는 것으로 재해석할 수도 있다. 그렇게 하는 것이 부당하다는 인식이 이루어지면 공정성 확보를 위해 입력값을 규제하는 방식으로 해결책을 모색하기 쉽다.


    반면에 간접 차별의 경우는 일부 속성이 다르게 나타나더라도 일정 유형의 정보에 대해서는 이를 무시하고 서로 다른 특징을 보이는 통계학적 그룹을 동일한 그룹인 것처럼 취급할 가능성을 열어둔다. 그 결과, 간접 차별은 직접 차별과는 달리 결과값을 규제하는 방향으로 논의가 이루어지게 된다. 결과값을 봤을 때 문제가 있는 것으로 평가되면 그로부터 입력값이나 알고리즘을 보정하여 문제를 해결하는 일종의 되새김 내지 피드백 과정을 거치는 것이다.


    인공지능 차별은 왜 생기는 걸까?

    인공지능을 활용한 의사결정에 차별이나 편향이 나타날 수 있다면, 그 원인이 무엇인지 생각해볼 필요가 있다. 오늘날의 인공지능은 데이터의 존재가 핵심적인 관건이다. 적어도 개념적으로는 인공지능 모형을 개발하는 첫 단계는 실제 세상의 데이터에서 출발한다. 사회적 환경을 배경으로 하는 유형의 작업은 실제 세상의 데이터가 더욱 중요하다. 그런데 사회에는 편견과 차별, 불공정이 어느 정도는 있기 마련이다. 인공지능 개발의 기본 배경이 되는 인간 사회의 모습은 인공지능 기술 자체에 관한 문제라기보다는 우리 사회의 근본적인 문제라 하겠다.


    학습 데이터용으로 이용될 데이터베이스를 구축할 때, 추출된 데이터가 모집단의 통계적 특징을 얼마나 정확하게 반영하고 있는지가 문제될 수 있다. 표본추출의 과정에서 통계적 편향이 나타날 수도 있는 것이다. 또한 레이블링이 어떻게 되었는지도 문제가 될 수 있다. 데이터를 추출해내는 과정에서 기획자와 개발자 등 사람의 판단이 작용할 텐데, 어떤 유형의 작업을 구상하는지에 따라 데이터베이스에 포함되는 데이터의 구체적인 내용과 개별 항목이 달라질 수 있다. 또한 수치화하여 측정하고 평가하는 것이 가능한 데이터를 전제로 하여 데이터베이스를 구축하게 될 것이어서, 그로 인해 수집 데이터에 편향이나 한계가 발행할 수도 있다.


    빅데이터 인공지능 시대의 프라이버시

    누구에게나 숨기고 싶은 것은 있다

    프라이버시라는 개념을 통해 무엇을 보호하고자 하는 것인지 생각해보자. 우선 사람이라면 누구에게나 숨기고 싶은 비밀이 있기 마련이다. 또는 가까운 사람들 사이에서만 제한적으로 공유하고 싶은 비밀도 있을 수 있다.


    사실 ‘프라이버시=숨김’이라는 시각 자체가 그릇된 프레임이다. 프라이버시 개념을 뭔가 숨기고 싶어 하는 것으로 해석하게 되면, 개개인에 대해 호기심을 가지고 적극적으로 정보를 수비하고 싶어하는 입장과 그 반대로 정도를 지켜내고 싶어 하는 입장 사이의 대결구조로 상황을 바라보기 쉽다. 그런 식으로 쫓고 쫓기는 게임의 구도가 형성되면 정말 피곤한 세상이 될 수밖에 없다.


    프라이버시가 없이 누군가로부터의 지속적인 모니터링이나 감시의 대상이 될 경우에 나타날 수 있는 가장 큰 문제는 민주사회의 기본원칙이 훼손될 가능성에 있다. 예를 들어, 국가건 거대 기업이건 누군가 인터넷 공간에서 나에 관한 세밀한 정보를 수집하고 있고 이러한 정보가 내 이익에 반하는 형태로 이용될지도 모른다는 의혹이 생기면 인터넷 안에서의 나의 일거수일투족에 대해 각별히 조심하자는 태도가 발생할 수 있는 것이다.


    지나친 정보수집이나 무분별한 정보수집은 그 자체로도 문제일 수 있지만, 나아가 사회적으로는 대다수 개인의 무기력함을 느끼는 문제를 일으킬 수 있다. 거대한 시스템 안에서 개인이 실질적으로 할 수 있는 것이 거의 없다고 판단하면 그로부터 무기력함을 느끼게 되는 것은 당연하다. 또한 이는 민주사회의 기본적인 구성원리를 훼손하는 것이 될 수 있다. 이런 점에서 프라이버시를 단순히 ‘무언가를 숨기는 것’이라고 바라보는 것은 매우 단편적인 시각이다.



    인공지능이 인간에게, 정의와 윤리를 묻다

    인공지능 윤리 논의, 무엇을 담고 있나

    설명과 소통이 필요한 인공지능의 ‘책임

    최근 몇 년 사이에 국내외적으로 ‘인공지능 윤리’가 중요한 사회적인 화두로 부각했다. ‘윤리’라는 말이 자칫 딱딱하고 무겁게 들릴 수도 있지만, 인공지능이 본격적으로 도입되면서 일상의 일부분이 되어가는 상황에서 인공지능 윤리에 관한 관심이 커지는 것은 당연한 일이다.


    그렇다면 인공지능 윤리에 관해 실제로 어떤 논의가 이루어지고 있는지 살펴보기로 하자. 인공지능 윤리 규범에 관한 논의가 이루어지는 배경 이유 중 하나는, 이러한 논의를 통해 인공지능 기술이 필요에 따라 적절한 ‘책임’을 지도록 하는 것에 있다.


    그런데 인공지능 윤리의 맥락에서 책임의 의미로 주로 이용되는 영어 단어는 ‘accountability’이다. 이는 민사나 형사 등 법적 책임을 의미하는 ‘liability’보다 훨씬 더 넓은 개념이다. accountability는 우리말로 표현할 때 ‘책임’이라 하기도 하고, ‘책무’ 또는 ‘설명책임’이라 하기도 한다. 설명을 통해 적극적인 소통을 하고 이해를 취하는 측면이 강조되는 것이다.


    얼마나, 어떻게 투명해야 하는 걸까?

    인공지능 윤리에 관한 논의에서 많이 강조되는 또 하나의 원칙은 ‘투명성’이다. 인공지능과 무관하게 일반적이고 추상적인 원칙으로서의 투명성은 대부분의 상황에서 필요하고 바람직한 원칙인 것으로 인식된다. 그리고 그 연장에서 인공지능 맥락에서의 투명성 또한 바람직한 것으로 흔히 언급된다. 여기서 인공지능의 투명성을 담보해주는 중요한 방식이 ‘설명가능성’이다.


    설명가능성에 대해서는 앞으로도 매우 다양한 논의가 진행될 필요가 있다. 공학적인 방법론에 대해서도 더 많은 연구가 필요할뿐더러, 사회적인 차원에서는 무엇을 어떻게 설명해야 할 것인지에 대한 논의도 필요하다.


    인공지능 투명성의 맥락에서 설명가능성과는 별도로 종종 언급되는 것은 알고리즘에 대한 투명성 요구다. 아는 알고리즘의 ‘공개’ 요구로 나타나기도 한다. 이에 관해서도 많은 과제가 산적해 있다. 우선 상용화된 복잡한 알고리즘은 알고리즘을 검토하는 것만으로는 전체적인 작동 메커니즘이나 작동의 결과에 대해 정확히 가능할 수 없는 경우가 많다. 검증을 위해서는 관련 데이터도 함께 확보하여 알고리즘을 통해 프로그램을 실행하는 것이 필요할 수도 있다.


    한편, 알고리즘을 공개하는 것은 기업의 영업비밀을 노출하는 것이 될 수도 있어서 법제도상의 어려움도 있다. 이런 어려움을 고려하여, 소스 코드 자체를 공개하는 것이 아니라 전체적인 얼개를 밝히도록 하는 것이 현실적이라는 입장도 있다. 다만 그 경우에도 얼마나 구체적인 수준의 정보 공개가 적절한지를 두고 매우 다양한 입장이 있을 수 있다. 현재는 이와 같은 논의가 구체화되거나 본격화된 상황이라기보다는 추상적인 차원의 주장이 나타나고 있는 단계라고 할 수 있다.


    * * *


    본 도서 정보는 우수 도서 홍보를 위해 저작권자로부터 정식인가를 얻어 도서의 내용 일부를 발췌 요약한 것으로, 저작권법에 의하여 저작권자의 정식인가 없이 무단전재, 무단복제 및 전송을 할 수 없으며, 원본 도서의 모든 출판권과 전송권은 저작권자에게 있음을 알려드립니다.