북집 지식DB

과학을 수행하는 방식, 인공지능이 뒤집어엎다

인공지능이 과학을 수행하는 방식을 바꾸고 있다. 이것은 인간 과학자에게 ...

인공지능이 과학을 수행하는 방식을 바꾸고 있다. 이것은 인간 과학자에게 더 큰 성과와 결과를 이끌어주는 스타트한 방식의 진화라 할 수 있다.

과학 전 분야에 걸쳐 일어나고 있는 인공지능의 활용이 앞으로 어떤 기회를 창출하게 될까? 과학자와 소비자, 투자자에게는 어떤 의미일까? 디지털 기술의 진정한 마법은 삶과 비즈니스의 거의 모든 면을 질적, 양적으로 향상시키는 인류의 성장 능력에 달려 있다. 특히 과학적 조사 분야에서 이러한 능력은 더욱 두드러지는데, 더 우수하고, 더 빠르고, 보다 더 저렴하게 과학을 수행할 수 있는 방법이 이미 시작되어 선순환 구조를 이루고 있다. 보다 생산적인 연구는 새로운 중요한 발견을 더 빠르고 저렴하게 이끌어냄으로써 사회적 부를 늘리고 이 부가 다시 연구에 더 많은 자원을 투자할 수 있는 환경을 만들고 있다. 더 좋은 점은, 디지털 연구가 우리로 하여금 과거에는 할 수 없었던 것을 이제는 실행할 수 있도록 해준다는 데 있다. 동시에 현재는 가장 부유한 계층에게만 제공되었던 솔루션이 수년 후에는 극빈 계층에게도 제공될 수 있다.

사회에 부와 각종 혜택을 안겨 주는 새로운 발견들이 전 지구촌에서 이렇게 빠르게 진행되고 그리고 누구나 접근 가능한 것이 된 적은 이전 시대에는 단 한 번도 없었다. 다만 이러한 속도 때문에, 과학자들조차도 종종 자신의 과학 연구 전문 분야 내에서의 혁명만 인식하고 있다. 그리고 아직 초기 단계에 있는 과학내 디지털 혁명의 폭넓은 범위가 의미하는 바를 인지하고 있는 경영자나 정책 입안자는 여전히 소수에 불과하다.

사실 이 혁명을 이해하려면 과학적 발견 주기의 5단계를 이해하고 디지털화가 각 단계에서 그 프로세스를 어떻게 향상시키는지를 고려해야 한다. 다음은 과학적 발견 주기의 5단계다.

1단계는 ‘과학 저작물 탐색’이다. 이 단계에서의 임무는 수백만 편의 관련 과학 논문을 찾아내는 것과 동시에 새로운 주제를 추적하는 것이다.

2단계는 ‘실험 설계’다. 이것은 가설을 세우고 시험할 수 있는 방법을 결정하는 것이 관건이다. 비즈니스 전략과 마찬가지로 실험 설계가 실행, 투자, 메트릭스를 결정하여 나머지 연구를 이끌어간다. 핵심은 새로운 지평의 탐구와 잘 이해되는 현상 간의 적절한 절충점을 찾는 데 있다.

3단계는 ‘실험 실행’이다. 수백만 개의 데이터 포인트와 그들의 관계를 추적하는 것이다. 예를 들어, 생명 과학의 경우, 다양한 분자와 세포에 대해 실험하는 수천 개의 작은 튜브를 오염을 피하면서 정확하게 결정된 시간과 기간 동안 섬세하게 관찰하는 것이다. 이 단계에서의 실수는 연구자의 이력을 망칠 수도 있을 만큼 치명적이다.

4단계는 ‘데이터 해석’이다. 이것은 실험에서 발생하는 엄청난 원시 데이터를 이해하는 것을 포함한다. 예를 들어, 생명 과학에서 이것은 수조 바이트의 유전 및 생화학 정보를 포함할 수 있다. 목표는 실험 결과를 과학적 결과로 변환하는 것이다. 여기서 연구자는 가설이 정량적으로 확인되는지를 파악해야 한다. 이 과정에서 또 다른, 똑같이 흥미로운 가설이 공식화되고 확인되기도 한다.

5단계는 ‘새로운 과학 논문 작성’이다. 여기서 한 주기가 끝을 맺고 새로운 주기가 시작된다. 연구자들은 1단계에서 확인된 것과 상관없이 모든 관련 선례를 인용했는지 확인한다. 이후, 논문 심사를 거친 결과가 과학 문헌 목록에 추가되고, 다른 연구자들이 이 결과를 인용할 수 있게 된다. 이상적인 경우, 어떤 연구 결과는 자주 인용되는 연구 논문으로 번역될 수도 있고, 가치 있는 특허를 받기도 하며, 심지어 완전히 새로운 기업을 위한 기반으로도 활용된다.

이 각 단계는 문명의 여명부터 1980년대까지 모두 손을 통해 진행되었다. 각 단계마다 연구자들은 손으로 직접 과정과 결과를 기록했다는 의미이다. 이후 과학 저작물이 컴퓨터에 저장되고 나서야 비로소 대규모 데이터에 대한 통계 분석이 메인 프레임과 미니 컴퓨터를 통해 널리 이용 가능해졌다. 또한 실험에서 디지털 도구를 활용하여 데이터를 구축하는 일이 점점 더 많아졌고, 이후 35년이 지나 기존 디지털 솔루션은 더 진화했고 저렴해졌으며 빨라졌다.

그렇다면 오늘날에는 어떤 일이 벌어지고 있는가? 이제 양자도약quantum leap의 시대를 맞고 있다. 인공 지능, 빅 데이터 방법, 로봇 공학을 연구에 적용하면서 가능해진 일이다. 앞으로의 핵심 목표는 과학적 프로세스에서 인간을 보완하거나 대체하기 위해 이 기술을 활용하는 것이다. 그리고 두 번째 목표이자 더 큰 목표는 ‘이전에는 불가능했던’ 연구를 진행하는 것이다.

이를 위해 연구자들은 이미 데이터 토렌트data torrents를 기반으로 인공 신경 네트워크artificial neural network의 형태로 인공지능을 앞세우고 있다. 인공지능에 대한 초기 시도와 달리, 이러한 형태의 네트워크는 인간 전문가의 지식으로 프로그래밍될 필요가 없다. 대신 이 네트워크는 인간이 다루었던 것보다 훨씬 크고 혼란스러운 데이터에서 ‘패턴’을 보고 ‘징후’를 읽을 때까지 거대한 훈련 데이터를 통해 그들 스스로 학습한다.

다양한 과학 분야의 몇 가지 사례를 살펴보자. 수십억 명의 사용자들과 그들이 남긴 누적 게시물을 보유한 소셜 미디어는 사회 과학에 빅데이터라는 선물을 안겨줬다. 또한 인공 지능을 사용하여 거대한 인간 커뮤니티의 의미를 탐구할 수 있는 전례 없는 기회의 문도 열어줬다.

예를 들어 펜실베이니아 대학의 긍정심리학센터Positive Psychology Center 연구자들은 대중의 정서적?심리적 건강도를 측정하기 위해 페타바이트petabyte(1000조 바이트) 단위의 데이터를 탐색하는 데 이미 기계 학습과 자연 언어 프로세싱을 사용하고 있다. 원래 이 연구는 설문조사를 통해 수행되었던 것이다. 소셜 미디어 데이터는 ‘눈에 잘띄지 않으면서 매우 저렴하며 표본 크기는 기존보다 훨씬 더 크다’는 장점을 지니고 있다. 눈에 잘 띄지 않기에 더욱 정확한 정보를 추출할 수 있고 표준 크기가 크다면 신뢰도는 더욱 높아진다.

또한 최근 연구에서 한 연구팀은 1억4천8백만 개의 트윗을 분석하여 심장병 사망률을 예측했다. 위험 인자들이 분노와 부정적 관계와 관련된 단어를 포함하는 것으로 치환되었다. 인공지능에 기반한 소셜 미디어 조사 연구를 통한 예측은 흡연, 당뇨병과 같은 주요 위험 요소 10가지를 기반으로 한 예상보다 실제 사망률에 더 근접했다. 이들 연구자들은 또한 성격, 소득 및 정치 이데올로기를 예측하고 병원 치료, 신비적 경험, 고정 관념을 연구하는 데도 소셜 미디어를 사용했다. 언어 분석과 심리학으로도 이러한 연구가 전이되고 있는 것은 앞으로 일어날 혁명의 일부일 뿐이다.

한편, 입자 물리학자들은 이질적인 새로운 비트 물질을 폭발시키기 위해 엄청난 에너지와 함께 아원자sub-atomic 입자들을 충돌시킴으로써 우주의 내부 작동 원리를 이해하려고 노력해왔다. 유럽입자 물리연구소Conseil Europeen pour la Recherche Nucleaire, CERN에서 힉스 입자Higgs boson가 10억 번의 양성자 충돌당 약 1번 비율로 발생했다. 이것이 한 쌍의 광자와 4개의 뮤온과 같이 다른 입자로 붕괴하는 데 걸리는 시간은 10억 분의 1 피코초picosecond(1조분의 1초) 이내다. 그러나 힉스를 재구성하기 위한 숙제가 아직까지 남아 있는데, 더 공통적인 입자를 모두 찾아내고, 해당 입자가 그 입자를 추출한 물질에서 나온 것인지를 모두 확인해야 하는 일이다.

이 복잡하고 시간이 많이 소요되는 작업에 인공 신경 네트워크는 큰 도움이 된다. 이 네트워크는 신호를 감지하는 데 매우 탁월하기 때문이다. 따라서 이러한 알고리즘이 힉스에서 유래한 한 쌍의 광자를 무작위로 구별하는 데 큰 도움을 줄 것이다. 연구자들은 2024년에 거대강입자가속기Large Hadron Collider, LHC를 업그레이드하여 충돌 비율을 10배 증가 시킬 계획이다. 이 시점에서 기계 학습은 앞으로 발생할 거대한 데이터 토렌트를 따라잡을 수 있는 유일한 방법일지도 모른다.

즉각적인 상업적 의미가 있는 연구 영역은 화학 합성을 위해 가장 효과적인 분자 레시피를 신속하게 계산하는 시스템이다. 한 연구팀은 화학 반응에 대해 엄격하고 빠른 규칙을 프로그래밍하는 대신 ‘딥deep 신경 네트워크 프로그램’을 설계했다. 이 프로그램은 수백만 가지 사례를 바탕으로 어떤 반응이 진행되는지를 학습한다. 더 많은 데이터가 입력될수록 더 향상된 성능을 보이기 때문에, 시간이 지남에 따라 네트워크는 합성에서 원하는 단계에 대한 최상의 반응을 예측하는 방법을 학습한다. 그리고 결국 분자를 처음부터 만들 수 있는 자체 레시피 제조에 이르게 된다. 연구자들은 기존의 규칙 기반 분자 디자인 프로그램과 비교하여 40개의 다른 분자 표적을 대상으로 이 프로그램을 실험했다. 결과는 신경 네트워크 프로그램의 압승이었다.

이러한 트렌드를 고려하여, 우리는 향후 일어날 일을 다음과 같이 예측한다.

첫째, 2020년에 이르면 과학 저작물 탐색에 있어 노동 절약형 인공지능 기반 도구의 활용이 거의 전 분야에 걸쳐 표준 절차가 될 것이다.

오늘날, 7500만 개 이상의 과학 논문이 누적되어 있고, 매년 약 250만 개의 새로운 논문이 발표된다. 특정 과학자의 연구와 관련된 작은 부분의 탐색은 부담이 적지만, 새로운 연구 가설과 새로운 연구 결과를 찾고 있는 경우 그 부담은 상상 이상이다. 다행히, 사이언스 서베이어Science Surveyor, 시맨틱 스콜라Semantic Scholar, 아이리스 에이아이Iris AI와 같은 새로운 인공지능 기반의 도구가 이미 존재하고 있다. 사이언스 서베이어의 목표는 학술지의 텍스트를 가져와 유사한 용어를 사용하는 다른 연구를 위해 학술 데이터베이스를 검색할 수 있도록 하는 것이다. 이후 선택한 텍스트 전체에서 언어가 사용되는 방식을 분석하여 과학적 사고가 시간이 지남에 따라 어떻게 변하는지를 보여주는 관련 텍스트를 제공한다. 시맨틱 스콜라는 핵심 단어뿐만 아니라 그래픽, ‘영향력있는 인용’을 기반으로 결과를 치환해주는 인공지능 기반 과학 검색 엔진이다. 아이리스 에이아이IRIS AI는 관련 논문의 ‘핵심 개념’을 기반으로 과학 데이터베이스를 검색하는 과학 검색 도구다. 알타비스타AltaVista와 구글의 첫 작품이 최첨단 검색엔진이었던 것처럼, 현재의 이러한 탐색 도구는 앞으로 진화될 미래의 시작에 불과하다.

둘째, 인공지능에 기반한 실험 설계는 그 성과가 부진하지만, 일부에서는 향후 10년 동안 경제적으로는 중요한 진전이 이뤄질 것이다.

수많은 연구들이 이제 높은 인건비를 줄이는 방향으로 움직이고 있다. 지금까지의 연구에는 과학 문헌이나 저작물을 탐색하고, 이해하고, 의미있는 가설을 테스트하는 데 인간이 필요했다. 물론 몇몇 분야를 제외하고 인공지능을 이러한 연구 업무에 투입한 테스트 결과는 좋지 않았다. 그리고 이러한 실패는 앞으로 10년 이상 지속될 것이다. 다만 인공지능 기반의 실험 설계에 성공한 분야에서는, 해당 기업들이 큰 수익을 거두게 될 것이다. 바이오 연료, 플라스틱, 약물 원료를 생산해 산업용 미생물을 취급하는 생명공학 기업 자이머젠Zymergen을 보자. 이들은 인공지능을 활용하여 유용 물질 생산에 가장 최적화된 미생물을 찾아내는 실험을 진행하고 있다. 연구자들이 여전히 실험 결과를 살피고 검토하는 업무를 보지만, 인공지능이 정보를 분석하고 가설을 세워 실험을 구상하도록 하고 있다. 이로 인해 자이머젠은 사람이 한 달에 10건의 실험에 그쳤던 일을 인공지능을 통해 주당 1천 건 실험으로 늘릴 수 있었다.

셋째, 향후 완전 자동화된 원격 연구 실험실이 인간의 실수를 없애고 실험 시간, 비용, 품질에 획기적인 성과를 가져다줄 것이다.

생명과학 분야에서 클라우드 기반의 원격 실험실은 최신 실험에 대한 속도, 비용, 품질, 접근성을 획기적으로 향상시켜주는 큰 혜택을 제공해줄 것이다. 에머랄드 클라우드 랩Emerald Cloud Labs과 트랜스크립틱Transcriptic 같은 회사는 최첨단 로봇 실험실을 대여해준다. 수백만 달러 이상을 투자하여 멸균된 완전 자동화 실험실을 직접 운영하는 대신, 스타트업 혹은 기술 회사는 ‘필요에 따라’ 이러한 시설에 대한 이용권을 구입할 수 있다. 이 실험실의 로봇은 의뢰한 연구원의 실험 계획을 완벽하게 수행하고, 실험 결과물과 데이터를 전달해준다. 클라우드 서비스로 인해 거의 모든 비즈니스가 수퍼 컴퓨팅을 이용할 수 있게 된 것처럼, 이러한 실험실은 거의 모든 바이오 기술 연구원이 최신 기술을 이용할 수 있게 해준다. 즉, 엔젤투자 혹은 벤처 투자금으로 사업을 갓 시작한 기업이 대기업 연구 센터와 경쟁할 수도 있는 것이다.

넷째, 비교할 수 없는 속도와 성능으로, 인공지능 기반 데이터 해석이 향후 10년 동안 수십억 달러의 경제적 가치를, 그 이후부터는 수년 내에 수조달러의 가치를 창출할 것이다.

누토니안Nutonian이 개발한 유레카Eureqa를 보자. 유레카는 기술을 잘 모르는 사용자도 이해할 수 있도록 데이터와 정보에서 분석 모델을 자동으로 구축해 해석해주는 인공지능 소프트웨어다. 이 소프트웨어를 사용하면, 수 주 또는 수개월이 아닌 몇 분 이내에 해석하기 쉬운 예측 모델을 만들 수 있다. 이는 새로운 데이터를 더 잘 분석할 수 있는 기회의 문을 열었을 뿐만 아니라, 한번도 철저하게 분석된 적이 없는 거대한 기존 데이터 세트에서 새로운 것을 발견하게 하는 것도 가능케 한다.

다섯째, 2030년까지 인공지능은 과학자들이 연구를 발표하고 특허를 보다 신속하게 받을 수 있도록 널리 활용될 것이다.

현재까지 가장 유용한 인공지능 도구 중 하나는 사이트오매틱Citeomatic이라는 무료 온라인 리소스다. 이미 수백만 편의 논문 학습이 이뤄졌고 인용문도 마련되었다. 사이트오매틱은 발견된 학습 관계를 사용하여 논문 저자의 예비 논문을 예비 인용 집합과 함께 취급해 관련성이 있는 다른 인용을 식별할 수 있다. 그 결과 훨씬 더 좋은 논문을 작성해 심사에 제출할 수 있다. 유사한 도구들이 특허 업무에도 도입되어, 이 도구들이 다양한 학습을 통해 특허 출원을 더 쉽고 빠르게 진행되도록 활용될 것이다.

* *

References List :
1. Science. John Bohannon. Jul. 5, 2017. A new breed of scientist, with brains of silicon.
http://www.sciencemag.org/news/2017/07/new-breed-scientist-brains-silicon

2. Science. Science News Staff. Jul. 5, 2017. AI is changing how we do science. Get a glimpse.
http://www.sciencemag.org/news/2017/07/ai-changing-how-we-do-science-get-glimpse

3. Inverse.com. Nathaniel Mott. September 21, 2016. How Microsoft Is Using Artificial Intelligence to “Solve” Cancer.
https://www.inverse.com/article/21232-microsoft-using-artificial-intelligence-solve-cancer

4. Science. Paul Voosen. July 6, 2017. How AI detectives are cracking open the black box of deep learning.
http://www.sciencemag.org/news/2017/07/how-ai-detectives-are-cracking-open-black-box-deep-learning