과학을 수행하는 방식, 인공지능이 뒤집어엎다 | ||||
인공지능이 과학을 수행하는 방식을 바꾸고 있다. 이것은 인간 과학자에게 ... |
인공지능이 과학을 수행하는 방식을 바꾸고 있다. 이것은 인간 과학자에게 더 큰 성과와 결과를 이끌어주는 스타트한 방식의 진화라 할 수 있다.
과학 전 분야에 걸쳐 일어나고 있는 인공지능의 활용이 앞으로 어떤 기회를 창출하게 될까? 과학자와 소비자, 투자자에게는 어떤 의미일까? 디지털 기술의 진정한 마법은 삶과 비즈니스의 거의 모든 면을 질적, 양적으로 향상시키는 인류의 성장 능력에 달려 있다. 특히 과학적 조사 분야에서 이러한 능력은 더욱 두드러지는데, 더 우수하고, 더 빠르고, 보다 더 저렴하게 과학을 수행할 수 있는 방법이 이미 시작되어 선순환 구조를 이루고 있다. 보다 생산적인 연구는 새로운 중요한 발견을 더 빠르고 저렴하게 이끌어냄으로써 사회적 부를 늘리고 이 부가 다시 연구에 더 많은 자원을 투자할 수 있는 환경을 만들고 있다. 더 좋은 점은, 디지털 연구가 우리로 하여금 과거에는 할 수 없었던 것을 이제는 실행할 수 있도록 해준다는 데 있다. 동시에 현재는 가장 부유한 계층에게만 제공되었던 솔루션이 수년 후에는 극빈 계층에게도 제공될 수 있다.
사회에 부와 각종 혜택을 안겨 주는 새로운 발견들이 전 지구촌에서 이렇게 빠르게 진행되고 그리고 누구나 접근 가능한 것이 된 적은 이전 시대에는 단 한 번도 없었다. 다만 이러한 속도 때문에, 과학자들조차도 종종 자신의 과학 연구 전문 분야 내에서의 혁명만 인식하고 있다. 그리고 아직 초기 단계에 있는 과학내 디지털 혁명의 폭넓은 범위가 의미하는 바를 인지하고 있는 경영자나 정책 입안자는 여전히 소수에 불과하다.
사실 이 혁명을 이해하려면 과학적 발견 주기의 5단계를 이해하고 디지털화가 각 단계에서 그 프로세스를 어떻게 향상시키는지를 고려해야 한다. 다음은 과학적 발견 주기의 5단계다.
1단계는 ‘과학 저작물 탐색’이다. 이 단계에서의 임무는 수백만 편의 관련 과학 논문을 찾아내는 것과 동시에 새로운 주제를 추적하는 것이다.
2단계는 ‘실험 설계’다. 이것은 가설을 세우고 시험할 수 있는 방법을 결정하는 것이 관건이다. 비즈니스 전략과 마찬가지로 실험 설계가 실행, 투자, 메트릭스를 결정하여 나머지 연구를 이끌어간다. 핵심은 새로운 지평의 탐구와 잘 이해되는 현상 간의 적절한 절충점을 찾는 데 있다.
3단계는 ‘실험 실행’이다. 수백만 개의 데이터 포인트와 그들의 관계를 추적하는 것이다. 예를 들어, 생명 과학의 경우, 다양한 분자와 세포에 대해 실험하는 수천 개의 작은 튜브를 오염을 피하면서 정확하게 결정된 시간과 기간 동안 섬세하게 관찰하는 것이다. 이 단계에서의 실수는 연구자의 이력을 망칠 수도 있을 만큼 치명적이다.
4단계는 ‘데이터 해석’이다. 이것은 실험에서 발생하는 엄청난 원시 데이터를 이해하는 것을 포함한다. 예를 들어, 생명 과학에서 이것은 수조 바이트의 유전 및 생화학 정보를 포함할 수 있다. 목표는 실험 결과를 과학적 결과로 변환하는 것이다. 여기서 연구자는 가설이 정량적으로 확인되는지를 파악해야 한다. 이 과정에서 또 다른, 똑같이 흥미로운 가설이 공식화되고 확인되기도 한다.
5단계는 ‘새로운 과학 논문 작성’이다. 여기서 한 주기가 끝을 맺고 새로운 주기가 시작된다. 연구자들은 1단계에서 확인된 것과 상관없이 모든 관련 선례를 인용했는지 확인한다. 이후, 논문 심사를 거친 결과가 과학 문헌 목록에 추가되고, 다른 연구자들이 이 결과를 인용할 수 있게 된다. 이상적인 경우, 어떤 연구 결과는 자주 인용되는 연구 논문으로 번역될 수도 있고, 가치 있는 특허를 받기도 하며, 심지어 완전히 새로운 기업을 위한 기반으로도 활용된다.
이 각 단계는 문명의 여명부터 1980년대까지 모두 손을 통해 진행되었다. 각 단계마다 연구자들은 손으로 직접 과정과 결과를 기록했다는 의미이다. 이후 과학 저작물이 컴퓨터에 저장되고 나서야 비로소 대규모 데이터에 대한 통계 분석이 메인 프레임과 미니 컴퓨터를 통해 널리 이용 가능해졌다. 또한 실험에서 디지털 도구를 활용하여 데이터를 구축하는 일이 점점 더 많아졌고, 이후 35년이 지나 기존 디지털 솔루션은 더 진화했고 저렴해졌으며 빨라졌다.
그렇다면 오늘날에는 어떤 일이 벌어지고 있는가? 이제 양자도약quantum leap의 시대를 맞고 있다. 인공 지능, 빅 데이터 방법, 로봇 공학을 연구에 적용하면서 가능해진 일이다. 앞으로의 핵심 목표는 과학적 프로세스에서 인간을 보완하거나 대체하기 위해 이 기술을 활용하는 것이다. 그리고 두 번째 목표이자 더 큰 목표는 ‘이전에는 불가능했던’ 연구를 진행하는 것이다.
이를 위해 연구자들은 이미 데이터 토렌트data torrents를 기반으로 인공 신경 네트워크artificial neural network의 형태로 인공지능을 앞세우고 있다. 인공지능에 대한 초기 시도와 달리, 이러한 형태의 네트워크는 인간 전문가의 지식으로 프로그래밍될 필요가 없다. 대신 이 네트워크는 인간이 다루었던 것보다 훨씬 크고 혼란스러운 데이터에서 ‘패턴’을 보고 ‘징후’를 읽을 때까지 거대한 훈련 데이터를 통해 그들 스스로 학습한다.
다양한 과학 분야의 몇 가지 사례를 살펴보자. 수십억 명의 사용자들과 그들이 남긴 누적 게시물을 보유한 소셜 미디어는 사회 과학에 빅데이터라는 선물을 안겨줬다. 또한 인공 지능을 사용하여 거대한 인간 커뮤니티의 의미를 탐구할 수 있는 전례 없는 기회의 문도 열어줬다.
예를 들어 펜실베이니아 대학의 긍정심리학센터Positive Psychology Center 연구자들은 대중의 정서적?심리적 건강도를 측정하기 위해 페타바이트petabyte(1000조 바이트) 단위의 데이터를 탐색하는 데 이미 기계 학습과 자연 언어 프로세싱을 사용하고 있다. 원래 이 연구는 설문조사를 통해 수행되었던 것이다. 소셜 미디어 데이터는 ‘눈에 잘띄지 않으면서 매우 저렴하며 표본 크기는 기존보다 훨씬 더 크다’는 장점을 지니고 있다. 눈에 잘 띄지 않기에 더욱 정확한 정보를 추출할 수 있고 표준 크기가 크다면 신뢰도는 더욱 높아진다.
또한 최근 연구에서 한 연구팀은 1억4천8백만 개의 트윗을 분석하여 심장병 사망률을 예측했다. 위험 인자들이 분노와 부정적 관계와 관련된 단어를 포함하는 것으로 치환되었다. 인공지능에 기반한 소셜 미디어 조사 연구를 통한 예측은 흡연, 당뇨병과 같은 주요 위험 요소 10가지를 기반으로 한 예상보다 실제 사망률에 더 근접했다. 이들 연구자들은 또한 성격, 소득 및 정치 이데올로기를 예측하고 병원 치료, 신비적 경험, 고정 관념을 연구하는 데도 소셜 미디어를 사용했다. 언어 분석과 심리학으로도 이러한 연구가 전이되고 있는 것은 앞으로 일어날 혁명의 일부일 뿐이다.
한편, 입자 물리학자들은 이질적인 새로운 비트 물질을 폭발시키기 위해 엄청난 에너지와 함께 아원자sub-atomic 입자들을 충돌시킴으로써 우주의 내부 작동 원리를 이해하려고 노력해왔다. 유럽입자 물리연구소Conseil Europeen pour la Recherche Nucleaire, CERN에서 힉스 입자Higgs boson가 10억 번의 양성자 충돌당 약 1번 비율로 발생했다. 이것이 한 쌍의 광자와 4개의 뮤온과 같이 다른 입자로 붕괴하는 데 걸리는 시간은 10억 분의 1 피코초picosecond(1조분의 1초) 이내다. 그러나 힉스를 재구성하기 위한 숙제가 아직까지 남아 있는데, 더 공통적인 입자를 모두 찾아내고, 해당 입자가 그 입자를 추출한 물질에서 나온 것인지를 모두 확인해야 하는 일이다.
이 복잡하고 시간이 많이 소요되는 작업에 인공 신경 네트워크는 큰 도움이 된다. 이 네트워크는 신호를 감지하는 데 매우 탁월하기 때문이다. 따라서 이러한 알고리즘이 힉스에서 유래한 한 쌍의 광자를 무작위로 구별하는 데 큰 도움을 줄 것이다. 연구자들은 2024년에 거대강입자가속기Large Hadron Collider, LHC를 업그레이드하여 충돌 비율을 10배 증가 시킬 계획이다. 이 시점에서 기계 학습은 앞으로 발생할 거대한 데이터 토렌트를 따라잡을 수 있는 유일한 방법일지도 모른다.
즉각적인 상업적 의미가 있는 연구 영역은 화학 합성을 위해 가장 효과적인 분자 레시피를 신속하게 계산하는 시스템이다. 한 연구팀은 화학 반응에 대해 엄격하고 빠른 규칙을 프로그래밍하는 대신 ‘딥deep 신경 네트워크 프로그램’을 설계했다. 이 프로그램은 수백만 가지 사례를 바탕으로 어떤 반응이 진행되는지를 학습한다. 더 많은 데이터가 입력될수록 더 향상된 성능을 보이기 때문에, 시간이 지남에 따라 네트워크는 합성에서 원하는 단계에 대한 최상의 반응을 예측하는 방법을 학습한다. 그리고 결국 분자를 처음부터 만들 수 있는 자체 레시피 제조에 이르게 된다. 연구자들은 기존의 규칙 기반 분자 디자인 프로그램과 비교하여 40개의 다른 분자 표적을 대상으로 이 프로그램을 실험했다. 결과는 신경 네트워크 프로그램의 압승이었다.
이러한 트렌드를 고려하여, 우리는 향후 일어날 일을 다음과 같이 예측한다.
첫째, 2020년에 이르면 과학 저작물 탐색에 있어 노동 절약형 인공지능 기반 도구의 활용이 거의 전 분야에 걸쳐 표준 절차가 될 것이다.
오늘날, 7500만 개 이상의 과학 논문이 누적되어 있고, 매년 약 250만 개의 새로운 논문이 발표된다. 특정 과학자의 연구와 관련된 작은 부분의 탐색은 부담이 적지만, 새로운 연구 가설과 새로운 연구 결과를 찾고 있는 경우 그 부담은 상상 이상이다. 다행히, 사이언스 서베이어Science Surveyor, 시맨틱 스콜라Semantic Scholar, 아이리스 에이아이Iris AI와 같은 새로운 인공지능 기반의 도구가 이미 존재하고 있다. 사이언스 서베이어의 목표는 학술지의 텍스트를 가져와 유사한 용어를 사용하는 다른 연구를 위해 학술 데이터베이스를 검색할 수 있도록 하는 것이다. 이후 선택한 텍스트 전체에서 언어가 사용되는 방식을 분석하여 과학적 사고가 시간이 지남에 따라 어떻게 변하는지를 보여주는 관련 텍스트를 제공한다. 시맨틱 스콜라는 핵심 단어뿐만 아니라 그래픽, ‘영향력있는 인용’을 기반으로 결과를 치환해주는 인공지능 기반 과학 검색 엔진이다. 아이리스 에이아이IRIS AI는 관련 논문의 ‘핵심 개념’을 기반으로 과학 데이터베이스를 검색하는 과학 검색 도구다. 알타비스타AltaVista와 구글의 첫 작품이 최첨단 검색엔진이었던 것처럼, 현재의 이러한 탐색 도구는 앞으로 진화될 미래의 시작에 불과하다.
둘째, 인공지능에 기반한 실험 설계는 그 성과가 부진하지만, 일부에서는 향후 10년 동안 경제적으로는 중요한 진전이 이뤄질 것이다.
수많은 연구들이 이제 높은 인건비를 줄이는 방향으로 움직이고 있다. 지금까지의 연구에는 과학 문헌이나 저작물을 탐색하고, 이해하고, 의미있는 가설을 테스트하는 데 인간이 필요했다. 물론 몇몇 분야를 제외하고 인공지능을 이러한 연구 업무에 투입한 테스트 결과는 좋지 않았다. 그리고 이러한 실패는 앞으로 10년 이상 지속될 것이다. 다만 인공지능 기반의 실험 설계에 성공한 분야에서는, 해당 기업들이 큰 수익을 거두게 될 것이다. 바이오 연료, 플라스틱, 약물 원료를 생산해 산업용 미생물을 취급하는 생명공학 기업 자이머젠Zymergen을 보자. 이들은 인공지능을 활용하여 유용 물질 생산에 가장 최적화된 미생물을 찾아내는 실험을 진행하고 있다. 연구자들이 여전히 실험 결과를 살피고 검토하는 업무를 보지만, 인공지능이 정보를 분석하고 가설을 세워 실험을 구상하도록 하고 있다. 이로 인해 자이머젠은 사람이 한 달에 10건의 실험에 그쳤던 일을 인공지능을 통해 주당 1천 건 실험으로 늘릴 수 있었다.
셋째, 향후 완전 자동화된 원격 연구 실험실이 인간의 실수를 없애고 실험 시간, 비용, 품질에 획기적인 성과를 가져다줄 것이다.
생명과학 분야에서 클라우드 기반의 원격 실험실은 최신 실험에 대한 속도, 비용, 품질, 접근성을 획기적으로 향상시켜주는 큰 혜택을 제공해줄 것이다. 에머랄드 클라우드 랩Emerald Cloud Labs과 트랜스크립틱Transcriptic 같은 회사는 최첨단 로봇 실험실을 대여해준다. 수백만 달러 이상을 투자하여 멸균된 완전 자동화 실험실을 직접 운영하는 대신, 스타트업 혹은 기술 회사는 ‘필요에 따라’ 이러한 시설에 대한 이용권을 구입할 수 있다. 이 실험실의 로봇은 의뢰한 연구원의 실험 계획을 완벽하게 수행하고, 실험 결과물과 데이터를 전달해준다. 클라우드 서비스로 인해 거의 모든 비즈니스가 수퍼 컴퓨팅을 이용할 수 있게 된 것처럼, 이러한 실험실은 거의 모든 바이오 기술 연구원이 최신 기술을 이용할 수 있게 해준다. 즉, 엔젤투자 혹은 벤처 투자금으로 사업을 갓 시작한 기업이 대기업 연구 센터와 경쟁할 수도 있는 것이다.
넷째, 비교할 수 없는 속도와 성능으로, 인공지능 기반 데이터 해석이 향후 10년 동안 수십억 달러의 경제적 가치를, 그 이후부터는 수년 내에 수조달러의 가치를 창출할 것이다.
누토니안Nutonian이 개발한 유레카Eureqa를 보자. 유레카는 기술을 잘 모르는 사용자도 이해할 수 있도록 데이터와 정보에서 분석 모델을 자동으로 구축해 해석해주는 인공지능 소프트웨어다. 이 소프트웨어를 사용하면, 수 주 또는 수개월이 아닌 몇 분 이내에 해석하기 쉬운 예측 모델을 만들 수 있다. 이는 새로운 데이터를 더 잘 분석할 수 있는 기회의 문을 열었을 뿐만 아니라, 한번도 철저하게 분석된 적이 없는 거대한 기존 데이터 세트에서 새로운 것을 발견하게 하는 것도 가능케 한다.
다섯째, 2030년까지 인공지능은 과학자들이 연구를 발표하고 특허를 보다 신속하게 받을 수 있도록 널리 활용될 것이다.
현재까지 가장 유용한 인공지능 도구 중 하나는 사이트오매틱Citeomatic이라는 무료 온라인 리소스다. 이미 수백만 편의 논문 학습이 이뤄졌고 인용문도 마련되었다. 사이트오매틱은 발견된 학습 관계를 사용하여 논문 저자의 예비 논문을 예비 인용 집합과 함께 취급해 관련성이 있는 다른 인용을 식별할 수 있다. 그 결과 훨씬 더 좋은 논문을 작성해 심사에 제출할 수 있다. 유사한 도구들이 특허 업무에도 도입되어, 이 도구들이 다양한 학습을 통해 특허 출원을 더 쉽고 빠르게 진행되도록 활용될 것이다.
* *
References List :
1. Science. John Bohannon. Jul. 5, 2017. A new breed of scientist, with brains of silicon.
http://www.sciencemag.org/news/2017/07/new-breed-scientist-brains-silicon
2. Science. Science News Staff. Jul. 5, 2017. AI is changing how we do science. Get a glimpse.
http://www.sciencemag.org/news/2017/07/ai-changing-how-we-do-science-get-glimpse
3. Inverse.com. Nathaniel Mott. September 21, 2016. How Microsoft Is Using Artificial Intelligence to “Solve” Cancer.
https://www.inverse.com/article/21232-microsoft-using-artificial-intelligence-solve-cancer
4. Science. Paul Voosen. July 6, 2017. How AI detectives are cracking open the black box of deep learning.
http://www.sciencemag.org/news/2017/07/how-ai-detectives-are-cracking-open-black-box-deep-learning
AI Transforms the Way We Do Science
As we explained in Ride the Wave, the true magic of the coming phase of the Fifth Techno-Economic Revolution lies in mankind’s growing ability to qual- itatively and quantitatively enhance almost every aspect of life and business using digital technology. Nowhere is this “more true” than in scientific re-search, where better, faster, and cheaper ways to conduct every aspect of research are already creat- ing a self-re-enforcing virtuous cycle. More productive research leads quickly and cheaply to important new discoveries, which increase wealth, enabling society to devote more resources to research.
Even better, digital research is enabling us to do things that could never have been done in the past, regardless of the amount of traditional resources al- located. And, at the same time, it’s enabling us to in- vent solutions that benefit the wealthiest among us today, and even the poorest within just a few years.
Never before, has discovery been moving so rapidly and been so accessible on a global basis. Because of its pace, scientists themselves are frequently only aware of the revolution within their own scientific research specialty. And very few managers or policy-makers appreciate the enormous scope of the digital revolution in science which is still in its infancy.
________________________________________
To understand this revolution, it’s necessary to understand the five steps of the scientific discovery cycle and consider how digitization can enhance the process at each step.
Step One: Explore the scientific literature. Here the never-ending task is to identify the relevant scientific papers in a sea of millions, while tracking new topics as they emerge.
Step Two: Design experiments. Here the challenge is to formulate hypotheses and determine how they can be tested. Like business strategy, experimental design determines the execution, investment, and metrics guiding the rest of the study. The key is to find the right trade-off between exploration of new ground and exploitation of well-understood phenomena.
Step Three: Run experiments. Keep track of mil- lions of data points and their relationships. In the case of the life sciences, for instance, thousands of tiny tubes containing experiments on various molecules and cells must be meticulously monitored over precisely determined time periods, while avoiding contamination. Errors at this stage, can lead to career-ending consequences.
Step Four: Interpret the Data. This involves making sense of the flood of raw data coming from the experiments. In the life sciences, for example, this could involve many terabytes of genetic and bio- chemical information. The goal is to transform the experimental results into scientific findings. Here the researcher determines whether the hypothesis is quantifiably confirmed or rejected; or perhaps, another, equally interesting hypothesis is formulated and confirmed. And,
Step Five: Write a New Scientific Paper. This is where the cycle ends and a new one begins. The re- searchers make sure they cite every relevant precedent, regardless of whether it was identified in step one. Then, once peer-reviewed, the results are added to the body of scientific literature to be cited by other researchers. In the ideal case, the findings translate, not only into a frequently cited research paper, but become the basis for a valuable patent and perhaps even a whole new enterprise.
________________________________________
From the dawn of civilization until the 1980s, every step in the cycle was painstakingly manual. That’s when scientific literature became stored on computers, statistical analysis of large data sets became widely available using mainframes and minicomputers, and experimenters increasingly used digital instrumentation to build data sets. Then, over the next 35 years or so, those conventional digital solutions became better, cheaper and faster.
However, it’s only now that artificial intelligence, big data methods, and robotics are reaching the point where they are enabling a quantum leap when they’re being applied to research. Going forward, the primary goal is harnessing these technologies to augment, or even replace, humans in the scientific process. The second and bigger objective is to make research, that was “formerly impossible,” routine.
To do this, researchers are already unleashing artificial intelligence, often in the form of artificial neu- ral networks, on the data torrents. Unlike earlier attempts at AI, these don’t need to be programmed with a human expert’s knowledge. Instead, they learn on their own, often from large sets of “training data,” until they can “see patterns” and “spot anomalies” in data sets that are far larger and messier than human beings can cope with.
________________________________________
Consider just a few examples from a range of scientific disciplines:
Social media with billions of users and trillions of cumulative posts has brought big data to the social sciences. It has also opened an unprecedented opportunity to use artificial intelligence to glean meaning from this mass of human communications. For instance, researchers at the University of Pennsylvania’s Positive Psychology Center are already using machine learning and natural language processing to sift through petabytes of data to gauge the public’s emotional and physical health. That’s traditionally been done with surveys. But social media data are “unobtrusive, very inexpensive, and the sample sizes are orders of magnitude greater.” In one recent study, the team predicted county-lev- el heart disease mortality rates by analyzing 148 million tweets; risk factors turned out to include words related to anger and negative relationships. The predictions from the AI-based social media study matched actual mortality rates more closely than did predictions based on the 10 leading risk factors, such as smoking and diabetes. The same researchers have also used social media to predict personality, income, and political ideology, and to study hospital care, mystical experiences, and stereotypes. It’s all part of a revolution going on in the analysis of language and its links to psychology.
Meanwhile, particle physicists strive to understand the inner workings of the universe by smashing sub- atomic particles together with enormous energies to blast out exotic new bits of matter. At CERN, a Higgs boson emerges from roughly one out of every 1 billion proton collisions, and within a billionth of a picosecond it decays into other particles, such as a pair of photons or a quartet of muons. To “re- construct” the Higgs, physicists must spot all those more-common particles and see whether they fit together in a way that’s consistent with them coming from the same parent.
Neural networks excel in sifting signal from back- ground. Today, these algorithms help distinguish the pairs of photons that originate from a Higgs de- cay, from random pairs. In 2024, researchers plan to upgrade the LHC to increase its collision rate by a factor of 10. At that point, machine learning may be the only way of keeping up with the torrent of data.
An area of research with immediate commercial implications is system that quickly calculates the most effective molecular recipes for chemical synthesis. Instead of programming hard-and-fast rules for chemical reactions, a team of research- ers designed a “deep neural network program” that learns how reactions proceed on its own based on millions of examples. The more data that’s fed into it, the better it gets. Over time the network learns to predict the best reaction for a desired step in a synthesis. And, eventually, it comes up with its own recipes for making molecules from scratch. The re- searchers tested the program on 40 different molecular targets, comparing it with a conventional rule-based molecular design program. Whereas the conventional program came up with a solution for synthesizing target molecules 22.5% of the time in a 2-hour computing window, the neural network fig- ured it out 95% of the time. And it’s dramatically faster than a human chemist trying to perform the same task.
Given this trend we offer the following forecasts for your consideration.
First, as soon as 2020, using labor-saving AI- based tools to explore the scientific literature will become standard operating procedure in almost every discipline.
Today, over 75 million cumulative scientific papers have been published and approximately 2.5 million new scientific papers are published each year. While only a tiny fraction have relevance to the work of any given scientist, the load is still overwhelming, especially when you are looking for new findings that hint at a possible new research hypothesis. Fortunately, there are emerging AI-based tools like Science Surveyor, Se- mantic Scholar, and Iris AI that can help The goal of Science Surveyor is to take the text of an academic paper and search academic databases for other studies using similar terms. It then presents related articles that show how scientific thinking is changing over time by analyzing how language is used across all the selected articles. Semantic Scholar is an AI-based scientific search engine that returns results based on graphics and “influential citations,” as well as key words. IRIS AI is a scientific browsing tool that searches scientific databases based on the “crucial concepts” in related papers. Notably, just as AltaVista and the first release of Google presaged today’s state-of-the-art search engines, to- day’s exploration tools are just the beginning.
Second AI-based experiment design will make spotty, but economically important progress over the next decade.
A great deal of study is going into reducing the expensive human effort required to go from an understanding of the scientific literature to testing a meaningful hypothesis. Out- side of a few limited domains, existing AI has failed this test miserably. The Trends editors believe this will remain true for at least the next decade. However, within the domains where AI-based experiment design pays off, companies will reap big returns. Consider the case of Zymergen, a biotechnology company that “tunes up” industrial microbes that produce ingredients for biofuels, plastics, or drugs. Seeking to boost production, companies send their workhorse strains to Zymergen. Robots at Zymer- gen run as many as 1000 experiments per week. Robots only follow orders, so giving them the right orders, that is experiment design, is the real bottle- neck. How does AI help Zymergen overcome this bottleneck? Management says, “You’ve got the original microbe here with about 5000 genes. Let’s say there are 10 ways you could change a given gene. So that’s 50,000 things you could be doing. Maybe 25 strains will produce slightly more of the target chemical. But if you just insert all 25 mutations that yielded small improvements into a single microbe, they don’t add up to a big gain. Instead, the microbe becomes far less fit than the original strain. So, choosing the right path, including detours into promising valleys, requires a mental map showing all the effects of all the mutations at once; this map does not just have three dimensions, but thousands.
Machine learning keeps the whole process goal-oriented and consistent, achieving on average a 10% increase in bacteria productivity for Zymergen clients.” However, when the robots finally discover the genetic changes that optimize chemical output, the system doesn’t have a clue about the biochemistry behind their effects. Not surprisingly, this is fine for a company where only results matter, but not very useful where new understanding is the goal.
Third, going forward, fully-automated remote research labs will dramatically cut the time, cost and quality of running experiments, while eliminating human error.
In the life sciences, cloud-based remote laboratories will deliver enormous benefits that will dramatically improve the speed, cost, quality and accessibility of state-of-the-art experimentation. Companies like Emerald Cloud Labs and Transcriptic sell time in their state- of-the-art robotic laboratories. Rather than invest a million dollars or more to build and operate a sterile, fully automated laboratory, any start-up or tech company can buy access to these facilities on an “as-needed basis.” There, robots flawlessly exe- cute the researchers’ experimental plan and deliver data files along with the frozen end-products of the experiments. Just as the cloud gives nearly every business access to supercomputing power, these labs give nearly every bio-tech researcher access to a laboratory. Suddenly a startup with angel or VC funding can compete with major company research centers.
Fourth, because of its speed and power, AI- based data interpretation will deliver tens of billions of dollars in economic value over the next decade, and trillions in the years that follow.
Consider, Eureqa, from Nutonian, a division Data-Robot Inc. Eureqa ingests very large data sets of the kind we see on social media, in genomics, and from climate studies. Then, it creates easy-to-interpret predictive models in minutes rather than weeks or months. That opens the door to better analysis of new data, as well new discoveries in enormous existing datasets that have never been exhaustively mined. And,
Fifth, by 2030, AI will be used widely to help scientists publish their research, as well as file patents more quickly.
To date, one of the most useful AI-tools is a free online resource called Citeomatic. It has been trained on several million papers and the citations made in them. Then, using the learned relationships discovered, it takes the author’s preliminary paper with its preliminary set of citations and identifies any other citations that may be relevant. The result is a far better paper being submitted for peer-review. Looking ahead, it’s obvious that when Citeomatic and similar tools are trained on the cumulative contents of the world’s patent offices, patent applications will become easier to write and will be produced faster.
References
1. Science. John Bohannon. Jul. 5, 2017. A new breed of scientist, with brains of silicon.
http://www.sciencemag.org/news/2017/07/new-breed-scientist-brains-silicon
2. Science. Science News Staff. Jul. 5, 2017. AI is changing how we do science. Get a glimpse.
http://www.sciencemag.org/news/2017/07/ai-changing-how-we-do-science-get-glimpse
3. Inverse.com. Nathaniel Mott. September 21, 2016. How Microsoft Is Using Artificial Intelligence to “Solve” Cancer.
https://www.inverse.com/article/21232-microsoft-using-artificial-intelligence-solve-cancer
4. Science. Paul Voosen. July 6, 2017. How AI detectives are cracking open the black box of deep learning.
http://www.sciencemag.org/news/2017/07/how-ai-detectives-are-cracking-open-black-box-deep-learning