끝없이 확장되고 있는 데이터 세계
수십 년 동안, 데이터의 수집 및 저장, 전송, 분석은 가속화를 통해 확... |
수십 년 동안, 데이터의 수집 및 저장, 전송, 분석은 가속화를 통해 확장되어 왔다. 반면 각 단계에서의 단위 비용은 급격하게 줄어들고 있다. 이는 우리가 앞으로 맞이할 미래의 토대가 되는 현실이다. 그렇다면 데이터의 양은 현재 얼마나 될까? 이 데이터는 어디로부터 나왔을까? 이 데이터는 왜 중요한가?
정보화 시대에서 가장 중요한 지표는 생성, 수집, 저장, 전송, 분석에 관한 정보의 양이 증가하는 비율이다. 앞으로는 건강관리에서 운송, 엔터테인먼트, 국방, 제조에 이르기까지 모든 것들이 데이터를 유용한 것으로 변환하는 과정에 의존하게 된다. 그리고 오늘날 정보는 모든 힘과 부(wealth), 그리고 보안의 기초가 된다. 아마도 20세기 중반 이후 가장 중요한 추세는 정보 처리 비용의 하락과 확장된 데이터, 그리고 데이터 처리 기술의 성장이었을 것이다.
이제부터 이러한 데이터의 기본 트렌드와 그 함의에 대해 살펴보자.
가장 근본적인 수준에서 우리가 매일 생성하는 데이터의 양은 정말 놀라울 정도이다. 2020년에는 매일 약 180억 기가 바이트의 데이터가 생성될 것이며 그 속도는 사물인터넷(IoT)의 성장에 따라 더욱 가속화될 것이다.
이러한 가속화의 관점에서 볼 때, 인류는 적어도 6,000년 동안 데이터를 기록해 왔다. 그런데 이 모든 전 세계 데이터의 90%가 지난 2년 동안 생성되었다.
그렇다면 이 모든 데이터는 어디에서 나왔을까?
인터넷부터 시작해보자. 손끝에 많은 정보가 담겨 있기 때문에 구글은 검색 엔진을 사용하여 답변을 얻을 때마다 데이터 스토리지에 이를 추가하고 있다. 다음은 몇 가지 관련 통계이다.
- 2019년 6월 45억 명이 넘는 사람들이 인터넷을 사용했다
- 이는 전 세계 인구 77억 명의 약 58%에 해당한다
- 북미 인구의 약 90%가 인터넷을 사용하고 있으며 아프리카 인구는 40% 미만이다
- 사람들은 휴대 전화로 웹 검색의 절반 이상을 수행한다
- 평균적으로 구글은 현재 초당 65,000회(하루 약 55 억) 이상의 검색을 처리한다
- 검색의 77%가 구글에서 이뤄지지만, 일상적인 데이터 생성에 기여하는 다른 검색 엔진이 있다는 것을 기억해야 한다. 전 세계적으로 하루에 총 70억 건 이상의 검색이 이루어지고 있다.
소셜 미디어는 어떨까? 현재 소셜 미디어에 대한 우리의 관심과 사랑은 데이터 생성을 촉진하고 있다. 도모(Domo)의 “Data Never Sleeps 6.0 보고서”에 따르면 평균적으로 1분마다 발생하는 처리량은 다음과 같다.
- 스냅챗(Snapchat)에서 이용자들은 527,760장의 사진을 공유한다
- 120명 이상의 전문가들이 링크드인(LinkedIn)에 가입한다
- 유튜브에서 이용자들은 4,146,600개의 비디오를 시청한다
- 트위터에서 이용자들은 456,000개의 트윗을 보낸다
- 인스타그램에서 이용자들은 46,740장의 사진을 게시한다
24억 명의 이용자들이 활동하는 페이스북은 여전히 ??가장 큰 소셜 미디어 플랫폼이다. 이는 전 세계 77억 명의 3분의 1이 페이스북에서 활동하고 있음을 의미한다! 페이스북에서 일어나는 흥미로운 통계를 보자.
- 15억 명의 사람들이 매일 페이스북에서 활동하고 있다
- 유럽에서 페이스북을 사용하는 사람들은 3억7백만 명 이상이다
- 초당 5개의 새로운 페이스북 프로필이 생성된다
- 매일 3억 개 이상의 사진이 페이스북에 업로드된다
- 1분마다 51만 개의 댓글이 게시되고 29만3천 개의 계정이 업데이트된다
페이스북이 가장 큰 소셜 네트워크이지만 그들이 소유한 인스타그램도 인상적인 성장을 보여주고 있다. 이 사진 공유 플랫폼이 데이터 홍수에 어떻게 추가되는지 보자.
- 6억 명의 인스타그램 이용자가 있다
- 이들 중 4억 명이 매일 활동한다
- 매일 9천5백만 개의 사진과 비디오가 인스타그램을 통해 공유된다
- 1억 명이 인스타그램의 ‘스토리즈’를 매일 사용한다
또 다른 거대 데이터 소스는 통신이다. 문자 메시지, 음성, 이메일 또는 화상 회의 등 이용자들이 선호하는 통신 방법을 사용할 때마다 데이터가 추적되고 남겨진다. 1분마다 발송하는 통신량에 대한 놀라운 통계는 다음과 같다.
- 사람들이 1600만 개의 문자 메시지를 보낸다
- 2019년 기준, 전 세계 29억 명의 전자메일 사용자들이 1억5천6백만 통의 전자메일을 발송한다
- 2만5천 개의 GIF 이미지가 페이스북 메신저를 통해 전송된다
- 103,447,520개의 스팸 이메일이 전송된다
- 스카이프(Skype)로 176,220번 통화가 이뤄진다
이제 우리의 스마트폰은 모범적인 카메라이기에, 모든 사람들이 사진작가이고, 이는 온라인에 저장되는 수 조 개의 사진들로 증명된다. 이러한 속도가 떨어지는 징후는 없기 때문에 디지털 사진 수는 계속 증가할 것으로 예상된다. 수 년 전부터 그 숫자는 이미 엄청났다.
- 2017년에 사람들은 1조2천억 개의 사진을 촬영했다
- 온라인에 4조7천 개의 사진이 저장되어 있다
빠르게 증가하는 또 다른 데이터 소스는 온라인 서비스에 있다. 새로운 ‘플랫폼 중심 경제’의 비즈니스 및 기타 서비스 제공 업체는 1분마다 수백만 건의 처리 데이터를 생성하고 있다. 365일, 1주일, 24시간 끊임이 없으며 1분간 처리되는 규모는 다음과 같다.
- 날씨 채널은 18,055,556개의 예보 요청을 수신 처리한다
- 벤모(Venmo)는 P2P 거래에서 68,493 달러를 처리한다
- 스포티파이(Spotify)는 75만 곡을 스트리밍한다
- 우버(Uber) 라이더들이 1,389번 운행한다
- 위키에 600개의 새로운 페이지 편집 내용이 발생한다
한편 사물인터넷이 이제 상당한 규모의 데이터를 생성하기 시작했다. 연결된 ‘스마트’ 기기들이 모든 종류의 데이터를 수집하면서 기기 간 서로 그리고 사람들과 상호 작용한다. 이 기술 범주는 2006년 20억 대의 장치에서 2025년까지 400억 대로 폭발적으로 성장했다. 2018년에만, 25억 개의 새로운 기기들이 연결되었다. RFID 태그와 내장 센서를 세면 결과적으로 1조 개 이상일 수도 있다.
이 숫자들로 무장된, 우리 자신과 우리의 회사가 하루 종일 데이터를 생성하는 모든 방법을 고려해 보라. 우리 주변의 모든 곳에서 생성된 데이터를 알고 나면 비즈니스와 삶에서 더 나은 의사 결정을 내리기 위해 해당 데이터를 어떻게 활용할 수 있을지 상상할 수 있다. 그리고 우리는 그것이 우리에게 불리하게 사용될 수 있는 방법도 보기 시작할 것이다.
이러한 새로운 데이터의 세계에서 우리는 다음과 같은 예측을 내려 본다.
첫째, 일반적인 인터넷 사용이 향후 10년 말까지 평준 안정화될 것이다.
월드 와이드 웹(World Wide Web)을 만든 지 26년이 지난 지금 전 세계 인구의 거의 58%가 온라인 상태에 있다. 아프리카와 아시아에서의 모바일 액세스가 유비쿼터스 환경에 노출됨에 따라, 2020년대 거의 대부분의 기간 이 비율은 더욱 증가할 것이다. 그리고 100%에 가까워질수록 쿼리, 소셜 미디어, 엔터테인먼트로부터의 데이터 양은 현재 미국의 1인당 처리량 수준에 근접할 정도로 평준 안정화될 것이다.
둘째, 2020년 이후의 데이터 발생의 주요 동인은 사물인터넷이 될 것이다.
2025년에는 479억 개의 사물인터넷 기기가 온라인 상태가 되어 매년 79.4 제타바이트(79.4조 기가바이트)의 데이터를 생성할 것이다. 앞서 언급했듯 RFID 태그와 임베디드 센서는 2030년에서 2050년 사이 1조 개로 계속 성장할 것이다.
셋째, 유지 및 검색 비용이 저렴해짐에 따라 기존의 여러 데이터 범주는 그 중요성이 높아질 것이다.
예를 들어, 산업 및 자동차 데이터는 2025년까지 가장 빠른 데이터 성장률을 보이지만, 비디오 감시 데이터가 사물인터넷상 생성되는 데이터의 상당 부분을 차지하게 될 것이다. IDC에 따르면 이러한 데이터 유형은 60%의 연평균복합성장률(Compound Annual Growth Rate, CAGR)을 보일 것이다. 이는 데이터를 지속적으로 캡처하는 센서의 수가 증가하고 기계 기능에 대한 더 많은 (더 풍부한) 메트릭스를 캡처하는 고급 센서가 더 많이 도입된 결과이다.
넷째, 5G의 출시는 향후 10년 동안 성능 효율성을 크게 향상시키고 데이터 처리 비용을 줄여줄 것이다.
5G의 등장으로 5G를 지원하는 기기들의 성능 효율성은 비약적으로 높아지고, 빠른 속도와 대용량 처리로 인해 기존 처리 비용보다 더 저렴하고 효율적인 데이터가 생성 및 전송될 것이다. 이는 모든 관계 산업의 연속적인 성장으로 귀결될 것이다.

Our Ever-Expanding Data Universe
In the information age the most important metric is the rate of increase in the volume of information created, collected, stored, transmitted, and analyzed. Everything from health care to transportation to entertainment to defense to manufacturing depends on turning data into useful activity. Today, information is the basis of all power, wealth and security. Perhaps the most important trend since the mid-20th century has been the falling costs of handling information and, by extension, our ever-expanding wealth of data and data handling technology.
In this segment, we’ll explore this foundational trend and its implications.
At the most fundamental level the amount of data we produce every day is truly mind-boggling. Next year, an estimated 18 billion gigabytes of data will be created each day and that pace will only accelerate with the growth of the Internet of Things (or IoT).
To put this acceleration in perspective, mankind has been recording data for at least 6,000 years. And yet, 90 percent of all the data in the world was generated over the last two years alone.
Where does all this data come from?
Let’s start with the Internet. With so much information at our fingertips, we’re adding to the data stockpile every time we turn to our search engines for answers. Here are a few relevant stats.
- More than 4.5 billion humans used the internet in June 2019.
- That’s roughly 58% of the world’s population of 7.7 billion.
- Roughly 90% of North Americans are on the Internet vs less than 40% of Africans.
- People conduct more than half of their web searches from mobile phones.
- On average, Google now processes more than 65,000 searches each second or (5.5 billion searches per day)! And,
- While 77% of searches are conducted on Google, we need to remember that there are other search engines contributing to our daily data generation. Worldwide, there are collectively over 7 billion searches a day.
What about Social Media? Our current love affair with social media certainly fuels data creation. According to Domo’s Data Never Sleeps 6.0 report, the volume of transactions that occur every minute on average is as follows:
- Users share 527,760 photos on Snapchat;
- More than 120 professionals join LinkedIn;
- Users watch 4,146,600 videos on YouTube;
- Users send 456,000 tweets on Twitter; and
- Users post 46,740 photos on Instagram.
With 2.4 billion active users Facebook is still the largest social media platform. That means about one-third the world’s 7.7 billion humans are active on Facebook! Here are some other intriguing Facebook statistics:
- 1.5 billion people are active on Facebook daily;
- Europe has more than 307 million people on Facebook;
- There are five new Facebook profiles created every second;
- More than 300 million photos get uploaded to Facebook every day; and
- Every minute there are 510,000 comments posted and 293,000 statuses updated.
Even though Facebook is the largest social network, Instagram (which is also owned by Facebook) has shown impressive growth, as well. Here’s how this photo-sharing platform is adding to our data deluge:
- There are 600 million Instagrammers;
- 400 million of these are active every day;
- 95 million photos and videos are shared on Instagram each day; and
- 100 million people use the Instagram “stories” feature daily.
Another big source of data is communications. We leave a data trail whenever we use our favorite communication methods whether we’re using texting, voice, emails, or video conferencing. Here are some incredible stats for the volume of communication we send out every minute:
- People send 16 million text messages;
- In 2019, 156 million emails are being sent every minute, by about 2.9 billion email users worldwide;
- 25,000 GIFs are sent via Facebook messenger;
- There are 103,447,520 spam emails sent every minute; and
- There are 176,220 calls on Skype.
Now that our smartphones are exemplary cameras as well everyone is a photographer and the trillions of photos stored on-line is proof. Since there are no signs of this slowing down, expect the digital photo numbers to continue to grow. A couple of years ago the numbers were already huge:
- In 2017, people shot 1.2 trillion photos; and
- There were 4.7 trillion photos stored on-line.
Another rapidly growing source of data is the use of on-line services. Businesses and other service providers in our new “platform-driven economy” are generating millions of transactions every minute. Here are a few examples of the volumes generated each minute, 24/7/365:
- The Weather Channel receives 18,055,556 forecast requests;
- Venmo processes $68,493 in peer-to-peer transactions;
- Spotify streams 750,000 songs;
- Uber riders take 1,389 trips; and
- There are 600 new page edits to Wikipedia
Meanwhile the Internet of Things has just begun generating really serious date volumes. These connected “smart” devices interact with each other and with us while collecting all kinds of data. This category of technology has exploded from just 2 billion devices in 2006 to a projected 40 billion by 2025. In 2018 alone, 2.5 billion new devices were connected. And if we count RFID tags and embedded sensors, there might eventually be over 1 trillion.
Armed with these numbers, consider all the ways that you and your company generate data as you go about your day. Once you are aware of the data generated all around you, you will start to imagine just how that data might be harnessed to make better decisions in your business and life. And you also begin to see how it might be used against you. Fortunately, the biggest risk is continuing to simply do business as usual.
Given this trend, we offer the following forecasts for your consideration.
First, conventional Internet usage will plateau by the end of the coming decade.
Twenty-six years after the creation of the World Wide Web, nearly 58% of the global population is on-line. Penetration will rise through most of the 2020s, as mobile access becomes ubiquitous in Africa and Asia. As we approach saturation, data volumes from queries, social media and entertainment are likely to level off at a low multiple of current U. S. per capita levels.
Second, the primary driver of data beyond 2020, will be the Internet of Things.
By 2025, 41.7 billion IoT devices will be on-line, generating 79.4 zettabytes of data annually. As mentioned above, RFID tags and embedded sensors will continue to grow toward 1 trillion devices between 2030 and 2050.
Third, several existing data categories will increase in importance as retaining and searching them becomes less expensive.
For instance, video surveillance data will drive a large share of the IoT data created, while industrial and automotive data will see the fastest data growth rates through 2025. According to IDC, these data types will have a CAGR of 60%. This is the result of the increasing number of sensors that are capturing data continuously, as well as the introduction of more advanced sensors capturing more (and richer) metrics on machine functions. And,
Fourth, the roll-out of 5G will dramatically increase the performance and reduce the cost of data handling over the course of the coming decade.
