아주 많은 양의 데이터, 빅 데이터!
빅 데이터를 분석하면 미래를 알 수 있다고?!
미래, 아직 도래하지 않은 현실. 무한한 가능성의 영역이기도 하지만, 끝없는 두려움의 원인이 되기도 해요. 미래를 향한 기대와 걱정은 우리에게 큰 에너지가 되기도 하지만 거꾸로 주저하고 망설이게 만들기도 하죠. 그래서일까요? 인류의 어느 문화권을 둘러보더라도 미래를 예측해 보기 위한 노력의 흔적들을 발견할 수 있어요.
동아시아권의 사람들은 천체의 움직임 패턴을 분석하여 ‘음력’이라는 달력을 만들었고, ‘24절기’라 불리는 미래 예측의 산물을 만들어 냈어요. ‘입춘’이 되면 봄이 오고 ‘처서’가 지나면 선선해지고 ‘동지’가 오면 밤이 가장 길어지고…… 하는 24절기 말이에요.
요즘은 훨씬 더 정밀한 방식으로 미래를 예측할 수 있어요. 기상청에서는 슈퍼컴퓨터를 활용해 가까운 미래의 날씨와 기온, 풍속까지도 예측할 수 있어요. 이런 첨단 기술도 따지고 보면 “미래의 일을 알고 싶다.”라는 욕구에서 출발했다는 사실이 무척이나 재미있지 않나요?
더 재미있는 사실 하나 알려 줄까요? 실은, 조상님들이 천체를 관측하여 절기를 알아내는 과정이나, 현대의 기상청이 일기 예보를 만드는 과정은 모두 동일한 작업이에요. 바로 ‘빅 데이터’ 분석이라는 작업이랍니다. 요즘은 빅 데이터를 활용해 인간보다 더 똑똑한 인공 지능(AI)을 만들고 있기도 하죠.
대체 빅 데이터가 도대체 무엇이기에 미지로 가득한 미래를 예측하는 도구로 사용될까요? 그리고 어떤 가능성과 위험성을 가졌을까요? <미래를 여는 키워드> 시리즈 일곱 번째 권, 《빅 데이터가 뭐예요?》에서 자세히 알려줄게요.
사람보다 똑똑한 인공 지능(AI)이
사실은 빅 데이터 해독기이자 계산기?
‘빅 데이터’는 이름 그대로 ‘큰 데이터’예요. 그게 빅 데이터의 본질이에요. 생각보다 단순하죠?
내일의 날씨를 예측하기 위해서는 한반도 주위를 둘러싼 공기 덩어리들이 흘러가는 속도와 방향, 수증기의 양, 주변의 기압, 최근 수년간의 기상 변화 자료 등 대단히 많은 정보, 즉 데이터가 필요해요. 데이터가 많으면 많을수록, 더 정확하게 미래를 예측할 수 있어요.
그런데 데이터가 많으면 계산이 어려워지겠죠? 이 계산은 사람이 하는 게 아니라 컴퓨터에게 시켜요. 2차 세계 대전 이후 컴퓨터 공학이 급속도로 발달하면서, 데이터가 많으면 계산이 어려워진다는 것은 그다지 큰 문제가 아니게 되었어요. 덕분에 정말 많은 변화가 일어났고, 학자들은 최대한 많은 정보를 모으는 데에 집중하기 시작했어요. 어차피 계산은 컴퓨터가 순식간에 해 주니까 말이에요.
반도체 기술이 발달하면서, 데이터를 많이 모아 입력하면 컴퓨터는 점점 더 똑똑한 판단을 내려 줬어요. 사람처럼 기계도 많은 양의 데이터를 ‘학습’할수록 똑똑해지는 거예요. 그리고 어떤 작업을 충분히 능숙하게 처리할 수 있을 정도로 똑똑하게 성장한 것을 우리는 ‘인공 지능(AI)’이라고 불러요.
즉, 빅 데이터를 조금 쉽게 계산해 보려고 노력하는 과정에서 AI가 튀어나온 거예요. 현대의 AI는 빅 데이터를 대신 읽어 주는 해독기이자, 대신 계산해 주는 계산기라고 할 수 있어요.
AI에 대해 제대로 알기 위해서는
먼저 빅 데이터를 제대로 알아야 해!
빅 데이터 분석은 복잡한 데이터 속에 숨어 있는 보물 같은 정보를 잘 뽑아내고 요리하기 위해 발전한 분야이고, AI는 빅 데이터를 조금 더 편하게 계산해 보려다가 등장한 기술이에요. 그런데 요즘은 사람들이 AI를 계산기라고 생각하는 경우는 거의 없어요. AI를 연구하는 사람들조차도 ‘사람보다 똑똑한 면이 있는 기계’라 생각하는 경우가 많지요.
사람들은 더 많은 데이터를 모으면 더 똑똑한 AI가 만들어질 거라고 생각하기 시작했고, 그러다 보니 이 세상에 공개된 거의 모든 글을 학습한 AI가 등장했어요. 뉴스 기사나 SNS 게시물은 물론, 어려운 책이나 과학자들이 발표한 논문까지도 모두 꼼꼼하게 읽고 학습한 AI가 만들어진 거예요.
우리는 이런 AI를 ‘언어 모델’이라고 불러요. 사람들이 책을 읽고 공부를 하는 것처럼, 언어 모델도 글을 읽으며 언어를 도구 삼아 세상의 정보를 공부하거든요. 아마 지금 세상에서 가장 유명한 언어 모델은 지피티일 거예요. 챗 지피티의 그 지피티 말이에요.
그런데 AI에게 글을 계속 읽게 만들면 어떻게 될까요? 언어 능력만 무럭무럭 성장하지 않을까요? 글쎄, 결과는 정반대였어요. 인간도 책을 읽으며 공부를 한다는 사실을 간과했던 거예요. 엄청나게 많은 분량의 글을 읽은 언어 모델 AI는 세상에 공개된 거의 모든 지식을 이해하고 숙지하게 되었어요. 덕분에 이제는 전 세계 인류 중 그 누구도 AI보다 넓은 지식을 뽐내는 것은 불가능해졌죠. ‘이 세상의 모든 지식’이라는 무지막지한 빅 데이터를 학습한 기계가 등장한 거예요.
지금 우리가 그토록 열광하는 AI가 빅 데이터 때문에 만들어졌다고 하니, AI에 대해 제대로 알기 위해서는 빅 데이터가 무엇인지를 먼저 알아야할 것 같지 않나요? 《빅 데이터가 뭐예요?》를 읽다 보면, 빅 데이터에 대해서 알게 될뿐더러, AI에 대해 몰랐던 많은 것을 알게 될 거예요!
미래를 앞서 가는 어린이들을 위한
<미래를 여는 키워드> 시리즈
<미래를 여는 키워드>는 이처럼 앞으로 펼쳐질 미래를 앞서가기 위하여 어린이들이 꼭 알아야 할 중요한 주제들을 소개하는 시리즈예요. 우리의 미래를 여는 주요 키워드들에 대해 자세히 짚어 보고, 그것들과 함께하는 미래를 맞이하기 위해 어떤 준비와 자세를 가져야 하는지 알려 주지요.
첫 번째 권《탄소 중립이 뭐예요?》는 기후 위기 대응 방안으로 전 세계가 합의한 탄소 중립이 무엇이고 왜 중요하며 어떻게 달성할 수 있을지 알려 주는 책이에요. 그리고 두 번째 권인 《메타버스가 뭐예요?》에서는 앞으로 우리 앞에 펼쳐질 메타버스가 무엇이고 어떻게 준비해야 하는지를 알려 줘요. 세 번째 권인 《백신이 뭐예요?》에서는 인류가 어떤 백신을 어떻게 개발해 왔고, 앞으로는 어떤 백신이 개발될지를 알려 줍니다. 네 번째 권인 《모빌리티가 뭐예요?》에서는 우리 곁에 성큼 다가와 있는 모빌리티의 미래를 만날 수 있고, 다섯 번째 권 《공유 경제가 뭐예요?》를 통해서는 지구를 살리는 현명한 소비, 공유 경제에 대해 알아봅니다. 여섯 번째 권 《제로 웨이스트가 뭐예요?》에서는 쓰레기 문제의 심각성을 깨닫고, 쓰레기로부터 지구를 구하는 방법을 알아 주지요. 이번에 새로 나온 일곱 번째 권 《빅 데이터가 뭐예요?》를 통해 미래를 예측하는 도구 빅 데이터에 대해 알아보고 빅 데이터가 만든 AI 세상을 현명하게 맞이해 보아요!
01 탄소 중립이 뭐예요?
장성익 글, 방상호 그림, 윤순진 감수
뜨거운 지구를 구하려면 탄소 중립을 꼭 이루어야 해요. 기후 위기와 탄소 중립에 대해 살펴보고, 탄소 중립을 위해 우리가 어떤 일을 해야 하는지 알아보아요.
★환경부 우수 환경 도서 ★서울특별시교육청 어린이도서관 권장 도서
02 메타버스가 뭐예요?
이시한 글, 황정하 그림
메타버스는 우리 생활의 터전이 디지털로 바뀌는 큰 사건이에요. 메타버스가 무엇인지 알아보고, 메타버스 세상의 주역이 되기 위해 어떤 준비를 해야 하는지 살펴보아요.
03 백신이 뭐예요?
예병일 글, 우지현 그림
백신은 감염병을 일으키는 미생물이 우리 몸을 공격할 때 우리가 더 빠르게 대처할 수 있게 해요. 그동안 인류는 어떤 백신을 어떻게 개발해 왔는지 자세히 살펴보아요.
04 모빌리티가 뭐예요?
이시한 글, 방상호 그림
미래형 이동 수단을 모빌리티라고 불러요. 앞으로 우리가 만날 모빌리티에는 어떤 것들이 있고 모빌리티는 우리가 사는 세상을 어떻게 바꿀지 알아보아요.
★올해의 청소년 교양도서 추천 도서
05 공유 경제가 뭐예요?
석혜원 글, 김민준 그림
공유 경제는 무언가를 소유하지 않고 필요할 때만 빌리는 소비 방식이에요. 지구를 지키는 합리적인 소비인 공유 경제가 만드는 변화에 대해 알아보아요.
06 제로 웨이스트가 뭐예요?
장성익 글, 이진아 그림
쓰레기를 줄이는 가장 좋은 방법은 재활용이 아니고 쓰레기를 만들지 않는 거예요. 쓰레기를 최소한으로 줄이는 노력, 제로 웨이스트에 대해 알아보아요.
▶ 글 반병현
50여 건의 논문과 특허를 발표한 공학자이자 30권 이상의 책을 집필한 작가입니다. 10년 가량 인공 지능 연구를 지속해 오고 있으며, 주로 기업의 AI 도입을 도와주는 일을 하고 있습니다. 상상텃밭 주식회사 CTO를 지냈고, 현재 주식회사 나나컴퍼니 대표이사이자 치즈케익스튜디오 대표자입니다. https://bhban.kr
▶ 그림 김민준
나무가 많은 집에서 고양이, 강아지와 함께 지내며 일러스트레이터와 그림책 작가로 활동하고 있습니다. 그린 책으로 《맞아 언니 상담소》, 《공유 경제가 뭐예요?》, 《빅티처 황농문의 몰입 발전소》, 《쫄쫄이 내 강아지》 등이 있고, 쓰고 그린 책으로 《비 내리는 날》이 있습니다.
작가의 말 4
1장 게임에서 시작된 통계학, 빅 데이터의 시대로
게임에서 항상 이길 수는 없을까? ……10
도박이 아니라 수학입니다만 ……13
일기 예보와 주사위 놀이의 공통점 ……14
미래를 예측하는 수학 공식, 베이즈 정리 ……17
베이즈 정리 계산을 위한 재료, 데이터 ……20
컴퓨터 공학의 갑작스러운 발전 ……24
2장 빅 데이터가 뭐예요?
어떤 데이터가 빅 데이터일까? ……32
앞으로 어떤 종류의 빅 데이터가 주목받을까? ……36
데이터를 모으는 건 너무 힘들어! ……40
자동으로 데이터를 수집하는 기계 _ 스크래퍼 ……41
정보를 손질해 빅 데이터 완성! _ 프리프로세싱 ……44
스마트폰과 SNS, 전 세계 사람들의 일상을
빅 데이터로 ……47
3장 빅 데이터를 모아서 어디에 사용할까?
빅 데이터를 분석하는 이유는? ……56
오지 않은 미래를 예측하다 _ 외삽 ……57
잃어버린 정보를 복구하다 _ 내삽 ……60
나도 몰랐던 내 취향을 만나다 _ 클러스터링 ……62
인간의 직관을 기계에 이식하다 _ 분류 ……65
온도, 점수, 가격까지 예측하다 _ 회귀 ……67
세상이 변화하는 패턴을 발견하다 _ 마르코프 체인…69
컴퓨터에게 창의성을 허락하다 _ 생성 ……73
합당한 결론을 도출하다 _ 가설 검정 ……77
4장 빅 데이터, 인공 지능 세상을 열다
베이즈 정리 계산을 위한 재료, 빅 데이터 ……80
빅 데이터를 대신 계산해 주는 기계 ……81
기계가 점점 더 똑똑해지는데요? ……84
빅 데이터를 읽는 ‘해독기’ ……88
AI의 판단을 인간은 이해하지 못한다고? ……89
사람보다 똑똑한 AI의 등장 ……91
빅 데이터의 한계 ……95
양질의 빅 데이터 수집 방법, ‘도둑질’! ……100
5장 위험한 빅 데이터
빅 데이터가 만드는 ‘보이지 않는 감옥’ ……106
내 가족의 비밀까지 들여다본다고? ……110
기업이 내 돈을 조종한다! ……112
나를 세상과 단절시키는 ‘SNS 데이터’ ……114
인간의 실수를 따라 하는 AI ……118
에필로그_식재료가 중요할까, 요리사가 중요할까?_122