미디어광운
최종편집 : 2019.5.22 수 11:51
광운대학교
광운대신문여론/칼럼
모래알 수보다 더 많은 데이터가 몰려온다 ‘빅데이터’이다원 기자의 IT 실시간 검색어
이다원 기자  |  dps98won@kw.ac.kr
폰트키우기 폰트줄이기 프린트하기 메일보내기 신고하기
승인 2019.05.13  21:57:35
트위터 페이스북 미투데이 요즘 네이버 구글 msn

“강한 여성이 주도하는 것이 특징인 엉뚱한 청소년 코미디 분위기의 영화” 넷플릭스의 영화 추천이다. 단어들이 부자연스럽게 조합된 게 꼭 로봇이 말한 것 같다. 이는 내가 즐겁게 본 영화에 붙은 태그를 분석해 좋아할 만한 영화를 예측한 것으로, 나의 시청기록이 정보로 활용된 것이다. 사실 넷플릭스는 우리의 취향을 효과적으로 파악하기 위해 거의 8만 가지의 태그를 만들었다.
이렇게 모은 데이터들로 전략을 짰다. 분석 결과 넷플릭스의 가입자들은 데이비드 핀처가 감독하고 케빈 스페이시가 주연한 영화를 강력하게 선호하고 있었다. 그들은 ‘HBO’나 ‘ABC’ 같은 TV 채널이 제시한 것보다 더 비싼 값으로 드라마 『하우스 오브 카드』에 대한 권리를 사들였다.
넷플릭스는 그 드라마가 ‘완벽한 TV 드라마’에 대한 예측 모델에 적합하다고 생각했다. 그래서 파일럿 프로그램을 제작하는 관례와는 달리 바로 26개의 에피소드로 구성된 두 시즌의 드라마를 의뢰했다. 넷플릭스의 드라마 제작의 모든 측면은 데이터를 기반으로 이뤄졌다. 심지어 타이틀 이미지에 사용된 색깔의 배치조차 데이터로 선택됐다.
넷플릭스는 개별 시청자들의 선호도를 분석한 결과에 따라 그들의 개인 일정에 맞춰 프로그램이 방영되는 ‘개인 맞춤형 TV’의 기초를 다지기 시작했다. 오랫동안 방송국들이 이야기해온 꿈이 빅데이터의 시대에서 현실이 되고 있다.

◇빅데이터란 무엇인가?
빅데이터란 ‘빅(Big)+데이터(Data)’의 합성어다. 말 그대로 어마어마하게 많은 데이터를 뜻한다. 기존 데이터보다 너무 방대해 전의 방법이나 도구로 수집·저장·분석 등이 어려운 데이터들을 빅데이터라 한다.
전에는 데이터베이스, 엑셀에 저장된 ‘정형화 데이터’만 활용할 수 있었다. 여기에 *XML, HTML 등 ‘반정형화 데이터’와 텍스트 문서·이미지·동영상과 같은 ‘비정형 데이터’까지 사용하는 게 빅데이터다.
정보 그 자체에는 의미가 없다. 활용할 때 가치가 생긴다. 빅데이터도 마찬가지다. 미국의 저장장치업체 EMC에 따르면 빅데이터를 활용하는 절차는 다음과 같다. ▲요구사항을 확인하고 ▲필요한 데이터를 검색·준비하고 ▲적절하게 데이터를 분석할 수 있는 모델을 구축하고 ▲모델링 검증작업을 거쳐 ▲실전에 적합한지 확인하는 작업 등이 필요하다. 이른바 ‘데이터 과학자’는 이런 작업을 도와주는 사람이다.

◇빅데이터의 특징은?
주된 특징으로 크기, 다양성, 속도 세 가지가 꼽힌다. 단순히 데이터 양이 많다고 해서 빅데이터가 아닌 이유다.
크기는 데이터의 물리적 크기다. 정보를 세는 단위 바이트(Byte)로 나타나는 정도다. 일반적으로 수십 테라(1012)바이트 혹은 페타(1015)바이트 이상 규모를 가진다.
다양성은 데이터의 형태다. 앞서 말한 것처럼 빅데이터는 정형·반정형·비정형 데이터를 모두 포함한다. 앞서 정형화 데이터만을 다루던 것과는 확연히 다르기에 이를 다룰 수 있는 기술이 중요하다.
마지막으로 속도는 곧 데이터 처리 능력을 말한다. 대용량의 데이터를 얼마나 빠르게 처리하고 분석할 수 있는지가 가장 중요하다. 데이터를 수집·가공·분석하는 일련의 과정을 실시간 또는 일정 주기에 맞춰 처리할 수 있어야하기 때문이다.
시장조사기관 IDC는 빅데이터를 다음과 같이 정의한다. ‘다양한 형태로 구성된 방대한 크기의 데이터로부터 경제적으로 필요한 가치를 추출할 수 있도록 디자인된 차세대 기술’.
정리해보면, 단순히 대용량 데이터 그 자체만을 지칭하는 게 아니라 이를 효과적으로 처리하고 분석할 수 있는 기술에 더 초점을 둔 용어다. 이를 활용하는 기업의 관점에서는 ‘가치를 생성할 수 있는 데이터’라고 해석하기도 한다.

◇과거의 빅데이터는?
과거에는 빅데이터가 없었다. 이전에 다뤘던 데이터는 빅데이터라고 부르기엔 민망한 정도다. 양으로만 비교해 봐도 그렇다. EMC가 IDC에 의뢰해 발표한 연구 보고서 ‘디지털 유니버스 보고서 : 빅데이터, 더욱 길어진 디지털 그림자, 이머징 마켓의 놀라운 성장’에 따르면 2012년 한 해 동안 전세계에서 생성된 데이터의 양은 2.8제타(1021)바이트다. 이는 지난 역사에서 생성돼온 데이터를 모두 합친 것보다 많다. 우리는 전과 전혀 다른 데이터 환경 속에서 살고 있는 것이다.
따라서 빅데이터는 기존의 인프라와 아키텍처로는 처리하고 분석하기가 어렵다. 과거와 현재 데이터의 차이를 들면 다음과 같다. 과거엔 특정 양식에 맞춰 분류된 정형화 데이터를 사용했지만, 오늘날엔 형식이 없고 다양한 데이터들도 사용한다. 전엔 과거에 일어난 일을 분석하기 위해 데이터를 처리했으나 지금은 미래에 일어날 일을 예측하는 데 이용한다. 처리에 쓰인 비용도 전엔 국가·정부 수준으로 상당했던 데 비해 현재는 개별 기업 수준에 그친다.
예전에도 거대한 양의 데이터를 분석할 수는 있었다. 정부 차원에서 수십억 원을 들여 슈퍼컴퓨팅을 이용하면 됐다. 비용 대비 효과는 낮았다. 현재는 저렴한 비용으로 엄청난 데이터를 효과적으로 처리할 수 있다. 비정형 데이터를 분석할 수 있는 자연어 처리 기술과 텍스트 분석 등과 같은 기술이 뜨면서다. 덕분에 복잡한 데이터 안에서 적절하게 정보를 추출하고, 이를 기존 정보와 통합해 가치를 전달할 수 있게 됐다.
*XML, HTML: 웹페이지를 만드는 데 사용하는 웹 언어들

< 저작권자 © 광운미디어위원회 무단전재 및 재배포금지 >
폰트키우기 폰트줄이기 프린트하기 메일보내기 신고하기
트위터 페이스북 미투데이 요즘 네이버 구글 msn 뒤로가기 위로가기
이 기사에 대한 댓글 이야기 (0)
자동등록방지용 코드를 입력하세요!   
확인
- 200자까지 쓰실 수 있습니다. (현재 0 byte / 최대 400byte)
- 욕설등 인신공격성 글은 삭제 합니다. [운영원칙]
이 기사에 대한 댓글 이야기 (0)
About 미디어광운구성원소개광고안내구독신청제휴안내청소년보호정책개인정보처리방침
서울 노원구 광운로 20(월계동 447-1) 광운대학교(139-701) | 청소년보호책임자 : 미디어광운
Copyright © 2011 KWANGWON UNIVERSITY. All rights reserved.