- 데이터의 규모가 커 기존 관계형 데이터베이스 인프라로 대처할 수 없다면 그 프로세싱은 대략 두가지 선택으로 귀결됨. 하나는 그린플럼 등의 데이터 웨어하우스/데이터베이스와 같은 대량 병렬 처리 아키텍처이고, 다른 하나는 아파치 하둡 기반 솔루션인 이 선택은 대개 V요소 가운데 하나인 다양성이 어느 정도의 영향력을 발휘하느냐에 따라 달라짐. 대개 데이터 웨어하우스를 통한 접근은 미리 정의된 스키마가 필요하고, 진화 속도가 더딘 정규 데이터세트와 어울림. 반면 아파치 하둡은 처리할 수 있는 데이터의 구조에 어떤 조건도 부여하지 않음. 하둡의 핵심은 컴퓨팅 문제를 수많은 서버에 나눠 분산처리하기 위한 플랫폼임. 하둡은 야후에서 처음 개발되어 오픈소스로 릴리스되었고, 구글이 처음 선보인 맵리듀스라는 접근방식이 구현되어 검색 인덱스를 컴파일함. 하둡의 맵리듀스는 다수 서버에서 데이터세트를 분산처리하고 데이터를 작업하는데, 이를 맵단계라고 함. 이 단계를 지나면 부분적인 결과가 재결합되는데, 이를 리듀스단계로 부름.
- 하둡은 자체분산 파일시스템인 HDFS로 데이터를 저장하며, 이를 통해 다수의 컴퓨팅 노드에서 데이터를 사용할 수 있음. 전형적 하둡의 사용패턴은 다음 세가지 단계롤 구성됨
* 데이터를 HDFS로 로드하기
* 맵리듀스 작업
* HDFS에서 결과 검색하기
이 프로세스는 구조상 배치작업이며, 분석 태스트나 비대화형 컴퓨팅 태스크에 적합. 이 때문에 하둡자체는 데이터베이스도 아니고 데이터웨어하우스 솔루션도 아님. 오히려 이에 딸린 분석도구에 가까움
- 가장 잘 알려진 하둡 이용사례가운데에는 페이스북이 있음. 페이스북의 모델이 바로 이 패턴을 따르고 있는데, MySQL 데이터 베이스에 코어 데이터가 저장된 뒤, 하둡에 반영되는 것이다. 친구의 관심사에 따라 추천리스트를 작성하는 등의 컴퓨팅이 이 하둡에서 이뤄짐. 페이스북은 이 겨로가를 MySQL로 다시 옮겨 사용자에게 제공되는 다양한 페이지에 다시 활용함
- 스트리밍 프로세싱을 고려해야 하는 이유는 크게 두가지로 나뉨. 첫번째는 입력데이터가 온전한 형태로 저장될 수 없을 정도로 빠르게 유입되기 대문. 저장소의 성능을 실용적 범위로 유지하기 위해서는 데이터가 스트리밍될 때 일정수준의 분석이 진행되어야 함. 상상을 초월하는 유럽원자핵공동연구소의 대형 강입자 충돌기는 엄청난 데이터를 쏟아내는데, 과학자들은 그 많은 양을 감당할 수 없어 상당한 데이터를 그대로 버리고 있음. 그저 버린 데이터에 쓸만한 것이 없기만을 바랄 뿐임. 스트리밍을 고려해야 하는 두번째 이유는 유입되는 데이터에 애플리케이션과 온라인 게임이 확산되면서 이는 흔히 접할 수 있는 상황이 돼버렸음.
- 스트리밍 데이터를 처리하기 위한 제품 분야는 크게 두가지임. 하나는 IBM의 Infosphere streams와 같은 전용제품이고 다른 하나는 트위터의 storm이나 야후의 S4처럼 아직은 정교하지 않지만, 현재도 세를 불리고 있는 오픈소스 프레임워크임. 이들 오픈 소스 프레임워크의 태생은 웹산업임.
- 기술이 비스니스라는 테두리 안에서 발전함에 따라 각 세부단계는 데이터 용량의 대폭증가로 이어짐. 현재 빅데이터에 눈길을 주는 사람들은 자신의 비즈니스가 구글이나 페이스북이 아닌데도 왜 빅데이터가 적용되어야 하는지 충분히 의문을 가질만함. 해답은 웹비즈니스가 온라인으로 모든 활동이 이뤄질 수 있느냐에 달렸음. 이들의 디지털 신경계는 오퍼레이션의 처음부터 끝가지 수월하게 적용될 수 있음. 만일 공장이나 매장, 그외 현실세계의 다른 부분들이 비즈니스의 범위에 속한다면 이들을 디지털 신경계에 결합하기 위해 앞으로 더 멀리 가야 함
- 사람들은 대부분 스프레드시트를 유창하게 말함. 사람들은 깔금한 행과 열, 차트를 바라보며 그 안에 무엇인가 중요한 것이 있다고 생각. 하지만 그 무엇이 과연 무엇이고 그것을 어떻게 추출하는지는 한눈에 명확히 파악하지 못함. 스프레드 시트는 노력이 필수임. 무엇을 찾아야 하는지 간파하지 못했다면 그 노력은 곱절이 될 수도 있음. 더구나 데이터 분석이 담당자의 주요 업무에서 조금이라도 밀리면 스프레드시트에 쏟을 노력은 늘 우선순위에서 내려감. 하지만 스프레드시트가 이제는 우리의 기본전략도구가 아니라면 어떻게 될까? 우리가 인간이어서 이해할 수 있는 것들, 가령 스토리, 문장, 분명한 길잡이 등을 그 모든 중요한 데이터와 함께 고려할 수 있다면 어떻게 될까? 하몬드는 다음과 같이 고찰했음.
어떤 사람들에게는 스프레드시트가 대단한 도구입미다. 하지만 그런 사람은 그렇게 많지 않습니다. 스토리, 문단, 리포트, 예측, 자문, 이들이 우리 세상에서 훨씬 더 강력한 힘을 발휘하는 객체입니다. 또한 우리가 편안하게 다가가는 것들이기도 합니다.
- 스프레드시트는 우리를 인지하기 어려운 구석으로 몰아버림. 스프레드시트 파일을 열면 여러분은 데이터를 파악하기 위해 어쩔 수 없이 스프레드시트라는 틀에 자신을 맞춰야 함. 그러고도 데이터에서 의미를 추출하기 위해 더욱더 힘들게 파고들어야 함. 과연 이것이 최선일까?
- 스프레드시트를 사용하는 사람은 언제 어느때든 계속 있을 것이빈다. 다만, 스토리가 귀착점이 되지 않겠느냐는 것입니다. 귀착점이라는 관점에서 보면 데이터를 정말로 온몸으로 받아들이는 사람이라야 스프레드시트의 의미를 이해할 수 있습니다. 대개 그런 사람이 하는 일이라고는 기껏해야 다른 사람과 소통하기위한 목적으로 데이터의 양을 줄이는 것밖에 없습니다.
- 수십년째 데이터베이스의 세가지 속성은 근본적으로 팽팽한 관계를 보였음. 데이터 수집은 빠르게도, 크게도, 다양하게도 이뤄질 수 있음. 문제는 이 세가지를 동시에 이뤄낼 수 없다는데 있음.
- 데이터가 부족했던 예전모델로는 수집해야 하는 데이터가 무엇인지부터 결정한 뒤라야 실제 수집을 시작할 수 있었음. 전통적인 기업 데이터웨어하우스라면 위젯의 판매를 색상별, 지역별, 크기별로 추적했을 것임. 무엇을 저장하고 이를 어떻게 저장할지 결정하는 행위를 가리켜 스키마 디자인이라고 부름. 그리고 무엇에 관한 데이터인지 결정하는 순간이 바로 스키마임. 컨텍스트의 순간이라 할 수 있음. 이를 위해서는 반복이 필요함. 무엇에 관한 데이터인지 그 스키마를 정의하는 순간 결정해야 함. 반면 데이터가 넘쳐나는 새로운 모델은 일단 데이터부터 수집한 뒤에 질문을 던짐. 스키마가 수집 뒤로 밀리는 것임. 사실 스플렁크나 팔란티르 등의 빅데이터 성공이야기는 데이터부터 수집하고나서 그 콘텐츠를 잘 이해하는 능력 때문에 높이 평가받은 것임. 이를 가리켜 때로는 무스키마 쿼리라고 부름. 그리고 이는 위험함
- 거의 모든 기존 BI도구는 다음 두가지 면에서 제한적임. 우선 이들은 선 스키마 후 캡처도구로서 애널리스트는 무엇을 수집할 지 결정한 뒤 필요한 데이터를 발견함. 두번째로, 이들 도구는 아비나시 카우시크가 기지의 미지로 일컫는 것을 리포트하는 데 초점이 맞춰졌음. 다시 말해 우리가 모른다고 알고 있는 것에 전형적으로 집중되어 있음.
- 오픈소스 도구와 저렴하고 빠른 컴퓨터나 저장소를 이용하면서 일단 캡처하고 질문은 나중에 하는 방식이 훨씬 수월해졌음. 이는 애널리스트들이 데이터수집을 유발했던 처음 질문에 얽매이지 않고 그 이상으로도 추측할 수 있기 때문에 우리의 데이터 사용방식에 변화를 가져왔음. 더욱이 결과를 얻어내는 속도 또한 사람이 직접 질문하는 것 만큼이나 빨라져 데이터의 대화식 탐구가 한결 수월해졌음. 이와 같은 대화형 탐구와 추측이 합쳐져 BI는 미지의 미지, 다시 말해 경쟁적 우위 또는 즉각적 차별요소를 배출하는 통찰력의 영역으로 진입했음.
- 빅데이터는 이미 온라인 마케팅과 얼기설기 얽혀있지만, 크에 나누면 두가지로 생각해 볼 수 있음. 우선, 빅데이터는 온라인에서 오프라인으로 옮겨갈 것임. 비접촉식 결제기능을 갖춘 NFC 탑재 스마트폰은 이미 마케터에게 일종의 단꿈과도 같으며, 어디서든지 사용되고 있음. 기다리는 줄이 얼마나 긴지 추적하고, 현재 교통상황을 저장하는 일이나 매출에 대한 신선한 통찰력을 제공하는 등의 일쯤은 얼마든지 가능. 그 결과 회사는 온라인 매장에서 누렸던 최적화를 고객추적이 가능해짐에 따라 오프라인 세상에서도 누릴 수 있을 것임. 두번째로, 빅데이터는 월스트리트에서 또는 매디슨 애비뉴와 미들필드로드에서 메인스트리트로 옮겨갈 것임. 도구는 한층 더 사용하기 수월해질 것이며, 소기업은 BI 플랫폼을 갖추지 않고도 태블릿이나 스마트폰으로 비즈니스 환경을 구축할 것임. 스퀘어와 같은 모바일 결제업체는 이미 체크아웃 프로세스를 재고하고 있음. 휴대용 CI가 구축된 도구들이 우리의 마케팅 도구 사용방식을 넓혀줄 것임.
- 우리가 개인병원이나 대형병원의 입원치료 기록, 주소 데이터베이스, 개인헬스장비에서 빠르게 쏟아져 나오는 데이터스트림 등 여러소스의 데이터를 서로 연계한다면 데이터는 끝도 없이 강력해짐. 이런 통계를 더욱 세심하고, 정확하며, 신중하게 적용하는 것이 도전과제는 아님. 단지 몇가지 변수만을 핵심으로 가정하여 이들 변수의 상관관계를 파악하는 것으로 끝을 맺는 구시대 패러다임을 과감히 내려놓아야 함. 과거의 패러다임은 데이터가 풍부하지 않을 때 효과적이었음. 잘 생각해보면 데이터가 풍부하지 않았기 때문에 그런 가정이 성립되었던 것. 우리는 백혈병과 신장암 사시의 관계를 연구하지 않았음. 이런 연구를 진행하려면 수많은 데이터를 수집한 뒤 수많은 질문을 해야 하기 때문. 백혈병과 신장암의 연관성은 백혈병와 독감의 연관성과 별로 다를 바 없음. 하지만 데이터의 존재는 더 이상 문제가 아님. 우리는 언제나 데이터를 수집하고 있음. 전자건강기록을 통해 우리는 특정진료, 특정병원, 특정연구를 넘어서는 사례들을 연계하기 위한 데이터를 가져올 수 있음. 따라서 현재 우리는 기계학습 기법을 사용하여 가능한 모든 가설, 데이터가 별로 없다면 직관에 의지할 수 밖에 없을 가설들을 파악하고 테스트할 수 있음. 결국 데이터가 풍부하다면 상관관계를 넘어 인과관계를 접근할 수 있음.
'IT' 카테고리의 다른 글
디지털 시대의 마법사들 (0) | 2014.10.19 |
---|---|
구글 신은 모든 것을 알고 있다 (0) | 2014.10.18 |
포스트 스마트폰, 경계의 붕괴 (0) | 2014.10.18 |
새로운 디지털 시대 (0) | 2014.10.17 |
미래를 바꾼 아홉가지 알고리즘 (0) | 2014.10.13 |