- 빅데이터 솔루션과 빅데이터 서비스의 차이는 무엇일까? 데이터가 모이는 위치임. 빅데이터 솔루션은 그 제품을 구매한 기업, 병원, 학교가 보유한 서버로 정보가 모임. 반면 빅데이터 서비스는 서ㅂ스 제공자의 시스템으로 모임. 결과적으로 빅데이터 서비스 제공자는 엄청난 데이터 기반을 갖게 됨. 양쪽의 데이터 분석 능력이 유사하다면 빅데이터 서비스는 또 다른 형태의 솔루션에 불과함. 하지만 수만건의 문헌으로 자동번역 기술을 개발하려면 IBM은 실패한 반면, 같은 프로젝트를 수억건의 문헌으로 수행한 구글이 성공했던 것을 생각해보자. 데이터의 규모는 결국 시스템의 지능지수와 직결됨. 시간이 지날수록 빅데이터 서비스의이해, 처리, 분석능력은 진화하고 결국 개별 솔루션을 능가하는 수준으로 발전할 수 있음. 또한, 분산 컴퓨팅 인프라를 구축하는 관점에서 보아도 솔루션보다는 서비스 쪽이 유리. 개별 업체가 각자의 컴퓨팅 시스템에 투자하는 것보다 다수의 고객을 보유한 전문 서비스 업체가 대규모로 투자하는 쪽이 비용효율이 높기 때문. 이렇게 빅데이터 시스템의 성능 우수성과 비용효율성이 솔루션을 능가하는 수준으로 발전하면, 빅데이터 서비스는 하나의 플랫폼이 될 수 있음. 모든 형태의 데이터를 이해하고, 이것을 실시간으로 분석하는 빅데이터 서비스가 컴퓨팅 플랫폼이 되고, 업체들은 이것을 기반으로 자신들의 서지스 시스템을 구축하게 되는 것임. 빅데이터 서비스는 지능형 의료, 지능형 교육과 같은 개별서비스를 에코시스템을 거느린 지능형 플랫폼이 됨. 이런 에코시스템은 OS를 기반으로 형성된 에코시스템과는 비교할 수 없을 정도로 플랫폼에 관한 의존성이 강함
- 데이터의 크기만큼이나 빅데이터에서 쟁점이 되는 것 중에 하나가 데이터 유형에 관한 것으로, 볼륨보다 더 다양하고 복잡성을 가짐. 데이터는 구조화 정도에 따라 다음과 같이 분류됨
* 구조화(정형화)된 데이터 : 관계형 데이터베이스에서 데이터 형식이 정규화되어 있고 데이터 스키마가 지원됨. 구조화된 데이터는 데이터 간에 연계성을 바탕으로 다양한 데이터 조합을 만들어서 데이터 정렬과 분석을 쉽고 빠르게 할 수 있다는 것이 장점
* 반-구조화 데이터 : 두가지로 구분됨. 멎저 다소 정형화된 파일이 데이터 속성인 메타데이터를 가지며 자체적으로 데이터에 관한 서술이 가능한 형태. 두번째로 데이터베이스 형태는 아니지만, XML형태로 서술되고 구조화되어 있는 데이터.
* 준구조화 데이터 : 다소 일관성이 없는 데이터의 형식을 갖는 것으로, 일반적으로 웹사이트에서 사용자에 의해 발생하는 클릭 스트림 데이터가 이에 해당. 클릭 스트림 데이터는 웹사이트에서 발생하는 사용자의 다양한 경험 데이터임
* 비구조화 데이터 : 일반 텍스트 기반의 데이터로 분석이 가능한 데이터. 텍스화되지 않은 데이터로는 이미자 파일과 동영상과 같은 멀티미디어 데이터가 있음
- 데이터를 구조화 정도로 분류할 수 있는데 데이터 대부분은 조직화, 준-구조화되어 있음. 현재 빅데이터에서는 데이터 구조화를 위해 원시 데이터를 다양한 방식으로 전환하려 함. (예, 센서 데이터, 웹로그 파일, 클릭 스트림, 소셜 네트워킹 피드, 이메일 등) 구조화된 데이터는 데이터베이스와 데이터 웨어하우스로 사용되며 다중구조화되고 그 범위를 확대해가면서, 데이터의 다양한 형식을 수렴하는 패러다임의 전환이 일어나고 있음
- 리포팅에서 분석으로. 지금까지 IT가 진화하면서 리포팅과 분석의 흐름도 바뀌어 왔는데, 80년대 초창기에는 통계 리포트 기반의 현상을 분석하기 위한 결과 도출이 주 업무였음. 그후 2000년대 접어들면서 현재 무슨일이 진행되고 있는지 현재 어떤 상태인지를 알아보기 위한 모니터링으로 진화. 이러한 리포팅 서비스의 발전은 데이터의 크기, 축적속도와 가공, 정제 속도에 많은 영향을 주었음. 이에 반해 분석은 90년대 인터넷 보급이 활발해 지면서, 비즈니스에서 이런 현상이 왜 일어났는지 원인을 분석하기 위한 다차원 분석으로 진화. 엑셀과 같은 문서도구뿐만 아니라 다차원 분석을 위한 OLAP등과 같은 서비스도 등장하였음. 하지만 이런 분석행위도 시간이 지난 데이터와 정체된 상태의 데이터를 별도로 분리하여 분석하는 것이기에 한계가 있었음. 이후에 데이터 분석은 시간이 지난 데이터를 분석하여 원인을 찾아내는 것 뿐아니라, 앞으로 무슨 일이 일어날지를 예측할 수 있도록 지난 데이터와 현재 데이터, 그리고 미래 예상변수를 참조하여 분석하는 방향으로 바뀌게 됨. 이러한 환경에서는 통계 알고리즘, 데이터 마이닝(추출)과 최적화 등의 기술이 필요
- 지금까지의 데이터 관리는 최종 저장과 축적된 데이터를 추출하는 것이 관리의 기본이었지만, 이제는 계속해서 발생하는 데이터를 저장하고 필요한 데이터는 캡처해서 실시간으로 관리해야 함. 이런 컨셉으로 나온 것이 복잡 이벤트 처리인 CEP(complex event processing)임. 빅데이터 관리의 핵심은 이런 변화무쌍한 데이터를 얼마나 잘 관리하느냐인데, 대표적 사례로 한때 인터넷 최대기업이었던 야후를 들 수 있음. 야후는 정형, 비정형 데이터를 빅데이터적으로 관리한 선구적 인터넷 기업으로 꼽힘
- 구조화되지 않은 상태에서 엄청나게 증가하는 웹로그와 불특정하게 발생하는 로그분석을 통해 만들어진 프로토타입 패턴을 24TB규모의 데이터 큐브를 가지고 6PB의 하둡 클러스터로 구축하여 비즈니스 분석에 사용. 6PB나 되는 비정형 데이터를 24TB의 관계형 데이터로 전환하고 다시 이것을 분석하는 관리체계는 새로운 비즈니스 서비스와 고객 맞춤 추천엔진부터 다양한 서비스를 가능하게 했음. 데이터관리 다음으로 데이터를 패턴화해서 알고리즘화하는 것이 데이터의 가치화라는 라이프 사이클 과정임. 이 과정은 데이터의 검색과 데이터의 조합 그리고 가치 데이터를 정제하는 과정을 거치게 됨. 데이터의 가치화는 빅데이터에서 가장 핵심적이고 중요한 라이프사이클로서 일반적이고 평범한 데이터에서 진정한 가치를 만드는 과정임. 이 과정을 통해 데이터의 가치패턴과 새로운 알고리즘이 만들어지게 됨. 새로운 가치는 데이터에만 있지 않기 때문에 데이터와 관련된 모든 사항을 고려해야 함. 데이터는 결과값을 나타내는 데이터도 있지만, 결과를 이루기 위한 원천 데이터부터 원천데이터들이 모여서 하나의 결과 데이터를 만들기 위한 중간값들까지 다양할 수 있음. 새로운 데이터 가치는 데이터간의 관계를 탐색하고 조합하며 새롭게 정제하여 데이터를 추출하는 연계과정을 통해 창출됨. 이는 기존 비즈니스에도 많은 영향을 미치지만 새로운 비즈니스를 창출할 기회를 주기도 함
- 데이터를 얻기 전에 이론을 세우는 것은 중대한 실수다. (셜록 홈즈)
'IT' 카테고리의 다른 글
응답하라 IT코리아 (0) | 2014.10.11 |
---|---|
인포그래픽 비주얼 스토리텔링의 힘 (0) | 2014.10.11 |
디지털 철학 (0) | 2014.10.06 |
스마트 머니 (0) | 2014.10.03 |
전자책을 만드는 비밀, 이펍3 (0) | 2014.10.03 |