빅데이터 경영을 바꾸다

저자
함유근, 채승병 지음
출판사
삼성경제연구소 | 2012-08-30 출간
카테고리
경제/경영
책소개
WHY BIG DATA? WHY NOW?이제 겨우 고등학생인 딸...
가격비교

- 볼보에서는 시범 차종에 대해 고객이 자동차를 운전하는 과정에서 수집되는 많은 데이터를 본사 분석 시스템에 전송. 초기에는 자동차에 저장된 데이터를 직접 전송하는 것이 어려워서 고객이 자동차를 서비스 센터에 맡기면 데이터를 다운받아 유선으로 본사 서버에 전송하는 방식을 이용. 이어 통신기술의 발전과 함께 점차 무선으로 실시간 전송하는 시스템으로 확장. 그리고 이렇게 수집된 데이터를 분석하여 제품 개발단계에서는 미처 예상치 못한 고객의 운전패턴과 차체결함, 잠재 니즈 등을 찾아낼 수 있었음. 이런 노력의 성과는 상당히 주목할 만한 것이었음. 특히 향후 대규모 리콜로 발전할 수 있는 결함을 불과 1000여대가 팔린 시점에서 금새 찾아내어 선제적 대응도 가능.
- 아날로그 시대에는 세밀한 튜닝으로 상당한 품질의 차이를 만들어낼 수 있었기에, 역분해를 통해 겉보기에 똑같은 사양으로 제품을 만들어도 소비자의 체감성능은 확 달랐음. 그러나 디지털 시대에 들어와서는 대부분 기술이 표준화되고, 시장에서 조달 가능한 범용 칩에 다양한 기능이 내장되어 있음. 대표적으로 오늘날에는 복잡한 기술 없이도 디지털 TV를 쉽게 만들 수 있음. LCD 패널 등은 삼성, LG, 샤프 등 몇몇 대형업체들로부터 구입하면 되고, 전자회로에서 구현할 핵심기능들은 대만 미디어텍이나 엠스타가 공급하는 통합칩을 가져다 쓰면 됨. 이런 부품만 잘 사다가 조립해도 충분한 성능이 나오기 때문에, 자체 제조를 하지 않고 아웃소싱을 광범위하게 활용하는 네트워크형 비즈니스도 일반화 된 것임.
- 횡적으로 확장되는 시스템에서 꼭 해결해야 하는 난제는 신뢰성 높은 서비스를 제공하는 것. 구축 및 유지보수 비용이 낮다고 해도 사소한 고장으로 서비스 전체가 지장을 받는다면 곤란함. 이를 해결하기 위해 구글의 창업자 래리 페이지와 세르게이 브린은 사업초기부터 클러스터 시스템에 알맞은 특유의 파일관리 시스템을 개발하는 데 많은 공을 들임. 그 결과 이들은 스탠퍼드 대학시절부터 빅파일이란 프로젝트를 통해 쌓은 경험을 바탕으로, 새로운 구글 파일 시스템을 만들어냄. 구글 파일 시스템은 몇가지 가정을 기반으로 만들어짐. 각 노드는 저가형이다 보니 언제든 고장이 날 수 있고, 대부분의 파일은 크기가 매우 크며, 주로 이루어지는 작업은 수백 킬로바이트에서 몇 메가바이트자리 대량 파일을 순차적으로 읽어오거나 몇 킬로바이트짜리 소량의 파일을 임의의 위치에서 읽어오는 작업이란 가정. 무엇보다도 요청에 아주 빨리 반응하는 것보다는 수많은 요청이 쏟아져 들어오는 상황에서 충분히 안정적으로 작동하는 것을 목표로 했음.
- 구글이 수집한 데이터는 수많은 조각 서버에 64메가 바이트 크기의 조각으로 나뉘어 저장됨. 이들 데이터 조각은 어느 한 서버에만 저장되지는 않음. 그랬다가는 이 서바가 갑자기 다운될 경우 데이터가 사라져버리기 때문. 따라서 중간중간 데이터 조각을 복제하여 다른 조각 서버에도 저장. 그리고 필요한 데이터가 어느 조각에 담겨 어느 서버에 있는지 그 정보는 모두 마스터라는 하나의 중앙 시스템에 모아서 관리. 이제 외부 응용 프로그램에서 데이터를 요청하면 모두 일단 마스터가 접수. 마스터는 해당 데이터를 갖고 있으며, 응용 프로그램에 현재 부하가 적은 조각 서버를 찾아내어 접속한 다음 파일을 받아가라고 안내하고는 사실상 손을 뗌. 그러면 응용 프로그램과 해당 조각서버가 직접 통신하며 파일을 전송. 마스터는 데이터 조각의 위치를 알려줄 뿐 직접 데이터 입출력에는 관계하지는 않기 때문에 많은 요청이 밀려들어와도 감당 가능. 대신 마스터는 도중에 계속 각 조각 서버의 상태를 점검하고, 데이터 조각이 충분히 복제되도록 관리. 구글 파일 시스템이 이전 기술과 달라진 점 가운데 하나는 빅데이터 시대에 맞게 데이터 조각을 64메가 바이트로 넉넉하게 잡은 것. CD 한장에 들어갈 만한 동영상 파일이 있다면 예전의 관리방식으로는 이것을 수천개의 작은 조각으로 나누어 관리했지만, 구글 파일시스템은 64메가 바이트짜리 큼지막한 조각 10개로 나누어 관리. 이러면 마스터의 부담도 줄고 이점도 많음.
- RDBMS와 SQ은 이미 수십년간 관리에서 필수 불가결한 존재였음. 그런데 빅데이터 시대에 와서는 이런 방식에 근본적 회의가 제기되고 있음. 빅데이터의 중요한 특성인 데이터 유형의 다양성과 빠른 생성-유통-이용속도 때문. 앞에서 보듯이 관계형 데이터베이스로 처리되려면 기본적으로 데이터가 표 형식에 잘 들어맞아야 함. 반면 빅데이터 시대에 처리해야 하는 수많은 비정형 데이터들은 그렇게 깔끔하게 정리하기가 쉽지 않음. 더욱 큰 문제는 그렇게 정리할 시간도 없이 급박하게 처리해야 하는 데이터가 엄청나게 많다는 점. 관계형 데이터베이스에서는 일단 입력된 데이터를 SQL로 데이터 베이스에 기록하고 이를 이용할 때에는 다시 SQL로 질의를 날려 데이터를 짜내야 함. 예전에는 이렇게 오고가는 시간이 큰 문제가 되지 않아지만 빅데이터 시대에는 곤란함. 저장장치에 데이터를 쓰는 시간도 아깝기 때문에 입력된 데이터를 메모리에 올려놓은 상태로 처리해서 답을 주어야 함. 또한 계속 강조했듯이 기본적으로 거대한 작업을 여러 소규모 서버로 분산해서 처리할 수 있어야 함. 그러려면 구조적으로는 깔끔하지만 다소 복잡한 RDBMS와 SQL은 적합하지 않음. 이런 문제의식으로 태어난 것이 NoSQL이라는 비관계형 데이터베이스 관리 시스템. 여기에는 굉장히 많은 종류들이 있기 때문에 일률적으로 설명하기는 어려움. 하지만 대략적으로 보면 (열쇠, 값)의 단순한 순서쌍 형태로 데이터를 정리하고 직접 이용하는 것들이 상당수임. 주의할 점은 이름이야 NoSQL로 붙어 있지만 그렇다고 RDBMS-NoSQL의 유용성을 완전히 부정하는 것은 아님. 다만 빅데이터의 특성(규모, 다양성, 속도)이 두드러진 데이터 부분에서는 이런 RDBMS-NoSQL에 얽매일 필요 없이 유연하게 데이터를 이용하도록 하자는 뜻이 담겨 있음. 이 NoSQL역시 구글이 04년 자사의 빅데이터를 처리하기 위해 만든 데이터 저장 시스템 빅테이블에 쓰이면서 유명해 졌음.
- 최신 네비게이션 제품들은 과거와 같이 단순히 전자지도와 GPS가 결합된 것이 아님. 자동차 내부와 길거리 센서에서 수집된 데이터가 네비게이션과 중앙 서버간 통신을 통해 분석되어 교통상황을 실시간으로 파악하고(발견), 나의 행선지에 맞는 최적의 경로를 제시받을 수 있데 되었음.(의사결정 향상) 이로 인해 차량의 연료효율도 높아지고 시간도 절약됨(생산성 향상). 앞으로는 운전자가 지시하기 전에 미리 그날의 스케줄이나 운전자의 기분 등의 요소를 고려하여 스스로 목적지와 경로를 파악하고 최적의 길을 제시하며 자동운전할수도 있는 서비스가 나올 것임(새로운 가치), 이 모든 진화의 이면에 사용자에 대한 상세한 데이터가 수집, 분석되고 있음은 두말할 필요가 없다.
- 누구나 한번쯤 이미 버린 물건을 다시 찾기 위해 쓰레기통을 뒤져본 경험이 있을 것임. 왜 쓰레기통을 뒤지는가? 아마 이전에는 쓸모없다고 버린 물건이 이제는 어떤 이유에서든 다시 유용해지고 필요해졌기 때문. 마찬가지로 기업이나 기관들에 어떤 문제가 발생했을 때, 조직 내에 이미 그 문제의 해결책이 존재하나 그동안 쓸모가 없어 버려져 있었기에 이제 쓰레기통을 뒤져 그 해결채을 발견하는 것이 중요해진다는 점이 쓰레기통 이론의 핵심. 즉 문제해결 과정이 문제가 발생한 다음에 근사한 해결책을 만들어내는 것처럼 항상 순차적이기 보다는 반대로 문제가 발생하면 이미 조직내에 존재하지만 예전에는 간과하거나 무시했던 해결책을 찾는 이치와 같음. 이처럼 빅데이터는 이미 문제에 대한 해결책이 존재하는 쓰레기통과 같을 수 있음. 문제가 발생하면 해결책은 그 속에 있으며 이를 발견하는 일이 중요해진다는 뜻. 빅데이터의 쓰레기통은 규모와 구조가 엄청나게 크고 복잡하기 때문에 그 속을 사람이 직접 뒤지지 않고 컴퓨터가 대신 정보를 찾아줌. 과거에는 쓰레기통이 작아 그 속에 해결책이 들어 있을지 확신할 수 없었고, 들어 있다 해도 쓰레기통을 뒤지는 일이 쉽지 않았음. 하지만 빅데이터 시대에는 해결책이 존재할 가능성이 높은 엄청난 양의 쓰레기가 있으며, 이를 뒤지는 문제도 기술혁신으로 가능해졌고 더욱 쉬워졌음.
- 빅 상호작용 데이터 및 이메일, 블로그, SNS와 같은 비구조적 데이터가 급증하면서 고객이 기업에 직접 표출하지 않더라도 기업이 이들 마음속에 있는 감성을 읽어내는 것이 가능해지고 있음. SNS 등 고객이 직접 생산해내는 콘텐츠(즉 데이터)가 많아짐에 따라 이를 토대로 고객의 숨은 의도를 알아내려는 기법이 발달하고 있기 때문. 고객의 진정한 의도를 알아내는 방법인 고객감성분석은 개인의 글 속에 숨겨진 감성을 마이닝이나 분석기법 등으로 알아내는 텍스트 마이닝 또는 텍스트 애널리틱스의 일종임. 텍스트 애널리틱스는 구조화된 데이터와 비구조화된 데이터를 이용해 패턴 등을 찾아냄
- 고객감성 분석 : 소프트웨어가 사전에 만들어진 디렉토리에 등록된 사람, 상품, 위치 및 관련 용어나 개념들을 토대로 지시받은 콘텐츠를 검사해 관심사항들을 추출(마이닝)하는 프로세스를 진행 --> 디렉토리에 등재된 경쟁사 이름과 같이 유사한 정보들끼리 묶어 그룹을 만듬 --> 경쟁사 제품기사를 쓴 기자들의 이름과 이들이 쓴 기사 제목처럼 추출된 관심사항들 간의 관계를 찾아냄 --> 감성분석을 통해 관심사항(기사의 글) 내용이 긍정적인지, 부정적인지 판별함 --> 찾아낸 정보를 시각화, 대시보드 등으로 이용자가 이해하기 쉽게 제공
- 고객행태 경고 시스템은 일정기간 동안 고객대화 속에 등장하는 단어, 문장, 분류된 활동들의 변화를 자동적으로 분석해 문제가 발생하기 전에 스스로 알아서 경고하는 사전 경고 시스템임. 특정 단어, 문장, 카테고리가 한 채널 혹은 여러 채널에서 통계적으로 의미 있을 정도로 평소보다 적게 또는 많이 나타나면 이를 탐지해 자동적으로 알림. 이 시스템은 내부에서 발생하는 변화지만 외부에 입소문이 날만한 일들을 찾아낼 수도 있음.
- 고객 행태 경고 시스템은 일정기간 동안 고객 대화 속에 등장하는 단어, 문장, 분류된 활동들의 변화를 자동적으로 분석해 문제가 발생하기 전에 스스로 알아서 경고하는 사전 경고 시스템임. 특정 단어, 문장, 카테고리가 한 채널 혹은 여러 채널에서 통계적으로 의미있을 정도로 평소보다 적게 또는 많이 나타나면 이를 탐지해 자동적으로 알림. 이 시스테은 내부에서 발생하는 변화지만 외부에 입소문이 날 만한 일들을 찾아낼 수도 있음
- 야후는 먼저 컴퓨터가 자체적으로 학습하는 능력을 의미하는 기계학습 기법으로 고객들이 클릭하는 정보의 연관성을 파악해 콘텐츠 분류 방법을 도출. 이후 고객이 다시 방문하면 이런 분류방법에 따라 그 고객의 관심분야에 맞춰 콘텐츠를 제공. 이처럼 고객이 관심을 갖고 있는 링크와 검색결과를 제공함은 물론, 흥미를 가질 기사나 내용을 제일 중앙에 보여주어 각 콘텐츠와 정보에 대한 클릭 빈도를 크게 증가시켰음. 이러한 분야를 소셜 미디어 애널리틱스나 소셜 메트릭스라 하는데, 이는 일종의 소셜 미지어 데이터에 대한 분석임

 

'IT' 카테고리의 다른 글

비트 코인  (0) 2014.10.12
빅데이터 게임화전략과 만나다  (0) 2014.10.12
버티컬 플랫폼 혁명  (0) 2014.10.12
IT Korea  (0) 2014.10.12
대한민국 IT 인사이드  (0) 2014.10.12
Posted by dalai
,