빅데이터@워크

IT 2014. 9. 20. 10:43

 


빅 데이터 @ 워크

저자
토머스 H. 데이븐포트 지음
출판사
21세기북스 | 2014-06-23 출간
카테고리
경제/경영
책소개
빅 데이터를 원하고 지배하고 싶다면 이론보다 실행에 초점을 맞춰...
가격비교

- 우리는 빅데이터가 조직구조에 어떤 영향을 미칠지 알지 못함. 빅데이터의 이용가능성(운영, 직원, 고객, 그리고 사업위험에 대한)이 데이를 포착하고 분석하는 능력을 중앙에 집중시킨 기업들에게 혜택을 줄 것이라는 믿음에는 이유가 있음. 우리는 스몰 데이터 분석에서 이미 그런 사례를 볼 수 있는데, 많은 조직들이 중앙에서 통제하는 분석전략과 그룹을 만들기 시작. 만약 빅데이터가 기업 전 조직에 걸쳐 이곳저곳에 흩어져 있다면, 사업기회를 이해하고 반응하기 위해서 그것들을 합치기란 매우 어려울 것임. 그러나 빅데이터는 아주 새롭기 때문에 조직 변혁이 어떤 형태를 띨 것인지는 알 수 없음. 대기업에서 나온 초기 결과는 빅데이터가 기존의 데이터 및 분석그룹과 합쳐질 것임을 시사함. 그러나 그것도 다음 몇년 동안 바뀔 수 있음. 우리는 또한 빅데이터가 고객관계에 어떤 영향을 미칠지도 알지 못함. 빅데이터가 가능하게 하는 전반적인 방향은 고객행동, 선호, 그리고 비선호에 대한 지식을 더 넓히고, 그런 지식에 근거해 광고, 제품/서비스를 더욱더 타게팅 하는 것. 그러나 고객들이 더 많은 타게팅을 원하는 않는다는 증거가 이미 있음. 그리고 기업들이 데이터로 하는 일에 대해 고객들은 몹시 의심을 품고 있음. 예를 들어 미국 인터넷 사용자 중 68%는 검색가 웹사이트에 이력에 근거한 표적광고를 반대한다고 응담. 이런 이론적 반대에도 불구하고, 미국인들은 사회적인 상호작용(페이스북처럼)이나 혹은 상품가격 할인과의 교환으로 상당한 양의 개인적 정보를 때로는 포기하려는 것처럼 보임. 그러나 어떤 시점에서는 빅데이터에 근거한 타게팅에 대해 미국내에서 큰 반발(규제적인 혹은 소비자 행동적인 측면에서)이 확실히 있을 것임. 기업들이 고객 데이터를 이기적으로 이용하는 것을 제한하기 위해 강력히 규제하려는 노력이 유럽연합에서는 이미 있었음. 미국내의 규제에 관해서는 아직 급박한 조짐이 없지만, 이 점에 관해서 조직들은 고객정서 (그리고 고객들이 오싹한 요소의 한계를 넘어설 가능성)를 주의깊에 관찰해야 함. 우리는 또한 빅데이터가 경영을 어떻게 변화시킬지도 알지 못함. 빅데이터는 우리에게 많은 의사결정을 데이터에 근거해서 하도록 하는 방향으로 기회를 제공함. 기업과 조직들은 그들의 사업환경에 대해 점점 더 많이 알게 될 것이며, 그리고 그들이 아는 것을 근거로 의사결정하고 행동을 취하기 위해 분석을 사용할 수 있게 될 것임. 이런 새로운 접근 방식을 경영자들이 어떤 속도로 채택할지는 아직 확실하지 않음. 그러나 역사가 보여주듯이, 그런 채택은 일어나지 않을 것 같음. 어쨌든 스몰 데이터 분석은 수십년 동안 우리와 함께 있었고, 아직 많은 경영자들은 여전히 직감에 근거한 의사결정을 함. 그리고 조직내에서 권력과 정치는 빠른 시일내에 확실히 사라지지 않을 것 같음.
- 벨 연구소의 전 데이터분석가인 톰 레드먼이 주장하는 바와 같이, 데이터연구소의 문화적 처점은 벨연구소가 수십년 전에 발전시켰던 다음과 같은 것들과 유사해야 함
* 벨연구소의 성공의 비밀은 하루의 반만 일하는 것. 벨 연구소에서 가장 좋은 것은 그 열두시간을 당신이 원하는 때에 일할 수 있다는 것
* 벨 연구소에서 성공 비밀은 좋은 아이디어를 내는 것. 당신은 2년마다 단지 하나의 아이디어가 필요하다. 그러나 그것은 전화서비스를 개선해야 한다. 그리고 그것은 정말로 좋은 아이디어여야 한다
* 벨 연구소에서 훌륭한 관리자가 되기 위한 비법은 알맞은 사람을 고용하고, 그들에게 필요한 도구를 주며, 그들에게 바른 방향을 제시하고, 그들을 방해하지 않는 것이다.
- 어떤 것이 빅데이터 채택의 적절한 속도인가?
(1) 보수적으로 행동해야 하는 경우
* 경쟁자가 빅데이터에 크게 진력하지 않음
* 과거에기술이 산업에서의 변혁을 주도 하지 않았음
* 고객 혹은 다른 중요한 기업체에 대한 많은 데이터를 갖고 있지 않음
* 당신 회사는 전통적으로 산업혁신에서 선도기업이 아님
(2) 적당하게 공격적으로 행동해야 하는 경우
* 당신의 산업에서 빅데이터 혹은 분석에 이미 적극적이다
* 경쟁자들보다 계속 앞서기를 원한다
* 당신 회사는 전통적으로 기술과 데이터에 능숙하다
* 빅데이터 작업을 할 수 있는 인력이 최소한이나마 있다.
(3) 공격적으로 행동해야 하는 경우
* 당신 산업에서 누군가 이미 매우 공격적이다
* 과거에 분석적 경쟁자였다
* 과거에 당신 산업을 변혁하기 위해 기술을 활용했다
* 모든 필요한 능력을 모았다
- 월급을 받을 가치가 있는 데이터 과학자는 데이터가 아니라 질문으로 시작해야 한다고 말함. 불행하게도, 데이터 해커톤은 많은 경우에 문제를 명백히 정의하는 데 미흡함. 대부분의 회사들은 단지 해커들, 피자, 그리고 데이터를 한방에 몰아넣기만 하면 마술이 일어날 것으로 생각함. 이것은 해비탯 포 휴매니티가 자원봉사자들을 목재더미 주위에 모아놓고 '힘차게 시작합시다'라고 말하는 것과 같음. 날이 저물때쯤이면 14개의 출구가 있는 일광욕실이 반쯤 지어질 것임. 달리 말하면 해커톤은 단지 새로운 아이디어를 만들어내기 위해 모아놓은 아이디어 묶음일지도 모르지만, 그것이 실제 사업문제를 목표로 한다면 더 가치있을 것임.
- 많은 형태의 데이터 과학자가 있음 그런 형태 사이의 중요한 차이점을 구분하는 한가지 방법을 빈센트 그랜빌이 만들었음. 그는 그과 같은 데이터 과학자들을 위한 소셜네트워크인 데이터 사이언스 센트럴을 운영. 블로그에 올린 글에서 그는 수직적 데이터 과학자와 수평적 데이터 과학자의 차이를 다음과 같이 설명
* 수직적 데이터 과학자들은 좁은 영역에 아주 깊은 지식을 가지고 있음. 그들은 모든 정렬 알고리즘에 요구되는 복잡한 계산에 아주 익숙한 컴퓨터 과학자일 수 있음. 혹은 고유값, 단일값 분해와 그것의 수치안정성, 그리고 유사 최대추정량의 점근적 수렴에 대해 모든 것을 알고 있는 통계학자일 수도 있음. 혹은 웹 크롤링 기술과 API개발에 적용된 파이썬 프로그램을 수년간 써온 소프트웨어 엔지니어일 수도 있음. 혹은 데이터 모델링, 데이터 웨어하우스, 그래픽 데이터베이스, 하둡과 NoSQL 지식을 갖춘 데이터베이스 전문가일 수도 잇음. 혹은 베이지안 네트워크, SAS, 그리고 SVM에 정통한 예측모델 전문가일수도 있음.
* 수평적 데이터 과학자들은 사업분석가, 통계학자, 컴퓨터 과학자와 사업영역 전문가가 합쳐진 것. 그들은 비전을 기술적 지식과 결합. 그들은 고유치와 일반선형 모델, 그리고 다른 거의 사용하지 않는 통계기법에 전문가는 아닐지 모르지만 비구조화 데이터, 스트리밍, 그리고 빅데이터에 적용할 수 잇는 현대적이고 데이터에 근거한 기법에 대해 더 많이 안다. 그들은 강력하고, 효율적이고, 간단하고, 재생할 수 있고, 확장가능한 프로그램과 알고리즘을 설계할 수 있음.
- 하둡이 필요한 이유중 하나는 빅데이터가 단 한대의 서버에서, 그것이 아무리 강력할지라도 빠르게 처리될 수 없다는 것. 여러대의 서버에 걸쳐 컴퓨터 작업을 나누는 것(말하자면, 맞는 것을 찾기 위해 어떤 구체적인 사진을 많은 다른 사진과 비교하는 알고리즘)은 100 호근 그 이상의 처리시간을 쓸 수 있음. 빅 데이터의 부상은 운 좋게도 많은 (때로는 수천개의) 컴퓨터 프로세서를 가진 값싼 상업용 서버의 부상과 일치. 또 다른 흔히 사용되는 도구는 맵리듀스임. 이것은 빅데이터 처리를 연결된 다수의 컴퓨터 그룹에 나누기 위해서 구글이 개발한 구조임. 하둡에는 맵리듀스 버전이 포함됨
- 빅데이터가 비즈니스 어플리케이션에 따라 변하는 것과 마찬가지로, 데이터를 다루고 처리하기 위해 사용되는 프로그램도 변할 수 있음. 하둡은 디스크에 데이터를 분배하기 위해서뿐만 아니라 그 데이터에 복잡한 연산명령을 내리기 위해서도 맵리듀스라고 불리는 처리구조를 사용. 그 플랫폼의 높은 성능을 유지하기 위해서, 맵리듀스 명령은 빅데이트 플랫폼에 있는 다양한 노드에 걸쳐서 병렬적으로 처리되고, 그런 다음에 새로운 데이터 구조 또는 해답세트를 제공하기 위해 빠르게 합쳐짐. 하둡에서 빅데이터 어플리케이션의 한 예는 "소셜 미디어에서 우리를 좋아하는 모든 영향력 있는 고객의 수를 찾아라"가 될 수 있음. 텍스트 마이닝 어플리케이션은 팬, 사랑, 구매함, 또는 굉장함과 같은 단어를 찾고, 긍정적 정서를 가진 영향력 있는 주요 고객들의 목록을 통합하면서 소셜 미디어 거래를 빠르게 처리할 수도 있음. 아파치 피그와 하이브는 하둡의 맨 위에 있는 두개의 개방형 스크립팅 언어로, 어플리케이션 프로그램에서 맵리듀스 기능을 수행하기 위한 높은 수준의 언어를 제공. 피그는 데이터 읽기, 여과하기, 변환하기, 근접하기 그리고 쓰기와 같은 작업을 설명하기 위한 스크립팅 언어를 제공. 다시 말해 피그는 자바보다 높은 수준의 언어이고(즉 피그언어인 피그라틴은 자바로 번역됨), 더 높은 프로그램 생산성을 가능하게 함. 일부 다른 조직들은 이런 목적으로 파이썬 공개형 스크립팅 언어를 사용하기도 함. 하이브도 이와 유사한 기능을 수행하지만 좀더 일괄처리 지향적이고, 데이터를 SQL질의에 적합한 관계형 형태로 변환할 수 있음. 하이브의 이런 장점은 그런 질의어에 익숙한 분석가들에게 아주 유용.
- 빅데이터 더미의 사업적 시각 층은 빅데이터를 더 높은 분석이 가능하도록 만들어줌. 빅데이터 어플리케이션에 따라 맵리듀스 또는 맞춤 프로그램을 통한 추가적인 처리는 통계모델, 독립파일, 관계형 표, 혹은 다면 데이터 같은 중간적인 데이터 구조를 구성하기 위해 사용될 수 있음. 그 결과로 나타나는 구조는 추가적인 분석을 위해 사용될 수 있거나 혹은 전통적인 SQL기반의 질의 도구에 의해서 연구될 수 있음. 많은 공급기업들이 이른바 하둡위의 SQL이라는 접근방식으로 이동하고 있는데, 단지 SQL이 몇십년간 사업에서 활용되어 왔고, 많은 사람들이 그리고 높은 수준의 언어들이 SQL질의를 만들기 위한 방법을 알기 때문이다. 이러한 사업적 시각은 조직 내에 이미 존재하는 도구와 정보 취급자들에 의해서 빅데이터가 더욱더 활용될 수 있음을 보장한다.
- 그것은 크기가 아니라 다양성에 관한 것이다. 기업들은 모두 지금과 앞으로 3년 내에 데이터의 크기가 아니라 다양성에 초점을 맞출 것이라는 점을 조사결과는 보여준다. 빅데이터 계획의 가장 중요한 목적과 잠재적인 포상은 매우 큰 데이터 세트를 관리하는 것이 아니라 다양한 데이터 원천과 새로운 데이터 형태를 분석하기 위한 능력이다
- 분석에느 항상 세가지 형태가 있음. 즉 과거에 대해서 보고하는 설명적 분석, 미래를 예측하기 우해서 과거 데이터에 근거한 모델을 사용하는 예츠적 분석, 그리고 최적의 행위와 행동을 구체화하기 위한 모델을 사용하는 처방적 분석이 있음. 분석 3.0은 모든 형태를 포함하지만, 처방적 분석을 점점 더 강조하고 있음. 이런 모델들은 대규모 테스트와 최적화에 관련되며, 중요한 과정과 직원행동 속으로 분석을 내재화하는 수단임. 그것들은 조직을 위해 높은 수준의 운영혜택을 제공하지만 높은 수준의 계획과 실행을 강조

 

'IT' 카테고리의 다른 글

플랫폼이란 무엇인가  (0) 2014.10.03
핸드폰 연대기  (0) 2014.10.03
소셜 미디어 바이블  (0) 2014.10.03
모르면 손해보는 IT 이야기  (0) 2014.10.03
모바일 디자인&개발  (0) 2014.10.03
Posted by dalai
,