빅 데이터가 만드는 세상

저자
빅토르 마이어 쇤버거, 케네스 쿠키어 지음
출판사
21세기북스 | 2013-05-16 출간
카테고리
경제/경영
책소개
빅 데이터 혁명에 관한 긍정적이고 실용적인 시각 확률적 진실에 ...
가격비교

- 구글의 시스템으로 할 수 있는 일이라고는 특정 검색어의 빈도수와 여러지역의 장기간에 걸친 독감 확산 사이의 상관관계를 찾는 것뿐이었음. 구글은 질병관리본부의 07,08년 실제 독감환자 기록과 대조했을 때 예측력이 있는 검색어를 찾기 위해 4억 5000만 개라는 어마어마한 수의 수학적 모델을 검토. 그리고 결과는 성공적이었음. 구글은 어느 수학모델 내에서 함께 조합해 사용하면 예측력 면에서 공식 데이터와 97%의 상관성을 갖는 검색어 45개를 찾아냄. 질병관리본부가 하듯이 이 검색어들도 독감이 어디로 퍼져나가는지 알려줄 수 있음. 다만 차이가 있다면 질병관리본부처럼 환자 발생 1~2주 후에나 가능한 것이 아니라 실시간에 가깝게 알려줄 수 있다는 점
- 사람들은 더이상 데이터를 유통기한이 지난 고정물로 생각하지 않게 됨. 이전에는 비행기가 착륙하고 나면(혹은 구글에서 검색어가 처리되고 나면), 수집된 데이터는 애초의 목적을 달성했으므로 그 유용성이 끝났다고 생각했음. 하지만 이제 데이터는 비즈니스의 원자재가 되었음. 빼놓을 수 없는 경제 인풋으로서 새로운 형태의 경제적 가치를 창출하는 원료가 된 것임. 사실 제대로 된 사고방식이 가미된다면 데이터는 영리하게 재사용되어 새로운 서비스와 혁신의 원천이 될 수 있음. 적절한 도구를 갖추고 겸손한 마음으로 귀를 기울인다면 데이터는 많은 비밀을 들려줄 것임.
- 빅 데이터란 큰 규모를 활용해 더 작은 규모에서는 불가능했던 새로운 통찰이나 새로운 형태의 가치를 추출해 내는 일. 빅데이터 시대는 우리가 사는 방식, 세상과 소통하는 방식에 도전함. 그중에서도 가장 두드러진 부분은 사회가 인과성에 대한 그동안의 집착을 일부 포기하고 단순한 상관성에 만족해야 할 것이라는 점. 즉 이유는 모른채 결론만 알게됨. 이것은 수백년간 이어져온 관행을 뒤집는 일이며, 우리는 의사결정 방식이나 현실에 대한 이해방식을 아주 기초적인 부분부터 다시 생각해야 할지도 모름.
- 빅데이터의 핵심은 예측. 혹자는 빅데이터를 인공지능이라는 컴퓨터 과학의 일부로 설명하거나 기계학습이라는 분야의 일부로 설명하지만 이런 식의 설명은 핵심을 오도하는 측면이 있음. 빅데이터의 핵심은 컴퓨터가 인간처럼 생각하도록 가르치려는 데 있지 않음. 빅데이터는 엄청난 양의 데이터에 수학을 적용해 확률을 추론하려는 노력. 어느 이메일이 스팸메일일 가능성, 무단횡단 중인 사람의 궤도와 속도로 보아 그 사람이 제때 길을 건널 가능성, 무인 자동차가 속도를 살짝 늦춰야 할 가능성 같은 것들. 이런 시스템이 잘 작동하는 것은 예측에 필요한 많은 데이터를 공급받기 때문. 그리고 시스템이 스스롤 개선되어 나갈 수 있도록, 더 많은 데이터가 들어오면 어느것이 최상의 신호이고 패턴인지 기록해나가게끔 설계되어 있기 때문.
- 빅데이터에서 중요한 것은 결론이지 이유가 아님. 어떤 현상의 원인을 항상 알아야할 필요는 없음. 우리는 데이터 스스로 진실을 드러내게 하면 됨. 빅데이터가 생기기 전에는 분석이라는 것이 보통 데이터를 수집하기 훨씬 전에 세워놓은 몇개의 가설을 확인하는 수준에 머물렀음. 하지만 데이터 스스로 진실을 드러낸다면 우리로서는 전혀 생각지도 못했던 연결고리가 만들어질 수 있음.
- 확률과 상관성이 가장 중요한 세상이 되면 특정 영역의 전문기술은 그 중요성이 감소. 영화 머니볼에서 야구 스카우터들은 통계학자에게 자리를 내줌. 정교한 분석 앞에 직감이 무릎을 꿇은 것임. 마찬가지로 전공별 전문가들이 사라지지 않겠지만 그들은 이제 빅데이터 분석가들과 경쟁해야 할 것임. 이렇게 되면 경영, 의사결정, 인력자원, 교육에 대한 전통적 관념을 정해야 할 것임. 우리가 가진 대부분의 제도는 정확하고 인과원칙을 따르는 소규모 정보에 기초해 의사결정을 내린다는 가정 위에 세워졌음. 하지만 상황은 바뀌었음. 우리가 가진 데이터는 어마어마한 규모이고 빠르게 처리될 수 있으며 부정확성이 용인됨. 게다가 데이터의 방대한 크기 때문에 인간이 아닌 기계가 결정을 내리는 경우가 많아질 것임.
- 지난 수십년간 체스 알고리즘은 크게 바뀌지 않음. 체스의 규칙은 이미 완전히 알려져 있고 그 규칙을 엄격하게 따라야 하기 때문. 그런데도 요즘 컴퓨터 체스 프로그램이 옛날보다 게임을 훨씬 잘 하는 이유는 막판에 플레이를 잘 하기 때문. 그리고 그 이유는 단순함. 시스템에 더 많은 데이터가 들어가 있기 때문. 실제로 체스판 위에 말이 여섯개 이하로 남은 상황에 대해서는 분석이 완전히 끝났고 가능성 있는 모든 말 동작이 커다란 표 안에 들어 있기 때문. 이 표는 압축하지 않으면 1테라바이트가 넘는 용량의 데이터임. 이 데이터 덕분에 체스 컴퓨터는 경기의 가장 중요한 막판에 완벽한 플레이를 함. 인간이 결코 이길 수 없는 시스템임
- 알고리즘이 좋은 것보다 데이터가 많은 편이 훨씬 더 효과적이라는 사실이 여실히 증명된 사례는 자연어 처리부문. 자연어 처리란 우리가 일상생활에서 사용하는 단어들을 컴퓨터가 어떻게 분석해야 하는지 연구하는 분야. 2000년 경에 마이크로소프트 연구원 미셸방코와 에릭 브릴은 워드 프로그램에 사용하는 문법 검사기를 개선할 방법을 찾고 있었음. 두 사람은 기존 알고리즘을 개선하는 데 노력을 쏟아야 할지, 아니면 새로운 기술을 찾거나 더 세련된 기능을 추가해야 할지 확신할 수 없었음. 이 중 어느 하나의 방법으로 결정하기 전에 그들은 기존 방법에 더 많은 데이터를 추가하면 어떻게 되는지 시험. 대부분의 기계학습 알고리즘은 총 100만개 이내의 단어로 된 말뭉치를 사용. 방코와 브릴은 흔히 사용하는 네개의 알고리즘에 데이터를 열배씩 늘려가며 추가해봄. 각각 1000만단어, 1억단어, 그리고 결국 10억단어 수준까지 말뭉치의 크기를 늘림. 결과는 믿기 어려울 만큼 놀라웠음. 데이터가 추가되자 네종류의 알고리즘이 모두 성능이 극적으로 개선됨
- 구글 번역 시스템이 잘 작동하는 이유는 알고리즘이 뛰어나서가 아님. 그것은 마이크로소프트의 방코나 브릴같은 역할을 한 구글 번역 개발자들이 단순히 고품질이 아닌 더 많은 데이터를 사용했기 때문. 구글이 IBM의 캉디드보다 수만배나 더 큰 데이터 집합을 사용할 수 있었던 것은 데이터의 들쭉날쭉함을 받아들였기 때문. 구글이 06년 공개한 1조단어짜리 말뭉치는 인터넷에서 떠돌아다니던 콘텐츠를 가져온 것. 말하자면 야생의 데이터였음. 이것을 훈련용 데이터 집함으로 해서 구글의 시스템은 예컨대 영어 한 단어가 다른 단어 다음에 올 확률을 계산. 이것은 이 분야의 유명한 조상격이라고 할 수 있는 60년대의 브라운 말뭉치(영어단어 100만개를 사용)로부터는 상당히 멀어진 것이었음. 더 큰 데이터 집합을 사용함으로써 음성인식이나 컴퓨터 번역의 기반디 되는 자연어 처리분야에 큰 걸음을 내디딘 것. 구글의 인공지능 분야 전문가 피터노빅과 동료들은 데이터의 터무니 없이 뛰어난 효과성이라는 논문에서 다음과 같이 썼음. '많은 데이터를 가진 간단한 모델이 적은 데이터를 가진 정교한 모델보다 뛰어나다'
- 태그 사용에 뒤따르는 부정확성을 받아들이는 것은 곧 두서없는 세상의 자연스런 모습을 이용하는 것. 더 정확한 시스템들은 마치 태양 아래 모든 게 줄과 열에 딱딱 맞아 들어가는 척하면서 야단법석인 현실을 무균상태라고 거짓말 함. 새로운 메커니즘은 이런 가짜 놀이에 대한 해독제임. 이 세상에는 정확성의 철학으로는 꿈꿀 수 없는 것이 많음.
- 단일한 버전의 진실이라는 개념은 백팔십도 변화를 겪는 중. 단일한 저전의 진실이라는 것이 있지도 않고, 또 있다고 해도 그걸 추구하는 것은 본질을 빗겨가는 일일지 모른다는 생각이 들기 시작한 것. 대규모 데이터를 활용하는 효익을 누리려면 데이터의 들쭉날쭉한 특성을 없애야 할 오류로 볼 것이 아니라 정상적인 것으로 받아들여야 함
- 가장 흔히 쓰이는 데이터베이스 접근언어는 오랫동안 SQL(structured query language, 구조화된 질문언어)였음. 이름부터가 아주 경직되어 있는 언어임. 하지만 최근 몇년 사이 트렌드는 noSQL이라고 하는 언어 쪽으로 크게 이동. noSQL은 이미 정해진 레코드 구조가 필요하지 않음. noSQL은 다양한 종류와 크기의 데이터를 수용하면서도 검색이 성공적으로 수행되게 해줌. 이런 데이터베이르 설계는 들쭉날쭉한 구조를 허용하는 대신 데이터베이스 처리와 스토리지 자원을 더 많이 필요로 함. 하지만 데이터 저장 및 처리비용이 급락하고 있는 현실을 감안한다면 이런 맞바꾸기는 충분히 받아들일 수 있음.
- 하둡이 많은 양의 데이터를 능숙하게 처리하는 요령은 데이터를 작은 덩어리로 쪼개서 다른 기계들로 나눠보내는 것. 하둡은 하드웨어가 고장날 가능성을 예상하고 중복 데이터를 만듬. 또 하둡은 데이터가 깔끔하게 정렬되어 있지 않을 것이라고 가정. 실은 데이터가 너무 거대해서 처리하기 전에 클리닝을 할 수 없을 것이라고 가정. 전형적 데이터 분석은 데이터를 분석될 위치로 옮기기 위해 추출, 복사, 로딩이라는 과정이 필요. 하지만 하둡에는 이런 꼼꼼한 절차가 불필요. 하둡은 데이터의 양이 숨막히게 거대해서 이동이란 불가능하고 지금 그 위치에서 분석되어야 하는 것을 당연한 것으로 가정. 하둡이 내놓는 결과는 관계형 데이터베이스의 결과만큼 정교하지는 않음. 따라서 하두블 가지고 우주선을 이륙시키거나 세부적인 은행계좌 항목을 확인할 수 는 없음. 하지만 이런 초특급 정확성이 요구되지 않는 훨씬 덜 심각한 과제해결이라면 하두븐 다른 그 어떤 대안보다 빠르게 마술을 부림
- 이유를 아는 것은 유쾌한 일. 하지만 매출을 시뮬레이션해 볼 때 이유는 중요치 않음. 반면 결론을 알면 클릭수가 쏟아짐. 이에 대한 통찰은 전자상거래뿐만 아니라 많은 업계의 판도를 바꿔 놓을 수 있는 힘을 갖고 있음. 분야를 막론하고 세일즈맨들은 고객이 왜 구매 목록에 체크를 하는지, 왜 그런 의사결정을 내리는지 숨은 이유를 이해라라는 말을 들어왔음. 그래서 전문 기술과 다년간의 경험이 높게 인정받음. 하지만 빅데이터는 다른 방법이 있다고, 어찌보면 훨씬 더 실용적 접근법이 있다고 말함. 아마존의 혁신적 추천시스템은 기저에 깔린 원인을 몰라도 가치있는 상관성을 찾아냄. 이유가 아니라 결론을 아는 것으로도 충분.
- 지금 기술전문가들 사이에서는 암묵적 믿음이 하나 있음. 바로 빅데이터의 계보를 거슬러 올라가면 반도체 혁명이 있다는 믿음. 이것으 사실이 아님. 현대적 IT시스템이 빅데이터를 가능하게 한 것은 분명하지만 핵심적인 측면에서 보면 빅데이터로의 이행은 인류의 오래된 탐구과정의 연속성상에 있음. 세상을 측정하고 기록하고 분석하려는 탐구 말이다. IT 혁명은 도처에서 볼 수 있지만 대부분 그 강조점은 기술에 있었다. 이제는 우리의 관심을 정보에 집중할 때다.
- 단어를 데이터롤 바꾸면 수많은 용도가 생김. 사람은 이 데이터를 읽을 수 잇고 기계는 이 데이터를 분석할 수 있음. 빅데이터 회사들의 귀감이 되는 구글도 정보가 그 수집과 데이터화를 정당화시킬 수 있을 만큼 다양한 잠재적 용도로 쓰일 수 있음을 알고 잇음. 영리하게도 구글은 북스캐닝 프로젝트에서 데이터화된 텍스트를 자신들의 기계번역 서비스를 개선하는 데 이용. 이 시스템은 번역본이 책들도 가려낼 수 있음. 그리고 번역가가 언어를 옮기면서 사용한 단어나 문구도 분석할 수 있음. 그렇다면 이제 번역을 거대한 하나의 수학문제로 다루는 것도 가능. 언어들 사이에 어떤 단어가 다른 단어를 가장 잘 대체하는지 컴퓨터가 그 확률을 알아내는 것.
- 수도시설은 도시의 성장을 가능케 했음. 인쇄술은 계몽주의 운동을 가능하게 했으며, 신문은 민족국가가 나타나게 했음. 하지만 이런 인프라들은 흐름에 초점이 맞춰져 있었음. 물의 흐름, 지식의 흐름처럼 말이다. 전화기도 마찬가지였고, 인터넷도 그랬음. 반면에 데이터화는 인간의 이해가 풍부해짐을 의미. 빅데이터의 도움으로 우리는 더 이상 세상을 사건의 연속으로 보지 않게 될 것임. 우리가 자연적 현상 혹은 사회적 현상이라고 하는 사건들 말이다. 그 대신에 우리는 세상이 본질적으로 정보로 구성된 우주임을 보게 될 것임.
- 마이크로소프트는 맞춤법 검사의 가치를 한가지 목적으로만 생각한 반면, 구글은 그 효용성을 더 깊이 이해. 구글은 오자를 이용한 세계최고, 최신의 맞춤법 검사기를 만들어서 검색 성능만 향상시킨 것이 아니라 다른 여러가지 서비스에도 적용. 예컨대 검색이나 지메일, 구글문서 도구의 자동완성 기능에도 사용했고 구글 번역에도 활용.
- 아마존은 킨들 전자책 단말기를 통해 이용자들이 주석을 많이 달거나 밑줄을 그은 페이지가 어디인지 알고 있지만 이 정보를 저자나 출판사에 판매하지는 않음. 독자들에게 가장 인기있는 단락이 어디인지 마케팅 담당자들이 안다면 책을 더 잘 팔 수 있을 것임. 저자들 역시 자신의 두꺼운 책 어느부분에서 대부분의 독자들이 책을 덮어버렸는지 안다면 작품을 개선하는 데 활용할 수 있을 것임. 출판사들은 다음에 인기를 끌 책은 어떤 주제일지 감지할 수 있을지도 모름.
- 빅데이터의 초기단계에 불과한 현재로서는 아이디어와 기술이 가장 큰 가치를 지닌 것 같음. 하지만 결국에 가면 대부분의 가치는 데이터 자체에 있을 것임. 왜냐하면 우리는 정보를 가지고 더 많은 것을 할 수 있게 될 것이고, 데이터 보유자들은 자신이 소유한 자산의 잠재적 가치를 더 잘 알게 될 것이기 때문. 결과적으로 데이터 보유자들은 그 어느때보다도 더 데이터를 꽉 움켜쥐려고 할 것이고 이에 접근하려는 외부인들에게는 높은 가격을 책정할 것임. 금광에 비유하자면 금 자체가 중요해진다는 이야기. 하지만 장기적으로 데이터 보유자들이 부상할 것이라는 전망에는 주의가 필요한 중요한 측면이 있음. 일부 경우에는 데이터 중개인들이 나타나서 복수의 출처로부터 데이터를 수집하고 취합한 후 혁신적인 일들을 할 것이라는 점
- 빅 데이터가 몰고 올 가장 큰 충격은 데이터에 기초한 의사결정이 인간의 판단을 강화하거나 기각하게 만들 수 있다는 점. 예일대학 이언 에어스는 자신의 저서인 슈퍼 크런처스에서 사람들은 직감이 들더라도 통계분석 때문에 어쩔 수 없이 다시 한번 생각하게 된다고 주장. 빅데이터에서는 이것이 더 중요해짐. 실질적 전문가라 할 수 있는 전공별 전문가는 통계전문가나 데이터 분석가와 비교되어 일정 부분 빛을 잃게 될 것임. 통계 전문가와 데이터 분석가는 기존의 방식에 구애됨이 없이 데이터가 말하도록 하기 때문. 이 새로운 핵심인력들은 예단이나 선입견 없이 상관성에 의존할 것임. 마치 모리가 주름이 쪼글쪼글한 선장들이 술집에서 뱃길에 관해 이야기하는 내용을 액면 그대로 받아들이지 않고, 취합된 데이터가 진실을 드러내 줄 거라 믿었던 것처럼 말이다.
- 우리는 한 분야를 깊이 전공한 스페셜리스트를 이것저것 아는 제너럴리스트보다 높이 평가하는 경향이 있음. 즉 깊이를 중시. 하지만 전문지식은 정밀성과 비슷한 면이 있음. 즉 정보가 충분치 않고 딱 맞는 정보를 얻을 수 없어서 직관과 경험에 의존해야 했던 스몰 데이터의 세상에서는 전문지식이 적합함. 그런 세상에서는 경험이야말로 쉽게 전달할 수도 책에서 배울수도 없는, 어쩌면 의식적으로 알고 있지도 못한 잠재된 지식의 오랜 축적이므로, 똑똑한 의사결정을 내리는 데 결정적 역할을 함. 하지만 바보같은 데이터를 잔뜩 가지고 있을 때는 이를 이용해야 함. 빅데이터를 분석할 수 있는 사람이 미신이나 관습적 사고를 넘어설 수 있다면 그것은 이들이 더 똑똑해서가 아니라 데이터를 갖고 있기 때문.(그리고 아웃사이더라서 그 분야 내에서 옥신각신하는 다툼에 치우칠 일이 없기 때문. 전문가들은 이런 다툼 때문에 어느편이냐를 막론하고 시야가 좁아지기도 함) 이런 사실은 회사가 소중히 여기는 직원이 되는 방법도 달라진다는 의미. 무엇을 알고, 누구를 알며, 직장생활에 대비해 무엇을 공부해야 할지가 바뀜. 수학과 통계학, 그리고 약간의 프로그래밍과 네트워크 과학이 직장생활의 기본이 될 것임. 100년 전에는 산술능력이, 그 이전에는 읽고 쓰는 능력이 그랬던 것처럼 말이다.
- 데이터 중심의 의사결정이라는 추세는 매우 근본적 변화임. 대부분의 사람들에게 의사결정의 기초가 되는 것은 사실요소와 숙고, 그리고 많은 추측임. 시인 오든의 인상적 문구를 빌리면 주관적 시각들이 난무하고, 명치에서 오는 느낌을 따르는 것. 토머스 대븐포트는 이것을 금쪽같은 직감이라고 부름. 경영자들은 직감에서 오는 확신으로 사업을 추진. 하지만 이런 형편은 예측모형과 빅데이터 분석이 경영의사결정을 만들어 내거나 혹은 최소한 확인해주는 쪽으로 바뀌기 시작.
- 전통적 분야에서 중간규모의 회사들이 존재할 수 있었던 이유는 규모의 이익을 누릴 수 있는 최소규모이면서도 대형업체들에게는 부족한 유연성을 가질 수 있었기 때문. 하지만 빅데이터 세상에서는 회사가 제조 인프라에 투자한 돈을 회수하기 위해 반드기 도달해야 할 최소규모라는 것이 없음. 유연성을 유지하면서도 성공하고 싶은 빅데이터 이용자들의 경우 자신들은 더 이상 일정규모를 넘어설 필요가 없음을 알게 될 것임. 계속해서 작은 형태로 남아 번영할 수 있을 것임. 빅 데이터는 업계의 가운데를 밀고 들어가 회사들을 아주 크거나 작은 형태로 밀어붙일 것임. 금융 서비스와 제약업에서 제조업에 이르기까지 많은 전통적 분야가 결국 빅데이터 회사들로 재구성될 것임. 빅데이터가 전 분야의 모든 중간규모 업체들을 업애버리지는 않겠지만, 빅데이터의 영향력에 휘둘리기 쉬운 업체들에게는 분명히 큰 압박이 될 것임.
- 중요한 것은 규모의 변화가 상태의 변화를 낳는다는 점. 이런 변화는 사생활 보호를 더 힘들게 만들 뿐만 아니라 완전히 새로운 위협요소도 제시. 바로 성향에 기초한 불이익이 그것임. 사람들이 행동하기도 전에 그들을 판단하고 벌주기 위해 빅데이터 예측을 사용한다면 이런 일이 벌어질 수 있음. 그리고 이것은 공정, 정의, 자유의지라는 개념을 무효화시켜버림. 정보와 분석 결과에 집착해 그것을 오용했을 때 우리 자신이 정보 독재의 희생자로 전락할 수 있다는 점
- 엔진부품을 강에 내다버린 포드의 공장직원들처럼 하급장교들은 때로 명령을 지키거나 출셋길에 도움이 되기 위해 상관들에게 인상적인 숫자를 건넸음. 즉 상관들이 듣고 싶어하는 이야기를 들려줌. 그런데도 맥나마라와 그의 주변 사람들은 그 숫자에 의존하고 집착. 완벽하게 빗질해서 뒤로 넘긴 머리칼에 꼼꼼하게 정돈된 넥타이를 맨 맥나마라는 스프레드시트를 들여다보는 것으로 현지에서 무슨 일이 벌어지는지 이해할 수 있다고 생각. 열과 행에 질서정연하게 계산되어 있는 숫자와 차트들에 정통하면 신에게 한발 다가갈 수 있을 것처럼 보였음. 베트남 전쟁 기간 미군의 데이터 이용과 남용, 오용 사례는 스몰 데이터 시대의 정보가 가진 한계를 보여주는 괴로운 교훈임. 그리고 이것은 세상이 빅데이터 시대로 이행하는 동안에도 유의해야 할 사항임.
- 탁월한 생각은 데이터에 의존하지 않음. 잡스가 수년간 지속적으로 맥 노트북을 개선할 때는 현장 보고서를 기초로 삼았을지도 모름. 하지만 그가 아이팟이나 아이폰, 아이패드를 출시할 때 기초로 삼았던 것은 자신의 직관이지 데이터가 아니었음. 그는 육감에 의존했음. 자신들이 뭘 원하는지 아는 건 소비자가 할 일이 아닙니다. 애플이 아이패드를 출시하기 전 시장조사를 한 적이 없다고 기자에게 밝히면서 잡스가 남긴 유명한 말이다.
- 정확하고 정밀하며 말끔하고 엄밀한 데이터에 집착하는 대신 기준을 더 느슨하게 풀어줘도 좋음. 완전히 틀렸거나 거짓인 데이터를 받아들여서는 안됨. 하지만 훨씬 더 포괄적인 데이터 집합을 얻는 대가로 어느 정도의 들쭉날쭉함은 수용할 수 있을 것임. 사실 어떤 경우에는 크고 들쭉날쭉함은 수용할 수 있을 것임. 사실 어떤 경우에는 들쭉날쭉한 데이터를 사용하는 것이 유익한 경우마저 있을 것임. 데이터에서 작고 정밀한 부분만 이용하려다가 폭넓은 세부사항을 포착하는 데 실패했기 때문. 정작 많은 지식은 그 폭넓은 세부사항들 속에 있는데 말이다. 상관성은 인과성보다 훨씬 빠르고, 저렴하게 찾아낼 수 있기 때문에 더 좋은 경우가 많음. 조심스럽게 정돈된 데이터를 갖고 대조실험과 인과관계를 조사해야 하는 경우도 여전히 있을 것임. 약물의 부작용을 테스트하거나 비행기의 주요부품을 설계할 때처럼 말이다. 하지만 많은 일상적 용도에서는 이유가 아니라 결론을 아는 것으로 충분. 또 빅데이터가 찾아낸 상관성은 인과관계를 탐구해서 결과를 얻기 위한 방향을 제시할 수도 있음.

 

'경영' 카테고리의 다른 글

중국사람 바로알면 비즈니스 확 풀린다  (0) 2014.10.19
중국을 움직이는 7가지 비즈니스 코드  (0) 2014.10.18
상인의 생각  (0) 2014.10.18
마케팅 기호학  (0) 2014.10.18
공개하고 공유하라  (0) 2014.10.18
Posted by dalai
,