- 이 책은 나심 니콜라스 탈렙이 쓴 책에 대한 좋은 반론이라 할 수 있음. 블랙스완을 비롯한 그의 책들은 복합적인 사건들이 임의성과 본질적인 예측불가능성을 갖기 때문에 그것을 예측하고자 하는 노력은 필연적으로 실현 불가능하다고 주장. 물론 일부 사건들은 분명히 예측의 범위 밖에 존재하는 블랙스완과 같다는 점에서 탈렙이 옳다. 그러나 대부분의 인간행위는 상당히 규칙적이고 예측가능하다. 시겔이 제공한 많은 성공적 예측사례들은 대부분의 백조가 하얗다는 것을 우리에게 상기시켜준다. 시겔은 또한 빅데이터 유행의 감언이설에 넘어가지 않는다. 물론 그가 언급한 사례들 중 일부는 전통적 관계형 데이터베이스로 관리하기에는 너무 크거나 비정형적인 빅데이터의 범주에 속할 수 있다. 그러나 예측분석의 핵심은 당신이 다루는 데이터의 상대적 크기나 비규칙성이 아니라 당신이 그것으로 무엇을 하고자 하는가에 있다.
- 예측분석은 컴퓨터 과학과 통계학에 근거를 두고 있으며, 각종 학술대회나 대학에서는 독립된 학문으로 대두되고 있다. 한편으로 예측분석은 과학의 한 분야를 넘어서서 현실 속에서 강력한 영향력을 행사하는 하나의 흐름이 되고 있다. 예측분석은 전망과는 완전히 다르다. 전망은 거시적 차원에서 집합적 예측을 한다. 경제가 어떻게 될 것인가? 어느 대통령 후보가 오하이오에서 더 많은 표를 얻을 것인가? 네브라스카 주에서 다음달에 아이스크림이 얼마나 팔릴지에 대한 합계숫자를 추산하는 것이 전망이라면, 네브라스카 주민들 중 어떤 개인이 손에 아이스크림을 들고 있게 될 가능성이 가장 높은가를 말해주는 것은 예측분석이다. 의사결정을 데이터에 근거하여 내리며 한사람의 직관에 덜 의존하는 추세가 늘어나고 있는데, 예츠분석은 이러한 추세를 선도하고 있다. 이와 같은 사실 중심의 영역에 들어서면 데이터분석, 빅데이터, 비즈니스 인텔리전스, 데이터 과학 같은 유행어들이 당신을 당황스럽게 할 것이다. 예측분석은 이런 단어들을 통칭하는 말이기도 하다.
- 오라일리 출판사 부회장 마이크 루카이즈가 언젠가 말했듯이 "데이터 과학은 포르노와 같다. 당신은 그것을 봐야지 그것이 무엇인지 알 수 있다." 또 다른 용어인 데이터 마이닝은 종종 예측분석의 동의어로 사용되지만 데이터를 이런저런 방식으로 파고든다는 은유적 표현으로 묘사하므로 대체로 더 폭넓은 의미로 사용됨
- 사람들은 만병통치약을 찾는다. 사람들은 모두를 치료할 수 있는 딱 하나의 비방을 찾는다. 19세기부터 20세기 대부분에 이르기까지 모든 과학은 보편적인 것에 집착. 심리학자, 의학자, 경제학자들은 우리 모두의 행동을 결정하는 규칙을 찾아내는 데 관심이 있었다. 그런데 이제는 상황이 바뀌었다. 지난 10년 내지 15년 동안 과학분야에서 일어난 위대한 혁명은 보편성의 추구로부터 다양성의 이해로 옮겨간 것이다. 이제 의학분야에서 우리는 단지 암이 어떻게 발생하는지에 대해서 아는 것을 원치 않음. 우리는 당신의 암과 내 암이 어떻게 다른지 알고 싶어함. 의료 이슈에서부터 소비자 선호에 이르기까지 이제 개인화는 보편성을 이기고 있고, 광고에서도 마찬가지다
- 언젠가 때가 되면 거래에 관한 정보는 거래 자체보다 더 중요해질 것이다. (월터 리스턴, 시티그룹 전 회장)
- 한 기업이 알게 된 내용이 중요한 것이 아니라 그것과 관련하여 어떤 행위를 하는가가 중요. 새롭고 강력한 데이터로부터 추론하는 것은 그 자체로는 범죄가 아니지만 책임성이라는 부담을 지게 만듬. 타깃 쇼핑몰은 임신 예측을 누구에게도 발설하지 않으면서 그것으로부터 어떻게 이득을 볼 수 있는지를 알고 있다. 하지만 어떤 마케팅부서든 뜻밖에 비슷한 의학적 데이터를 얻게 된다면 반드시 책임감을 갖고 프라이버시를 보호하는 한편 이러한 데이터가 보관되어 있는 부서나 시설에 대한 보안을 강화해야 한다는 것을 깨달아야 한다. 당신이 만들었으니 당신이 관리하라! 예측분석은 한창 번성하고 있는 중요한 과학이다. 당신의 미래행위를 예언하고 당신의 의도를 드러내주므로 그것은 매우 강력한 도구인 동시에 오용될 수 있는 심각한 가능성도 가짐. 그것은 지극히 조스레 다루어져야 함. 이 세상에서 예측분석이 자리매김할 지위에 대한 우리의 집단적 합의는 우리가 정보화 시대에 완전히 진입해 들어감에 따라 겪는 거대한 문화적 변화에 있어서 핵심이유라고 할 수 있다.
- 불확실성을 마주하게 되었을 때 모든 인간들이 하게 되는 딱 한가지 일이 있다. 그것은 물러서고 취소하고 몸을 사리는 것이다. 그리고 그것은 경제활동이 아래로 곤두박질 치게 되는 것을 의미한다. (앨런 그린스펀)
- 데이터는 새로운 석유이다. 종종 그것은 금세기 최고의 재산이자 기업의 가장 중요한 전략적 자산으로 간주된단. 유럽연합 소비자위원회 위원장 메글레나 쿠네바를 비롯한 몇몇 리더들은 이것을 새로운 석유라고 불렀으며, 또한 이를 디지털 세계의 새로운 화폐라고도 불렀다. 이것은 과장된 말이 아니다. 2012년에 애플은 세계에서 제일 큰 석유회사인 엑슨모빌을 추월하여 세계에서 가장 가치 있는 공개상장회사가 되었다. 석유와 달리 데이터는 운반하기가 엄청 쉬우며 저장하는 데 드는 비용이 매우 싸다. 그것은 분출하는 거대한 온천과 같다.
- 예측은 작은 것에서 시작한다. 예측분석을 하기 위해서 사용되는 예측변수에는 어떤 것들이 있을까? 예를 들어 한 개인이 가장 최근에 구매행위를 한 시점으로부터 몇주가 지났는지를 숫자르 표현하는 최근성(recency)이라는 변수는 머지 않은 미래에 그 사람이 그 일을 다시 할 가능성이 얼마나 되는지를 종종 나타낸다. 마케팅 접촉이든 범죄수사든 가장 최근에 활동적이었던 사람부터 주목하는 것이 합리적이다. 마찬가지로 한 개인이 그 행동을 몇번이나 했는지를 가리키는 빈도(frequency)라는 변수 또한 많이 사용하는 척도. 어떤 행위를 자주 한 사람은 그 행위를 또다시 할 가능성이 높음. 사실상 한 사람이 과거에 무엇을 했는지가 아니라 그 사람이 미래에 무엇을할지 예측하게 해준다. 과거에는 지역이나 성별과 같은 무미건조하면서도 핵심적인 인구학적 특징을 많이 사용한 반면에 예측분석은 이를 더 확장하여 최근성, 빈도, 구매, 금융활동, 통화 및 웹서핑 등 행위예측변수를 포함하는 데이터를 섭취한다. 상당수의 경우 이러한 행위들은 가장 가치있는 데이터이다. 우리가 예측하고자 하는 것은 항상 특정한 행위이며, 실제로 행위가 행위를 예측하게 해준다. 장폴 샤르트르가 말했듯이 "한 사람의 행동이 그의 진정한 자아를 말해준다." 예측분석은 수십개의 예측변소를 결합함으로써 이루어짐. 한 개인에 대해서 알고 있는 모든 것을 컴퓨터에게 알려주고, 그것이 알아서 하게 내버려두라. 이런 요소들을 결합할 줄 아는 핵심인 기계 학습 테크놀로지야말로 진정한 과학적 마술이 일어나는 무대이다.
- 과거와 현대의 경계를 가르는 혁명적 사고는 바로 리스크를 다룰 줄 알게 되었다는 것이다. 거기엔 미래란 단순히 신들의 변덕이 아니며, 사람들이 자연에 순응하는 것은 아니라는 뜻이 담겨 있다. 인간이 이러한 경계선을 넘어설 방법을 발견하기 전까지는 미래란 단지 과거의 거울이었거나 예언자나 점쟁이의 음산한 영역에 불고했다. (피터 번스타인, 신들에 맞서서_리스크에 대한 놀라운 이야기)
- 예측 모델의 성능을 비교하는 하나의 측정치가 있다. 일명 향상도(lift)라고 한다. 향상도는 널리 쓰이는 측정기준으로 일종의 예측승수라고 할 수 있는데, 모델을 적용하지 않았을 때와 비교해서 어떤 특정한 모델을 적용했을 때 얼맘나 더 많은 목표고객을 파악해 낼 수 있는지를 알려준다. 은행의 관점에서 예측의 가치를 생각해보자. 각각의 조기상환은 수익성 있는 고객 한명을 잃는 것과 같다. 고객관리 부서에서는 이를 더 다양하게 지칭하는 데, 일명 고객손실, 갈아타기, 이탈이라고 부른다. 고객손실을 예측하는 것은 고객을 유지하기 위한 타겟 마케팅 활동을 설계하는 데 도움이 됨. 고객이탈을 방지하기 위해 보상을 제공하는 것은 비용이 많이 들기 때문에 은행은 매우 정밀하게 타겟고객을 정해야 함
- 은행이 부동산 담보대출 고객 중에서 10%를 잃을 것이라고 가정해보자. 예측모델이 없다면 이탈가능 고객을 접촉하는 유일한 방법은 부동산 담보대출 고객 모두를 접촉하는 길뿐이다. 만약 마케팅 예산이 적게 배정되어 5명의 부동산 담보대출 고객 중 1명만 접촉할 수 있는 예산밖에 안될 때 예측모델이 없으면 무작위로 추출하는 수밖에 없다. 그렇게 되면 머지않아 이탈할 고객 중에서 20%밖에 접촉할 수 밖에 없을 것이다. 반대로 정확한 예측모델이 있으면 점쟁이가 없어도 훨씬 효과적으로 타겟을 정할 수 있다. 의사결정 나무 모델을 통해 가장 리스크가 높다고 점수 매겨진 20%의 고객을 찾아내었는데, 그 안에는 예상 이탈자 중 60%가 포함되어 있었다면 이는 예측모델이 없을때와 비교해 300%나 더 많이 포함된 것이므로, 우리는 이 모델이 20% 기준에서 3배의 향상도를 갖고 있다 말할 수 있다. 동일한 마케팅 예산으로 이탈 예상고객을 방지할 수 있는 가능성이 전보다 3배나 높아진 것이다.
- 대부분의 학습방법론들은 하나의 우수한 예측모델을 탐색한다. 하나의 사소하고 단순하며 종종 어리석어 보이는 모델로부터 시작해서 그것을 마치 유전자 변형을 일으키듯이 반복적으로 그것을 미세조정하여 결국 강력한 예측장지로 진화시킨다. 의사결정 나무의 경우에 이러한 과정은 작은 나무로 시작해서 그것을 키워나가는 것이다. 반면에 가장 수학적 공식에 기반한 방법론들의 경우엔 임의의 변수를 취하는 임의의 모델로부터 시작하여 이 공식이 제대로 예측할 때까지 변수들을 이리저리 반복적으로 조금씩 조정한다. 그리고 모든 학습기법들에 있어서 훈련용 데이터가 매번 미세조정을 안내하게 되는데 훈련용 데이터의 목적 자체가 해당 데이터 세트에 대한 예측을 개선하도록 하기 위한 것이기 때문이다. 의사결정 나무와 경쟁하는 수학적 방법론들의 이름은 인공신경망, 로스선형 회귀, 서포트 벡터 머신, 트리넷 등이다. 기계학습의 무자비하고 끊임없는 적응 능력은 무시무시한 힘을 보여준다. 그것은 심지어 데이터 과학자가 생각없이 남겨둔 약점 또는 구멍까지도 발견하고 이용한다. 어떤 프로젝트에서 테트리스 게임 프로그램이 테트리스 조각들을 어느 위치에 떨어뜨려야 하는지 결정하는 법을 배울 수 있게 진화하도록 컴퓨터를 설정하였다. 이 시스템을 한 차례 돌리는 과정에서 우리는 우연히 목적을 거꾸로 설정해 버렸다. 그러자 이 프로그램은 게임조각들을 가능한 한 조밀하게 쌓아올리는 대신 가능한 적은 수의 조각들을 떨어뜨려 쌓음으로써 커다란 공동을 만들어냈다. 그 게임이 버그를 따라가고 있다는 것을 알아채기 전까지 우리는 이 게임을 바라보며 곤혹스러워했다. 이 사례는 쥬라기 공원에서 알을 부화시키는 과학자가 내뱉은 불길한 주문을 생각나게 한다. "생명은 스스로 길을 찾아낸다." 과잉학습의 가능성은 학습기법 및 수학적 정교함과 상관없이 언제나 존재한다. 결국 컴퓨터에게 학습하도록 명령하는 것은 마치 눈을 가린 원숭이에게 패션모델의 가운을 디자인하도록 가르치는 것과 같다. 컴퓨터는 아무것도 모른다. 컴퓨터는 데이터 속에 존재하는 의미를 전혀 이해하지 못한다. 부동산담보대출이 무엇인지, 급여가 무엇인지, 심지어 집이 무엇인지도 모른다. 숫자는 그저 숫자일 뿐이다. %나 $같은 단서들조차도 컴퓨터에게는 아무 의미가 없다. 그것은 영혼이 없는 장님 기계에 인형이 박스안에 갖혀서 매일매일 새로운 일을 기계가 멈출 때까지 계속하는 것과 같다. 예측을 우한 모델링을 하려는 모든 시도들은 일반적 원칙을 수립하고 확보한 데이터에서 잡음을 걸러내야 하는 핵심적 도전과젱 직면함. 이것이 문제의 본질이다. 학습대상인 데이터에서 설사 수백만개 또는 수십억개의 사례가 존재한다고 하더라도 미랭 맞닥뜨릴 상상 가능한 상황들이 얼마나 많은지와 비교해보면 그것은 여전히 제한적인 부분집합에 불과하다. 학습사례를 구성할 수 있는 가능한 조합의 수는 기하급수적임. 그러므로 지나칙 적은 학습과 지나칙 적은 학습사이에서 균형을 맞출 수 있는 학습프로세스를 설계하는 것은 가장 뛰어난 과학자조차도 제대로 파악하기 어렵고 신비로운 것으로 느껴진다. 이 수수께끼를 풀기 위해서는 과학보다 예술이 필요하지만 이 두가지 모두 빠질 수 없는 구성요소다. 예술은 그것을 작동하게 만들고, 과학은 그것이 작동하는 것을 증명해준다.
(1) 예술적 설계 : 연구과학자들은 종종 그야말로 멋지다고 여겨지는 창의적인 아이디어에 기초하여 기계학습이 과잉학습을 피하도록 솜씨를 부른다.
(2) 과학적 측정 : 예측모델의 성능은 객관적으로 평가된다
그러나, 2번단계에서 어떠한 평가방법을 충분하다고 할 수 있을까? 만약 우리가 기계학습의 설계를 완전히 믿을 수 없다면 그 성능에 대한 측정을 어떻게 믿을 수 있겠는가? 물론 모든 예측이 현실이 될 때까지 기다리면야 온전하게 평가받을 수 있다. 그러나 우리는 성능을 측정할 수 있는 즉각적인 수단이 필요하다. 그래야만 과잉학습이 발생하게 되었을 때 그것을 탐지하고 학습과정을 수정하여 다시 전단계로 돌아가 다시 시도할 수 있다.
- 기계가 제대로 학습되었는지 검증하려면...진정한 학습인지 검증하기 위해 화려한 수학이 필요한 것은 아니다. 모델을 검증하기 위해서 일부 데이터를 떼어 놓아라. 먼저 데이터를 무작위로 선택하여 별도로 테스트용 세트로 격리시킴. 그런 다음 데이터의 나머지 부분만을 훈련용 세트로 하여 모델을 만듬. 그렇게 하여 만들어진 예측모델을 갖고 검증용 세트를 대상으로 평가. 검증용 세트는 이 모델을 만드는 데 사용되지 않았기 때문에 해당 모델은 검증용 세트의 내밀한 특성이나 편향을 미리 파악할 방법이 없다. 이 예측모델은 그러한 특성을 대상으로 한 예측이 얼마나 효과적이었는지가 이 모델이 일반적으로 얼마나 효과적일지를 측정하는 합리적 방법이다. 예측모델을 평가하는 데 있어서 이런 검증용 세트는 편향적이지 않다고 말할 수 있다. 수학이론도 필요없고 첨단과학도 필요없는 우아하면서도 현실적인 해결책인 것이다. 예측모델의 검증은 항상 이렇게 이루어진다. 이는 매우 일반화된 방식이다. 모든 예측 모델링 소프트웨어 도구는 검증용 데이터를 별도로 떼어놓고 그것으로 평가하는 기능이 내재되어 있다. 또한 모든 학술지 게재 논문들은 검증용 데이터를 통한 예측성능 평가결과를 보고한다. 하지만 이런 접근방식에도 단점은 있다. 요컨대 검증용 세트에 포함된 사례들로부터 학습할 수 있는 기회를 포기하고 원래의 전체 데이터 세트보다 작은 훈련용 세트만 갖고 모델을 생성하게 된다는 점이다. 일반적으로 이것은 전체 훈련용 데이터 중에서 검증용 데이터로 격리되는 20~30%의 손실을 의미. 그러나 훈련용 데이터는 대부분 충분히 커서 검증용 데이터를 포기한다 해도 그것은 성과의 측정을 위해 치르는 작은 대가에 불과하다.
- 대리석 덩어리를 볼 때면 내 앞에 자연스럽게 서 있는 듯한 인물상들이 보인다. 그 인물은 자세와 행위를 완벽하게 취하고 있다. 나는 단지 이 사랑스러운 환영을 가두고 있는 거친 장벽들을 깎아내어 내 눈에 보이는 것처럼 그것이 다른 사람의 눈에도 보이도록 하는 일을 할 뿐이다 (미켈란젤로)
- 메타학습 : 두개 이상의 예측모델을 결합하는 것은 간단하다. 그것들을 어떻게 결합하는 것이 좋을지에 대해서 학습하는 예측모델링을 적용하면 된다. 각 모델 또한 기계학습으로부터 나온 것이므로 이런 행위는 학습한 것을 토대로 학습하는, 즉 메타학습이라 할 수 있다. 실제로 경쟁자가 아닌 협력자가 된 이들은 서로 매우 다른 방향으로 발전시켜 온 두개의 독특하고 복잡한 모델들을 결합하려고 애써 노력할 필요가 없었다. 이 모델들의 이론과 테크닉을 비교하고 대조하기 위해서 고심하고 파고드는 대신에 대혼돈 팀의 멤버인 안드레아스 퇴셔는 예측모델링이 알아서 혼합하도록 놔두었다고 말했다. 그들은 기존 두 모델 위에서 마치 관리자처럼 행동하는 새로운 모델을 훈련시켰다. 이 새로운 앙상블 모델은 각 사례별로 두 모델의 예측들을 서로 비교했다. 이렇게 함으로써 이 앙상블 모델은 어떤 사례들이 각 모델의 약점인지를 예측하도록 훈련받는다. 두 모델이 일치하는 사례도 많지만, 일치하지 않는 경우에는 두 모델을 하나로 통합하는 과정에서 성능을 개선할 기회가 생긴다. 이로 인해 넷플릭스 상금 콘테스트의 게임규칙에 변화가 생겼으며 팀들간의 합병과 혼합이라는 새로운 돌풍이 불었다.
- CART 의사결정 나무의 발명자인 놀라운 4인조 중 한 명인 레오 브레이먼은 앙상블 모델에서 중요한 방법론 중 하나인 자루담기(bagging, bootstrap aggregating)를 개발. 한자루 가득 모델을 만들어내는 것이다. 이 자루안에서 각 모델은 서로 예측성능을 비교하여 우위를 가린다. 각 모델들은 하나의 핵심적 특성을 지니고 있다. 이를 다른 말로 하면 다양성으로 표현할 수 있다. 즉 각 모델들은 서로 다른 데이터 하위집합을 토대로 모델을 구축함으로써 다양성을 보장한다. 이들 데이터 하위집합들은 어떤 경우에는 무작위로 일부 데이터만을 선택하여 복제한 후 모델을 생성하고 나머지 데이터에 대해서는 완전히 무시함으로써 모델의 학습 프로세스에 더 강력한 영향을 발휘함. 많은 CART 의사결정 나무들을 모아놓은 자루담기의 한 변형은 이러한 무작위적 요소를 반영하여 무작위 숲이라고 불린다. 모델들을 한데 모아서 투표하게 한다는 아이디어는 말 그대로 단순하면서도 우아하다. 실제로 동일한 주제의 다양한 변주곡들인 다른 앙상블 방법론들은 모델 버킷, 번들링, 전문가위원회, 메타학습, 축적된 일반화, 트리넷 등 서로 비슷하면서도 의미가 분명한 자기만의 이름을 가짐. 건물을 짓든, 교량을 건설하든, 아이폰의 운영체제를 만들든, 구성요소들을 조합하여 더욱 복잡하고 강력한 하나의 구조로 만든다는 개념은 엔지니어링의 핵심이다. 어느 누구도 거대한 구조물 전체를 단번에 설계하려고 하지 않으며 또 그렇게 할수도 없다. 계층화된 부분드르이 조합이 건축설계를 가능하게 만들어준다. 구조물의 각 레벨은 설계 후 단순한 유닛들을 이어붙인 것이다. 물론 실제로 열어보면 그 안은 복잡다단하지만 말이다.

'경영' 카테고리의 다른 글

설득의 배신  (0) 2016.01.23
작아서 더 강한 기업 스즈키  (0) 2016.01.17
승자의 편견  (0) 2016.01.10
전략적 제휴  (0) 2016.01.10
사장의 생각  (0) 2015.12.10
Posted by dalai
,