- 일본의 건설 장비업체 고마츠는 건설 현장에서 사용되는 굴삭기에도 센서를 달아 판매하는데, 이상이 생기면 유지 보수를 해줌으로써 소비자들의 좋은 반응을 얻고 있다. 그런데 이와 같은 센서를 이용해서 고마츠는 다른 정보도 획득한다. 전 세계에 팔린 고마츠 굴삭기가 10만 대 정도 되는데, 여기에도 GPS가 있어서 판매된 모든 굴삭기가 언제 어느 정도 이용되는지 현황을 파악할 수 있다. 가령 지금 시베리아 쪽에서는 하루에 열 시간씩 일한다는 것, 중국에서는 밤낮 없이 기사를 바꿔가면서 24시간씩 일한다는 것, 한국에서는 주로 쉬고 있다는 것 등을 모두 파악한다.이로써 전 세계의 건설 경기 현황을 간접적으로 들여다볼 수 있는 것이다. 지금은 수많은 산업현장에서 그야말로 모든 것이 수치로 데이터화되고 있다.
- 중국 정부는 전 국민의 얼굴 사진을 확보한 것으로 알려졌는데, 인도는 실제로 세계에서 가장 큰 홍채 데이터베이스를 가지고 있다. 문맹률이 높은 인도에서는 극빈자들에게 지급하는 정부 보조금을 중간에 누군가가 신분증을 도용해 대신 받아 가는 문제가 있었다. 이를 막기 위해 인도 정부가 나서 전 국민의 홍채 사진을 확보해 신분증에 넣었고, 홍채가 확인되어야만 보조금을 지급하도록 한 것이다.
- 미국의 어떤 은행은 대출받는 이유를 글로 쓰게하고 그 글에 등장하는 단어를 분석해 대출 신청자가 돈을 잘 갚을 사람인지, 못 갚을 사람인지를 추정한다. 해당 은 행이 발견한 인사이트는 다음과 같다. 대출금을 잘 갚는 사 람들은 금리', '금리 차이' 등의 단어를 많이 사용했고, 잘 갚지 못하는 사람들은 절대로', '죽어도', '반드시', '하나님 께 맹세'와 같은 단어나 구문들을 많이 사용했다. 약속을 지키지 못하는 사람들이 어떻게라도 대출을 받으려고 과장된 모습을 보인 것이다
- 에어컨을 사용하는 소비자의 관심은 온도 조절 기능과 전기요금, 딱 두 가지다. 여름에 저렴한 전기요금으로 시원 하게 지내고 싶을 뿐, 기계 자체에는 사실 관심이 없다. 데 이터 분석을 통해 얻은 인사이트는 건물 에너지 관리실에 제공될 수도 있고, 아니면 아예 제조사가 인사이트를 기반 으로 서비스를 판매하고 관리를 맡을 수도 있다. 여기서도 80대20' 파레토 법칙이 성립한다. 전체 20퍼센트의 방에 서 전체 소비 에너지의 80퍼센트를 사용하기에, 해당 20퍼 센트 방을 찾아내면 에너지 효율을 획기적으로 올릴 수 있 다. 이때 모든 답은 실내기 데이터에 들어 있다. 일본의 '다이킨'은 에어컨 분야에서 세계 최고의 기술력 을 보유한 회사로서 시스템 에어컨이라는 개념도 이 회사 에서 만들었다. 그런데 다이킨이 최근에 실외기와 실내기 조합의 기계가 아닌 서비스를 판매하기 시작했다. 건물주 와 맺은 계약 내용은 이렇다. “우리가 이 건물을 전기요금 포함 월 얼마의 사용료에 1년 내내 22도에서 25도 사이로 유지해주겠다.” 건물주 입장에서는 기계 제품의 유지 및 보수 문제에 따로 신경 쓸 일이 없다. 실내기와 실외기 설 치에 관련된 모든 결정을 다이킨에서 알아서 하는 것이다.
- 하라스라는 라스베이거스의 오래된 카지노는 단골 회원 고객의 개개인에 대한 고통 커브 pain curve'를 추정해서 데이터로 가지고 있다. 오른쪽의 고통 커브 그래프를 보면, 가로축은 고객이 1회 방문 시 잃은 돈이고 세로축은 미래에 재방문할 확률이다. 여기서 재방문 확률 값은 일정하게 높이 유지되다가 어느 지점을 지나가면 급격히 감소하게 된다. 이 시점을 고통 포인트라고 한다. 물론 이 고통 포인트는 회원마다 다르다. 어떤 회원은 한 번에 100만 원을 잃어도 재미있었다고 생각할 수도 있고, 어떤 회원은 10만 원만 잃어도 너무도 실망하고 기분이 상하여 다시는 돌아오지 않을 수도 있다. 누구나 큰돈을 잃으면 다시는 안 돌아오겠지만 조금만 잃으면 대개는 돌아온다. 단지 큰돈과 작은 돈의 기준이 개인마다 조금씩 다른 것임. 여기서 하라스 카지노가 원하는 것은 후자의 사람들임. 한 번 와서 1000만원 잃고 평생 안 돌아오는 손님보다 주말마다 와서 매달 50만원씩 잃고 가는 손님을 원함. 그래서 하라스는 단골 손님이 입장하여 베팅을 시작하면 그 회원이 잃은 돈을 실시간 모니터링 하다가, 잃은 돈의 액수가 고통 포인트에 접근하면 더 이상 잃지 못하도록 도박 자체를 못하게 슬쩍 방해함. 직원을 시켜 음료수를 제공한다거나 디너 쇼 티켓을 서비스로 주면서 그 순간 흥분된 회원의 심리상태를 식혀줌. 그러면 게임에 몰입해 이성이 잠시 마비되어 있던 회원은 제정신을 차리고 현재 자신이 잃은 돈의 액수를 인지하고 그만 떠나게 된다. 물론 적절한 금액만 잃었으므로 그 고객은 다음 주에 다시 올 것이다.
- 소비자들의 말과 실제 행동이 다르다는 것은 여러 데이터로 알 수 있는 사실이다. 따라서 마케팅 전문가 들은 더 이상 소비자들에게 묻지 말아야 한다. 리서치업체 는 소비자들에게 무엇이 불만인지, 무엇을 원하는지, 신제 품을 구매할 것인지, 신제품의 가격이 얼마면 살 것인지 등 을 끝없이 묻는다. 이때 소비자가 하는 대답은 사실과 다른 경우가 허다하다. 정답을 말하기가 부담스럽기도 하고 본 인의 마음을 제대로 이해하지 못하기 때문이다.이제 소비자는 물어볼 대상이 아니라 관찰의 대상이다. 묻지 말고 관찰해야 한다. 그들의 글과 행동을 관찰해야 한 다. 그것이 훨씬 정확한 예측을 가져온다. 마케팅에서의 소비자 연구, 그 답은 소비자의 입이 아닌 행동에 있다.
- 제록스는 애널리틱스를 동원 해서 조기퇴사하는 사람들에 대한 특징들을 찾아냈다. 우 선 회사에서 멀리 거주하며 확실한 교통수단이 없는 사 람 가운데 조기퇴사자가 많았다. SNS 활동이 전혀 없거나 5개 이상의 소셜네트워크를 가진 사람들의 조기퇴사 가능 성도 매우 높았다. 또한 성격 검사에서 드러난 특징도 있다. 첫째, 궁금한 것이 너무 많은 타입 inquisitive type 이다. 예컨대 주변 사람들의 근황까지도 자신이 모든 것을 다 알아야 하는 사람들, 이것 저것 끊임없이 물어보는 사람들 가운데 조기퇴사자가 많았다. 둘째, 공감을 너무 잘하는 사람, 그리고 셋째, 창의력 이 낮은 사람들 가운데서도 조기퇴사자가 많았다. 이제 각각의 성격 유형에 대해 왜 이런 결과가 나왔는지 유추해보기로 하자. 궁금한 것이 너무 많은 성격의 직원은 퇴근 후 집에 가서 잠자리에 들어서도 호기심이 멈추지 않을 수 있다. 3시에 전화한 사람이 왜 자신에게 욕을 했는지 궁금함이 뇌리를 떠나지 않으면서 남들보다 더 스트레스 를 받지 않았을까 추정해볼 수 있다. 또한 과도한 공감 능 력을 가진 상담원은 지나치게 공감하다 보니 감정 노동이 너무 심해져서 힘들어지는 것이 아닐까 싶다. 끝으로 창의 력이 좋은 사람은 고객이 안 좋은 말을 해도 그걸 창의적으 로 해석해서 본인이나 제록스사의 문제가 아닌 전화를 걸 어온 고객의 문제로 보는 게 아닐까? 단지 고객이 이상한 사람이라서 그럴 것이라고 매우 창의적으로 치부하는 능 력이 뛰어난 것이 아닐까? 이러한 해석은 맞을 수도 있고 맞지 않을 수도 있다. 중요한 것은 우리가 데이터를 통해 도출한 인사이트는 상관관계만 밝혀진 것이라는 사실이다. 즉 인사이트는 상관관계다. 여기에서의 의미는 이런 저런 특징을 가진 사람들의 퇴사율이 훨씬 높다는 것으로, 그 이상도 이하도 아니다. 해당 특징이 직접적인 원인이 될 수도 있고 아닐 수도 있 다. 즉 인과관계가 있는지 없는지의 여부는 알 수 없다.
- 데이터마이닝은 금광에서 금을 캐는 것에 비유되기도 한다. 만 약 금광 안의 금 매장량이 100톤이라고 한다면 어떤 방법 을 써도 그곳에서 200톤의 금이 나오는 것은 불가능한 일 이다. 100톤을 다 캐내면 끝이다. 데이터도 그와 마찬가지 다. 데이터도 그 데이터가 포함하고 있는 잠재적인 인사이 트 양이 어느 정도인가에 따라 최대로 잘했을 때 그만큼의 인사이트가 도출되는 것이다. 따라서 제록스에서 이력서와 성격 검사 데이터만으로 20퍼센트의 조기퇴사자를 예방할 수 있었던 것은 괜찮은 성적이라고 할 수 있다. 실제 상황에서의 판단 기준은 20 퍼센트가 아니다. 중요한 것은 데이터를 모으고 분석하는 데 드는 비용과 20퍼센트의 조기퇴사 감소를 금액으로 환 산했을 때 절감되는 비용, 즉 편익을 비교해보는 것이다.
- 업이 투자자 회의 일시를 공표하고 전화할 곳을 알려주면 기업의 분기별 실적 전화 대 화가 시작된다. 그리고 전화 대화가 끝난 후 이 소식이 알 려지면 그때부터 주가가 움직이기 시작한다. | 이때 CEO와 애널리스트들이 무슨 대화를 나누었는지 를 자연어 처리 기술을 이용해 텍스트를 분석한다. 과연 CEO가 내년에도 실적이 좋을 것이라고 했는지, 아니면 약간 떨어질 수도 있다고 했는지 그 말을 컴퓨터에게 분석하도록 해서 주가를 예측하고자 한 것이다. 애널리스트들이 어떤 질문을 던지느냐 또한 CEO의 답변 못지않게 중요하다. 그 질문을 통해 일반인들이 잘 모르는 기업의 내밀한 사정을 알 수 있기 때문이다. 예를 들어 “내년에 경쟁사가 중국에 공장 20개를 더 짓는다고 하는데, 과연 버틸 수 있을까요?”라고 물어보는 것 자체가 매우 비 관적인 정서를 포함하고 있다. 질문의 정서가 중요한 인사 이트다. 어떤 연구팀은 목소리도 분석했다. 애널리스트가 “내년에는 실적이 안 좋겠죠>" 라고 물어볼 때 CEO가 편안한 목소리로 "그럴 리가 없다"고 하는지, 아니면 갑자기 흥분해서 말이 빨라지는지 그 음성을 분석한다. CEO의 말이 빨라지거나 돈이 올라간 경우, 주가가 떨어지는 경우가 많다고 한다. CEO가 보통 사람들은 도저히 알아들 수 없는 어려운 용어를 쓰면서 설명하는 경우에도 주가가 떨어지는 예가 많다는 것을 발견했다. 안 좋은 상황을 인정하기 싫어서 어려운 말과 복잡한 표현으로 적당히 피하려는 것이다.
- 이미지 데이터로부터 인사이트를 도출한다는 것은 해당 이미지에 어떠한 물체가 들어 있는지, 이들 간의 위치관계는 무엇인지, 색은 무엇인지 등을 이해하는 것임. 컴퓨터 비전 분야 전문가들은 이를 두고 이미지에 대한 표현을 도출한다고 한다. 과거 수십 년간 이 분야는 정말 많이 연구되었다. 특히 통계적 패턴 인식 분야는 매우 성공적이었고, 오늘날의 애널리틱스에도 많은 영향을 주었다. 방법은 이렇다. 사람 얼굴 이미지가 주어지고 이 얼굴의 주인공이 남자인지 여자인지 분류하는 문제를 생각해보자. 이를 해결하기 위해서는 1단계에서 눈, 코, 입 부분을 찾아내고, 2단계에서 각 부위의 크기, 각도, 상대적 위치 같은 소위 특징점을 도출한 후, 3단계에서 도출된 특징점들의 조합으로 최종 판정함. 이때는 딱히 기호주의라고 할 수는 없으나 사람얼굴, 남녀 얼굴의 차이에 대한 깊은 지식이 필요함. 그런데 만일 남녀 구분이 아니라 지문 인식이라면 어떻게 되겠는가? 3단계는 동일하겠지만 1,2 단계는 완전히 달라진다. 또는 항공기의 종류나 나무의 종류를 구분하는 것이라면? 매번 1,2 단계는 완전히 달라짐. 즉 이와 같은 접근방식의 어려운 점은 문제가 달라질 때마다 매버 분석가가 해당 분야 전문가를 찾아가서 특징점이 무엇이어야 하는지를 물어보고 그 사람의 머릿속에 들어 있는 암묵지를 발굴해 내야 한다는 것. 왜냐하면 보통의 사람이라면 이미지의 주인공이 남자인지 여자인지 인식은 하지만 자신이 어떻게 인식하는지 명제로 설명할 수 없기 때문. 하지만 최근에 빅데이터가 등장하면서 1,2 단계를 거치지 않고 곧바로 3단계로 가는 방식을 취하게 되었다. 즉 입력으로 넣고 직접 분류하는 것이다. 거대한 다층 퍼셉트론을 딥러닝으로 학습. 이 방법의 장점은 1,2 단계가 생략되었으므로 전문가와 의논해서 특징점을 고안해야 할 필요가 없다는 점. 사람얼굴이든 지문이든, 비행기든 나무 종류든 3단계로만 해결한다. 빅데이터만 있으면 마치 만병통치약처럼 여러 문제가 유사하게 해결되는 것이다
- 빅데이터 분석의 최종목표는 인사이트가 아니다. 최종목표는 가치만들기임. 따라서 그냥 눈앞에 있는 구하기 쉬운 데이터를 갖고 무작정 분석해서 인사이트를 도출하고, 이를 의사결정자에게 던져주는 접근법은 100% 실패함. 미리 어떠한 가치를 위해 어떠한 인사이트가 필요한지 가르쳐주지 않고 그저 데이터만 주면서 뭐든지 분석해보라고 하는 것은, 셰프에게 무얼 먹고 싶은지 말하지 않고 그냥 내가 맛있게 먹을 수 있는 것을 만들어오라고 하는 것과 같다. 실패확률 100%다.

 

'IT' 카테고리의 다른 글

빅나인  (0) 2020.05.10
최신 인공지능 쉽게 이해하고 넓게 활용하기  (0) 2020.02.23
프레디쿠스  (0) 2020.02.17
인공지능이 나하고 무슨 관계지  (0) 2020.02.17
당신은 데이터의 주인이 아니다  (0) 2020.02.08
Posted by dalai
,