- 2008년, 그리고 2012년 이후 미디어 기업들은 데이터 과학 팀을 조직하고 여론조사에 큰돈을 투자하고 좋은 데이터를 확보하기 위해 많은 비용을 지출했다.
하지만 그렇게 많은 시간과 돈, 노력을 들이고 교육에도 투자했지만 무 슨 일이 일어났던 것일까?
우리의 가설과 견해
왜 그런 문제가 발생했을까? 우리 저자들은 문제 자체의 어려움, 비판적 사 고 결여, 잘못된 의사소통이라는 세 가지 이유를 꼽아본다.
첫째, 앞서도 말했듯이 데이터는 복잡하다. 데이터에 관한 문제는 대부분 근본적으로 어렵다. 설사 가장 명석한 분석가가 방대한 데이터를 확보해서 적절한 도구와 분석 기법으로 작업하더라도 실수를 피하기 어렵다. 예측이란 항시 틀릴 가능성이 존재하는 것이고 실제로도 틀린다. 데이터와 통계학에 대한 단순한 비방이 아니라, 이것이 바로 현실이다.
둘째, 일부 분석가와 관련자들은 데이터 문제에 대한 비판적 사고를 멈 춰 버렸다. 데이터 과학 비즈니스는 자만에 빠져 확신에 찬 단순한 청사진 을 그렸고 일부는 그런 주장을 맹신했다. 인간의 본성상, 무슨 일이 일어 날지 모른다는 사실을 인정하고 싶지 않을 수도 있다. 하지만 데이터를 제 대로 활용하고 사고하려면 언제든 잘못된 결정을 내릴 수 있다는 가능성을 인정해야 한다. 즉 위험과 불확실성에 대해 서로 소통하고 이해해야 한다. 그런데 어떤 이유에선지 이런 인식이 어느새 사라져 버렸다. 데이터와 데 이터 분석 방법에 대한 수많은 연구가 사람들의 비판적 사고를 촉진할 것 이라 기대했지만 오히려 일부 사람들에게는 비판적 사고를 멈춰 버리게 만 드는 결과를 초래했다.
데이터와 관련된 문제가 끊임없이 발생하는 세 번째 이유로는, 데이터 과학자와 의사결정권자 사이의 소통이 원활하지 않기 때문인 듯하다. 의도 치 않더라도 분석 결과는 종종 커뮤니케이션 과정에서 손실된다. 데이터 과학자들이 굳이 의사결정권자에게 데이터 해석 능력을 가르쳐 주지는 않 기 때문에 의사결정권자는 통계적 사고를 갖춘 언어로 자신의 의견을 말하 지 못한다. 솔직히 데이터 분석가들이 항상 설명을 잘하는 것도 아니다. 분 명히 양자 사이의 의사소통에는 간극이 존재한다.
- 초기 논의에서는 핵심적인 비즈니스 문제에만 집중해야 하며, 최근 기술 동향 등 불필요한 사항은 제외하도록 주의해야 한다. 기술 동향에 대한 이 야기를 하다 보면 회의의 초점이 비즈니스와 동떨어지기 쉽다. 다음과 같 은 두 가지 경고 신호에 주의해야 한다.
* 방법론 중심 논의: 이 관점을 견지하는 기업들은 새로운 분석 기법이나 기술을 도입하는 것만으로 자사를 차별화할 수 있다고 단순하게 생 각한다. "AI를 도입하지 않은 회사는 이미 시대에 뒤처진 것이다..." 같은 과장된 홍보 문구를 아마도 들어본 적 있을 것이다. 혹은 그럴 듯한 최신 유행어를 찾으려는 경우도 있다(예를 들면 '감성 분석' 같은 단어를 사용하는 등).
* 결과물 중심 논의: 어떤 프로젝트는 결과물이 무엇이 될 것인가에 과도 하게 집중한 탓에 궤도를 이탈하기도 한다. 예를 들어 인터랙티브한 대시보드를 만드는 프로젝트가 있다고 가정해 보자. 막상 이렇게 프 로젝트를 시작하면 그 프로젝트의 결과물은 그저 새로운 대시보드나 비즈니스 인텔리전스 시스템 설치에 관한 것이 돼버리고 만다. 따라 서 프로젝트 팀은 한발 물러서서 자신들이 만들고자 하는 결과물이 조직에 어떤 가치를 가져다 줄지부터 파악해야 한다.

- 중요한 문제에 집중하자
지금까지 우리는 프로젝트 실패가 근본적인 문제를 올바르게 정의하지 않 았기 때문이라고 결론 내렸다. 대부분의 경우, 이런 실패를 주로 시간이나 자금, 노력의 손실 관점에서 생각한 것이다. 그러나 데이터의 온갖 영역에 는 훨씬 더 광범위한 이슈가 놓여 있으며 여러분이 이 문제들을 모두 예상 하기란 쉽지 않다.
현재 업계의 관심은 수요 충족을 위해 최대한 많은 데이터 인력을 양성하 는 데 집중돼 있다. 그 결과 대학교, 온라인 교육 프로그램 등을 통해 비판적 사고를 갖춘 사람들이 급속도로 배출되고 있다. 데이터 업무가 온전히 진실을 밝히는 일뿐이라면 데이터 리드는 그저 그 일만 하면 될 테다.
이때 데이터 리드들이 그다지 내키지 않는 프로젝트에 착수해야 하는 상 황은 무엇을 의미할까? 자신의 기술을 경영진에게 과시할 수는 있으나 실 제로 의미 있는 문제를 해결하기는 어려운, 미처 제대로 정의되지 못한 이 슈에 시간을 쏟아야 하는 상황은 또 무엇을 의미할까?
이 이야기는 수많은 데이터 작업자들이 자신의 업무에 만족하지 못한다 는 사실을 의미한다. 모호한 성과를 목표로, 기술에 과도하게 초점이 맞춰 진 문제를 해결하도록 강제하다 보면 사람들은 이내 좌절과 환멸에 빠질 것이다. 캐글(Kaggle.com)은 전 세계의 데이터 과학자들이 데이터 과학에 대한 경연 대회를 열고 새로운 분석기법을 배우는 곳으로, 캐글 사용자를 대상으로 설문조사를 통해 데이터 과학자들이 각자 업무에서 직면하는 어려움이 무엇인지를 물었다. 이 중 몇 가지는 다음과 같이 잘 정의되지 않은 문제나 부적절한 계획과 직접적으로 관련돼 있다.
* 해법을 구하기 위한 명확한 질문의 부재 (30.4%의 응답자가 이를 경험함)
* 의사결정권자가 결과를 활용하지 않음 (24.3%)
* 각 분야 전문가가 제공하는 정보 부재 (19.6%)
* 프로젝트 효과에 대한 예측 (15.8%)
* 프로젝트에서 얻은 인사이트를 의사결정에 통합하기 (13.6%)
이런 상황이 이어지다 보면 결과는 뻔하다. 자신의 역할에 만족하지 않는 사람들은 떠날 것이다.

- 우리에게 데이터가 있다면 한번 살펴봅시다.
우리에게 있는 것이 고작 의견뿐이라면 그냥 제 의견으로 갑시다.
(제임스 박스데일(James Barksdale)/ 전(前) 넷스케이프 CEO)

- 통계적 사고란 부분적으로는 탐정처럼 의심을 품으며 대안적 관점에서 문제를 바라보는 새로운 사고 방식이다.
(프랭크 해럴(Frank Harrell)/ 통계학자이자 교수)

- 어떤 결과를 수학적으로 전개할 때 확률과 통계 두 단어를 함께 쓰지 않는 한, 이 두 단어를 맞바꿔 쓰기도 한다. 그러나 두 용어의 차이를 명확히 이해하기 위해 조금 더 깊이 살펴보자.
구슬이 들어 있는 큰 가방을 생각해 보자. 우리는 그 안에 담긴 구슬의 색 깔도 모르고 크기나 형태 또한 알지 못한다. 가방 안에 구슬이 몇 개 들어 있는지도 모르는 채 가방에 손을 넣어 한 움큼 구슬을 쥐었다.
여기서 잠시 생각해 보자. 아직 들여다보지 못한 가방 속의 구슬과 아직 펼치지 않은 주먹 안의 구슬이 있다. 가방 속 또는 주먹 안에 무엇이 있는 지에 대한 정보는 전혀 없다.
이 상황을 통해 두 용어가 어떻게 다른지 설명할 수 있다. 확률이란 가방 속에 무엇이 있는지 정확하게 파악하고서 그 정보를 이용해 손에 무엇을 움 켜쥐었는지를 예상하는 과정이다. 반면 통계란 손에 쥔 것이 무엇인지 먼 저 확인한 다음, 그렇다면 가방 속에 무엇이 있을지를 추론하는 과정이다. 즉 확률은 드릴다운drill down 방식이고 통계는 드릴업 drill up 방식이다."

- 데이터가 있고 정답을 찾으려는 간절한 욕망이 결합된다고 해서 합리적인 해답을 찾는다는 보장은 없다.
(존 터키(John Tukey)/통계학자)

-대부분 비즈니스에서는 관측 데이터가 이용된다. 관측 데이터로 인과관계를 분석해서는 안 된다. 데이터 분석 결과와 의미는 잘 설계된 실 험에서 얻은 데이터가 아니라는 전제를 깔고 제시돼야 한다. 관측 데이터 에 기반한 인과관계는 항상 회의적으로 봐야 한다.
데이터 수집 방법을 확인함으로써 인과관계를 추론할 수 없는 조건에서 인과관계를 주장하고 있지 않은지 점검할 수 있다. 잘못된 인과관계 추론은 앞으로 이 책 전반에 걸쳐 여러 번 언급할 정도로 중요한 문제다.
실험 데이터는 언제든지 사용할 수 있을 것처럼 쉬워 보이지만 매우 복 잡한 과정을 거쳐야 하고 비용 대비 효율의 문제, 심지어 윤리적인 문제도 결부되어 있어 항상 가능하지는 않다. 예를 들어, 전자 담배가 청소년에게 미치는 영향을 연구하기 위해 과학을 명분삼아 청소년을 무작위로 실험군 과 대조군으로 배정해서 치료군에게 전자 담배를 피도록 강요할 수는 없 다. 비윤리적인 행위이기 때문이다.
데이터 리드는 확보된 데이터를 사업적인 판단을 내리는 데 효과적으로 활용할 수 있어야 한다. 일부 기업이나 부서에는 엄격한 실험을 통해 관측 데이터를 추가적으로 검증할 만한 수단이 있지만 실험을 통해 해결할 수 없는 비즈니스 문제도 있다.
- 데이터가 많을수록 표본 데이터에 내재된 근본적인 문제를 극복할 수 있다 고 생각하기 쉽다. 표본이 클수록 더 신뢰할 수 있다는 생각은 통계적 사고 에 대한 오해다. 데이터를 올바르게 수집한다면 표본이 클수록 도움은 되 지만, 데이터에 편향이 존재하는 한, 데이터를 더 추가한다고 해서 문제가 해결되지는 않는다.
빅데이터에 대한 짧았던 열광은 데이터의 크기가 과학적 엄밀성을 보장 한다는 생각이었다. 데이터셋이 너무 커서 데이터와 논쟁하기가 어렵다는 생각은 금물이다. 통계에서 표본에 편향이 없다고 보장할 수 있는 절대적인 데이터 크기에 대한 기준은 존재하지 않는다. 통계는 궁극적인 분석 목표와 사용 가능한 데이터 사이에서 적절한 절충점을 선택하는 일이다.

- 데이터 과학자에게 무차별적인 정보 수집과 분석을 하라고 요구하면 틀림없이 엉터리 분석 결과가 나올 것이다.
(토마스 레드맨(Thomas C. Redman)/ 데이터 전문가, 《하버드 비즈니스 리뷰> 기고가)

- 데이터 리드는 탐색적 데이터 분석 과정을 수행해야 한다. 이 과정에서 다음과 같은 일이 가능하다.
*문제를 해결하기 위한 명확한 과정 도출
*데이터에서 확인된 제한 조건에 따라 비즈니스 문제 재정의
*데이터를 이용해 해결해야 할 새로운 문제 식별
*프로젝트 중단. 해결할 수 없는 문제에 시간과 돈을 낭비하지 않게됐다면 썩 만족스럽지는 않지만 그것만으로도 탐색적 분석은 성공 한 셈이다.

- 대부분의 사람들은 확률을 잘 모른다. 그래서 50 대 50 같은 동전 던지기,아니면 99% 같은 확실한 확률 개념만 받아들인다.
(수학자 존 알렌 파울로스(John Allen Paulos))

- 쓸데없이 확률을 곱하지 말자
과거 사건의 확률을 불필요하게 곱하지 말자. 그렇게 하면 어떤 일이든 아주 가능성 이 낮게 보이게 된다.
여러분이 이 책의 현재 글 줄을 읽고 있을 확률을 추정해 보자. 이 책의 쪽수는 368 페이지(1/368)고 한 페이지에는 약 25줄의 글(1/25)이 있다. 또한 수백만 권의 책 중 에서 이 책을 골라서 읽고 있다. 이 모든 확률을 곱하면 아주 작은 숫자를 얻는다. 여 러분과 우리 저자는 서로 운명이었음이 분명하다!

- 이 장에서 배운 지식은 확률이 걸린 결정을 내릴 때 추가적 으로 어떤 정보를 확인해야 할지에 관한 힌트를 준다. 특히 처음에 직관적 으로 생각할 때는 단순해 보였지만 지금은 의심이 가는 확률 문제를 결정 해야 할 때 더 도움이 될 것이다.
또한 사람들이 얼마나 확률을 오해하고 있는지를 알아봤다. 이런 오해는 잘못된 문제 정의나 주어진 정보에 대한 잘못된 가정으로 이어진다. 이런 실 수를 피하기 위해 확률을 다룰 때는 다음과 같은 사항을 명심하자.
*사건들이 서로 독립이라 가정할 때는 주의해야 한다.
*모든 확률은 조건부 확률임을 인지하자.
*의미가 있는 확률인지를 반드시 확인한다.

- 앵커 켄트 브록맨: "그래피티 낙서 같은 경미한 기물 파손 행위는 80%감소한 반면, 심각한 가방 날치기는 충격적이게도 900% 증가했다 는 주장을 어떻게 생각하십니까?"
호머 심슨: "아, 사람들은 모든 주장을 입증하기 위해 늘 통계를 내놓죠. 켄트 씨, 40%의 사람들이 그런 사실을 알고 있어요."
<심슨 가족>

- 데이터를 열심히 파고들다 보면, 신의 메시지를 찾을 수 있다.
(딜버트(Dilbert))

- 주성분 분석
주성분 분석은 데이터 과학자나 머신러닝 같은 용어가 비즈니스 용어로 정 착되기 훨씬 이전인 1901년에 고안된 차원축소의 한 방법으로 여전히 인 기를 누리고 있는 기술이다(잘못 이해하는 경우가 태반이지만). 이제부터 주 성분 분석에 대한 오해를 바로잡고 이 기술로 무엇이 가능하며 왜 유용한 지 살펴보자.
- 앞서 차량 도로주행 시험 데이터를 분석했을 때와는 달리 주성분 분석 알고리즘은 어떤 변수들을 결합해 복합 변수를 만들지 사전에 알지 못하기 때문에 모든 가능성을 고려한다. 몇 가지 영리한 수학적 방법으로 여러 변 수들을 조합해 새로운 차원(변수)을 만들어보고 어떤 방식의 선형 결합이 데이터를 가장 잘 분리시키는지 탐색한다. 이 과정에서 만들어지는 복합 변수 중에서 데이터를 잘 분리하는 변수를 주성분principal component(이하 PC)이 라고 일컫는다. 주성분들은 서로 상관관계를 갖지 않는 새로운 차원이 된 다. 도로주행 시험 데이터로 주성분 분석을 해 보면 앞에서 설명한 '효율’뿐 만 아니라 '성능'이라는 차원도 발견될 것이다.
- 실제 현업에서는 운동 선수 데이터 사례처럼 주성분의 특징이 명확하게 구분되지 는 않는다.
현실 데이터는 대체로 난잡하기 때문에 만들어진 주성분의 명확한 의미 를 파악하기 어려우며 각 주성분의 특징에 딱 들어맞는 이름을 붙일 수도 없다. 우리 저자들이 경험한 바에 따르면 사람들은 흥미롭고 눈길을 끄는 주성분 명칭을 붙이는 데 너무 몰입한 나머지, 존재하지 않는 데이터의 특 성을 그려 버린다. 데이터 리드라면 분석가가 제시하는 주성분의 특성과 이름을 섣불리 받아들여서는 안 된다. 이런 식으로 분석가가 이미 이름이 정의된 주성분을 제시하는 경우에는, 해당 주성분을 유도한 수식을 확인해 서 적절하게 정의된 이름인지를 점검해야 한다.
- 주성분 분석의 목적은 단지 중요하지 않거나 흥미롭지 않은 변수를 제거 하는 것이 아니다. 하지만 이런 실수를 너무나 자주 접한다. 주성분은 원 데이터의 변수를 이용해 만들기 때문에 아무것도 제거되지 않는다. 운동 선수 사례에서도 원 데이터의 모든 변수들은 그룹을 형성해 4가지 주성분 인 근력, 민첩성, 지구력, 건강상태를 새로 만들었다. 주성분 분석으로 만 들어지는 데이터는 원 데이터와 행과 열의 수가 같다. 즉 같은 크기다. 정 보가 크지 않은 주성분의 제거 여부는 분석가에게 달려 있고 절대적으로 옳은 방법은 없다. 주성분 분석 결과를 보고받으면 주성분의 수를 어떻게 결정했는지 물어봐야 한다.
- 마지막으로, 주성분 분석은 분산이 크다면 변수들 사이에 흥미롭고 중 요한 정보가 존재할 것이라는 가정에 의존한다. 어떤 경우에는 괜찮은 가 정이지만 항상 그렇지는 않다. 예를 들어 하나의 변수가 큰 분산을 가질 수 있지만 실질적으로는 중요하지 않을 수 있다. 각 선수의 출신 고향 인구 수 를 데이터의 변수로 추가한다고 가정해 보자. 이 변수의 분산이 크더라도 선수의 체력과는 아무런 관련이 없을 수 있다. 주성분 분석은 큰 분산을 중 요하게 고려하기 때문에 어떤 변수가 실제로는 중요하지 않을 때조차 중요 하다고 여길 수도 있다.

- 비지도학습은 데이터가 스스로 군집을 조직하는 방법이라고 설명했다. 처음 시작할 때도 이런 말을 했 지만 그건 말처럼 쉽지 않다는 주석도 달았다. 데이터에서 군집을 발견하 는 능력은 강력한 힘이지만 큰 힘에는 무거운 책임이 따른다는 교훈도 명 심하기 바란다.
특정한 방식으로 데이터를 분류하는 능력은 알고리즘 선택과 알고리 즘 작동 방식, 데이터의 품질, 그리고 데이터에 내재된 분산 등이 합쳐져 서 만들어내는 결과물이다. 이 말은 선택이 달라지면 다른 그룹이 만들어질 수 있다는 의미다. 솔직하게 말하면 비지도학습 또한 많은 지도가 필요하다. 컴퓨터에게 명령을 내리기만 하면 데이터가 알아서 그런 작업을 수행한다 면 문제가 없다. 하지만 여러분은 많은 결정을 내려야 한다. 

- 회귀 분석은 환상적으로 강력한 분석 도구 중 하나다.
상대적으로 사용하기는 쉽지만 제대로 잘 쓰기는 어렵다.
게다가 잘못 쓰면 위험한 방법이기도 하다.
(찰스 윌러(Charles Wheelan), 『벌거벗은 통계학 중에서)

- 머신러닝 알고리즘이 바에 들어왔다. 바텐더가 무엇을 마실 건지 묻자 알고리즘이 답했다. “다른 사람들은 뭘 마시나요?"
(쳇 하스Chet Hasse(@chethaase) / 구글 그래픽 팀 엔지니어)

- 앙상블 모델
수십 번, 많게는 수천 번 알고리즘을 실행해서 나온 다양한 예측 결과를 합친다는 의미에서 앙상블ensemble이라는 이름이 붙은 앙상블 모델은 정교 한 수준에서 의미 있는 예측이 가능하기 때문에 데이터 과학자들 사이에 서 인기가 높다.
특히 랜덤 포레스트random forest와 그래디언트 부스트 트리gradient boosted tree. 최근 데이터 과학자들이 가장 선호하는 모델로 급부상했다. 두 모델은 캐 글(Kaggle.com)에서 우승한 팀이 가장 많이 사용한 것으로도 알려져 있다. 캐글은 기업이 데이터셋을 제공하고 가장 정확한 모델을 개발한 팀에게 거 액의 상금을 포상하는 일종의 경진대회다. 

- AI는 새로운 산업혁명의 시작이라고들 한다. 딥러닝이 새로운 혁명의증기기관이라면 데이터는 이 기계에 전력을 공급하는 원료다. 데이터 없이는 그 어떤 것도 불가능하다.
(프랑소와 숄레(François Chollet). AI 연구자 겸 케라스 창시자에게 배우는 딥러닝」 저자)

- 인간의 사고 체계를 설명하기 복잡한 것처럼 신경망도 마찬가지다. 실제 로 신경망의 은닉층은 여기에서 설명한 것처럼 사람이 해석할 수 있을 만 큼의 표현(학업성취도, 경험, 업무지식)을 만들어내 못할 가능성이 높다. 게 다가 층과 뉴런이 많이 추가될수록 신경망은 훨씬 더 복잡해진다. 층과 뉴 런이 많아질수록 이해하기도 어렵기 때문에 이를 일컬어 '블랙박스 모델' 이라고 말하기도 한다.
따라서 신경망을 굳이 인간의 두뇌와 비교해 설명하는 과장된 비유 방식 에 얽매일 필요가 없다. 좀 더 실제적으로 설명하자면, 신경망은 주로 지 도학습(분류 또는 회귀)에 사용되며 입력 데이터의 새로운 표현을 발견해 예 측을 더 잘하도록 만드는 거대한 수식이라고 말할 수 있다. 
- 딥러닝 응용 사례
딥러닝이란 2개 이상의 은닉층을 포함하는 인공 신경망을 활용하는 알고 리즘 부류를 말한다(인공 신경망을 더 멋지게 브랜딩한 것이다). 신경망을 더 깊게 만든다는 아이디어(그림 12.3의 모델을 더 넓게 확장시키는 것처럼)는 은닉층을 계속 쌓고, 이전 층의 출력 값을 다음 층의 입력값으로 사용한다는 의미다. 각 층에서는 데이터를 새롭게 추상적으로 표현하고 입력 데이터셋 으로부터 미묘한 피처를 점점 더 효과적으로 생성한다.
이 과정은 복잡하며, 늘 쉽지는 않았다. 1989년 얀 르쿤이 이끄는 연구 팀은 컴퓨터가 손으로 쓴 숫자 이미지를 입력받아 자동으로 숫자를 인식하 는 딥러닝 모델을 개발했다. 당시 목표는 우편물에 적힌 우편번호를 자동 으로 인식하는 것이었다.
당시 개발된 신경망 모델은 1,200개 이상의 뉴런과 거의 1만 개의 파라 미터를 포함했다(앞서 290쪽 수식 (2) 모델의 파라미터가 5개뿐(학점, 학년, 전 공, 비교과활동수, b)이라는 사실과 비교해 보자. 얀 르쿤 연구팀은 모델의 학 습을 위해 숫자가 미리 표기되어 있는(레이블) 수천 개의 손글씨 숫자 이 미지 데이터를 활용했다. 모든 작업은 1980년대 당대의 기술로 진행됐다. 딥러닝의 성공을 위해서는 강력한 컴퓨팅 능력(연산력)과 레이블이 지정 된 거대한 데이터셋, 그리고 인내심이 필요했다. 딥러닝 연구가 진행되는 동안 (1) 당시 가장 빠르고 비싼 컴퓨터에서도 딥러닝 모델을 학습하는 데 는 너무 많은 시간이 걸렸고, (2) 레이블이 지정된 데이터셋을 확보하기 어 려웠기 때문에 수년을 기다려도 획기적인 성과가 나오지 못했다. 인내심만 으로는 한계가 있었다.
- 그러다가 2010년대에 이르러 빅데이터(인터넷 덕분이다), 개선된 알고리 즘(로지스틱 함수보다 더 나은 활성화 함수들), 그래픽 처리 장치(GPU)가 하나 로 묶이면서 딥러닝 혁명이 시작됐다. GPU는 모델의 학습 시간을 100배 나 단축시켰는데, 1,000개의 파라미터를 학습시키는 데 몇 주에서 몇 달 까지 걸리던 시간이 갑자기 몇 시간, 며칠로 줄었다. 이후 딥러닝의 성공 사례는 눈덩이처럼 불어났다. 특히 텍스트, 이미지, 오디오 같은 비정형 데 이터를 이용해 얼굴을 인식하고 레이블을 자동으로 지정하거나 오디오를 텍스트로 변환하는 일까지 다양한 분야에서 성과가 나타나기 시작했다.
- 학적으로 합성곱이란 각기 다른 용도가 있는 여러 돋 보기로 사진을 분석하는 것과 같다. 돋보기로 이미지를 왼쪽에서 오른쪽, 위쪽에서 아래쪽으로 움직이면 선, 모서리, 둥근 모서리, 질감 같은 부분적 인 패턴을 발견할 수 있다(그림 12.7 참조). 합성곱은 이미지의 한 부분에 해 당하는 픽셀 값들을 수학적으로 계산해 이미지의 가장자리(예를 들어 큰 픽셀 값 바로 옆의 값이 0인 경우) 또는 다른 패턴을 찾는 과정이다. 합성곱 처리 후 모델 학습용 데이터 크기를 줄이기 위해 인접한 여러 픽셀의 값을 하나 의 픽셀 값으로 줄이는 풀링pooling이라는 과정을 거친다. 풀링 과정을 통해 인접한 픽셀 집합의 가장 두드러진 피처feature를 찾을 수 있다.
합성곱으로 수평 또는 대각선 가장자리 같은 부분적인 패턴을 찾고 나 면, 은닉층의 뉴런들은 중요한 정보 조각들을 맞추고(수학적인 의미에서), 최종 출력과 관련 없는 정보를 걸러낸다. 신경망이 사진 속에 아이가 있는 지, 두 사진 속 인물의 얼굴이 다른지 구분하는 방법을 학습할 수 있도록 데이터는 은닉층을 거치며 왜곡되고 변형된다. 자율주행차는 정지된 차와 움직이는 차, 보행자와 도로공사 현장 인부, 정지 표지판과 양보 표지판의 차이를 구분하는 학습을 한다.
합성곱 신경망에 입력되는 값의 수를 줄일 뿐만 아니라(수십억 개의 숫 자를 추정하는 일은 가능하면 피해야 하지 않겠나?) 전체 이미지에서 유사한 피 처를 찾아낸다. 정형 데이터에서 피처의 위치가 고정되어 있는 것과 달리, 이 미지 데이터의 피처는 전체 픽셀에서의 위치까지 분석돼야 한다. 이 덕분에 SNS는 게시된 사진 속에서 여러분의 얼굴을 정확히 찾아낼 수 있다.

- 전이학습(작은 규모의 데이터셋으로 학습하는 방법)
레이블이 지정된 이미지 데이터가 수백 장 정도로 작다면 전이 학습(transfer learning)을 적용해 효과를 볼 수 있다. 전이 학습은 일상적인 사물(풍선, 고양이, 개 등)을 구분하게끔 이미 학습된 모델을 이용하는 방법이다. 이미 학습된 딥러닝 모 델은 수천 개의 파라미터가 특정 종류의 이미지에 맞게 최적화돼 있다. 이미지를 처 리하는 신경망에서 앞쪽에 위치한 층은 형태나 선 등의 일반적인 표현을 학습하고 뒤쪽에 위치한 깊은 층에서는 다양한 가장자리와 선을 조합해 예상되는 출력 이미지 를 생성한다는 사실을 기억하자.
전이 학습의 핵심 개념은 마지막 층 몇 개를 제거하고 새로운 학습이 필요한 층으로 대체하는 것이다. 예를 들면 개나 고양이 이미지를 생성하는 선이나 테두리를 학습하 는 층 대신, 암 종양의 윤곽을 형성하는 모양을 학습하는 새로운 층으로 교체하는 것 이다. 다만 전이 학습을 이용하더라도 필요한 이미지(레이블이 지정된) 수를 10분의 1 수준까지 줄일 수는 있어도 수십 장의 이미지로 줄이지는 못한다.

- 첫 번째 원칙은 자신을 속이지 말아야 한다는 것이다. 자기 자신이야말로 가장 속이기 쉬운 상대다.
(리처드 P. 파인만(Richard P. Feynman) / 노벨상 수상 물리학자)

- 알고리즘 편향
머신러닝을 통해 더 많은 의사결정이 자동화되면서, 데이터와 컴퓨팅 세계에도 이미 내재된 편견이 존재한다는 사실을 깨닫고 있다. 이를 알고리즘 편향algorithmic bias7이라 부른다. 연구자와 조직들이 최근에야 알고리즘 편향 의 기원과 영향을 자세히 살펴보기 시작했지만, 이는 항상 데이터에 존재 해왔다. 알고리즘 편향은 현상 유지status quo의 산물일 때가 많아서 현 상황 에 근본적인 어려움이 발생하기 전까지는 감지하기가 어려울 수 있다. 그 래도 업무에서 알고리즘 편향을 인식하려는 노력을 기울인다면 훨씬 빨리 발견할 수 있다.

- 이전 장에서 인턴 지원자에 대한 데이터를 공유하고 그들이 면접 대상 에 올랐는지를 예측해 본 사례를 떠올려보자. 만일 데이터셋에 성별이 범 주형 변수로 포함됐는데 과거에 여성보다 남성이 더 많은 면접 대상에 오 른 이력이 있다면, 어느 알고리즘이든 이 관련성을 감지하고 활용해서 남 성에게 더 큰 예측 가중치를 부여하게 된다. 알고리즘에겐 이 모든 것이 0 과 1일 뿐이지만, 데이터 리드는 이런 편향이 아마존닷컴 같은 머신러닝 기술을 선도하는 최고의 기술 회사에서도 발생한다는 점을 알아야 한다." 알고리즘 편향은 아무리 선의를 지니더라도(혹은 중립적이라도) 어디서나 발생할 수 있음은 물론, 이미 발생하고 있음에 유의하라. 어떤 모델의 예측 도 최종적인 진실을 알려주지는 못한다. 모델을 이용한 모든 결과는 가정 의 산물이기 때문이다. 그리고 모든 관측 데이터는 이미 편향이 내재돼 있 음을 가정하고 분석을 진행해야 한다. 이미 실제로 그러하기 때문이다. 예 측을 수행하는 모델은 데이터에 이미 존재하는 편향과 고정관념을 영속화 하고 강화시킨다. 사고방식이나 태도를 바꾸는 것만으로 데이터 업무에서 편향을 찾아낼 수는 없다. 바로 지금 실행에 나서야 한다.'

- p해킹
"커피를 너무 많이 마시면 위암에 걸릴 위험이 높다. 이 결과는 0.05 의 유의수준에서 통계적으로 유의하다."라는 기사가 나왔다고 가정 해 보자. 10 앞서 7장에서 살펴봤듯이 유의수준 0.05의 데이터 신호 는 20번 중 1번의 비율로 거짓 양성 false positive이 나타남을 의미한다. p해킹p-hacking이란 통계적으로 유의한 p값을 발견할 때까지 데이터 의 여러 가지 패턴을 테스트하는 과정을 말한다. 연구자들이 커피 소 비와 뇌암, 방광암, 유방암, 폐암 등 100가지 이상의 암 사이의 상 관관계도 조사했다는 사실을 알게 된다면, 커피와 위암 간의 연관성에 대해 걱정이 좀 덜어질 것이다. 아무런 관련성이 없음에도 우연의 일치로 이 중 5가지가 통계적으로 유의한 p값을 보였을 수도 있 다. 이렇듯 유의한 p값만 보고되기 때문에 p해킹은 일종의 생존 편 향임에 주의하자.

- 사람들은 컴퓨터가 너무 똑똑해져서 세상을 지배할까 봐 걱정하지만, 진짜 문제는 컴퓨터가 너무 멍청한데 이미 세상을 지배해 버렸다는 사실이다.
(페드로 도밍고스(Pedro Domingos) / Al 연구자, 마스터 알고리즘』 저자)

- 책이나 사례를 통해서는 뭔가를 할 수 있다는 사실만을 배운다. 제대로 배우려면 직접 해봐야 한다.
(프랭크 허버트(Frank Herbert), 미국 작가)




'IT' 카테고리의 다른 글

보이지 않는 위협  (5) 2024.09.26
AI 인간지능의 시대  (0) 2024.08.18
AI예감  (3) 2024.07.28
크립토사피엔스와 변화하는 세상의 질서  (3) 2024.01.31
챗 GPT전쟁  (1) 2023.12.26
Posted by dalai
,