'2024/08/02'에 해당되는 글 3건

  1. 2024.08.02 모든 삶은 충분해야 한다 4
  2. 2024.08.02 데이터로 사고하고 데이터로 리드하라
  3. 2024.08.02 20240802

- 만약 여러분이 '글쎄, 스타가 괜히 스타겠어? 정말로 최고니까 스타겠지'라고 생각한다면 잠시 멈춰 서서 퓰리처상을 받은 시인 도널 드 저스티스(Donald Justice)가 한 말을 떠올려보자.
"몇몇 좋은 작가들이 세상에서 잊히는 이유에 대해 여러 분석 가능 한 원인이 있다고 하지만, 사실 그것들이 무엇이든 간에 여전히 불분명하다. 분명한 것은 명예의 법칙이 언제나 무작위로 작동한다는 사실 뿐이다. "
- 명문 대학을 나온 사람들, 베스트셀러 순위 상위권에 있는 작가들, 카네기 홀(Carnegie Hall) 무대에 오른 음악가들이 실제로 재능이 있 는지 없는지는 문제가 아니다. 진짜 문제는 이것이다. 기회가 부족한 세상에서 소수의 작가, 학자, 예술가만을 반복해서 인정하면 다른 사 람들은 기회를 얻지 못한다. 그것은 경쟁도 아니다. 경쟁처럼 보이는 무한순환이다. 내부 잔치다. 사다리 걷어차기다. 글쓰기를 예로 들 면, 글로써 세상을 설명하고 변화시키려는 작가의 순수한 열망을 가 로채 희소한 보상을 두고 끊임없이 투쟁하는 체제 속으로 던져버리 는 셈이다. 충분한 보상을 받는 사람들 일부는 뛰어난 재능을 가졌 다. 하지만 재능이 있어도 기회조차 얻지 못하는 사람들 또한 부지기 수로 많다.
- 물질적 성장이 제대로 분배되지 않는 이유 중 하나는 지위를 차 지해 더 우위에 서려는 쟁탈전이 벌어져 성장으로 인한 균형 효과를 기대할 수 없기 때문이다. 어떤 쟁탈전은 부동산 시장처럼 큰돈이 드 는 분야에 대한 정책 정보 접근권과 관련이 있다. 실제로 일반적인 필요를 요구하지 않는 고급 학위나 비싼 자격증을 확보해 그와 같은 자격을 갖추려는 시도도 끊이지 않는다. 그러나 아무리 물질적 성장 (부재 포함)이 확대되고 더 많은 사람에게 기회의 문이 열리더라도 지 위는 늘 한정돼 있다. 모두가 들어갈 만큼 많은 문도 없다.
이런 양상은 사람들이 물질적 부를 위한 수단으로 지위 권력을 추구하거나, 지위 권력을 위한 수단으로 물질적 부를 추구하는 사회 분위기를 조성한다. 당연히 이는 사회 전체에 악영향을 미친다. 프레드 허쉬가 지적했듯 부동산 가격이 높은 뉴욕이나 런던 같은 대도시에 서의 삶이 지위재가 되면서 그런 곳들에 터전을 마련할 수 있는 물질 적부를 확보하기 위한 쟁탈전이 일어난다. 교사, 예술가, 배관공 등 도시에서 활동하는 사람들은 외곽으로 밀려나지 않기 위해 더 많이 일하거나 그 자리에서 더 높은 지위에 올라야 하는 저마다의 투쟁을 강제당한다. 배관공들에게 이는 온라인 리뷰 별 다섯 개를 받기 위해 연중무휴 서비스를 제공하고 끊임없이 고객의 관심을 받아야 한다는 것을 의미할 수 있다. 교사와 예술가들에게는 소수에게만 허용되는 종신 재직권을 얻고자 분투하고 일류 갤러리와 지속적인 관계를 유 지하기 위한 인맥 구축에 온 힘을 쏟아야 함을 뜻할 수 있다.
- 가치에 대한 신화를 극복해야 한다. 성공이 실제로는 운과 우연에 크 게 좌우된다는 사실을 알면서도 우리는 여전히 암묵적으로든 명시적 으로든 정치, 경제, 스포츠, 예술 등 모든 분야에서 위대한 재능을 지 닌 사람들이 지원과 보상을 받아야 한다고 여기는 경향이 있다. 그들 의 성과가 '낙수 효과를 가져온다고 믿기 때문이다. 꼭 경제적 효과가 아니더라도 모든 것은 위에서 아래로 흐른다는 문화적 인식이 우리 마음속에 깊게 뿌리 박혀 있다. 우리가 위인의 등장을 바라는 까닭도 알베르트 아인슈타인 같은 과학자들, 토니 모리슨(Toni Morrison) 같 은 작가들, 프리다 칼로(Frida Kahlo) 같은 예술가들의 위대한 재능이 세상을 이롭게 한다고, 이런 위대한 사람들을 발굴해 지원하면 그들 의 노력으로 사회 전체가 더 위대해진다고 전제하기 때문이다.
- 그런 것도 같다. 어떤 분야에서든 누군가 최고 중 최고, 아니 최고 중 몇 가지라도 이룬다면, 세상 사람 모두가 그들의 발견, 발명, 업 적 덕분에 이득을 보지 않을까? 하지만, 거듭 강조하지만, 그런 체제 는 일부 사람들에게 이익이 될 수는 있어도 궁극적으로는 훨씬 더 많 은 것을 앗아간다. 제프 베이조스(Jeff Bezos)의 행성 간 개발 계획을 생각해보자. 그는 자신의 막대한 부를 이용해 인류에게 이익이 될 다 른 일을 해낼 수 있다고 역설했다. 현재 성장 속도로 볼 때 우리 행성 지구는 곧 생태적 한계에 부딪히게 될 것이다. 2018년 제프 베이조 스는 이에 대응하기 위해 가장 시급한 일은 다른 행성이나 위성을 식 민지화하는 것이라고 주장했다. 32 이후에는 기후 변화 위기로부터 지 구를 구하겠다고 공언했고, 아마도 아마존(Amazon) 비즈니스 모델에 지장이 없는 한 계속해서 그렇게 할 것이다. 33 그리고 다른 이야기지만 그의 우주 탐사 계획은 자선 사업이라기보다는 위성, 관광, 광물 등 잠재적으로 수익성이 높은 이른바 '우주 경제' 기회를 포착하는 데 중점을 두는 듯 보인다.
- 지금쯤이면 여러분도 더는 오해하지 않으리라고 믿지만, '충분함' 은 '아무래도 괜찮음'과 동의어가 아니다. 충분함은 어떤 상황도 참 고 포기하고 받아들이는 것을 의미하지 않는다. 물론 충분함은 인 간이라면 누구나 겪을 수밖에 없는 고난과 고통을 인정하는 데서 출 발하지만, 그것이 전부가 아니다. 충분함은 차오름을 수반한다. 다 만 차올라 넘치면 충분함이라고 할 수 없다. 충분함을 철학적으로 사 유한 사상가들은 미국 작가이자 민권 운동가 제임스 볼드윈(James Baldwin)의 표현처럼 충분함이 두 가지 상반된 요구를 충족해야 하는 개념이라고 이해한다. 충분함은 "어떤 유감이나 원한 없이 삶을 있는 그대로 받아들이는 것”임과 동시에 "결코 불의를 일상으로 받아들이 지 않는 평등함"이다. 
- 충분한 삶은 실패를 기꺼이 인정하고, 그런데도 충분하다는 사실 에 감사하며, 실패를 딛고 일어나 모두의 평등과 존엄을 요구한다. 세상이 충분하므로 우리도 서로에게 충분한 사람이 돼야 한다. 이는 굴복이 아니다. 현실을 순순히 받아들임으로써 불만과 결핍으로 인 한 자기파괴를 방지하되 자신과 타인을 위한 더 나은 삶, 모두에게 의미와 접근과 활기가 충만한 세상을 새롭게 상상하라는 요청이다. 마땅히 우아하고 섬세해야 할 세상에서 우리 모두의 운명과 상호 의 존적 관계로 이어진 우리 존재가 누구인지 생각하라는 요청이다. 나 아가 우리 삶을 지탱하는 일상적 노동에서부터 우리를 편안한 안식처로 이끄는 일상적 친밀감에 이르기까지, 우리 세상의 온갖 가치가 위대함의 이데올로기 때문에 하찮게 치부되고 있음을 인식하라는 요청이다.
- 충분한 삶을 살기 위해서 위대해질 필요는 없다. 삶이 가치 있으려 면 뭔가에 능숙하고 탁월해야 한다고 몰아붙이는 사회는 우리가 충 분히 좋은 삶을 누릴 가능성을 무너뜨린다. 위대함의 이데올로기는 우리 자신, 우리 관계, 우리 세계, 우리 지구를 훼손한다. 이 파괴적 인 이데올로기를 넘어선다고 해서 충분함이 위대함으로 바뀌지는 않을 것이다. 충분함의 종착지는 위대함도 완벽함도 아니다. 그래서 충분함에는 끝이 없다. 충분함은 늘 여지가 있고 늘 차오르는 상태 다. 채우기만 하면 위대하고 완벽할 것 같은 그 여지를 있는 그대로 받아들이는 상태다. 충분한 삶을 위해 우리는 우리 자신의 불완전함을 부드럽게 포용하고 오히려 다행으로 여기면서 모두의 충분함을 헤아린다.
충분한 삶을 추구하는 우리는 진보의 동력을 상실하지 않는다. 모 두가 충분한 세상이 될 때까지 위대함의 이데올로기에서 떨어져 나 온 사람들과의 협력을 통해 계속해서 새로운 힘을 얻는다. 그렇게 모 두가 충분한 세상을 달성하더라도 진보는 사라지지 않는다. 세계는 여전히 불완전하고 우리는 여전히 불완전함을 포용할 것이기에 우리 세상은 영원토록 앞으로 나아갈 수 있다. 이것이 충분함이다. 

-앨런 와츠(Alan Watts)는 동양 철학과 서양 심리학을 융합 하고 대중화해 매우 중요한 철학자로 평가받는 인물이다. 말 그대로 동양과 서양의 사상적 교두보 역할을 한 철학자이며, 심오하고 복잡 한 생각을 명확하고 감동적인 방식으로 전달했다. 나는 대학 시절 그 의 책 <불안의 지혜(The Wisdom of Insecurity)》(1951)와 《선의 길(The Way of Zen)》 (1957)로 불교와 도교를 처음 접했고, 이후 내 삶에도 깊 은 영향을 미쳤다.
와츠에 따르면 우리의 이른바 자기계발을 위한 전략 대부분은 역 효과를 낳는다. 일테면 우리는 자꾸 불안해질 때 이를 극복하기 위 해 긍정적으로 생각하려고 애쓴다. 달리 말해 부정을 긍정으로 제압 하고자 든다. 그러나 실제로는 긍정적인 경험을 하고 싶어 하는 욕망 자체가 부정적인 경험이다. 반대로 부정적인 경험을 오롯이 받아들 이는 것이 긍정적 경험이다. 와츠는 우리가 불안을 밀어내지 않고 그 대로 포용할 때 비로소 안정을 찾을 수 있다고 말한다(지금도 이 말은 내 '고등학교 때 들었더라면 좋았을 말들 목록 맨 위에 있다). 그는 이를 '역 노력의 법칙(law of reversed effort)' 또는 '역효과 법칙(backwards law)' 이라고 불렀다. 그가 보기에 이는 동양의 선(禪)이나 도(道) 사상 못지 않게 기독교적인 사고방식과도 맞닿아 있었다. 와츠는 신약성서 복 음서마다 등장하는 다음 구절을 인용해 이를 설명했다.
"누구든지 제 목숨을 살리려는 사람은 잃을 것이며 제 목숨을 잃는 사람은 살 것이다. "
마크 맨슨은 애쓰지 말고 살라는 자신의 주장에 다음과 같이 투덜거리는 가상 독자의 목소리를 언급하고는 앨런 와츠의 역효과 법칙 과 연결한다.
"난 카마로(Camaro)를 사려고 돈을 모으고 있어. 굶어가며 해변용 몸을 만들고 있고, 비싼 복근 운동 기구도 샀어. 게다가 호숫가 큰 집 에서 살기를 꿈꿔왔어. 그런데 이런 것들에 신경을 끄라고 하면, 맙 소사, 그러면 난 아무것도 이룰 수가 없잖아!"67
이에 대한 그의 대답은 그런 것들을 포기하라는 게 아니라, 역효과 법칙의 '역효과'가 곧 신경 끄기의 역방향 작용이므로 원하는 것을 얻 으려면 반대로 하라는 것이다. 불안을 수용하면 자신감이 생기고, 두 려워도 바른말을 하면 신뢰를 얻으니 성공에 가까워질 수 있다는 이 야기다. 와츠에게 역방향 법칙은 심리적 안정에 관한 것이었으나, 맨슨은 그 개념을 물질적 성공을 향한 우회 수단으로까지 확장한다.
"신경을 덜 쓸 때 오히려 능력을 발휘한 경험이 있을걸? 성공에 무 심한 사람이 실제로 성공하는 경우가 얼마나 많은데!"68
물론 마크 맨슨의 이 말은 우리가 단순히 신경만 끄면 바라는 바를 성취하리라는 의미는 아니다. 그는 진심으로 독자들이 실패와 고통 을 받아들임(신경 끄기)으로써 그 부정적 경험을 극복하기를 바라고 있다. 그러면 때로는 실패가 성공으로 바뀔 수 있다는 말을 한 것이 다. 살면서 실패를 경험하겠지만, 그 실패에 신경을 끄면 마침내 성 공에 이를 수 있다는 뜻이다. 하지만 불교 철학 본연의 가르침은 이 와 조금 다르다. 우리 자신을 위한 참된 가치로서의 실패를 되새겨주 는 것이며, 다음번 성공을 위한 마음 다지기 수단이 아니라, 실패 역시 누구나 받아들여야 할 인간의 타고난 운명이고, 그 실패 자체가 좋은 삶을 구성하는 하나의 요소임을 깨우쳐주는 것이다.

- 나나 여러분의 경험은 말할 것도 없고, 오늘날 벌어지는 모든 행태 에 비춰볼 때 이 문제에 대한 해석은 아리스토텔레스보다 고타마 싯 다르타가 옳았다. <불교는 왜 진실인가(Why Buddhism Is True)》(2017) 라는 흥미로운 책을 쓴 미국 진화심리학자 로버트 라이트(Robert Wright)는 불교 철학의 통찰이 어떻게 '자연 선택(natural selection)'의 효과와 연결되는지 설명했다. 자연 선택의 목적이 우리 유전자를 다 음 세대에 전파하는 것이라면 반드시 두 가지가 필요하다. 첫째, 우 리는 생명을 유지하고 번식에 도움이 되는 활동에서 쾌락을 얻어야 한다. 둘째, 그런 활동은 우리가 계속해서 실행하도록 더 큰 만족을 추구할 만큼 불만족스러워야 한다. 78 결국 우리의 생존은 끊임없이 만족을 추구하면서도 불만족스러운 데 달렸다. 자연 선택의 결과로 우리는 애초에 만족할 수 없음을 오롯이 인정하기보다 어리석게도 반복적인 쾌락 추구로 고통을 경험하는 존재가 됐다.
- 우리는 서로를 피폐하게 만드는 소모적이고 경쟁적인 관계 대신 서 로에게 어떤 존재가 되고 싶은지 다시 생각해볼 수 있다. 우리는 충 분한 부모, 자식, 친구, 연인이 되는 일도 분명히 쉽진 않지만, 적어 도 이 관계가 남들과 비교할 대상은 아님을 깨우칠 수 있다. 나는 비 로소 나와 가족, 친구, 동료, 제자들과의 관계가 내 인생에서 충분하 다고 여길 수 있었는데, 위대함을 향한 수많은 유혹에 온전히 저항 할 수 있게 되면서부터였다. 스스로 신체적·정신적 건강상태를 살피 고 번아웃에 빠질 만큼 나 자신을 혹사하지 않자 자연스럽게 마음이 홀가분해지고 타인을 바라보는 시선도 관대해졌다. 내가 사랑한다 고 여기는 사람들의 단점을 순순히 받아들였고, 반대로 내 단점도 솔직히 인정하면서 모쪼록 이해해달라고 부탁했다. 나는 정직해지려고 결심했고 정직하게 행동하고자 부단히 애썼다. 나는 평소보다 더 큰 배려가 필요한 순간을 인지하게 됐고, 그럴 때면 특별한 관심을 제공 하거나 요청했다. 나는 나 혼자서 내가 직면한 모든 문제를 해결할 수 있다고 더는 생각하지 않게 됐다. 그렇다고 그럴 때마다 무작정 도와달라고 요구하지는 않았다. 나는 나와 내 주변 사람들의 필요와 요구가 일치한다는 확실한 판단이 섰을 때만 이해관계를 생각했다. 나는 기회가 있을 때마다 나와 관계 맺고 있는 사람들에게 위대함을 추구하고자 애쓰지 말고 모두에게 충분한 세상을 만들어가는 데서 의미와 가치를 찾자고 설득했다.
- 방금 나는 나 자신을 빗대어 위대함에서 초연해지는 방법과 그 결 과를 무척 간단하게 서술했는데, 쓰고 보니 뭔가 자신 없다는 불안감 이 엄습해온다. 내가 정말로 위대함으로부터 자유로워졌을까? 설마 내가 해탈의 경지에 오른 걸까? 부끄러워도 솔직히 말하자면 여전히 그렇지 않다. 아마도 죽을 때까지 그러려고 애쓰다가 삶을 마감할 것 이다. 그걸 알면서도 노력할 테고 여러분도 그러기를 바라는 것이다. 인간관계에서 위대함은 불균형한 열망이 허우적거리는 춤이다. 이 춤을 추려면 엄청난 에너지가 소요된다. 불필요한 움직임과 지나친 기대감으로 쉽게 피곤해지기만 하면서 끝까지 제대로 된 춤동작은 취할 수 없는 완전한 부조화다. 이에 반해 충분한 관계는 춤처럼 보 이지 않는다는 점에서는 비슷하지만 유쾌함과 따뜻함이 묻어나오는 일종의 율동이며, 이따금 서로 동작이 꼬이지만 그래도 같은 동작을 취하려고 서로 재빨리 자세를 바로잡는 부드러움과 가벼움의 불완전 한 조화다. 이 관계는 서로 존중하고 감사하고 보살핌을 받는다는 느 낌이 들게 해준다. 내가 친구와의 관계나 아내와의 관계가 충분하다 고 말할 때의 충분함이란 이런 관계를 일컫는다. "우리 사이가 이 정 도야!"인 것이다.
- "신화나 전설의 이야기는 너무 매끄럽게 진행된다. 불확실함은 없다. 모든 교차적 상황, 모든 갈등, 모든 우연, 모든 사건, 모든 부수적 이해관계가 하나의 주제를 향해 빈틈없이 연결되며, 크고 작은 혼란 을 초래할 만한 요소는 생략되거나 아예 언급되지 않는다. 이에 반해 역사적 이야기는 지나치게 복잡하고, 흐름이 끊기며, 모순적이고, 혼 란스럽게 진행된다. "
멋지고 용감한 왕자는 그저 멋지고 용감하고, 착하고 예쁜 공주 는 그저 착하고 예쁘다. 중간은 없다. 피곤함에 찌들어 얼굴이 누렇 게 뜬 왕자, 늦잠 자고 부스스한 머리로 일어난 공주, 계속되는 모험 에 지쳐 짜증 내는 왕자, 책을 읽지 않아서 아는 게 없는 공주의 모습 등은 나오지 않는다. 결혼한 두 사람이 “오래오래 행복하게 잘 살았 다"고 하면 그만이다. 이따금 말다툼도 할 수 있고, 육아 문제로 티격 태격할 수도 있으며, 세월이 흘러 더는 멋지고 예쁘지 않을 수도 있 지만, 시간은 딱 거기에서 멈춘다. 그런데 우리는 모든 불편한 현실 과 모순되는 완벽함이나 위대함에 대한 막연한 비전을 세워두고 있 기 때문에, 이런 이야기를 현실적으로 파고든다거나 역사적 상황과 연결해 실망감을 느끼고 싶어 하지 않는다. 사람이라면 지칠 수도 있 고, 짜증 낼 수도 있고, 힘을 낼 수도 있고, 기분을 풀 수도 있다. 상대방이 지쳤거나 짜증 낼 때 그대로 받아들여 자신의 감정에 녹이기보 다. 그 지침과 짜증의 원인을 헤아려주고 공감해주는 노력쯤은 할 수 있다. 서로 함께한 시간이 늘면서 겪은 경험을 교훈 삼아 서로에 대 해 더 많이 알아가고 더 많이 이해해줄 수도 있다. 어제의 불꽃이 조 금 약해졌다는 생각이 들면 원료를 넣어 다시 불꽃을 일으키면 된다. 그러는 동시에 원료가 소진될수록 불꽃은 사그라든다는 엄중한 진실 을 떠올려야 할 것이다. 아울러 함께할 시간이 계속 줄어들고 있다는 진실도 깨우쳐야 한다. 우리의 관계 이야기는 신화가 아니다. 우리는 관계를 신화가 아닌 역사로 들여다봐야 한다. 말같지도 않은 영원한 하나 됨이 아닌 오해와 실수, 이해와 개선으로 가득 채우는 관계를 탐구해야 한다
- 위대함은 우리 자신과 우리 관계를 위한 충분한 삶에 이르는 가장 좋은 길로 보이지만, 실제로는 이와 같은 목표 자체를 전복시킨다. 국가의 정치와 경제에서도 마찬가지다. 현대 미국의 정치적·경제적 정책 방향은 정부가 나서서 자유로운 성장을 견인해야 한다는 쪽에 초점을 맞추고 있다. 그래야만 낙수 효과로 최대한 많은 사람이 혜택을 볼 수 있다고 믿기 때문이다. 양극화나 불평등은 개의치 않는다.
어차피 최하위 계층의 삶은 똑같고, 그나마 성장이라도 하면 더 나아 질 테니 좋지 않겠느냐는 논리다.
다음 장에서 논의하겠지만, 이 주장은 전적으로 사실이 아니다. 불 평등이야말로 성장을 저해하고 사회를 불안정하게 만드는 요인이다. 모든 형태의 위대함 추구와 마찬가지로 성장을 통해 더 나은 세상을 만들 수 있다는 논리는 인류 역사를 통틀어 단 한 번도 증명된 적이 없다. 복잡계 경제학을 개척한 경제학자 폴 크루그먼(Paul Krugman) 은 오바마 행정부의 경제 회복 정책을 분석하면서 “오바마의 시도는 경제 안정에는 도움이 되었으나 국가와 세계를 위해 더 나은 경제적 삶을 모색하는 측면에서는 충분하지 않았다”고 결론 내렸다. 70 그렇 다면 우리의 경제적 삶에 대한 충분한 비전은 어떤 모습이어야 할까?
- 애덤 스미스는 세상이 지금처럼 되기를 바라지는 않았다. 그는 지 혜와 덕망 그리고 “자애로운 애착이 가득한 세상을 꿈꿨다. 그러나 본연의 세상은 이것이 가능하게끔 설계되지 않았다고 봤다. 그래서 그는 다른 길을 모색했다. 위대함을 추구하려는 인간의 열망을 막지 못할 바에 차라리 그 열망이 모두에게 도움이 될 수 있도록 자유 시장 이나 노동 분업 같은 체계를 설계하자고 마음먹었다. 위대함을 극복 하고 싶었으나 그것이 불가능하다고 판단한 그는 되레 위대함과 파 우스트식 거래를 맺는 차선책을 선택했다. '보이지 않는 손'의 회복력 을 믿으면서 그렇게 '보이지 않는 손'은 '보이지 않는 위대함의 손'이 됐다.
- 추첨제의 진정한 장점은 충분한 지원자를 더 많이 찾는 데 도움이 될뿐더러 충분한 삶에도 실질적으로 이바지한다는 것이다. 대학 입 시에 일정 수준의 능력만 기준으로 삼고 나머지는 무작위로 선별한 다면 우리는 고등학교 시절의 건강함을 유지할 수 있다. 적어도 영혼 을 탈탈 털어 점수를 채우고 강박적으로 완벽함을 추구하는 대신 친 구나 가족과 좋은 시간을 보내는 데 더 많은 시간을 할애할 수 있다. 부모들에게는 아이가 하버드에 들어갈 수 있도록 에이미 추아에게서 영감을 받은 '호랑이 엄마가 될지 말지를 애초부터 고민하지 않게 해 준다. 이 체제는 능력주의적 오만함을 잠재우고 학벌로 인한 지위 권 력도 약화할 수 있다. 추첨으로 대학에 들어가는 한 내가 잘나서 합 격했다는 속물적인 매력은 설 자리가 없기 때문이다. 반대로 내가 못 나서 떨어졌다는 자괴감에 빠질 이유도 없다.
- 오래전에 프레드 허쉬가 이미 제안했듯이, 지위 경제를 무력화하 는 가장 손쉬운 방법은 승자의 혜택 자체를 없애는 것이다.  더 나 은 공립학교가 많이 있다면 사립학교의 이점이 사라진다. 고품질의 료 서비스를 평준화하면 더 많은 돈을 내고 특권을 누릴 여지가 없어 진다. 누구나 교대로 1년에 몇 주씩 해변 별장을 이용한다면 비싼 부 동산을 구매할 명분이 희미해진다. 일등석을 아예 없애거나 추첨으 로 배정할 수도 있고, 더 나아가 비행기 모든 좌석을 똑같이 편안하 게 만들 수도 있다. 만약 누군가 “그러면 합리적인 비즈니스 모델을 저해하는 것"이라고 말한다면, "인류가 '비행'이라는 놀라운 업적을 달성하는 건 가능하다고 여기면서도 모든 사람에게 충분한 비행기를 만드는 데 실패하는 건 어떻게 가능하다고 생각하는지" 묻고 싶다. 차이가 없으면 차별도 없다. 차이를 두니 차별이 생기는 것이다. 합 리적인 비즈니스 모델이 있는 게 아니라, 비즈니스 모델을 그렇게 만 들어놓고 합리적이라고 강요하는 것이다. 차이가 없는 체제는 거의 모든 사람에게 더 좋다. 당연히 그보다 더 좋은 것을 누리고 싶은 사 람도 있을 것이다. 엄청나게 비싼 별장을 사고 싶어서 산다는 데 누 가 뭐라고 할 수 있을까? 다만 누구라도 마음껏 이용할 수 있는 별장이 곳곳에 많이 있다면, 중앙 정부와 지역 사회가 그런 시설들을 협 력해서 운용한다면, 굳이 상대적 박탈감을 느끼지 않아도 된다. 일부 사람들의 주장과 달리 재화를 사회화한다고 해서 개인의 선호가 실 종되는 것은 아니다. 오히려 그동안 돈이 없어 박탈당한 수십억 개인 의 선호가 이 같은 사회 체계 덕분에 마침내 실현될 수 있는 것이다.




'인문' 카테고리의 다른 글

머리 맡에 쇼펜하우어  (0) 2024.08.18
호모 유니쿠스  (2) 2024.08.05
지금은 아우렐리우스를 읽어야 할때  (0) 2024.08.01
쇼펜하우어의 냉철한 조언'  (0) 2024.07.30
지루하면 죽는다  (21) 2024.07.25
Posted by dalai
,

- 2008년, 그리고 2012년 이후 미디어 기업들은 데이터 과학 팀을 조직하고 여론조사에 큰돈을 투자하고 좋은 데이터를 확보하기 위해 많은 비용을 지출했다.
하지만 그렇게 많은 시간과 돈, 노력을 들이고 교육에도 투자했지만 무 슨 일이 일어났던 것일까?
우리의 가설과 견해
왜 그런 문제가 발생했을까? 우리 저자들은 문제 자체의 어려움, 비판적 사 고 결여, 잘못된 의사소통이라는 세 가지 이유를 꼽아본다.
첫째, 앞서도 말했듯이 데이터는 복잡하다. 데이터에 관한 문제는 대부분 근본적으로 어렵다. 설사 가장 명석한 분석가가 방대한 데이터를 확보해서 적절한 도구와 분석 기법으로 작업하더라도 실수를 피하기 어렵다. 예측이란 항시 틀릴 가능성이 존재하는 것이고 실제로도 틀린다. 데이터와 통계학에 대한 단순한 비방이 아니라, 이것이 바로 현실이다.
둘째, 일부 분석가와 관련자들은 데이터 문제에 대한 비판적 사고를 멈 춰 버렸다. 데이터 과학 비즈니스는 자만에 빠져 확신에 찬 단순한 청사진 을 그렸고 일부는 그런 주장을 맹신했다. 인간의 본성상, 무슨 일이 일어 날지 모른다는 사실을 인정하고 싶지 않을 수도 있다. 하지만 데이터를 제 대로 활용하고 사고하려면 언제든 잘못된 결정을 내릴 수 있다는 가능성을 인정해야 한다. 즉 위험과 불확실성에 대해 서로 소통하고 이해해야 한다. 그런데 어떤 이유에선지 이런 인식이 어느새 사라져 버렸다. 데이터와 데 이터 분석 방법에 대한 수많은 연구가 사람들의 비판적 사고를 촉진할 것 이라 기대했지만 오히려 일부 사람들에게는 비판적 사고를 멈춰 버리게 만 드는 결과를 초래했다.
데이터와 관련된 문제가 끊임없이 발생하는 세 번째 이유로는, 데이터 과학자와 의사결정권자 사이의 소통이 원활하지 않기 때문인 듯하다. 의도 치 않더라도 분석 결과는 종종 커뮤니케이션 과정에서 손실된다. 데이터 과학자들이 굳이 의사결정권자에게 데이터 해석 능력을 가르쳐 주지는 않 기 때문에 의사결정권자는 통계적 사고를 갖춘 언어로 자신의 의견을 말하 지 못한다. 솔직히 데이터 분석가들이 항상 설명을 잘하는 것도 아니다. 분 명히 양자 사이의 의사소통에는 간극이 존재한다.
- 초기 논의에서는 핵심적인 비즈니스 문제에만 집중해야 하며, 최근 기술 동향 등 불필요한 사항은 제외하도록 주의해야 한다. 기술 동향에 대한 이 야기를 하다 보면 회의의 초점이 비즈니스와 동떨어지기 쉽다. 다음과 같 은 두 가지 경고 신호에 주의해야 한다.
* 방법론 중심 논의: 이 관점을 견지하는 기업들은 새로운 분석 기법이나 기술을 도입하는 것만으로 자사를 차별화할 수 있다고 단순하게 생 각한다. "AI를 도입하지 않은 회사는 이미 시대에 뒤처진 것이다..." 같은 과장된 홍보 문구를 아마도 들어본 적 있을 것이다. 혹은 그럴 듯한 최신 유행어를 찾으려는 경우도 있다(예를 들면 '감성 분석' 같은 단어를 사용하는 등).
* 결과물 중심 논의: 어떤 프로젝트는 결과물이 무엇이 될 것인가에 과도 하게 집중한 탓에 궤도를 이탈하기도 한다. 예를 들어 인터랙티브한 대시보드를 만드는 프로젝트가 있다고 가정해 보자. 막상 이렇게 프 로젝트를 시작하면 그 프로젝트의 결과물은 그저 새로운 대시보드나 비즈니스 인텔리전스 시스템 설치에 관한 것이 돼버리고 만다. 따라 서 프로젝트 팀은 한발 물러서서 자신들이 만들고자 하는 결과물이 조직에 어떤 가치를 가져다 줄지부터 파악해야 한다.

- 중요한 문제에 집중하자
지금까지 우리는 프로젝트 실패가 근본적인 문제를 올바르게 정의하지 않 았기 때문이라고 결론 내렸다. 대부분의 경우, 이런 실패를 주로 시간이나 자금, 노력의 손실 관점에서 생각한 것이다. 그러나 데이터의 온갖 영역에 는 훨씬 더 광범위한 이슈가 놓여 있으며 여러분이 이 문제들을 모두 예상 하기란 쉽지 않다.
현재 업계의 관심은 수요 충족을 위해 최대한 많은 데이터 인력을 양성하 는 데 집중돼 있다. 그 결과 대학교, 온라인 교육 프로그램 등을 통해 비판적 사고를 갖춘 사람들이 급속도로 배출되고 있다. 데이터 업무가 온전히 진실을 밝히는 일뿐이라면 데이터 리드는 그저 그 일만 하면 될 테다.
이때 데이터 리드들이 그다지 내키지 않는 프로젝트에 착수해야 하는 상 황은 무엇을 의미할까? 자신의 기술을 경영진에게 과시할 수는 있으나 실 제로 의미 있는 문제를 해결하기는 어려운, 미처 제대로 정의되지 못한 이 슈에 시간을 쏟아야 하는 상황은 또 무엇을 의미할까?
이 이야기는 수많은 데이터 작업자들이 자신의 업무에 만족하지 못한다 는 사실을 의미한다. 모호한 성과를 목표로, 기술에 과도하게 초점이 맞춰 진 문제를 해결하도록 강제하다 보면 사람들은 이내 좌절과 환멸에 빠질 것이다. 캐글(Kaggle.com)은 전 세계의 데이터 과학자들이 데이터 과학에 대한 경연 대회를 열고 새로운 분석기법을 배우는 곳으로, 캐글 사용자를 대상으로 설문조사를 통해 데이터 과학자들이 각자 업무에서 직면하는 어려움이 무엇인지를 물었다. 이 중 몇 가지는 다음과 같이 잘 정의되지 않은 문제나 부적절한 계획과 직접적으로 관련돼 있다.
* 해법을 구하기 위한 명확한 질문의 부재 (30.4%의 응답자가 이를 경험함)
* 의사결정권자가 결과를 활용하지 않음 (24.3%)
* 각 분야 전문가가 제공하는 정보 부재 (19.6%)
* 프로젝트 효과에 대한 예측 (15.8%)
* 프로젝트에서 얻은 인사이트를 의사결정에 통합하기 (13.6%)
이런 상황이 이어지다 보면 결과는 뻔하다. 자신의 역할에 만족하지 않는 사람들은 떠날 것이다.

- 우리에게 데이터가 있다면 한번 살펴봅시다.
우리에게 있는 것이 고작 의견뿐이라면 그냥 제 의견으로 갑시다.
(제임스 박스데일(James Barksdale)/ 전(前) 넷스케이프 CEO)

- 통계적 사고란 부분적으로는 탐정처럼 의심을 품으며 대안적 관점에서 문제를 바라보는 새로운 사고 방식이다.
(프랭크 해럴(Frank Harrell)/ 통계학자이자 교수)

- 어떤 결과를 수학적으로 전개할 때 확률과 통계 두 단어를 함께 쓰지 않는 한, 이 두 단어를 맞바꿔 쓰기도 한다. 그러나 두 용어의 차이를 명확히 이해하기 위해 조금 더 깊이 살펴보자.
구슬이 들어 있는 큰 가방을 생각해 보자. 우리는 그 안에 담긴 구슬의 색 깔도 모르고 크기나 형태 또한 알지 못한다. 가방 안에 구슬이 몇 개 들어 있는지도 모르는 채 가방에 손을 넣어 한 움큼 구슬을 쥐었다.
여기서 잠시 생각해 보자. 아직 들여다보지 못한 가방 속의 구슬과 아직 펼치지 않은 주먹 안의 구슬이 있다. 가방 속 또는 주먹 안에 무엇이 있는 지에 대한 정보는 전혀 없다.
이 상황을 통해 두 용어가 어떻게 다른지 설명할 수 있다. 확률이란 가방 속에 무엇이 있는지 정확하게 파악하고서 그 정보를 이용해 손에 무엇을 움 켜쥐었는지를 예상하는 과정이다. 반면 통계란 손에 쥔 것이 무엇인지 먼 저 확인한 다음, 그렇다면 가방 속에 무엇이 있을지를 추론하는 과정이다. 즉 확률은 드릴다운drill down 방식이고 통계는 드릴업 drill up 방식이다."

- 데이터가 있고 정답을 찾으려는 간절한 욕망이 결합된다고 해서 합리적인 해답을 찾는다는 보장은 없다.
(존 터키(John Tukey)/통계학자)

-대부분 비즈니스에서는 관측 데이터가 이용된다. 관측 데이터로 인과관계를 분석해서는 안 된다. 데이터 분석 결과와 의미는 잘 설계된 실 험에서 얻은 데이터가 아니라는 전제를 깔고 제시돼야 한다. 관측 데이터 에 기반한 인과관계는 항상 회의적으로 봐야 한다.
데이터 수집 방법을 확인함으로써 인과관계를 추론할 수 없는 조건에서 인과관계를 주장하고 있지 않은지 점검할 수 있다. 잘못된 인과관계 추론은 앞으로 이 책 전반에 걸쳐 여러 번 언급할 정도로 중요한 문제다.
실험 데이터는 언제든지 사용할 수 있을 것처럼 쉬워 보이지만 매우 복 잡한 과정을 거쳐야 하고 비용 대비 효율의 문제, 심지어 윤리적인 문제도 결부되어 있어 항상 가능하지는 않다. 예를 들어, 전자 담배가 청소년에게 미치는 영향을 연구하기 위해 과학을 명분삼아 청소년을 무작위로 실험군 과 대조군으로 배정해서 치료군에게 전자 담배를 피도록 강요할 수는 없 다. 비윤리적인 행위이기 때문이다.
데이터 리드는 확보된 데이터를 사업적인 판단을 내리는 데 효과적으로 활용할 수 있어야 한다. 일부 기업이나 부서에는 엄격한 실험을 통해 관측 데이터를 추가적으로 검증할 만한 수단이 있지만 실험을 통해 해결할 수 없는 비즈니스 문제도 있다.
- 데이터가 많을수록 표본 데이터에 내재된 근본적인 문제를 극복할 수 있다 고 생각하기 쉽다. 표본이 클수록 더 신뢰할 수 있다는 생각은 통계적 사고 에 대한 오해다. 데이터를 올바르게 수집한다면 표본이 클수록 도움은 되 지만, 데이터에 편향이 존재하는 한, 데이터를 더 추가한다고 해서 문제가 해결되지는 않는다.
빅데이터에 대한 짧았던 열광은 데이터의 크기가 과학적 엄밀성을 보장 한다는 생각이었다. 데이터셋이 너무 커서 데이터와 논쟁하기가 어렵다는 생각은 금물이다. 통계에서 표본에 편향이 없다고 보장할 수 있는 절대적인 데이터 크기에 대한 기준은 존재하지 않는다. 통계는 궁극적인 분석 목표와 사용 가능한 데이터 사이에서 적절한 절충점을 선택하는 일이다.

- 데이터 과학자에게 무차별적인 정보 수집과 분석을 하라고 요구하면 틀림없이 엉터리 분석 결과가 나올 것이다.
(토마스 레드맨(Thomas C. Redman)/ 데이터 전문가, 《하버드 비즈니스 리뷰> 기고가)

- 데이터 리드는 탐색적 데이터 분석 과정을 수행해야 한다. 이 과정에서 다음과 같은 일이 가능하다.
*문제를 해결하기 위한 명확한 과정 도출
*데이터에서 확인된 제한 조건에 따라 비즈니스 문제 재정의
*데이터를 이용해 해결해야 할 새로운 문제 식별
*프로젝트 중단. 해결할 수 없는 문제에 시간과 돈을 낭비하지 않게됐다면 썩 만족스럽지는 않지만 그것만으로도 탐색적 분석은 성공 한 셈이다.

- 대부분의 사람들은 확률을 잘 모른다. 그래서 50 대 50 같은 동전 던지기,아니면 99% 같은 확실한 확률 개념만 받아들인다.
(수학자 존 알렌 파울로스(John Allen Paulos))

- 쓸데없이 확률을 곱하지 말자
과거 사건의 확률을 불필요하게 곱하지 말자. 그렇게 하면 어떤 일이든 아주 가능성 이 낮게 보이게 된다.
여러분이 이 책의 현재 글 줄을 읽고 있을 확률을 추정해 보자. 이 책의 쪽수는 368 페이지(1/368)고 한 페이지에는 약 25줄의 글(1/25)이 있다. 또한 수백만 권의 책 중 에서 이 책을 골라서 읽고 있다. 이 모든 확률을 곱하면 아주 작은 숫자를 얻는다. 여 러분과 우리 저자는 서로 운명이었음이 분명하다!

- 이 장에서 배운 지식은 확률이 걸린 결정을 내릴 때 추가적 으로 어떤 정보를 확인해야 할지에 관한 힌트를 준다. 특히 처음에 직관적 으로 생각할 때는 단순해 보였지만 지금은 의심이 가는 확률 문제를 결정 해야 할 때 더 도움이 될 것이다.
또한 사람들이 얼마나 확률을 오해하고 있는지를 알아봤다. 이런 오해는 잘못된 문제 정의나 주어진 정보에 대한 잘못된 가정으로 이어진다. 이런 실 수를 피하기 위해 확률을 다룰 때는 다음과 같은 사항을 명심하자.
*사건들이 서로 독립이라 가정할 때는 주의해야 한다.
*모든 확률은 조건부 확률임을 인지하자.
*의미가 있는 확률인지를 반드시 확인한다.

- 앵커 켄트 브록맨: "그래피티 낙서 같은 경미한 기물 파손 행위는 80%감소한 반면, 심각한 가방 날치기는 충격적이게도 900% 증가했다 는 주장을 어떻게 생각하십니까?"
호머 심슨: "아, 사람들은 모든 주장을 입증하기 위해 늘 통계를 내놓죠. 켄트 씨, 40%의 사람들이 그런 사실을 알고 있어요."
<심슨 가족>

- 데이터를 열심히 파고들다 보면, 신의 메시지를 찾을 수 있다.
(딜버트(Dilbert))

- 주성분 분석
주성분 분석은 데이터 과학자나 머신러닝 같은 용어가 비즈니스 용어로 정 착되기 훨씬 이전인 1901년에 고안된 차원축소의 한 방법으로 여전히 인 기를 누리고 있는 기술이다(잘못 이해하는 경우가 태반이지만). 이제부터 주 성분 분석에 대한 오해를 바로잡고 이 기술로 무엇이 가능하며 왜 유용한 지 살펴보자.
- 앞서 차량 도로주행 시험 데이터를 분석했을 때와는 달리 주성분 분석 알고리즘은 어떤 변수들을 결합해 복합 변수를 만들지 사전에 알지 못하기 때문에 모든 가능성을 고려한다. 몇 가지 영리한 수학적 방법으로 여러 변 수들을 조합해 새로운 차원(변수)을 만들어보고 어떤 방식의 선형 결합이 데이터를 가장 잘 분리시키는지 탐색한다. 이 과정에서 만들어지는 복합 변수 중에서 데이터를 잘 분리하는 변수를 주성분principal component(이하 PC)이 라고 일컫는다. 주성분들은 서로 상관관계를 갖지 않는 새로운 차원이 된 다. 도로주행 시험 데이터로 주성분 분석을 해 보면 앞에서 설명한 '효율’뿐 만 아니라 '성능'이라는 차원도 발견될 것이다.
- 실제 현업에서는 운동 선수 데이터 사례처럼 주성분의 특징이 명확하게 구분되지 는 않는다.
현실 데이터는 대체로 난잡하기 때문에 만들어진 주성분의 명확한 의미 를 파악하기 어려우며 각 주성분의 특징에 딱 들어맞는 이름을 붙일 수도 없다. 우리 저자들이 경험한 바에 따르면 사람들은 흥미롭고 눈길을 끄는 주성분 명칭을 붙이는 데 너무 몰입한 나머지, 존재하지 않는 데이터의 특 성을 그려 버린다. 데이터 리드라면 분석가가 제시하는 주성분의 특성과 이름을 섣불리 받아들여서는 안 된다. 이런 식으로 분석가가 이미 이름이 정의된 주성분을 제시하는 경우에는, 해당 주성분을 유도한 수식을 확인해 서 적절하게 정의된 이름인지를 점검해야 한다.
- 주성분 분석의 목적은 단지 중요하지 않거나 흥미롭지 않은 변수를 제거 하는 것이 아니다. 하지만 이런 실수를 너무나 자주 접한다. 주성분은 원 데이터의 변수를 이용해 만들기 때문에 아무것도 제거되지 않는다. 운동 선수 사례에서도 원 데이터의 모든 변수들은 그룹을 형성해 4가지 주성분 인 근력, 민첩성, 지구력, 건강상태를 새로 만들었다. 주성분 분석으로 만 들어지는 데이터는 원 데이터와 행과 열의 수가 같다. 즉 같은 크기다. 정 보가 크지 않은 주성분의 제거 여부는 분석가에게 달려 있고 절대적으로 옳은 방법은 없다. 주성분 분석 결과를 보고받으면 주성분의 수를 어떻게 결정했는지 물어봐야 한다.
- 마지막으로, 주성분 분석은 분산이 크다면 변수들 사이에 흥미롭고 중 요한 정보가 존재할 것이라는 가정에 의존한다. 어떤 경우에는 괜찮은 가 정이지만 항상 그렇지는 않다. 예를 들어 하나의 변수가 큰 분산을 가질 수 있지만 실질적으로는 중요하지 않을 수 있다. 각 선수의 출신 고향 인구 수 를 데이터의 변수로 추가한다고 가정해 보자. 이 변수의 분산이 크더라도 선수의 체력과는 아무런 관련이 없을 수 있다. 주성분 분석은 큰 분산을 중 요하게 고려하기 때문에 어떤 변수가 실제로는 중요하지 않을 때조차 중요 하다고 여길 수도 있다.

- 비지도학습은 데이터가 스스로 군집을 조직하는 방법이라고 설명했다. 처음 시작할 때도 이런 말을 했 지만 그건 말처럼 쉽지 않다는 주석도 달았다. 데이터에서 군집을 발견하 는 능력은 강력한 힘이지만 큰 힘에는 무거운 책임이 따른다는 교훈도 명 심하기 바란다.
특정한 방식으로 데이터를 분류하는 능력은 알고리즘 선택과 알고리 즘 작동 방식, 데이터의 품질, 그리고 데이터에 내재된 분산 등이 합쳐져 서 만들어내는 결과물이다. 이 말은 선택이 달라지면 다른 그룹이 만들어질 수 있다는 의미다. 솔직하게 말하면 비지도학습 또한 많은 지도가 필요하다. 컴퓨터에게 명령을 내리기만 하면 데이터가 알아서 그런 작업을 수행한다 면 문제가 없다. 하지만 여러분은 많은 결정을 내려야 한다. 

- 회귀 분석은 환상적으로 강력한 분석 도구 중 하나다.
상대적으로 사용하기는 쉽지만 제대로 잘 쓰기는 어렵다.
게다가 잘못 쓰면 위험한 방법이기도 하다.
(찰스 윌러(Charles Wheelan), 『벌거벗은 통계학 중에서)

- 머신러닝 알고리즘이 바에 들어왔다. 바텐더가 무엇을 마실 건지 묻자 알고리즘이 답했다. “다른 사람들은 뭘 마시나요?"
(쳇 하스Chet Hasse(@chethaase) / 구글 그래픽 팀 엔지니어)

- 앙상블 모델
수십 번, 많게는 수천 번 알고리즘을 실행해서 나온 다양한 예측 결과를 합친다는 의미에서 앙상블ensemble이라는 이름이 붙은 앙상블 모델은 정교 한 수준에서 의미 있는 예측이 가능하기 때문에 데이터 과학자들 사이에 서 인기가 높다.
특히 랜덤 포레스트random forest와 그래디언트 부스트 트리gradient boosted tree. 최근 데이터 과학자들이 가장 선호하는 모델로 급부상했다. 두 모델은 캐 글(Kaggle.com)에서 우승한 팀이 가장 많이 사용한 것으로도 알려져 있다. 캐글은 기업이 데이터셋을 제공하고 가장 정확한 모델을 개발한 팀에게 거 액의 상금을 포상하는 일종의 경진대회다. 

- AI는 새로운 산업혁명의 시작이라고들 한다. 딥러닝이 새로운 혁명의증기기관이라면 데이터는 이 기계에 전력을 공급하는 원료다. 데이터 없이는 그 어떤 것도 불가능하다.
(프랑소와 숄레(François Chollet). AI 연구자 겸 케라스 창시자에게 배우는 딥러닝」 저자)

- 인간의 사고 체계를 설명하기 복잡한 것처럼 신경망도 마찬가지다. 실제 로 신경망의 은닉층은 여기에서 설명한 것처럼 사람이 해석할 수 있을 만 큼의 표현(학업성취도, 경험, 업무지식)을 만들어내 못할 가능성이 높다. 게 다가 층과 뉴런이 많이 추가될수록 신경망은 훨씬 더 복잡해진다. 층과 뉴 런이 많아질수록 이해하기도 어렵기 때문에 이를 일컬어 '블랙박스 모델' 이라고 말하기도 한다.
따라서 신경망을 굳이 인간의 두뇌와 비교해 설명하는 과장된 비유 방식 에 얽매일 필요가 없다. 좀 더 실제적으로 설명하자면, 신경망은 주로 지 도학습(분류 또는 회귀)에 사용되며 입력 데이터의 새로운 표현을 발견해 예 측을 더 잘하도록 만드는 거대한 수식이라고 말할 수 있다. 
- 딥러닝 응용 사례
딥러닝이란 2개 이상의 은닉층을 포함하는 인공 신경망을 활용하는 알고 리즘 부류를 말한다(인공 신경망을 더 멋지게 브랜딩한 것이다). 신경망을 더 깊게 만든다는 아이디어(그림 12.3의 모델을 더 넓게 확장시키는 것처럼)는 은닉층을 계속 쌓고, 이전 층의 출력 값을 다음 층의 입력값으로 사용한다는 의미다. 각 층에서는 데이터를 새롭게 추상적으로 표현하고 입력 데이터셋 으로부터 미묘한 피처를 점점 더 효과적으로 생성한다.
이 과정은 복잡하며, 늘 쉽지는 않았다. 1989년 얀 르쿤이 이끄는 연구 팀은 컴퓨터가 손으로 쓴 숫자 이미지를 입력받아 자동으로 숫자를 인식하 는 딥러닝 모델을 개발했다. 당시 목표는 우편물에 적힌 우편번호를 자동 으로 인식하는 것이었다.
당시 개발된 신경망 모델은 1,200개 이상의 뉴런과 거의 1만 개의 파라 미터를 포함했다(앞서 290쪽 수식 (2) 모델의 파라미터가 5개뿐(학점, 학년, 전 공, 비교과활동수, b)이라는 사실과 비교해 보자. 얀 르쿤 연구팀은 모델의 학 습을 위해 숫자가 미리 표기되어 있는(레이블) 수천 개의 손글씨 숫자 이 미지 데이터를 활용했다. 모든 작업은 1980년대 당대의 기술로 진행됐다. 딥러닝의 성공을 위해서는 강력한 컴퓨팅 능력(연산력)과 레이블이 지정 된 거대한 데이터셋, 그리고 인내심이 필요했다. 딥러닝 연구가 진행되는 동안 (1) 당시 가장 빠르고 비싼 컴퓨터에서도 딥러닝 모델을 학습하는 데 는 너무 많은 시간이 걸렸고, (2) 레이블이 지정된 데이터셋을 확보하기 어 려웠기 때문에 수년을 기다려도 획기적인 성과가 나오지 못했다. 인내심만 으로는 한계가 있었다.
- 그러다가 2010년대에 이르러 빅데이터(인터넷 덕분이다), 개선된 알고리 즘(로지스틱 함수보다 더 나은 활성화 함수들), 그래픽 처리 장치(GPU)가 하나 로 묶이면서 딥러닝 혁명이 시작됐다. GPU는 모델의 학습 시간을 100배 나 단축시켰는데, 1,000개의 파라미터를 학습시키는 데 몇 주에서 몇 달 까지 걸리던 시간이 갑자기 몇 시간, 며칠로 줄었다. 이후 딥러닝의 성공 사례는 눈덩이처럼 불어났다. 특히 텍스트, 이미지, 오디오 같은 비정형 데 이터를 이용해 얼굴을 인식하고 레이블을 자동으로 지정하거나 오디오를 텍스트로 변환하는 일까지 다양한 분야에서 성과가 나타나기 시작했다.
- 학적으로 합성곱이란 각기 다른 용도가 있는 여러 돋 보기로 사진을 분석하는 것과 같다. 돋보기로 이미지를 왼쪽에서 오른쪽, 위쪽에서 아래쪽으로 움직이면 선, 모서리, 둥근 모서리, 질감 같은 부분적 인 패턴을 발견할 수 있다(그림 12.7 참조). 합성곱은 이미지의 한 부분에 해 당하는 픽셀 값들을 수학적으로 계산해 이미지의 가장자리(예를 들어 큰 픽셀 값 바로 옆의 값이 0인 경우) 또는 다른 패턴을 찾는 과정이다. 합성곱 처리 후 모델 학습용 데이터 크기를 줄이기 위해 인접한 여러 픽셀의 값을 하나 의 픽셀 값으로 줄이는 풀링pooling이라는 과정을 거친다. 풀링 과정을 통해 인접한 픽셀 집합의 가장 두드러진 피처feature를 찾을 수 있다.
합성곱으로 수평 또는 대각선 가장자리 같은 부분적인 패턴을 찾고 나 면, 은닉층의 뉴런들은 중요한 정보 조각들을 맞추고(수학적인 의미에서), 최종 출력과 관련 없는 정보를 걸러낸다. 신경망이 사진 속에 아이가 있는 지, 두 사진 속 인물의 얼굴이 다른지 구분하는 방법을 학습할 수 있도록 데이터는 은닉층을 거치며 왜곡되고 변형된다. 자율주행차는 정지된 차와 움직이는 차, 보행자와 도로공사 현장 인부, 정지 표지판과 양보 표지판의 차이를 구분하는 학습을 한다.
합성곱 신경망에 입력되는 값의 수를 줄일 뿐만 아니라(수십억 개의 숫 자를 추정하는 일은 가능하면 피해야 하지 않겠나?) 전체 이미지에서 유사한 피 처를 찾아낸다. 정형 데이터에서 피처의 위치가 고정되어 있는 것과 달리, 이 미지 데이터의 피처는 전체 픽셀에서의 위치까지 분석돼야 한다. 이 덕분에 SNS는 게시된 사진 속에서 여러분의 얼굴을 정확히 찾아낼 수 있다.

- 전이학습(작은 규모의 데이터셋으로 학습하는 방법)
레이블이 지정된 이미지 데이터가 수백 장 정도로 작다면 전이 학습(transfer learning)을 적용해 효과를 볼 수 있다. 전이 학습은 일상적인 사물(풍선, 고양이, 개 등)을 구분하게끔 이미 학습된 모델을 이용하는 방법이다. 이미 학습된 딥러닝 모 델은 수천 개의 파라미터가 특정 종류의 이미지에 맞게 최적화돼 있다. 이미지를 처 리하는 신경망에서 앞쪽에 위치한 층은 형태나 선 등의 일반적인 표현을 학습하고 뒤쪽에 위치한 깊은 층에서는 다양한 가장자리와 선을 조합해 예상되는 출력 이미지 를 생성한다는 사실을 기억하자.
전이 학습의 핵심 개념은 마지막 층 몇 개를 제거하고 새로운 학습이 필요한 층으로 대체하는 것이다. 예를 들면 개나 고양이 이미지를 생성하는 선이나 테두리를 학습하 는 층 대신, 암 종양의 윤곽을 형성하는 모양을 학습하는 새로운 층으로 교체하는 것 이다. 다만 전이 학습을 이용하더라도 필요한 이미지(레이블이 지정된) 수를 10분의 1 수준까지 줄일 수는 있어도 수십 장의 이미지로 줄이지는 못한다.

- 첫 번째 원칙은 자신을 속이지 말아야 한다는 것이다. 자기 자신이야말로 가장 속이기 쉬운 상대다.
(리처드 P. 파인만(Richard P. Feynman) / 노벨상 수상 물리학자)

- 알고리즘 편향
머신러닝을 통해 더 많은 의사결정이 자동화되면서, 데이터와 컴퓨팅 세계에도 이미 내재된 편견이 존재한다는 사실을 깨닫고 있다. 이를 알고리즘 편향algorithmic bias7이라 부른다. 연구자와 조직들이 최근에야 알고리즘 편향 의 기원과 영향을 자세히 살펴보기 시작했지만, 이는 항상 데이터에 존재 해왔다. 알고리즘 편향은 현상 유지status quo의 산물일 때가 많아서 현 상황 에 근본적인 어려움이 발생하기 전까지는 감지하기가 어려울 수 있다. 그 래도 업무에서 알고리즘 편향을 인식하려는 노력을 기울인다면 훨씬 빨리 발견할 수 있다.

- 이전 장에서 인턴 지원자에 대한 데이터를 공유하고 그들이 면접 대상 에 올랐는지를 예측해 본 사례를 떠올려보자. 만일 데이터셋에 성별이 범 주형 변수로 포함됐는데 과거에 여성보다 남성이 더 많은 면접 대상에 오 른 이력이 있다면, 어느 알고리즘이든 이 관련성을 감지하고 활용해서 남 성에게 더 큰 예측 가중치를 부여하게 된다. 알고리즘에겐 이 모든 것이 0 과 1일 뿐이지만, 데이터 리드는 이런 편향이 아마존닷컴 같은 머신러닝 기술을 선도하는 최고의 기술 회사에서도 발생한다는 점을 알아야 한다." 알고리즘 편향은 아무리 선의를 지니더라도(혹은 중립적이라도) 어디서나 발생할 수 있음은 물론, 이미 발생하고 있음에 유의하라. 어떤 모델의 예측 도 최종적인 진실을 알려주지는 못한다. 모델을 이용한 모든 결과는 가정 의 산물이기 때문이다. 그리고 모든 관측 데이터는 이미 편향이 내재돼 있 음을 가정하고 분석을 진행해야 한다. 이미 실제로 그러하기 때문이다. 예 측을 수행하는 모델은 데이터에 이미 존재하는 편향과 고정관념을 영속화 하고 강화시킨다. 사고방식이나 태도를 바꾸는 것만으로 데이터 업무에서 편향을 찾아낼 수는 없다. 바로 지금 실행에 나서야 한다.'

- p해킹
"커피를 너무 많이 마시면 위암에 걸릴 위험이 높다. 이 결과는 0.05 의 유의수준에서 통계적으로 유의하다."라는 기사가 나왔다고 가정 해 보자. 10 앞서 7장에서 살펴봤듯이 유의수준 0.05의 데이터 신호 는 20번 중 1번의 비율로 거짓 양성 false positive이 나타남을 의미한다. p해킹p-hacking이란 통계적으로 유의한 p값을 발견할 때까지 데이터 의 여러 가지 패턴을 테스트하는 과정을 말한다. 연구자들이 커피 소 비와 뇌암, 방광암, 유방암, 폐암 등 100가지 이상의 암 사이의 상 관관계도 조사했다는 사실을 알게 된다면, 커피와 위암 간의 연관성에 대해 걱정이 좀 덜어질 것이다. 아무런 관련성이 없음에도 우연의 일치로 이 중 5가지가 통계적으로 유의한 p값을 보였을 수도 있 다. 이렇듯 유의한 p값만 보고되기 때문에 p해킹은 일종의 생존 편 향임에 주의하자.

- 사람들은 컴퓨터가 너무 똑똑해져서 세상을 지배할까 봐 걱정하지만, 진짜 문제는 컴퓨터가 너무 멍청한데 이미 세상을 지배해 버렸다는 사실이다.
(페드로 도밍고스(Pedro Domingos) / Al 연구자, 마스터 알고리즘』 저자)

- 책이나 사례를 통해서는 뭔가를 할 수 있다는 사실만을 배운다. 제대로 배우려면 직접 해봐야 한다.
(프랭크 허버트(Frank Herbert), 미국 작가)




'IT' 카테고리의 다른 글

보이지 않는 위협  (5) 2024.09.26
AI 인간지능의 시대  (0) 2024.08.18
AI예감  (3) 2024.07.28
크립토사피엔스와 변화하는 세상의 질서  (3) 2024.01.31
챗 GPT전쟁  (1) 2023.12.26
Posted by dalai
,

20240802

Quote of the day 2024. 8. 2. 07:15

'Quote of the day' 카테고리의 다른 글

20240804  (0) 2024.08.04
20240803  (0) 2024.08.03
20240801  (0) 2024.08.01
20240731  (0) 2024.07.31
20240730  (0) 2024.07.30
Posted by dalai
,