수학보다 데이터 문해력

과학 2023. 4. 13. 18:49

- 미국의 대통령 선거와 국회의원 선거 결과를 정확하게 예측한 것으로 유명한 미국의 통계학자 네이트 실버(Nate Silver)는 데이터에 신호와 소음이 섞여 있다고 말한다. 방대한 데이터에서 신호를 찾는 것은 마치 모래밭에서 바늘을 찾는 것과 다를 바 없다. 바늘을 찾기 위해 모래밭을 전부 뒤집어볼 수도 없다. 숨은 바늘을 찾는 과학, 데이터 밭에서 소음은 걸러내고 신호를 찾는 과학 이 곧 통계학이다.
- 한 사람의 인생처럼 불확실한 것은 없지만, 천사람의 인생의 평균처럼 확실한 것도 없다. (엘리저 라이트(Elizur Wright))
- 프랑스 수학자 아브라함 드무아브르(Abraham de Moivre)가 처음 발견하고, 라플라스가 처음 증명한 이 사실에 '중심극한정리'라는 이름이 붙은 것은 세계적인 수학자 폴리아(George Polya) 때문이라고 한다. 어떤 분포의 변동이 라도 아주 많이 더해지면 정규분포를 따른다는 사실은 경험적으로 확인된 사실이자 수학적으로 증명된 필연적 인 사실이다. 정규분포가 정상적인 사람들의 통계 법칙 인지는 모르겠지만 통계학자들에게 가장 중요한 법칙인 것은 확실하다.
- 경제력과 흡연같이 숨어 있으면서 겉에 드러난 두 변수에 동시에 영향을 미치는 변수를 '혼선 변수'라고 한다. 두 변수에 영향을 미쳐 '중첩 변수', 숨어 있다는 뜻으로 '잠복 변수', 이외에 교란 변수, 혼재 변수 등으로 부르 기도 한다. 어떤 이름으로 부르든 진짜 원인을 알아내기 어렵다는 뜻을 내포한다. 이처럼 상관관계를 파악하기 란 어느 정도 용이하지만 인과관계를 밝히는 것은 꽤 까 다롭다.
현상을 예측만 할 때는 상관관계만으로 충분하다. 초콜릿 소비가 많은 나라는 여전히 강대국이며 과학 연구에 대규모 투자를 한다. 다음 노벨상을 받을 가능성이 큰 나라는 그래서 초콜릿 소비를 많이 하는 나라이다. 다만 현실을 개선할 때는 상관관계만으로 부족하다. 숨어 있는 진짜 원인을 알아야 정확하게 처방할 수 있다.
- 오늘을 다시 살기 위해 쓰는 방법 중 하나는 수학이다. 매일 다른 오늘에 생성될 '데이터'가 무엇일지 확률분포를 이용한 모형으로 만들어 수리적 계산으로 B의 추정값의 확률분포를 찾는다. 이것이 가능하려면 데이터를 생성할 모형이 필요하다. 데이터가 정규분포를 따른 다는 '가정'은 사실 수리 통계적 계산이 가능하도록 데 이터 생성 모형을 정규분포로 정한 것에 불과하다.
오늘을 다시 사는 다른 방법은 작은 '멀티버스'를 소환하는 것이다. 원래 물리학 용어였지만 그 개념이 영 화나 만화에서도 많이 쓰여 익숙한 멀티버스는 무한히 많은 다중 우주가 사람들 모르게 존재한다는 가설이다. 오늘 우리가 가진 데이터는 어떤 모집단에서 랜덤하게 뽑힌 표본이다. 오늘을 다시 산다면 그 모집단에서 다른 표본이나 데이터를 얻을 것이다.
- 모집단은 그 자체로 우리가 알 수 없는 것이므로 실제로 다른 표본을 얻는 것은 불가능하다. 여기서 발상의 대전환이 요구된다. 우리가 가진 오늘의 데이터 는 작은 우주이다. 이 작은 우주를 마치 '모집단'인 것처 럼 생각하고 이 작은 모집단에서 새로운 데이터를 관측 한다면 어떨까? 이미 관측된 2,000명으로 이루어진 이 작은 우주에서 역시 2,000명으로 이루어진 새로운 우주 를 생성한다. 전체가 옮겨가면 두 우주가 같아지므로 그 중 일부를 '복사해 새 우주를 만든다. 복사하기 때문에 어떤 사람은 새로운 우주에서는 2명, 3명이 될 수도 있 다. 이 과정은 우연에 맡긴다. 어떤 사람은 새로운 우주 에 복사되지 않는다. 이 역시 우연이다. 이런 식으로 하 면 서로 다른 2,000명으로 이루어진 새로운 우주를 (거의) 무한하게 만들 수 있다. 이렇게 우리는 작은 멀티버스를 소환했다.
멀티버스의 무수히 많은 우주에서는 서로 다른 B의 추정값이 계산된다. "오늘을 다시 살 때 B의 추정값이 어 떻게 달라질 수 있었을까?"에 대한 답을 멀티버스의 서로 다른 B의 추정값이 어떻게 다른지 조사하는 것으로 대체한다. 이를테면 멀티버스의 추정값들이 0.5~1.5 사이라면 미지수 P가 양수임을 확신할 수 있는 셈이다.
이처럼 작은 멀티버스를 소환하는 방법을 '부트스 트랩(bootstrap)'이라고 한다. 서양식 장화(boot) 뒤축에 달린 끈(strap)이란 뜻이다. 원래는 알 수 없는 추정량의 변동을 주어진 데이터에서 다시 표집해 알아내는 방법이 마치 장화를 신은 사람이 자기 장화 끈을 잡고 끌어당겨 하늘을 나는 것 같다는 뜻에서 지어졌다. 영국의 SF 소설가인 아서 클라크의 "과학은 이해하기 전까지는 마법이다"가 떠오르는 이름이다.
- 부트스트랩이 개발된 것은 1980년대이다. 이보다 이른 1930년대에 피셔는 주어진 데이터를 뒤섞어 멀티버스 를 만드는 방법을 고안했다. 가설검정에 많이 쓰여 '뒤 섞기 검정'이라고 불리는 방법이다. 그러나 이런 방법 들은 20세기에는 널리 쓰이지 못했다. 작은 멀티버스를 생성하는 데 드는 힘과 노력이 상당했기 때문이다. 하지 만 21세기에는 널리 쓰이고 있다. 컴퓨터 시뮬레이션을 이용해 손쉽게 멀티버스를 만들 수 있기 때문이다. 통계 는 오늘을 다시 사는 마법 같은 우주이다.

- 하버드 대학교의 역학 전공 교수이자 미국 질병청의 전염병분석센터 소장인 마크 립시치(Marc Lipsitch)는 "불확실 성 앞에서 스스로 변화할 수 있는 겸손한 과학이 좋은 과학이다”라고 말했다. 그가 말하는 전염병분석센터의 철학을 그대로 옮긴다.
"더 나은 분석과 더 나은 데이터를 통해 불확실성을 개선함과 동시에 불확실성 하에서 최선의 의사결정을 내리는 것이다. 이와 함께 밝혀지지 않은 것이 무엇인지 인지하고 이로 인한 결과를 명확히 소통하는 것이다."
- 빅데이터는 21세기의 보물섬이다. 그 크기가 엄청난 만큼 여러 보물이 숨겨져 있다. 동시에 쓰레기도 많이 섞여 있다. 그렇게 가늠하기 어려울 만큼 시끄러운 소음은 신호로 위장하기도 한다. 빅데이터를 의심해야 하는 또 다른 이유이다.
- 2019년 기준으로 월 300만 원 이상 공무원·사학·군인연금을 수령하는 국민은 무려 20만 명이 넘는다고 한다. 국민연금 수령자 중에는 0명이다. 국민연금이 봉이라는 다른 근거이다. 사실 자체는 맞지만 실상은 다르다. 대한민국의 연금 제도는 다른 선진국에 비해 상대적으로 그 역사가 짧다. 국민연금 제도는 1988년에야 시작 되어 대상이 전 국민으로 확대된 것은 그리 오래되지 않았다. 2022년 현재 은퇴자 대부분은 20년 미만의 납입이력이 있을 뿐이다. 이에 비해 공무원연금은 훨씬 오래 전부터 시행돼 수급받는 은퇴자들은 20년 이상 2배 넘 게 오랫동안 연금을 납입했다. 30년 이상 연금을 납부한 공무원연금 수령자와 20년 미만 연금을 납부한 국민연 금 수령자를 직접 비교할 수 없는 것이다. 이를 중도절 단의 오류라고 부른다.
미국의 블루스 가수는 대부분 늙어 자연스레 죽는데, 힙합 가수는 폭력과 마약 사건으로 사망한 비율이 높다면서 힙합 문화를 비하하는 것과 같은 오류이다. 힙합 가수는 대부분 아직 자연사할 나이가 되지 않았다. 공평한 비교가 아니다.
- "모든 (통계) 모형은 틀렸다. 그러나 일부는 쓸모 있다.”
영국의 통계학자 조지 박스(George Box)의 말이다. 데이터의 원천은 모집단이다. 이 모집단은 기술 하기 어려울 정도로 복잡한 자연현상을 나타낸 다. 아무리 복잡한 통계 모형이라도 자연현상 그 자체를 100% 정확하게 기술할 수 없다. 따라서 모든 통계 모형은 틀렸다.
- 나무를 보지 말고 숲을 보라는 말이 있다. 복잡 한 자연현상 그 자체보다 그 속에 숨은 대략의 신호를 파악하는 것이 어떤 본질을 파악하는 데 더 요긴하다는 경구이다. 그러니 모든 통계 모형은 틀렸지만 그중 일부는 신호를 파악하는 좋은 도구일 수 있는 것이다. 완벽한 통계분석은 없다. 다만 어떤 통계분석은 쓸모 있는 결론을 줄 뿐이다.
이 격언의 논리를 확장하면 비모수통계의 여러 방법은 모두 틀렸다. 그러나 몇몇 방법은 쓸모 있다. 데이터에 숨은 진짜 강력한 신호라면 스플 라인과 커널, 어떤 방법을 이용하든지 감지할 수 있는 것이다. 두 방법 모두 어느 정도 쓸모 있기 때문에 더 이상의 논쟁은 무의미했던 것이다.

- 통계학은 근사한 답을 찾아 나가는 과정이다. 여 기서 '근사'는 두 가지로 해석해주면 좋겠다. '거의 비슷하다'라는 뜻, 그리고 '보기에 좋다', '그 럴듯하게 괜찮다'라는 뜻. 자연현상과 가능한 한 '비슷한' 모형을 생각해낸 통계의 답이 역시 '그 럴듯하기도 하다. 정확하지 않으므로 편향이 있 다. 이 편향이 어느 방향으로 생길지 모르니 불 확실하다. 아무리 잘 근사된 모형이라도 자연에 내재된 무작위성은 불확실성으로 남는다.

'과학' 카테고리의 다른 글

믹스처 (5)	2023.05.31
반드시 다가올 미래 (2)	2023.05.13
자연은 협력한다 (1)	2023.03.09
흐르는 것들의 역사 (0)	2023.03.04
초월 (2)	2023.01.29