'2024/03/27'에 해당되는 글 2건

  1. 2024.03.27 수학의 힘 3
  2. 2024.03.27 20240327

수학의 힘

과학 2024. 3. 27. 06:59

- 헝가리 출신의 다재다능한 미국인 수학자 존 폰 노이만 John von Neumann 은 "나는 매개변수 4개로 코끼리를 만들 수 있고 5개로는 코끼리가 몸을 움찔 거리게 만들 수 있다”라고 말했다. 이 말은 항이 많은 다항식 같은 모델들 의 집합이 충분히 많으면 거의 모든 행동을 나타내는 함수를 만들 수 있다 는 뜻이다. 하지만 그런 곡선은 현실세계에 관한 유용한 내용을 알려주지 않는다. 따라서 오컴의 면도날 Ockham's razor (어떤 사실이나 현상에 관한 설명들 가 운데 논리적으로 가장 단순한 것이 진실일 가능성이 높다는 원칙-옮긴이), 다시 말해 단순한 모델에 대한 보편적인 선호에 입각해 설명이 너무 복잡하고 정교하 다면 그것이 타당하다고 여길 특별한 이유가 없는 한 의심해봐야 한다.

- 일단 쪼개어 생각하라
위대한 물리학자 엔리코 페르미 Enrico Fermi의 이름을 딴 페르미 추정 Fermi estimation은 흥미로운 사고방식의 한 예로서, 실생활에서도 매우 유용하다. 페르미가 이 추론을 통해 거둔 가장 유명한 업적은 1945년 7월에 시행된 최초의 원자폭탄 실험에서 폭발 위력을 추정한 일이다. 그는 몇 장의 종이 를 떨어뜨린 뒤 폭발 충격파로 인해 얼마나 멀리 날아가는지를 측정해 결과를 알아냈다. 종이가 날아간 거리와 종이를 떨어뜨린 대략적인 높이를 가늠해 원자폭탄의 충격파가 종이에 가한 압력을 추산했다. 이어서 자신이 폭발 지점과 떨어진 거리를 추정하고, 폭발에서 얼마나 많은 에너지가 방 출돼야 해당 거리만큼 떨어진 종이에 자신이 추산한 압력이 가해지는지를 알아냈다. 놀랍게도 페르미는 이런 조잡한 방법으로도 오차범위가 최종 확 인값의 2배 이내에 있는 간단한 근삿값을 계산해냈다. 2020년 8월에 일어 난 베이루트 공항 폭발 사고에도 비슷한 방법이 적용됐다. 폭발 충격파로 인해 날아간 신부의 드레스가 담긴 영상을 바탕으로 폭발 규모를 추정해낸 것이다.
- 이 추론의 원리를 알아두면 좋다. 대표적인 사례가 "브리스틀에 피아노 조율사는 몇 명 있을까?"라는 오래된 면접 질문이다. 무작정 짐작해볼 수도 있지만 페르미 추정을 이용해 여러 단계로 나눠 생각해볼 수도 있다. 브리스틀에는 몇 명이 살까? 브리스틀 사람 중 몇 퍼센트에게 피아노가 있 을까? 피아노는 얼마나 자주 조율해야 할까? 피아노를 조율하는 데 시간이 얼마나 걸릴까? 사람들은 하루에 몇 시간, 1년에 며칠 일할까? 이 수치들을 하나씩 알아내면 최종 수치를 무작정 짐작한 것보다 더 합리적으로 추산할 수 있다. 그러고 나서 각각의 결과를 종합하면 질문에 적절한 답이 나온다. 예를 들어 브리스틀 인구가 대략 50만 명이라고 해보자. 그중 2퍼센 트에게 피아노가 있다고 하면 조율할 피아노는 약 1만 대다. 피아노는 1년 에 한 번 조율해야 하고 한 번 조율하는 데 1시간쯤 걸릴 것이다. 따라서 브 리스틀에 있는 모든 피아노의 조율 시간은 1년에 약 1만 시간이다. 보통 조율사는 하루에 8시간, 1년에 200일 일하므로 조율사 한 명이 1년에 약 1,600시간 일한다. 그렇다면 피아노 조율사가 브리스틀에 6명쯤 필요하지 않을까? 구글에 검색해보니 브리스틀에는 9~10명의 조율사가 있는 듯하 다. 정확히 맞히지는 못했지만 이 정도면 완전히 빗나간 답은 아니다.
페르미 추정은 이런 각각의 근삿값을 절묘하게 종합해 전체 문제에 대 한 답을 낸다. 분명히 각각의 근삿값이 정확하다고 보기는 어렵다. 하지만 여러 가지 근삿값을 올바르게 곱하면 대략적인 답을 얻을 수 있다. 합리적 으로 생각해보면 각각의 근삿값이 너무 크거나 너무 작을 확률이 엇비슷하 기 때문에 오차가 서로 상쇄되는 경향이 있다. 따라서 도출한 최종값은 놀 라울 정도로 정확할 수 있다.

- 로그스케일을 사용하면 영국의 팬데믹 전개 양상을 빠르게 이해할 수 있다. 다음 그래프는 2020년 3월에서 2022년 6월까지의 일일 사망자 수 그래프이며 6가지 국면이 나타난다.
첫 번째 국면에서는 Ro가 3에 가까우며, 일일 사망자 수가 대략 지수적으로 증가하면서 가파르게 상승하는 직선을 그리다가 사회적 거리두기 의 효과로 약간 평평해진다. 이어서 두 번째 국면에서는 2020년 9월 초까 지 지수적 증가보다 느린 지수적 붕괴가 나타난다(내려가는 직선). 봉쇄 가 시행되어 Ro가 1 밑으로 내려가면서 사망자 수는 감소했다. 세 번째 국 면은 2020년 9월부터 2021년 1월까지로 더욱 복잡한 양상을 보인다. 전반 적으로 기울기는 덜 가파르지만 여전히 일정하게 지수적으로 증가하는 단계로서, Ro는 다시 1을 넘었다. 하지만 제2차 전국 봉쇄의 효과가 나타나면 서 켄트에서 발견된 알파 변종이 확산되기 전에 잠시 사망자 수 곡선이 평 평해진 것을 확인할 수 있다. 2021년 1월 이후의 네 번째 국면에서는 백신 접종과 제3차 봉쇄의 효과가 이어지면서 지수적 붕괴가 일관되게 나타났 다. 다섯 번째 국면은 2021년 6월 초반부터로, 델타 변종의 확산과 전국적 인제한 조치 완화로 인해 사망자 수가 지수적으로 증가했다. 마지막으로 2021년 9월 이후 영국의 사망자 수는 유동적인 국면으로 접어들었다. 새 변종이 출현하면서 지수적 증가와 백신 추가 접종으로 인한 지수적 붕괴가 비교적 짧은 주기 동안 교대로 나타났지만 추세에 전반적인 방향성은 나타 나지 않았다.
감염자 수는 앞에서 살펴본 박테리아 사례처럼 영원히 증가하지는 않는다. 4장에서 설명할 전염병 확산 모델에 따르면, 면역력이 있는 사람들의 비율이 증가하면서 로그스케일의 감염자 수 직선이 저절로 평평해지기 시 작한다. 인구 중 25퍼센트가 감염된 뒤 면역력을 갖게 되면, 이전에는 새로 감염됐을 접촉자 중 4분의 1이 더 이상 감염되지 않기 때문에 Ro가 낮아지 는 것이다.
실제로 충분히 높은 비율의 인구가 감염되고 나면 그 효과로 Ro는 1밑 으로 떨어지고 당연히 전염병의 확산 규모가 줄어든다. 이것이 바로 사람 들이 HIT를 논의할 때 언급하는 효과다. 하지만 전통적인 전염병 모델에 따 르면 집단면역의 효과가 나타나기까지는 인구의 상당수가 감염돼야 한다.

- 골드만삭스 Goldman Sachs의 최고재무책임자는 2007년 9월 <파이낸셜타 임스 Financial Times》와의 인터뷰에서 이렇게 말했다. “며칠 연속으로 25 표준 편차 변동이 발생했습니다." 무슨 뜻인지 설명하겠다. 어떤 정규곡선에서 기댓값으로부터 2 표준편차(분포 정도를 나타내는 또 다른 값, 분산의 제 곱근)를 벗어난 결괏값이 나올 확률은 약 5퍼센트다. 정규곡선에서 기대값 보다 굉장히 큰 결괏값이 나올 확률은 급격하게 감소한다. 따라서 기댓값 으로부터 25 표준편차만큼 벗어난 결과값이 나올 확률은 약 10-136으로 어 마어마하게 작은 수다. 며칠 연속은 고사하고 우주가 존재하는 한 이런 일이 일어날 것이라고는 상상도 하지 못한다. 저 말은 골드만삭스의 예측 모 델이 틀렸으며, 세계 경제에 재앙을 일으킬 극단적인 사건의 발생 확률을 과소평가했다는 뜻이다. 따라서 데이터세트를 볼 때는 중앙값과 양쪽 분포 뿐 아니라 극단값을 함께 파악해야 한다. 모델을 설계할 때 표준적이지만 틀린 가정을 하는 바람에, 세계 금융시장 붕괴라는 매우 심각한 사건이 발 생할 가능성을 안이하게 평가하고 말았다. 똑같은 일이 기후변화에서도 일 어날 수 있다.

- 무작위적인 대상을 0과 1의 수열을 이용해 효과적으로 표현할 수 있는 개념을 데이터압축 data compression 이라고 한다. 결과의 리던던시 redundancy (중복 성이라는 뜻과 더불어 데이터를 전송할 시 신뢰도를 높이기 위해 추가하는 잉여 정보 를 가리킨다-옮긴이) 또는 예측 가능성을 찾아내 제거함으로써 비트를 더 적 게 사용해 표현하는 방법이다. 스마트폰 카메라가 저장하는 데 수억 비트 가 필요한 사진을 찍을 때 이런 과정을 거친다. 데이터압축 덕분에 필요한 비트의 몇 퍼센트만 차지하는 jpg 파일을 만들 수 있다. 핵심은 이미지를 예측할 수 있다는 것이다. 예를 들어 파란색 픽셀이 푸른 하늘이라는 큰 영역의 일부라면 그때 이웃한 픽셀들은 편향된 동전처럼 어느 정도 예측할 수 있다.
하지만 분자들이 일정한 공간을 차지하기 때문에 실내의 모든 공기를 완전한 진공 상태로 압축할 수 없듯이, 섀넌은 데이터를 압축하는 데에 한 계 지점이 있다고 봤다. 이는 엔트로피에 따라 결정된다. 예를 들어 섀넌에 따르면 어떤 편향된 동전도 결코 한 번 던질 때 필요한 비트가 평균 0.5 비 트미만이 될 수 없다.

- 도프만은 미군에 입대하는 남성의 매독 검사에 참여했다. 당시의 매독 검사는 비용이 많이 들었고 매독 발병 자체도 드물었다. 검사 방법을 고민 하던 도프만은 한 번에 한 명씩 검사하는 대신에 여러 명의 검체를 합쳐 집 단별로 한꺼번에 검사해도 된다는 사실을 깨달았다. 한 집단에서 아무도 매독에 걸리지 않았다면 해당 집단의 검체에는 매독균이 없으므로 검사 결 과는 음성일 것이다. 모든 병사가 매독에 걸리지 않았음을 알게 되는 데 단 한 건의 비용만 들 뿐이다.
한편 집단에서 누군가가 매독에 걸렸다면 검체에는 매독균이 있을 것 이며 검사 결과는 양성일 것이다. 그러면 해당 집단의 어느 병사가 매독에 걸렸는지를 알아내기 위해 조사해야 한다. 감염자를 찾으려면 해당 집단의 각 개인을 다시 검사하면 된다.
도프만은 질병의 유병률이 낮을 때 이 전략이 꽤 효과적임을 알아냈 다. 대부분의 집단에는 감염자가 없을 테니, 그 구성원 모두가 단 한 번의 검사로 비감염자인 것을 확인할 수 있다. 추가로 개인 검사를 할 수도 있겠 지만 이런 경우는 드물다. 따라서 이 방법으로 검사 횟수를 상당히 줄일 수 있었다.
도프만의 아이디어가 대규모로 실행되지는 못했지만 이후 수학자와 생물학자의 관심을 끌었다. 도프만의 단순한 방법보다 더 나은 검사 전략 을 설계하고 집단에서 누가 감염됐는지를 확인하는 효율적인 방법을 찾으 려는 노력은 학계 차원에서 꾸준히 이뤄졌다. 이러한 집단검사는 생물학과 사이버보안, 통신 등에도 적용됐다.
집단검사에서 가능성의 한계를 이해하는 일은 지금도 활발하게 연구 되지만 섀넌의 연구를 통해 한 가지 핵심 고려 사항을 알 수 있다. 각각의 검사에서 최대한 많은 정보를 얻으려면 양성 · 음성 진단 확률이 엇비슷해 야 한다. 그래야 검사당 1비트의 정보를 모두 얻을 수 있기 때문이다. 게다 가 비트들을 합산하기 위해 연속적으로 시행한 검사 결과들은 최대한 독립 적이어야 한다. 따라서 비슷한 사람이 모인 집단을 검사해 비용을 낭비하 지 말고 많이 겹치지 않는 사람들을 섞은 표본을 검사한다. 이런 검사 전략 은 결과가 독립적이며 발생 확률이 같아야 한다는 섀넌의 목표에 부합한 다. 이렇게 하면 편향된 동전 던지기보다 공정한 동전 던지기 결과와 더 가 까워진다.
- 또 다른 과제가 있다. 지금까지 설명했듯이 이 검사는 한 집단에 감염자가 있으면 반드시 결과가 양성으로, 없으면 결과가 음성으로 나올 것이 라는 점에서 완벽하다고 가정한다. 하지만 이것은 이론적으로만 가능하다. 8장에서 살펴봤듯이 검사에서는 거짓음성과 거짓양성이라는 오류가 생길 수 있다. 이 문제는 검체가 합쳐지면서 더 심각해진다. 한 양성 검체가 많 은 음성 검체에 휩쓸려 감염이 드러나지 않는 '희석dilution' 효과가 일어나 거짓음성이 발생할 가능성이 높아지기 때문이다.
이런 소음의 문제는 집단검사 알고리즘의 관점에서 보면 충분히 해결 할 수 있다. 이와 관련된 이론이 계속 발표되고 있으며 정보이론의 개념들 이 이를 뒷받침한다. 또한 이는 최근 몇 년 동안 내가 연구하고 있는 분야이기도 하다. 이 모든 이론 연구를 바탕으로, 팬데믹 기간 동안 집단검사가 중국, 이스라엘, 르완다, 미국 일부 지역에서 대규모로 활용됐고, 코로나바이 러스 검사 효율이 예전보다 훨씬 좋아졌다. 섀넌의 개념들이 이 분야에도 긍정적인 영향을 끼쳤다는 생생한 증거다.

- 패턴은 생각보다 흔치 않고, 기적은 생각보다 흔하다
데이터를 추적하다 보면 인간이 놀라울 정도로 수치에 서사를 부여하고 싶 어한다는 것을 알게 된다. 예를 들어 선거 운동 기간에 한 정당이 성공하는 데 관심이 있는 사람들은 실제로는 무작위 변동의 결과일 뿐일 수도 있는 여론조사 데이터에 패턴이나 추세가 있다고 확신한다.
금융계에서도 비슷한 현상을 볼 수 있다. 10장에서 봤듯이 주가에 관 한 자연스럽고 성공적인 모델은 브라운운동이다. 이는 독립적인 동전 던지 기의 연속적인 결과를 토대로 나타나는 현상이며, 랜덤워크와 비슷하게 앞 으로 주가가 올라갈지 내려갈지에 대한 가능성은 각각 같고 대칭적으로 변동한다. 주가가 정말로 브라운운동으로 모델링된다면 본질적으로 예측할 수 없다는 뜻이다. 그런데도 증시 분석가들은 너나 할 것 없이 금융 데이터 의 궤적에서 특별한 패턴을 찾아내 앞으로 어떻게 변동할지 예측하려고 한 다. 이것이 훌륭한 전략일지는 확실치 않다.
인간이 무작위적인 수를 생성하는 데 능숙하지 않은 것처럼, 어떤 수가 진짜로 무작위적인지 판단하는 데도 능숙하지 않다. 동전을 200번 던진 결 과 앞면이 7번 연속 나왔다면, 동전이 공정하지 않다거나 결과가 독립적으 로 생성되지 않았다는 확실한 증거라고 생각하기 쉽다. 하지만 이 정도 시 행 결과는 무작위적 우연으로 일어난다고 예상할 만한 범위다. 오히려 앞 면이 6~7번 연속으로 나오지 않는 경우가 더 이상하다.
우연이 예상보다 훨씬 발생 가능성이 높은 또 다른 경우는 생일 문제다. 방에 23명이 있을 때 그중 2명의 생일이 같을 확률은 대략 50퍼센트다.
방에 40명이 있을 때는 확률이 90퍼센트로 높아지고 60명일 때는 99퍼센 트가 넘는다. 이처럼 우연히 생일이 같을 확률은 예상보다 훨씬 높다. 다시 말해 23명이 있을 때 생일이 같을 수 있는 사람들의 쌍은 253가지이므로, 우연히 생일이 같을 경우의 수가 253가지다. 60명이라면 1,740쌍이 있으 므로 생일이 같은 경우가 없기가 오히려 어렵겠다.







'과학' 카테고리의 다른 글

왜 우리는 세계를 있는 그대로 보지 못하는가  (1) 2024.04.06
최강의 브레인 해킹  (2) 2024.04.06
뉴럴 링크  (1) 2024.03.25
최소한의 과학공부  (7) 2024.03.19
식물은 어떻게 작물이 되었나  (11) 2024.03.15
Posted by dalai
,

20240327

Quote of the day 2024. 3. 27. 06:57

'Quote of the day' 카테고리의 다른 글

20240329  (0) 2024.03.29
20240328  (0) 2024.03.28
20240326  (0) 2024.03.26
20240325  (0) 2024.03.25
20240324  (0) 2024.03.24
Posted by dalai
,