노이즈

인문 2022. 11. 10. 16:04

- 양형 기준을 수립하기 위한 프랑켈 판사의 투쟁을 통해 이 책에서 다루고자 하는 요점 몇 가지를 엿볼 수 있다. 첫째, 세상은 복잡하 고 불확실한 곳이기 때문에 판단을 내리는 것은 어렵다. 이런 복잡 성은 형사사법제도에 명확히 존재하고, 전문적인 판단이 요구되는 모든 상황에도 존재한다. 넓게 볼 때 복잡성이 존재하는 상황에는 의사, 간호사, 변호사, 엔지니어, 교사, 건축가, 할리우드 영화 제작 책임자, 인사위원회 위원, 출판사, 모든 회사 경영진 그리고 스포츠 팀 매니저가 내리는 판단이 포함된다. 그러므로 판단이 내려지는 곳 어디에서든 의견 차이는 피할 수 없다.
둘째, 의견 차이의 정도는 우리가 예상한 것보다 크다. 사법 재 량의 원칙에 이의를 제기하는 이는 거의 없지만, 거의 모두가 사법 재량으로 야기되는 양형 차이를 인정하지 않는다. 이상적인 상황이 라면 똑같아야 하는 판단에 뜻하지 않게 끼어드는 변산성 곧 제도 잡음 system noise은 만연한 불평등, 높은 경제적 비용과 다양한 오류를 초래할 수 있다.
셋째, 잡음은 줄어들 수 있다. 프랑켈 판사가 지지했고 미국양형 위원회가 실행했던 규칙과 가이드라인은 잡음을 성공적으로 줄일 수 있는 접근법이다. 판단 유형이 다를 경우에는 다른 접근법을 적 용하는 것이 더 효과적일 것이다. 잡음을 줄이기 위해 도입된 방법 중 어떤 것들은 편향도 함께 줄일 수 있다.
넷째, 잡음 축소 노력은 곧잘 반대에 부딪히고 심각한 어려움과 마주한다. 이런 이슈도 해결돼야 한다. 그렇지 않으면 잡음에 맞선 투쟁은 실패할 것이다.
- 그 누구도 얼마나 많은 오류가 (또는 얼마나 많은 편향이) 존재했는지 정확하게 말할 수 없다. 왜냐하면 보험계약의 적정 가치를 확실히 아는 이가 없기 때문이다. 그러나 표적의 위치를 모르더라도 과녁의 뒷면을 보고 분산도를 파악할 수 있으며 변산성이 문제임을 이해할 수 있다. 누가 보험료를 산정하느냐에 따라 보험료가 천차 만별일 수 있다는 사실이 데이터를 통해 확인됐다. 자신들의 동의 없이 이런 제비뽑기를 통해 보험료가 산정된다는 사실을 알고 기 뻐할 고객은 없을 것이다. 일반적으로 말해서 조직을 상대하는 사 람은 그 조직이 일관된 판단을 내리는 확실한 제도를 갖고 있으리라 기대하지, 제도 잡음을 기대하진 않는다.
- 다른 사람들의 예측을 종합할 때처럼 같은 사람의 예측 두 가지를 종합하면 진실에 더 가까워질 수 있을까? 이 질문에 대한 답은 '그렇다'이다. 불과 패슬러는 여기에 '내부 군중 crowd within 효과'라는 이름을 붙였다.
누군가가 두 번에 걸쳐 내린 예측의 평균이 독립적인 의견을 구 하는 것만큼 판단을 개선하진 않는다. 불과 패슬러는 “스스로에게 같은 질문을 두 번 했을 때는 다른 누군가에게서 두 번째 의견을 구할 때의 10분의 1 정도의 판단 개선 효과를 얻는다”고 말했다. 개선 효과가 그렇게 크지는 않다. 하지만 시간 간격을 두고 두 번째 예측을 하면, 개선 효과는 훨씬 더 커진다. 불과 패슬러는 3주가 흐른 뒤 실험 참가자들에게 같은 질문을 다시 던졌다. 그러자 판단 개선 효과가 다른 누군가의 두 번째 의견이 주는 개선 효과의 3분의 1로 상승했다. 추가적인 정보나 외부의 도움이 필요하지 않은 기법 임을 감안하면, 이것은 나쁘지 않은 결과다. 그리고 이 결과는 뭔가를 결정해야 하는 사람들에게 해주는 오랜 조언에 근거를 제공한다. ‘하룻밤 자고 나서 아침에 다시 생각해봐.'
- 많은 부수적인 요인이 판단에서 상황 잡음을 유발한다. 이러한 외적 요인들이 상황 잡음을 유발하여 전문적인 판단에 영향을 주어선 안 된다. 상황 잡음을 유발하는 주요 용의자가 둘 있다. 바로 스트레스와 피로감이다. 예를 들어 1차 의료기관 방문 70만 건가량 을 조사한 결과, 내과 의사들은 긴 하루가 끝나갈 무렵에 마약성 진 통제인 오피오이드를 처방할 가능성이 상당히 높은 것으로 나타났 다. 오후 4시에 진료를 잡은 환자가 오전 9시에 진료를 받는 환자 보다 더 큰 통증에 시달린다고 판단할 근거는 없다. 진료가 밀렸다. 는 사실이 의사의 처방에 영향을 미쳐선 안 된다. 하지만 실제로 비 스테로이드성 소염진통제와 물리치료 등 다른 통증 치료의 처방에 는 이와 유사한 패턴이 관측되지 않았다. 내과 의사들이 시간의 압박을 받을 경우, 심각한 부작용이 있는데도 즉효약을 선택하는 경향이 뚜렷하게 높게 나타났다. 다른 연구에 따르면 날이 저물어갈 때 내과 의사들은 항생제를 처방할 가능성이 높고, 독감 예방주 사를 처방할 가능성이 낮았다.  심지어 날씨도 전문적인 판단에 상당한 영향을 준다. 주로 전문적인 판단은 냉난방 시설이 갖춰진 실내에서 일어난다. 그러므로 날씨의 영향은 기분에 따라 '조정'될 것이다(다시 말해서 날씨가 의사결정에 직접적으로 영향을 주진 않지만 의사결정자의 기분을 바꿀 수 있고, 이것이 의사결정자의 결정을 바꾸게 된다). 날씨가 나쁘면 기억이 개선된 다는 주장이 있다. 날이 더우면 더 높은 형량이 구형되고, 주식시 장은 햇살이 좋은 날에 장이 좋다. 날씨의 영향이 덜 명백한 경우도 일부 있다. 우리 시몬슨uri Simonsohn은 대학 입학 사정관들이 흐린 날에 지원자들의 학업 성적에 더 관심을 기울이고, 맑은 날에 비학 업적 요인들에 더 민감하게 반응한다고 말했다. 그는 이런 연구 결과를 바탕으로 구름은 괴짜를 멋져 보이게 한다clouds Make Nerds Look Good〉라는 인상 깊은 제목의 논문을 발표했다. 사건이 검토되는 순서도 판단에서 무작위 변산성을 유발하는 요인이다. 사건을 검토할 때 앞선 검토 결과가 뒤에 이어지는 사건 에 대한 검토 결과에 암묵적으로 영향을 줄 수 있다. 판사, 대출 담당자와 야구 심판 등 전문가들은 차례차례 사건을 검토하고 연속적으로 판단을 내린다. 그들은 이 과정에서 일종의 균형을 회복하 려고 한다. 같은 방향으로 연이어 판단이 내려질 때, 정당한 이유보 다 앞선 결과 때문에 반대 방향으로 판단을 내릴 가능성이 커진다.
그래서 전문적인 판단에서 오류가 (그리고 불공평이) 불가피하다. 예를 들어 앞선 두 개의 망명 신청이 승인됐을 때, 미국의 망명 판사 들이 그다음 망명 신청을 승인할 가능성은 19퍼센트 낮았다. 앞선 두 건의 대출 신청이 거절된다면, 다음 사람의 대출 신청은 승인될 지도 모른다. 하지만 앞선 두 건의 대출 신청이 승인되었다면, 그 사람의 대출 신청은 거절됐을 수 있다. 이런 행동에서 도박사의 오류 가 관측된다. 도박사의 오류는 인지적 편향으로 연속적으로 같은 결과가 우연히 발생할 가능성을 과소평가하는 경향이다.
- 미국 등 여러 나라에서 형사사건은 대개 배심원 평결을 받는다(많 은 민사사건도 마찬가지다). 사람들은 숙의 과정을 거친 배심원단의 결 정이 배심원 개개인의 결정보다 더 현명한 것이길 바란다. 하지만 연구 결과, 잡음의 원천이 되는 뚜렷한 사회적 압박이 배심원 제도 에서 확인됐다. 그것이 바로 집단 극화 group polarization다. 집단 극화 란 사람들이 서로 대화하면서 본래 성향보다 더 극단적인 결론을 내리는 경향을 말한다. 예를 들어 일곱 명으로 구성된 그룹에서 대 부분이 파리에 사무실을 여는 것이 꽤 좋은 아이디어라고 생각한 다면, 토의를 거쳐 그 그룹은 파리에 사무실을 여는 것이 기가 막힌 아이디어라는 결론을 내릴 수 있다. 내부 토의는 확신과 결속 및 극 단주의를 강화시키고, 이를 강화된 열정으로 간주한다. 집단 극화 는 배심원단에서만 나타나는 현상이 아니다. 전문적인 판단을 내리 는 팀 역시 곧잘 극단으로 치닫곤 한다.
- 기업이나 정부 등 어느 곳에서든, 정보의 폭포와 집단 극화가 동 일한 문제를 놓고 고민하는 그룹들 사이에 큰 차이를 유발할 수 있 다. 개별 판단에 얼마나 많은 잡음이 있을 수 있는지 이제껏 보아온 만큼, 몇 안 되는 개인(첫 번째로 발언하거나 가장 큰 영향력을 지닌 어느 개인)의 판단에 따라 결과가 달라질 수 있다는 점은 특히나 우려스 럽다. 지금까지 수준 잡음과 패턴 잡음이 그룹 구성원들의 의견 차 이를 더 크게 만들 수 있음을 확인했다(우리가 예상했던 것보다 더 큰 차이가 나타났다). 그리고 피로감, 기분, 비교 대상 등 상황 잡음이 첫번째 발언자의 판단에 영향을 줄 수 있다는 사실도 확인했다. 집단 역학은 잡음을 증폭시킬 수 있다. 결과적으로 숙의 과정을 거치는 그룹은 그저 개별 판단의 평균을 구하는 통계적 그룹보다 더욱 잡 음 많은 판단을 내리곤 한다.  기업과 정부에서는 가장 중요한 결정이 일종의 숙의 과정을 거쳐 내려지는 경우가 많기 때문에 이런 위험을 각별히 경계해야 한다. 조직과 리더는 개별 구성원들의 판단에 잡음이 발생하지 않도 록 통제해야 한다. 또한 잡음을 증폭시키지 않고 줄일 수 있도록 숙의 그룹을 관리해야 한다. 앞으로 살펴볼 잡음 축소 전략은 이러한 목표를 달성하는 데 그 목적이 있다.
- 간소한 모델은 대부분의 사람들이 놀라워하는 다중회귀의 한 가지 특성에 기초를 둔다. 결과를 예측하는 데 강력한 요소가 되는 두 개의 예측 변수를 사용한다고 가정하자. 그것들의 결과와의 상 관계수는 각각 60(일치 백분율= 71%)과 55(일치 백분율= 69%)다. 이 두 개의 예측 변수는 서로 상관되고, 그 상관계수가 50이라고 가정 하자. 이런 경우에 두 개의 예측 변수가 최적으로 결합될 때, 얼마 나 정확한 추정값을 얻어낼 수 있을까? 이 질문에 대한 답은 꽤나 실망스럽다. 상관계수는 67(일치 백분율=73%)로 높아졌지만, 그렇 게 많이 개선된 것은 아니다.
- 이 사례는 일반적인 예측 규칙을 보여준다. 서로 상관된 두 개 이상의 예측 변수들을 결합하여 사용할 때의 예측의 정확도가 실 제 결과와 상관계수가 높은 예측 변수를 개별적으로 활용했을 때 의 예측의 정확도보다 크게 높지는 않다. 왜냐하면 현실에서 예측 변수들은 거의 항상 서로 상관되어 있기 때문이다. 이러한 통계적 인 사실 때문에 예측 변수가 최소한으로 사용되는 간소한 예측 모델이 많이 사용되는 것이다. 연산 과정이 거의 수반되지 않는 간단한 규칙이 많은 예측 변수가 사용되는 예측 모델보다 훨씬 더 정확 한 추정값을 제시했다.
- 단순한 모델을 사용할 때, 부러진 다리는 의사결정자들에게 중 요한 정보가 된다. 이 정보는 그들에게 단순한 모델을 무시해야 할 때와 무시하지 말아야 때를 알려준다. 단순한 모델이 검토할 수 없 는 결정적인 정보를 갖고 있으면, 예측 과정에 정말로 부러진 다리 변수가 발생한 것이고, 단순한 모델의 추정값은 무시되어야 한다. 반면에 이런 개인적인 정보가 부족하더라도 사람들은 때때로 단순 한 모델의 추정값을 반박한다. 이런 경우에 단순한 모델의 추정값 을 무시하고픈 충동은 동일한 예측 변수에 작용하고 있는 의사결 정자의 개인적인 패턴을 보여준다. 이러한 개인적인 패턴은 타당하지 않을 가능성이 높기 때문에, 의사결정자는 단순한 모델을 무시하는 일을 자제해야 한다. 의사결정자의 개입은 예측의 정확도를 감소시킬 수 있다. 머신러닝 모델은 부러진 다리와 같은 예외적 변수를 감지해낼수 있다. 우리가 생각한 것보다 훨씬 많이 포착할 수 있다. 이것이 머신러닝 모델이 매우 정확한 추정값을 도출해낼 수 있는 이유 중 에 하나다. 방대한 사례에 대한 거대한 데이터를 고려하면, 가령 영 화 관람자들의 행동을 추적하고 분석하는 모델은 실제로 영화를 보러가는 날 병원을 방문한 사람들은 그날 저녁에 영화를 보러 가지 않을 가능성이 높다는 사실을 찾아낼 수 있다. 이런 식으로 흔치않은 사건에 대한 예측의 정확도가 개선되면, 우리가 머신러닝 모델을 감독해야 할 필요성은 줄어들 것이다.  인공지능이 하는 일에는 마법과 이해가 개입되지 않는다. 인공 지능은 그저 패턴을 관측하고 예측할 뿐이다. 하지만 이러한 인공 지능의 능력에 감탄하는 동안에 기억해야 할 것이 있다. 인공지능 도 왜 다리가 부러진 사람은 그날 저녁 영화를 보러 가지 않는지를 이해하는 데 꽤 시간이 걸릴 것이다.
- 기계적 의사결정에 관한 이 짧은 여정을 요약하기에 앞서, 모든 종류의 규칙이 인적 판단보다 우월한 두 가지 이유를 알아보자. 첫째, 9장에서 말했듯이 최신의 더 정밀한 예측 모델 등 모든 기계적 예 측 기법은 인적 판단보다 더 정확한 판단을 내릴 수 있다. 개인적인 패턴과 상황 잡음의 결합은 인적 판단의 질에 너무나 큰 부담이 된다. 그래서 기계적 의사결정의 단순함과 무잡음은 상당한 장점이다. 그래서 그저 합리적일 뿐인 단순한 규칙이 일반적으로 인적 판단보다 더 정확한 판단을 내리는 것이다.
둘째, 유효한 패턴을 감지하고 단순한 모델의 예측력을 초월하는 복잡한 인공지능을 활용하기에 충분한 데이터가 이따금 마련되곤 한다. 인공지능은 이런 다량의 데이터를 활용하여 정확한 예측 을 해낸다. 이때 인공지능 모델은 잡음이 없음은 물론, 훨씬 더 많은 정보를 활용할 수 있다는 점에서도 인적 판단보다 유리하다.  이런 강점들과 그것들을 지지하는 막대한 양의 증거를 고려하면, 이 책에서 다룬 전문적인 판단의 유형에서 훨씬 더 광범위하게 알고리즘이 활용되지 않는 이유가 궁금하다. 실제로 특정한 몇몇 분야를 제외하고 알고리즘과 머신러닝에 관한 논의가 활발히 이뤄 지고 있다. 하지만 두 기술은 여전히 제한적으로 사용된다. 우선, 많은 전문가들은 임상적 판단과 기계적 판단을 둘러싼 논란을 무시한다. 그들은 자신의 판단과 직관을 신뢰하고, 기계가 자신보다 더 정확한 판단을 내릴 수 있다는 가능성을 의심한다.
- 그들은 알고리즘이 의사결정을 내리는 것은 비인간적이며 책임 회피라고 생각한다. 예를 들어 의학적 진단에서 알고리즘은 인상적 인 진보를 이뤘지만 일상적으로 사용되진 않는다. 채용과 승진에 관한 결정에서 알고리즘을 사용하는 조직은 거의 없다. 할리우드의 영화제작자들은 어떤 공식이 아니라 자신들의 판단과 경험을 근거 로 영화 제작을 승인한다. 출판사들도 자신들의 판단과 경험을 바 탕으로 출판을 결정한다. 그리고 마이클 루이스Michael Lewis의 베스 트셀러 《머니볼 Moneyball》에 등장하는 통계에 집착했던 오클랜드 애슬레틱스 야구팀 이야기가 인상적으로 다가온다면, 엄격한 알고리즘에 기초한 의사결정이 오랫동안 스포츠 팀의 의사결정 과정에서 규칙이 아닌 예외로 받아들여졌기 때문이다. 심지어 오늘날에도 스포츠 팀의 코치, 관리자 그리고 그들의 동료들은 여전히 자신들 의 직감을 믿고 통계적인 분석이 좋은 판단을 대체할 수 없다고 주장한다.
- 한마디로 의사결정자들은 자신들의 직감에 귀 기울이고, 대부분 그에 만족한다. 여기서 의문점이 생긴다. 권위도 있고 자기확신도 넘치는 이 사람들이 직감을 통해 듣는 바는 과연 무엇일까?
경영 의사결정의 직관에 관한 어느 연구에서는 직관을 “옳다거 나 타당하다는 후광 내지 확신은 있지만 명확한 이유나 근거 없이 머릿속에 떠오르는 이미 정해진 행동 방침에 관한 판단, 즉 알고는 있지만 그 이유는 모르는 판단”으로 정의한다. 이유는 모르겠지만 그것이 옳은지는 안다는 느낌이 곧 4장에서 언급했던 판단 완료에 대한 내재적 신호다.
이 내재적 신호는 자기 자신에게 주는 일종의 보상이다. 판단을 내릴 때, 사람들은 이 내재적 신호를 얻기 위해 열심히 노력한다(가끔 그렇게 열심히 노력하지 않아도 내재적 신호가 느껴지는 때도 있다). 이것 은 만족스러운 감정적 경험, 즉 기분 좋은 일관된 감각sense of coherence 이다. 내재적 신호를 느끼는 동안 판단자는 자신이 검토한 증거와 그 증거를 토대로 내린 판단이 옳다고 느낀다. 모든 퍼즐이 맞춰지는 느낌인 것이다. (뒤에서 확인하겠지만, 판단자는 주로 최종 판단 에 맞지 않는 증거를 숨기거나 무시하여 일관된 감각을 강화한다.) | 내재적 신호가 중요한 것으로, 또 판단을 호도하는 것으로 부각 되는 까닭은 이것이 느낌이 아닌 믿음으로 해석되기 때문이다. 이 감정적 경험(증거가 맞는 것 같아')은 자기 판단의 타당성에 대한 합리 적인 확신(이유는 모르지만, 그게 맞는다는 건 알아')으로 둔갑한다.
- 스스로 꽤 정확한 예측적 판단을 내릴 수 있다고 믿는 사람들은 단지 과신에만 빠진 것이 아니다. 그들은 자신의 판단에 잡음과 편향의 위험이 존재한다는 사실마저 부정한다. 단순히 자기를 남들보다 우월한 존재로 여기는 게 아니라, 사실상 예측 불가능한 사건들을 예측 가능하다고 믿는 것이다. 이는 현실의 불확실성을 암암리에 부인하는 행위다. 우리식으로 말하면, 이런 태도는 무지의 부정에 해당한다.
- 직관적인 확신이 주는 감정적 보상을 포기하기란 쉽지 않다. 조직 리더들은 특히나 본인들이 매우 불확실해 보이는 상황에서 자 기 직관에 의지해 의사결정을 내린다고 강조한다. 주어진 사실을 이해할 수 없고 그토록 원하는 확신이 생기지 않을 때, 그들은 이해 와 확신을 제공하는 자신들의 직관에 의존한다. 무지가 클수록, 그런 무지를 부인하고픈 유혹도 커지기 마련이다.
무지의 부정은 또 다른 문제에 해답을 제공한다. 인간의 판단이 생각보다 정확하지 않다는 증거와 마주했을 때, 많은 리더가 모순 적인 결론을 도출한다. 그들은 직감에 따라 내린 자신들의 결정이 완벽하진 않을지 몰라도, 보다 체계적으로 판단을 내리는 모델들 역시 완벽에 가깝지 않다면 그것들을 도입할 가치가 없다고 주장 한다. 예를 들어 판단자의 평가와 실제 업무 실적의 상관계수가 0.28(일치 백분율 = 59%)이었던 연구를 다시 생각해보자. 우리가 검토했던 증거와도 부합하는 이 연구에 따르면, 기계적 예측이 더 정확할 순 있지만 그 차이는 그리 크지 않았다. 모델의 예측과 실제 업무 실적의 상관계수는 0.44(일치 백분율 = 65%)였다. 이를 두고 임원들 은 '왜 굳이 귀찮게 완벽하지도 않은 모델을 도입하나?'라고 반문할지 모른다. 하지만 누구를 채용하느냐 같은 중요한 의사결정 과정에서 타 당성을 높이는 건 굉장히 가치 있는 일이다. 임원들은 일상적으로 별로 크지도 않은 효과를 얻기 위해서 업무 방식에 상당한 변화를 시도한다. 그런 변화가 성공을 보장할 수는 없지만, 자신들의 의사 결정에서 정확도를 높인다면 성공 가능성이 커질 것이라고 그들은 생각한다. 또한 그들은 확률도 이해하고 있다. 같은 가격으로 당첨 확률이 65퍼센트인 복권을 살 수 있다면 그들 중 어느 누구도 당첨 확률이 59퍼센트인 복권을 사진 않을 것이다.
- 통계적으로 불합리한 예측으로 이어지지만, 증거와 일치하는 예측은 거부하기 어렵다. 영업 관리자들은 작년에 다른 영업사원들보다 우수한 실적을 낸 영업사원이 계속해서 더 좋은 결과를 내놓을 것이라고 예상한다. 임원들은 때때로 유난히 유능한 지원자를 만나 면 그가 조직의 최고 자리에 어떻게 오르게 될지 상상한다. 제작자 들은 이전 영화로 큰 성공을 거둔 감독의 다음 작품도 꽤 성공적일 것이라고 으레 예상한다.
이러한 사례에서 매칭 예측은 실망스러운 결과로 이어지기 쉽 다. 반면 상황이 최악일 때 이뤄진 매칭 예측은 지나치게 부정적일 가능성이 높다. 증거와 매칭된 직관적인 예측들은 낙관적일 때와 비관적일 때 모두 너무나 극단적이다. (이러한 예측 오류들은 비회귀적이다. 왜냐하면 그것들은 평균 회귀 regression to the mean라 불리는 통계적 현상을 감안하지 않았기 때문이다.)
- 지금까지 패턴 오류는 사례 및 판단자가 별개로 미친 영향의 총계 로 설명될 수 없는, 사례에 대한 개인의 판단에서 나타나는 오류로 정의됐다. 패턴 오류의 극단적인 사례는 보통은 관대한 판결을 내리는, 그러나 특정 유형의 피고(가령 교통 법규 위반자)에게는 평소와 달리 엄한 처벌을 선고하는 판사다. 또한 보통은 신중하지만, 생기넘치는 스타트업의 사업계획을 보면 경계를 풀어버리는 투자자 역 시 한 예가 될 수 있다. 물론 대부분의 패턴 오류는 이렇게 극단적 이지 않다. 우리는 관대한 판사가 재범자에게 덜 관대한 처벌을 구형하거나 젊은 여성에게 훨씬 더 관대한 처벌을 선고하는 식의 적 당한 패턴 오류를 보게 되곤 한다.
- 패턴 오류는 일시적인 요인들과 영구적인 요인들이 결합되어 나타난다. 일시적인 요인들은 판결을 내리는 순간 판사의 기분이나 판사의 머릿속에 떠오른 최근 불미스러운 사건처럼 상황 잡음의 원천으로 설명했던 것들이다. 이를 제외한 모든 요인은 좀 더 영구적인데, 가령 특정 대학교를 다녔던 사람을 유난히 선호하는 고용 주라든지 폐렴을 앓는 사람에게 유난히 입원을 권하는 의사를 예로 들 수 있다. 
- 잡음에 대해선 할 말이 많지만, 잡음은 대중의 인식이라든지 판단 및 오류에 관한 논의에서 거의 찾아볼 수 없다. 잡음과 그것을 낳는 많은 기제가 존재함을 보여주는 증거가 있는데도, 잡음은 판단의 주요 요소로 거의 언급되지 않는다. 어떻게 이런 일이 가능한 걸까? 왜 우리는 편향을 일상적으로 비난하면서, 나쁜 판단을 설명하기 위해 잡음을 언급하진 않았을까? 왜 잡음이 도처에 존재하는데도 오류의 원천으로서 이를 진지하게 고려하는 경우가 드문 것일까?
이 질문을 해결할 열쇠는, 오류의 평균(편향)과 오류의 변산성(잡 음)이 오류 방정식에서 동등한 역할을 할지라도 사람들이 편향과 잡음을 완전히 다르게 생각한다는 점에 있다. 우리가 이 세상을 이해하는 일상적인 방식 때문에, 잡음의 역할을 이해하는 게 거의 불가능해진다는 얘기다.
앞서 우리는 비록 어떤 일이 일어날지 미리 예측할 순 없지만, 일이 터지고 나서 생각해보면 쉽게 이해가 간다고 말한 바 있다. 정 상의 계곡에서 일어나는 일은 놀랍지도 않고 손쉽게 설명된다.
판단도 마찬가지다. 다른 일들처럼, 판단과 결정은 대체로 정상 의 계곡에서 벌어진다. 그래서 우리는 놀라지 않는다. 우선 만족스 러운 결과를 낳는 판단은 정상적이라 여기기 때문에, 그것에 좀처럼 이의를 제기하지 않는 것이다. 프리킥을 차도록 뽑힌 선수가 득점을 할 때, 심장 수술이 성공적일 때, 또는 스타트업이 번창할 때, 사람들 은 의사결정자들이 옳은 결정을 내렸다고 생각한다. 결국에 그들의 결정이 옳았음이 입증됐기 때문이다. 다른 놀랍지 않은 이야기처럼, 성공 이야기는 결과가 알려지면 저절로 타당성이 입증된다.
하지만 우리는 나쁜 결과와 (때때로 도박과도 같은 사업이 성공하는 등) 놀라울 정도로 좋은 결과처럼 정상적이지 않은 결과를 설명할 필요를 느낀다. 오류나 특별한 재능 때문에 그런 결과가 나왔다는 식의 설명은 정말로 값어치 있는 설명보다 훨씬 더 인기가 있는데, 왜냐하면 과거의 도박과도 같은 행위들은 결과가 알려지면 천재적 이거나 어리석은 행동이 되기 때문이다. 기본적 귀인 오류fundamental attribution error라고 하는 편향은 운이나 객관적인 상황으로 더 잘 설 명되는 행위 및 결과를 주체의 탓으로(공으로) 돌리는 심리다. 또 다. 른 편향인 사후 확신 편향은 판단을 왜곡하여, 예측할 수 없었던 결과가 돌이켜 생각해보면 쉽게 예견할 수 있었던 것처럼 보이게 만든다
- 사람들은 주로 인과적 사고를 한다. 그래서 개별 사례마다 원인과 결과가 일관성 있게 연결되는 이야기에 관 심을 갖는다. 이 이야기에서 실패는 오류의 결과이고, 오류는 편향 의 결과다. 나쁜 판단의 원인은 쉽게 이해되지만 오류에 관한 논의 에 잡음이 설 자리는 없다.
잡음이 눈에 보이지 않는 것은 인과적 사고의 직접적인 결과다. 잡음은 본질적으로 통계적이다. 우리가 유사한 판단들의 집합에 대 해 통계적으로 사고하면, 그때에야 비로소 잡음이 눈에 띈다. 일단 그러고 나면 잡음을 지나치기란 쉽지 않다. 예를 들어 잡음은 형량 선고와 보험료 산정에서 관찰되는 회고적 통계학의 변산성이다. 또한 잡음은 우리가 미래 결과를 어떻게 예측할지 고민할 때 나타날 수 있는 결과들의 범위다. 그것은 과녁에 이리저리 흩어진 총알 자국이다. 인과적 측면에서 보면 잡음은 그 어디에도 존재하지 않는 다. 하지만 통계적 측면에서 보면, 잡음은 어디에나 존재한다.
안타깝게도 통계적 사고방식을 취하는 것은 쉽지 않다. 우리는 힘들이지 않고 우리가 관찰한 사건의 원인을 생각해낸다. 하지만 통계적으로 사고하는 데에는 훈련이 필요하며 많은 노력이 요구된다. 원인을 찾는 것은 자연스럽지만, 통계적으로 사고하는 것은 어렵다.  그 결과는 편향과 잡음을 오류의 원천으로 보는 방식에 나타나는 뚜렷한 불균형이다. 기초 심리학을 배울 기회가 있었다면, 여러 분은 아마도 자세하게 묘사된 인물이 흐릿한 배경에서 두드러져 보이는 삽화가 기억날 것이다. 여기서 인물은 배경에 비해 작게 묘 사돼 있지만 우리의 관심은 그 인물에 집중되어 있다. 인물/배경 삽화는 편향과 잡음에 대한 우리의 직관을 상징적으로 보여주는 적절한 예시다. 편향은 매력적인 인물이지만 잡음은 우리가 관심을 기울이지 않는 배경일 뿐이다. 그래서 우리는 스스로 내린 판단의 커다란 결점을 대체로 인식하지 못한다.
- 결론은 분명하다. 일반정신능력은 판단을 요하는 직업에서, 심지어 능력 좋은 개인들로 구성된 집단에서 업무 성과의 질에 상당히 기여한다는 것이다. 일반정신능력이 더는 차이를 만들어내지 않는 한계점을 두고 있다는 생각을 뒷받침해줄 증거는 없다. 이어서 이 결론은, 만약 전문적인 판단이 눈에 보이지 않는 과녁을 겨누고 있다고 추정될 경우 지능이 높은 사람들의 판단이 과녁에 명중했을 가능성이 더 높다고 힘주어 말하고 있다. 만약 판단을 내릴 사람 을 여러분 손으로 뽑아야 한다면, 정신능력이 가장 높은 사람을 선 택하는 것이 합리적이다.  하지만 이런 논리에는 중요한 한계가 있다. 모두를 대상으로 표준검사를 진행할 순 없기에 우리는 누가 일반정신능력이 더 높을지 추측해야 할 것이다. 그리고 높은 일반정신능력은 다방면의 성 과를 개선한다. 여기에는 다른 사람들을 설득해서 자신의 판단이 옳다고 믿도록 만드는 것도 포함된다. 좋은 정신능력을 지닌 사람 들은 다른 사람들보다 더 좋은 판단을 내리고 진정한 전문가가 될 가능성이 더 높다. 게다가 동료들에게 깊은 인상을 남기고 다른 사 람들의 신뢰를 얻어, 어떠한 실제 피드백도 없는 상황에서 존경-전 문가가 될 가능성 역시 더 높다. 중세 점성술사들은 당대에 일반정 신능력이 가장 뛰어난 사람들이었을 것이다.  똑똑해 보이고 똑똑한 소리를 하는 사람을 신뢰하는 것이 합리적인 행동일 터다. 그리고 자신의 판단에 대해 설득력 있는 논리를 분명하게 펼칠 수 있는 사람들을 신뢰하는 것이 합리적이다. 
- 판단력이 뛰어난 사람들의 성격은 결단력 있는 리더의 전형적 인 이미지에 맞지 않을지도 모른다. 사람들은 단호하고 분명하며, 금세 또 뼛속 깊이 무엇이 옳은지 아는 듯한 리더를 신뢰하고 좋아 한다. 그런 리더는 자신감을 불어넣는다. 하지만 증거를 보면, 목표가 오류를 줄이는 것일 경우 반론에 열려 있고 자신의 판단이 틀릴 수 있음을 아는 리더를 찾는 편이 더 좋다. 그런 리더가 결단력 있게 판단을 내린다면, 그 시점은 판단 과정의 처음이 아니라 끝이다.
- 편향은 우리가 자주 목도하며 심지어 설명할 수 있는 오류다. 편향은 방향성을 지닌다. 넛지가 편향의 해로운 영향을 제한할 수 있거 나 판단을 개선하는 노력이 특정한 편향을 제거하는 데 도움이 될 수 있는 것은 편향의 방향성 때문이다. 편향은 눈에 보인다. 그래서 결정 관찰자가 결정 과정이 진행되는 동안 실시간으로 편향을 진단할 수 있기를 기대할 수 있다.  반면에 잡음은 우리가 쉽게 보거나 설명할 수 없는 예측할 수 없는 오류다. 그래서 잡음이 자주 간과된다. 심지어 잡음이 중대한 손해를 일으킬 때조차도 우리는 잡음을 등한시한다. 이런 이유로 잡음 축소 전략과 편향 제거의 관계는 예방적 위생과 직접 치료의 관계와 유사하다. 잡음 축소의 목적은 잡음이 발생하기 전에 잠재적으로 발생할 수 있는 오류를 예방하는 것이다.
- 우리는 잡음 축소에 대한 이러한 접근법을 결정 위생 decision hygiene 이라 부른다. 손 씻기가 어떤 종류의 세균 감염을 예방하는지 아는 사람은 거의 없다. 그냥 손 씻기가 다양한 세균 감염을 예방하 는 데 효과적이라는 것만 안다(팬데믹 시기에만 그런 것이 아니다). 마찬 가지로 결정 위생을 준수한다는 건 피하고 싶은 기저 오류가 무엇 인지 모르는 상태에서 잡음을 줄이는 기법을 채택했다는 뜻이다.  의도적으로 결정 위생을 손 씻기에 비유했다. 위생 수칙을 따르는 것은 지루할 수 있다. 그것들의 혜택은 직접 눈에 보이지 않는다. 그래서 위생 수칙을 준수하여 어떤 문제를 예방했는지 알 수가 없다. 역으로 문제가 생겼을 때 위생 수칙의 어느 부분을 위반했는 지 알 방도가 없다. 이런 이유로 손 씻기 준수 여부를 확인하는 것 이 쉽지 않다. 심지어 그것의 중요성을 잘 알고 있는 보건 전문가들 을 대상으로도 손 씻기를 잘 실천하고 있는지 확인하기가 어렵다.
손 씻기 등 다른 위생 수칙들처럼, 결정 위생은 눈에 보이지 않지 만 시행하기 어렵고 눈에 띄는 보상이 없다. 제대로 식별해낸 편향을 수정하면 최소한 뭔가 이뤄내고 있다는 느낌이 든다. 하지만 잡음을 줄이는 절차는 그렇지 않을 것이다. 통계적으로 잡음 축소는 많은 오류를 예방한다. 하지만 어느 오류를 예방했는지 결코 알 수 없을 것이 다. 잡음은 눈에 보이지 않는 적이다. 그러니 눈에 보이지 않는 적의 공격을 막아내는 것은 눈에 보이지 않는 승리를 거둘 수밖에 없다.
- 잘못된 과학수사로 정확히 얼마나 많은 오류가 발생할까? 억울 하게 유죄판결을 받은 이들을 위해 일하는 비영리 조직 '이너슨스 프로젝트Innocence Project'가 무죄를 입증한 350개의 사례를 검토한 결과, 잘못된 유죄판결의 45퍼센트는 과학수사의 오용에서 기인했 다. 이 통계가 나쁘게 들리지만, 판사와 배심원에게 중요한 질문 은 다르다. 그들이 증인석에 서서 증언을 한 전문가를 얼마나 신뢰 할 수 있는지 알기 위해, 판사와 배심원은 지문 감식관을 포함해서 과학수사 전문가들이 중대한 오류를 만들어낼 가능성이 얼마나 되 는지를 알아야 한다.
- 무엇이 슈퍼 예측가들을 유능하게 만드는 것일까? 18장에서 주장 한 바와 일관되게 우리는 그들이 몹시 지적일 것이라고 합리적으 로 추정할 수 있다. 이러한 추정은 틀리지 않는다. 일반정신능력검 사에서 슈퍼 예측가들은 좋은 판단 프로젝트의 일반적인 참가자들 보다 더 높은 점수를 받았다(그리고 일반적인 참가자들의 일반정신능력 점수는 국가 평균보다 상당히 높았다). 하지만 그 차이는 그렇게 크지 않 았다. 지능 테스트에서 매우 높은 점수를 받은 많은 참가자들이 슈 퍼 예측가로서 자격을 갖추진 않았다. 여기서 일반지능과 별개로 슈퍼 예측가들이 숫자에 매우 강하다고 논리적으로 예상할 수 있 다. 그리고 실제로 그들은 그러했다. 하지만 그들의 실제 강점은 수리력이 아니고, 분석적이고 확률적인 사고였다. 그들은 주어진 문제에 관해 분석적이고 확률적으로 사고하는 것을 편안하게 느꼈다.
슈퍼 예측가들은 문제를 구조화하고 분석할 의지와 능력을 갖 추고 있다. 커다란 지정학적 문제(유럽연합 탈퇴 가능성, 특정 지역에서 전쟁 발발 가능성, 공직자의 암살 가능성 등)에 대해서 전체론적 판단을 내리는 대신에 그들은 문제를 구성 요소로 분해한다. 그리고 그렇다고 답하려면 무엇이 필요할까?' 또는 아니라고 답하려면 무엇이 필요할까?'란 질문을 스스로에게 던진다. 개인적인 직감이나 일종 의 일반적인 예감을 이야기하는 대신에 여러 가지의 부수적인 질 문들을 던지고 그에 답하려고 시도한다.
슈퍼 예측가들은 외부 관점도 잘 받아들인다. 그리고 기저율을 굉장히 신경 쓴다. 13장의 감바르디 문제에서 설명했듯이, 감바르디의 신상 내역을 세세하게 살피기 전에 2년 안에 신임 CEO가 해고되거나 퇴사하는 평균 확률부터 살펴보는 것이 좋다. 슈퍼 예측가들은 체계적으로 이러한 기저율을 살핀다. 내년에 국경 분쟁으로 인해 중국과 베트남 사이에서 무력 충돌이 일어날 가능성에 대한 질문을 받으면, 슈퍼 예측가들은 즉시 현재 중국과 베트남의 관계 에만 집중해서 두 국가의 무력 충돌 발생 가능성을 예측하지 않는 다. 설령 최근에 읽은 뉴스와 분석을 바탕으로 어떤 직감이 들더라 도 말이다. 그들은 하나의 사건에 대한 자신들의 직감이 일반적으로 좋은 가이드라인이 아니라는 것을 알고 있다. 그들은 기저율부터 살핀다. 슈퍼 예측가들은 과거의 국경 분쟁이 무력 충돌로 어떻게 비화됐는지를 알아본다. 만약 그런 사례가 거의 없다면, 슈퍼 예측가들은 그 사실을 고려 사항으로 포함시키고 나서 중국과 베트 남의 상황을 자세히 살필 것이다. | 요컨대 슈퍼 예측가들과 일반인들을 구분하는 것은 순전히 그 들의 지적 능력이 아니다. 지적 능력을 어떻게 활용하느냐가 슈퍼 예측가과 일반인을 구분하는 주요 차이였다. 그들의 예측 기술은 18장에서 더 좋은 결과로 이어질 가능성이 있다고 설명했던 인지 유형, 특히 적극적인 열린 사고'를 보여준다. 적극적인 열린 사고 를 측정하는 테스트를 다시 생각해보자. 해당 테스트에 따르면 “사 람들은 자신들의 믿음에 반하는 증거를 검토해야 한다.” 그리고 “자 신과 같은 의견인 사람들보다 자신과 의견이 다른 사람들에게 집 중하는 것이 더 유용하다.” 정확히 말하면 이러한 테스트에서 높은 점수를 받은 사람들은 새로운 정보를 입수했을 때 (흥분하지 않고) 자신의 판단을 업데이트하는 것을 부끄러워하지 않는다. 슈퍼 예측가들의 사고방식의 특징을 설명하기 위해서 테틀록은 컴퓨터 프로그래머들이 사용하는 문구인 “영원한 베타 perpetual beta"를 사용했다. 영원한 베타란 최종 버전으로 출시되진 않지만 끊임없이 사용되고 분석되며 개선되는 프로그램을 말한다. 테틀록은 “슈퍼 예측가의 반열에 오를 수 있는지를 예측하는 가장 강력한 예측변수는 영원한 베타, 즉 자신의 믿음을 업데이트하고 개선하려고 노력하는 의지”라고 말했다. 그의 말을 빌리면, 슈퍼 예측가들이 매우 정확한 예측을 할 수 있는 이유는 그들이 누구인지보다 그들 이 무엇을 하는지와 관련이 있다. 그들은 열심히 연구하고 주의 깊 게 생각하고 스스로를 비판한다. 그리고 다른 관점을 모으고 종합 하고 점진적으로 판단을 내리고 그 판단을 끊임없이 업데이트한다. 그들은 특정 사고 주기를 선호한다. 그들은 “시도하고, 실패하고, 분 석하고, 조정하고, 다시 시도 한다.”
- 다면평가가 객관적으로 측정 가능한 업무 실적을 예측하는 데 유용한 도구라는 증거가 있다. 하지만 유감스럽게도 다면평가의 사용이 그 자체로 문제를 초래했다. 전산화 덕분에 다면평가에 질 문을 쉽게 추가할 수 있게 됐고, 기업의 목적과 제약이 폭발적으로 증가하면서 직무기술서에 많은 항목이 추가됐다. 이로 인해서 다면 평가 질문지가 말도 안 될 정도로 복잡해졌다. 과도하게 재설계된 다면평가 질문지가 차고 넘친다(예를 들어 각각의 평정자와 피평정자가 11개 항목에 대해 46개의 평점을 매겨야 하는 경우도 있다). 많은 항목들 을 평가하기 위해서 수많은 피평정자들에 관해 정확하고 유의미한 사실을 기억해내고 처리하려면 평정자는 초인적인 능력을 발휘해야 될지도 모른다. 그러므로 이렇게 복잡한 다면평가는 쓸모없을 뿐만 아니라 위험하다. 지금까지 살펴봤듯이, 후광 효과는 개별적 으로 평가해야 하는 항목들이 실제로 개별적으로 처리되지 않을 것임을 시사한다. 첫 번째 질문에서 강한 긍정이나 강한 부정은 뒤 에 이어지는 질문에 대한 답에 영향을 준다. 그래서 첫 번째 질문에 대한 답이 긍정적이면 끝까지 긍정적인 답이 이어지는 경향이 있다. 물론 첫 번째 질문에 대한 답이 부정적이면 후속 질문에 대한 답도 대체로 부정적이다.
훨씬 더 중요한 부분이 있다. 다면평가 시스템이 진화하면서 근 무평정에 쏟는 시간이 기하급수적으로 증가했다. 중간관리자들은 모든 직급의 동료에 대해서 수십 개의 다면평가 질문지를 작성해 야 한다. 그리고 때로는 다른 조직의 상대방에 대한 다면평가도 실 시해야 되는 경우도 있다. 왜냐하면 많은 기업들이 고객, 협력사 그 리고 업무 관계자에게 직원에 대한 평가를 요구하기 때문이다. 의 도가 아무리 좋아도 이것은 시간에 쫓기면서 많은 업무를 처리해 야 하는 평정자들에게 큰 부담이 된다. 그래서 그들이 제공하는 정 보의 질이 근무평정 시스템을 개선하는 데 도움이 되리라고 기대 하기 어렵다. 이런 경우에 대가를 치르고 잡음 축소를 시도한 의미 가 없다. 이 부분은 6부에서 좀 더 자세히 살펴보도록 하자
- 다면평가 시스템은 평점 인플레'로부터 자유롭지 못하다. 평점 인플레는 거의 모든 근무평정 시스템에서 나타나는 문제다. 대형 산업 기업에서 관리자의 98퍼센트가 기대를 완전히 만족시킴'이란 평가를 받았던 것으로 확인됐다. 거의 모두가 최고 평점을 받는다면, 근무평정을 실시하는 가치와 목적에 의문을 제기 해봐야 한다.
- 요점은 상대평가에 기초한 근무평정 시스템은 조직이 상대적인 업무 실적을 중요하게 여기는 경우에만 적절하다는 것이다. 예를 들어 대령이 장군으로 승급되는 것처럼 개인의 절대적인 업무와 상관없이 정해진 비율만이 승진할 수 있는 조직에선 상대평가가 말이 된다. 하지만 절대적인 업무 실적을 평가하기 위해서 상대평가를 도입하는 것은 비논리적인 결정이지만, 많은 기업에서 이렇게 한다. (절대적) 기대치를 충족시키지 못한 것으로 평가되는 피평정 자의 비율을 미리 정하는 것은 잔인할 뿐 아니라 불합리하다. 엘리 트 부대의 10퍼센트에 반드시 기준 미달'이라는 평가를 내려야 한 다는 건 어리석은 소리다.  두 번째 문제는 강제 평점 분포가 근본적인 업무의 분포, 일반적으로 정규분포에 가까운 분포를 반영한다고 가정하는 것이다. 하지만 근무평정 결과의 분포가 정해지더라도, 단일 평가자가 근무평정 을 실시하는 소규모 집단에서 같은 분포가 나온다는 보장이 없다. 다시 말해서 직원 수천 명 중에서 무작위로 열 명을 뽑았을 때, 그 열 명 중에 두 명이 전체 근무평정 결과의 상위 20퍼센트에 든다는 보장이 없다. (보장이 없다'는 것은 절제된 표현이다. 이런 경우가 나타날 확 률은 고작 30퍼센트다.) 실제로 문제는 더 심각하다. 팀이 무작위로 구 성되지 않기 때문이다. 일부 부서는 실적이 우수한 직원들로 구성 되고, 업무 실적이 평균 이하의 직원들로 구성되는 부서도 있다.
불가피하게 이러한 환경에서 강제 등급 시스템은 오류와 불공 평의 원천이 된다. 어느 평정자의 팀이 업무 실적을 구분할 수 없는 다섯 명의 사람으로 구성된다고 가정하자. 구분할 수 없는 업무를 근거로 정해진 분포에 따라서 근무평정을 실시하도록 강제하는 것은 오류를 줄이는 것이 아니라 증가시킨다.
강제 등급 시스템을 비판하는 사람들은 등급의 원칙을 집중적 으로 공격했다. 그들은 등급의 원칙이 잔인하고 비인간적이며 궁극 적으로 역효과를 낳는다고 매도한다. 이러한 주장을 인정하는 인정 하지 않는, 강제 등급 시스템의 치명적인 결함은 '등급을 매기는 것이 아니라 '강제하는 것이다. 부적절한 척도에 대한 판단을 강 제할 때마다, 척도의 선택은 기계적으로 잡음을 높인다. 평정자가 상대적 척도로 절대적 업무 실적을 평가하거나 구분할 수 없는 업무 실적을 구분해내라고 평정자에게 강요하기 때문이다.
- 전통적인 근무평정 시스템을 포기하지 않은 기업을 위해서(절대다수의 기업들이 전통적인 시스템을 유지하고 있다), 근무평정 시스템을 개선하기 위해서 무엇을 할 수 있을까? 잡음 축소 전략은 옳은 척 도를 사용해야 효과적이다. 목표는 공통 준거틀을 보장하는 것이다. 연구에 따르면, 평가 구성과 평정자 교육으로 평정자가 척도를 더 욱 일관되게 사용하도록 할 수 있다. 적어도 근무평정 척도는 일관되게 해석될 수 있도록 충분히 구체적으로 서술되어야 한다. 많은 기업에서 행위기준 평정 척도를 사용한다. 행위기준 평정 척도에서 척도의 각 단계는 구체적인 행동에 부합된다. 그 '왼쪽 패널은 행위기준 평정 척도의 사례다.
- 하지만 행위기준 평정 척도는 잡음을 제거하기에 충분하지 않다는 증거가 있다. 그리하여 준거틀 훈련이 도입됐다. 준거틀 훈련 은 평정자 간 일관성을 보장한다. 준거틀 훈련에서 평정자는 업무 의 서로 다른 측면을 알아보는 훈련을 받는다. 그들은 단편적인 영 상을 보며 근무평정을 실습하고 자신들의 평점과 전문가들의 '진 짜' 평점을 비교한다. 각각의 영상이 근무평정 척도에서 기준이 된다. 이것은 그림18의 오른쪽 패널에 나온 것과 같은 사례 척도 case scale가 된다.
사례 척도로 새로운 피평정자에 대한 평점을 기준 사례와 비교 해본다. 이로 인해 근무평정은 상대적 판단이 된다. 비교 판단은 평점보다 잡음에 덜 취약하다. 그래서 사례 척도는 숫자, 형용사 또는 행동 서술보다 더 신뢰가 간다.
준거틀 훈련은 수십 년 동안 알려진 방법이고 분명 잡음을 줄이 고 근무평정의 정확도를 높인다. 하지만 준거틀 훈련이 아직 널리 사용되지 않고 있다. 그 이유는 추측하기 쉽다. 준거틀 훈련, 사례 척 도와 같은 목표를 추구하는 다른 도구들은 복잡하고 시간을 많이 잡 아먹는다. 그래서 유용하게 사용하려면 근무평정을 진행하는 조직 의 니즈에 맞게 조정되어야 한다. 그리고 직업 요건이 진화하는 데 맞춰서 이러한 전략들도 자주 업데이트되어야 한다. 기업은 성과관 리 시스템에 이미 많은 투자를 한다. 하지만 이러한 전략을 이용하 려면 추가적인 투자가 필요하지만, 현재 추세는 정반대로 가고 있 다. (6부에서 잡음 축소 비용에 대해 더 자세히 살펴보도록 하자.)
- 근무평정은 광범위한 연구 주제다. 그래서 실용적이고 철학적인 의문이 많이 제기된다. 개인의 업무 성과'라는 개념이 사람들이 서 로 상호작용하며 성과를 만들어내는 오늘날의 조직에서 어느 정도 까지 의미가 있는지 묻는 사람들도 있다. 개인의 업무 성과라는 개 념이 정말 의미가 있다고 믿는다면, 해당 조직에서 개인의 업무 성 과가 직원들에게 어떻게 배분되는지가 분명 궁금해진다. 예를 들어 업무 성과가 정규분포를 따르는지 아니면 업무 성과에 지나치게 많은 기여를 하는 최고의 인재'가 존재하는지 궁금해진다. 여러 분의 목표가 직원들이 최선을 다할 수 있도록 돕는 것이라면, 개인의 업무 성과를 평가하고 그들이 두려움과 욕심을 극복하여 조직을 위해 일하려는 동기를 부여하기 위해서 평가 결과를 사용하는 것이 최선의 방법(또는 효과적인 방법)인지 물어볼 수 있다. 이것은 합리적인 의문이다.
근무평정 시스템을 설계하고나 개정하고 있다면, 이러한 질문에 대한 답을 찾아야 한다. 여기서 이 질문에 대한 답을 구하지 않고 소소한 제안을 하고자 한다. 근무평정을 실시한다면, 여러분의 평 점에는 제도 잡음이 깊이 스며들어 있을 것이다. 이런 이유 때문에 여러분의 평점 결과는 기본적으로 쓸모없고 역효과를 낳을 수 있다. 제도 잡음은 단순한 기술적 해결책으로 줄일 수 없다. 평정자의 판단에 대해서 명확하게 생각해볼 필요가 있다. 그러면 평점 척도를 명확하게 만들고 척도를 일관되게 사용하도록 평정자를 훈련시켜서 근무평정의 질을 개선할 수 있다는 것을 깨닫게 될 것이다. 이러한 잡음 축소 전략은 다른 많은 분야에도 적용될 수 있다.
- 면접의 목적이 직무를 잘 수행할 지원자와 그렇지 못할 지원자를 가려내는 것이라면, 표준화된 면접이 그렇게 유익하지는 않다(구조화 면접과 구분하기 위해 이른바 비구조화 면접에 대해서도 곧 살펴볼 것이다). 더 분명하게 말하자면, 대체로 표준화된 면접은 쓸모 가 없다. 면접관이 입사 지원자에게 준 점수와 최종 선발된 지원자의 업 무 수행도의 상관관계를 밝히는 연구가 많이 진행됐고, 위와 같은 결론에 도달했다. 면접관의 점수와 최종 선발된 지원자의 업무 수 행도의 상관관계가 높다면, 면접이 입사 지원자의 업무 수행도를 예측하는 데 유용한 예측 변수라고 볼 수 있다. 이는 면접뿐만이 아 니라 같은 방식으로 두 요소의 상관관계를 확인할 수 있는 모든 채 용 기법에 해당된다.
- 내부 인재 선발 관행을 개선해 그 결과를 발표했던 기업이 있다. 바로 구글이다. 구글 최고인적자원책임자 라즐로 복Laszlo Bock은 그 이야기를 저서 《구글의 아침은 자유가 시작된다 work Rules!》에서 공개했다. 최고의 역량을 갖춘 인재를 채용하는 데 집중하고 옳은 인재를 찾기 위해 상당한 자원을 투입했지만, 구글은 고전했다. 채 용 면접의 예측 타당성에 대한 감사 결과는 “연관성 없음 (...) 무작 위 채용”이었다. 이 상황을 해결하기 위해서 구글이 시도한 변화 는 수십 년의 연구에서 나온 원칙들을 보여준다. 그리고 결정 위생 전략과도 관련된다.
그 전략들 중 하나는 지금쯤이면 분명 익숙해야 한다. 그것은 다름 아닌 판단 집계다. 인재 선발에서 이 전략을 사용한다는 건 놀랄 일이 아니다. 거의 모든 기업이 같은 지원자에 대한 여러 면접관의 판단을 집계한다. 다른 기업에 뒤지지 않으려는 듯 구글 지원자는 가끔 스물다섯 번의 면접을 거치는 고통을 감내해야 한다. 복은 면 접 단계를 네 번으로 줄였다. 추가 면접이 첫 번째 네 번의 면접에 서 나온 판단의 예측 타당성을 개선하지 않았기 때문이다. 하지만 타당성 수준을 보장하기 위해서 구글은 모든 기업이 준수하지 않 는 규칙을 가혹할 정도로 엄격하게 이행한다. 다른 면접관과 의견 을 주고받기 전에 면접관은 반드시 개별적으로 지원자를 평가해야 한다. 그러고 나서 모든 판단을 집계한다. 이처럼 모든 판단이 독립 적일 경우에만 집계 전략은 효과가 있다.
- 구글은 이 책에서 아직 자세히 다루지 않은 결정 위생 전략도 도입했다. 바로 복잡한 판단을 구조화하는 것이다. 구조화란 단어 는 많은 의미를 지닐 수 있다. 여기서는 “분해, 독립성과 전체론적 판단의 지연” 이라는 세 가지 원칙으로 정의된다. | 첫 번째 원칙인 분해는 결정을 구성 요소 또는 매개 평가 항목으 로 나눈다. 판단 문제를 하위 판단 문제로 분해하는 것은 가이드라 인을 여러 하위 영역으로 나눈 것과 추구하는 목적이 같다. 여기서 판단자는 중요한 단서에 집중하게 된다. 분해는 무슨 데이터가 필 요한지 구체화하는 로드맵 역할을 하여 무관한 정보를 걸러낸다. 구글은 분해에서 네 번의 매개 평가를 진행한다. 일반적인 인지력, 리더십, 문화 적합성(이른바 '구글스러움') 그리고 역할 관련 지식이다. (이것들 중에서 일부는 더 작은 단위로 분해된다.) 구조화되지 않은 면접에서 면접관이 알아차릴 수 있는 지원자의 잘생긴 외모, 유려 한 말솜씨, 흥미로운 취미와 긍정적이거나 부정적인 특징은 매개 평가의 대상이 아니다.
- 구조화된 판단의 두 번째 원칙은 독립성이다. 독립성은 각각의 평가에 대한 정보가 독립적으로 수집되어야 한다는 의미다. 직무기 술서에 필요한 자질을 서술하는 것으론 충분하지 않다. 전통적인 면접을 실시하는 대부분의 채용 담당자도 지원자에게서 자신들이 확인해야 하는 자질 네다섯 가지는 알고 있다. 문제는 면접과 달리 그들은 이런 요소들을 개별적으로 평가하지 않는다는 것이다. 그래서 각각의 평가가 다른 평가에 영향을 주고, 각각의 평가에 잡음이 생기게 된다. 이 문제를 극복하기 위해서 구글은 사실에 기초하여 독립적으로 평가하는 방법을 조직했다. 가장 뚜렷한 행보가 구조화된 행동 면접을 도입한 것이었다. 행동 면접에서 면접관의 임무는 해당 지원 자가 전반적으로 마음에 드느냐를 결정하는 것이 아니다. 각각의 평가에 대해서 데이터를 수집하고 각 평가에 맞춰 지원자에게 점 수를 주는 것이다. 이렇게 하기 위해서 면접관은 과거 상황에서 지 원자의 행동에 대하여 미리 정의된 질문을 해야 한다. 그리고 대답 을 기록하고 통일된 지시문을 이용하여 미리 결정된 평가 척도에 따라서 점수를 준다. 지시문은 각각의 질문에서 보통, 좋음 또는 우수함이 무엇을 의미하는지 구체적인 사례를 제공한다. 이렇게 공유된 척도(앞 장에서 소개한 '행위기준 평가척도' 등)는 판단에서 잡음을 줄이는 데 도움이 된다.
- 이런 접근법이 전통적인 수다스러운' 면접과 다르게 들린다면, 이는 진짜 다르기 때문이다. 실제로 이것은 업무적인 만남이라기보 다 시험이나 취조에 더 가깝게 느껴진다. 그리고 면접자와 피면접자 모두 구조화된 면접을 싫어한다는 증거가 있다(또는 적어도 구조화되지 않은 면접을 선호한다는 증거가 있다). 구조화된 면접이 어떤 특성을 지녀야 하는가에 대한 논의는 계속되고 있다. 하지만 면접에 관한 연구 문헌에서 발견되는 가장 일관된 결론은, 구조화된 면접이 전통적이고 구조화되지 않은 면접보다 지원자의 업무 능력을 훨씬 더 잘 예측한다는 것이다. 구조화된 면접과 업무 능력의 상 관계수는 44와 57 사이다. 일치 백분율을 사용하면 구조화된 면접 으로 더 유능한 지원자를 선택할 가능성은 65퍼센트와 69퍼센트 사이다. 반면에 구조화되지 않은 면접은 56퍼센트와 61퍼센트 사 이다. 그러므로 구조화된 면접이 구조화되지 않은 면접보다 유능한 인재를 예측할 확률이 더 높다고 할 수 있다.
- 구글은 중요하게 생각하는 사항에 대해서 판단할 때 다른 데이터도 사용한다. 업무 관련 지식을 시험하기 위해서 구글은 지원자에게 어떤 코드를 작성하는 프로그래밍 작업을 수행하게 하는 등 작업 표본 검사 work sample test를 사용한다. 연구에 따르면 작업 표본 검사는 현장 업무 능력을 예측하는 최선의 예측 변수 가운데 하나 다. 구글은 또한 지원자가 제공한 참고인이 아니라 구글 직원이 인 맥을 동원해 지원자에 대해 알게 된 '뒷구멍 참고자료'를 사용한다.  구조화된 판단의 세 번째 원칙은 전체론적 판단의 지연이다. 이것은 간단하게 설명할 수 있다. 판단에서 직관을 완전히 배제하지 말 고, 잠시 미뤄둬라. 구글에서는 채용 위원회가 합의제로 최종적인 채용 권고를 한다. 채용 위원회는 지원자들의 면접 결과와 관련 정보를 종합적으로 검토한다. 그러한 정보를 기초로 위원회는 채용 권고 여부를 결정한다.  구글의 유명한 데이터 기반 문화와 데이터의 기계적 집계가 임상적 집계보다 더 정확한 판단을 도출한다는 증거가 있음에도 최 종 결정은 기계적으로 내려지지 않는다. 채용 위원회가 모든 증거 를 고려하고 전체적인 관점에서 저울질한 뒤에 최종 판단을 내린다. 그들은 '이 지원자가 구글에서 성공할 것인가?'라는 질문에 대한 답을 구한다. 이렇게 내려진 결정은 전혀 기계적이지 않다.  다음 장에서 이렇게 최종 결정을 내리는 것이 합리적인 이유에 대해서 자세히 살펴볼 것이다. 하지만 구글에서 채용에 관한 최종 결정이 기계적으로 내려지지는 않지만, 그것은 네 명의 면접관의 면접 점수의 평균에 단단히 기초한다. 그리고 지원자에 관한 겉으 로 잘 드러나지 않는 근본적인 증거의 영향도 받는다. 다시 말해 구글은 모든 증거가 수집되고 분석된 뒤에 판단과 직관을 허용한다. 그리하여 직관적으로 지원자에 대한 인상을 정의하고 급하게 판단을 내리는 면접관(그리고 채용 위원회 위원)의 성향이 억제된다.
- 매개 평가 프로토콜의 주요 단계
1. 의사결정 과정 초반의 결정을 매개 평가 항목으로 체계적으로 분해한다. (반복적인 판단의 경우에 이 단계는 단 한 번만 진행하면 된다.) 
2. 가능할 때마다 매개 평가에서 외부 관점을 활용한다. (반복적인 판단 가능하면 사례 척도를 기준으로 상대적 판단을 사용하라.) 
3. 분석 단계에서 평가 항목을 다른 항목들과 분리하여 최대한 독립적으로 분석한다. 
4. 의사결정 단계에서 각각의 매개 평가 결과를 별도로 검토한다. 
5. 각각의 매개 평가 항목에서 참가자들은 개별적으로 판단을 내려야 한다. 그러고 나서 추정-대화-추정의 방법을 이용한다. 
6. 최종 결정을 내리기 위해서 직관은 잠시 미뤄둔다. 그렇다고 직관적인 판단을 완전히 포기하진 말라.
- 인생은 잡음을 일으키는 사람의 재량과 관행을 줄이기 위해서 설계된 제도 개선으로 가득하다. 대부분이 좋은 동기를 갖지만, 치 료법이 병보다 더 나쁜 경우도 있다. 저서 《보수는 어떻게 지배하 는가 The Rhetoric of Reaction》에서 경제학자 앨버트 허시먼 Albert Hirschman은 개선 노력을 반대할 때 흔히 등장하는 주장 세 가지를 소개한다. 첫째, 그러한 노력이 잘못되었을 수 있다. 해결하고자 했던 문제를 악화시키기도 하기 때문이다. 둘째, 제도 개선 노력은 부질없을 수 있다. 그것이 아무것도 바꾸지 못할 수 있기 때문이다. 셋째, 다른 중요한 가치를 위태롭게 만들 수 있다(노동조합과 노동조 합을 구성할 권리를 보호하기 위한 노력이 경제 성장을 저해하기도 한다). 잘못된 노력, 무용지물과 가치 훼손이 잡음 축소에 대한 반론으로 제시될 수 있다. 이것들 중에서 노력이 잘못되었고 다른 중요한 가치이런 반론이 그저 말뿐인 주장으로 끝나기도 하지만, 실제로 잡음을 줄이는 데 큰 도움이 될 개선 노력을 수포로 돌아가게 만들 수 있다. 잡음을 줄이는 전략의 일부는 중요한 가치를 위태롭게 할 수 있고, 제도 개선 노력이 잘못될 위험은 쉽게 무시될 수 있을지도 모른다.
- 잠시 생각해보자. 잡음 있는 제도는 새롭게 떠오르는 도덕적 가 치를 받아들일 여지를 줄 수 있다. 그리고 이것은 좋은 일이다. 하 지만 많은 영역에서 이런 주장으로 높은 수준의 잡음을 옹호하는 것은 가당치 않다. 판단 집계 등 가장 중요한 잡음 축소 전략 가운 데 일부도 새로운 가치를 허용한다. 노트북 오작동에 불만을 토로 하는 서로 다른 고객들이 각기 다른 대접을 받을 수 있다. 이런 차 이는 새롭게 떠오르는 가치 때문에 생겨나는 게 아니다. 다른 환자 가 다른 진단을 받는 것이 새로운 도덕적 가치 때문은 아닐 것이다. 우리는 진화하는 가치를 허용하는 제도를 설계하면서 잡음을 줄이 거나 없애려고 최선을 다해야 한다.
- 잡음이 존재하는 제도에서 모든 판단자는 상황이 요구하는 대로 행동하고 예기치 않은 전개에 대응할 수 있다. 어떤 잡음 축소 전략 은 이러한 적응력을 없애서 의도치 않게 편법을 쓰도록 부추길 수도 있다. 이런 편법이 민간 조직과 공공 조직이 이를 막기 위해서 도입한 각종 장치들의 부산물일 수 있다는 것이 잡음을 감수해야 한다는 주장으로 제기되기도 한다.  익숙한 사례는 세법이다. 조세제도에는 잡음이 존재해선 안된 다. 명확하고 예측할 수 있어야 한다. 같은 납세자가 다르게 처리되어선 안 된다. 하지만 조세제도에서 잡음을 없앤다면, 똑똑한 납세 자들은 필연적으로 세법 규정을 피할 방법을 찾게 될 것이다. 세금 전문가들은 잡음을 없애서 명확한 규정을 두는 것이 최선인지 아 니면 예측 불가능성을 허용하고 명확한 규정으로 인해서 기회주의 적이거나 이기적인 행위가 발생할 위험을 줄이는 것이 최선인지에 대해서 활발히 논의하고 있다.
일부 기업과 대학은 구체적인 정의 없이 조직 구성원들의 ‘위법 행위를 금한다. 그래서 잡음이 불가피하게 발생한다. 이것은 좋지 는 않지만 그렇다고 매우 나쁜 것만은 아니다. 무엇이 위법 행위에 해당하는지를 구체적으로 정의하면, 그 목록에서 빠진 끔찍한 행위 는 결국에는 용인될 것이기 때문이다.











'인문' 카테고리의 다른 글

50센티 더 가까워지는 선물보다 좋은 말  (1) 2022.11.11
넘버스 스틱  (1) 2022.11.10
결정의 기술  (1) 2022.11.08
인생이 막막할 땐 스토아 철학  (1) 2022.10.09
작별  (1) 2022.09.25
Posted by dalai
,