A/B 테스트
- 데이터를 갖고 있다면 데이터를 살펴봐라. 만약 갖고 있는 것이 의견뿐이라면 자신의 의견대로 가라. (전 넷스케이프 CEO인 짐 박스데일)
- 온라인 종합 대조 실험의 핵심 주제
* 아이디어의 가치는 평가하기 힘들다. 연 1억불 이상의 가치를 가진 간단한 변화가 여러달 연기됐다.
* 작은 변화도 큰 영향을 줄 수 있다. 한 개발자가 며칠 작업하고, 연 1억불의 수익을 낸다면 최고의 투자수익률(ROI)을 올린 것 아닌가?
* 큰 영향을 발생시키는 실험은 드물다. 빙은 1년에 10,000건의 실험을 수행하지만, 큰 개 선을 * 실험을 실행하는 오버헤드는 적어야 한다. 빙의 개발자들은 마이크로소프트의 실험 시스템인 EXP에 접근해, 과학적으로 아이디어를 쉽게 평가할 수 있었다.
* 전체 평가 기준(OEC)이 분명해야 한다. 앞의 예시에서는 매출(revenue)이 OEC의 핵심 요소였지만 매출만으로는 OEC가 되기는 부족하다. 매출을 위해 사용자 경험을 저해 하는 것으로 알려진 광고를 웹사이트에 도배할 수 있지만, 빙은 사용자당 세션(사용자들 이 떠나는지 아니면 더 사용하는지)과 여러 다른 요소를 포함해 사용자 경험 지표를 비 교해 매출을 판단하는 OEC를 사용한다. 여기서의 핵심은 수익이 극적으로 늘었어도 사 용자 경험 지표가 크게 저하되지 않았다는 점이다.
- 실험의 이유? 상관관계, 인과관계, 신뢰성
매달 사용자의 X%가 이탈(가입 종료)하는 넷플릭스와 같은 구독 사업에서 일하고 있다고 가정하자. 당신은 새로운 기능을 도입하기로 결정했고 그 기능을 사용하는 사용자의 이탈률이 X%/2, 즉, 반이라는 것을 보게 된다. 당신 은 이에 대해 인과관계를 주장하고 싶을지도 모른다. 기능은 이탈을 절반으 로 줄이고 있다. 이 기능을 더 쉽게 검색하고 더 자주 사용하게 할 수 있으면, 가입자가 급증할 것이라는 결론을 얻을 것이다. 그러나 이는 잘못된 논리다!! 주어진 데이터에서 이 기능이 사용자 이탈을 감소시키는지 증가시키는지에 대한 결론을 내릴 수 없으며, 그 기능으로 인해 사용자 이탈을 감소시키는 것과 증가시키는 것 두 상황 모두 가능하다.
- 이러한 오류를 보여주는 예는 또 다른 구독 사업인 마이크로소프트 오피 스 365에서 발견할 수 있다. 오류 메시지가 뜨고 충돌을 경험한 오피스 365 사용자가 이탈률이 낮다고 하더라도, 오피스 365에 오류 메시지를 더 많이 표시하거나 마이크로소프트에서 굳이 코드 품질을 낮춰 더 많은 충돌을 유발 해야 하는 것은 아니다. 세 가지 이벤트 모두 사용률sage 이라는 한 가지 요인 에 의해 발생한다. 제품을 많이 사용하는 사용자는 오류 메시지가 더 많이 표 시되고, 충돌이 더 많이 발생하며, 이탈률이 더 낮다. 상관관계는 인과관계를 의미하지 않으며 이러한 관찰에 지나치게 의존하면 잘못된 결정을 내리는 것으로 이어질 수 있다.
- 온라인 제어 실험을 실행하려는 조직에게 도움될 세 가지 핵심 원칙이 있다(Kohavi et al. 2013).
1. 조직은 데이터 중심 결정을 내리고 OEC를 공식화한다.
2. 조직은 종합 대조 실험을 실행하고 그 결과가 신뢰할 수 있는지 확인하기 위해 인프라와 실험에 기꺼이 투자한다.
3. 조직은 아이디어의 가치를 평가하는 데 서툴다는 것을 인지한다.
- 트위먼의 법칙은 아마도 데이터 분석 전체에서 가장 중요한 단일 법칙일 것이다.... 데이터가 특이하거나 흥미로울수록 이런저런 오류의 결과였을 가능성이 크다. (캐서린 마쉬와 제인 엘리엇Catherine Marsh and Jane Elliott (2009))
- 트위먼의 법칙: “흥미롭게 보이거나 다르게 보이는 모든 것들은 대체로 틀렸다.” (A.S.C 에렌버그 Ehrenberg(1975))
- 트위먼의 법칙: “흥미롭게 보이는 통계는 거의 다 확실히 실수다.” (폴 딕슨 Paul Dickson(1999))
- 초두 및 신기 효과 탐지
초두 효과와 신기 효과를 점검하기 위한 중요한 방법은 시간이 지남에 따 라 사용량을 표시하고 증가하는지 감소하는지 여부를 확인하는 것이다. 위의 MSN 예를 들면, 그림 3.5의 그래프와 같이 메일 링크를 클릭하는 사용자의 비율은 시간이 지남에 따라 확연히 감소했다.
대부분의 실험 분석에서 실험 효과가 시간에 따라 일정하다고 가정한다. 위와 같은 경향은 이런 가정의 위반을 보여주는 위험신호red flag다. 이런 경우 실험 효과가 안정화되기까지 실험을 더 오래 실행할 필요가 있다. 많은 경우 에(이 사례에서 강조된 것처럼) 이러한 방식으로 새로운 아이디어(예: 새로운 기 능의 도입)가 나쁘다고 결론내기에 충분한 통찰력이 생긴다. 이러한 접근법은 대부분의 경우 간단하고 효과적이지만, 특히 실험을 장시간 실행하는 경우 몇 가지 주의할 사항이 있음을 알아두자.
신기/초두 효과를 강조하기 위한 다른 방법은 시간 경과에 따른 모든 사용자 와 대조적으로) 첫 번째 날 또는 두 번째 날에 나타난 사용자를 취해서 시간 경 과에 따른 실험 효과를 그림으로 표시하는 것이다.
- 빙 모바일 광고의 클릭률을 서로 다른 모바일 운영체제에 따라 나눴을 때, 그림 3.6의 그래프에서 보이는 것처럼 서로 매우 달랐다. 처음에는 이 결과를 각 운영체제의 사용자의 충성도와 사용자 모집단 간의 차이라고 짐작했지만, 조사 결과 운영체제에 사용되는 서로 다른 클릭 추 적 방법론 때문이라는 것이 밝혀졌다. 클릭을 추적하는 방법에는 여러 가지 가 있는데 각 방법의 정밀도 충실도)에 따라 서로 상이한 추적 손실률을 보인다. Konar Messner et al. 2010), iOS와 Windows Phone에서는 클릭을 추적하 기 의해 리디렉션을 사용했다. 즉 클릭이 항상 서버로 가고 로그가 기록되며, 그런 다을 목적지로 리디렉션된다. 이 방법론은 높은 정확도를 갖고 있지만 사용자 경험은 더 느리다. Android에서 웹 비콘을 사용해 추적 클릭이 수행 터 클릭이 표시되는데, 그 다음 브라우저를 목적지 페이지로 리디렉션한다. 이 방법은 사용자에게는 더 빠른 방법이지만 추적 손실률은 더 높다. 일부 웹 비콘은 서버에 기록되지 않을 수 있기 때문이다. 이것으로 iOS와 Android의 클릭률r-Thrugn Pate 차이를 설명할 수 있다. 그런데 왜 Windows Phone 클릭 률이 그렇게 높았는가? 이에 대한 조사에서 리디렉션 시 사용자가 화면을 미 는 것이 클릭으로 갈못 기록되는 버그가 있는 것으로 드러났다. 버그는 항상 발생한다. 이상한 자료를 보면 트위먼의 법칙을 상기하고 문제를 조사하라.
- 심슨의 파라독스
다음은 크룩 등(2009)에 근거한 것이다. 실험이 램핑업(15장 참조)을 거치 는 경우 즉, 변형군 간의 비율이 서로 다른 기간이 두 개 이상일 때, 결과를 합쳐서 해석하는 것은 실험 효과에 대해 엉뚱한 결론을 내리게 만들 수 있다. 즉, 첫 번째 단계와 두 번째 단계에서는 실험군이 대조군보다 나을 수 있지 만, 두 기간을 합치면 전반적으로 더 나쁠 수 있다. 이러한 현상을 비직관적 이라 해서 심슨의 역설이라 부른다(Simpson 1951, Malinas, Bigelow 2004, 위키피디아 기고자, Simpson's paradox(심슨의 역설) 2019, Pearl 2009).
심슨의 역설은 비직관적이지만 드물지 않게 나타난다. 실제 실험에서 이 러한 현상이 여러 번 일어난 적 있다(Xu, Chen, Fernandez et al. 2015, Kohavi, Longbotham 2010). 다른 비율로 수집된 데이터를 합산할 때에 유의해야 한다.
심슨의 역설은 어떤 약이 총인구의 회복 확률을 증가시키면서 모든 하위 군(예를 들어 남성과 여성)의 인구에서 확률을 감소시키는 (그래서 해로운) 것이 수학적으로 가능하다는 것을 의미한다. 이는 성별을 알 수 없는 경우 약을 복 용해야 하지만 성별이 남성 또는 여성일 경우 피해야 한다는 것처럼 보일 수 있는데 명백히 터무니없는 말이다. 펄(2009)에 따르면 인과 모형이 어떤 데이터 (모집단 또는 하위 모집단)를 사용할지를 결정할 것이기 때문에 관측 데이 터만으로는 이 역설을 해결하는 데 도움이 되지 않는다. “확실한 것 원리 SureThing Principle” 정리(6.1.1)는 어떤 행동이 각 하위 모집단에서 사건 E의 확률을 증가시키는 경우, 모집단 전체적으로 E의 확률을 증가시켜야 한다고 명시하고 있다.
- 왕자를 잡기 위해 많은 개구리에게 키스해야 한다면, 더 많은 개구리를 찾아내서 더욱 빨리 키스를 해라. (마이크 모란 Mike Moran, Do It Wrong Quickly.(2007))
- 느린 웹사이트의 위험: 사용자 좌절, 부정적인 브랜드 인식, 운영 비용 증가, 수익 손실 (스티브 수더스Steve Souders(2009))
- 서버 성능을 10밀리초 (우리의 눈이 깜박이는 속도의 30분의 1에 해당하는 속도)까지 향상시키는 엔지니어는 본인의 연간 총 비용보다 더 많은 이익을 가져온다. 매 밀리초가 중요하다. (코하비, 덩Deng, 프라스카Frasca, 워커 Walker, 쉬u, 폴만Pohlmann(2013))
- 여러분의 목표와 동인 지표는 조작하기 어렵게 만들 필요가 있다. 수치적 인 목표를 부여했을 때, 인간은 상당히 독창적일 수 있고, 특히 그 수치적 지 표가 보상과 결부될 때, 더욱 그러하다. 역사적으로 수많은 예가 있다.
• 러시아의 유명 슈퍼헤비급 역도 선수인 바실리 알렉세예프는 그가 세계 기록을 깨뜨릴 때마다 인센티브를 제공받았다. 이 조건부 측정의 결과는 그가 보상금 지급을 극대화하기 위해 한 번에 1 또는 2그램씩 세계 기록을 계속 갈아치웠다는 것이다(Spitzer 2007).
• 패스트푸드점 경영자가 음식점의 '닭고기 효율성' 지표(닭고기의 주문 수와 판매 수의 비율)에서 100%를 완벽히 달성했다. 그는 닭이 주문될 때까지 기다렸다가 요리하는 것으로 이를 달성했다. 그는 상은 받았지만 대기 시간이 길어서 식당은 폐업하게 됐다 (Spitzer 2007).
• 회사는 재고를 낮게 유지하는 것에 대해 중앙 창고 예비부품 담당자에게 보너스를 지급했다. 그 결과 창고에서 필요한 예비 부품을 구할 수 없었고, 부품을 주문해서 입고될 때 까지 운영을 중단해야 했다(Spitzer 2007).
• 영국의 어떤 병원의 관리자들은 사고가 났을 때, 응급실에서 환자를 치료하는 데 걸리는 시간을 줄이고 싶었다. 이들은 환자 등록부터 주치의의 진찰까지 시간을 재기로 했다. 이에 간호사들은 병원의 주치의가 환자를 진찰할 준비가 될 때까지 구급대원에게 환자를 구급차에 놔두라고 요청하기 시작해 '환자 치료에 걸린 평균 시간'을 개선했다. (Parmenter 2015).
• 프랑스 식민지 지배하의 하노이에서는 쥐 꼬리가 건네질 때마다 사람들에게 현상금을 지급하는 프로그램이 있었는데, 이는 쥐를 박멸하기 위한 것이었지만, 쥐 양식으로 이어 졌다(반 2003), 코브라 뱀에 관해서는 일화일 가능성이 높지만 비슷한 예가 언급돼 있 는데, 아마도 영국 정부가 델리의 모든 죽은 코브라에 현상금을 걸었을 때, 기업가 성향 의 사람들이 소득을 위해 코브라를 키우기 시작했을 것이다(위키피디아 공헌자, Cobra Effect(코브라 효과) 2019).
• 1945년부터 1960년 사이에 캐나다 연방정부는 고아원에 하루 70센트를 지급하고, 정신과 병원의 환자 1인당 하루 2.25달러를 지급하고 있었다. 보도에 따르면, 2만 명에 이 르는 고아 아동들이 정신질환자로 거짓으로 인정해 카톨릭 교회가 환자당 하루 2.25달 러를 받을 수 있었다고 한다(위키피디아 기고자, Data Dredging(데이터 조작) 2019).
• 화재 신고 수에 의해 소방서에 자금지원을 하는 것은 가장 많은 업무를 수행하는 소방서를 보상하기 위한 것이다. 그러나 그것은 화재 발생 수를 줄이는 화재 방지 활동을 수행하는 의욕을 떨어 뜨렸다(위키피디아 기고자, Perverse Incentive(잘못된 유인) 2019).
- 네가 나를 어떻게 측정하는지 말해달라. 그러면 내가 어떻게 행동할지 말해주겠다. (엘리야후 M. 골드라트 Eliyahu M, Goldratt(1990))
- 첫 번째 규칙은 측정(모든 측정)이 없는 것보다 낫다는 것이다. 그러나 진정으로 효과적인 지표는 작업 단위의 성과를 측정하는 것이고, 단순히 관련 활동을 측정하는 것이 아니다. 분명히 영업 사원은 전화(활동)가 아니라 그가 받는 주문(성과)으로 측정된다. (앤디 그로브 Andrew S. Grove 의 High Output Management』(1995))
- 포커스 그룹은 실험자의 지침에 따른 모집된 사용자 또는 잠재적 사용자 들 간의 그룹 논의이다. 여기서는 '동료들 사이에서는 보통 무엇이 이야기되고 행해지고 있는가?'와 같은 사용자 행동에 대한 자유로운 질문에서 스크린 샷이나 데모 버전을 통해 바로 피드백을 끌어낼 수 있는 구체적인 질문까지 논의된다.
포커스 그룹은 UER 연구보다 확장성이 뛰어나며 제품 개발과 가설의 방향 을 설정할 수 있는 모호하면서도 답이 정해지지 않은 질문을 비슷한 정도의 수준으로 다룰 수 있다. 그러나 그룹 성격과 토론 형식을 고려할 때 포커스 그룹은 UER 연구에서보다 더 적은 영역을 다루며 집단의 편견이나 소수의견 에 빠질 우려가 있다. 고객이 포커스 그룹이나 설문 조사에서 하는 말은 그 들의 진짜 생각과 다를 수 있다. 이러한 현상의 잘 알려진 예는 필립스 일렉트로닉스가 10대들의 휴대용 카세트 라디오 기능에 대한 선호도를 파악하기 위해 포커스 그룹을 운영했을 때 일어났다. 포커스 그룹 참석자들은 포커스 그룹 기간 중 노란색을 매우 선호했으며 검은색을 진부한 것으로 얘기했으나 실제로 참석자들이 방에서 나와 참여에 대한 보상으로 라디오를 집으로 가져 갈 기회가 주어졌을 때 대부분은 검은색(Cross, Dixit 2005)을 선택했다. | 포커스 그룹은 추후 실험을 위한 설계 초기 단계의 잘못 설정된 가설에 대 한 피드백을 얻거나 또는 종종 브랜딩이나 마케팅 변화를 위해 근본적인 감 정 반응을 이해하려고 노력하는 데 유용할 수 있다. 다시 말하지만, 목표는 측정장비를 통해 측정할 수 없는 정보를 수집하고 설계 과정에 도움이 되도록 아직 완전하게 구성되지 않은 변경사항에 대한 피드백을 얻는 것이다.