데이터 과학자의 일

IT 2021. 11. 17. 20:36

- 머신러닝이 모든 문제의 해결책은 아니다.
먼저 꼭 짚어야 할 점은 산업 현장에서 겪는 모든 엔지니어링 관련 문제를 해결하기 위한 가장 적합한 방법이 머신러닝이 아닐 수 있다는 사실이다. 머신러닝은 특정 문제를 해결하기 위한 수단일 뿐이며, 머신러닝이 목적이 되어 끼워 맞추는 식으로 활용할 경우 오히려 안 좋은 결과를 초래할 수 있다. 만약 휴리스틱heuristic (간단한 규칙)을 써서 높은 성능으로 문제 를 해결할 수 있다면, 머신러닝을 쓰기 위해 들여야 하는 자 원을 아낄 수 있다.
가령 뉴스 관련 미디어 회사에서 스포츠 팀별 하이라이트 유튜브 영상을 분류하고 싶다고 하자. 스포츠 팀은 팀별로 특정한 이름이 있고, NBA와 같은 스포츠 리그는 팀이 30개밖에 안 된다. 따라서 각 팀 이름을 놓고 NBA 공식 플레이리스트의 영상 제목에서 간단한 고유명사 매칭 및 필터링을 거치면 꽤 높은 확률로 빠르게 팀별 게임 영상을 분류할 수 있을 것이다.
하지만 휴리스틱은 복잡해지거나 새로 유입된 데이터에 따라 규칙을 추가하거나 기존 규칙을 업데이트하기 어렵다. 는 문제가 있다. 가령 소셜미디어 회사에서 악성 댓글을 감지 하는 모델을 만들고 싶다고 하자. 특정 비속어 단어 키워드를 매칭하는 규칙을 쓴다면, 새로운 비속어가 등장할 때마다 단 어를 추가해야 하기 때문에 이를 유지하는 비용이 엄청나다.
이 경우에는 머신러닝이 비용을 줄이는 효과적인 방법일 수 있다. 딥러닝 모델에 문장 전체를 하나의 입력값으로 넣고, 출력값으로 그 문장의 혐오 종류와 수위 등을 분류하도록 학습시킬 수 있기 때문이다. 그럼 특정 키워드뿐만 아니라 악성 댓글의 문맥 패턴까지 학습하여 새로운 비속어가 등장하더라도 문맥이 혐오적이라면 이를 올바르게 감지하는 모델을 만들 수 있을 것이다.
- 첫 모델을 빨리 출시하라
평가 지표를 골랐다면 첫 모델을 빨리 개발하여 테스트 환경에 배포해보는 것이 좋다. 머신러닝 모델은 가장 간단한 기준 모델baseline model’부터 시작해서 계속 개선해나가는 것이 중요하기 때문이다. 처음부터 성능이 뛰어난 모델을 디자인 하고 학습시키려 한다면 너무 많은 시간을 허비할 수 있으며, 전체적인 파이프라인도 소홀하게 구축될 수 있다. 사실 머신 러닝 프로젝트에서는 모델링도 중요하지만, 어떻게 학습된 모델을 테스트하고 배포하는지, 배포한 모델을 어떻게 모니 터링하는지, 추론에 오류가 있다면 어떻게 피드백을 받아 재학습시키는지 등도 그만큼 중요하다. 그래서 가장 간단한 모델, 심지어 규칙성 휴리스틱 모델을 먼저 만들어 서비스해보면 전체적인 그림을 그릴 수 있고, 어느 부분이 부족한지 정확히 알 수 있다.
그렇다면 학습된 모델을 어떻게 서비스화할 수 있을까? 여기에는 크게 세 가지 방법이 있다. 첫째는 REST API' 라는 형태다. 클라이언트(유저)가 서버(모델)에 웹상으로 입력값을 보내 요청하면 서버에서 출력값을 다시 클라이언트에 전달하는 방식이다. 둘째는 오프라인에서 모델을 활용하는 방식이 다. 예를 들어 검색엔진에서 음란물 사이트를 감지하는 모델 을 학습했다고 하자. 이미 데이터베이스에 사이트에 관한 방대한 정보가 쌓여 있기 때문에, 오프라인 상태에서 이 모델에 데이터베이스에 있는 웹페이지 데이터를 입력해 추론한 결과 값을 도출해낼 수 있다. 셋째는 유저의 휴대 기기(핸드폰, 태블 릿 PC 등)에 모델을 배포해 기기에서 직접 모델을 돌리는 방 법이다. 이는 여러 최신 카메라 애플리케이션이 장면 인식, 얼굴 인식, 비디오 화질 개선 등을 위해 사용하는 방법 중 하 나다. 이미지 및 비디오를 서버로 보내 처리하여 다시 모바일 기기로 받아내는 시간이 너무 오래 걸리기 때문에 모바일 기기에서 직접 모델을 돌리는 경우 레이턴시를 효과적으로 줄일 수 있다.
- 이렇듯 게임 속 플레이어의 행태는 인간의 심리나 사회 메커니즘을 이해하는 데 좋은 단서가 될 수 있다. 효과적인 조직 관리에 대한 힌트를 게임 세계에서 잘나가는 길드의 특 징을 분석함으로써 찾을 수 있지 않을까? 현실 세계에서 최 저 임금을 높이거나 기초 소득을 제공했을 때 경제에 미치는 영향을 추정하기 위해 게임 세계에서 재화 획득량을 높였을 때 게임 경제가 어떻게 바뀌는지 분석하는 건 어떨까? 또는 게임 속에서 사람들이 아이템을 서로 거래할 때 어떻게 가격 이 수렴하는지 분석하면 현실 세계에서 시장 가격이 형성되 는 원리를 이해하는 데 도움이 될지도 모른다.
물론 게임은 현실과 다르다. 대신 현실에서는 확보하기 불 가능한 수준의 세밀한 데이터를 분석할 수 있다. 사실 게임과 현실의 차이가 더 클지 아니면 현실 세계에서 관측할 수 있는 정보의 한계가 더 클지는 아무도 모른다. 다만 여기서 중요한 것은 이 둘이 갖는 한계가 다르기 때문에 서로를 보완할 수도 있다는 점이다. 바로 이 점이 사회과학 분야에서 게임 데이터 에 관심을 가져야 할 큰 이유가 아닐까 싶다. 게임 분야에서는 플레이어의 행태를 세밀하게 기록한 데 이터를 이용해서 여러 가지 분석이 진행되고 있다. 다른 어떤 분야보다 풍부한 데이터를 토대로 폭넓은 분석이 가능하며, 심지어 현실에서 관측하기 힘든 사건들까지 세밀하게 분석할 수 있다. 그래서 게임에는 단지 게임 플레이어뿐만 아니라 데 이터 분석가의 마음까지 빠져들게 하는 매력이 있다.
- 현상을 완벽하 게 설명하는 통계모형은 존재하지 않는다. 또한 이는 통계학 의 목적에도 부합하지 않는다. “모든 모형은 틀렸다. 하지만 어떤 것은 유용하다 All models are wrong, but some are useful.” 13 통계학 을 진지하게 공부한 독자라면 아마 한 번은 들어봤을 유명한 인용구다. 이 인용구의 핵심은 이렇다. 유용한 모형이란 복잡한 사회 현상을 이해하는 최대한 간결한 틀을 제공한다는 말이다. 불필요한 디테일은 무시하되 관심 현상을 특정 맥락에 서 의미있게 이해할 수 있다면 설령 '틀린' 모형일지라도 충분히 유용하다는 것이다. 우리는 충분한 객관적인 데이터와 엄밀한 모형 설계를 통해 머니볼 가설을 다차원적으로 검정했다. 즉 머니볼 효과는 실재했다고 결론 내릴 수 있다.
- “Adapt or Die.” '적응하지 못하면 죽는다'는 뜻의 이 대사는 영화 〈머니볼>에서 빌리 빈이 데이터 기반 선수 선발에 반 발하는 스카우터들과 대립할 때 자신의 관점을 관철시키려 한 말이다. 언더독 신화라는 영화적 서사 이면에 머니볼 효과가 갖은 함의는 궁극적으로 현대 데이터 과학이 지향하는 바와 같다. 그것은 방대한 데이터 사이에서 연관성 혹은 유의미한 패턴을 발견하고 이를 의사 결정에 반영하는 것이다. 데이터 기반 의사 결정의 가장 큰 도전은 직관이나 경험을 배반하는 분석 결과를 대하는 의사 결정자의 태도라고 할 수 있다. 익히 알려졌듯 머니볼의 핵심 가설들은 이미 1970년대 야구광이자 야구 분석의 선구자라 불리는 빌 제임스 Bil James 에 의해 제시된 해묵은 아이디어였다. 하지만 이 흥미로운 분석 결과가 경기에 반영되기까지는 무려 30여 년이 걸렸다. 스포츠는 다른 분야에 비해 상대적으로 객관적 데이터를 수집하기가 쉽다. 하지만 스포츠만큼 경험과 직관이 지배하는 분야또한 드물다. 결국 이 치열한 경쟁에서 살아남기 위해서는 스포츠 경기력 데이터의 한계와 가능성을 이해하고, 의사 결정 과정에 이를 유연하게 적용하는 능력이 있는지가 관건일 것이다.

'IT' 카테고리의 다른 글

인공지능으로 성공하기 (0)	2021.11.26
2029 기계가 멈추는 날 (0)	2021.11.17
AI 최강의 수업 (0)	2021.11.09
디지털 트랜스포메이션 필드매뉴얼 (0)	2021.10.29
어텐션 팩토리 (0)	2021.08.21