'데이터마이닝'에 해당되는 글 1건

  1. 2014.11.13 비즈니스를 위한 데이터 과학

 


비즈니스를 위한 데이터 과학

저자
포스터 프로보스트, 톰 포셋 지음
출판사
한빛미디어 | 2014-07-30 출간
카테고리
컴퓨터/IT
책소개
이 책은 비즈니스 의사 결정을 향상시키기 위해 대량의 데이터에서...
가격비교

- 비즈니스 인사이더가 선정한 100대 디지털 기업 중 페이스북과 트위터릴 비롯한 여러 회사가 그들이 확보한 데이터 자산 덕분에 높은 가치를 인정 받음. 관리자는 데이터 분석팀과 분석 프로젝트를 관리하고, 마케터는 데이터 주도 마케팅을 조직하고 이행하며, 벤처 투자자는 데이터 자산을 가진 기업에 현명하게 투자하고, 비즈니스 기획자는 데이터를 활용하도록 계획을 세울 수 있어야 하는 추세가 점점 가속화되고 있음.
- 데이터 마이닝은 엔지니어링이라기 보다는 연구개발하고 탐구하는 성격이 강하므로 엔지니어링 프로젝트처럼 관리하면 안됨. CRISP주기는 탐구를 중심으로 이뤄지며, 소프트웨어 설계보다는 접근방법과 전략을 반복하면서 개선. 그리고 한단계 수행하고 나면 문제에 대한 이해가 근본적으로 달라지므로, 배치할 수준의 데이터 마이닝 해결책을 단번에 만드는 일은 성급한 방법. 대신 분석 프로젝트가 정보에 대한 불확실성을 여러가지로 줄일 수 있는 정보를 얻게 해줌. 데이터 과학자는 논문들을 검토하고 다른 방법은 있는지, 어떻게 작업하는지에 대해 연구해야 함. 팀 단위 규모에서는 상당히 빠르게 실험할 수 있도록 실험용 테스트베드에 상당한 투자를 해야 하는 경우도 있음. 만약 여러분이 소프트웨어 개발관리자라면 기존의 소프트웨어 프로젝트보다는 연구 및 탐색 성격이 훨씬 강하다는 느낌을 받게 됨
- 과적합화는 데이터 마이닝하는 동안 아직 학습하지 않은 데이터에 대한 일반화는 희생하고 훈련 데이터에만 모델을 맞추려는 경향을 나타냄. 모든 데이터 마이닝 절차에는 정도의 차이는 있지만 과적합화려는 경향이 있음. 과적합화란 어떤 데이터 세트를 관찰해봄으로써 그 데이터 안에 존재하는 패턴을 발견하게 되는 것. 로날드 코스는 "데이터를 오래 고문하면 결국 자백한다"라는 말로 이 문제를 지적. 불행히도 과적합화 문제는 알아내기도 쉽지 않고 과적합화되지 않는 데이터 마이닝 절차를 사용할 수 있는 것도 아님. 이는 모든 데이터 마이닝 절차에는 과적합화할 수 있는 가능성이 충분히 있기 때문. 그렇다고 그저 과적합화 문제가 적은 모델을 사용하는 것으로 문제를 해결할 수도 없음. 왜냐하면 모델 복잡도와 과적합화 문제는 근본적으로 서로 동존의 양면과 같기 때문. 그래서 실제 복잡한 모델이 실세계의 복잡한 데이터를 더욱 잘 파악해서 더 정확한 경우가 있기에 오히려 복잡한 모델이 필요한 경우도 종종 있음. 과적합화를 한번에 해결할 수 있는 방법이나 절차는 없음. 따라서 과적합화되어 있는지를 알아내고 원칙에 따라 복잡도를 관리하는 전략이 좋음
- 데이터 마이닝은 근본적으로 모델 복잡도와 과적합화 문제간의 싸움. 데이터를 만들어내는 현상 자체가 복잡하다면 복잡한 모델이 필요할 수도 있지만 복잡한 모델은 훈련 데이터를 과적합화(모집합에 없는 특성을 모델링하는 것)할 위험이 있음. 과적합화된 모델은 동일한 모집단에서 나오는 다른 데이터에는 일반화되지 않음. 물론 모델의 종류에 상관없이 과적합화될 수 있음. 과적합화를 피할 수 있는 만병통치약은 없기 때문에 예비세트로 시험해 과적합화되어 있는지 알아보는 것이 가장 좋음. 또한 여러 그래프를 통해 과적합화 여부와 정도를 알아볼 수도 있음. 적합도 그래프는 모델 복잡도에 따라 훈련 데이터와 시험 데이터에 대한 성능 곡선을 보여줌. 시험 데이터에 대한 적합도 곡선은 일반적으로 오류를 표현하는 경우에는 U자, 정확도를 표현하는 경우에는 거꾸로 된 U자모양을 보여줌.
- 타겟값을 가장 잘 구분할 수 있는 방법은 무엇인가? 라는 질문에 대한 모델리 기법에서 분류 트리와 선형방정식은 이 질문에 대한 대답으로서 엔트로피와 손실을 최소화하면서 모델을 만듬. 이 모델들은 객체를 분류할 수 있는 함수들로서 객체의 타겟을 찾아내려 하기 때문에 식별기법이라 부름. 각 타겟값이 특징값을 어떻게 생성하는가 라는 질문에 대한 기법들은 데이터가 어떻게 생성되는지 모델링함. 사용단계에서 분류해야 할 새로운 사례를 만나면 베이즈 규칙을 모델에 적용해 "어느 계층이 이 사례가 가진 특징을 만들 가능성이 높은가?"라는 질문에 답한다. 따라서 데이터과학에서 이런 모델링 기법을 생성기법이라 부르며, 이 기법들은 베이즈 규칙에 상당히 의존하고 있기 때문에 베이지안 기법 계열의 기반이 됨. 베이지안 기법은 상당히 폭넓고 깊이있게 응용되므로 데이터과학에서 이 기법을 자주 만나게 됨
- 어떤 데이커 과학자가 3개까지 조합한 n-그램 주머니라고 언급한다면 문서를 각각의 단어, 인접한 2단어 쌍, 인접한 3단어 쌍으로 표현하고 있음을 의미한다. 개별단어보다 특정문장이 중요한 경우에는 n그램이 매우 도움이 됨. 비즈니스 뉴스기사의 경우 어떤 문서에 그저 analyst, expection, exceed 단어가 들어 있다고 알고 있으면 문서의 의미가 더 정확히 전달됨. n-그램은 언어를 알거나 복잡한 파싱 알고리즘을 사용할 필요가 없을 뿐 아니라 생성하기 쉽다는 장점이 있음.
- 계속해서 비즈니스 문제를 더욱 자세히 파고들면 문제에 존재하는 복잡성을 더 많이 파악할 수 있음. 그러면서 해결책도 더욱 까다로와짐. 어디서 멈춰야 할까? 계속해서 분석만 할 수는 없쟎아? 라는 생각이 들수도 있음. 원칙적으로 분석은 끝이 없지만 문제를 다룰 수 있으려면 모델링은 늘 문제를 단순화하기 위한 가정을 어느정도 해야 함. 문제를 분석하다보면 다음 결론 중 하나에 도달
* 이 이벤트에 대한 데이터는 구할 수 없다
* 이 측면을 정확히 모델링하려면 너무 많은 비용이 든다
* 이 이벤트는 증명할 수 없으므로 그냥 무시한다
* 현재로서는 이 공식이 충분한 것 같으니 이것으로 진행한다
분석공학의 핵심은 가능한 모든 경우를 처리할 수 있는 복잡한 해결책을 만드는 것이 아님. 오히려 문제에 대해 데이터를 분석적으로 생각하도록 장려함으로써 데이터 마이닝의 역할을 명확히하고 비즈니스 제약, 비용, 효과를 고려하며, 문제를 단순화하기 위한 가정을 명확히 표현하는 것. 이렇게 하면 프로젝트 성공 가능성을 높이고 해결책을 운영하는 동안 문제에 의해 기습공격당할 위험이 줄어들 것임.

'IT' 카테고리의 다른 글

백세코딩  (0) 2014.11.13
스매싱북 2  (0) 2014.11.13
시장의 신화 1 - 시장의 탄생  (0) 2014.11.11
웹 서비스 개발 철저공략  (0) 2014.10.29
나는 앱으로 백만장자가 되었다  (0) 2014.10.22
Posted by dalai
,