- 데이터 분석이 우리에게 줄 수 있는 가치가 무엇인지에 대한 기대치를 우선 먼저 정확하게 수립해야 한다. 데이터 분석에 대한 사전 지식이 없거나 관련 경험이 없다면 데이터 분석 프로젝트의 효용 자체에 오해를 가질 수 있다. 예를 들어, 경영진은 데이터 분석을 조직 내에 모든 영역에 적용할 수 있다고 오해할 수 있다. 또는 데이터 분석 결과가 개인이나 조직의 의사결정에 항상 긍정적인 영향을 준다고 생각할 수 있다. 하지만 적용 영역, 성과 및 영향의 범위는 조직이 보유한 인력, 프로세스, 보유 기술(소프트웨어, 기반 시설)에 따라 달라질 수 있는 것이다. 그런데도 현실에서는 조직과 개인의 환경과 보유 역량을 고려하지 않은 채 무리하게 일을 추진하기도 한다.
중요한 것은 각 조직과 개인의 환경 및 상황을 고려하지 않는 상태에서 무리하게 높은 기대치를 가질 경우 기대한 만큼의 성과를 얻기 힘들다는 점이다.
- 데이터 분석을 수행하기 위해서는 여러 투자가 필요하다. 예를 들어, 필요에 따라 데 이터를 유료로 구매해야 하는 경우도 있고, 분석과 관련된 여러 도구(소프트웨어 등) 를 구매하는 경우, 그리고 대규모 데이터 분석에서는 다양한 인력이 필요하다. 또한, 데이터 확보에도 데이터의 종류, 기간, 용량에 따라 비용에 따른 투자가 발생하고, 대용량의 데이터를 보관하기 위해서는 저장 비용(디스크 구매 또는 클라우드 저장 공간 비 용) 등이 필요하다. 철저한 사전 분석과 체계적 관리 없이 프로젝트가 진행될 때는 예 상치 못한 추가적인 비용이 발생할 가능성이 크다. 데이터 분석으로 얻는 효익을 넘어서는 비용이 발생한다면 명백한 투자 실패이기에 데이터 분석 프로젝트의 의미 자체가 퇴색된다.
- 데이터 분석은 의외로 많은 시간이 요구된다. 기술적인 부분에 있어 컴퓨터의 연산 능력과 관련 장비가 발달하면서 데이터의 처리 속도가 과거에 비해 빨라졌지만, 그만큼 우리가 다룰 수 있는 데이터의 양 또한 급격하게 증가했다. 개인의 1년치 카드 사 용 내역은 수백 줄, 많아야 수천 줄 정도이기 때문에 엑셀로 처리할 수 있지만, 수십 만 명의 1년치 카드 사용 내역은 엑셀로 다루기 힘든 엄청난 용량의 데이터다. 잘못 된 로직으로 데이터를 분석하여 원하는 결과를 얻지 못하면, 데이터를 내려받아 분석하는 모든 과정을 처음부터 다시 수행해야 한다. 작게는 몇 시간, 길게는 며칠에 걸쳐 재작업을 해야 할 수 있다. 그뿐만 아니라 담당자와의 비효율적 의사소통, 데이터 누락 및 오류로 인한 데이터 검증, 필요시 데이터 재확보 과정은 추가적인 시간이 많이 필요해서 프로젝트 관리 측면에서는 큰 손실이다.

- 목표 및 작업의 범위와 더불어 작업의 초기에 프로젝트의 구체적인 결과물이 무엇인지 를 정해야 한다. 프로젝트의 목표와 작업의 범위에 따라 그 결과물이 결정될 것이다. 다음과 같은 결과물이 프로젝트 수행 결과로 제시될 수 있다.
* 결과 리포트 또는 프레젠테이션
* 분석 결과를 시각화한 차트 또는 대시보드
* 분석과 관련된 로직 및 설계도
* 분석에 사용된 소프트웨어 또는 분석 도구의 코드 또는 스크립트
- 데이터 수집 단계에서는 프로젝트 목표를 달성하는 데 필요한 데이터 세트pata set의 식별, 수집에 집중하여야 한다. 가장 가까운 주변에서 활용 가능한 데이터가 있는지 확인하면서 데이터 수집 단계는 시작된다. 가깝게는 나의 컴퓨터, 그리고 회사나 팀 에서 사용하는 공용 폴더, 또는 클라우드 공간 등에서 활용할 수 있는 데이터가 있 는지 확인하고 수집한다. 때로는 남이 가지고 있는 대용량의 데이터나 전문기관에서 제공하는 데이터보다 오히려 내가 가지고 있거나 조직 내에서 생산, 가공한 데이터가 더욱 가치 있기도 하다. 그렇기 때문에 우선 내 주변에서 사용 가능한 데이터를 확인 한 후에 공공 데이터 또는 구매하여 사용하는 유료 데이터를 활용한다.
- 구조에 대한 전처리는 데이터 추출, 결합, 집약에 대한 내용을 주로 다룬다. 예를 들어, 매출 데이터와 상품 데이터를 확보하였다면 이 두 데이터 세트 구조와 데이터들을 어 떻게 결합할지 등에 관한 부분이다. 두 데이터를 결합하여 매출 정보와 상품 정보를 모두 포함한 데이터를 생성한 후 작업을 실시한다면, 이는 데이터 결합을 통한 전체 리 과정이다.
내용에 대한 전처리는, 예를 들어 일별 데이터를 월별 또는 연간 데이터로 변환하거나, 확보한 기존 데이터 중 숫자 데이터 간에 계산(매출과 비용 데이터를 이용하여 수익 데 이터를 새롭게 계산)을 통해서 새로운 데이터의 열을 조합하여 만드는 작업이 이에 해당한다.
- 본격적인 분석에 앞서 데이터 사전 준비 단계는 일반적으로 데이터 프로젝트에 드는 시간의 최대 80% 가 소요되는 단계다. 그렇기 때문에 체계적이고 면밀한 검토를 통해 사전 준비를 수행해야 시행착오를 최소화하고 정확한 데이터를 준비할 수 있다.
우선, 데이터를 수집하면 수집한 데이터 간의 관계를 이해하자. 관계를 이해하면서 현재 가지고 있는 것 이 무엇인지, 그리고 원래 목표를 달성하기 위해 추가로 필요한 것이 무엇인지를 파악할 수 있다.
다음 단계(그리고 가장 두려운 단계)는 데이터를 정리하는 것이다. 예를 들어, 수집된 데이터가 수만 건이 모 여 있는 데이터 세트라고 생각해 보자. 중간중간에 데이터가 누락되어 있거나 잘못된 데이터가 있는 경 우가 많다. 데이터가 동질적이고 깨끗한지 확인하기 위해 모든 열을 살펴봐야 하는데, 이 과정에는 상당 히 많은 시간과 에너지가 필요하다. 이것은 아마도 데이터 분석 프로젝트에서 가장 길고 성가신 단계일 수도 있다.
마지막으로, 데이터 준비에서 간과해서는 안 되는 중요한 요소 중 하나는 수집 과정에서 데이터 개인 정보 보호 규정을 준수하는지 확인하는 것이다. 많은 데이터 분석 프로젝트에서 활용되는 소스 데이터들이 개인으로부터 수집된 민감한 정보일 가능성이 크다. 그러므로 개인 정보 보호는 사용자, 조직 및 관련 기관 모두에게 높은 우선순위로 다뤄져야 한다. 개인 정보 보호 규정을 준수하면서 프로젝트를 실행하려 면 모든 데이터 작업, 소스, 데이터 세트를 중앙 집중화하여 관리하는 것이 필요하다. 그런 후에 개인 및 (또는) 민감한 데이터가 포함되었는지 확인, 관리, 처리해야 한다.
- 분석 결과 평가 데이터 분석 결과 자체를 평가 및 검토한다.
데이터 결과가 정확하고 오류가 존재하지 않는가? 
더 데이터 분석 결과가 프로젝트 초기에 세웠던 목표에 부합하는 결과인가? 
상식과 일반적인 관점에서 수용 가능한 결과인가?
결과가 의사결정에 도움이 되는가?
- 결과를 도출하기 위해 거친 과정 자체를 평가 및 검토한 후 필요하면 수정 및 반영하도록 한다. 
분석 과정에서 간과하거나 누락된 것이 있는가? 
분석 과정에서 계획했던 모든 단계를 제대로 실행하였는가?
분석 결과 검증, 검토 후 재분석이 필요하다면 추가 및 수정이 필요한 과정은 무엇인가?

- 데이터 분석의 오류는 대략 다음과 같은 원인으로 발생할 수 있다.
* 잘못된 분석 대상 데이터의 선정.Input Data Error 분석에 사용한 데이터를 잘못 수집하였거나 수집된 데이터가 분석 목적에 적합하지 않은 경우 
* 분석 대상 데이터의 오염pata Corruption 수집된 데이터 세트에 포함된 데이터에 문제가있거나 잘못된 정보가 포함된 경우 또는 기술적 문제로 데이터 자체가 오염된 경우 
* 분석 로직 또는 모델링의 오류Analysis Logic & Modeling Error 분석에 사용된 로직 또는 분석모델을 잘못 설계하여 결과가 나온 경우
* 결과물 해석의 문제 분석결과를 해석하는 과정에서 데이터를 바라보는 관점, 입장 차이, 그리고 해석자의 이해관계 등으로 결과를 왜곡되게 해석하는 경우
- 데이터의 형태와 관리 기본 규칙을 유지하는 것을 데이터 무결성이라고 한다. 일반적으 로 사용하는 데이터베이스 시스템에서는 규칙에 어긋나거나 부적절한 형태의 데이터 가 입력되는 경우와 필수 데이터가 누락되는 경우에 시스템이 이를 자체적으로 검사 하고 문제를 해결하여 데이터의 품질에 결점이 없도록 유지한다. 즉, 무결성을 유지 한다'라고 표현할 수 있다.
데이터 무결성은 데이터의 신뢰와 정확성을 나타내기 때문에 중요하다. 하지만 여러 소스로부터 데이터를 확보하였을 때 모든 데이터 세트에 무결성이 보장될 수 없다. 예를 들어, 조직 내의 데이터베이스로부터 매출 데이터를 확보하고 외부 소스로부터 소셜 네트워크 데이터를 확보하여 이를 종합하여 분석을 수행하고자 할 때 외부 소스에서 확보한 데이터에 무결성 문제가 있을 수도 있는 것이다.
- 왜 데이터 품질에 문제가 있을까(무결성 오류의 편) 
일반적으로 다음과 같은 이유로 데이터 품질, 즉 무결성에 문제가 발생할 수 있다.
* 사람에 의한 오류 데이터 자체의 입력 오류
* 신종 오류 데이터를 전송하는 과정(인터페이스)의 기술적인 문제로 데이터가 손상되거나 오류가 발생하는 경우
* 버그, 바이러스/악성 프로그램, 해킹 및 기타 사이버 위협
* 장치 또는 디스크 충돌과 같은 하드웨어적 손상
이 중 위에서 처음으로 언급한 사람으로 인한 오류로 발생하는 데이터 누락 및 입력 오류의 원인은 다음과 같은 세 가지 일반적인 이유로 구분할 수 있다.
* 개인 정보 제공을 꺼리는 경우(예 소득 수치, 연락처 등)
* 데이터 포맷 자체가 데이터를 보관할 수 없어서 데이터가 입력되지 않은 경우(예 필수 필드가 없어서 정보 입력 자체가 불가능했던 경우)
* 데이터 수집 시 수집 대상과 관련이 없는 필드가 있는 경우(예 대부분의 응답자가 은퇴한 경우 소속 회사 정보는 대부분 비어 있을 것이다.)
- 데이터 품질 검증과 전처리 
(1) 무결성 테스트를 통해 데이터 품질을 확인한다.
* 필드 확인
* 전체 행 개수 및 값 합계 확인 
* 데이터 유형 불일치, 값 입력 방식의 변형 및 누락된 값 확인 
* 데이터 범위 확인 
* 중복, 누락 값 및 이상 데이터 확인
(2) 데이터 품질을 확인 후 필요에 따라 데이터 전처리를 수행한다.
* 과도하게 벗어난 값과 중복 데이터 제거 
* 기술적, 형식적 오류 수정 
* 누락된 데이터의 적절한 처리
- 데이터 분석 유형에 따른 데이터 도구 
선택 본인이 수행하고자 하는 프로젝트의 분석 유형에 따라서 적합한 도구를 선택해 볼 수 있다. 앞서 언급했 던 바와 같이 네 가지의 데이터 분석 유형인 설명적 분석, 진단 분석, 예측 분석, 처방적 분석으로 구분해 볼 수 있다.
(1) 설명적 분석 
설명적 분석은 지나간 과거 데이터를 분석해서 과거의 현상을 파악하는 행위인데, 앞에서 언급한 모든 통계 분석 도구들(엑셀, R, SAS, SPSS)과 비즈니스 인텔리전스 도구들(파워 비아이, 클릭 센스, 태블로)을 사 용할 수 있다. 프로그래밍 언어 도구들(파이썬, 매트랩, SQL)을 사용하면 데이터 수집의 효율성을 높일 수 있다.
(2) 진단 분석
진단 분석은 과거 데이터를 토대로 인과 관계를 파악해 내는 것으로, 모든 통계 분석 도구들(엑셀, R, SAS, SPSS)과 비즈니스 인텔리전스 도구들(파워 비아이, 클릭 센스, 태블로)을 사용할 수 있다.
(3) 예측 분석 
예측 분석은 통계적 지식을 바탕으로 미래에 발생할 일들을 확률적으로 계산하는 것으로, 통계 분석 도구들(엑셀, R, SAS, SPSS)의 사용을 우선적으로 고려할 수 있다.
(4) 처방적 분석 
처방적 분석은 앞서 언급한 기술적 분석, 진단적 분석, 예측 분석의 자료를 토대로 미래를 대비할 수 있는 처방을 고찰하는 것이다. 효과적인 의사결정을 위해 비즈니스 인텔리전스 도구들(파워 비아이, 클릭 센스, 태블로)의 사용을 우선적으로 고려할 수 있다.

'IT' 카테고리의 다른 글

데이터는 어떻게 자산이 되는가  (0) 2022.02.22
웰컴 투 인공지능  (0) 2022.02.20
21세기 권력  (0) 2022.01.08
인공지능 비즈니스의 모든 것  (0) 2021.12.26
아세안 슈퍼앱 전쟁  (0) 2021.12.18
Posted by dalai
,