- '신은 믿는다. 신 말고는 누구라도 데이터를 제시해야 한다'(데밍)
- HR에서 빅데이터 활용 솔루션 예시
* 보상 : 시저 카지노가 알아낸 사실에 따르면 일정한도 내에서의 임금인상은 이직률에 영향을 주지 않는다
* 소모 : 제록스가 알아낸 것에 따르면 콜센터 직무의 경우 경험이 과대평가 받고 있다. 또한 지나치게 파고들기를 좋아하는 직원들은 훈련 뒤 단기간 내에 직장을 그만두는 경향이 있다
* 질병 : 리치필드매니지먼트는 마약과 음주에 관한 응시자들의 성향을 테스트한 결과, 업무외 활동에 참가하는 직원들이 사고를 낼 가능성이 더 높다는 사실을 발견
- 무료가 아닌 경우 극히 미미한 요금조차도 상당한 경제마찰을 불러올 수 있음. 즉, 아주 적은 요금만 붙어도 상업적 활동을 불균형적으로 억제함. 아마존이 유럽전역에서 시행한 25불 이상 주문시 무료배송 프로모션에서, 프로그램상의 오류로 의도치 않게 프랑스 고객들에게 1프랑(20센트)이라는 얼마 안되는 배송비를 청구하게 됨. 다른 유럽국가들과 비교했을 때 유독 프랑스에서 판매액이 크게 떨어짐. 아마존이 뒤늦게 오류를 수정하자 회복됨.
- 기업의 CEO는 조직전반에 데이터를 연결시키는 것에 관한 질문을 제기하고 효율적으로 회사를 운영할 수 있어야 하며, 특히 예상치 못한 사건에 대응하는 능력을 갖추어야 한다. 대부분의 기업들은 전체를 통합해 연결시키는 능력을 갖추지 못하고 있다. (팀 버너스 리)
- 90년대 내내, 그리고 2000년대 초반에 점점 더 많은 기업들이 관계형 데이터 모델에 기반을 둔 시스템을 효율적으로 사용했음. 그들은 과거 메인프레임 시스템을 현대 기업 애플리케이션으로 완전히 갈아엎음. 중요한 것은 이런 애플리케이션들이 오라클이나 구조화 질의어(structured query language) 서버 등을 비롯한 잘 정돈되고 값비싼 관계형 데이터베이스로 작동됐다는 점. 게다가 기업들은 ETL(추출, 변환, 로드)이라 불리는 과정을 거쳐 과거 데이터를 새로운 시스템으로 전환시켰다. 그 이전 시스템들과 마찬가지로 ERP나 CRM시스템은 구조화 데이터를 처리하는 데 탁월해 판매자 대금이나 직원급여 결제와 같은 필수 업무를 수행하거나 일반적인 보고서를 제공했다. 직원들은 이러한 시스템을 이용해 필수적인 기업정보를 입력, 편집, 검색할 수 있었다. 기업 인트라넷, 위키, 지식 베이스 같은 것들이 초기에 비정형화 데이터를 캡처하려는 대표적 시도들이었으나 이러한 데이터의 대부분은 내부적인 것이었다. 대개의 경우 규모가 큰 기업에서 인트라넷은 실질적인 킬러앱인 이메일을 대신하는 못했음. 데이터에 관한 질문을 받으며 사람들은 대부분 앞서 언급된 구조화된 종류의 데이터만 떠올림. 블로거 짐 해리스는 데이터 라운드 테이블에 다음과 같은 글을 올렸다. "관계형 모델은 80년대 이래 데이터 경영산업을 지배해왔다." 이 모델은 데이터는 활용되기 전에 잘 구조화돼야만 하고, ACID(원자성, 일관성, 고립성, 영속성) 원칙을 준수해 관리돼야 하며, 주로 표로 구조화되거나 구조화 질의어를 이용해 접속돼야 한다는 오래된 신념을 조장한다. 이런 해리스의 견해는 정확하며 타당성이 있다. 관계형 데이터 모델은 여전히 중요하지만, 그렇다고 유일하게 이용가능한 모델은 아님. 논의되고 있는 데이터 유형과 출처가 무엇이냐에 따라 이야기는 달라짐.
- 구조화데이터는 다른 데이터와의 관계가 정의돼 있고 정돈돼 있으며 일관적일 뿐 아니라 스프레드시트나 데이터베이스 테이블에 간편하게 저장될 수 있음. 비정형화 데이터는 이와 반대. 규모가 거대하고 상관관계가 없으며 복잡하게 얽혀 있는 데다 텍스트로 가득 차 있고 표로 쉽게 나타낼 수가 없음. 또한 비정형화 데이터는 우리가 빅데이터라 부르는 것의 대부분을 차지. 감성 및 텍스트 애널리틱스 소프트웨어의 선두주자인 클라라브리지에 따르면, "비정형화 정보는 기업데이터의 80% 이상을 차지하고 있다." 일부 추산에 따르면, 비정형화 데이터는 구조화 데이터보다 50배나 더 빨리 증가하고 있음. 데이터가 증가하고 있다는 것은 누구나 동의하지만, 우리가 정확히 어떤 용어를 사용해야 할지에 대해서는 의견이 분분하다. 일부에서는 비정형 데이터라는 용어 자체가 사실 모순이라고 지적. 소프트웨어 업게에서 선두적인 애널리스트이자 전략자문위원인 커트 모내시 박사는 다구조화 데이터를 "고도로 구조화된 데이터베이스 혜택은 거의 다 제공받을 수 있는 구조를 갖추고는 있으나, 그런 데이터 시스템에 필요한 간결하고 일관적인 형태로 나타낼 수는 없는 데이터로 정의함.
- 반구조화 데이터는 그 명칭이 말해주든 구조화 데이터와 비정형화 데이터 양쪽의 특징을 모두 가짐. 아래 사례들이 이에 포함됨
* 확장성 생성언어(XML)를 비롯한 여타 마크업 언어들
* 이메일
* 전자문서 교환(컴퓨터간 정보교환을 위한 특정 표준화 양식)
- 오늘날 대부분의 조직체들이 안고 있는 데이터 관리상의 문제는 그들이 특정 애플리케이션의 요구를 충족시키기 위해 데이터를 관리한다는 데서 비롯된다. 이는 어느 한가지 애플리케이션의 차원에서 보았을 때는 이로울지 몰라도, 기업 전체의 필요성을 만족시키기에는 턱없이 부족하다. 데이터의 출처, 다양성, 양이 더 증가한 지금, 좀더 현대적이고 전체론적인 사고방식을 갖추지 않는다면 조직체들은 계속해서 고군분투해야 할 것이다. 그들은 방향을 전환해 애플리케이션 전략이 아닌 조직의 전략에 맞춰 데이터를 관리하는 체계를 만들어야 할 것이다. (데이터 자산, 현명한 회사들은 어떻게 데이터를 관리해 성공을 이루는가)
- 빅데이터에 마법의 힘을 기대해서는 안됨. 데이터를 토대로 의사결정을 내리지 않으려고 완강하게 버티면 직원들이 고용주가 빅데이터를 신봉한다고 해서 갑자기 돌변해 따라가지 않을 것임. 게다가 빅데이터 자체는 그 어떤 것도 보증해주지 않는다. 다만 분야를 막론하고 빅데이터를 수용할 때 성공확률이 더 높아진다는 것 뿐이다. 지금껏 이런 상황에서 모든 회사들이 빅데이터를 적극 활용할 날이 온다는 것은 상상하기 힘들다. 그럼에도 불구하고 A사가 빅데이터를 효율적으로 활용하고, B사는 그렇지 않다는 한가지 요소를 제외하고 모든 조건이 동일하다고 가정했을 때, A사가 B사보다 성공적일 것임은 의심의 여지가 없다. 빅데이터가 우리에게 알려주는 것은 무엇인가? 다른 조건들이 모두 동등할 때 스몰데이터를 잘 관리하는 쪽이 그렇지 못한 쪽보다 빅데이터의 수혜를 받을 확률이 높다는 점이다. 순조롭게 경영되는 기업체에서는 마스터 고객목록, 제품목록, 직원목록과 같은 데이터를 수동으로 대충 맞추느라 시간과 자원을 낭비하지 않음. 이런 회사 직원들은 몇번의 마우스 클릭으로, 아니면 더 나은 경우 자동적으로 이런 종류의 정보를 얻을 수 있음. 장부 정리에 몇주씩이나 허비하는 그런 기업은 아닌 것이다. 그 결과, 그들은보통 자사의 시장점유율, 매출액, 유동부채, 리스크 수준 등을 신속히 파악할 수 있으며, 최신 트렌드 역시 빠르게 포착해낼 수 있음. 게다가 스몰데이터를 빅데이터에 더 쉽게 연계시킬 수 있음.
- 빅데이터는 기술적 저장 및 검색 면에서 매우 다른 양상을 지님. 여기서는 빅데이터가 행이나 SQL과는 거의 관계가 없는 새로운 종류의 데이터베이스를 생겨나게 한다는 점만 언급한다.
- SQL이란 관계형 데이터베이스 관리 시스템의 데이터를 관리하기 위해 설계된 특수용도의 프로그래밍 언어. 그 막강한 기능에도 불구하고 기존 SQL은 일반적으로 대용략의 비정형화 데이터를 그다지 효율적으로 처리하지 못함.
- 비즈니스 인텔리전스는 새로운 개념이 아님. 그 배경은 58년 IBM의 피터 룬이 한 기사에서 비즈니스 인텔리전스라는 용어를 처음 사용하면서 '원하는 목표를 향해 행동을 이끌어갈 수 있도록 제시된 사실들 간의 상호관계를 파악하는 능력'이라고 정의. 30년이 지난 뒤 BI애플리케이션은 드디어 유명세를 타게 된다. 90년대 중반 많은 기업들이 마침내 오라클, 피플소트프, 시에벨, SAP같은 값비싼 ERP및 CRM시스템을 도입. 그 뒤 본질적이고도 중요한 문제점이 자리잡게 됨. 관계형 데이터베이스 애플리케이션은 시스템에 데이터를 입력하는 데에는 탁월했으나 동일 데이터를 빼낼 수 있도록 설계되어 있지 않았던 것. 수많은 최종사용자들은 판매사가 제공하는 표준보고서 툴이 효율적이지 않다는 사실을 알게 됨. 기업들은 고객, 직원, 금융거래 등에 관해 현재 이용가능한 대량의 데이터를 분석하려면 한층 더 강력한 애플리케이션이 별도로 필요하다는 점을 깨닫게 됨. 하이페리온, 마이크로스트래티지 및 캐나다 코그노스와 같은 초기 BI판매사들이 그런 기능을 제공했따. 혹자는 빅데이터를 단지 비즈니스 인텔리전스의 별칭쯤으로 보지만 실상은 그렇지 않음. 물론 두 개념은 전혀 별개라고 볼 수 없는데다 정보로부터 가치를 이끌어내겠다는 비즈니스 목표를 공유하고 있기도 함. 하지만 빅데이터와 전통적 BI사이에 존재하는 핵심적 차이점은 결국 각자가 처리하는 데이터의 유형으로 압축됨. 전통적 BI는 빅데이터를 구성하는 비정형화 및 반구조화 정보를 효율적으로 처리하지 못함. 크게 보았을 때 BI애플리케이션 대부분의 기능은 기업의 구조화 데이터를 잘 파악하도록 해주는 것. 반면 잘 알려진 빅데이터 솔루션들 대부분은 비정형화 및 반구조화 데이터를 비롯한 온갖 유형의 데이터를 처리할 수 있음. 그렇다고 해서 어느 한 종류의 툴이 다른 종류의 툴보다 원래부터 더 뛰어나다는 말은 아님. 물론 판매데이터가 들어 있는 올랩큐브(대량의 데이터가 서로의 변수간에 어떤 관계가 있는지를 알아내는 데이터마이닝 기법)는 고객행동에 대한 매우 가치있는 견해를 제공해 줄 수 잇음. 단 올랩 내의 동일한 큐브에다 사진, 동영상, 블로그 게시물, 세부 통화내용 기록, 트위터 메시지를 다 집어넣고 의미있느 결과가 나오기만을 기대하지는 말라는 뜻이다. 빅데이터 솔루션으로 구조하 데이터를 처리할 수는 있으며, 현재 하이브리드 솔루션이 개발돼 향상 중에 있음. 그 목적은 기업체가 이론상 모든 유형의 소스 데이터를 한곳에서 관리할 수 있게 하는 것. 아무튼 대부분의 기업체들이 자사가 현재 사용중인 최상의 BI애플리케이션을 당장에 바꾸려 하지는 않을 듯하다.
- 빅데이터가 데이터마이닝에 끼친 영향은 무엇인가? 데이터마이팅 툴들이 확장 및 진화하고 있는 이유는 쉽게 말해 데이터 자체가 확장되고 진화하기 때문. 오래된 데이터마이닝 솔루션들은 이제 빅데이터로 인해 새로워진 환경에 맞추어 조정되거나 소멸할 처지에 이르렀음. 예를 들어 처리 가능한 데이터의 비율이 갈수록 낮아졌기 때문에, IBM의 인텔리전트 마이너, 마이크로소프트의 애널리시스 서비스, SAS의 엔터프라이즈 마이너 모두가 그 의의를 점점 잃어가고 있음. 빅데이터를 효율적으로 처리할 수 있는 다른 애플리케이션만이 있다면 이 추세는 한층 가속돠될 것임. 하둡, 컬럼기반 데이터베이스 NoSQL등의 새로운 데이터마이닝 솔루션들은 모든 유형과 소스, 또는 대량의 데이터를 신속하고 효율적으로 처리가능. 빅데이터가 기술 수용 라이프사이클에서 오른쪽으로 옮겨감에 따라 이러한 새로운 빅데이터 솔루션의 인기는 높아져갈 것이며, 특히 저비용 오픈소스의 인기는 더욱 높아질 것임.
- 정보의 신세계에서는 데이터 과잉으로 인해 직관의 중요성이 점점 커지고 있다. (존 나이스비츠)
- 빅데이터는 손전등을 더 밝게 해줄 뿐이지, 어둠 자체를 제거해주지는 않는다. 즉 빅데이터는 불확실성을 줄여주고 예측의 정확도를 높여준다. 우리는 빅데이터를 통해 더 많은 것을 알 수 있으나 전부를 알 수는 없다.
- 텍스트 덩어리에서 해독 가능한 요약본을 뽑아낼 수 있는 기술인 자연언어 처리에 대해 알아보자. 자연언어처리의 기본적 사례로는 소셜 미디어, 신문기사들 이외에도 캐나다 의회와 유럽연합이 해온 것처럼 정부절차를 모두 공식적 언어로 바꾸는 것들을 들 수 있음. 그러나 이것들도 단지 빙산의 일각에 불과. 자연언어처리가 할 수 있는 것은 훨씬 더 많은데, 의사 진단서 또는 환자진료시 발생하는 다양한 비정형 정보를 해독하는 일이 여기 포함됨. 자연언어처리는 전자건강기록을 전혀 다른 차원으로 끌고 갈 수 있음.
- 정확히 어떤 방법을 이용해야 텍스트에서 가치를 얻을 수 있을까? 그 방법은 데이터 마이닝, 기계학습, 자연언어처리, 정보검색, 지식경영 등에서 나온 테크닉을 사용해 정보 과부하 문제를 해결하려는 텍스트 애널리틱스라 불리는 과정을 통해서이다. 흥미로운 새로운 연구분야로 정의되는 텍스트 애널리틱스에는 문서 전처리(텍스트분류, 정보추출, 용어추출), 중간결과물 저장을 비롯해 분포분석, 클러스터링, 트렌드 분석, 연관규칙 등의 중간결과물 분석 테크닉, 결과물 시각화 등이 포함됨. 그 과정은 아래와 같다.
- 텍스트 애널리틱스는 아래와 같은 여러 요소들 또는 특징들에 의미론적 이해를 더해줌
* 명칭이 붙은 개체 : 사람, 회사, 장소 등
* 패턴기반개체 : 이메일주소, 전화번호 등
* 개념 : 개체의 추상적 관념
* 사실 및 관계
* 구체적 속성 및 추상적 속성 : 비쌈, 편안함 등
* 의견, 감정, 정서의 형태를 갖춘 주관성 : 태도에 관한 데이터
- 텍스트 애널리틱스는 정보검색을 정보접근으로 변형시키며 그 과정은 다음과 같음
* 검색어는 쿼리(질의)가 된다
* 검색된 자료는 더 광범위한 구조를 위해 마이닝된다
* 검색된 자료는 개체, 화제, 주제와 같은 특징들을 위해 마이닝된다
* 검색된 자료는 사실 및 관계와 같은 소규모 구조를 위해 마이닝된다
* 결과물은 마이닝된 화제 및 주제에 따른 분류 같은 식으로 지능적으로 제시된다
* 추출된 정보는 시각화되거나 분석될 수 있따.
- 대체로 텍스트 애널리틱스는 연구원, 작가, 학자, 그리고 우리 모두가 수년간 해왔던 일을 자동화함. 텍스트 애널리틱스는 언어학적, 통계적 테크닉들을 이용해 문서, 오디오, 비디오, 이미지 등을 분류 또는 구분하는 데 적용할 수 있는 개념 및 패턴을 찾아냄. 또한 비정형화 데이터를 기존 분석 테크닉에 적용할 수 있는 데이터로 변형. 마지막으로 텍스트 애널리틱스는 기존에 컴퓨터가 처리해내지 못했던 대용량 정보안에 있는 의미와 관계를 파악해냄
- 아파치 하둡을 빼놓고는 빅데이터 툴에 관한 그 어떤 이야기도 시작할 수 없음. 하둡은 데이터를 분산하고 처리하는 오픈소스 프로젝트들의 대규모 집합체. 집합적으로 하둡스택과 그 다양한 구성요소들을 이용해 광대한 반정형화 및 비정형화 데이터를 저장하고 파악가능. 기가오엠은 하둡을 일컬어 명실상부한 세계적인 빅데이터 플랫폼이라고 말한다. 오늘날 아휴, 페북, 링크드인, 아메리칸 항공, IBM, 트위터를 비롯한 수십개의 회사들이 하둡을 사용하고 있음.
- 하둡이 인기를 얻는 이유는 다음과 같음
* 정형화, 비정형화, 로그파일, 사진, 오디오파일, 통신기록, 이메일 등을 포함한 다양한 유형과 소스를 가진 데이터를 처리가능
* 확장이 쉽고 다수의 서버들에 걸쳐 확장이 가능
* 고장허용한계가 높음
* 가변성이 극도로 높음
* 제품개선방향을 스스로 모색하는 자생 커뮤니티를 구축해온 오픈소스 프로젝트
- 휴대전화, 인터넷, 팩스의 경우와 마찬가지로 빅데이터는 네트워크 효과의 지배를 받음. 다른 조건들이 모두 동등할 때 데이터가 많으면 많을수록 더 나은 애널리틱스 결과와 더 깊은 통찰, 그리고 더 정확한 예측이 나옴. 다양한 데이터 소스들이 잡음대 신호비가 높다고 해도 여러 솔루션들로 그 잡음을 최소화함으로써 사업성을 더 높일수도 있음. 빅데이터 솔루션들이 낮은 데이터 저장비용과 만났을 때, 조직체들은 데이터를 분석할 수단을 현재 보유하고 있는지 여부와 관계없이 그 어느때보다 많은 데이터를 저장할 수 있음. 비용과 성증이 더이상 문제가 되지 않는 경우, 더 많은 데이터를 보윻는 편이 그렇지 않은 편보다 언제나 낫다.
'IT' 카테고리의 다른 글
웨어러블 혁명 (0) | 2017.01.29 |
---|---|
데이터의 보이지 않는 손 (0) | 2016.07.21 |
인터넷 플러스 혁명 (0) | 2016.04.19 |
사물인터넷 웨어러블 0.9 (0) | 2016.04.16 |
핀테크 기회를 잡아라 (0) | 2016.03.26 |