비주얼라이즈 디스

IT 2016. 1. 13. 13:18

- 대부분의 사람들은 데이터를 엑셀로 작업. 엑셀 안에서 데이터 분석부터 시각화까지 전부 처리할 요량이라면 괜찮지만, 그 이상을 원한다면 엑셀 외의 데이터 형식에도 익숙해질 필요가 있다. 데이터 형식화의 목표는 데이터를 기계가 읽을 수 있게 만든다는 데 있다. 다르게 말하자면 데이터를 컴퓨터가 이해할 수 있는 형식으로 만든다는 데 있다. 어떤 형식인지는 사용목적과 시각화 도구에 따라 다르다. 여기서는 대부분의 경우에 적용할 수 있는 세가지가 있다.
(1) 구분 텍스트 : 흔하고 널리 쓰임. 데이터의 줄바꿈으로 행을, 구분자로 열을 구분하는 텍스트 데이터. CSV파일은 쉼표로, TSV파일은 탭으로 구분. 구분자는 공백, 세미콜론, 콜론, 슬래시, 그 어떤 것도 가능함. 개중 쉼표와 탭 구구분자가 가장 보편적으로 쓰임. 엑셀이나 구글문서를 포함한 대부분의 스프레드 시트에서 불러올 수 있음. 반대로 스프레드시트의 데이터를 구분 텍스트로 저장할 수도 있음.
(2) 자바스크립트 개체 형식 : 주로 웹 API에서 사용. JSON데이터는 기계와 인간 양쪽에서 읽을 수 있는 형식으로 이루어짐. 물론 눈으로 어마어마하게 많은 데이터를 읽어야 한다면 복잡하고 어렵지만, 어쨌든 읽을 수는 있다. 자바스크립트 객체 형식은 자바스크립트의 스크립트 언어규정에 기반한 형식으로 이루어짐. 그러나 자바스크립트에만 한정되는 형식은 아님. JSON은 여러 복잡한 규정을 담고 있고, 보통은 기본규정만 활용해서 만들어짐. 기본적으로 JSON은 키워드와 값으로 구성되고 키-값 한 쌍을 객체처럼 다움. JSON 데이터를 쉼표 구분 텍스트로 전환하면 한쌍의 키-값이 한 줄이 된다.
(3) 확장 마크업 언어 : 웹과 API에서 일반적으로 쓰이는 형식. XML에도 여러 종류가 있고, 그중에도 다양한 규정이 있음. XML의 기본은 태그로 싸여 있는 텍스트 문서다. 예를 들어 RSS(REALLY SIMPLE FEEDBACK) 피드 문서는 플로잉데이터 같은 블로그를 구독할 때 쓰는 형식으로 이 역시 XML이다. RSS피드는 최근 발행된 아이템을 <item>/<item> 태그로 감싼 목록을 만든다. 각 아이템마다 제목, 설명, 글쓴이, 발행일자 등의 속성정보를 담고 있다
- 형식화 도구 : 몇년전만 해도 스크립트 언어는 데이터를 다루거나 형식화하는 데만 쓰였다. 약간의 스크립트만 작성하면 논리적 패턴을 알아차릴 수 있다. 자신에게 있는 데이터를 처리할 스크립트를 새로 만들기는 그렇게까지 어렵지 않지만 어쨌거나 시간이 걸림. 다행히도 오늘날에는 다뤄야 할 데이터의 양이 늘어나면서 지루하고 천편일률적인 데이터 형식화 작업을 도와주는 여러 데이터 형식화 도구가 개발되어 있다
- 프로그래밍 배우기는 새로운 언어를 배우는 일이다. 프로그래밍 언어는 비트와 로직으로 만들어진 기계의 언어다. 엑셀이나 타블로 같은 종합세트 소프트웨어는 통역자의 역할을 한다고 볼 수 있다. 사람의 언어로 만들어진 버튼이나 메뉴를 클릭하면 소프트웨어가 사용자의 의사를 기계로 통역해 전달. 기계는 전달받은 의사에 따라 그래프를 그리거나 데이터를 전환하는 등의 작업을 실행. 따라서 관건은 시간이다. 새로운 언어를 배워 익히려면 충분한 시간이 필요. 이 장애를 극복하기 어려워하는 사람들이 많다. 그러나 눈앞에 데이터가 있고, 결과를 기다리는 사람들이 있기에, 작업을 해야 한다. 앞으로 이런 데이터 관련 작업을 거의 하지 않을 것 같다면 종합세트 시각화 도구에 머무는 편이 낫다. 그러나 데이터를 좀더 자세히 뜯어보고 싶다면, 그리고 많은 데이터 관련 작업을 할 예정이라면, 프로그래밍 방법을 익히는 데 투자한 시간은 작업시간 절약과 더 멋진 결과로 보상받음. 프로젝트를 반복할수록 프로그래밍 기술을 많이 알게 될 것이고, 그만큼 작업은 쉬워짐.
- 시각화의 목적이란 데이터를 일반적인 관점에서 보고 그 경향을 빠르게 파악하는 것. 그러나 그 이상을 추구할수도 있음. 시각화를 탐색의 도구로도 쓸수 있다. 시간의 한 부분을 끌어와서 왜 하필이면 이 시간, 구간 동안 큰 변화가 있었는지, 왜 다른 시간, 구간에서는 변화가 많지 않았는지 질문을 던져 볼 수 있다. 데이터의 재미, 스릴은 여기에 있다. 데이터를 더 잘 알수록, 더 좋은 이야기를 전달할 수 있다. 데이터가 말하는 바를 익히고 나면, 그 이야기의 자세한 내용을 데이터 그래픽으로 설명한다. 흥미로운 부분을 강조해서 읽는 사람으로 하여금 집중해서 보게 만든다. 맥락을 잘알고 있는 자신에게는 밋밋한 그래프조차 멋져 보일 수 있으나, 맥락을 이해하지 못하는 다른 사람에게는 어떤 그래프도 밋밋하다.
- 여러개의 변소를 다루어야 할 때 마주하는 첫번째 난관은 시작점을 찾는 일이다. 자신에게 있는 데이터를 끊임없이 생각하다 보면 너무 많은 변수와 세부 분류에 압도되곤 한다. 대로는 모든 데이터를 한번 훑어본 다음, 흥미로운 점을 짚고 다른 점을 찾아가는 과정이 더 도움이 된다
- 데이터의 이야기를 들으려면 기반자료를 잘 알아야 함. 그러나 실제로 데이터 그래픽 디자인을 하는 사람들은 이 점을 쉽게 놓치곤 한다. 일단 시작하면 자신이 만들어내는 결과에만 경도되기 쉽다. 놀랍고 아름답고 ㅎㅇ미로운 것을 만들고 싶을 수 있다. 거기까진 좋으나 헌데 무엇을 보여주고 있는지 알지 못하면 무의미함. 숫자와 수치를 익혀야 한다. 그 숫자가 어디에서 비롯됐는지 밝혀내고 어떻게 추정됐는지, 그 수치가 합당하지 확인하자. 뉴욕타임즈의 데이터 그래픽은 이러한 기초과정에 충실하기 때문에 그만큼 훌륭하다는 평가를 받는다. 인쇄됐건, 인터넷에 올려진 그래픽이건 기초작업은 도형 하나를 그리기 전에 이미 그래픽 뒤에 숨어버린다. 많은 경우 데이터를 수집해서 알맞은 형식으로 변환하는 일이 결과 디자인을 만드는 작업보다 오래 걸리곤 한다. 따라서 데이터를 눈앞에 두게 되면, 곧장 디자인 단계로 뛰어들지 마라. 디자인으로 막바로 뛰어드는 행동은 게으름의 상징이며, 반드시 결과에 드러난다. 시간을 들여 데이터를 이해하고, 숫자를 구성하는 맥락을 이해해야 한다.
- 데이터를 다루는 많은 사람이 디자인을 단순히 그래픽을 예쁘게 만드는 작업으로 생각한다. 미학적 측면도 분명 디자인의 한 부부닝다. 그러나 디자인은 더 많은 내용을 담고 있다. 디자인은 그래픽을 더 읽기 좋게, 이해하기 좋게, 활용하기 좋게 만드는 작업이다. 잘 디자인된 그래픽은 기본 그래프보다 데이터를 더 쉽게 이해하도록 도와준다. 디자인은 그래픽의 어수선한 장식을 없애고, 데이터에서 중요한 부분을 집중 조망해서 보여주며, 감정적 반응을 불러일으키기도 한다. 간혹 목적에 따라 디자인의 목적이 미학적 영역에 그치는 경우도 있지만, 디자인하는 대상이 무엇이든, 그것에 데이터 시각화든, 인포그래픽이든, 데이터 아트든, 데이터가 결과를 이끌어내게 하자.
- 대규모 데이터를 갖고 있는데 어디서부터 시작해야 할지 막막하다면 질문을 하나 던져서 시작하는 것이 좋다. 알고 싶은 게 무엇인가? 계절적 패턴이 있는가? 여러 변수들 간에 관계는 없나? 아웃라이어가 있나? 공간적 관계는 없나? 이런 질문에 답을 할 수 있을지 다시한번 데이터를 들여다보자. 답을 끌어내는데 필요한 데이터가 없다면 더 구하자. 데이터를 갖고 있으면 이 책의 내용을 총동원해서 흥미로운 이야기를 전달할수 있을 것이다. 그러나 여기에서 그치지 말자. 이 과정을 발견의 길로 생각하자. 자신이 좋아하는 데이터 그래픽을 전부 떠올려보라. 이제는 그 핵심을 구성하는 데이터 유형과 작동방식을 알게 됐다. 이제는 그보다 진일보한 복잡한 그래픽도 만들 수 있다. 인터랙션을 더하고, 그래프를 조합하고, 그래픽을 사진과 설명 텍스트와 비교해 맥락을 더 설명해줄 수 있다. 데이터는 현실의 반영이다. 데이터를 시각화한다는 것은, 곧 우리 주위에서 어떤 일이 벌어지는지 시각적으로 보여준다는 뜻이다. 작고 깊은 개개인의 차원에서 어떤 일이 벌어지고 있는지 볼 수도 있고, 그보다 더 크게 전 우주적으로 어떤 일이 버어지고 있는지 보여줄 수도 있다. 데이터를 충실히 익힌다면, 전혀 모르는 사람, 심지어는 들을 생각이 없었던 사람에게도 훌륭한 이야기를 전달할 수 있다. 오늘날 가지고 놀 수 있는 데이터는 그 어느때보다 많고, 사람들은 그 데이터가 어떤 의미인지 알고 싶어한다. 

Posted by dalai
,