- 같은 데이터를 가지고 있더라도 분석방향에 따라 결과에 차이가 있다. 분석방향을 올바르게 잡으려면 현상과 원인에 집중해야 함. 스노는 감염자의 증상에서 출발. 감염자는 복통과 심한 설사를 호소했으니 이는 장의 문제였다. 장에 탈이 생기는 경우, 원인은 대부분 음식이나 물과 관련이 있다. 음식물은 상하거나 부패할 수 있고, 물은 오염될 수 있기 때문. 물과 음식물이라는 매개체를 찾은 다음에는 원인지역이 어디인지 추적. 유일한 자료는 사망자 수와 주소였다. 주소를 검은 사각형으로 지도에 표시했더니 사각형이 몰려 있는 지역이 보였고 근처에 매개체로 지정한 물을 기르는 펌프가 있었다. 여기까지는 추측이며 가설이었다. 스노는 이를 증명하기 위해 집집마다 탐문하며 가설을 검증.
- 나이팅게일은 통계학자이자 행정가였다. 그녀는 통계학자로서 데이터 수집과 분석을 했고, 행정가로서 관련자들을 설득. 다양한 사망원인 중 가장 큰 원인인 전염병에 초점을 두고 자료를 작성. 우리는 상대를 말이나 단순한 문서로 설득하기 어렵다는 것을 안다. 특히 명분이 필요하면 더 그렇다. 이럴 때 데이터를 근간으로 이야기를 풀어간다면 해법이 생긴다. 나이팅게일 또한 그렇게 했다. 그녀가 훌룡한 행정가이면서 통계학자였던 이유가 바로 여기에 있다.
- 참아야 하는 것이 우리의 의무라면, 알아야 하는 것은 우리의 권리다. (장 로스탕, 침묵의 봄) 장 로스탕은 살충제의 해악을 알아야 하는 것이 권리라고 말한다. 앞으로도 이런 해악이 발생하지 않을 거라고 말할수는 없다. 적어도 그 피해가 널리 퍼지기 전에 막아야 한다.
- 니콜라스 카는 그의 책 빅 스위치에서 데이터를 인프라로 정의. 우리가 콘센트에 전기코드를 꽂으면 전기를 쓸 수 있듯, 데이터도 어딘가에 코드를 꽂으면 쉽게 사용할 수 있는 인프라가 되었다. 통신환경의 발달은 정보의 불균형을 해소하고 있다. 데이터도 이제는 공공재가 되어가고 있는 것. 단편적 데이터만을 제공하는 차원을 넘어 데이터간의 관련성을 구비한 데이터 허브는 공공재로서의 유용한 인프라가 될 것임.
- 데이터는 원료와 같다. 다산이 수많은 문서(데이터)를 종횡표로 정리했기에 데이터를 활용할 수 있는 인프라가 생긴 것. 구슬이 서말이라도 꿰어야 보배인 것처럼, 사람이 만든 종횡표건 컴퓨터가 자동으로 만든 표건 간에, 정보가 상호 연결되고 정리될 때 데이터의 가치가 살아나는 것을 느낄 수 있음. 우리는 소속된 조직의 데이터와 그와 관련된 타 분야의 데이터를 연결해보고 정리해보는 연습이 필요. 인간은 이제 머리 아픈 일은 컴퓨터에게 일임하려 한다. 이런 환경이 우리의 육체노동과 정신노동을 해방시켜 줄 것임. 그러면 인간은 어떻게 되는가? 데이터가 중요한 역할을 하는 지금 이시대에 인간은 어떤 존재인가? 인간의 역할은 무엇인가? 데이터 정리의 기준과 방식을 제시하는 플래너여야 하지 않을까?
- 빅데이터 인프라에는 데이터 레이크라는 용어가 등장. 데이터를 모아둔 장소를 가리키는 말이지만 데이터 웨어하우스와는 방식이 다름. 데이터 웨어하우스는 데이터를 정제되고 구조화된 형식으로 모아두지만 데이터 레이크는 원시 그대로의 상태로 모아둠. 그렇기에 데이터의 구조를 이해하고 활용하는 것은 사용자의 몫
'IT' 카테고리의 다른 글
AI슈퍼파워 (0) | 2019.06.28 |
---|---|
알고리즘이 욕망하는 것들 (0) | 2019.06.28 |
빅데이터는 거품이다 (0) | 2018.08.30 |
비트코인과 블록체인 (0) | 2018.08.30 |
시작된 미래 (0) | 2018.06.24 |