19세기 유럽은 잦은 전염병 유행으로 인해 많은 시민들이 고통을 겪었던 시기였다. 인구가 밀집된 도시 지역에서는 콜레라가 자주 발생하였고 제대로 된 치료조차 받지 못하고 생명을 잃은 사람들이 다수였지만, 안타깝게도 그 당시 의료보건기술로는 전염병의 원인조차 알아내지 못하였고 오히려 유대인이 병을 퍼트린다는 식의 수많은 유언비어가 난무했었다.

콜레라 전염의 원인을 발견해 낸 이는 영국의 존 스노우라는 의사였다. 그는 콜레라 환자의 분포를 지도에 나타내면서 지역 주민들의 식수로 사용되고 있던 워터펌프 위치를 중심으로 환자 발생이 일어나는 패턴을 발견하였고 콜레라가 물에 의해 전염되는 수인성 질병임을 밝혀 낼 수 있었으며 수도시설을 개선하여 환자발생비율을 획기적으로 감소시킬 수 있었다. 데이터를 통계화 하고 문제의 원인을 파악하여 해결책을 제시했던 최초의 접근법이었다.

백의의 천사 혹은 등불을 든 천사로 유명한 나이팅게일은 크림전쟁 기간동안 군인들이 전장이 아닌 야전병원에서 더 많이 사망하는 현상을 보고 병원에서의 높은 사망률의 이유를 찾아내기 위해 수년동안 군인들을 관찰하면서 얻은 데이터를 분석하였고 그 결과 사망의 원인이 전장에서의 상처가 아닌 의료기기의 재사용 등 병원의 위생환경 부족에 있음을 밝혀냈으며 위생환경개선을 통해 사망률을 40%에서 2%까지 획기적으로 줄일 수 있었다.

위의 두 이야기는 데이터를 활용한 통계적 접근방식을 통해 보이지 않는 문제의 원인을 가시화하여 해결함으로써 세상을 변화시킨 사례이며 개별적으로는 별로 중요해 보이지 않는 현상을 모아서 데이터화 하고 그 안에서 특정 현상에 대한 상관관계를 찾아내는 데이터 과학이 중요해지는 계기가 되는 중요한 예시라고 볼 수 있다.

20세기를 넘어서면서 데이터 과학은 폭발적으로 성장하였는데 그 이유는 바로 디지털화 (Digital Transformation) 현상과 정보처리기술의 획기적 발전에 있었다. 1960년대 최초 개발된 컴퓨터보다 만 배 이상의 성능을 가진 디지털기기가 전 세계 약 60억명의 손에 각각 쥐여지게 되면서 매일 엄청난 양의 디지털 정보가 생산되고 있고 수천년 동안 쌓아온 인류의 지식이 인터넷 세상에 디지털화되어 저장되면서 지식의 접근성과 동시성이 비약적으로 발전하게 되었다.

휴대전화를 통해 매일 약 2억장 이상의 사진이 SNS에 게시되고 GPS를 통해 생성되는 데이터는 지구를 매일 80바퀴 도는 양과 맞먹으며 과거에 발생한 데이터보다 지난 2년간 새로 생성된 데이터가 훨씬 더 많으며 그 추세는 더욱 빨라지고 있다. 이렇게 발생되는 엄청난 양의 디지털 정보는 전자화되어 저장되어야 하는데 초기에는 메모리 반도체 가격이 높고 성능이 낮아서 데이터를 저장하기 위해 소요되는 비용이 높았기 때문에 가치가 덜한 데이터는 오랫동안 저장되지 못하고 삭제되어야 했지만, 메모리 반도체 기술의 급격한 성장으로 인해 데이터 저장에 경제적 비용이 적어지게 되면서 ‘빅 데이터’ 라 부를 수 있을 수준의 엄청난 정보저장 환경이 구축될 수 있었다.

지구에서 일어나는 모든 일이 계산되고 예측되며 통제될 수 있는 시대가 온다면 오히려 예측할 수 없는 행동을 하는 인간이라는 존재가 컴퓨터 프로그램의 버그와 같이 수정되어야 하는 대상물로 전락하는 것은 아닌지 걱정된다. 빅 데이터 사회가 가져오는 수많은 혜택과 함께 개인의 프라이버시를 포기해야 하는 상황에 처해야 한다면 어떤 선택이 필요할지, 또는 선택할 수 있는 기회는 있을지도 궁금하다. 개개인의 활동에서 생성되는 빅데이터의 소유권은 누구에게 있으며 개인정보의 활용이 디지털 세계에서 투명하고 공정하게 사용될 수 있도록 관리가 가능할지도 궁금하다.

저작권자 © 뉴스앤북 무단전재 및 재배포 금지