길벗·이지톡

도서 인문/교양 교양과학

우리가 ‘모르는’ 데이터는 왜 ‘아는’ 데이터보다 치명적인가?

보이지 않는 데이터의 세계에서 올바른 결정을 내리기 위한 실용적 가이드 

 

이른바 빅데이터 시대, 우리는 의사결정을 잘하는 데 필요한 정보는 다 가지고 있다고 생각하기 쉽다. 하지만 사실 우리가 가진 데이터가 ‘온전했던’ 적은 없었다. 손에 쥔 데이터는 빙산의 일각일지도 모른다. 우주의 상당 부분이 보이지는 않아도 엄연히 존재하는 암흑물질로 이루어져 있듯이, 정보의 우주 역시 우리가 위험천만하게 간과할 수 있는 ‘다크 데이터’로 가득하다.

《다크 데이터》는 우리가 누락된 데이터를 알아차리지 못하게 되는 과정들, 그리고 그로 인해 우리가 어떻게 잘못되고 위험하고 심지어 파국에 이를 수도 있는 결론과 행위에 이르게 되는지 다각도에서 탐사한다. 

 

영국 왕립통계학회장을 역임했으며 대영제국 훈장을 수여한 세계적인 통계학자 데이비드 핸드는 신작 《다크 데이터》에서 우리가 다크 데이터를 분별하고 제어하는 법을 익힐 수 있도록, 세상에 존재하는 ‘다크 데이터’의 유형과 그것들이 발생하는 상황들에 대해 현실적인 분류법을 제시한다. 이로써 우리는 ‘우리가 모르는 것들’이 초래하는 문제들에 대해 경각심을 가질 뿐만 아니라, 다크 데이터를 이용해서 더 깊은 이해와 더 나은 결정을 하도록 해주고 있다.

목차

1

다크 데이터는 어떻게 생겨나고

어떤 결과를 초래하는가

 

1.

다크 데이터: 보이지 않는 것이 이 세계를 만든다

보이지 않는 위험, 다크 데이터

데이터를 다 갖고 있다고 생각하는군요?

아무 일도 안 생겨서 무시해버릴 때 생기는 일

다크 데이터의 위력

다크 데이터는 언제 어디에나 있다

 

2.

다크 데이터 찾아내기:

우리가 모은 것과 모으지 않은 것

데이터를 얻는 3가지 방식과 다크 데이터의 출현

데이터 잔해에서 얻는 다크 데이터

설문조사에서 생기는 다크 데이터

실험 데이터에도 다크 데이터가 끼어든다

인간적 취약점에 주의하시라

 

3.

다크 데이터와 정의:

알고자 하는 것이 정확히 무엇인가?

엉뚱한 것을 측정해버렸다: 정의가 달라질 때

모든것을 측정할 수는 없다: 심슨의 역설

질병 검진 프로그램의 취약성

과거 성과를 보고 선택할 때의 다크 데이터

 

4.

의도하지 않은 다크 데이터: 말과 행동이 따로 놀 때

어디까지 정확해야 하지?

요약은 필연적으로 다크 데이터를 만든다

인간이니까 생기는 오류

측정 도구의 한계

데이터 세트를 통합할 때의 문제

 

5.

전략적 다크 데이터: 게이밍, 피드백, 정보 비대칭

게이밍: 빈틈을 이용해 이득을 얻다

피드백: 피드백이 데이터를 왜곡시킬 때

정보 비대칭: 중고차 시장에서 무슨 일이 일어났나

다크 데이터가 알고리즘에 끼치는 영향

 

6.

고의적 다크 데이터: 사기와 기만

사기의 세계: 핵심은 데이터 숨기기다

신원 도용과 인터넷 사기: ‘자칼의 날

계속 진화하는 개인금융 사기

금융시장 사기와 내부자 거래

보험 사기: 고객을 속이거나 보험사를 속이거나

그 밖의 사기: 돈세탁, 다단계 사기, 횡령

 

7.

다크 데이터와 과학: 발견의 본질

과학의 본질: 검증 체계로서의 과학

내가 그걸 알았더라면!: 과학자들의 흑역사

우연히 만난 다크 데이터: 과학자들의 행운

반복 실험을 통한 재현: 과학 연구의 다크 데이터

사실을 감추는 방법들

철회

출처와 신뢰성: “누가 그러던가요?”

 

 

2

다크 데이터에 빛을 비추고 이용하는 법

 

8.

다크 데이터 다루기: 빛을 비추기

희망은 있다

관측 데이터를 빠진 데이터와 연결하기

3가지 데이터 누락 메커니즘

이미 가진 데이터를 활용하는 법

생존분석 문제: 당신이 먼저 죽는다면?

대치법: 빠진 데이터를 채워넣기

반복: 최대가능도 모형과 EM 알고리즘

데이터 오류에 대처하는 방법

 

9.

다크 데이터로 이득을 얻는 법: 질문을 바꿔보자

데이터를 숨기는 게 이득이 될 때

무작위 대조군 시험: 데이터를 모두에게 숨겨라

시뮬레이션: 일어났을 수도 있는 일

전략적으로 복제된 데이터

베이즈 사전확률: 가상의 데이터

사생활 보호와 기밀 유지

데이터를 다크 상태로 수집하기

 

10.

다크 데이터 분류법: 미로 속으로 난 길

다크 데이터의 15가지 유형

새롭게 조명하기

더보기접기

저자

ㆍ지은이 데이비드 핸드

지은이 소개

옥스퍼드대학교를 졸업했으며 세계적인 이공계 명문 대학인 임페리얼칼리지런던의 수학과 명예교수 겸 선임연구원이다. 2002년 통계학계에서 가장 권위 있는 상인 가이 메달Guy Medal을 받았고, 2003년에는 영국 학사원의 연구원으로 선출되었다. 2008년부터 왕립통계학회 회장을 지냈으며 그동안의 연구 업적으로 2013년 대영제국 훈장을 받았다. 유럽에서 수익률이 가장 높은 알고리즘 매매 헤지펀드 중 하나인 윈턴캐피털매니지먼트Winton Capital Management의 고문이기도 하다.

 

우연한 일들에 숨어 있는 법칙을 다룬 핸드의 대표작 신은 주사위 놀이를 하지 않는다The Improbability Principle는 통계학 서적으로는 이례적으로 출간 즉시 아마존과 뉴욕타임스종합 베스트셀러가 되었으며, 워싱턴포스트》 《허핑턴포스트등 유력 매체에서 크게 호평을 얻었다.

 

전작 신은 주사위 놀이를 하지 않는다에서 일어날 가능성이 거의 없는 사건들을 다뤘다면, 다크 데이터에서는 우리가 모른다는 것을 아는 것우리가 모른다는 것조차 모르는 것들을 대상으로 삼아, 빅데이터 시대 문제 해결의 본질적 맹점을 확인하고 또 보완한다.

 

데이비드 핸드는 이 밖에도 정보 세대: 데이터는 어떻게 우리의 세계를 지배하는가Information Generation: How Data Rule Our World and Statistics를 비롯해 7권의 책과 300편 넘는 논문을 발표했으며, 까다로운 통계학 지식을 우리 일상과 연관 지어 대중에게 알기 쉽게 전달하는 강연 활동에도 매진하고 있다

ㆍ옮긴이 노태복

옮긴이 소개

한양대학교 전자공학과를 졸업했다. 환경과 생명운동 관련 시민단체에서 해외교류 업무를 맡던 중 번역의 길로 들어섰다. 과학과 인문의 경계에서 즐겁게 노니는 책들 그리고 생태적 감수성을 일깨우는 책들에 관심이 많다. 저글링을 하면서 즐겁게 산다.

저서

옮긴 책으로 《꿀벌 없는 세상, 결실 없는 가을》 《생태학 개념어 사전》 《신에 도전한 수학자》 《동물에 반대한다》 《생각하는 기계》 《진화의 무지개》 《19번째 아내》 《우주, 진화하는 미술관》 《이것은 과학이 아니다》 《얽힘의 시대》 등이 있다.  


연관 프로그램

아래 프로그램은 길벗출판사가 제공하는 것이 아닙니다.
무료로 사용할 수 있는 정보를 안내해 드리니, 지원이 필요하면 해당 프로그렘 제작사로 문의해 주세요.