길벗·이지톡

도서 인문/교양 교양과학

우리가 ‘모르는’ 데이터는 왜 ‘아는’ 데이터보다 치명적인가?

보이지 않는 데이터의 세계에서 올바른 결정을 내리기 위한 실용적 가이드 

 

이른바 빅데이터 시대, 우리는 의사결정을 잘하는 데 필요한 정보는 다 가지고 있다고 생각하기 쉽다. 하지만 사실 우리가 가진 데이터가 ‘온전했던’ 적은 없었다. 손에 쥔 데이터는 빙산의 일각일지도 모른다. 우주의 상당 부분이 보이지는 않아도 엄연히 존재하는 암흑물질로 이루어져 있듯이, 정보의 우주 역시 우리가 위험천만하게 간과할 수 있는 ‘다크 데이터’로 가득하다.

《다크 데이터》는 우리가 누락된 데이터를 알아차리지 못하게 되는 과정들, 그리고 그로 인해 우리가 어떻게 잘못되고 위험하고 심지어 파국에 이를 수도 있는 결론과 행위에 이르게 되는지 다각도에서 탐사한다. 

 

영국 왕립통계학회장을 역임했으며 대영제국 훈장을 수여한 세계적인 통계학자 데이비드 핸드는 신작 《다크 데이터》에서 우리가 다크 데이터를 분별하고 제어하는 법을 익힐 수 있도록, 세상에 존재하는 ‘다크 데이터’의 유형과 그것들이 발생하는 상황들에 대해 현실적인 분류법을 제시한다. 이로써 우리는 ‘우리가 모르는 것들’이 초래하는 문제들에 대해 경각심을 가질 뿐만 아니라, 다크 데이터를 이용해서 더 깊은 이해와 더 나은 결정을 하도록 해주고 있다.

목차

1

다크 데이터는 어떻게 생겨나고

어떤 결과를 초래하는가

 

1.

다크 데이터: 보이지 않는 것이 이 세계를 만든다

보이지 않는 위험, 다크 데이터

데이터를 다 갖고 있다고 생각하는군요?

아무 일도 안 생겨서 무시해버릴 때 생기는 일

다크 데이터의 위력

다크 데이터는 언제 어디에나 있다

 

2.

다크 데이터 찾아내기:

우리가 모은 것과 모으지 않은 것

데이터를 얻는 3가지 방식과 다크 데이터의 출현

데이터 잔해에서 얻는 다크 데이터

설문조사에서 생기는 다크 데이터

실험 데이터에도 다크 데이터가 끼어든다

인간적 취약점에 주의하시라

 

3.

다크 데이터와 정의:

알고자 하는 것이 정확히 무엇인가?

엉뚱한 것을 측정해버렸다: 정의가 달라질 때

모든것을 측정할 수는 없다: 심슨의 역설

질병 검진 프로그램의 취약성

과거 성과를 보고 선택할 때의 다크 데이터

 

4.

의도하지 않은 다크 데이터: 말과 행동이 따로 놀 때

어디까지 정확해야 하지?

요약은 필연적으로 다크 데이터를 만든다

인간이니까 생기는 오류

측정 도구의 한계

데이터 세트를 통합할 때의 문제

 

5.

전략적 다크 데이터: 게이밍, 피드백, 정보 비대칭

게이밍: 빈틈을 이용해 이득을 얻다

피드백: 피드백이 데이터를 왜곡시킬 때

정보 비대칭: 중고차 시장에서 무슨 일이 일어났나

다크 데이터가 알고리즘에 끼치는 영향

 

6.

고의적 다크 데이터: 사기와 기만

사기의 세계: 핵심은 데이터 숨기기다

신원 도용과 인터넷 사기: ‘자칼의 날

계속 진화하는 개인금융 사기

금융시장 사기와 내부자 거래

보험 사기: 고객을 속이거나 보험사를 속이거나

그 밖의 사기: 돈세탁, 다단계 사기, 횡령

 

7.

다크 데이터와 과학: 발견의 본질

과학의 본질: 검증 체계로서의 과학

내가 그걸 알았더라면!: 과학자들의 흑역사

우연히 만난 다크 데이터: 과학자들의 행운

반복 실험을 통한 재현: 과학 연구의 다크 데이터

사실을 감추는 방법들

철회

출처와 신뢰성: “누가 그러던가요?”

 

 

2

다크 데이터에 빛을 비추고 이용하는 법

 

8.

다크 데이터 다루기: 빛을 비추기

희망은 있다

관측 데이터를 빠진 데이터와 연결하기

3가지 데이터 누락 메커니즘

이미 가진 데이터를 활용하는 법

생존분석 문제: 당신이 먼저 죽는다면?

대치법: 빠진 데이터를 채워넣기

반복: 최대가능도 모형과 EM 알고리즘

데이터 오류에 대처하는 방법

 

9.

다크 데이터로 이득을 얻는 법: 질문을 바꿔보자

데이터를 숨기는 게 이득이 될 때

무작위 대조군 시험: 데이터를 모두에게 숨겨라

시뮬레이션: 일어났을 수도 있는 일

전략적으로 복제된 데이터

베이즈 사전확률: 가상의 데이터

사생활 보호와 기밀 유지

데이터를 다크 상태로 수집하기

 

10.

다크 데이터 분류법: 미로 속으로 난 길

다크 데이터의 15가지 유형

새롭게 조명하기

더보기접기

저자

ㆍ지은이 데이비드 핸드

지은이 소개
데이비드 핸드는 옥스퍼드대학교를 졸업했으며 세계적인 명문인 런던 임페리얼칼리지 수학과 명예교수 겸 선임연구원이다. 2002년에는 통계학계에서 가장 권위 있는 상인 가이메달(Guy Medal)을 받았고, 2003년에 영국학사원의 연구원으로 선출되었다. 2008년부터 왕립통계학회 회장을 지냈으며 그동안의 연구 업적으로 2013년 대영제국훈장(Order of the British Empire)을 받았다. 유럽에서 수익률이 가장 높은 알고리즘 매매 헤지펀드 중 하나인 윈턴캐피털매니지먼트의 고문이기도 하다. ‘우연한 일들’에 숨어 있는 법칙을 다룬 그의 대표작 《신은 주사위 놀이를 하지 않는다》는 자연과학서로는 이례적으로 출간 즉시 〈아마존〉과 《뉴욕타임스》 종합 베스트셀러가 되었으며, 《워싱턴포스트》와 《허핑턴포스트》 등 유력 매체에서 큰 호응을 얻었다. 어려운 통계학 지식을 우리 일상과 연관 지어 알기 쉽게 전달한다는 평을 받은 데이비드 핸드는 책의 내용을 대중들에게 전하는 강연 활동에도 매진하고 있다. 《다크 데이터Dark Data》 《정보 세대Information Generation》를 비롯해 7권의 책을 썼고 300편 넘는 논문을 발표했다. 영국 런던에 살고 있다.

ㆍ옮긴이 노태복

옮긴이 소개
한양대학교 전자공학과를 졸업했다. 환경과 생명 운동 관련 시민단체에서 해외 교류 업무를 맡던 중 번역가의 길로 들어섰다. 과학과 인문의 경계에서 즐겁게 노니는 책들 그리고 생태적 감수성을 일깨우는 책들에 관심이 많다. 옮긴 책으로 《수학의 쓸모》 《아인슈타인이 괴델과 함께 걸을 때》 《부의 원칙》 《생각한다면 과학자처럼》 등이 있다. 저글링을 하면서 즐겁게 살고 있다.

연관 프로그램

아래 프로그램은 길벗출판사가 제공하는 것이 아닙니다.
무료로 사용할 수 있는 정보를 안내해 드리니, 지원이 필요하면 해당 프로그렘 제작사로 문의해 주세요.