추천 검색어

최근 검색어

도서 IT 전문서 데이터베이스/데이터분석
캐글 대회 참여 방법부터 캐글 그랜드마스터 인터뷰까지! 쉽게 시작하는 캐글 데이터 분석
정 가
22,000원
출 간
2021-09-08
지 은 이
시노다 히로유키,조태호
옮 긴 이
조태호
I S B N
9791165216726
분 량
332쪽
난 이 도
입문,초급

파이썬으로 세계적인 데이터 분석 경진대회 캐글에 성공적으로 입문하는 법!

캐글은 세계적인 데이터 분석 경진대회 플랫폼으로, 전 세계의 데이터 분석가들이 많이 즐겨 사용한다. 캐글 경진대회에 참여하여 자신의 실력을 뽐낼 수 있으며, 캐글 마스터, 그랜드마스터 등 타이틀을 얻어 인지도를 쌓을 수도 있다. 더불어 개인적인 성취감도 느낄 수 있다.

 

이 책은 캐글 개요와 경진대회 참여 방법, 데이터 분석을 위한 기초 이론과 실습 환경 구축부터 설명한다. 초보자용 튜토리얼 경진대회인 타이타닉 생존자 예측하기, 주택 가격 예측하기 과제를 직접 해결하면서 데이터 분석 과정과 머신 러닝을 익히고, 실력을 향상시킬 수 있다. 마지막으로 캐글 마스터와 그랜드마스터의 경험과 조언을 들으며 캐글에 성공적으로 입문할 수 있다.

0장 캐글에서 실용적인 기술을 체험해 보자!

0.1 캐글 세계로 뛰어들어 보자!

__0.1.1 데이터, 데이터 분석으로 알 수 있는 것

__0.1.2 캐글: 세계 각국에서 이용하는 데이터 분석 경진대회 플랫폼

__0.1.3 이 책의 활용 방법

 

1장 캐글이란

1.1 전 세계 데이터 과학자가 경쟁하는 플랫폼

1.2 캐글의 메달과 등급

1.3 캐글 경진대회 참여 흐름

1.4 경진대회 종류

1.5 캐글 커뮤니티

 

2장 데이터 분석 절차, 데이터 분석 환경 구축

2.1 데이터 분석의 순서 및 개요

2.2 데이터 분석 환경

__2.2.1 파이썬을 이용한 데이터 분석 환경

__2.2.2 로컬 또는 클라우드에서 데이터 분석 환경

2.3 주피터 노트북을 이용한 대화형 데이터 분석 환경

__2.3.1 로컬 컴퓨터에서 데이터 분석 환경 구축

2.4 아나콘다의 가상 환경 이용(윈도)

2.5 pyenv 환경 이용()

2.6 캐글 분석 도구 사용

 

3장 캐글 경진대회 도전 : 타이타닉 생존자 예측

3.1 캐글을 이용하여 실제 데이터 분석

3.2 타이타닉 생존자 예측 경진대회란

3.3 데이터 내려받기

3.4 데이터 분석을 위한 준비 작업

__3.4.1 [순서 1] 데이터 분석 환경 준비

__3.4.2 [순서 2] 새로운 파일 작성

__3.4.3 [순서 3] 디렉터리 구성 확인

__3.4.4 [순서 4] 라이브러리를 설치하고 가져오기

__3.4.5 [순서 5] 데이터 읽어 보기

__3.4.6 [순서 6] 랜덤 시드 설정

3.5 데이터 개요 파악

3.6 데이터의 시각화

__3.6.1 목적 변수 관련 데이터의 시각화

3.7 데이터 전처리와 특징 값 생성

3.8 머신 러닝 모델링

__3.8.1 검증 데이터로 예측 정확도 확인

__3.8.2 교차 검증을 이용한 학습

3.9 캐글에 결과 제출

3.10 정확도 이외의 여러 가지 분석

__3.10.1 추가 분석 : 타이타닉에는 어떤 사람이 승선하고 있었는가?

__3.10.2 추가 분석 : 특정 클러스터에 주목

 

4장 캐글 경진대회 도전 : 주택 가격 예측

4.1 더 상세하게 알아보는 데이터 분석

4.2 주택 가격 예측하기 경진대회란

4.3 데이터 내려받기

4.4 벤치마크용 베이스라인 작성

__4.4.1 LightGBM으로 예측

__4.4.2 교차 검증으로 모델 학습과 예측

__4.4.3 각 변수의 중요도 확인

4.5 목적 변수의 전처리: 목적 변수의 분포 확인

__4.5.1 SalePrice 데이터의 분포 확인

4.6 설명 변수의 전처리: 결측치 확인

__4.6.1 각 설명 변수의 결측치 확인

4.7 이상치 제외

__4.7.1 이상치란

__4.7.2 각 설명 변수의 데이터 분포 확인

4.8 설명 변수 확인: 특징 값 생성

4.9 하이퍼파라미터 최적화

__4.9.1 Optuna 구현

__4.9.2 캐글에 결과 제출

4.10 여러 가지 머신 러닝 방법을 이용한 앙상블

__4.10.1 랜덤 포레스트로 학습

__4.10.2 LotFrontage의 결측치 삭제

__4.10.3 XGBoost로 학습

__4.10.4 XGBoostLightGBM 결과 조합

4.11 추가 분석 : 통계 기법을 이용한 클러스터 분석

__4.11.1 통계 기법을 써서 주택 분류

__4.11.2 주성분 분석

4.12 추가 분석 : 고급 주택의 조건을 분석하고 시각화

__4.12.1 결정 트리로 시각화

 

5장 새로운 데이터 과학 능력 향상을 위한 팁

5.1 캐글 마스터와 특별 인터뷰

5.2 캐글에서 권장하는 스타터 노트북

__5.2.1 판매량 예측하기 경진대회

__5.2.2 PUBG 최종 순위 예측하기(커널만 해당) 경진대회

__5.2.3 IEEE- CIS 부정 거래 탐지하기 경진대회

5.3 GCPAI 플랫폼 분석 절차

__5.3.1 GCPAI 플랫폼에 관하여

__5.3.2 GCP 이용

__5.3.3 GCP에 데이터 업로드

__5.3.4 GCPAI 플랫폼 이용

__5.3.5 GCPAI 플랫폼에서 Storage 데이터 사용

__5.3.6 새로운 라이브러리 추가

__5.3.7 인스턴스 이용 중지

 

부록 A 캐글 마스터가 되다: 전업 캐글러로서 삶과 지진 예측 3위 솔루션

A.1 자기 소개

A.2 전업 캐글러로서 1년 반

__A.2.1 전업 캐글러가 된 이유

__A.2.2 전업 캐글러가 되고 난 후 1년간

__A.2.3 캐글 그랜드마스터를 목표로 한 반년

__A.2.4 전업 캐글러로서 1년 반을 회고하며

A.3 LANL 지진 예측 3위 솔루션

__A.3.1 경진대회의 개요

__A.3.2 학습 데이터

__A.3.3 테스트 데이터

__A.3.4 학습 방법

__A.3.5 상위 입상 열쇠

__A.3.6 리더보드 프로빙

__A.3.7 점수 변화

__A.3.8 공개 리더보드의 베스트 모델

__A.3.9 개최자 논문

__A.3.10 논문에 사용한 데이터와 대회 데이터는 동일한가?

__A.3.11 개최자의 논문 정보와 리더보드 프로빙 정보를 조합하다

 

부록 B 국내 캐글 그랜드마스터 인터뷰: 이유한

B.1 인터뷰 소개 

B.2 인터뷰 내용

ㆍ지은이 시노다 히로유키
지은이 소개
대학에서 영문학을 전공했지만, 컴퓨터 대회에서 입상한 것을 계기로 매크로미디어 코리아(현 어도비 코리아)에 입사했다. 그곳에서 엔지니어로 일하며 컴퓨터 교육 TV 프로그램의 진행자로 활동했다. 일본 도쿄의과치과대학교에서 생명정보학 전공으로 보건학 박사학위를 받았으며, 미국 미주리대학교와 미시간대학교에서 박사후과정을 지냈다. 지금은 인디애나대학교 영상의학과 연구 조교수로, 딥러닝을 이용해 치매 질환을 예측하는 연구를 하고 있다. 2017년 딥러닝 입문서 《모두의 딥러닝》을 출간했다. 2019년 1월부터 글쓰기 플랫폼 브런치에 자신의 경험담을 연재해 제7회 브런치북 출판 프로젝트 대상을 수상했다. 그러나, 그의 인생에는 이러한 요약으로 설명될 수 없는 많은 이야기들이 지나갔다. 조태호 브런치 brunch.co.kr/@tjo

ㆍ지은이 조태호
지은이 소개
대학에서 영문학을 전공했지만, 컴퓨터 대회에서 입상한 것을 계기로 매크로미디어 코리아(현 어도비 코리아)에 입사했다. 그곳에서 엔지니어로 일하며 컴퓨터 교육 TV 프로그램의 진행자로 활동했다. 일본 도쿄의과치과대학교에서 생명정보학 전공으로 보건학 박사학위를 받았으며, 미국 미주리대학교와 미시간대학교에서 박사후과정을 지냈다. 지금은 인디애나대학교 영상의학과 연구 조교수로, 딥러닝을 이용해 치매 질환을 예측하는 연구를 하고 있다. 2017년 딥러닝 입문서 《모두의 딥러닝》을 출간했다. 2019년 1월부터 글쓰기 플랫폼 브런치에 자신의 경험담을 연재해 제7회 브런치북 출판 프로젝트 대상을 수상했다. 그러나, 그의 인생에는 이러한 요약으로 설명될 수 없는 많은 이야기들이 지나갔다. 조태호 브런치 brunch.co.kr/@tjo

ㆍ옮긴이 조태호
옮긴이 소개
대학에서 영문학을 전공했지만, 컴퓨터 대회에서 입상한 것을 계기로 매크로미디어 코리아(현 어도비 코리아)에 입사했다. 그곳에서 엔지니어로 일하며 컴퓨터 교육 TV 프로그램의 진행자로 활동했다. 일본 도쿄의과치과대학교에서 생명정보학 전공으로 보건학 박사학위를 받았으며, 미국 미주리대학교와 미시간대학교에서 박사후과정을 지냈다. 지금은 인디애나대학교 영상의학과 연구 조교수로, 딥러닝을 이용해 치매 질환을 예측하는 연구를 하고 있다. 2017년 딥러닝 입문서 《모두의 딥러닝》을 출간했다. 2019년 1월부터 글쓰기 플랫폼 브런치에 자신의 경험담을 연재해 제7회 브런치북 출판 프로젝트 대상을 수상했다. 그러나, 그의 인생에는 이러한 요약으로 설명될 수 없는 많은 이야기들이 지나갔다. 조태호 브런치 brunch.co.kr/@tjo

ㆍ감수 조태호
감수 소개
미국 일리노이 주립대에서 경제학을 전공한 후, 영어 교육에 뜻을 품고 펜실베니아 주립대에서 TESOL을 전공했다. 한국으로 돌아와 YBM ELS 어학원과 파고다 어학원, 여러 온라인 매체에서 영화와 미드 콘텐츠를 활용한 재미있는 강의로 수강생들의 폭발적인 호응을 얻었다. ‘재미있어야 영어를 쉽게 배울 수 있다’는 철학으로 꾸준히 색다른 영어 학습법을 모색 중이다. 저서 《스크린 영어회화 인크레더블 1, 2》 (길벗이지톡) 《스크린 영어회화 코코》 (길벗이지톡) 《스크린 영어회화 카3》 (길벗이지톡) 《스크린 영어회화 모아나》 (길벗이지톡) 《스크린 영어회화 미녀와 야수》 (길벗이지톡) 《스크린 영어회화 디즈니 OST》 (길벗이지톡) 《스크린 영어회화 디즈니 편》 (길벗이지톡) 《스크린 영어회화 디즈니-픽사 편》 (길벗이지톡) 《어학연수 현지회화 무작정 따라하기》 (길벗이지톡) 《팝스 잉글리시》 (바이링구얼) 《대박 영어회화표현 405》 (바이링구얼)

필요한 자료를 선택하세요.

추천도서