추천 검색어

최근 검색어

도서 IT 전문서 데이터베이스/데이터분석
머하웃, 스프링 XD, 하둡, 스칼라, 스파크, R 머신 러닝 워크북
정 가
35,000원
출 간
2016-04-30
지 은 이
곽승주,제이슨벨
옮 긴 이
곽승주
I S B N
9791187345008
분 량
456쪽
난 이 도
초급
부 록
예제 소스

머신 러닝, 자바와 다양한 도구로 실습하면서 이해한다.

자바와 다양한 도구로 실습해보면서 머신 러닝의 개념과 도구 사용법을 배운다. 머신 러닝의 정의, 머신 러닝을 계획하는 방법부터 시작하여 의사결정트리, 베이지안 네트워크, 인공 신경망, 연관 규칙 학습, 서포트 벡터 머신, 클러스터링이 무엇이고, 어디에 활용되는지 배운다. 각 알고리즘에 어떤 도구를 사용해야 하는지 자바를 포함하여 머신 러닝에서 사용되는 다양한 도구(머하웃, 스프링 XD, 하둡, 스쿱, 피그, 맵리듀스, 스칼라, 스파크, R, Rjava)를 설치하고 사용해본다. 머신 러닝 알고리즘과 도구 전반을 책 한 권으로 살펴보면서 각 기법과 도구의 특징을 배울 수 있다.

1장 머신 러닝이란 무엇인가?
__1.1 머신 러닝의 역사
____앨런 튜링
____아서 사무엘
____톰 미첼
____요약
__1.2 머신 러닝 알고리즘의 종류
____지도 학습
____비지도 학습
__1.3 인간의 개입
__1.4 머신 러닝의 활용
____소프트웨어
____주식 매매
____로보틱스
____의학과 헬스 케어
____광고
____소매업과 전자 상거래
____게임 분석
____사물인터넷
__1.5 머신 러닝을 위한 프로그래밍 언어
____파이썬
____R
____매트랩
____스칼라
____클로저
____루비
__1.6 이 책에서 사용한 소프트웨어
____자바 버전 확인하기
____웨카 툴킷
____머하웃
____스프링 XD
____하둡
____통합개발환경(IDE) 사용하기
__1.7 데이터 저장소
____UC 어바인 머신 러닝 저장소
____인포침스
____캐글
__1.8 요약

2장 머신 러닝 계획하기
__2.1 머신 러닝 순환 주기
__2.2 모든 것은 질문으로 시작된다
__2.3 데이터가 없어요!
____지역 사회에서 시작하기
____경진대회
__2.4 하나로 모두 해결한다?
__2.5 프로세스 정의하기
____계획
____개발
____테스팅
____보고
____개선
____프로덕션
__2.6 데이터 팀 구성하기
____수학과 통계
____프로그래밍
____그래픽 디자인
____전문 지식
__2.7 데이터 처리
____내 컴퓨터 사용하기
____컴퓨터 클러스터
____클라우드 기반 서비스
__2.8 데이터 스토리지
____물리 디스크
____클라우드 기반 스토리지
__2.9 사생활 데이터 보안
____문화 규범
____세대적인 기대
____사용자 데이터의 익명성
____‘오싹한 선’을 넘지 마라
__2.10 데이터 품질과 정리
____입력 여부 확인
____타입 확인
____길이 확인
____범위 확인
____포맷 확인
____브리트니 딜레마
____국가 이름에는 어떤 것들이 있나?
____날짜와 시간
____데이터 정리에 관한 마지막 생각
__2.11 입력 데이터에 대해 생각해보기
____원시 텍스트
____CSV
____JSON
____YAML
____XML
____스프레드시트
____데이터베이스
__2.12 결과 데이터에 대해 생각해보기
__2.13 실험을 두려워하지 마라
__2.14 요약

3장 의사결정트리로 작업하기
__3.1 의사결정트리의 기본
____의사결정트리의 사용
____의사결정트리의 장점
____의사결정트리의 한계
____여러 가지 알고리즘
____의사결정트리는 어떻게 작동하는가?
__3.2 웨카의 의사결정트리
____필요 사항
____훈련용 데이터
____웨카를 사용하여 의사결정트리 만들기
____분류에서 자바 코드 만들기
____분류기 코드 테스트하기
____미래의 반복적인 작업 생각해보기
__3.3 요약

4장 베이지안 네트워크
__4.1 조종사부터 클리피까지
__4.2 약간의 그래프 이론
__4.3 약간의 확률 이론
____동전 던지기
____조건부 확률
____복권 당첨
__4.4 베이즈 이론
__4.5 베이지안 네트워크는 어떻게 작동하는가?
____확률 부여하기
____결과 계산하기
__4.6 노드의 개수
__4.7 전문가의 도움
__4.8 베이지안 네트워크 안내
____베이지안 네트워크를 위한 자바 API
____네트워크 계획하기
____네트워크 코딩하기
__4.9 요약

5장 인공 신경망
__5.1 신경망이란 무엇인가?
__5.2 인공 신경망 활용
____고빈도 매매
____신용 대출
____데이터 센터 관리
____로봇 공학
____의료 모니터링
__5.3 인공 신경망 뜯어보기
____퍼셉트론
____활성화 함수
____다층 퍼셉트론
____역전파
__5.4 인공 신경망을 위한 데이터 준비
__5.5 웨카를 사용한 인공 신경망
____데이터 세트 만들기
____웨카로 데이터 읽어 들이기
____다층 퍼셉트론 조정하기
____네트워크 훈련시키기
____네트워크 변경하기
____테스트 데이터 크기 늘리기
__5.6 자바에서 신경망 구현하기
____프로젝트 만들기
____코드
____CSV를 Arff로 변환하기
____신경망 실행하기
__5.7 요약

6장 연관 규칙 학습
__6.1 연관 규칙 학습은 어느 분야에서 사용되는가?
____웹 사용 로그 마이닝
____맥주와 기저귀
__6.2 연관 규칙 학습은 어떻게 이루어지는가?
____지지도
____신뢰도
____향상도
____확신도
____프로세스 정의하기
__6.3 알고리즘
____Apriori
____FP-Growth
__6.4 장바구니 마이닝
____원시 데이터 다운로드
____이클립스에서 프로젝트 설정하기
____아이템 데이터 파일 설정하기
____데이터 설정하기
____머하웃 실행시키기
____결과 검사하기
____모두 합치기
____추후 개발
__6.5 요약

7장 서포트 벡터 머신
__7.1 SVM이란 무엇인가?
__7.2 SVM은 어디에 사용되는가?
__7.3 기본 분류 원칙
____이진 분류와 다중 클래스 분류
____선형 분류기
____신뢰성
____함숫값 최대화와 최소화
__7.4 SVM으로 분류하는 방법
____선형 분류 사용하기
____비선형 분류 사용하기
__7.5 웨카에서 SVM 사용하기
____LibSVM 설치하기
____분류 실습
____자바와 함께 LibSVM 사용하기
__7.6 요약


8장 클러스터링
__8.1 클러스터링이란 무엇인가?
__8.2 클러스터링은 어디에 사용되는가?
____인터넷
____비즈니스와 소매업
____법 집행
____컴퓨터 작업
__8.3 클러스터링 모델
____k-means는 어떻게 작동하는가?
____클러스터 개수 계산하기
__8.4 웨카를 사용한 k-means 클러스터링
____데이터 준비하기
____워크벤치를 이용한 방법
____명령줄을 사용한 방법
____코드를 사용한 방법
__8.5 요약

9장 스프링 XD로 하는 실시간 머신 러닝
__9.1 데이터 파이어호스 잡기
____실시간 데이터 사용 시 고려 사항
____실시간 시스템의 활용 가능성
__9.2 스프링 XD 사용하기
____스프링 XD 스트림
____입력 소스, 싱크, 프로세서
__9.3 트위터 데이터로부터 배우기
____개발 계획
____트위터 API 개발자의 애플리케이션 설정하기
__9.4 스프링 XD 설정하기
____스프링 XD 서버 시작하기
____샘플 데이터 만들기
____스프링 XD 셸
____스트림 101
__9.5 스프링 XD와 트위터
____트위터 자격 인증 설정하기
____첫 트위터 스트림 만들기
____다음에 할 것은?
__9.6 프로세서 소개
____어떻게 스트림 내 프로세서 작업이 이루어지는가?
____나만의 프로세서 만들기
__9.7 실시간 감성 분석
____기본적인 분석이 이루어지는 방법
____감성 프로세서 만들기
____스프링 XD Taps
__9.8 요약

10장 배치 처리로 하는 머신 러닝
__10.1 빅데이터인가?
__10.2 배치 처리할 데이터의 고려 사항
____크기와 빈도
____데이터가 많은가?
____처리 방법은?
__10.3 배치 처리의 실전 예제
____하둡
____스쿱
____피그
____머하웃
____클라우드 기반 맵리듀스
____실습 시 주의사항
__10.4 하둡 프레임워크 사용하기
____하둡 아키텍처
____싱글노드 클러스터 설정하기
__10.5 맵리듀스 작업 방법
__10.6 해시태그 마이닝
____스프링 XD의 하둡 지원
____이 예제의 목표
____해시태그란 무엇인가?
____맵리듀스 클래스 만들기
____기존 데이터에 ETL 수행하기
____머하웃으로 제품 추천하기
__10.7 판매 데이터 마이닝
____제 커피숍에 오신 걸 환영합니다!
____작은 규모로 시작하기
____Core 메서드 작성하기
____하둡과 맵리듀스 사용하기
____피그를 사용하여 매출 데이터 마이닝하기
__10.8 배치 작업 일정
__10.9 요약

11 장 아파치 스파크
__11.1 스파크는 하둡의 대안인가?
__11.2 자바, 스칼라 또는 파이썬?
__11.3 스칼라 단기 속성 코스
____스칼라 설치하기
____패키지
____데이터 타입
____클래스
____함수 호출하기
____연산자
____흐름 제어
__11.4 스파크 다운로드와 설치
__11.5 스파크 간단 입문
____셸 시작하기
____데이터 소스
____스파크 테스트
____스파크 모니터
__11.6 스파크와 하둡 맵리듀스 비교
__11.7 스파크로 독립 실행형 프로그램 만들기
____스칼라에서 스파크 프로그램
____스칼라 빌드 도구 설치하기
____자바에서 스파크 프로그램
____스파크 프로그램 요약
__11.8 스파크 SQL
____기본 개념
____RDD에서 SparkSQL 사용하기
__11.9 스파크 스트리밍
____기본 개념
____스칼라로 첫 스트림 만들기
____자바로 첫 스트림 만들기
__11.10 MLib: 머신 러닝 라이브러리
____디펜던시
____의사결정트리
____클러스터링
__11.11 요약

12장 R로 하는 머신 러닝
__12.1 R 설치하기
____OS X
____윈도
____리눅스
__12.2 첫 실행
__12.3 R-Studio 설치하기
__12.4 R의 기본
____변수와 벡터
____행렬
____리스트
____데이터 프레임
____패키지 설치하기
____데이터를 로드하기
____데이터 그리기
__12.5 간단한 통계
__12.6 단순 선형회귀
____데이터 만들기
____초기 그래프
____선형 모델 회귀 분석
____예측하기
__12.7 기본적인 감성 분석
____단어 목록을 로드하는 함수
____감성 지수를 채점하는 함수 작성하기
____함수 테스트하기
__12.8 Apriori 연관 규칙
____arules 패키지 설치하기
____훈련용 데이터
____거래 데이터 가져오기
____Apriori 알고리즘 실행하기
____결과 검사하기
__12.9 자바에서 R로 접근하기
____rJava 패키지 설치하기
____R에서의 첫 자바 코드
____자바 프로그램에서 R 호출하기
____이클립스 프로젝트 설정하기
____자바/R 클래스 만들기
____예제 실행하기
____R 작업 확장하기
__12.10 R과 하둡
____RHadoop 프로젝트
____RHadoop에서 간단한 맵리듀스 작업
____R에서 소셜 미디어 연결하기
__12.11 요약

부록 A 스프링 XD 빨리 시작하기
부록 B Hadoop 1.x 빨리 시작하기
부록 C 유용한 유닉스 명령어
부록 D 추가 읽을거리

찾아보기
ㆍ지은이 곽승주
지은이 소개
정신건강의학을 전공한 뇌과학자. 예일대학교에서 정신의학과 박사후과정을 마쳤다. 앞서 저장대학교에서 심리학과 학사학위를, 홍콩대학교에서 정신의학과 박사학위를 취득했다. 미국 국립보건원이 2009년부터 약 390억 원의 예산을 투입한 휴먼커넥톰프로젝트Human Connectome Project의 연구원이기도 했다. 이 프로젝트에서 전 세계의 50개가 넘는 연구팀들과 함께 신경세포 연결을 종합적으로 표현한 뇌 지도를 만들고자 노력했다. 이 밖에도 MRI 및 fMRI로 환각, 조현병, 양극성정동장애, 파킨슨병 등의 정신질환을 연구하여 국제 저명 학술지에 10여 편의 논문을 발표하는 등 여러 해 동안 미국 뇌과학 분야에서 일해왔다. 현재는 중국으로 돌아와 뇌과학을 쉽게 알려주는 1인 미디어 쿨브레인사이언스酷炫腦, cool brain science를 운영하고 있으며, 해당 계정은 중국의 대표 SNS 웨이보에 120만 명의 팔로워를 두고 있다.

ㆍ지은이 제이슨벨
지은이 소개
한양대학교에서 경제학을 전공하고 경제학 석사를 받았다. 은행과 자산운용사(마이다스에셋자산운용)에서 근무하였고 주 업무 외에 프로그래밍과 관련하여 리스크 관련 업무 프로그램, 선물 변동성 매매, 페어트레이딩, ELS 상품 평가/백테스팅 프로그램 등을 만들어 왔다. 최근에는 Django를 이용하여 포트폴리오 관리와 매매전략을 위한 플랫폼을 개발 중이다. 저서로는 『VBA를 이용한 금융공학 프로그래밍』(한빛미디어, 2009)이 있다.

ㆍ옮긴이 곽승주
옮긴이 소개
◆ 홍익대학교 겸임교수 홍익대학교 디자인컨버전스학부 겸임교수로 지내면서 디자인 관련 수업을 하고 있고 한국예술원 KAC, 기업체 및 단체 공공기 관에서 드로잉 관련 강의를 하고 있어요. ◆ 일러스트레이터 뽀얀 보기 좋은 빛깔의 그림을 그리려고 노력하는 ‘뽀얀작가’ ◆ 책을 쓰는 저자 베스트셀러 「뽀얀 일러스트하우스 by 포토샵」을 비롯하여 「뽀얀 미술사 거장을 만나다 by 포토샵」「크리에이티브 아트웍 4」「뽀얀의 감성 일러스트」「레인보우(RAINBOW) 컬러링북」「상상 그 찰나를 그리다」「모두의 일러스트레이터」등을 집필했어요. ◆ 육아툰을 그리는 엄마작가 놀랍고 신비로웠던 출산. 아기를 품에 안고 햇사랑을 시작하던 8월. 부모와 자식으로 만난 큰 인연에 감사하며 아이를 키우면서 느끼는 감정을 육아툰으로 그리기 시작했어요. ㆍ블로그 : www.bboyan.com ㆍ인스타그램 : www.instagram.com/bboyan ㆍ카카오스토리 : story.kakao.com/bboyan_mom

필요한 자료를 선택하세요.

추천도서