제미나이로 시작하는 멀티모달 AI 프로그래밍의 첫걸음!
텍스트, 이미지, 동영상, 음성을 넘나드는 AI 애플리케이션 개발을 위한 완벽 가이드!
구글이 개발한 생성 AI인 제미나이는 텍스트, 이미지, 동영상, 음성 등 다양한 데이터를 동시에 처리하는 멀티모달 AI이다. 이를 활용하면 텍스트+이미지 분석, 음성 기반 챗봇, 동영상 요약 AI 등 고급 AI 서비스를 만들 수 있다. 이 책은 제미나이를 활용해 개인 맞춤형 챗봇 AI 애플리케이션 개발을 목표로 한다. Gemini API를 활용한 AI 개발을 중심으로 구성했으며 코랩, Android, iOS 등 다양한 개발 환경에서도 실습할 수 있다. 또한, AI 개발의 표준 프레임워크인 라마인덱스와 랭체인도 함께 설명하여, 고급 애플리케이션을 보다 손쉽게 개발할 수 있도록 안내한다. 예제를 설명하는 데서 끝나는 것이 아니라, 직접 따라 하며 실행할 수 있는 코드와 단계별로 실습할 수 있어 초보 개발자도 쉽게 AI 애플리케이션을 구축할 수 있다. 더불어, 이 책을 통해서 생성 AI를 전반적으로 이해하고 실무에 활용하는 방법도 익힐 수 있다.
1장 제미나이 알아보기
1.1 제미나이 알아보기
__1.1.1 제미나이란
__1.1.2 제미나이 모델 종류
__1.1.3 대규모 언어 모델의 개요
__1.1.4 제미나이 API 알아보기
__1.1.5 대규모 언어 모델의 활용 사례
1.2 제미나이 시작
__1.2.1 제미나이 시작하기
__1.2.2 제미나이 어드밴스드
1.3 인공지능과 머신러닝, 딥러닝
__1.3.1 인공지능과 머신러닝, 딥러닝
__1.3.2 뉴런과 신경망
__1.3.3 모델 작성과 학습, 추론
1.4 자연어 처리와 딥러닝 모델
__1.4.1 자연어 처리 분야에서 딥러닝 모델 역사
__1.4.2 딥러닝 모델을 이용하여 이미지 처리하기
__1.4.3 딥러닝을 활용하여 음성 처리하기
2장 제미나이 사용
2.1 제미나이 사용법
__2.1.1 제미나이 화면 구성
__2.1.2 제미나이에서 실행할 수 있는 주요 작업
2.2 구글 AI 스튜디오 사용법
__2.2.1 구글 AI 스튜디오 시작하기
__2.2.2 구글 AI 스튜디오의 화면 구성
__2.2.3 API 키 가져오기
__2.2.4 새 프롬프트 작성과 모델 튜닝, 라이브러리
__2.2.5 문서
__2.2.6 설정
__2.2.7 도구 모음
__2.2.8 시스템 지시
__2.2.9 프롬프트 실행하기
__2.2.10 실행 설정하기
2.3 버텍스 AI 스튜디오 사용법
__2.3.1 버텍스 AI 스튜디오 시작하기
__2.3.2 버텍스 AI 제미나이 API 사용 요금
__2.3.3 버텍스 AI 스튜디오의 화면 구성
__2.3.4 왼쪽 메뉴
__2.3.5 도구 모음
__2.3.6 시스템 지시
__2.3.7 프롬프트 실행하기
__2.3.8 실행 설정하기
3장 파이썬 개발 환경 준비
3.1 파이썬 개요
__3.1.1 파이썬이란
3.2 구글 코랩 알아보기
__3.2.1 구글 코랩이란
__3.2.2 구글 코랩 시작하기
__3.2.3 파이썬 스크립트 실행하기
__3.2.4 파이썬 패키지 설치하기
__3.2.5 텍스트 추가하기
__3.2.6 구글 코랩의 화면 구성하기
__3.2.7 구글 코랩의 메뉴
__3.2.8 GPU 사용하기
__3.2.9 구글 드라이브 마운트
__3.2.10 구글 코랩의 사용 한도와 대책
__3.2.11 구글 코랩의 요금제
3.3 파이썬 기초 문법
__3.3.1 문자열 출력하기
__3.3.2 변수와 연산자
__3.3.3 문자열
__3.3.4 리스트
__3.3.5 딕셔너리
__3.3.6 튜플
__3.3.7 제어문
__3.3.8 함수와 람다식
__3.3.9 클래스
__3.3.10 패키지 임포트와 컴포넌트 직접 호출
4장 제미나이 API(파이썬 편)
4.1 텍스트 생성
__4.1.1 텍스트 생성의 개요
__4.1.2 제미나이 API의 개요
__4.1.3 구글 AI 제미나이 API의 개요
__4.1.4 구글 AI 제미나이 API의 요금
__4.1.5 API 키 가져오기
__4.1.6 제미나이 API 준비
__4.1.7 모델 목록 확인
__4.1.8 텍스트 생성
__4.1.9 스트리밍
__4.1.10 챗
__4.1.11 생성 파라미터
__4.1.12 토큰 수 확인
__4.1.13 안전 설정
__4.1.14 시스템 지시
__4.1.15 JSON 모드
4.2 멀티모달
__4.2.1 멀티모달 개요
__4.2.2 지원하는 파일 형식
__4.2.3 제미나이 API 준비하기
__4.2.4 이미지 질의응답
__4.2.5 File API를 사용한 이미지 질의응답
__4.2.6 음성 질의응답
__4.2.7 동영상 질의응답
4.3 임베딩
__4.3.1 임베딩 개요
__4.3.2 제미나이 API 준비
__4.3.3 임베딩 모델 종류
__4.3.4 text-embedding-004 사용법
__4.3.5 text-embedding-004를 활용한 이웃 탐색
__4.3.6 bge-m3 사용법
__4.3.7 bge-m3를 활용한 이웃 탐색
4.4 함수 호출
__4.4.1 함수 호출의 개요
__4.4.2 제미나이 API 준비하기
__4.4.3 자동 함수 호출하기
__4.4.4 도구 설정하기
__4.4.5 수동 함수 호출하기
__4.4.6 병렬 함수 호출하기
4.5 파인 튜닝
__4.5.1 파인 튜닝의 개요
__4.5.2 제미나이 API 요금
__4.5.3 파인 튜닝 모델 목록 가져오기
__4.5.4 학습 데이터 준비하기
__4.5.5 학습하기
__4.5.6 추론하기
__4.5.7 파인 튜닝 모델 설명 업데이트하기
__4.5.8 파인 튜닝 모델 삭제하기
__4.5.9 인증 정보 파일
4.6 버텍스 AI 제미나이 API
__4.6.1 버텍스 AI 제미나이 API의 개요
__4.6.2 버텍스 AI 제미나이 API 요금
__4.6.3 서비스 계정 키 준비하기
__4.6.4 버텍스 AI 제미나이 API 준비하기
__4.6.5 텍스트 생성하기
__4.6.6 이미지 질의응답
5장 제미나이 API(안드로이드 편)
5.1 텍스트 생성
__5.1.1 텍스트 생성의 개요
__5.1.2 구글 AI 제미나이 API의 개요
__5.1.3 제미나이 API 요금
__5.1.4 API 키 가져오기
__5.1.5 제미나이 API 준비하기
__5.1.6 텍스트 생성하기
__5.1.7 스트리밍
__5.1.8 챗
__5.1.9 생성 파라미터
__5.1.10 안전 설정
5.2 멀티모달
__5.2.1 멀티모달 개요
__5.2.2 제미나이 API 준비하기
__5.2.3 이미지 질의응답
5.3 로컬 LLM
__5.3.1 로컬 LLM의 개요
__5.3.2 제미나이 나노와 젬마
__5.3.3 안드로이드의 로컬 언어 모델 실행 환경
__5.3.4 Llama.cpp 데모 애플리케이션 실행하기
6장 제미나이 API(iOS 편)
6.1 텍스트 생성
__6.1.1 텍스트 생성의 개요
__6.1.2 구글 AI 제미나이 API의 개요
__6.1.3 제미나이 API 요금
__6.1.4 API 키 가져오기
__6.1.5 제미나이 API 준비하기
__6.1.6 텍스트 생성하기
__6.1.7 스트리밍
__6.1.8 챗
__6.1.9 생성 파라미터
__6.1.10 안전 설정
6.2 멀티모달
__6.2.1 멀티모달 개요
__6.2.2 제미나이 API 준비하기
__6.2.3 이미지 질의응답
6.3 로컬 LLM
__6.3.1 로컬 LLM의 개요
__6.3.2 iOS의 로컬 LLM 실행 환경
__6.3.3 Llama.cpp 데모 애플리케이션 실행하기
__6.3.4 MLX Swift 데모 애플리케이션 실행하기
7장 라마인덱스
7.1 라마인덱스 시작
__7.1.1 라마인덱스란
__7.1.2 라마인덱스 핵심 단계
__7.1.3 문서 준비하기
__7.1.4 라마인덱스 준비하기
__7.1.5 라마인덱스를 활용한 질의응답
__7.1.6 인덱스 저장과 불러오기
7.2 라마인덱스 커스터마이징
__7.2.1 라마인덱스 커스터마이징의 개요
__7.2.2 라마인덱스 준비하기
__7.2.3 문서 준비하기
__7.2.4 LLM 커스터마이징하기
__7.2.5 임베딩 모델 커스터마이징하기
__7.2.6 토크나이저 커스터마이징하기
__7.2.7 텍스트 분리기 커스터마이징하기
__7.2.8 쿼리 엔진 커스터마이징하기
__7.2.9 리랭커
7.3 데이터로더
__7.3.1 데이터로더 개요
__7.3.2 웹 페이지를 활용한 질의응답
__7.3.3 유튜브 동영상을 활용한 질의응답
7.4 벡터 스토어
__7.4.1 벡터 스토어의 개요
__7.4.2 라마인덱스 준비하기
__7.4.3 문서 준비하기
__7.4.4 파이스 사용 순서
__7.4.5 파인콘 개요와 API 가져오기
__7.4.6 파인콘 사용 순서
7.5 평가
__7.5.1 라마인덱스 평가하기
__7.5.2 라마인덱스 준비하기
__7.5.3 문서 준비하기
__7.5.4 질문 컨텍스트 데이터셋 생성하기
__7.5.5 Retrieval Evaluation
__7.5.6 응답 성능 평가하기
8장 랭체인
8.1 랭체인 시작
__8.1.1 랭체인 개요
__8.1.2 랭체인 활용 사례
__8.1.3 랭체인의 패키지 구성하기
__8.1.4 랭체인의 모듈 소개하기
__8.1.5 랭체인 준비하기
__8.1.6 LLM
__8.1.7 프롬프트 템플릿
__8.1.8 출력 파서
__8.1.9 체인
__8.1.10 에이전트
__8.1.11 랭스미스
8.2 LLM
__8.2.1 LLM 개요
__8.2.2 랭체인 준비하기
__8.2.3 LLM 사용법
__8.2.4 ChatModel 사용법
__8.2.5 스트리밍
__8.2.6 버텍스 AI 제미나이 API의 LLM 사용법
8.3 프롬프트 템플릿
__8.3.1 프롬프트 템플릿 모듈의 개요
__8.3.2 랭체인 준비하기
__8.3.3 문자열 프롬프트 템플릿의 사용법
__8.3.4 챗 프롬프트 템플릿의 사용법
__8.3.5 메시지플레이스홀더의 사용법
8.4 출력 파서
__8.4.1 출력 파서의 개요
__8.4.2 랭체인 준비하기
__8.4.3 문자열 출력 파서의 사용법
__8.4.4 단순 JSON 출력 파서의 사용법
__8.4.5 파이단틱 출력 파서의 사용법
8.5 체인
__8.5.1 체인 개요
__8.5.2 LCEL 개요
__8.5.3 러너블 개요
__8.5.4 랭체인 준비하기
__8.5.5 체인 사용법
__8.5.6 러너블 사용법
__8.5.7 러너블의 입출력 스키마 확인하기
8.6 챗봇
__8.6.1 챗봇 개요
__8.6.2 랭체인 준비하기
__8.6.3 LLM 준비하기
__8.6.4 챗봇 준비하기
__8.6.5 커스텀 지시
__8.6.6 대화 이력 관리하기
__8.6.7 랭스미스 확인하기
8.7 검색 증강 생성
__8.7.1 검색 증강 생성의 개요
__8.7.2 랭체인 준비하기
__8.7.3 임베딩 모델 준비하기
__8.7.4 벡터 스토어 준비하기
__8.7.5 리트리버 준비하기
__8.7.6 검색 증강 생성 구현하기
__8.7.7 검색 증강 생성으로 문서 처리하기
__8.7.8 랭스미스 확인하기
8.8 에이전트
__8.8.1 에이전트 개요
__8.8.2 랭체인 준비하기
__8.8.3 임베딩 모델 준비하기
__8.8.4 도구 준비하기
__8.8.5 에이전트 구현하기
__8.8.6 메시지 스트리밍
__8.8.7 대화 이력을 포함한 에이전트 구현하기
__8.8.8 랭스미스 확인하기
필요한 자료를 선택하세요.
독자의견 남기기