검색

북큐브서점

마이페이지

로그아웃
  • 북캐시

    0원

  • 적립금

    0원

  • 쿠폰/상품권

    0장

  • 무료이용권

    0장

자동완성 기능이 꺼져 있습니다.

자동완성 끄기

네이버 인증이 완료되었습니다.

이미 북큐브 회원인 경우북큐브 ID로 로그인하시면, SNS계정이 자동으로 연결됩니다.

SNS 계정으로 신규 가입하기SNS계정으로 로그인 시 해당 SNS 계정으로 북큐브에 자동 가입되며 간편하게 로그인이 가능합니다.

비밀번호 찾기

북큐브 고객센터 : 1588-1925

아이디 찾기

북큐브 고객센터 : 1588-1925

아이디 조회 결과

비밀번호 조회 결과

으로
비밀번호를 발송했습니다.

단단한 강화학습

강화학습 기본 개념을 제대로 정리한 인공지능 교과서

리처드 서튼, 앤드류 바르토

제이펍 출판|2020.09.08

0.0(0명)

서평(0)

시리즈 가격정보
전자책 정가 24,500원
구매 24,500원+3% 적립
출간정보 2020.09.08|PDF|29.08MB
소득공제 여부 가능 (대여는 제외)

10년소장 안내

10년소장은 장기대여 상품으로 구매 상품과는 달리 다양한 프로모션 및 폭넓은 할인 혜택 제공이 가능합니다.

프로모션이 없는 경우 구매 상품과 가격이 동일하지만 프로모션이 진행되게 되면 큰 폭의 할인 및 적립이 제공됩니다.

close

지원 단말기 : IOS 11.0 이상, Android 4.1 이상, PC Window 7 OS 이상 지원 듣기, 스크랩 (형광펜, 메모), 본문 검색 불가

책소개

내용을 대폭 보강하여 20년 만에 개정된 강화학습 분야의 절대 바이블!

인공지능 분야에서 가장 활발하게 연구되고 있는 분야 중 하나인 강화학습은 복잡하고 불확실한 환경과 상호작용하는 학습자에게 주어지는 보상을 최대화하는 수치 계산적 학습 방법이다. 리처드 서튼과 앤드류 바르토는 이 책 『단단한 강화학습』을 통해 강화학습의 핵심적인 개념과 알고리즘을 분명하고 이해하기 쉽게 설명한다. 1판이 출간된 이후 새롭게 부각된 주제들을 추가하였고, 이미 다루었던 주제들도 최신 내용으로 업데이트하였다.

목차

[단단한 강화학습]

CHAPTER 01 소개
1.1 강화학습
1.2 예제
1.3 강화학습의 구성 요소
1.4 한계와 범위
1.5 확장된 예제: 틱택토
1.6 요약
1.7 강화학습의 초기 역사
참고문헌

PART I 표 형태의 해법
CHAPTER 02 다중 선택
2.1 다중 선택 문제
2.2 행동 가치 방법
2.3 10중 선택 테스트
2.4 점증적 구현
2.5 비정상 문제의 흔적
2.6 긍정적 초깃값
2.7 신뢰 상한 행동 선택
2.8 경사도 다중 선택 알고리즘
2.9 연관 탐색(맥락적 다중 선택)
2.10 요약
참고문헌 및 역사적 사실

CHAPTER 03 유한 마르코프 결정 과정
3.1 에이전트-환경 인터페이스
3.2 목표와 보상
3.3 보상과 에피소드
3.4 에피소딕 작업과 연속적인 작업을 위한 통합 표기법
3.5 정책과 가치 함수
3.6 최적 정책과 최적 가치 함수
3.7 최적성과 근사
3.8 요약
참고문헌 및 역사적 사실

CHAPTER 04 동적 프로그래밍
4.1 정책 평가(예측)
4.2 정책 향상
4.3 정책 반복
4.4 가치 반복
4.5 비동기 동적 프로그래밍
4.6 일반화된 정책 반복
4.7 동적 프로그래밍의 효율성
4.8 요약
참고문헌 및 역사적 사실

CHAPTER 05 몬테카를로 방법
5.1 몬테카를로 예측
5.2 몬테카를로 행동 가치 추정
5.3 몬테카를로 제어
5.4 시작 탐험 없는 몬테카를로 제어
5.5 중요도추출법을 통한 비활성 정책 예측
5.6 점증적 구현
5.7 비활성 몬테카를로 제어
5.8 할인을 고려한 중요도추출법
5.9 결정 단계별 중요도추출법
5.10 요약
참고문헌 및 역사적 사실

CHAPTER 06 시간차 학습
6.1 TD 예측
6.2 TD 예측 방법의 좋은점
6.3 TD(0)의 최적성
6.4 살사: 활성 정책 TD 제어
6.5 Q 학습: 비활성 정책 TD 제어
6.6 기댓값 살사
6.7 최대화 편차 및 이중 학습
6.8 게임, 이후상태, 그 밖의 특별한 경우들
6.9 요약
참고문헌 및 역사적 사실

CHAPTER 07 n단계 부트스트랩
7.1 n단계 TD 예측
7.2 n단계 살사
7.3 n단계 비활성 정책 학습
7.4 제어 변수가 있는 결정 단계별 방법
7.5 중요도추출법을 사용하지 않는 비활성 정책 학습: n단계 트리 보강 알고리즘
7.6 통합 알고리즘: n단계 Q(σ)
7.7 요약
참고문헌 및 역사적 사실

CHAPTER 08 표에 기반한 방법을 이용한 계획 및 학습
8.1 모델과 계획
8.2 다이나: 계획, 행동, 학습의 통합
8.3 모델이 틀렸을 때
8.4 우선순위가 있는 일괄처리
8.5 기댓값 갱신 대 표본 갱신
8.6 궤적 표본추출
8.7 실시간 동적 프로그래밍
8.8 결정 시점에서의 계획
8.9 경험적 탐색
8.10 주사위 던지기 알고리즘
8.11 몬테카를로 트리 탐색
8.12 요약
8.13 1부 요약: 차원
참고문헌 및 역사적 사실

PART II 근사적 해법
CHAPTER 09 근사를 이용한 활성 정책 예측
9.1 가치 함수 근사
9.2 예측 목적(VE)
9.3 확률론적 경사도와 준경사도 방법
9.4 선형 방법
9.5 선형 방법을 위한 특징 만들기
9.6 시간 간격 파라미터를 수동으로 선택하기
9.7 비선형 함수 근사: 인공 신경망
9.8 최소 제곱 TD
9.9 메모리 기반 함수 근사
9.10 커널 기반 함수 근사
9.11 활성 정책 학습에 대한 보다 깊은 관찰: 관심과 강조
9.12 요약
참고문헌 및 역사적 사실

CHAPTER 10 근사를 적용한 활성 정책 제어
10.1 에피소딕 준경사도 제어
10.2 준경사도 n단계 살사
10.3 평균 보상: 연속적 작업을 위한 새로운 문제 설정
10.4 할인된 설정에 대한 반대
10.5 미분 준경사도 n단계 살사
10.6 요약
참고문헌 및 역사적 사실

CHAPTER 11 근사를 활용한 비활성 정책 방법
11.1 준경사도 방법
11.2 비활성 정책 발산의 예제
11.3 치명적인 삼위일체
11.4 선형 가치 함수 기하 구조
11.5 벨만 오차에서의 경사도 강하
11.6 벨만 오차는 학습할 수 없다
11.7 경사도 TD 방법
11.8 강한 TD 방법
11.9 분산 줄이기
11.10 요약
참고문헌 및 역사적 사실

CHAPTER 12 적격 흔적
12.1 λ 이득
12.2 TD(λ)
12.3 중단된 n단계 λ 이득 방법
12.4 다시 갱신하기: 온라인 λ 이득 알고리즘
12.5 진정한 온라인 TD(λ)
12.6 몬테카를로 학습에서의 더치 흔적
12.7 살사(λ)
12.8 가변 λ 및 γ
12.9 제어 변수가 있는 비활성 정책 흔적
12.10 왓킨스의 Q(λ)에서 트리 보강(λ)로
12.11 흔적을 이용한 안정적인 비활성 정책 방법
12.12 구현 이슈
12.13 결론
참고문헌 및 역사적 사실

CHAPTER 13 정책 경사도 방법
13.1 정책 근사 및 정책 근사의 장점
13.2 정책 경사도 정리
13.3 REINFORCE: 몬테카를로 정책 경사도
13.4 기준값이 있는 REINFORCE
13.5 행동자-비평자 방법
13.6 연속적인 문제에 대한 정책 경사도
13.7 연속적 행동을 위한 정책 파라미터화
13.8 요약
참고문헌 및 역사적 사실

PART III 더 깊이 들여다보기
CHAPTER 14 심리학
14.1 예측과 제어
14.2 고전적 조건화
14.3 도구적 조건화
14.4 지연된 강화
14.5 인지 지도
14.6 습관적 행동과 목표 지향적 행동
14.7 요약
참고문헌 및 역사적 사실

CHAPTER 15 신경과학
15.1 신경과학 기본
15.2 보상 신호, 강화 신호, 가치, 예측 오차
15.3 보상 예측 오차 가설
15.4 도파민
15.5 보상 예측 오차 가설에 대한 실험적 근거
15.6 TD 오차/도파민 유사성
15.7 신경 행동자-비평자
15.8 행동자와 비평자 학습 규칙
15.9 쾌락주의 뉴런
15.10 집단적 강화학습
15.11 뇌에서의 모델 기반 방법
15.12 중독
15.13 요약
참고문헌 및 역사적 사실

CHAPTER 16 적용 및 사례 연구
16.1 TD-가몬
16.2 사무엘의 체커 선수
16.3 왓슨의 이중 내기
16.4 메모리 제어 최적화
16.5 인간 수준의 비디오 게임 실력
16.6 바둑 게임에 통달하다
16.7 개인화된 웹 서비스
16.8 열 상승
CHAPTER 17 프론티어

17.1 일반적인 가치 함수 및 보조 작업
17.2 옵션을 통한 시간적 추상화
17.3 관측과 상태
17.4 보상 신호의 설계
17.5 남아 있는 이슈들
17.6 인공지능의 미래
참고문헌 및 역사적 사실

참고문헌
찾아보기

저자소개

저 : 리처드 서튼 (Richard S. Sutton)
앨버타 대학교의 컴퓨터 과학과 교수이자 같은 대학에서 강화학습 및 인공지능 분과의 AITF(Alberta Innovates Technology Future) 의장을 맡고 있다. 또한, 딥마인드의 우수 과학자(Distinguished Research Scientist)이기도 하다.

저 : 앤드류 바르토 (Andrew G. Barto)
매사추세츠 대학교 애머스트 캠퍼스의 컴퓨터 및 정보과학 대학에서 명예 교수로 재직 중이다.

역 : 김성우
인공위성 제어에 지도학습을 적용한 연구로 박사학위를 받았다. 지금은 인공위성 개발 업체에서 위성 충돌 회피 및 위성 영상 분석을 위한 기계학습 방법을 연구하고 있다.

서평(0)

별점으로 평가해주세요.

서평쓰기

스포일러가 포함되어 있습니다.

0.0

(0명)

ebook 이용안내

  • 구매 후 배송이 필요 없이 다운로드를 통해 이용 가능한 전자책 상품입니다.
  • 전자책 1회 구매로 PC, 스마트폰, 태블릿 PC에서 이용하실 수 있습니다.
    (도서 특성에 따라 이용 가능한 기기의 제한이 있을 수 있습니다.)
  • 책파일 내 판권정보 정가와 북큐브 사이트 정가 표시가 다를 수 있으며, 실제 정가는 사이트에 표시된 정가를 기준으로 합니다.
  • 적립금 지급은 적립금 및 북큐브 상품권으로 결제한 금액을 뺀 나머지가 적립금으로 지급됩니다.
    (적립금 유효기간은 마이페이지>북캐시/적립금/상품권>적립금 적립내역에서 확인 가능합니다.)
  • 저작권 보호를 위해 인쇄/출력 기능은 지원하지 않습니다.
  • 구매하신 전자책은 “마이페이지 > 구매목록” 또는 “북큐브 내서재 프로그램 > 구매목록”에서 다운로드할 수 있습니다.
  • 스마트폰, 태블릿PC의 경우 북큐브 어플리케이션을 설치하여 이용할 수 있습니다. (모바일 페이지 바로가기)
  • PC에서는 PC용 내서재 프로그램을 통해 도서를 이용하실 수 있습니다.
  • ID 계정 당 총 5대의 기기에서 횟수 제한 없이 이용하실 수 있습니다.
TOP