1. 강화학습이란?
이 책의 주요 설명 수단: 끈 그림
앞으로의 여정
2. 강화학습 문제의 모형화: 마르코프 결정 과정
끈 그림과 이 책의 교육 방식
PyTorch로 신경망 만들기
3. 가장 나은 동작의 선택: 심층 Q 신경망(DQN)
4. 정책 기울기 방법
5. 좀 더 어려운 문제 풀기: 행위자-비평자 모형
6. 또 다른 최적화 방법: 진화 알고리즘
7. 모든 가능성의 탐색: 분포 심층 Q 신경망
8. 호기심 주도 탐험
9. 다중 에이전트 강화학습
10. 해석 가능한 강화학습: 주의 모형과 관계 모형
11. 결론: 돌아보기와 내다보기
마치며