Dimitri의 2014 ADP - Intro :: CtrlMan

Dimitri의 2014 ADP - Intro

2020. 8. 16. 16:09

본 글은 Dimitri P. Bertsekas가 2014년 칭화대에서 강의한 Approximate Dynamic Programming의 강의자료를 공부하며 적는 글입니다.

web.mit.edu/dimitrib/www/publ.html

전체 강의 자료는 아래에서 다운로드 받을 수 있습니다. There is a complete lecture slide.

Dimitri Bertsekas - Approximate Dynamic Programming(2014)

web.mit.edu/dimitrib/www/ADP_Slides_Tsinghua_Complete.pdf

해당 강의는 아래 유튜브 채널에서 만나볼 수 있습니다.

www.youtube.com/channel/UCToelS8rQMz5hOBZqdgfAjQ/featured

강의의 개요

목적

근사 기반과 시뮬레이션의 일부의 대-규모의 동적 계획법
불확실성 하의 동적 시스템의 제어를 다루지만 더 광범위하게 적용한다 (ex>이산 결정론적 최적화)
광범위한 적용 분야 (제어 이론, 운용 연구, 인공지능 등)
목적은 이론과 수학, 알고리즘과 응용 등으로 다양하다. 강의의 초점은 이론이나 모델링 보다는 대부분 알고리즘에 있다.

방향성

대학원 수준의 전공 주제에 대한 최신 기술
동적 계획법의 이중의 저주인 차원과 모델링을 다루기 위해 근사와 시뮬레이션을 어떻게 사용 할 것인가

6개의 계획

무한-지평면 문제와 대규모 연산 기법의 주제에 강조한 동적 계획법 (Lec.1~2)
대규모 문제를 위한 근사와 시뮬레이션의 일반적인 주제들
Temporal difference(TD)/projected equations/Galekin approximation에 기반한 근사적 정책 반복
aggregation 기법
Q-learning과 정책 공간에서의 근사와 같은 다른 기법들

강의별 목차

Lec.1 : 동적 계획법 문제의 성질 : 유/무한 지평면 문제

동적 계획법과 근사적 동적 계획법의 소개
유한-지평면 문제
유한-지평면 문제를 위한 동적 계획법 알고리즘
무한-지평면 문제
할인된 무한-지평면 문제의 기초 이론

Lec.2 :

할인된 문제 이론의 복습
축약 표기의 복습
할인된 동적 계획법을 위한 알고리즘
가치 반복
정책 반복의 다양한 형태
최적화된 정책 반복
Q-factor와 Q-learning
다른 동적 계획법 모델 - 연속 공간과 연속 시간
동적 계획법의 더 추상적인 관점
비동기적 알고리즘들

Lec.3

할인된 동적 계획법의 복습
근사적 동적 계획법의 소개
근사 아키텍쳐
시뮬레이션-기반 근사적 정책 반복 Approximate Policy Iteration
근사적 정책 평가
근사와 시뮬레이션의 일반적인 주제들

Lec.4 : 근사적 정책 반복 기법들

가치 공간에서의 근사의 복습
근사적 가치 반복과 정책 반복
사영한 벨만 방정식
사영한 방정식의 행렬 형태
시뮬레이션-기반 시행
LSTD와 LSPE 기법
최적화된 버전
다단 스텝의 사영한 벨만 방정식
편향-분산의 등가교환관계

Lec.5 : 근사적 정책 반복의 대안 - Aggregation 기법

사영한 벨만 방정식 기반 근사적 정책 반복 Approximate PI의 복습
정책 향상의 주제
- 정책 평가에서의 탐험 향상
- 근사적 정책 반복의 진동
Aggregation - 사영한 방정식에서의 대안/Galerkin 접근법
Aggregation 예제
시뮬레이션-기반 aggregation
aggregation과 사영한 방정식 간의 관계

Lec.6 : Q-learning과 다른 기법들

Q-factor과 Q-factor에 대한 벨만 방정식의 복습
Q-factor의 가치 반복 VI과 정책 반복 PI
Q-learning - 가치 반복 VI와 표본화의 결합
Q-learning과 비용함수 근사
적응 동적 계획법
정책 공간에서의 근사
추가 주제들

728x90

'RL' 카테고리의 다른 글

Dimitri의 2014 ADP - Lec.4 (0)	2020.09.17
Dimitri의 2014 ADP - Lec.3 (0)	2020.09.05
Dimitri의 2014 ADP - Lec.2 (2)	2020.08.22
Dimitri의 2014 ADP - Lec.1 (0)	2020.08.16
[RL] Lec.4 Model-Free Prediction 강의 정리 (0)	2020.02.06

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바