반응형
본 글은 Dimitri P. Bertsekas가 2014년 칭화대에서 강의한 Approximate Dynamic Programming의 강의자료를 공부하며 적는 글입니다.
web.mit.edu/dimitrib/www/publ.html
전체 강의 자료는 아래에서 다운로드 받을 수 있습니다. There is a complete lecture slide.
Dimitri Bertsekas - Approximate Dynamic Programming(2014)
web.mit.edu/dimitrib/www/ADP_Slides_Tsinghua_Complete.pdf
해당 강의는 아래 유튜브 채널에서 만나볼 수 있습니다.
www.youtube.com/channel/UCToelS8rQMz5hOBZqdgfAjQ/featured
강의의 개요
목적
- 근사 기반과 시뮬레이션의 일부의 대-규모의 동적 계획법
- 불확실성 하의 동적 시스템의 제어를 다루지만 더 광범위하게 적용한다 (ex>이산 결정론적 최적화)
- 광범위한 적용 분야 (제어 이론, 운용 연구, 인공지능 등)
- 목적은 이론과 수학, 알고리즘과 응용 등으로 다양하다. 강의의 초점은 이론이나 모델링 보다는 대부분 알고리즘에 있다.
방향성
- 대학원 수준의 전공 주제에 대한 최신 기술
- 동적 계획법의 이중의 저주인 차원과 모델링을 다루기 위해 근사와 시뮬레이션을 어떻게 사용 할 것인가
6개의 계획
- 무한-지평면 문제와 대규모 연산 기법의 주제에 강조한 동적 계획법 (Lec.1~2)
- 대규모 문제를 위한 근사와 시뮬레이션의 일반적인 주제들
- Temporal difference(TD)/projected equations/Galekin approximation에 기반한 근사적 정책 반복
- aggregation 기법
- Q-learning과 정책 공간에서의 근사와 같은 다른 기법들
강의별 목차
Lec.1 : 동적 계획법 문제의 성질 : 유/무한 지평면 문제
- 동적 계획법과 근사적 동적 계획법의 소개
- 유한-지평면 문제
- 유한-지평면 문제를 위한 동적 계획법 알고리즘
- 무한-지평면 문제
- 할인된 무한-지평면 문제의 기초 이론
Lec.2 :
- 할인된 문제 이론의 복습
- 축약 표기의 복습
- 할인된 동적 계획법을 위한 알고리즘
- 가치 반복
- 정책 반복의 다양한 형태
- 최적화된 정책 반복
- Q-factor와 Q-learning
- 다른 동적 계획법 모델 - 연속 공간과 연속 시간
- 동적 계획법의 더 추상적인 관점
- 비동기적 알고리즘들
Lec.3
- 할인된 동적 계획법의 복습
- 근사적 동적 계획법의 소개
- 근사 아키텍쳐
- 시뮬레이션-기반 근사적 정책 반복 Approximate Policy Iteration
- 근사적 정책 평가
- 근사와 시뮬레이션의 일반적인 주제들
Lec.4 : 근사적 정책 반복 기법들
- 가치 공간에서의 근사의 복습
- 근사적 가치 반복과 정책 반복
- 사영한 벨만 방정식
- 사영한 방정식의 행렬 형태
- 시뮬레이션-기반 시행
- LSTD와 LSPE 기법
- 최적화된 버전
- 다단 스텝의 사영한 벨만 방정식
- 편향-분산의 등가교환관계
Lec.5 : 근사적 정책 반복의 대안 - Aggregation 기법
- 사영한 벨만 방정식 기반 근사적 정책 반복 Approximate PI의 복습
- 정책 향상의 주제
- 정책 평가에서의 탐험 향상
- 근사적 정책 반복의 진동
- Aggregation - 사영한 방정식에서의 대안/Galerkin 접근법
- Aggregation 예제
- 시뮬레이션-기반 aggregation
- aggregation과 사영한 방정식 간의 관계
Lec.6 : Q-learning과 다른 기법들
- Q-factor과 Q-factor에 대한 벨만 방정식의 복습
- Q-factor의 가치 반복 VI과 정책 반복 PI
- Q-learning - 가치 반복 VI와 표본화의 결합
- Q-learning과 비용함수 근사
- 적응 동적 계획법
- 정책 공간에서의 근사
- 추가 주제들
728x90
'RL' 카테고리의 다른 글
Dimitri의 2014 ADP - Lec.4 (0) | 2020.09.17 |
---|---|
Dimitri의 2014 ADP - Lec.3 (0) | 2020.09.05 |
Dimitri의 2014 ADP - Lec.2 (2) | 2020.08.22 |
Dimitri의 2014 ADP - Lec.1 (0) | 2020.08.16 |
[RL] Lec.4 Model-Free Prediction 강의 정리 (0) | 2020.02.06 |