반응형

본 글은 Dimitri P. Bertsekas가 2014년 칭화대에서 강의한 Approximate Dynamic Programming의 강의자료를 공부하며 적는 글입니다.

web.mit.edu/dimitrib/www/publ.html

전체 강의 자료는 아래에서 다운로드 받을 수 있습니다. There is a complete lecture slide.

Dimitri Bertsekas - Approximate Dynamic Programming(2014)

web.mit.edu/dimitrib/www/ADP_Slides_Tsinghua_Complete.pdf

해당 강의는 아래 유튜브 채널에서 만나볼 수 있습니다.

www.youtube.com/channel/UCToelS8rQMz5hOBZqdgfAjQ/featured

강의의 개요

목적

  • 근사 기반과 시뮬레이션의 일부의 대-규모의 동적 계획법
  • 불확실성 하의 동적 시스템의 제어를 다루지만 더 광범위하게 적용한다 (ex>이산 결정론적 최적화)
  • 광범위한 적용 분야 (제어 이론, 운용 연구, 인공지능 등)
  • 목적은 이론과 수학, 알고리즘과 응용 등으로 다양하다. 강의의 초점은 이론이나 모델링 보다는 대부분 알고리즘에 있다.

방향성

  • 대학원 수준의 전공 주제에 대한 최신 기술
  • 동적 계획법의 이중의 저주인 차원과 모델링을 다루기 위해 근사와 시뮬레이션을 어떻게 사용 할 것인가

6개의 계획

  • 무한-지평면 문제와 대규모 연산 기법의 주제에 강조한 동적 계획법 (Lec.1~2)
  • 대규모 문제를 위한 근사와 시뮬레이션의 일반적인 주제들
  • Temporal difference(TD)/projected equations/Galekin approximation에 기반한 근사적 정책 반복
  • aggregation 기법
  • Q-learning과 정책 공간에서의 근사와 같은 다른 기법들

 

강의별 목차

Lec.1 : 동적 계획법 문제의 성질 : 유/무한 지평면 문제

  • 동적 계획법과 근사적 동적 계획법의 소개
  • 유한-지평면 문제
  • 유한-지평면 문제를 위한 동적 계획법 알고리즘
  • 무한-지평면 문제
  • 할인된 무한-지평면 문제의 기초 이론

Lec.2 : 

  • 할인된 문제 이론의 복습
  • 축약 표기의 복습
  • 할인된 동적 계획법을 위한 알고리즘
  • 가치 반복
  • 정책 반복의 다양한 형태
  • 최적화된 정책 반복
  • Q-factor와 Q-learning
  • 다른 동적 계획법 모델 - 연속 공간과 연속 시간
  • 동적 계획법의 더 추상적인 관점
  • 비동기적 알고리즘들

 

Lec.3

  • 할인된 동적 계획법의 복습
  • 근사적 동적 계획법의 소개
  • 근사 아키텍쳐
  • 시뮬레이션-기반 근사적 정책 반복 Approximate Policy Iteration
  • 근사적 정책 평가
  • 근사와 시뮬레이션의 일반적인 주제들

 

Lec.4 : 근사적 정책 반복 기법들

  • 가치 공간에서의 근사의 복습
  • 근사적 가치 반복과 정책 반복
  • 사영한 벨만 방정식
  • 사영한 방정식의 행렬 형태
  • 시뮬레이션-기반 시행
  • LSTD와 LSPE 기법
  • 최적화된 버전
  • 다단 스텝의 사영한 벨만 방정식
  • 편향-분산의 등가교환관계

 

Lec.5 : 근사적 정책 반복의 대안 - Aggregation 기법

  • 사영한 벨만 방정식 기반 근사적 정책 반복 Approximate PI의 복습
  • 정책 향상의 주제
    • 정책 평가에서의 탐험 향상
    • 근사적 정책 반복의 진동
  • Aggregation - 사영한 방정식에서의 대안/Galerkin 접근법
  • Aggregation 예제
  • 시뮬레이션-기반 aggregation
  • aggregation과 사영한 방정식 간의 관계

 

Lec.6 : Q-learning과 다른 기법들

  • Q-factor과 Q-factor에 대한 벨만 방정식의 복습
  • Q-factor의 가치 반복 VI과 정책 반복 PI
  • Q-learning - 가치 반복 VI와 표본화의 결합
  • Q-learning과 비용함수 근사
  • 적응 동적 계획법
  • 정책 공간에서의 근사
  • 추가 주제들
728x90

'RL' 카테고리의 다른 글

Dimitri의 2014 ADP - Lec.4  (0) 2020.09.17
Dimitri의 2014 ADP - Lec.3  (0) 2020.09.05
Dimitri의 2014 ADP - Lec.2  (2) 2020.08.22
Dimitri의 2014 ADP - Lec.1  (0) 2020.08.16
[RL] Lec.4 Model-Free Prediction 강의 정리  (0) 2020.02.06

+ Recent posts