DDPG Family
DDPG는 DQN과 Actor-Critic Method를 섞은 강화학습 알고리즘이다. 이를 응용한 강화학습 알고리즘으로 TD3(Twin Delayed DDPG), SAC(Soft Actor-Critic) 알고리즘이 있다.
DDPG (Deep Deterministic Policy Gradient)
Actor-critic 구조와 DQN의 Target Q-network & Q-network 구조를 혼합한 형태.
TD3(Twin Delayed Deep Deterministic Policy Gradient)
두 개의 Critic network를 사용한다. Critic-network의 Over-estimation을 방지해보고자 Target value y를 구할 때, 두 Target Critic network의 출력인 Q 중에 작은 값을 target value 갱신에 사용한다. 그리고 target network와 actor network는 몇 스텝 간격으로 갱신한다. critic network가 매 스텝마다 갱신되는 것과는 대조적이다.
Fujimoto S., Hoof H., and Meger D., "Addressing Function Approximation Error in Actor-Critic Methods," Proc, of the 35th ICML, 2018
SAC(Soft Actor-Critic)
Experience Replay Family
Experience Replay 계열로 PER, HER 등이 있다.
DDPG with PER
Experience Replay 의 경험에 대해서 TD 오차가 크면 더 자주 방문하되 Importance-Sampling Weight를 적용하여 자주 방문하게 된 경험으로 편향되지 않도록 편향을 해소시켜준다.
경험에 대해 우선 순위를 결정하는 방법은 TD 오차에 비례하게 하는 방법인 Proprotional Prioritization이 있으며, TD 오차로 순위를 매기는 Rank-based Prioritization이 있다. 각 식은 다음과 같다.
$$p^{pro}_i = |\delta_i| + \varepsilon$$
$$p^{rank}_i = 1/\text{rank}(i) $$
이를 바탕으로 probability of sampling transition $i$는 다음과 같다.
$$P(i) = p^\alpha_i /\sum_k p^\alpha_k$$
Importance Sampling Weight은 다음과 같다.
$$w_i = \left(N\cdot P(i) \right) ^{-\beta}$$
Schaul T., Quan J., Antonoglou I., and Silver D., "Prioritized Experience Replay," Proc. of ICLR 2016,
DDPG based on Double Network PER
Double Critic Network의 사용을 통해 local optimum policy의 발생을 줄이고자 했다. 이는 Double Q-network을 넣은 TD3와 비슷한 구조이다. 이때 TD 오차는 다음과 같이 구한다.
$$\delta_t = | y_1 - Q_1 (s_t ,a_t | \theta^Q) | + | y_2 - Q_2 (s_t ,a_t | \theta^Q ) |$$
Sample Importance를 결정하는 방법은 PER와 유사하나 차이점이 있다.
저자는 PER의 향상을 위해 다음을 언급한다. 신경과학 연구자들은 설치류들이 이전 기억의 단편들을 걷거나 자거나 할 때 해마에서 되새기며, 보상과 관련된 단편은 더 자주 되새긴다고 밝혔다. 그래서 TD 오차가 적더라도 일시적 보상이 크다면 에이전트의 학습에 효과적일 것이다. 그러나 일시적 보상은 에이전트가 상호작용할 때만 얻을 수 있기 때문에 샘플링하기는 어렵다. 이게 TD 오차와 일시적 보상 값 간의 차이이다. 그래서 Sample Importance를 두 개의 TD 오차와 상호작용을 통해 얻은 보상의 합으로 구성한다. PER의 Proportional Prioritization 계열이다.
$$p =\delta_t + r + \varepsilon= | y_1 - Q_1 (s_t ,a_t | \theta^Q) | + | y_2 - Q_2 (s_t ,a_t | \theta^Q ) | + r + \varepsilon$$
Kang C., Rong C., Ren W., Hou F., and Liu P., "Deep Deterministic Policy Gradient Based on Double Network Prioritized Experience Replay," 2021, https://doi.org/10.1109/ACCESS.2021.3074535
사족 >>> 내가 보기엔 TD3 변형 + PER인데..
MC-DDPG (Multi-Critic DDPG)
Multi-Critic DDPG(MCDDPG)와 Double Experience Replay(DER)을 적용한 논문으로, 여러 개의 critic-network의 state-action value function의 추정의 평균을 사용함으로써, 하나의 critic 성능이 안 좋을 경우에 평균으로 나쁜 영향을 줄여줄 목적이다.
Prioritized Experience Replay (PER)가 TD 오차가 큰 경험을 더 자주 선택함으로써 학습과정을 가속하고자 한다. DER은 이와 유사하게 두 개의 버퍼 $B_1 ,B_2 $를 두고 매우 성공적인 경험 혹은 큰 TD 오차를 가진 경험은 두 버퍼에 저장하고 그렇지 않은 경험은 $B_1$ 버퍼에 저장한다. 그래서 배치 샘플링 할 때, 무작위로 $B_1$에서 뽑고 $B_2$에서는 더 적은 양을 뽑는데 배치 크기의 10%로 뽑는다.
Wu J., Wang R., Li R., Zhang H, and Hu X., "Multi-Critic DDPG Method and Double Experience Replay," 2018 IEEE SMC, 2018, https://doi.org/10.1109/SMC.2018.00039
'RL' 카테고리의 다른 글
[HER] Hindsight Experience Replay 논문 리뷰 및 정리 <작성중> (0) | 2021.08.22 |
---|---|
CNN 관련 참고 사이트 정리 (0) | 2021.08.18 |
[PER] Prioritized Experience Replay 논문 리뷰 (0) | 2021.07.29 |
SARSA, Q-Learning, REINFORCE, AC (0) | 2021.07.27 |
학습은 차원을 맞춰야한다. (0) | 2021.07.27 |