반응형

본 글은 Sutton과 Barto의 Reinforcement Learning : An Introduction의 일부(265~269p)를 발췌하여 번역하고 정리한 글입니다.

DDPG, TD3, SAC 등 Actor-Critic method를 사용하는 강화학습 구조를 공부하는데 도움이 될 것입니다.


Policy Gradient Method
SARSA, Q-Learning과 같은 앞선 방법들은 State-Action value estimator(이하 Value function) $Q(s,a)$를 바탕으로 Action-value의 추정 값이 최대가 되는 action을 뽑았다. 그러나 Policy gradient method는 policy를 어떤 매개변수의 함수로 두어 학습시키고, Value function와는 독립적으로 action을 선택할 수 있도록 한다. 물론 Value function)는 행동 정책의 매개변수를 학습시키는데 사용되지만 action의 선택에는 불필요하다. 행동 정책(policy)의 매개변수를 $\theta \in \mathbb{R}^n$ 라고 하면 행동 정책은 다음과 같이 표현한다. 이는 시간 $t$에서 상태 $s$일 때 행동 $a$를 뽑을 확률을 나타낸다.
$$\pi (a|s , \theta) = P\left[A_t =a | S_t =s , \theta_t = \theta \right]$$
 물론 이 방법이 Value function에도 사용된다면, value function의 매개변수를 $w \in \mathbb{R}^m$이라 하면 value function은 $\hat{v} (s, w)$ 이다.
 여기서 정책 매개변수를 학습하는 방법으로, 정책 매개변수에 대한 함수로 성능 지표(Performance measure) $J(\theta)$를 정의한다면 성능 지표를 최대화 하는 기울기(Gradient) 방향으로 학습시키는 방법을 상정해보자.
$$\theta_{t+1} = \theta_t + \alpha \hat{\nabla J(\theta_t) }$$
$\hat{\nabla J(\theta_t) }$는 stochastic estimate으로, 이 기댓값은 매개변수 $\theta$에 대한 성능 지표의 기울기를 근사한다. Value function을 근사하던 말던, 정책 함수를 갱신하는 이러한 구조(schema)를 따르는 방법을 policy gradient method라고 한다.

 

Policy Approximation and its Advantages

 action space가 discretet하고 그리 크지 않다면, 매개변수화하는 자연스러운 방법은 state-action 쌍에서 매개변수화한 값의 선호도(Preference) $h(s,a,\theta)$를 산출하는 형태이다. 각 state에서의 가장 높은 선호도를 가지는 action은 선택될 확률이 가장 높다. 예를 들면 exponential softmax distribution에 따라서 정책 함수를 구성하는 방법이다.

$$\pi (a| s , \theta) = \frac{\text{exp}\left(h(s,a,\theta) \right) }{\sum_b \text{exp} \left( h(s,b,\theta)\right)}$$

 이러한 선호도 산출 방식은 그 자체로 임의적으로 매개변수화할 수 있다. 예를 들면 AlphaGo 시스템과 같이, 네트워크의 모든 연결 가중치 벡터 $\theta$를 심층 신경망으로부터 학습될 수도 있다. 또는 선호도를 feature에 선형적으로 적용할 수도 있다.

$$h(s,a,\theta) = \theta^T x(s,a)$$

여기서 feature vector $x(s,a)\in \mathbb{R}^l$은 특징을 추출하는 방법들로부터 계산한다.

 위와 같이, action 선호도 산출에서 softmax에 따른 action 선택 방식의 즉각적인 이점은 근사 정책을 deterministic policy으로 보고 접근할 수 있다. 이는 $\epsilon$-greedy action selection은 $\epsilon$의 확률로 무작위 action을 선택해야하는 것과는 대조적이다. 물론 무작위적인 action은 softmax를 통한 action 선택에 따라 결정 될 순 있으나, 이것만으로는 정책이 deterministic policy에 접근하도록 하진 않는다. 대신, action-value estimates는 이에 상응하는 참 값으로 수렴한다. 이는 특정 확률이 1 또는 0으로 수렴한다고 달리 말할 수 있다. 만약 softmax가 temperature 변수를 포함한다면, temperature는 시간이 지남에 따라서 감소하며 determinism으로 접근한다.

 

 

Policy Gradient Theorem

 

Reference

[1] Sutton, R, S., and Barto, A, S, Reinforcement Learning : An Introduction, 2nd ed., The MIT Press, Nov. 5, 2017.

728x90

+ Recent posts