학습은 차원을 맞춰야한다.

2021. 7. 27. 01:28

근 2달여간 Pendulum 환경에서 DDPG를 해보는데 문제가 있었다.

아무리 학습을 돌려도 강화학습 모델이 좋아지지 않는 것이였다.

Pendulum 환경에서 DDPG의 한 에피소드당 누적 reward의 이동평균이 거의 -1500 ~ -1200에서 머무르는 문제였다.

남의 것을 돌려보면서 알았지만 이제서야 차원을 맞춰주지 않으면 돌아는 가는데

학습이 제대로 안된다는 점을 알았다.

코드 몽키같은 내 모습에 화가 난다.

후..

이 문제를 알고나니 DDPG와 TD3를 해볼 수 있게 되었다.

내일부터는 PPO와 SAC를 도전한다..!

21.07.28 추가

다른 코드를 돌려보니 차원을 안맞춰도 되는 것 같기도 하고...ㅠ

728x90

[PER] Prioritized Experience Replay 논문 리뷰 (0)	2021.07.29
SARSA, Q-Learning, REINFORCE, AC (0)	2021.07.27
Docker with tensorflow 2.4.0 (0)	2021.02.19
pytorch를 이용한 딥러닝/모두를 위한 딥러닝 (0)	2020.11.01
Dimitri의 2014 ADP - Lec.4 (0)	2020.09.17

CtrlMan