반응형
근 2달여간 Pendulum 환경에서 DDPG를 해보는데 문제가 있었다.
아무리 학습을 돌려도 강화학습 모델이 좋아지지 않는 것이였다.
Pendulum 환경에서 DDPG의 한 에피소드당 누적 reward의 이동평균이 거의 -1500 ~ -1200에서 머무르는 문제였다.
남의 것을 돌려보면서 알았지만 이제서야 차원을 맞춰주지 않으면 돌아는 가는데
학습이 제대로 안된다는 점을 알았다.
코드 몽키같은 내 모습에 화가 난다.
후..
이 문제를 알고나니 DDPG와 TD3를 해볼 수 있게 되었다.
내일부터는 PPO와 SAC를 도전한다..!
21.07.28 추가
다른 코드를 돌려보니 차원을 안맞춰도 되는 것 같기도 하고...ㅠ
1. https://keras.io/examples/rl/ddpg_pendulum/
728x90
'RL' 카테고리의 다른 글
[PER] Prioritized Experience Replay 논문 리뷰 (0) | 2021.07.29 |
---|---|
SARSA, Q-Learning, REINFORCE, AC (0) | 2021.07.27 |
Docker with tensorflow 2.4.0 (0) | 2021.02.19 |
pytorch를 이용한 딥러닝/모두를 위한 딥러닝 (0) | 2020.11.01 |
Dimitri의 2014 ADP - Lec.4 (0) | 2020.09.17 |