반응형

근 2달여간 Pendulum 환경에서 DDPG를 해보는데 문제가 있었다.

아무리 학습을 돌려도 강화학습 모델이 좋아지지 않는 것이였다.

Pendulum 환경에서 DDPG의 한 에피소드당 누적 reward의 이동평균이 거의 -1500 ~ -1200에서 머무르는 문제였다.

 

남의 것을 돌려보면서 알았지만 이제서야 차원을 맞춰주지 않으면 돌아는 가는데

학습이 제대로 안된다는 점을 알았다.

코드 몽키같은 내 모습에 화가 난다.

후.. 

이 문제를 알고나니 DDPG와 TD3를 해볼 수 있게 되었다.

내일부터는 PPO와 SAC를 도전한다..!

 

 

21.07.28 추가

다른 코드를 돌려보니 차원을 안맞춰도 되는 것 같기도 하고...ㅠ

 

1. https://keras.io/examples/rl/ddpg_pendulum/

 

 

 

728x90

+ Recent posts