ai1 Reinforcement Learning(강화학습) 개념 이해하기 (2) MDPs Reinforcement Learning problem as a 'Markov Decision Process (MDP)' * Example : Goal : 쓰레기통아,, 쓰레기를 최대한 많이 치워줘 !Condition : 쓰레기통의 밧데리가 한정되어 있다. 그러나 중간에 DOCKING STATION에서 Charging 가능!Question : 밧데리가 별로 없을때 주변에 쓰레기와 DOCKING STATION이 주어진 상황에서 쓰레기를 먼저 주울까? 아니면 밧데리를 충전하러 가는게 좋을까? Definition :- Action (A) : 쓰레기통이 행할 수 있는 모든 액션 (Action Space) 1) 쓰레기를 찾는다. (=줍는다). 2) 밧데리를 충전한다. 3)대기한다. - States (S) : 주어.. 2019. 1. 9. 이전 1 다음