본문 바로가기
AI 이론과 개발의 혼재/Theory

Reinforcement Learning(강화학습) 개념 이해하기 (2) MDPs

by ministar 2019. 1. 9.


Reinforcement Learning problem 

as a 'Markov Decision Process (MDP)'


* Example : 

Goal : 쓰레기통아,, 쓰레기를 최대한 많이 치워줘 !

Condition : 쓰레기통의 밧데리가 한정되어 있다. 그러나 중간에 DOCKING STATION에서 Charging 가능!

Question : 밧데리가 별로 없을때 주변에 쓰레기와 DOCKING STATION이 주어진 상황에서 쓰레기를 먼저 주울까? 

아니면 밧데리를 충전하러 가는게 좋을까?



Definition :

- Action (A) : 쓰레기통이 행할 수 있는 모든 액션 (Action Space) 

  1) 쓰레기를 찾는다. (=줍는다).    2) 밧데리를 충전한다.     3)대기한다.


- States (S) : 주어질 수 있는 모든 상황(State space), 쓰레기통의 배터리에 따라 행동하다보니 아마도 State는 밧데리와 관련있다고 생각해볼 수 있다.

  1) high (밧데리가 충분함).    2) low (충전이 필요함)



가능한 것에 대한 transition diagram을 그려보면 아래와 같다. 

Hidden Markov Model 공부할때랑 비슷한 모양이,, ^_^;; 

원은 States를 나타내고 각 transition에서 적혀있는 파란색 숫자는 그 action을 취하게 될 probability를 나타낸다. 





스스로 maximized reward를 받기 위해서 어떻게 풀어나가는지 보면 다음과 같다.



1) Policies  : 정책

정책이라 함은 그냥 내가 정해놓은 규칙같은 거다. 

위를 예로 들면, 배터리가 high일때 쓰레기를 줍는다 (keep working) 

배터리가 row일때 얼마 이하이면 recharging 한다. 

이 쓰레기 줍는 기계가 올바르게 행동하기 위한 정책 같은 것을 여기서 policy라고 말한다. 

policy는 크게 2가지 종류의 policy가 존재하는데 1) deterministic policy, 2)stochastic policy 이다. 

Policy는 Deterministic의 경우에는 State만 가지고 판단하지만

Stochastic의 경우에는 밧데리의 상황 s 에 기계가 어떻게 행동할지 a 에 대한 확률로 표현한다.



딱 봐도.. Deterministic 보다는 Stochastic Policy가 좀 더 sensitive 하게 잘할것 같죠..?ㅎ_ㅎ;



예 ) 

. Deterministic Policy : 

if the battery level is low, the agent chooses to recharge the battery.

if the battery level is high, the agent chooses to search for cans.

. Stochastic policy : 

밧데리가 별로 없을 때 충전을 하러 갈 확률 = 0.5




Stochastic Policy를 수식으로 표현하면 아래와 같다.


댓글