본문 바로가기
AI 이론과 개발의 혼재/Theory

Reinforcement Learning(강화학습) 개념 이해하기 (1)

by ministar 2019. 1. 9.


Reinforcement Learning - 박석 


* UDACITY에서 제공하는 강화학습 자료 : 

https://github.com/udacity/deep-reinforcement-learning


* Reinforcement BOOK (like bible)..ㅎ_ㅎ (pdf download)

http://incompleteideas.net/book/the-book.html

시작하기에 앞서 notation에 대한 정보는 위 git에서 cheatsheet 를 참고하자.


*Applications 

- AlphaGo Zero  (AlphaGo Zero win.)

  AlphaGo는 기보를 직접 학습해서 만들어진 Supervised Learning. 

  AlphaGo Zero는 only Reinforcement Learning으로 만들어짐. 

- Self Driving Car

- Open AI's bot ,etc. 


* Simple Example 

강아지 훈련시키기를 가정했을때, '앉아' 라는 명령에 강아지가 '앉거나' or '못알아듣거나'

 - 강아지 = Agent

 - 주변상황 = State (주인이 앉으라고 시킴)

 - 강아지의 행동 = Action 

 - 제대로 행동했을때의 보상  Reward 

 - 틀렸을때에 대한 f/b = punishment 


어떠한 State가 주어졌을 때 어떻게 행동해야 할지에 대한 딜레마 

Exploration-Exploitation Dilemma

 - Exploration : Exploring potential hypotheses for how to choose actions

 - Exploitation : Exploiting limited Knowledge about what is already known should work well



* Simple problem 



어떠한 상황이 주어지게 되면 state   Agent는 현 상황을 관찰하여 Action At를 취하게 된다. 

그럼 그 액션에 대한 결과로 Reward Rt가 주어지게 되고 이러한 상황이 계속 반복되는 것이다. 


이때 주어진 State에 대해 Agent는 모든 상황을 파악하진 못하고. (아는만큼 보인다는 말로 표현할 수 있겠다..ㅎㅎ)

Agent가 파악한 모든 Environment의 일부인 subset을 Observation이라고 한다. 이것을 앞으로는 state의 일부라고 생각하면 된다.


. Observation = a situation that the environment presents to the agent.


To be easier.. Observation을 그냥 state라고 표현하자 :) 



The Goal of the Agent : Maximize expected cumulative reward!

어떻게 하면 강아지가 간식을 많이 받을 수 있을까를 목표로 주인님의 말의 뜻을 학습한다! ㅎ_ㅎ 



* Reinforcement Learning Task의 종류 에는 Episodic Task가 있고, Continuing Task가 있다. 

Episodic Task는 일정 시간이 지나면 종료시점이 존재하고

Continuing Task는 종료시점 없이 f...o..r...e..v..e...r.. 



* 대표적인 Example  : 장애물을 넘어지지 않고 넘어서 달려라

Q. 이럴때 Reward는 어떻게 주면 좋을까? 



1. 무조건 빨리가는것은 좋지 않아. 만약에 틀렸을 경우 빠른 f/b이 힘들어질 수가 있기때문에 (Vx 앞으로 가는 방향)

2. Vy, Vz에 대한것은 최대한 앞으로 가는 방향으로 가도록 방향의 direction에 대한 reward

3.

4. torques가 높으면 부자연스러운 움직임을 갖게 되기 때문에 torques에 대한 penalize를 주었음 

5. 가능한 많이 걷도록, 저 constant가 없을 경우에는 넘어져도 상관없다고 인식될 수 있겠죵?

 


Q. 미래의 Reward에 대한 계산 ? 






댓글