AI 이론과 개발의 혼재/Theory7 Reinforcement Learning(강화학습) 개념 이해하기 (2) MDPs Reinforcement Learning problem as a 'Markov Decision Process (MDP)' * Example : Goal : 쓰레기통아,, 쓰레기를 최대한 많이 치워줘 !Condition : 쓰레기통의 밧데리가 한정되어 있다. 그러나 중간에 DOCKING STATION에서 Charging 가능!Question : 밧데리가 별로 없을때 주변에 쓰레기와 DOCKING STATION이 주어진 상황에서 쓰레기를 먼저 주울까? 아니면 밧데리를 충전하러 가는게 좋을까? Definition :- Action (A) : 쓰레기통이 행할 수 있는 모든 액션 (Action Space) 1) 쓰레기를 찾는다. (=줍는다). 2) 밧데리를 충전한다. 3)대기한다. - States (S) : 주어.. 2019. 1. 9. Reinforcement Learning(강화학습) 개념 이해하기 (1) Reinforcement Learning - 박석 * UDACITY에서 제공하는 강화학습 자료 : https://github.com/udacity/deep-reinforcement-learning * Reinforcement BOOK (like bible)..ㅎ_ㅎ (pdf download)http://incompleteideas.net/book/the-book.html시작하기에 앞서 notation에 대한 정보는 위 git에서 cheatsheet 를 참고하자. *Applications - AlphaGo Zero (AlphaGo Zero win.) AlphaGo는 기보를 직접 학습해서 만들어진 Supervised Learning. AlphaGo Zero는 only Reinforcement Learning.. 2019. 1. 9. Confusion Matrix (혼동행렬) - Precision, Recall, Accuracy 'Confusion matrix (혼동행렬)' confusion matrix는 'contingency table' or 'an error matrix'라고도 표현되는데, 이는 주로 알고리즘의 성능을 평가할 때, 평가하는 지표로 많이 사용된다. 생김새는 아래와 같이 생겼다. 'confusion matrix'에서 'True/False'는 실제 값이 1이냐 0이냐를 맞췄는지를 나타냄 즉, 'True'는 실제와 예측이 일치하는경우 이며, 'False'는 실제와 예측이 불일치하는 경우를 말함'Positive/Negative'는 예측한 값이 1이냐 0이냐를 의미함 TP의 경우 1라고 예측했는데, 실제로도 1인 경우 (정답)TN의 경우 0라고 예측했고, 실제값 또한 0인 경우 (정답) FP의 경우 1라고 예측했으나,.. 2018. 8. 20. 이전 1 2 다음