목록강화학습 (2)
안 쓰던 블로그
이전 글: 다중 슬롯머신 문제 with Epsilon-Greedy https://foxtrotin.tistory.com/501 다중 슬롯머신 문제 (Multi-Amred Bandits, MAB) with Epsilon-Greedy 다중 슬롯머신 문제 (Multi-Amred Bandits, MAB) 여러 개의 팔을 가진 슬롯머신이 있다. 슬롯머신의 팔마다 코인이 나오는 확률은 정해져 있지만, 확률값은 미리 알 수 없다. 제한된 횟수 안에서 가장 많 foxtrotin.tistory.com 다중 슬롯머신 문제란, 어떤 슬롯머신의 팔을 당겨야 가장 많은 돈을 벌 것인지에 대해 찾는 문제이다. 문제 해결을 위해서는 탐색과 이용의 균형을 적절하게 맞추는 것이 중요하다. 이전 글에서는 입실론 그리디 방법을 사용해 보..
다중 슬롯머신 문제 (Multi-Amred Bandits, MAB) 여러 개의 팔을 가진 슬롯머신이 있다. 슬롯머신의 팔마다 코인이 나오는 확률은 정해져 있지만, 확률값은 미리 알 수 없다. 제한된 횟수 안에서 가장 많은 코인을 얻으려면 어떤 순서로 팔을 선택해야 할까? 어떤 슬롯머신의 팔을 당겨야 가장 많은 돈을 벌 것인지에 대한 문제를 푸는 다중 슬롯머신 문제는 강화 학습의 예시로 흔히 알려져 있다. 이 글에서는 Epsilon-Greedy 입실론 그리디 학습 방법으로 이 문제를 해결해 본다. '알파제로를 분석하며 배우는 인공지능' 책을 참고한 글임을 밝힌다. 강화 학습 사이클 다중 슬롯머신 문제의 목적은 '코인은 많이 얻는다'이고, 행동은 '어떤 팔을 선택하는가?', 보상은 '코인이 나오면 +1'이다..