반응형
Notice
Recent Posts
Recent Comments
Link
목록E-Greedy (1)
안 쓰던 블로그
다중 슬롯머신 문제 (Multi-Amred Bandits, MAB) with Epsilon-Greedy
다중 슬롯머신 문제 (Multi-Amred Bandits, MAB) 여러 개의 팔을 가진 슬롯머신이 있다. 슬롯머신의 팔마다 코인이 나오는 확률은 정해져 있지만, 확률값은 미리 알 수 없다. 제한된 횟수 안에서 가장 많은 코인을 얻으려면 어떤 순서로 팔을 선택해야 할까? 어떤 슬롯머신의 팔을 당겨야 가장 많은 돈을 벌 것인지에 대한 문제를 푸는 다중 슬롯머신 문제는 강화 학습의 예시로 흔히 알려져 있다. 이 글에서는 Epsilon-Greedy 입실론 그리디 학습 방법으로 이 문제를 해결해 본다. '알파제로를 분석하며 배우는 인공지능' 책을 참고한 글임을 밝힌다. 강화 학습 사이클 다중 슬롯머신 문제의 목적은 '코인은 많이 얻는다'이고, 행동은 '어떤 팔을 선택하는가?', 보상은 '코인이 나오면 +1'이다..
머신러닝/머신러닝
2021. 6. 24. 15:13