보상을 최적화하기 위한 학습 관측(에이전트) → 행동(환경) → 보상 에이전트의 목적은 보상의 장기간 기대치를 최대화하는 행동을 학습 강화 학습 사례 정책 탐색 정책: 소프트웨어 에이전트가 행동을 결정하기 위해 사용하는 알고리즘 확률적 정책 30분 동안 수집한 먼지의 양을 보상으로 받는 로봇 진공청소기 로봇 훈련을 위해 변경이 가능한 두 개의 정책 파라미터(직진, 회전) 확률 p, 각도의 범위 r 전진확률 p, 회전확률 1-p 회전각도 마이너스 r < angle < 플러스 r 사이 랜덤값 이 정책에는 무작위성이 포함되어 있기 때문에 확률적 정책 그 중에 가장 좋은 정책 선택 문제는? 모래사장에서 바늘 찾기! 유전 알고리즘 1세대 정책 100개를 랜덤하게 생성해서 시도 성능이 낮은 정책 80개는 버리고 2..