강화 학습

행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다.

이러한 문제는 매우 포괄적이기 때문에 게임 이론, 제어이론, 운용 과학, 정보 이론, 시뮬레이션 기반 최적화, 다중 에이전트 시스템, 떼 지능, 통계학, 유전 알고리즘 등의 분야에서도 연구된다.

기존 학습과 매우 다른 종류의 알고리즘이다. 학습하는 시스템을 에이전트 라고 부르며 환경을 관찰해서 행동을 실행하고 그 결과로 보상 혹은 벌점 을 받습니다

1) 비지도 학습, wikipedia, 2022-02-01 방문, https://ko.wikipedia.org/wiki/비지도_학습

2) 오렐리앙 제롱 (Aurelien Geron), Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow 핸즈온 머신러닝 2판, 박해선, 오라일리, 한빛미디어(주)(2021년 5판), 42p