Apprendimento per rinforzo

L'apprendimento per rinforzo (o reinforcement learning) è una tecnica di apprendimento automatico che punta a realizzare agenti autonomi in grado di scegliere azioni da compiere per il conseguimento di determinati obiettivi tramite interazione con l'ambiente in cui sono immersi.

L'apprendimento per rinforzo è uno dei tre paradigmi principali dell'apprendimento automatico, insieme all'apprendimento supervisionato e a quello non supervisionato. A differenza degli altri due, questo paradigma si occupa di problemi di decisioni sequenziali, in cui l'azione da compiere dipende dallo stato attuale del sistema e ne determina quello futuro.

La qualità di un'azione è data da un valore numerico di "ricompensa", ispirata al concetto di rinforzo, che ha lo scopo di incoraggiare comportamenti corretti dell'agente. Questo tipo di apprendimento è solitamente modellizzato tramite i processi decisionali di Markov^[1] e può essere effettuato con diverse tipologie di algoritmi, classificabili in base all'utilizzo di un modello che descriva l'ambiente, alle modalità di raccolta dell'esperienza (in prima persona o da parte di terzi), al tipo di rappresentazione degli stati del sistema e delle azioni da compiere (discreti o continui).

^ Martijn van Otterlo e Marco Wiering, Reinforcement Learning and Markov Decision Processes, Springer Berlin Heidelberg, 2012, pp. 3–42, ISBN 978-3-642-27644-6. URL consultato il 20 maggio 2022.

[1] Martijn van Otterlo e Marco Wiering, Reinforcement Learning and Markov Decision Processes, Springer Berlin Heidelberg, 2012, pp. 3–42, ISBN 978-3-642-27644-6. URL consultato il 20 maggio 2022.

[1]