El aprendizaje por refuerzo (RL) consiste en enseñar a un agente informático a comportarse en un entorno diciéndole lo bien que lo hace. Es un área del aprendizaje automático inspirada en la psicología conductista.
El aprendizaje por refuerzo es diferente del aprendizaje supervisado porque nunca se muestran las entradas y salidas correctas. Además, el aprendizaje por refuerzo suele aprender sobre la marcha (aprendizaje en línea), a diferencia del aprendizaje supervisado. Esto significa que un agente tiene que elegir entre explorar o quedarse con lo que mejor conoce.
Introducción
Un sistema de aprendizaje por refuerzo se compone de una política (
π
( π ), una función de recompensa ( π
), una función de recompensa (
R
{\displaystyle R}
), una función de valor (
v
{\displaystyle v}
) y un modelo opcional del entorno.
Una política indica al agente lo que debe hacer en una situación determinada. Puede ser una simple tabla de reglas o una complicada búsqueda de la acción correcta. Las políticas pueden ser incluso estocásticas, lo que significa que, en lugar de reglas, la política asigna probabilidades a cada acción. Una política por sí misma puede hacer que un agente haga cosas, pero no puede aprender por sí sola.
Una función de recompensa define el objetivo de un agente. Toma un estado (o un estado y la acción realizada en ese estado) y devuelve un número llamado recompensa, que indica al agente lo bueno que es estar en ese estado. El trabajo del agente consiste en obtener la mayor recompensa posible a largo plazo. Si una acción produce una recompensa baja, el agente probablemente realizará una acción mejor en el futuro. La biología utiliza señales de recompensa, como el placer o el dolor, para asegurarse de que los organismos sigan vivos y se reproduzcan. Las señales de recompensa también pueden ser estocásticas, como las máquinas tragaperras de los casinos, que a veces pagan y a veces no.
Una función de valor indica a un agente cuánta recompensa obtendrá siguiendo una política
π
{\displaystyle \pi }
partiendo del estado
s
{\displaystyle s}
. Representa lo deseable que es estar en un determinado estado. Como la función de valor no se le da directamente al agente, éste tiene que adivinarla o estimarla basándose en la recompensa que ha obtenido hasta ahora. La estimación de la función de valor es la parte más importante de la mayoría de los algoritmos de aprendizaje por refuerzo.
Un modelo es la copia mental que el agente tiene del entorno. Se utiliza para planificar acciones futuras.
Sabiendo esto, podemos hablar del bucle principal de un episodio de aprendizaje por refuerzo. El agente interactúa con el entorno en pasos temporales discretos. Piénsalo como el «tic-tac» de un reloj. Con el tiempo discreto, las cosas sólo ocurren durante los «ticks» y los «tocks», y no entre ellos. En cada momento
t
=
0
,
1
,
2
,
3
,
.
.
.
{\displaystyle t=0,1,2,3,…}
el agente observa el estado del entorno
S
t
{\displaystyle S_{t}}
y elige una acción
A
t
{\displaystyle A_{t}}
basado en una política
π
{\displaystyle \pi }
. En el siguiente paso temporal, el agente recibe una señal de recompensa
R
t
+
1
{\displaystyle R_{t+1}}
y una nueva observación
S
t
+
1
{\displaystyle S_{t+1}}
. La función de valor
v
(
S
t
)
{displaystyle v(S_{t})}
se actualiza utilizando la recompensa. Esto continúa hasta que un estado terminal
S
T
{\displaystyle S_{T}}
se alcanza.