Aprendizaje por retropropagación del error

Next: Limitaciones del aprendizaje por Up: Redes multicapa Previous: Unidades ocultas

Inventado por Bryson y Ho en 1969; revisado en los 80s (Rumelhart, Hinton, Williams)
Función de activación: sigmoide. (sigue siendo no lineal)
Pasos del algoritmo (ver tambien seudocódigo)
- Se introduce una entrada en la red, y se propaga para conseguir la salida
- La salida se compara con la salida correcta (error).
- El peso de cada conexión a una unidad de salida se ajusta en la dirección adecuada (excitadora o inhibidora) y en la proporción adecuada para reducir el error. Se sigue un proceso similar para ajustar los errores de cada capa siguiente
Los tres pasos anteriores se repiten a través de un número de ciclos para diferentes patrones de entrada-salida. Normalmente en algunos cientos de ciclos el sistema converge y se obtienen los pesos adecuados
Realmente el algoritmo de retropropagación es un algoritmo de descenso de gradiente en la superficie de error en el espacio de pesos. Potencialmente tiene el problema de mínimos locales (ver figuras)
Muy importante, idea clave: el algoritmo de retropropagación es una forma de repartir el cálculo del gradiente entre las distintas unidades, de manera que el cambio en cada peso puede calcularse por la unidad a la que afecta ese peso, y usando sólo información local

Alvaro Barreiro Garcia
Wed Apr 9 20:47:24 MET DST 1997