INTRODUCCIÓN AL APRENDIZAJE POR REFUERZO

Curso_Refuerzo
  • $160 + IVA (miembros)

    $180 + IVA (no miembros)

  • Moodle / ZOOM

    Online

  • 40 Horas

    Duración

  • 25 feb - 25 mar

    Fechas

  • 20h00 a 22h00

    Martes y jueves

  • Moodle / ZOOM

    Online

  • 40 Horas

    Duración

  • Cualquier información puede contactarse a nuestro correo electrónicos en el siguiente link

Información
Instructor: Mgt. Leonardo Armijos
 
Horarios: Martes y jueves de 20:00 a 22:00
 
El curso se verá compuesto de conceptos en decisión secuencial formalizados con procesos de Márkov, seguido de algunos conceptos necesarios en programación Dinámica. Posteriormente se examinará Predicción y Control Libre de Modelo, aproximaciones de la función de valor y métodos de política de gradiente. Estrategias para manejar el intercambio entre exploración y explotación. Además (sujeto a restricciones de tiempo) se culminará con pequeños conceptos introductorios al Aprendizaje por refuerzo profundo.
 
Audiencia
Para docentes/estudiantes involucrados en el área de sistemas programáticos/control, programadores junior, entusiastas del aprendizaje de máquina, personas que busquen una introducción concreta al aprendizaje por refuerzo.
 
Objetivo General
Sentar bases teóricas y programáticas que permitan al participante aplicar el Aprendizaje de Refuerzo a problemas sencillos. El curso, además, se perfila como un fundamento que lleve luego a conceptos como el Aprendizaje Profundo por Refuerzo.
 
Metodología 
• Lecciones teóricas acerca de conceptos y algoritmos

• Ejercicios numéricos simples sobre implementación algorítmica

 

Evaluación

Aplicaciones prácticas en Python

 
Requisitos Previos

• Nivel básico en programación orientada a objetos y Python

• Conocimiento previo en Aprendizaje de Máquina

• Conceptos básicos de Cadenas de Márkov

• Fundamentos en algoritmos de optimización simples como Descenso del Gradiente

• Conceptos básicos de Sistemas Retroalimentados (apreciados, pero no necesarios)

 
Características del curso
• El curso tendrá una duración de 40 horas con actividades prácticas, se requiere que cada cursante tenga acceso a un equipo propio. 

• Se proveerá material audiovisual para el aprendizaje por parte del docente.

• El cursante entregará ejecutables para la evaluación.

 
Competencias a Desarrollar

• Diferenciar el Aprendizaje por Refuerzo de otros paradigmas de Aprendizaje de Maquina

• Determinar si un problema dado puede formularse a través de Aprendizaje por Refuerzo

• Formalizar problemas en este contexto

• Identificar los algoritmos necesarios para resolver dichos problemas junto con el software para implementarlas.

 
Información extra: Se entrega certificado de aprobación por 40 Horas una vez finalizado el curso.
Contenido

Introducción y formalismo del Aprendizaje por Refuerzo 

• Aplicaciones y ejemplos a motivar

 

Bandidos Multibrazo 

• Ejemplos Numéricos

• Programacion

 

Procesos de Decisión de Márkov [MDPs] 

• Procesos de Márkov

• Procesos de Recompensa de Márkov

• Procesos de Decisión de Márkov

 

MDPs (cont.) y Ecuaciones de Bellman

 

Programación Dinámica 

 

Métodos de Monte Carlo 

 

Programación Dinámica 

 

Monte Carlo (cont.)

• Control y Predicción

• Fuera/En política

 

Monte Carlo Fuera de Política 

 

Monte Carlo, Programación 

 

Aprendizaje por Diferencias Temporales [TD] 

 

TD & Bootstrapping en n-pasos 

 

TD-Lambda y Trazas de Elegibilidad 

• Perspectivas: Hacia adelante/atrás

 

TD-Lambda y Trazas de Elegibilidad (cont.) 

 

Aproximación de la Función de Valor 

 

TD-Learning: Programación 

 

Aproximación de la Función de Valor (cont.)

• Métodos Incrementales

 

Construyendo Características Lineares 

 

Control con Funciones Aproximadas 

 

Métodos Fuera de Política con Aproximaciones 

 

Política Gradiente

• Con Baseline

• Métodos Actor-Critico

 

Introducción al Aprendizaje de Refuerzo Profundo