Title:
1DISEÑO E IMPLEMENTACIÓN DE UN EQUIPO DE ROBOTS
AUTÓNOMOS CON DECISIONES EN TIEMPO REAL FÚTBOL
ROBÓTICO - COMPONENTE INTELIGENTE
- Carlos AmÃn Calderón Garzozi
- Rommel Patricio Carrillo Chagcha
- César Alberto Villarroel Samaniego
- Director Ph.D. Boris Xavier Vintimilla
- Facultad de IngenierÃa en Electricidad y
Computación
2Contenido
- Introducción y Objetivos.
- Motivaciones.
- Técnicas de movimiento utilizadas por el equipo
FUROEC en las competiciones de la FIRA 2002 World
Cup. - Control de movimiento de los micro-robots en la
MIROSOT. - Aprendizaje por refuerzo aplicado al fútbol
robótico. - Contribuciones.
- Futuros Trabajos.
3Contenido
- Introducción y objetivos.
4Introducción
5Objetivos
- Desarrollo del componente inteligente.
- Utilizar y reforzar técnicas y métodos
existentes. - Implementar algoritmos de orientación, definición
de trayectorias y métodos de aprendizaje. - Incursionar en diversas áreas de investigación.
6Contenido
- Introducción y objetivos.
- Motivaciones.
7Motivaciones
- Plataforma excelente para el estudio y desarrollo
de los Sistemas Multiagente. - Formar jóvenes investigadores en el campo de la
robótica, visión e inteligencia artificial. - Resolver problemas de alta complejidad.
- Pertenecer a una comunidad cientÃfica de
investigadores a nivel mundial.
8Contenido
- Introducción y objetivos.
- Motivaciones.
- Técnicas de movimiento utilizadas por el equipo
FUROEC en las competiciones de la FIRA 2002 World
Cup.
9Técnicas de movimiento utilizadas por el equipo
FUROEC
Agente
10Clasificación de los Sistemas Multiagente
- Sistemas multiagente homogéneos. -Comunicativos
y no comunicativos. - Sistemas multiagente
heterogéneos. -Comunicativos y no comunicativos.
Técnicas de movimiento utilizadas por el equipo
FUROEC
11Sistema Multiagente Homogéneo No Comunicativo
Técnicas de movimiento utilizadas por el equipo
FUROEC
12Sistema Multiagente Homogéneo Comunicativo
Técnicas de movimiento utilizadas por el equipo
FUROEC
13Sistema Multiagente Heterogéneo No Comunicativo
Técnicas de movimiento utilizadas por el equipo
FUROEC
14Sistema Multiagente Heterogéneo Comunicativo
Técnicas de movimiento utilizadas por el equipo
FUROEC
15Clasificación de Sistemas de Fútbol Robótico
Sistemas sin inteligencia Sistemas con
inteligencia
Técnicas de movimiento utilizadas por el equipo
FUROEC
16Clasificación de Sistemas de Fútbol Robótico
Técnicas de movimiento utilizadas por el equipo
FUROEC
17- Estrategia general del equipo.
Técnicas de movimiento utilizadas por el equipo
FUROEC
18- Estrategia general del equipo.
Técnicas de movimiento utilizadas por el equipo
FUROEC
19- Algoritmo básico para patear la pelota
Técnicas de movimiento utilizadas por el equipo
FUROEC
20- Algoritmo para salir de los bordes del campo
- de juego
Técnicas de movimiento utilizadas por el equipo
FUROEC
21- Algoritmo del arquero de acuerdo a la posición
- de la pelota
Técnicas de movimiento utilizadas por el equipo
FUROEC
22- Algoritmo del arquero de acuerdo a la posición
- de la pelota
Técnicas de movimiento utilizadas por el equipo
FUROEC
23- Estrategia general del equipo
Técnicas de movimiento utilizadas por el equipo
FUROEC
24- Estrategia general del equipo
Técnicas de movimiento utilizadas por el equipo
FUROEC
25Contenido
- Introducción y Objetivos.
- Motivaciones.
- Técnicas de movimiento utilizadas por el equipo
FUROEC en las competiciones de la FIRA 2002 World
Cup. - Control de movimiento de los micro-robots en la
MIROSOT.
26Control de movimiento de los micro-robots en la
MIROSOT.
27- Parámetros de ubicación del robot
Kpganancia de realimentación proporcional Kd
ganancia de realimentación derivada del tiempo
Control de movimiento de los micro-robots en la
MIROSOT.
28Método de campos potenciales para posicionamiento
y orientación del robot
- Objetivo
- Generación de campos potenciales para determinar
la posición final y evadir obstáculos en tiempo
real.
Control de movimiento de los micro-robots en la
MIROSOT.
29Control de movimiento de los micro-robots en la
MIROSOT.
- Método de campos potenciales para posicionamiento
y orientación del robot. - Implementación del campo potencial de repulsión
para evitar obstáculos.
Implementación del campo potencial de atracción
para patear la pelota.
30- Implementación del campo potencial de atracción
para patear la pelota
Campo para una posición g deseada.
Control de movimiento de los micro-robots en la
MIROSOT.
31- Implementación del campo potencial de atracción
para patear la pelota
campo para la posición deseada g.
Control de movimiento de los micro-robots en la
MIROSOT.
32- Implementación del campo potencial de atracción
para patear la pelota
Control de movimiento de los micro-robots en la
MIROSOT.
33- Implementación del campo potencial de atracción
para patear la pelota
Control de movimiento de los micro-robots en la
MIROSOT.
34Control de movimiento de los micro-robots en la
MIROSOT.
- Método de campos potenciales para posicionamiento
y orientación del robot. - Implementación del campo potencial de atracción
para patear la pelota.
Implementación del campo potencial de repulsión
para evitar obstáculos.
35- Implementación del campo potencial de repulsión
para evitar obstáculos
Generación del campo univectorial de repulsión
para evitar un obstáculo
Control de movimiento de los micro-robots en la
MIROSOT.
36- Implementación del campo potencial de repulsión
para evitar obstáculos
Zona del campo univectorial R(p) que permite
evitar un obstáculo
Control de movimiento de los micro-robots en la
MIROSOT.
37- Implementación del campo potencial de repulsión
para evitar obstáculos
Control de movimiento de los micro-robots en la
MIROSOT.
38- Implementación del campo potencial de repulsión
para evitar obstáculos
Control de movimiento de los micro-robots en la
MIROSOT.
39- Implementación del campo potencial de repulsión
para evitar obstáculos
Control de movimiento de los micro-robots en la
MIROSOT.
40Control de movimiento de los micro-robots en la
MIROSOT.
- Método de campos potenciales para posicionamiento
y orientación del robot. - Implementación del campo potencial de atracción
para patear la pelota. - Implementación del campo potencial de repulsión
para evitar obstáculos.
Función de predicción para estimar la trayectoria
de la pelota.
41- Función de predicción para estimar la trayectoria
de la pelota (1)
Control de movimiento de los micro-robots en la
MIROSOT.
42- Función de predicción para estimar la trayectoria
de la pelota (2)
Control de movimiento de los micro-robots en la
MIROSOT.
43Contenido
- Introducción y Objetivos.
- Motivaciones.
- Técnicas de movimiento utilizadas por el equipo
FUROEC en las competiciones de la FIRA 2002 World
Cup. - Control de movimiento de los micro-robots en la
MIROSOT. - Aprendizaje por refuerzo aplicado al fútbol
robótico. - Contribuciones.
- Futuros Trabajos.
44Aprendizaje por refuerzo aplicado al fútbol
robótico.
- Conceptos generales de aprendizaje por refuerzo y
aprendizaje Q. - Aplicación del aprendizaje Q modular.
45Clasificación de Aprendizaje de Maquina
- Supervisado
- Es implementado en situaciones donde es posible
percibir las entradas y salidas. - No Supervisado
- Es implementado en ambientes donde no se
tiene certeza de cuales serán las salidas. -
-
Conceptos generales de aprendizaje por refuerzo y
aprendizaje Q.
46Conceptos generales de aprendizaje por refuerzo y
aprendizaje Q
- Aprendizaje por Refuerzo
- Descripción
- Modelo de Aprendizaje por Refuerzo
- Aprendizaje Q
- Algoritmo de Aprendizaje Q
47Aprendizaje por Refuerzo
- Descripción
- Es considerado como un tipo de aprendizaje no
supervisado. - Hacer que un agente aprenda una conducta a
través de iteraciones de pruebas y errores en un
ambiente dinámico. -
- Usa las recompensas de una satisfactoria
función de agente. -
Conceptos generales de aprendizaje por refuerzo y
aprendizaje Q.
48Modelo de Aprendizaje por Refuerzo
T F. de Transiciones B Agente I F. de
Entradas R F. de Recompensas i Entrada
sensorial s Estado actual r Recompensa a Acción
Conceptos generales de aprendizaje por refuerzo y
aprendizaje Q.
49Aprendizaje Q
- Aprender una polÃtica, que para cada estado,
indique cuál es la mejor acción a ejecutar para
alcanzar un objetivo dado. - El agente aprende una función acción valor
que - para cada acción ejecutada en un estado
obtiene un valor, llamado valor Q, el cual se
guarda en la tabla Q. - El valor Q expresa la utilidad esperada al
emprender una acción en un estado determinado.
Conceptos generales de aprendizaje por refuerzo y
aprendizaje Q.
50Algoritmo de Aprendizaje Q
-
- Para cada par (s , a) inicializar la tabla Q(s,a)
a 0 , 0.02. - Observar el estado actual s.
- Repetir n veces
- Seleccionar una acción a y ejecutarla
- Recibir el refuerzo inmediato r
- Observar el nuevo estado s'
- Actualizar la entrada de la tabla, Q(s,a) con la
ecuación  -
- Asignar a s el estado s'
Conceptos generales de aprendizaje por refuerzo y
aprendizaje Q.
51Aprendizaje por refuerzo aplicado al fútbol
robótico.
- Conceptos generales de aprendizaje por refuerzo y
aprendizaje Q. - Aplicación del aprendizaje Q modular.
52Aplicación del aprendizaje Q modular
Arquitectura del aprendizaje Q Modular Región de
Conflicto. Agentes Individuales y Agentes
Acoplados Fases de Aprendizaje Individual y
Modular Estados Acciones Resultados del
Aprendizaje - fase aprendizaje individual Resultad
os del Aprendizaje - fase Q modular
53Arquitectura del aprendizaje Q Modular
Aplicación del aprendizaje Q modular
54 Región de Conflicto
Aplicación del aprendizaje Q modular
55Agentes Individuales y Agentes Acoplados
Aplicación del aprendizaje Q modular
56Fases de Aprendizaje (1)
Existen 2 fases de aprendizaje
Individual y Modular
En la fase de aprendizaje individual cada agente
explora el ambiente de trabajo para obtener
información de los estados, el jugador cambia su
acción de forma aleatoria cada vez que se
encuentra con la pelota, para actualizar de esta
manera la tabla Q con valores reales.
Aplicación del aprendizaje Q modular
57Fases de Aprendizaje (2)
Estos valores son usados por el módulo mediador
en la fase de aprendizaje modular, para
seleccionar la acción que considere más adecuada
Aplicación del aprendizaje Q modular
58 Estados (1)
Aplicación del aprendizaje Q modular
59 Estados (2)
Aplicación del aprendizaje Q modular
60Acciones
La tabla muestra la lista de acciones que el
agente acoplado puede seleccionar en la Región 1.
Por ejemplo, si la Acción 0 es seleccionada, el
robot_1 será atacante y el robot_2 será defensa.
Aplicación del aprendizaje Q modular
61Resultados del Aprendizaje -fase aprendizaje
individual
Aplicación del aprendizaje Q modular
62Resultados del Aprendizaje - fase Q modular
Aplicación del aprendizaje Q modular
63Contenido
- Introducción y Objetivos.
- Motivaciones.
- Técnicas de movimiento utilizadas por el equipo
FUROEC en las competiciones de la FIRA 2002 World
Cup. - Control de movimiento de los micro-robots en la
MIROSOT. - Aprendizaje por refuerzo aplicado al fútbol
robótico. - Contribuciones.
- Futuros Trabajos.
64Contribuciones
- Movimiento rápido del robot para patear la
pelota. - Habilidad mejorada para salir de los bordes de la
cancha. - Algoritmo optimizado para definir el
comportamiento del arquero usando estimación de
trayectorias. - Especificación de las condiciones para aplicar
campos potenciales univectoriales. - Aplicación del algoritmo de aprendizaje Q
modular. - Logros adicionales obtenidos con la ejecución de
este proyecto.
65Contenido
- Introducción y Objetivos.
- Motivaciones.
- Técnicas de movimiento utilizadas por el equipo
FUROEC en las competiciones de la FIRA 2002 World
Cup. - Control de movimiento de los micro-robots en la
MIROSOT. - Aprendizaje por refuerzo aplicado al fútbol
robótico. - Contribuciones.
- Futuros Trabajos.
66Futuros Trabajos (1)
- Aplicar campos potenciales y aprendizaje Q sobre
otro tipo de aplicaciones. - Futuras implementaciones aplicando nuevas
técnicas de Inteligencia Artificial. - Aplicar un método de aprendizaje de máquinas que
permita seleccionar el camino más óptimo usando
la técnica de campos potenciales univectoriales. - Diseñar estrategias que definan posiciones, zonas
de juego, roles de forma automática utilizando
aprendizaje del adversario.
67Futuros Trabajos (2)
- Construir otro tipo de robots móviles con la
capacidad de comunicarse entre sà y con sensores
incorporados. - Realizar trabajos en otros entornos de fútbol
robótico simulado, tales como el software del
Soccer Server de la RoboCup o el Java Soccer
Server. - Aprovechar el fútbol robótico para incentivar a
los estudiantes al estudio de disciplinas tales
como la inteligencia artificial, visión por
computadora, control automático, entre otras. - Continuar participando en las futuras
competiciones y congresos relacionados con los
sistemas multiagente a nivel mundial.
68Publicaciones
- Survey on Learning in Multi-Agent Systems.
- 2002 FIRA Robot World Congress, Seoul, Korea,
May 2002. - Libro de Intelligent Robots Vision, Learning
and Interaction, Sección Learning for Navigation
and Control, Editorial KAIST Press, año 2003. - Técnicas de movimiento utilizadas por el equipo
FUROEC en las competiciones de la FIRA 2002 World
Cup. - Espol Ciencia 2002, Octubre 2002.
- Sistemas multiagente aplicados al fútbol
robótico problemática existente. - IV Jornadas Iberoamericanas de Robótica,
Seminario 3, Panamá, 27-31 Enero, 2003. - Univector Fields for Motion Control in Mirosot
Robots. - Submitido en el 2003 FIRA Robot World
Congress, Austria. - Control de Movimiento de los Micro-Robots en
la Mirosot. -
- Revista Tecnológica (CICYT), Junio 2003,
Vol.16, No. I, Guayaquil - Ecuador.
69ESCUELA SUPERIOR POLITECNICA DEL LITORAL
Carlos AmÃn Calderón Garzozi Rommel Patricio
Carrillo Chagcha César Alberto Villarroel
Samaniego
GRACIAS