Title: Redes de neuronas de Funcin de Base Radial RBF
1Redes de neuronas de Función de Base Radial (RBF)
Rubén García PajaresÓliver Centeno
ÁlvarezAntonio J.Rivero Cambeiro
2Índice
- Introducción
- Topología
- Modelo completo de una RBF
- Aprendizaje
- Agrupamiento
- Entrenamiento Capa Oculta
- Ajuste de anchuras en Capa Oculta
- Entrenamiento de Capa Salida
- Otras estrategias de Aprendizaje
- Centros Fijos Seleccionados Aleatoriamente.
- Ajuste Supervisado de Centros
- Ajuste Dinámico por Descomposición
- Aplicaciones de las RBF
3Introducción
- RBF Radial Basis Functions
- Un modelo más de Red de Neuronas
- Gran número de aplicaciones prácticas
- Aproximación de funciones
- Clasificador multidimensional
-
- Son una solución de actualidad
- Reciente descubrimiento
- Actualmente muy usada
- En constante investigación
4Topología (I)
- Red con una arquitectura perfectamente definida.
- Red Feed Forward
- Conexión total capa a capa entre todos los
Elementos de Proceso - Se caracteriza por tener tres capas
- Capa de entrada
- Capa oculta o central
- Capa de salida
- Entrenamiento híbrido El entrenamiento se
realiza capa a capa (algoritmos más usuales) - También existen métodos de entrenamiento global
(todas las capas a la vez) ? Menos utilizados
5Topología (II)
- Esquema básico de la topología
xi
hj
yk
. . .
. .
. .
6Topología (III)
- Diferencia fundamental con MLP
- MLP en su capa oculta calcular la suma ponderada
de las entradas y aplicar una sigmoide - RBF en su capa oculta o central las neuronas
calculan la distancia euclídea entre el vector de
pesos y la entrada y sobre esa distancia se
aplica una función de tipo radial con forma
gaussiana. - Entrenamiento en RBF es híbrido (capa a capa),
mientras que en MLP se entrenan todas las capas a
la vez
7Topología (IV)
- Capa de entrada
- Conjunto de neuronas que conectan la red de
neuronas con entorno - Recoge datos entrada y se los pasa a la capa
oculta - No procesa, solo pasa información
- Datos de entrada se representan como
- x1 ,x2 ,., xn
- xi Dato de entrada recogido por cada neurona de
la capa
8Topología (V)
- Capa central u oculta
- Almacena centroide (denominación del vector de
pesos) - Realiza procesamiento
- Calcula la distancia entre vector de entrada y el
vector del centroide - Al resultado se le aplica una función de base
radial (forma gaussiana) - Criterio de activación Si el vector entrada y
centroide aparecen próximos en el espacio de
entradas
9Topología (VI)
- Capa de salida
- Recogen salidas de todos los elementos de proceso
de la capa oculta - Calcula la suma ponderada de las salidas que
proporciona la capa oculta - Aplica alguna función de activación definida
(necesidades de la red).
10Modelo completo de una RBF (I)
- Elementos
- Vectores de entrada
- x1 ,x2 ,., xNe Ne Nº neuronas capa entrada
- Vectores con salida capa oculta
- h1,h2,.,hNc Nc Nº neuronas capa oculta
- Vectores de salida
- y1,y2,.,yNs Ns Nº neuronas capa salida
- Vector centroide
- cj1,cj2,.,cjNe Ne Nº neuronas capa entrada
11Modelo completo de una RBF (II)
- Funciones usadas en las neuronas de la capa
oculta - Distancia euclídea
- Funciones de activación
- Gaussiana
- Multicuadrática inversa
- Función de Cauchy
-
- Las funciones activación sirven para obtener el
resultado hj de la neurona oculta j
12Modelo completo de una RBF (III)
- Parámetros utilizados en función activación
- Distancia euclídea calculada antes r
- - Cuando r es muy grande la activación tiende a
0 - - Si r es 0 se produce el máximo de
activación - Parámetro de Normalización
- - Nos de la anchura de la función (Radio).
- - Es como la capa de influencia de la neurona.
- La salida de la neurona j de la capa oculta es
13Modelo completo de una RBF (IV)
- Descripción geométrica del modelo en la capa
oculta
14Modelo completo de una RBF (V)
- Las salidas de la capa oculta van a todas las
neuronas de la capa salida. - Función de neuronas capa salida
- Se calcula suma ponderada
- Se aplica una función de activación
- Salida de neuronas viene dada
- peso sináptico wij
- umbral ?k
- salida capa oculta hj
- función de activacion Fk
15Modelo completo de una RBF (VI)
- Función de activación capa de salida La
- Puede ser lineal o sigmoidea
-
16Aprendizaje
- Caracterizado por ser un aprendizaje por etapas
(híbrido). - Se entrena la capa oculta y luego la de salida
- Los métodos (algoritmos) deben determinar
- Número de neuronas de la capa oculta
- Selección de centros (pesos) de la capa oculta
- Ajuste de anchuras de la capa oculta
- Entrenamiento de la capa de salida
- Dos grandes familias de métodos
- Agrupamiento (clustering)
- Otros enfoques DDA,
17Agrupamiento (I)
- Se suele denominar Auto-organización de Centros
- Funcionamiento básico Localizar los M centros en
los puntos mas representativos de la señal de
entrada. - Etapas
- Selección de número de nodos ocultos
- Cada nodo debe cubrir una parte del espacio de
entrada intentar minimizar el número de nodos
que cumplan con esta condición. - Espacios de entrada tienen muchas variables Esto
implica que se necesiten muchos nodos en la capa
oculta. Lo que puede dar Sobreajuste. - Establecer compromiso Fijar número de nodos de
capa oculta que responda de forma equilibrada a
las anteriores condiciones. - Selección de Centros de la Capa Oculta K-medias
18Entrenamiento Capa Oculta
- Algoritmo k-medias
- Ajustar los centroides para que se produzca
recubrimiento. - Se itera hasta que los centroides no cambien
mucho (criterio prefijado). - Inicialización de centroides.
- Se reparten los patrones de aprendizaje entre las
k neuronas (neurona ganadora o distancia euclídea
menor). - El nuevo centro se calcula como promedio de los
patrones seleccionados.
19Entrenamiento Capa Oculta
- Características del algoritmo k-medias
- Converge rápidamente
- Condición de parada
- Permite inicializar los centroides por varios
criterios - Los k-primeros patrones distintos se inicializan
como los k centroides. - Se eligen k patrones aleatorios Tomados al azar
del conjunto de entrenamiento. - k-primeros por clase Tenemos información de las
clases a la salida, y se eligen los primeros
patrones de cada clase dentro del conjunto de
entrenamiento.
20Entrenamiento Capa Oculta
- Algoritmo k-medias por clase
- Es el k-medias modificado.
- Separamos el conjunto de centroides en tantos
grupos como clases aparezcan en el conjunto de
entrenamiento. - Se distribuyen las particiones del conjunto de
entrenamiento, para entrenar cada grupo de
centroides. - Es neceraria la información de las clases a la
salida. - Enfocado a clasificación.
21Ajuste de anchuras en Capa Oculta
- No solo es necesario el Ajuste de centroides
También hay que ajustar sigma (s) en cada
neurona. - s determina la zona de influencia de cada nodo de
la capa oculta. - Objetivo Cubrir bien el espacio de entradas.
22Ajuste de anchuras en Capa Oculta
- Sin basarse en la heurística
- s igual a la máxima distancia del conjunto de
patrones asociados al centroide. Polariza en el
conjunto de entrenamiento puede producir mala
generalización. - Técnicas heurísticas
- Tomar s como la distancia al centroide más
cercano (es el criterio más utilizado). - Media de la distancia a los centróides.
23Entrenamiento de Capa Salida
- Necesita Valores de Entrada, los centroides de
la Capa Oculta y los radios (s). - Existen varios métodos (algoritmos) para
realizarlo - Aprendizaje Supervisado Regla Delta. Se basa en
estudiar la salida real frente a la deseada. - Número de EPOCAS
- Se le presentan todos los patrones a la red.
- Actualiza los Wij
- Regla LMS. Resolver el sistema de ecuaciones
lineales que minimiza el error, con los pesos
como incógnitas. - Función de coste utiliza salida deseada salida
obtenida.
24Otras estrategias de Aprendizaje
- Existen otros métodos que no vemos en
profundidad - Centros Fijos Seleccionados Aleatoriamente.
- Ajuste Supervisado de Centros
- Un método de Entrenamiento Global.
- Ajuste Dinámico por Descomposición (Dynamic Decay
Adjustment, DDA)
25Centros Fijos Seleccionados Aleatoriamente
- Los M Centroides (vectores de pesos de la capa
oculta Wej) de las funciones de activación fj(x)
se inicializan con M vectores de entrada elegidos
aleatoriamente. - Se seleccionan los radios s.
- Los Pesos de la capa de salida son calculados por
un método de entrenamiento - Pseudoinversa de la matriz de activaciones
ocultas - Ws Fd
- (di distancias entre centroides)
- (F depende de s, los vectores de entrada y los
centroides).
26Ajuste Supervisado de Centros
- Busca minimizar la función de Coste
- El error tiene la siguiente fórmula
- Se obtienen unas funciónes de actualización
- Función de actualización de capa de salida
- Pesos de los centroides
- Anchura de los centros
27Ajuste Dinámico por Descomposición (DDA)
- Dynamic Decay Adjustment
- Es un algoritmo de entrenamiento global.
- El número de nodos no es constante, se generan
nodos dinámicamente. - Se utiliza para clasificación.
- Podemos dividir el conjunto de entrenamiento en
patrones correctos y conflictivos. - Se utilizan umbrales para evitar que dos patrones
conflictivos den una clasificación parecida. - Es como hacer una partición de las neuronas
ocultas en función de las neuronas de entrada con
las que estén conectadas.
28Ajuste Dinámico por Descomposición
- Pasos del Algoritmo
- Se eligen los umbrales ( y -). Los patrones
conflictivos estarán entre esos valores. - Los pesos de la capa de salida se inicializan a
0. - Para cada patrón de aprendizaje
- Se actualiza el peso de la capa de salida si ya
existe una neurona oculta que clasifica ese
patrón. - Se añade una nueva neurona oculta.
- Se ajustan los radios (s) de las neuronas ocultas
de clases distintas a la que clasifica para que
no activen patrones similares.
29Aplicaciones de las RBF
- Aproximación a funciones continuas
(interpolación). - Clasificación (sí puede clasificar XOR).
- Predicción y análisis (por ejemplo demanda de
energía). - Control y optimización en fabricación.
- Reconocimiento del habla
- Reconocimiento de caractéres (OCR)
- Detección del cáncer
- Son recientes y están en continua evolución.