Title: Diapositiva 1
1Aplicaciones de las redes neuronales en
agronomía y ciencias ambientales
Marcos Texeira1 José Paruelo1 Ernesto Vega1 1
IFEVA-FAUBA, UBA
EPG-FAUBA, del 9 al 13 de junio, 2008.
2Contenido general I. Bienvenida y reglas de
juego II. El contexto II.1. Modelaje
II.2. Sistemas complejos y conceptos afines
II.3. Métodos de análisis estadístico III.
Redes neuronales
3II.3. Trucos y malabares Métodos varios a)
Estadística bayesiana b) Modelos normales
c) Modelos lineales generalizados (glm) d)
Métodos multivariados e) Métodos de
remuestreo intensivo f) Estadística no
paramétrica g) Métodos Montecarlo h)
Restricciones i) Resumen general
4Métodos para darle Certidumbre a la
investigación. Antes del siglo XX
Presente
Ley de los grandes Números
Jacob Bernoulli
1ª definición Probabilidad
Abraham de Moivre
Teorema Bayes
Thomas Bayes
Teoría analítica de probabilidades
Pierre Laplace
Teorema del Límite Central
Simón Poisson
Adrien Legendre
Regresión MC
Carl Gauss
Curva normal
5Presente
Métodos para darle Certidumbre a la
investigación. Siglo XX
Biometría
Francis Galton
DevStd 1893
Karl Pearson
ANOVA (1918)
Ronald Fisher
Análsis Multivariado 1939
MS Bartlett
Estadistica No paramétrica 1942
Jacob Wolfowitz
Ulam y Metropolis
Métodos Montecarlo 1949
Nelder y Wedderburn
GLM (1972)
Bradley Efron
Bootstrap 1979
Rupert Miller
Kackknife 1964
6 b) Modelos normales univariados
7Para variar, La Grecia Antigua y claro, Platón.
La realidad es imperfecta, cambia, no es
constante.
Eidos platónico ? El mundo de las ideas
Concepto 1
8DeMoivre (1733)
y el mundo se volvió Normal.
Laplace (1783)
Gauss (1809)
Concepto 2
9La regresión, la herramienta universal
Francis Galton
10Tenemos un modelo a priori Con variables de
respuesta (output) Con variables explicativas
(input) y mx b
CON PARÁMETROS
Cómo elegirlos ?
11Estimación de parámetros MÍNIMOS CUADRADOS
Cuál Recta es La mejor?
12MÍNIMOS CUADRADOS (inventados por Gauss)
Valor de yi OBSERVADO
ei yi (b mxi)
Valor de yi CALCULADO
13La idea es hallar la recta que minimice la suma
de errores. El resultado de esa búsqueda son las
ecuaciones de los dos parámetros de la
recta La pendiente (m) La constante (b)
14Siglo XIX y principios del XX La variación ya
no es una representación imperfecta de la
realidad. La comprensión de los procesos
naturales se logra mediante el estudio
sistemático de la variación.
ANOVA, diseñada por Fisher.
15Algunos ejemplos de modelos estadísticos normales
ANOVA unifactorial
ANOVA Bloques aleatorizados
ANOVA Dos factores
Caius College Cambridge (latin square)
16El mundo es normal, en términos Gaussianos. Más
precisamente, la distribución de los errores es
normal. Por tanto, la media de la muestra puede
representar a la población La media es el
reflejo pálido de la población ideal, platónica
17Dato Variable explicativa Variable independiente
Variable de Respuesta Variable dependiente
Modelo Hipótesis
mx b
x
ycalculada
Error Normal del modelo
yobservada
Dato
18 c) Modelos Lineales Generalizados
19Qué es un modelo lineal? Es una ecuación que
contiene variables matemáticas, parámetros,y
variables aleatorias, que es lineal en los
parámetros y en las variables aleatorias.
20(No Transcript)
21(No Transcript)
22Los modelos lineales generalizados se componen
de 1) Estructura del error (tipo de error) 2)
Predictor lineal 3) Función de enlace
23- Estructura del error
- Muchos procesos ecológicos tienen errores no
normales. - Qué se puede hacer?
- 1) Transformar los datos y usar errores normales
- 2) Elegir otro tipo de error, que sea más
adecuado - a los datos
24 Datos de conteos ? Error
Poisson Datos de proporciones ? Error
binomial Datos con coeficientes de
variación constante ? Error Gamma Datos
de sobrevivencia ? Error exponencial
25Dato Variable explicativa Variable independiente
Variable de Respuesta Variable dependiente
Modelo Hipótesis
mx b
x
ycalculada
Error del modelo
yobservada
Dato
262) Predictor lineal Es la suma de lineal de los
efectos de las variables explicativas. Es el
modelo que representa el fenómeno estudiado. El
valor calculado de y (la variable de respuesta),
surge de la transformación del predictor
lineal.
27Dato Variable explicativa Variable independiente
Modelo Hipótesis
x1
a1x1 a2x2 a3x3 b a1(x1x2)a2(x1x3)a3(x2x
3) b a1x1(x2) a2x1(x3) b
Variable de Respuesta Variable dependiente
ycalculada
x2
Error del modelo
x3
yobservada
Predictor Lineal
Pueden ser varias variables
Dato
283) Función de enlace Relaciona el valor
calculado de y con el valor que se obtiene del
predictor lineal Predictor ? Función de
? Valor de Lineal enlace
y
29Función de enlace
Variable de Respuesta Variable dependiente
Dato Variable explicativa Variable independiente
ycalculada modelo ycalculada Log(modelo)
ycalculada 1 / modelo ycalculada
logit(modelo) ycalculada probit(modelo)
Modelo Hipótesis
x
modelo
ycalculada
Error del modelo
yobservada
Dato
30Principales funciones de enlace, sus usos y sus
errores asociados Identidad ?
Regresión o ANOVA ? (errores
Normales) Log ?
Conteos ? (error
Poisson) Logit ?
Proporciones ? (error
Binomial) Recíproca ? Datos
continuos ? (error Gamma) Probit
? Proprociones (experimentos en
bioensayos )
31Dato Variable explicativa Variable independiente
Variable de Respuesta Variable dependiente
Modelo Hipótesis
ycalculada modelo ycalculada Log(modelo)
ycalculada 1 / modelo ycalculada
logit(modelo) ycalculada probit(modelo)
x
modelo
ycalculada
Error del modelo
yobservada
Dato
32El uso de los modelos lineales generalizados
implica un enfoque distinto en el estudio de la
naturaleza Modelaje normal NATURALEZA ?
NORMALIZACIÓN ? EMPLEO DE NO NORMAL
DE LOS DATOS MODELOS
NORMALES Modelaje con
GLM NATURALEZA ? ELECCIÓN DEL ?
AJUSTE DEL NO NORMAL MODELO
APROPIADO MODELO A LOS
DATOS
33 d) Métodos multivariados
34Habrá una diferencia fundamental entre las dos
obras siguientes?
35El nacimiento de Venus. Fecha 1478. Autor
Sandro Boticcelli (1445-1510).
36El nacimiento de Venus. Fecha 1879. Autor
William Bouguereau (1825-1905).
37Alberto Durero (1471-1528) descubrió como
representar (colapsar) la dimensión de
profundidad en un plano, de tal modo que dicha
dimensión aporte información, i.e. que el
observador perciba la sensación de profundidad.
38Otro ejemplito
39Lo más común es evaluar variables individuales.
40Algo interesante es evaluar variables por pares.
Sin embargo, los sistemas naturales ocurren, se
desarrollan, en muchas dimensiones
41Los hipervolúmenes
42(No Transcript)
43Matriz de Datos (análisis Q o R)
A
B
D
C
44COMPONENTES PRINCIPALES CLUSTERS
Submatriz B ( ó la D)
45ANÁLISIS DE DISCRIMINANTES
Submatriz A y la Submatriz C
46ANÁLISIS DE CORRELACIÓN CANÓNICA
Submatriz A y la Submatriz B (o la C y la D)
47Los PCA, los análisis de discriminantes y la
correlación canónica, se basan en el análisis de
valores y vectores propios
A x ? x
A matriz de n x n x vector propio de n x
1 ? valor propio de la matriz A
Una matriz A de n x n tiene n valores propios y n
vectores propios asociados.
48Lo que varía entre análisis es el tipo de matriz
A al que Se le estiman los valores y vectores
propios.
49COMPONENTES PRINCIPALES CLUSTERS
Submatriz B ( ó la D)
50Para qué sirve?
Condensa la información contenida en muchas
variables en un conjunto menor de variables
compuestas. Reduce las P dimensiones originales
(una dimensión por variable) en unas pocas
dimensiones nuevas, que son combinaciones de las
variables originales.
51ANÁLISIS DE DISCRIMINANTES
Submatriz A y la Submatriz C
52Para qué sirve?
Establece las relaciones entre dos (o más)
conjuntos de variables. Normalmente se emplea
para definir las cuáles variables son mejores
para discernir entre dos o más grupos.
53ANÁLISIS DE CORRELACIÓN CANÓNICA
Submatriz A y la Submatriz B (o la C y la D)
54Para qué sirve?
Establece las relaciones entre dos (o más)
conjuntos de variables. Normalmente se emplea
para definir las relaciones entre un conjunto de
variables dependientes e independientes.
55 e) Métodos de Remuestreo intensivo
56Qué hacer cuando no se tiene idea Del tipo de
distribución del error? Cómo obtener
intervalos de confianza con pocos datos?
57Remuestreo Intensivo Con reemplazo Con m datos
Con m-1 datos
m datos
Construido con las n subpoblaciones
Intervalos de confianza
58Jackknife
Bootstraping
Remuestreo con reemplazo
Remuestreo Con reemplazo y m-1 datos
59 f) Estadística no paramétrica
60(No Transcript)
61(No Transcript)
62 g) Métodos Montecarlo
63(No Transcript)
64 a) Estadística Bayesiana
65Teorema de Bayes
No necesita modelos de Distribución de los
errores Imita la dinámica normal de toma
de desiciones, i.e. incluye en el cálculo de la
probabilidad la información existente antes
de hacer el experimento. La escuela
frecuentista no necesita esto.
66Teorema de Bayes
Laplace y la masa de Saturno. Debido a que el
investigador define la prob(a priori), entonces
se puede considerar que este método tiene mucha
subjetividad. Esto se corrige con la
elección de prob(a priori) que sean planas o
vagas. Con los métodos de remuestreo intensivo
permiten elegir este tipo de prob(a priori).
67 h) Restricciones
68Cómo puedo disminuir el error usando las
herramientas anteriores?
69Cómo se puede hacer menor al error?
Con un mejor modelo
Cómo se mide el error? Mínimos cuadrados Máxima
verosimilitud
70Cuál elegir?
71Restricciones
Existen trade offs en la construcción de
modelos, o NO SE PUEDE TODO Mucho
Realismo Mucha Generalidad Mucha Precisión
72Restricciones
73Para qué usar modelos Understanding, generar
hipótesis Assessing (estimar) Optimizing
74Una estrategia para construir modelos
Objetivos o finalidades Del modelo
Delimitación de sus Características (qué
queremos Que haga, que resultados va a producir)
Pregunta fundamental
Elaboración del modelo
Resultados
75i) Resumen general
76Algo así como un resumen
Sistemas físicos (Astronomía)
Descripción matemática
Sistemas biológicos y sociales
1
Sistemas biológicos (Biología Agronomía)
Descripción matemática
Sistemas físicos y sociales
2
Sistemas físicos y sociales
Sistemas biológicos (Sistema nervioso)
Descripción matemática
3
77Resumen Cómo son los métodos de estudio?
Tenemos muchas herramientas y experiencia para
estudiar relaciones lineales de diversa índole
Número de Variables de respuesta (outputs)
Número de Variables explicativas (inputs)
Modelo Subyacente
UNA
NORMAL
UNA
VARIAS
OTRO
VARIAS
78Pero pueden manejar dinámicas no lineales?
79Resumen Cómo son los sistemas de estudio? Los
sistemas ecológicos tienen comportamientos no
lineales, que ocurren en varias escalas
espaciales y temporales. Los sistemas pueden
mostrar conductas sorpresivas, no esperadas.
Además, en una determinada escala espacial y
temporal, coexisten e interactúan procesos
diversos, propios de escalas mayores y de
escalas menores. Por lo tanto, la dinámica, el
comportamiento de una variable de respuesta
depende de múltiples variables explicativas que
ocurren en distintas escalas. Por otro lado, la
dinámica de los sistemas ecológicos es tan
compleja que no es suficiente con estudiar una
sola variable de respuesta es necesario
conocer varias variables de respuesta para lograr
una comprensión más adecuada de la dinámica de
estos sistemas.
80Resumen de paradigmas
Leyes de Kepler
1
Gravitación Universal
Johannes Kepler
Isaac Newton
Crecimiento exponencial
Thomas Malthus
2
Pierre Verhulst
Crecimiento Logístico
4
Caos Determinístico
Robert May
Eugene Odum
Ecosistemas
3
Teoría general de sistemas
Ludwig von Bertalanffy
81Resumen de métodos
Teorema Bayes
Regresión MC
Teorema del Límite Central
Biometría
ANOVA (1918)
Análsis Multivariado 1939
Bootstrap 1979
GLM (1972)
Kackknife 1964
Metodos MonteCarlo (1949)
Estadistica No paramétrica 1942
82Teorema Bayes
Regresión MC
Leyes de Kepler
Teorema del Límite Central
Gravitación Universal
Naturaleza Plana
Biometría
Crecimiento exponencial
ANOVA (1918)
Los métodos coinciden con las concepciones
del mundo?
Crecimiento Logístico
Naturaleza estable
Análsis Multivariado 1939
Naturaleza compleja
Caos Determinístico
Bootstrap 1979
Ecosistemas
GLM (1972)
Naturaleza resiliente
Teoría general de sistemas
Kackknife 1964
Metodos MonteCarlo (1949)
Estadistica No paramétrica 1942
83Gracias! Fin de la parte II.3. .