Title: T14
1Contrastes no paramétricos
- En la lección anterior nos hemos ocupado de
contrastes - paramétricos. Determinábamos la plausibilidad de
ciertas - hipótesis sobre los valores de parámetros
poblacionales. - Los contrastes no paramétricos hacen referencia a
la - distribución poblacional en su conjunto
- Cómo podemos decidir a partir de una muestra si
- la población sigue (ajusta) a una determinada
- distribución dada (problema de bondad de
ajuste). - (2) Estas muestras provienen de poblaciones con
la - misma distribución? (problema de la
homogeneidad). - (3) Son independientes o dependientes varias
- características poblacionales?
2Prueba de bondad de ajuste ?2
- Supongamos una muestra aleatoria simple de tamaño
n. - Desconocemos que la distribución de probabilidad
f de la - población.
- Contrastaremos la hipótesis
- H0 f f0 y H1 f ? f0
- Es decir la distribución desconocida f de la
población es f0. Por ejemplo una distribución de
Poisson determinada. - Usaremos la distribución chi-cuadrado para
determinar la bondad de ajuste entre las
frecuencias observadas de los datos de la
muestra, frecuencias muestrales, y las
frecuencias esperadas (teóricas) según la
distribución que sospechamos es la de la
población.
3- Procedimiento
- Dividimos el dominio de la distribución en k
- clases o intervalos disjuntos. Calculamos el
- número de datos esperados, según la distribución
- teórica a contrastar f0 , que deberían haber
caído - en cada clase. Para ello basta multiplicar la
- probabilidad que asigna f0 a cada clase por n,
- el tamaño muestral.
-
- Hemos de construir las clases de modo que cada
una contenga al menos 5 datos muestrales. Tenemos
pues A1, A2, ... ,Ak clases con n1esp, n2esp,
... ,nkesp datos muestrales en cada clase, todos
valores mayores o iguales a 5.
4Ejemplo Durante 200 días se han recogido el
número de accidentes diarios
(1) Creemos que el número de accidentes se
distribuye como una Poisson de media 2 (hipótesis
nula).
Calculamos los valores esperados a través de la
Poisson.
Aquí la probabilidad será de 5 a infinito.
5Procedimiento (2) Ahora construimos las mismas k
clases o intervalos disjuntos para los datos
muestrales. Tendremos también A1, A2, ... ,Ak
clases con n1, n2, ... ,nk datos muestrales en
cada clase.
Estos son los datos originales
Ajustamos al número de clases que nos determinó
la distribución a contrastar.
6Realizaremos el test de constraste utilizando el
estadístico chi-cuadrado siguiente
Frecuencias muestrales
Frecuencias esperadas
que sigue una distribución chi-cuadrado con k-1
grados de libertad. En nuestro ejemplo tenemos k
6 clases. Luego
7Nuestro estimador chi-cuadrado vale El
estimador se distribuye como Supongamos que
queremos
En las tablas encontramos
0.05
8Hipótesis compuesta
Primero estimaremos por el método de máxima
verosimilitud el valor del parámetro ?
9(No Transcript)
10El valor estimado de ? será
11Ahora calculamos las probabilidades esperadas
Aquí la probabilidad será de 500 a infinito.
12Y a partir de ellas podemos calcular los valores
esperados de las muestras
13Como la penúltima categoría da un valor menor que
5, unimos las dos últimas
12
7.30
14Nuestro estimador chi-cuadrado vale El
estimador se distribuye como
Esta es la diferencia fundamental con el caso
anterior. Al número de clases k hay que restarle
1 y el número de parámetros que previamente
hemos estimado. En este caso ? 1.
0.05
15Prueba de homogeneidad
Supongamos que disponemos de los datos de m
muestras aleatorias y deseamos saber si podemos
decidir si provienen de la misma distribución
poblacional.
Tamaño de la muestra m.
Tamaño total de todas las muestras.
Nuevamente hemos de dividir el conjunto de
observaciones en k clases A1, A2, ... ,Ak
clases determinadas por los valores esperados
(en cada clase, todos valores mayores o iguales
a 5). Pero ahora lo haremos m veces.
16El estadístico de contraste será ahora
Número total de elementos de la muestra i
Frecuencia muestral de la clase j de la muestra i
El estadístico seguirá una distribución
chi-cuadrado de (m-1)(k-1) grados de libertad.
Suma de las frecuencias muestrales de todas las
clases número i
17Prueba de independencia
Supongamos que de n elementos de una población
se han observado dos características X e Y. Es
decir disponemos de los datos de una muestra
aleatoria simple bidimensional
Deseamos contrastar si las características
poblacionales X e Y son independientes o no.
Nuevamente hemos de dividir el conjunto de
observaciones en k clases A1, A2, ... ,Ak
clases determinadas por los valores esperados de
X y en r clases B1, B2, ... ,br para Y. (De
nuevo en cada clase, todos valores mayores o
iguales a 5)
18El estadístico de contraste será ahora
Número total de elementos de la clase j de Y con
el resto de clases de X
Frecuencia muestral de la clase (i, j) (X,Y).
El estadístico seguirá una distribución
chi-cuadrado de (k-1)(r-1) grados de libertad.
Número total de elementos de la clase i de X con
el resto de clases de Y
19Contraste de Kolmogorov-Smirnov
El contraste K-S de bondad de ajuste es válido
solo para distribuciones continuas. (1) Se
ordenan los n valores muestrales
(2) Se calcula la distribución empírica de la
muestra
20Se calcula la discrepancia máxima, que será el
estimador que usaremos, entre la función de
distribución empírica que acabamos de calcular
y la distribución teórica F0 que estamos
contrastando
cuya distribución es conocida y tenemos tabulada
según los valores de n.