Title: Felipe Sep
1Estadística (Bioestadística)
- Felipe Sepúlveda López
- Biólogo Marino
fsl001_at_ucn.cl
2Sobre mi
- No soy un estadístico.
- Tesis 2002 en
- Magíster en Cs. del Mar
- El énfasis del curso esta en la práctica de la
herramienta estadística y no en los teoremas y
demostraciones.
3Porque deberíamos saber algo de estadistica?
- Es necesario aprender las propiedades de la
estadística, para utilizarla en diseños
experimentales y análisis de datos. - Como biólogos debemos desarrollar nuestra
habilidad para discriminar argumentos científicos
(o pseudo-científicos).
4Que es lo que espero de Uds.
- ATENCIÓN en la clases y Ayudantías
- Retroalimentación hacia mi con respecto a lo que
les gusta y no les gusta del curso. - (criticas constructivas)
5Objetivos del Curso
- Entender los principales fundamentos de la
estadística descriptiva e inferencial. - Entender los principios generales sobre los
cuales están basados los test estadísticos más
comunes utilizados en biología.
6- Conocer los principales supuestos
(pre-requisitos), de los test más comunes y
entender el impacto de sus violaciones. - Ser capaz de desarrollar variados análisis
estadísticos utilizando las herramientas de Excel
y SYSTAT.
7Clases y Ayudantía
- Cátedra
- Lunes 1400 - 1530 (Sala 12).
- Martes 1400 1530 (Sala 10).
- Ayudantía
- 1) Miércoles 1400 1530 (Sala 1).
- 2) Miércoles 955 1125 (Sala 1).
Laboratorio de Computación Laboratorio de Computación
Lunes 14 Abril Miércoles - 16 Abril
Lunes 12 Mayo Miércoles 14 Mayo
Lunes 9 Junio Miércoles 11 Junio
Lunes 14 Julio Miércoles 16 Julio
8Evaluación
1 prueba 30 13 Mayo 2003 2 prueba
30 1 Julio 2003 Seminario 40
8 Julio 2003
9Textos
- Guía del curso estadística de biología marina.
UCN, 2003. - Zar, J.H. 2000. Biostatistical Analysis (4th
edition), Prentice-Hall, Upper saddle River, New
Jersey. - Spiegel, M.R. 1991. Estadística. McGrawHill.
- STEEL, R.G.D. and TORRIE, 1980, J.H. Principles
and procedures of statistics a biometrical
approach. 2.ed. New York McGraw-Hill,. 631p. - Sokal, R.L. F.J. Rohlf. 1995. Biometry (3rd
edition), W.H. Freman Co., New York, or
10Preparación de clases.
- Leer el capítulo apropiado desde los textos
mencionados y traer las preguntas clases. - Si tienen alguna preguntaPreguntar
inmediatamente!. No existen las preguntas
estupidas. - Para las ayudantías, se debe manejar los
contenidos para practicar con ejercicios.
11- Siempre venir a clases y ayudantías con
- Guía de clases, con tablas
- CALCULADORA
- Por favor no sean participantes pasivos de la
clase.
12Qué es la Estadística?
- Estadísticas (plural) Datos recogidos de forma
sistemática para obtener información sobre un
tema (demográfico, social, económico, biológico,
etc..) - Ejemplo Captura de Anchovetas, goles del último
clásico. - Estadística (singular) Disciplina que comprende
técnicas de recolección, presentación, análisis e
interpretación. Permite poner a prueba de
hipótesis y tomar decisiones en base a la teoría
de probabilidades. - Bio-Estadística aplicación de herramientas de
estadística en el área biológica
13Algunas utilidades de la Estadística
Descripción Diseño Test de hipótesis
Provee de resúmenes de datos. Ayuda a descubrir patrones o tendencias. Evalúa la magnitud y dirección de los efectos experimentales. Ayuda al diseño de experimentos y estudios de campo. Permite tomar decisiones a priori sobre la utilidad de algún experimento. Evalúa hipótesis biológicas a través de tests, para verificar si los patrones observados son consistentes con las predicciones.
14Tipos de estadística (función)
- Descriptiva
- Analiza una población sin pretender sacar
conclusiones generales (conclusiones validas para
dicha población) - Ordenamiento y descripción de un conjunto de
datos
- Inferencial
- Tiene como propósito inducir leyes de
comportamiento de una población a partir de
muestras. - A partir de una muestra se obtienen conclusiones
de toda la población
15Usos de la estadística Descripción Síntesis.
- Generar un resumen de los datos.
- Ayuda a descubrir tendencias (inducción) a través
de la examinación de resúmenes de patrones
estadísticos - Para tener en cuenta En un resumen estadístico
mucha información se pierde. Por lo tanto,
SIEMPRE se debe conservar los datos crudos!
16Usos de la estadística Inferencial.
- Las diferencias observadas son reales o
simplemente provocadas por accidente? - Para responder esta pregunta, necesitamos conocer
la probabilidad de que los resultados observados
se deban efectivamente a un accidente o
coincidencia? - Los test estadísticos nos permiten calcular esta
probabilidad y elaborar conclusiones
17Usos de la estadística Diseño experimental.
- Focalización del esfuerzo
- Decidir a priori sobre la utilidad de un
experimento
18Toma de muestras o muestreo
- Población o Universo Corresponde a todo el grupo
de cosas animales o personas sobre las que
queremos obtener información. (esta definida en
base a nuestros requerimientos) - Unidad Miembro individual de la población.
- Muestra Porción de la población sobre la que
tomamos información para obtener conclusiones
sobre la población. - Variable Característica de una unidad, que es
medida en todas la unidades de la muestra.
19Población Muestra Variable
Mujeres y hombres chilenos, entre 16 a 26 años. 100 hombres y mujeres jóvenes de todas las capitales regionales de Chile. Nivel de nicotina medida en una muestra sanguínea.
20Lo que la estadística puede y no puede hacer
Puede NO Puede
Proveer de criterios objetivos para evaluar hipótesis. Ayuda a optimizar esfuerzos Ayuda a evaluar críticamente argumentos Decir la verdad absoluta (solo una verdad probabilística) Ayudar a un diseño pobre Indicar significancia biológica La significancia estadística no significa signifcancia biológica (vice versa)
21Tipos de Variables (datos) Biológicas.
- Datos en Escala Proporcional
- Existe un tamaño de intervalos constante, entre
unidades adyacentes. - Existe un punto 0 que presenta significado
físico. - Ej tamaños, conteos, pesos, volúmenes.
- Datos en Escala de Intervalos
- Poseen un tamaño de intervalos constante, entre
unidades adyacentes. - No tienen un punto 0 con valor físico.
- Ej temperatura en C o F.
22Tipos de Variables (datos) Biológicas.
- Datos en Escala Ordinal (orden)
- Existe una diferencia relativa entre las
magnitudes de nuestras variables. - Ej Tamaño celular 1,2 o 3 Color mas oscuro, mas
claro, intermedio.
- Datos en Escala Nominal
- La variable se identifica por una cualidad
atributo de esta. - Ej Fenotipos como color de ojos, cabello.
Machos o Hembras.
23Datos Continuos y Discretos
- Continuas Permiten cualquier valor entre un
determinado rango de mediciones observadas. - Ej. Altura de 35-36cm, entre ellas puede estar
35.2 o 35.1888 o 35.18878456. - Discretas Variables que pueden tomar solo
valores enteros. - Ej Número de ostiones, personas.
24Exactitud (accuracy)
- Qué tan cerca se encuentra nuestro valor
observado del valor real?
b es el modelo mas exacto Los valores
observados están, en promedio, mas cerca de los
observados
25Precisión
- Qué tan cerca se encuentra, una de otra
medición, realizadas sobre una misma variable? - Se encuentra altamente influenciada por la
experiencia y rigurosidad de quien realiza la
medición.
26Precisión v/s Exactitud
27Tipos de Escalas de Datos
- Escala Proporcional
- Escala Intervalos
- Escala Ordinal
- Escala Nominal
- Datos Continuos
- Datos Discretos
28(No Transcript)
29Figuras Significativas y Redondeo de Datos
- Los dígitos de un número que denotan la exactitud
la medición Fig. Significativa. - Ejemplos
7 cm 1
7.04 cm 3
7.14 cm 3
7.90 cm ?
30Más Casos
En notación científica
255
25.5
2.55
0.255
0.0255
2.55 x 102
2.55 x 101
2.55
2.55 x 10-1
2.55 x 10-2
Todos tienen 3 cifras significativas
31Rangos Implicados
- El largo del ala de una mariposa es de 5.4 cm.
- Esta medición implica una exactitud de 0.1cm
- Por convención, teóricamente el largo del ala de
la mariposa está entre 5.35 5.45
Rango implicado a nuestra exactitud
32Otros ejemplos
Valor Rango Figuras Significativas Exactitud
8 7.5 - 8.5 1 1
8.3 8.25 8.35 2 0.1
8.32 8.315 8.325 3 0.01
33Aproximaciones y Redondeo
78.3 79
145.6 146
48.5 48
57.5 58
34Distribuciones de Frecuencias
- Tablas de frecuencias Clasificación,
ordenamiento y resumen de una gran cantidad de
información. - Consiste simplemente en
- Una lista de los valores observados en la
variable bajo estudio. - Cuantas veces este valor se repite.
35Ubicación de nidos de gorriones
Tabla de Frecuencias
Distribución de Frecuencias
Ubicación Número de nidos observados
a- Canaletas 56
b- Balcones 60
c- Cavidades de Construcciones 46
d- Ramas de Árboles 49
36Confección de tabla
- Como construimos una tabla de frecuencias cuando
nuestros datos no son nominales?
Para empezar determinar Rango de
datos Número de clases Amplitud de
intervalo de clases Determinar rango clase
37Rango de datos
- Distancia entre el dato máximo y mínimo
38Consumo de proteínas de 20 ostiones de
laboratorio.
21 25 35 22 18
24 21 23 16 23
27 17 26 19 29
20 19 20 23 22
39Número de Clases
- Número de categorías o intervalos en el que se va
a dividir la información
Se puede determinar arbitrariamente en base a la
variación de nuestros datos. Generalmente varía
entre 5 a 20 categorías
En este ejemplo se utilizarán 5 clases.
40Amplitud de intervalo
- Cantidad de datos que están comprendidos en un
intervalo de clase.
Del ejemplo 19/5 3.8 4 Solo se
aproxima si los datos son discretos o enteros
41Rango de clase
- Significa hallar los límites inferiores y
superiores de cada intervalo - Para ello al dato menor se le suma la amplitud
del intervalo (4 en este caso). - La marca de clase corresponde al valor medio
ubicado en cada rango de clase.
4221 25 35 22 18
24 21 23 16 23
27 17 26 19 29
20 19 20 23 22
Rango de clase Rango de clase Marca clase
16 19 17.5
Amplitud de intervalo
16, 17, 18 y 19 4
Cómo queda el resto de la tabla?
Marca de clase
43Debería quedar así
Rango de clase Rango de clase Marca clase
16 19 17.5
20 23 21.5
24 27 25.5
28 31 29.5
32 35 33.5
44Frecuencia Absoluta
- Es el número de veces que se repiten los valores
dentro de los diferentes intervalos en que se ha
dividido la información
Rango de clase Rango de clase Marca clase Frecuencia Absoluta
16 19 17.5 5
20 23 21.5
24 27 25.5
28 31 29.5
32 35 33.5
45Frecuencia Relativa
- Es el valor que resulta al dividir cada una de
las frecuencias absolutas entre el total de
frecuencias o datos y multiplicarlas por 100 para
que sean expresadas en porcentaje
Rango de clase Rango de clase Marca clase Frec. Abs. Frecuencia Relativa
16 19 17.5 5 25
20 23 21.5
24 27 25.5
28 31 29.5
32 35 33.5
46Frecuencia Absoluta Acumulada
- Se obtiene sumando y acumulando los valores
absolutos clase por clase en orden ascendente
Rango de clase Rango de clase Marca clase Frec. Abs. Frec. Rel. Frec.Abs. Acumulada
16 19 17.5 5 25 5
20 23 21.5
24 27 25.5
28 31 29.5
32 35 33.5
47Frecuencia Relativa Acumulada
- Se obtiene sumando y acumulando los valores
relativos clase por clase en orden ascendente
Rango de clase Rango de clase Marca clase Frec. Abs. Frec. Rel. Frec.Abs. Acumulada Frec.Rel. Acumulada
16 19 17.5 5 25 5 25
20 23 21.5
24 27 25.5
28 31 29.5
32 35 33.5
Cómo queda el resto de la tabla?
48Debería quedar así
Consumo de proteínas (grs.) de 20 ostiones
Argopecten purpuratus
Rango de clase Rango de clase Marca clase Frec. Abs. Frec. Rel. Frec.Abs. Acumulada Frec.Rel. Acumulada
16 19 17.5 5 25 5 25
20 23 21.5 9 45 14 70
24 27 25.5 4 20 18 90
28 31 29.5 1 5 19 95
32 35 33.5 1 5 20 100
49Representación gráfica de tablas de frecuencia
- Histograma
- Se obtienen al graficar las marcas de clase
(abscisa) versus la frecuencia (ordenada).
50Polígono de Frecuencias
- Se produce fácilmente al conectar con una línea
las marcas de clases adyacentes.
51Ojivas
- Se obtienen al graficar las frecuencias
acumuladas absolutas o relativas
52Tipos de distribuciones de frecuencia
53En función de la dispersión
54Medidas Descriptivas Numéricas
A través de este tipo de estimaciones es posible
hacer generalizaciones del todo a partir de una
parte del todo
- Conceptos para tener en cuenta
- Población
- Muestra
- Muestras aleatorias
- Parámetros
- Estadísticos
55- Población o Universo Corresponde a todo el grupo
de cosas animales o personas sobre las que
queremos obtener información. (esta definida en
base a nuestros requerimientos) - Muestra Porción de la población sobre la que
tomamos información para obtener conclusiones
sobre la población.
56Muestra aleatoria
- Requisito clave
- Cada miembro de la población debe tener una
opción igual e independiente de ser elegido
Pero En la mayoría de los casos no es posible
asignar número aleatorios. Es necesario tener
en cuenta consideraciones biológicas mas que
matemáticas.
57De esta manera
- Una muestra tomada aleatoriamente, debe
representar a la población. - Si la muestra es representativa de mi población,
entonces podemos inferir cosas de la población,
con cierto nivel de seguridad y exactitud.
58Parámetros y Estadísticos
- Toda medición o estimación que este
caracterizando y describiendo a nuestra población
es llamada PARAMETRO. - Raramente es posible calcular parámetros
- Porque?
59Solución
- Realizar estimaciones de un parámetro poblacional
mediante - ESTADISTICOS
Todo buen estadístico debe ser Insesgado Co
nsistente Eficiente
60Medidas de Tendencia Central
La Media
- Representa a la suma de las observaciones
divididas por el número de observaciones
61- Con datos agrupados se calcula por
62Comentarios acerca de la media.
- La media es un número ÚNICO
- La media de la muestra ( ), es un buen estimador
de ? - Es un estadístico poco resistente, ya que es
fuertemente influenciado por los valores extremos
63Me La Mediana
- Es el valor medio.
- Esto es el punto medio de las observaciones
cuando estas han sido ordenas en orden ascendente
Impares Pares
Me X(n1)/2 Me(Xn/2 Xn/21)/2
11,13,15,16,17 11,13,15,16,17, 20
Me 15 Me 15.5
64- Con datos agrupados se calcula por
Me Límite inferior 0.5n frec. acum. ant. x Ancho intervalo
del intervalo Nro. Obs en Intervalo
Rango de clase Rango de clase Marca clase Frec. Abs. Frec. Rel. Frec.Abs. Acumulada Frec.Rel. Acumulada
16 19 17.5 5 25 5 25
20 23 21.5 9 45 14 70
24 27 25.5 4 20 18 90
28 31 29.5 1 5 19 95
32 35 33.5 1 5 20 100
Me (20) ((0.5x20)-5)/9 x 4 22.2
65La Moda
- La moda el valor mas frecuente.
- Es decir, el valor que más se repite dentro de
las observaciones realizadas.
Ejemplo Datos del coeficiente intelectual de un
grupo de alumnos 100, 95, 105, 110,
100. Entonces la moda es 100
66- Para datos ordenados en una tabla de frecuencia
- La moda corresponde a la marca de clase más
frecuente
Rango de clase Rango de clase Marca clase Frec. Abs. Frec. Rel. Frec.Abs. Acumulada Frec.Rel. Acumulada
16 19 17.5 5 25 5 25
20 23 21.5 9 45 14 70
24 27 25.5 4 20 18 90
28 31 29.5 1 5 19 95
32 35 33.5 1 5 20 100
67La Mediana y la Moda no son afectadas por valores
extremos.
Analicemos el siguiente ejemplo Tasa de
mortalidad infantil en diferentes países (muertes
anuales/ 10000 habitantes)
Alemania 59
España 84
Inglaterra 78
Italia 41
Japón 47
Noruega 78
Nueva Zelanda 102
EEUU 61
Somalia 748
Media 144 muertes/10000
Mediana 78 muertes/10000
Moda 78 muertes/10000
68Relaciones entre medidas de tendencia central
69- Ahora que podemos describir nuestra población a
partir de una medida central. - Qué mas sería interesante conocer y estimar?
Analicemos la siguiente figura
Las MEDIAS y las MEDIANAS son iguales. Pero las
DISTRIBUCIONES son diferentes
70Medidas de Dispersión o Variabilidad
- Adicionalmente a la medición de tendencia
central, es recomendable tener una medición de la
dispersión de los datos. - De esta manera es posible tener una idea de cuan
esparcidos se encuentran las mediciones en torno
al centro de la distribución
71Existen variados estadísticos de dispersión, los
más utilizados son
- El Rango
- Suma de la desviaciones de la media al cuadrado
(SS). - Varianza (S)
- Desviación estándar (DE ó S2)
- Coeficiente de variación (CV)
- Los Cuantíles
72El Rango
- Corresponde a la diferencia entre el dato mayor y
el dato menor.
Rango Xmax Xmin
73Suma de las desviaciones de la media al cuadrado
S S
- Este valor entrega una idea de cuán lejos se
encuentran los datos con respecto a la media. - Su compresión es clave para entender el
significado de cada una de las demás medidas de
dispersión que existen
74Reflexione con las siguientes preguntas
- Calcule la media y SS para el peso (grs) del
músculo abductor de las siguientes almejas 7.4,
8.1, 6.3, 8.6, 7.9, 6.9
Media 7.5 SS 3.08
- Porqué se emplean desviaciones de la media al
cuadrado? - Qué indica una SS grande?
- Qué indica una SS pequeño?
- Qué indica una SS igual a 0?
75Varianza
S2
- Corresponde a la media de la suma de cuadrados
(por eso es llamada media cuadrática)
Población
Muestra
Cuál es la diferencia entre una y otra?
76- La varianza de una muestra esta dividida por n-1
(llamado grados de libertad o GL), - Esto permite una estimación no segada y más
conservadora ya que no sobreestima el valor de s2
que presenta un N desconocido
77Desviación Estándar
S
- Simplemente es estimada a través la raíz cuadrada
de la varianza. - Tener en cuenta que este valor tiene las mismas
unidades que las mediciones originales.
Calcular S2 y S a partir de los datos anteriores
78Coeficiente de Variación
C V
- Es el cuociente de la desviación estándar y la
media aritmética, expresado en porcentaje.
79- El coeficiente de variación expresa la
variabilidad de la muestra relativa a la media de
la muestra
Tamaño de las orejas de elefantes y ratones
Ratones Elefantes
Media 0.78 cm 78.0 cm
DS 0.26 cm 26.0 cm
En que especie varia más el tamaño de orejas
CV 33.3 33.3
- La desviación estándar y la varianza tienen
magnitudes que son dependientes de los datos. - El Coeficiente de variación NO
80Medidas de posición. Cuantíles
- Son estadísticos que dividen una distribución de
frecuencias en cuatro, diez o cien partes iguales
- La mediana es el valor que se encuentra en la
mitad de nuestra distribución (es decir es el
50avo percentil),
Otros cuantíles son Cuartíles (4), Quintiles
(5), Decíles (10), Percentíles (100)
81- Los cuartíles son estadísticos que dividen en
cuatro partes iguales nuestra información, donde
cada parte incluye el 25 de las observaciones
1er cuartíl
2do cuartíl 2do cuartíl
3er cuartíl 3er cuartíl 3er cuartíl
25 25 25 25
Mediana
Rango Intercuartílico
82- Con la siguiente formula es posible calcular
cualquier percentil, determinado la posición de
la variable en un set de datos
Percentil buscado
Ejemplo
5 5 7 8 9 9 9 10 12 14 14 15 17 18 25 30 31 64 72 88 89 90 92 98
Ranking 4 Ranking 4 Ranking 4 Ranking 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Calcular la media DS
34.6 ? 34.1
Son estos los mejores estadísticos para este
caso?
83Veamos con el Rango intercuartílico
5 5 7 8 9 9 9 10 12 14 14 15 17 18 25 30 31 64 72 88 89 90 92 98
Ranking 4 Ranking 4 Ranking 4 Ranking 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
En posición 12.5. Valor 16
Primer cuartíl (25avo percentil)
Tercer cuartíl (75avo percentil)
(24 1) x 0.75 18.75
(24 1) x 0.25 6.25
X18 64 y X1972 entonces (72-64)x0.75 6 Valor
646 70
X6 y X7 9 entonces Valor 9
84Percentiles en tablas de frecuencia
Cálculo de rango intercuartílico
- Se procede de la misma forma con la que se
calculó la mediana. - Pero ahora no estamos interesados en 50avo de
nuestra distribución. - Debemos encontrar las posiciones 25avo y 75avo.
Volvamos al ejemplo de los ostiones
85Consumo de proteínas (grs.) de 20 ostiones
Argopecten purpuratus
Rango de clase Rango de clase Marca de clase Frecuencia Absoluta Frec. absoluta acumulada
16 19 17.5 5 5
20 23 21.5 9 14
24 27 25.5 4 18
28 31 29.5 1 19
32 35 33.5 1 20
Per.25 Límite inferior 0.25n frec. acum. ant. x Ancho intervalo
del intervalo Nro. Obs en Intervalo
20
Q1 (percentil 25) (201) (0.25) 5.25
Per.75 Límite inferior 0.75n frec. acum. ant. x Ancho intervalo
del intervalo Nro. Obs en Intervalo
25
Q3 (percentil 75) (201) (0.75) 15.75
86Tener Presente
- Si los datos no se distribuyen en forma normal,
no se debe usar la DS y la Media como únicos y
exclusivos estimadores. - Para ello existen dos alternativas.
- Usar la mediana y el rango intercuartílico
- Mejor todavía, usar los cinco estimadores
-
Mínimo 1cuartil Mediana 3cuartil máximo
87- Una manera de presentar los 5 estimadores son los
gráficos de caja o BOX PLOT