Felipe Sep - PowerPoint PPT Presentation

About This Presentation
Title:

Felipe Sep

Description:

Estad stica (Bioestad stica) Felipe Sep lveda L pez Bi logo Marino fsl001_at_ucn.cl 2003 Estad stica Biolog a Marina No soy un estad stico. Tesis 2002 en – PowerPoint PPT presentation

Number of Views:85
Avg rating:3.0/5.0
Slides: 88
Provided by: Felip58
Category:

less

Transcript and Presenter's Notes

Title: Felipe Sep


1
Estadística (Bioestadística)
  • Felipe Sepúlveda López
  • Biólogo Marino

fsl001_at_ucn.cl
2
Sobre mi
  • No soy un estadístico.
  • Tesis 2002 en
  • Magíster en Cs. del Mar
  • El énfasis del curso esta en la práctica de la
    herramienta estadística y no en los teoremas y
    demostraciones.

3
Porque deberíamos saber algo de estadistica?
  • Es necesario aprender las propiedades de la
    estadística, para utilizarla en diseños
    experimentales y análisis de datos.
  • Como biólogos debemos desarrollar nuestra
    habilidad para discriminar argumentos científicos
    (o pseudo-científicos).

4
Que es lo que espero de Uds.
  • ATENCIÓN en la clases y Ayudantías
  • Retroalimentación hacia mi con respecto a lo que
    les gusta y no les gusta del curso.
  • (criticas constructivas)

5
Objetivos del Curso
  • Entender los principales fundamentos de la
    estadística descriptiva e inferencial.
  • Entender los principios generales sobre los
    cuales están basados los test estadísticos más
    comunes utilizados en biología.

6
  • Conocer los principales supuestos
    (pre-requisitos), de los test más comunes y
    entender el impacto de sus violaciones.
  • Ser capaz de desarrollar variados análisis
    estadísticos utilizando las herramientas de Excel
    y SYSTAT.

7
Clases y Ayudantía
  • Cátedra
  • Lunes 1400 - 1530 (Sala 12).
  • Martes 1400 1530 (Sala 10).
  • Ayudantía
  • 1) Miércoles 1400 1530 (Sala 1).
  • 2) Miércoles 955 1125 (Sala 1).

Laboratorio de Computación Laboratorio de Computación
Lunes 14 Abril Miércoles - 16 Abril
Lunes 12 Mayo Miércoles 14 Mayo
Lunes 9 Junio Miércoles 11 Junio
Lunes 14 Julio Miércoles 16 Julio
8
Evaluación
1 prueba 30 13 Mayo 2003 2 prueba
30 1 Julio 2003 Seminario 40
8 Julio 2003
9
Textos
  • Guía del curso estadística de biología marina.
    UCN, 2003.
  • Zar, J.H. 2000. Biostatistical Analysis (4th
    edition), Prentice-Hall, Upper saddle River, New
    Jersey.
  • Spiegel, M.R. 1991. Estadística. McGrawHill.
  • STEEL, R.G.D. and TORRIE, 1980, J.H. Principles
    and procedures of statistics a biometrical
    approach. 2.ed. New York McGraw-Hill,. 631p.
  • Sokal, R.L. F.J. Rohlf. 1995. Biometry (3rd
    edition), W.H. Freman Co., New York, or

10
Preparación de clases.
  • Leer el capítulo apropiado desde los textos
    mencionados y traer las preguntas clases.
  • Si tienen alguna preguntaPreguntar
    inmediatamente!. No existen las preguntas
    estupidas.
  • Para las ayudantías, se debe manejar los
    contenidos para practicar con ejercicios.

11
  • Siempre venir a clases y ayudantías con
  • Guía de clases, con tablas
  • CALCULADORA
  • Por favor no sean participantes pasivos de la
    clase.

12
Qué es la Estadística?
  • Estadísticas (plural) Datos recogidos de forma
    sistemática para obtener información sobre un
    tema (demográfico, social, económico, biológico,
    etc..)
  • Ejemplo Captura de Anchovetas, goles del último
    clásico.
  • Estadística (singular) Disciplina que comprende
    técnicas de recolección, presentación, análisis e
    interpretación. Permite poner a prueba de
    hipótesis y tomar decisiones en base a la teoría
    de probabilidades.
  • Bio-Estadística aplicación de herramientas de
    estadística en el área biológica

13
Algunas utilidades de la Estadística
Descripción Diseño Test de hipótesis
Provee de resúmenes de datos. Ayuda a descubrir patrones o tendencias. Evalúa la magnitud y dirección de los efectos experimentales. Ayuda al diseño de experimentos y estudios de campo. Permite tomar decisiones a priori sobre la utilidad de algún experimento. Evalúa hipótesis biológicas a través de tests, para verificar si los patrones observados son consistentes con las predicciones.
14
Tipos de estadística (función)
  • Descriptiva
  • Analiza una población sin pretender sacar
    conclusiones generales (conclusiones validas para
    dicha población)
  • Ordenamiento y descripción de un conjunto de
    datos
  • Inferencial
  • Tiene como propósito inducir leyes de
    comportamiento de una población a partir de
    muestras.
  • A partir de una muestra se obtienen conclusiones
    de toda la población

15
Usos de la estadística Descripción Síntesis.
  • Generar un resumen de los datos.
  • Ayuda a descubrir tendencias (inducción) a través
    de la examinación de resúmenes de patrones
    estadísticos
  • Para tener en cuenta En un resumen estadístico
    mucha información se pierde. Por lo tanto,
    SIEMPRE se debe conservar los datos crudos!

16
Usos de la estadística Inferencial.
  • Las diferencias observadas son reales o
    simplemente provocadas por accidente?
  • Para responder esta pregunta, necesitamos conocer
    la probabilidad de que los resultados observados
    se deban efectivamente a un accidente o
    coincidencia?
  • Los test estadísticos nos permiten calcular esta
    probabilidad y elaborar conclusiones

17
Usos de la estadística Diseño experimental.
  • Focalización del esfuerzo
  • Decidir a priori sobre la utilidad de un
    experimento

18
Toma de muestras o muestreo
  • Población o Universo Corresponde a todo el grupo
    de cosas animales o personas sobre las que
    queremos obtener información. (esta definida en
    base a nuestros requerimientos)
  • Unidad Miembro individual de la población.
  • Muestra Porción de la población sobre la que
    tomamos información para obtener conclusiones
    sobre la población.
  • Variable Característica de una unidad, que es
    medida en todas la unidades de la muestra.

19
Población Muestra Variable
Mujeres y hombres chilenos, entre 16 a 26 años. 100 hombres y mujeres jóvenes de todas las capitales regionales de Chile. Nivel de nicotina medida en una muestra sanguínea.
20
Lo que la estadística puede y no puede hacer
Puede NO Puede
Proveer de criterios objetivos para evaluar hipótesis. Ayuda a optimizar esfuerzos Ayuda a evaluar críticamente argumentos Decir la verdad absoluta (solo una verdad probabilística) Ayudar a un diseño pobre Indicar significancia biológica La significancia estadística no significa signifcancia biológica (vice versa)
21
Tipos de Variables (datos) Biológicas.
  • Datos en Escala Proporcional
  • Existe un tamaño de intervalos constante, entre
    unidades adyacentes.
  • Existe un punto 0 que presenta significado
    físico.
  • Ej tamaños, conteos, pesos, volúmenes.
  • Datos en Escala de Intervalos
  • Poseen un tamaño de intervalos constante, entre
    unidades adyacentes.
  • No tienen un punto 0 con valor físico.
  • Ej temperatura en C o F.

22
Tipos de Variables (datos) Biológicas.
  • Datos en Escala Ordinal (orden)
  • Existe una diferencia relativa entre las
    magnitudes de nuestras variables.
  • Ej Tamaño celular 1,2 o 3 Color mas oscuro, mas
    claro, intermedio.
  • Datos en Escala Nominal
  • La variable se identifica por una cualidad
    atributo de esta.
  • Ej Fenotipos como color de ojos, cabello.
    Machos o Hembras.

23
Datos Continuos y Discretos
  • Continuas Permiten cualquier valor entre un
    determinado rango de mediciones observadas.
  • Ej. Altura de 35-36cm, entre ellas puede estar
    35.2 o 35.1888 o 35.18878456.
  • Discretas Variables que pueden tomar solo
    valores enteros.
  • Ej Número de ostiones, personas.

24
Exactitud (accuracy)
  • Qué tan cerca se encuentra nuestro valor
    observado del valor real?

b es el modelo mas exacto Los valores
observados están, en promedio, mas cerca de los
observados
25
Precisión
  • Qué tan cerca se encuentra, una de otra
    medición, realizadas sobre una misma variable?
  • Se encuentra altamente influenciada por la
    experiencia y rigurosidad de quien realiza la
    medición.

26
Precisión v/s Exactitud
27
Tipos de Escalas de Datos
  • Escala Proporcional
  • Escala Intervalos
  • Escala Ordinal
  • Escala Nominal
  • Datos Continuos
  • Datos Discretos

28
(No Transcript)
29
Figuras Significativas y Redondeo de Datos
  • Los dígitos de un número que denotan la exactitud
    la medición Fig. Significativa.
  • Ejemplos

7 cm 1
7.04 cm 3
7.14 cm 3
7.90 cm ?
30
Más Casos
En notación científica
255
25.5
2.55
0.255
0.0255
2.55 x 102
2.55 x 101
2.55
2.55 x 10-1
2.55 x 10-2
Todos tienen 3 cifras significativas
31
Rangos Implicados
  • El largo del ala de una mariposa es de 5.4 cm.
  • Esta medición implica una exactitud de 0.1cm
  • Por convención, teóricamente el largo del ala de
    la mariposa está entre 5.35 5.45

Rango implicado a nuestra exactitud
32
Otros ejemplos
Valor Rango Figuras Significativas Exactitud
8 7.5 - 8.5 1 1
8.3 8.25 8.35 2 0.1
8.32 8.315 8.325 3 0.01
33
Aproximaciones y Redondeo
78.3 79
145.6 146
48.5 48
57.5 58
34
Distribuciones de Frecuencias
  • Tablas de frecuencias Clasificación,
    ordenamiento y resumen de una gran cantidad de
    información.
  • Consiste simplemente en
  • Una lista de los valores observados en la
    variable bajo estudio.
  • Cuantas veces este valor se repite.

35
Ubicación de nidos de gorriones
Tabla de Frecuencias
Distribución de Frecuencias
Ubicación Número de nidos observados
a- Canaletas 56
b- Balcones 60
c- Cavidades de Construcciones 46
d- Ramas de Árboles 49
36
Confección de tabla
  • Como construimos una tabla de frecuencias cuando
    nuestros datos no son nominales?

Para empezar determinar Rango de
datos Número de clases Amplitud de
intervalo de clases Determinar rango clase
37
Rango de datos
  • Distancia entre el dato máximo y mínimo

38
Consumo de proteínas de 20 ostiones de
laboratorio.
21 25 35 22 18
24 21 23 16 23
27 17 26 19 29
20 19 20 23 22
39
Número de Clases
  • Número de categorías o intervalos en el que se va
    a dividir la información

Se puede determinar arbitrariamente en base a la
variación de nuestros datos. Generalmente varía
entre 5 a 20 categorías
En este ejemplo se utilizarán 5 clases.
40
Amplitud de intervalo
  • Cantidad de datos que están comprendidos en un
    intervalo de clase.

Del ejemplo 19/5 3.8 4 Solo se
aproxima si los datos son discretos o enteros
41
Rango de clase
  • Significa hallar los límites inferiores y
    superiores de cada intervalo
  • Para ello al dato menor se le suma la amplitud
    del intervalo (4 en este caso).
  • La marca de clase corresponde al valor medio
    ubicado en cada rango de clase.

42
21 25 35 22 18
24 21 23 16 23
27 17 26 19 29
20 19 20 23 22
Rango de clase Rango de clase Marca clase
16 19 17.5




Amplitud de intervalo
16, 17, 18 y 19 4
Cómo queda el resto de la tabla?
Marca de clase
43
Debería quedar así
Rango de clase Rango de clase Marca clase
16 19 17.5
20 23 21.5
24 27 25.5
28 31 29.5
32 35 33.5
44
Frecuencia Absoluta
  • Es el número de veces que se repiten los valores
    dentro de los diferentes intervalos en que se ha
    dividido la información

Rango de clase Rango de clase Marca clase Frecuencia Absoluta
16 19 17.5 5
20 23 21.5
24 27 25.5
28 31 29.5
32 35 33.5
45
Frecuencia Relativa
  • Es el valor que resulta al dividir cada una de
    las frecuencias absolutas entre el total de
    frecuencias o datos y multiplicarlas por 100 para
    que sean expresadas en porcentaje

Rango de clase Rango de clase Marca clase Frec. Abs. Frecuencia Relativa
16 19 17.5 5 25
20 23 21.5
24 27 25.5
28 31 29.5
32 35 33.5
46
Frecuencia Absoluta Acumulada
  • Se obtiene sumando y acumulando los valores
    absolutos clase por clase en orden ascendente

Rango de clase Rango de clase Marca clase Frec. Abs. Frec. Rel. Frec.Abs. Acumulada
16 19 17.5 5 25 5
20 23 21.5
24 27 25.5
28 31 29.5
32 35 33.5
47
Frecuencia Relativa Acumulada
  • Se obtiene sumando y acumulando los valores
    relativos clase por clase en orden ascendente

Rango de clase Rango de clase Marca clase Frec. Abs. Frec. Rel. Frec.Abs. Acumulada Frec.Rel. Acumulada
16 19 17.5 5 25 5 25
20 23 21.5
24 27 25.5
28 31 29.5
32 35 33.5
Cómo queda el resto de la tabla?
48
Debería quedar así
Consumo de proteínas (grs.) de 20 ostiones
Argopecten purpuratus
Rango de clase Rango de clase Marca clase Frec. Abs. Frec. Rel. Frec.Abs. Acumulada Frec.Rel. Acumulada
16 19 17.5 5 25 5 25
20 23 21.5 9 45 14 70
24 27 25.5 4 20 18 90
28 31 29.5 1 5 19 95
32 35 33.5 1 5 20 100
49
Representación gráfica de tablas de frecuencia
  • Histograma
  • Se obtienen al graficar las marcas de clase
    (abscisa) versus la frecuencia (ordenada).

50
Polígono de Frecuencias
  • Se produce fácilmente al conectar con una línea
    las marcas de clases adyacentes.

51
Ojivas
  • Se obtienen al graficar las frecuencias
    acumuladas absolutas o relativas

52
Tipos de distribuciones de frecuencia
  • En función de la forma

53
En función de la dispersión
54
Medidas Descriptivas Numéricas
A través de este tipo de estimaciones es posible
hacer generalizaciones del todo a partir de una
parte del todo
  • Conceptos para tener en cuenta
  • Población
  • Muestra
  • Muestras aleatorias
  • Parámetros
  • Estadísticos

55
  • Población o Universo Corresponde a todo el grupo
    de cosas animales o personas sobre las que
    queremos obtener información. (esta definida en
    base a nuestros requerimientos)
  • Muestra Porción de la población sobre la que
    tomamos información para obtener conclusiones
    sobre la población.

56
Muestra aleatoria
  • Requisito clave
  • Cada miembro de la población debe tener una
    opción igual e independiente de ser elegido

Pero En la mayoría de los casos no es posible
asignar número aleatorios. Es necesario tener
en cuenta consideraciones biológicas mas que
matemáticas.
57
De esta manera
  • Una muestra tomada aleatoriamente, debe
    representar a la población.
  • Si la muestra es representativa de mi población,
    entonces podemos inferir cosas de la población,
    con cierto nivel de seguridad y exactitud.

58
Parámetros y Estadísticos
  • Toda medición o estimación que este
    caracterizando y describiendo a nuestra población
    es llamada PARAMETRO.
  • Raramente es posible calcular parámetros
  • Porque?

59
Solución
  • Realizar estimaciones de un parámetro poblacional
    mediante
  • ESTADISTICOS

Todo buen estadístico debe ser Insesgado Co
nsistente Eficiente
60
Medidas de Tendencia Central
La Media
  • Representa a la suma de las observaciones
    divididas por el número de observaciones

61
  • Con datos agrupados se calcula por

62
Comentarios acerca de la media.
  • La media es un número ÚNICO
  • La media de la muestra ( ), es un buen estimador
    de ?
  • Es un estadístico poco resistente, ya que es
    fuertemente influenciado por los valores extremos

63
Me La Mediana
  • Es el valor medio.
  • Esto es el punto medio de las observaciones
    cuando estas han sido ordenas en orden ascendente

Impares Pares
Me X(n1)/2 Me(Xn/2 Xn/21)/2
11,13,15,16,17 11,13,15,16,17, 20
Me 15 Me 15.5
64
  • Con datos agrupados se calcula por

Me Límite inferior 0.5n frec. acum. ant. x Ancho intervalo
del intervalo Nro. Obs en Intervalo
Rango de clase Rango de clase Marca clase Frec. Abs. Frec. Rel. Frec.Abs. Acumulada Frec.Rel. Acumulada
16 19 17.5 5 25 5 25
20 23 21.5 9 45 14 70
24 27 25.5 4 20 18 90
28 31 29.5 1 5 19 95
32 35 33.5 1 5 20 100
Me (20) ((0.5x20)-5)/9 x 4 22.2
65
La Moda
  • La moda el valor mas frecuente.
  • Es decir, el valor que más se repite dentro de
    las observaciones realizadas.

Ejemplo Datos del coeficiente intelectual de un
grupo de alumnos 100, 95, 105, 110,
100. Entonces la moda es 100
66
  • Para datos ordenados en una tabla de frecuencia
  • La moda corresponde a la marca de clase más
    frecuente

Rango de clase Rango de clase Marca clase Frec. Abs. Frec. Rel. Frec.Abs. Acumulada Frec.Rel. Acumulada
16 19 17.5 5 25 5 25
20 23 21.5 9 45 14 70
24 27 25.5 4 20 18 90
28 31 29.5 1 5 19 95
32 35 33.5 1 5 20 100
67
La Mediana y la Moda no son afectadas por valores
extremos.
Analicemos el siguiente ejemplo Tasa de
mortalidad infantil en diferentes países (muertes
anuales/ 10000 habitantes)
Alemania 59
España 84
Inglaterra 78
Italia 41
Japón 47
Noruega 78
Nueva Zelanda 102
EEUU 61
Somalia 748
Media 144 muertes/10000
Mediana 78 muertes/10000
Moda 78 muertes/10000
68
Relaciones entre medidas de tendencia central
69
  • Ahora que podemos describir nuestra población a
    partir de una medida central.
  • Qué mas sería interesante conocer y estimar?

Analicemos la siguiente figura
Las MEDIAS y las MEDIANAS son iguales. Pero las
DISTRIBUCIONES son diferentes
70
Medidas de Dispersión o Variabilidad
  • Adicionalmente a la medición de tendencia
    central, es recomendable tener una medición de la
    dispersión de los datos.
  • De esta manera es posible tener una idea de cuan
    esparcidos se encuentran las mediciones en torno
    al centro de la distribución

71
Existen variados estadísticos de dispersión, los
más utilizados son
  • El Rango
  • Suma de la desviaciones de la media al cuadrado
    (SS).
  • Varianza (S)
  • Desviación estándar (DE ó S2)
  • Coeficiente de variación (CV)
  • Los Cuantíles

72
El Rango
  • Corresponde a la diferencia entre el dato mayor y
    el dato menor.

Rango Xmax Xmin
73
Suma de las desviaciones de la media al cuadrado
S S
  • Este valor entrega una idea de cuán lejos se
    encuentran los datos con respecto a la media.
  • Su compresión es clave para entender el
    significado de cada una de las demás medidas de
    dispersión que existen

74
Reflexione con las siguientes preguntas
  • Calcule la media y SS para el peso (grs) del
    músculo abductor de las siguientes almejas 7.4,
    8.1, 6.3, 8.6, 7.9, 6.9

Media 7.5 SS 3.08
  • Porqué se emplean desviaciones de la media al
    cuadrado?
  • Qué indica una SS grande?
  • Qué indica una SS pequeño?
  • Qué indica una SS igual a 0?

75
Varianza
S2
  • Corresponde a la media de la suma de cuadrados
    (por eso es llamada media cuadrática)

Población
Muestra
Cuál es la diferencia entre una y otra?
76
  • La varianza de una muestra esta dividida por n-1
    (llamado grados de libertad o GL),
  • Esto permite una estimación no segada y más
    conservadora ya que no sobreestima el valor de s2
    que presenta un N desconocido

77
Desviación Estándar
S
  • Simplemente es estimada a través la raíz cuadrada
    de la varianza.
  • Tener en cuenta que este valor tiene las mismas
    unidades que las mediciones originales.

Calcular S2 y S a partir de los datos anteriores
78
Coeficiente de Variación
C V
  • Es el cuociente de la desviación estándar y la
    media aritmética, expresado en porcentaje.

79
  • El coeficiente de variación expresa la
    variabilidad de la muestra relativa a la media de
    la muestra

Tamaño de las orejas de elefantes y ratones
Ratones Elefantes
Media 0.78 cm 78.0 cm
DS 0.26 cm 26.0 cm
En que especie varia más el tamaño de orejas
CV 33.3 33.3
  • La desviación estándar y la varianza tienen
    magnitudes que son dependientes de los datos.
  • El Coeficiente de variación NO

80
Medidas de posición. Cuantíles
  • Son estadísticos que dividen una distribución de
    frecuencias en cuatro, diez o cien partes iguales
  • La mediana es el valor que se encuentra en la
    mitad de nuestra distribución (es decir es el
    50avo percentil),

Otros cuantíles son Cuartíles (4), Quintiles
(5), Decíles (10), Percentíles (100)
81
  • Los cuartíles son estadísticos que dividen en
    cuatro partes iguales nuestra información, donde
    cada parte incluye el 25 de las observaciones

1er cuartíl
2do cuartíl 2do cuartíl
3er cuartíl 3er cuartíl 3er cuartíl
25 25 25 25
Mediana
Rango Intercuartílico
82
  • Con la siguiente formula es posible calcular
    cualquier percentil, determinado la posición de
    la variable en un set de datos

Percentil buscado
Ejemplo
5 5 7 8 9 9 9 10 12 14 14 15 17 18 25 30 31 64 72 88 89 90 92 98
Ranking 4 Ranking 4 Ranking 4 Ranking 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Calcular la media DS
34.6 ? 34.1
Son estos los mejores estadísticos para este
caso?
83
Veamos con el Rango intercuartílico
5 5 7 8 9 9 9 10 12 14 14 15 17 18 25 30 31 64 72 88 89 90 92 98
Ranking 4 Ranking 4 Ranking 4 Ranking 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
En posición 12.5. Valor 16
  • Mediana ?
  • Rango intercuartílico

Primer cuartíl (25avo percentil)
Tercer cuartíl (75avo percentil)
(24 1) x 0.75 18.75
(24 1) x 0.25 6.25
X18 64 y X1972 entonces (72-64)x0.75 6 Valor
646 70
X6 y X7 9 entonces Valor 9
84
Percentiles en tablas de frecuencia
Cálculo de rango intercuartílico
  • Se procede de la misma forma con la que se
    calculó la mediana.
  • Pero ahora no estamos interesados en 50avo de
    nuestra distribución.
  • Debemos encontrar las posiciones 25avo y 75avo.

Volvamos al ejemplo de los ostiones
85
Consumo de proteínas (grs.) de 20 ostiones
Argopecten purpuratus
Rango de clase Rango de clase Marca de clase Frecuencia Absoluta Frec. absoluta acumulada
16 19 17.5 5 5
20 23 21.5 9 14
24 27 25.5 4 18
28 31 29.5 1 19
32 35 33.5 1 20
Per.25 Límite inferior 0.25n frec. acum. ant. x Ancho intervalo
del intervalo Nro. Obs en Intervalo
20
Q1 (percentil 25) (201) (0.25) 5.25
Per.75 Límite inferior 0.75n frec. acum. ant. x Ancho intervalo
del intervalo Nro. Obs en Intervalo
25
Q3 (percentil 75) (201) (0.75) 15.75
86
Tener Presente
  • Si los datos no se distribuyen en forma normal,
    no se debe usar la DS y la Media como únicos y
    exclusivos estimadores.
  • Para ello existen dos alternativas.
  • Usar la mediana y el rango intercuartílico
  • Mejor todavía, usar los cinco estimadores

Mínimo 1cuartil Mediana 3cuartil máximo
87
  • Una manera de presentar los 5 estimadores son los
    gráficos de caja o BOX PLOT
Write a Comment
User Comments (0)
About PowerShow.com