En todo proceso de investigaci - PowerPoint PPT Presentation

1 / 40
About This Presentation
Title:

En todo proceso de investigaci

Description:

Dividir el intervalo en k intervalos de clase ... 70 155 349 0.310 0.698 31.0 67.5 70 – PowerPoint PPT presentation

Number of Views:60
Avg rating:3.0/5.0
Slides: 41
Provided by: Baru154
Category:

less

Transcript and Presenter's Notes

Title: En todo proceso de investigaci


1
En todo proceso de investigación se generan datos
y es la Estadística la disciplina encargada de
  • Organizarlos y resumir
    Estadística
  • la información
    Descriptiva
  • Extraer conclusiones
  • acerca de hipótesis
    Estadística
  • planteadas
    Inferencial


2
POBLACIÓN Y MUESTRA
  • POBLACIÓN
  • colección de elementos o sujetos de interés.
  • puede ser finita o infinita.
  • MUESTRA
  • subconjunto elegido al azar de la población.
  • - tamaño muestral n.


3
MUESTRA
  • Estimar Inferir
    acerca
  • características de hipótesis
  • POBLACIÓN

4
Tipos de datos
  • Numéricos
  • - discretos (determinados valores),
  • Ej nº de hermanos, nº accidentes.
  • - continuos (valores en un intervalo),
  • Ej concentración de glucosa en sangre.
  • Categóricos
  • ordinal (orden),
  • Ej estado de una enfermedad (severo, moderado,
    suave).
  • nominal (no orden),
  • Ej grupo sanguineo.

5
Estadística Descriptiva
  • - Provee de métodos que permitan organizar y
    resumir la información de los datos.
  • De acuerdo al conjunto de datos se seleccionará
    el método más adecuado.
  • cómo hacerlo?
  • Realizando Tablas de Distribución de
    frecuencias.
  • Medidas de posición o
    tendencia central.
  • Medidas de dispersión o
    variabilidad.
  • Gráficos.

6
Tabla de distribución de frecuencia
  • Tomar un intervalo que contenga al conjunto de
    datos.
  • Dividir el intervalo en k intervalos de clase
    (IC) tal que sean adyacentes y disjuntos.
  • Contar el número de observaciones en cada
    intervalo (FA).
  • Calcular las FR como el cociente entre la FA
    dividida n en cada uno de los k intervalos.

7
Observaciones
  • - Cómo elegir k?
  • No hay reglas generales.
  • Entre 5 a 20 intervalos.
  • Tomar k
  • Los intervalos no tienen por que tener igual
    longitud.
  • Además se tiene que

8
Histograma
  • Gráfico de mayor difusión y es la representación
    gráfica de la Tabla de distribución de
    frecuencia.
  • Cómo hacerlo?
  • - En una recta horizontal marcar los k
    intervalos.
  • - Sobre cada intervalo trazar un rectángulo
    cuya área sea proporcional al número de
    observaciones en el mismo.
  • Cómo elegir las alturas de los rectángulos?
  • Altura FR / Longitud del IC

9
Observaciones
  • Si los IC son de igual longitud entonces las
    alturas de los rectángulos son proporcionales a
    las FA o FR. Luego comparar dos IC se reduce a
    ver sus alturas.
  • Si los IC son de distintas longitudes entonces
    OJO!!!! Ahora para comparar dos IC debemos
    comparar las áreas de los IC y NO sus alturas.

10
Ejemplo 1
  • Para decidir el número de cajeras necesarias
    para en un supermercado, se requiere tener
    información sobre el tiempo (en minutos)
    requerido para atender a los clientes. Para tal
    fin, se tomó una muestra aleatoria de n60
    clientes y se midió el tiempo que se demora en
    atenderlos.

11
Los datos previamente ordenados de menor a mayor
fueron
  • 0.20 0.20 0.30 0.30 0.30 0.40 0.40
    0.40 0.50 0.50
  • 0.60 0.60 0.60 0.60 0.70 0.70 0.70
    0.80 0.80 0.80
  • 0.80 0.90 0.90 1.00 1.00 1.10 1.10
    1.10 1.10 1.10
  • 1.10 1.10 1.20 1.20 1.20 1.30 1.30
    1.30 1.40 1.40
  • 1.60 1.60 1.70 1.70 1.80 1.80 1.80
    1.80 1.90 1.90
  • 2.10 2.20 2.30 2.50 2.80 3.10 3.10
    3.60 4.50 5.20

12
Tabla de distribución de frecuencia
  • - Elección del número de intervalos de clase 
  • k ? ? 7.75 entonces tomar k 8.
  •   - Longitud de los intervalos de clase (IC)???
    si queremos una partición disjunta del intervalo
    0.2 , 5.2 en k8 intervalos de igual longitud
    (l), entonces esta debe ser igual
  • l (5.2 0.2) / 8 0.625

13
Tabla de distribución de frecuencia
  • IC FA
    FR
  • 0.2, 0.825) 21 21/60 ? 0.35
  • 0.825, 1.45) 19 19/60 ? 0.32
  • 1.45, 2.075) 10 10/60 ? 0.17
  • 2.075, 2.7) 4 4/60 ? 0.07
  • 2.7, 3.325) 3 3/60 ? 0.05
  • 3.325, 3.95) 1 1/60 ? 0.02
  • 3.95, 4.575) 1 1/60 ? 0.02
  • 4.575, 5.2 1 1/60 ? 0.02
  • n60
    1

14
Histograma de frecuencias relativas
15
Ejemplo 2Distribución del peso (x) en Kg de una
muestra de500 alumnos varones de una Universidad
Intervalo de clase FA FAA FR FRA Porcentaje Marca de clase
40 lt x 45 1 1 0.002 0.002 0.2 42.5
45 lt x 50 3 4 0.006 0.008 0.6 47.5
50 lt x 55 12 16 0.024 0.032 2.4 52.5
55 lt x 60 75 91 0.150 0.182 15.0 57.5
60 lt x 65 103 194 0.206 0.388 20.6 62.5
65 lt x 70 155 349 0.310 0.698 31.0 67.5
70 lt x 75 101 450 0.202 0.900 20.2 72.5
75 lt x 80 29 479 0.058 0.958 5.8 77.5
80 lt x 85 11 490 0.022 0.980 2.2 82.5
85 lt x 90 8 498 0.016 0.996 1.6 87.5
90 lt x 95 2 500 0.004 1.000 0.4 92.5
total 500 500 1.000 1.000 100.0 -
FAA Frecuencias absolutas acumuladas FRA
Frecuencias relativas acumuladas
16
(No Transcript)
17
Medidas de posición o tendencia central
Media muestral
  • Media muestral o Promedio (x1 x2
    xn ) / n .
  • Mejor estimador para la media poblacional ( ).
  • Propiedad de centro de masa
  •  
  • Desventaja Muy sensible a la presencia de datos
    extremos.
  • Ejemplo
  • A) 37, 40, 46, 50, 57
  • B) 37, 40, 46, 57, 200

µ
18
Mediana muestral
  • es un valor que deja el 50 de observaciones
    por encima como por debajo de el.
  • Puede o no ser un valor de la muestra.
  • Es el valor central o el promedio de los dos
    valores centrales si n es impar o par
    respectivamente.


x (n1)/2 si n es impar
x (n/2) x (n/2)1/2 si n es par.
19
  • Percentiles o cuantiles
  • - EL percentil i (p(i)) es aquel valor que
    acumula a su izquierda el i de los datos.
  • Luego el percentil 50 es lo que definimos como
    mediana.
  • Otros percentiles de interés son el 25 y 75,
    que denotamos con Q1 y Q3 respectivamente.
  • Cómo calcular Q1 y Q3 para un conjunto de datos?
  • Q1 es la mediana de las (n/2) o las a (n1)/2
    observaciones más pequeñas dependiendo que n sea
    par o impar respectivamente.
  • Q3 es la mediana de las (n/2) o las a
    (n1)/2observaciones más
  • grandes dependiendo que n sea par o impar
    respectivamente.


20
Medidas de dispersión o variabilidad
Para qué definir medidas de dispersión? Algunas
de las más conocidas Rango Varianza y Desviación
Estandar muestral Coeficiente de Variación Rango
intercuartil
21
Rango
Se define como la diferencia entre la máxima y
mínima observación, o sea (x (n) x (1)).
Fácil de calcular
Ventajas
Iguales unidades que los datos de origen
Considera solo dos valores de la muestra
Muestra 1 0, 5, 5, 5, 10
Desventaja
Muestra 2 0, 4, 5, 6, 10 La muestra 2 es más
variable que la 1!
22

Varianza muestral
Desviación Estandar muestral

Ventaja
Tiene las mismas unidades que los datos
Notar
Ambas utilizan el valor de la media muestral,
luego son sensibles a la presencia de datos
extremos.
Ejemplo muestra A 100 valores iguales a 10
muestra B 99 valores iguales a 10 y uno
igual a 1010
23
Rango intercuartil
  • f Q3 - Q1
  • Coeficiente de Variación

24
Notar
  • -El CV permite comparar la variabilidad de
    características medidas en distintas escalas,
    luego la que tenga menor CV será el de menor
    variabilidad.
  • Además el CV es adimensional.

Ejemplo
Medidas de altura de
Edificios 20m S 0.1m
Personas 1.70m S 0.02m
CV1,18
CV0,50
Luego el conjunto que tiene mayor variabilidad es
de las alturas de personas.
25
Algunos tipos de gráficos
  • Gráfico de barras o histograma.
  • Gráfico de caja.
  • Diagrama de dispersión.
  • Gráfico de densidad de puntos.
  • Q Q plot.

26
Guía para la construcción de un gráfico de caja
(box-plot)
  • En 1977, Tukey presentó un simple método
    gráfico-cuantitativo que resume varias de las
    características más destacadas de un conjunto de
    datos. Tal método se conoce con el nombre de
    gráfico de caja o box-plot.
  • Las características de los datos incorporadas
    por este gráfico son
  • a) centro o posición del valor más
    representativo,
  • b) dispersión,
  • c) naturaleza y magnitud de cualquier
    desviación de la simetría
  • d) identificación de los puntos no usuales o
    atípicos, o sea puntos marcadamente alejados de
    la masa principal de datos.

27
  • La presencia de datos atípicos producen
    cambios drásticos en la media muestral ( ) y la
    desviación estándar muestral (s), no así en otras
    medidas que son más resistentes o robustas, como
    lo son la mediana muestral ( ) y una medida de
    dispersión llamada rango intercuartil (RIQ).

28
  • Pasos a seguir para la construcción del box plot
  • Paso 1 Ordenar los datos de menor a mayor.
  • Paso 2 Calcular la media y mediana muestral, el
    cuartil superior (Q3), el cuartil inferior (Q1) y
    el RIQ.
  • Paso 3 Sobre un eje horizontal dibujar una caja
    cuyo borde izquierdo sea el cuartil inferior y el
    borde derecho el cuartil superior.
  • Paso 4 Dentro de la caja marcar con un punto la
    posición del promedio muestral y trazar un
    segmento perpendicular cuya posición corresponde
    al valor de la mediana.
  • Paso 5 Trazar segmentos desde cada extremo de la
    caja hasta las observaciones más alejadas, que no
    superen (1.5 RIQ) de los bordes correspondientes.
  • Paso 6 Si existen observaciones que superen (1.5
    RIQ) entonces marcarlos con circunferencias
    aquellos puntos comprendidos entre (1.5 RIQ) y (3
    RIQ) respecto del borde más cercano, estos
    puntos se llaman puntos anómalos suaves, y con
    asteriscos aquellos puntos que superen los (3
    RIQ) respecto de los bordes más cercanos, estos
    puntos se llaman puntos anómalos extremos.

29
  • Cálculos necesarios para realizar el Gráfico de
    Caja para el Ejemplo 1.
  • Summary Statistics for data in tiempo
  • tiempo
  • Min 0.200000
  • 1st Qu. 0.700000
  • Mean 1.366667
  • Median 1.100000
  • 3rd Qu. 1.800000
  • Max 5.200000
  • Std Dev. 1.002652
  • Luego el Rango intercuartil
  • fs Q3 - Q1 1.8 - 0.7 1.1
  • 1.5 fs 1.65 y 3 fs 3.3
  • Q1 - 1.5 fs - 0.95 , Q1 - 3 fs
    - 2.6
  • Q3 1.5 fs 3.45 , Q3 3 fs 5.1
  • Luego como el mínimo es 0.2, NO HAY DATOS
    ATIPICOS en el extremo inferior.

30
(No Transcript)
31
Ejemplo Los siguientes valores de contenido de
un metabolito en la sangre de un paciente en 13
extracciones diferentes
11,6 39,2 4,9 7,3 50,6 9,8 11,6 6,7 42,1 14,4 5,1 48,8 15,9
Los datos están informados en mg.L-1. Haga un
gráfico de densidad de puntos y analice los
resultados.
32
(No Transcript)
33
Ejemplo La siguiente tabla muestra los
resultados de un experimento de respuesta a una
dosis, realizado a tres grupos con 5 animales a
los que se les aplicaron una dosis.
Dosis (mg) Respuesta
1 8, 12, 9, 14, 6
2 16, 20, 12, 15, 17
4 20, 17, 25, 27, 16
Qué gráfico haría ?
34
Grafico de cajas
Grafico de puntos.
35
EjemploLos datos que mostrare corresponden a una
tesina de alumnas de la Escuela de Nutrición
(Facultad de Medicina, UNC).
  • Tema de la tesinaIngesta de líquidos en el
    Adulto Mayor (AM).
  • Selección de la muestraLa muestra fue tomada de
    un grupo de AM que asisten al Comedor del Centro
    de Jubilados de un Barrio de la ciudad de Córdoba.

36
Algunos de los objetivos de este trabajo fueron
  • Conocer la ingesta diaria de líquidos en AM, a
    partir de alimentos ricos en agua.
  • Comparar la ingesta diaria de líquidos en AM por
    sexo.
  • Determinar si los AM cumplen con las
    recomendaciones para la ingesta diaria de
    líquidos por sexo. Las recomendaciones diarias de
    líquido por sexo son las siguientes en mujeres
    debe ser de por lo menos 2,7 litros y en varones
    de por lo menos 3,7 litros.

37
  • Dos de las variables que nosotros
    consideraremos serán la ingesta diaria total de
    líquido (llamada Total litros) y el sexo del AM.
  • Estadística descriptiva para la variable ingesta
    diaria total de líquido
  • n Media D.E. Var(n-1) Mín Máx Mediana
    Q1 Q3
  • 97 3,0213 1,0920 1,1925 0,7888 7,3943
    3,0495 2,3570 3,5496

38
  • Estadística descriptiva para la variable
    ingesta diaria total de líquido por sexo
  • SEXO n Media D.E. Var(n-1) Mín Máx
    Mediana Q1 Q3
  • F 63 3,0993 1,1344 1,2870 0,7888 7,394
    3 3,1168 2,3727 3,5877
  • M 34 2,8766 1,0089 1,0179 1,1947 5,4458
    2,8861 1,9777 3,4463

39
  • Gráficos de caja

40
  • Con el objetivo de responder a algunos
    interrogantes del estudio se debieron realizar
    algunas pruebas de hipótesis, las cuales forman
    parte de lo que llamamos la Estadística
    Inferencial.
  • Para tener una mejor comprensión de la
    Estadística Inferencial necesitamos de una medida
    llamada PROBABILIDAD.
Write a Comment
User Comments (0)
About PowerShow.com