Estad - PowerPoint PPT Presentation

About This Presentation
Title:

Estad

Description:

Estad stica Elementos Introductorios Definici n La Estad stica es la tecnolog a de la Sistematizaci n, recogida, ordenaci n y presentaci n de los datos ... – PowerPoint PPT presentation

Number of Views:76
Avg rating:3.0/5.0
Slides: 27
Provided by: Fco75
Category:

less

Transcript and Presenter's Notes

Title: Estad


1
Estadística
  • Elementos Introductorios

2
Definición
  • La Estadística es la tecnología de la
  • Sistematización, recogida, ordenación y
    presentación de los datos referentes a un
    fenómeno que presenta variabilidad o
    incertidumbre para su estudio metódico, con
    objeto de
  • deducir las leyes que rigen esos fenómenos,
  • y poder de esa forma hacer previsiones sobre los
    mismos, tomar decisiones u obtener conclusiones.

Descriptiva
Probabilidad
Inferencia
3
Población y muestra
  • Población (population) es el conjunto sobre el
    que estamos interesados en obtener conclusiones
    (hacer inferencia).
  • Normalmente es demasiado grande para poder
    abarcarlo.
  • Muestra (sample) es un subconjunto suyo al que
    tenemos acceso y sobre el que realmente hacemos
    las observaciones (mediciones)
  • Debería ser representativo
  • Esta formado por miembros seleccionados de la
    población (individuos, unidades experimentales).

4
Variables
  • Una variable es una característica observable que
    varía entre los diferentes individuos de una
    población. La información que disponemos de cada
    individuo es resumida en variables.
  • En los individuos de la población colombiana, de
    uno a otro es variable
  • El grupo sanguíneo
  • A, B, AB, O ? Var. Cualitativa
  • Su nivel de felicidad declarado
  • Deprimido, Ni fu ni fa, Muy Feliz ? Var.
    Ordinal
  • El número de hijos
  • 0,1,2,3,... ? Var. Numérica discreta
  • La altura
  • 162 174 ... ? Var. Numérica continua

5
Tipos de variables
  • CualitativasSi sus valores (modalidades) no se
    pueden asociar naturalmente a un número (no se
    pueden hacer operaciones algebraicas con ellos)
  • Nominales Si sus valores no se pueden ordenar
  • Sexo, Grupo Sanguíneo, Religión, Nacionalidad,
    Fumar (Sí/No)
  • Ordinales Si sus valores se pueden ordenar
  • NBI, Grado de satisfacción, Intensidad del dolor
  • Cuantitativas o NuméricasSi sus valores son
    numéricos (tiene sentido hacer operaciones
    algebraicas con ellos)
  • Discretas Si toma valores enteros
  • Número de hijos, Número de cigarrillos, Num. de
    cumpleaños
  • Continuas Si entre dos valores, son posibles
    infinitos valores intermedios.
  • Altura, Presión intraocular, Dosis de medicamento
    administrado, edad

6
  • Los posibles valores de una variable suelen
    denominarse modalidades.
  • Las modalidades pueden agruparse en clases
    (intervalos)
  • Edades
  • Menos de 20 años, de 20 a 50 años, más de 50
    años
  • Hijos
  • Menos de 3 hijos, De 3 a 5, 6 o más hijos
  • Las modalidades/clases deben forman un sistema
    exhaustivo y excluyente
  • Exhaustivo No podemos olvidar ningún posible
    valor de la variable
  • Mal Cuál es su color del pelo (Rubio, Moreno)?
  • Bien Cuál es su grupo sanguíneo?
  • Excluyente Nadie puede presentar dos valores
    simultáneos de la variable
  • Estudio sobre el ocio
  • Mal De los siguientes, qué le gusta (deporte,
    cine)
  • Bien Le gusta el deporte (Sí, No)
  • Bien Le gusta el cine (Sí, No)
  • Mal Cuántos hijos tiene (Ninguno, Menos de 5,
    Más de 2)

7
Presentación ordenada de datos
Género Frec.
Hombre 4
Mujer 6
  • Las tablas de frecuencias y las representaciones
    gráficas son dos maneras equivalentes de
    presentar la información. Las dos exponen
    ordenadamente la información recogida en una
    muestra.

8
Tablas de frecuencia
  • Exponen la información recogida en la muestra, de
    forma que no se pierda nada de información (o
    poca).
  • Frecuencias absolutas Contabilizan el número de
    individuos de cada modalidad
  • Frecuencias relativas (porcentajes) Idem, pero
    dividido por el total
  • Frecuencias acumuladas Sólo tienen sentido para
    variables ordinales y numéricas
  • Muy útiles para calcular cuantiles (ver más
    adelante)
  • Qué porcentaje de individuos tiene menos de 3
    hijos? Sol 83,8
  • Entre 4 y 6 hijos? Soluc 1ª 8,43,61,6
    13,6. Soluc 2ª 97,3 - 83,8 13,5

9
Gráficos para v. cualitativas
  • Diagramas de barras
  • Alturas proporcionales a las frecuencias (abs. o
    rel.)
  • Se pueden aplicar también a variables discretas
  • Diagramas de sectores (tortas, polares)
  • No usarlo con variables ordinales.
  • El área de cada sector es proporcional a su
    frecuencia (abs. o rel.)
  • Pictogramas
  • Fáciles de entender.
  • El área de cada modalidad debe ser proporcional a
    la frecuencia. De los dos, cuál es incorrecto?.


10
Parámetros y estadísticos
  • Parámetro Es una cantidad numérica calculada
    sobre una población
  • La altura media de los individuos de un país
  • La idea es resumir toda la información que hay en
    la población en unos pocos números (parámetros).
  • Estadístico Ídem (cambiar población por
    muestra)
  • La altura media de los que estamos en este aula.
  • Somos una muestra (representativa?) de la
    población.
  • Si un estadístico se usa para aproximar un
    parámetro también se le suele llamar estimador.

11
(No Transcript)
12
En resumen
  • Posición
  • Dividen un conjunto ordenado de datos en grupos
    con la misma cantidad de individuos.
  • Cuantiles, percentiles, cuartiles, deciles,...
  • Centralización
  • Indican valores con respecto a los que los datos
    parecen agruparse.
  • Media, mediana y moda
  • Dispersión
  • Indican la mayor o menor concentración de los
    datos con respecto a las medidas de
    centralización.
  • Desviación típica, coeficiente de variación,
    rango, varianza
  • Forma
  • Asimetría
  • Apuntamiento o curtosis

13
Estadísticos de posición
  • Se define el cuantil de orden a como un valor de
    la variable por debajo del cual se encuentra una
    frecuencia acumulada a.
  • Casos particulares son los percentiles,
    cuartiles, deciles, quintiles,...


14
Centralización
  • Añaden unos cuantos casos particulares a las
    medidas de posición. En este caso son medidas que
    buscan posiciones (valores) con respecto a los
    cuales los datos muestran tendencia a agruparse.
  • Media (mean) Es la media aritmética (promedio)
    de los valores de una variable. Suma de los
    valores dividido por el tamaño muestral.
  • Media de 2,2,3,7 es (2237)/43,5
  • Conveniente cuando los datos se concentran
    simétricamente con respecto a ese valor. Muy
    sensible a valores extremos.
  • Centro de gravedad de los datos
  • Mediana (median) Es un valor que divide a las
    observaciones en dos grupos con el mismo número
    de individuos (percentil 50). Si el número de
    datos es par, se elige la media de los dos datos
    centrales.
  • Mediana de 1,2,4,5,6,6,8 es 5
  • Mediana de 1,2,4,5,6,6,8,9 es (56)/25,5
  • Es conveniente cuando los datos son asimétricos.
    No es sensible a valores extremos.
  • Mediana de 1,2,4,5,6,6,800 es 5. La media es
    117,7!
  • Moda (mode) Es el/los valor/es donde la
    distribución de frecuencia alcanza un máximo.

15
Variabilidad o dispersión
  • Los estudiantes de Métodos de investigación
    reciben diferentes calificaciones en la
    asignatura (variabilidad). A qué puede deberse?
  • Diferencias individuales en el conocimiento de la
    materia.
  • Podría haber otras razones (fuentes de
    variabilidad)?
  • Por ejemplo supongamos que todos los alumnos
    poseen el mismo nivel de conocimiento. Las notas
    serían las mismas en todos? Seguramente No.
  • Dormir poco el día del examen, el croissant
    estaba envenenado...
  • Diferencias individuales en la habilidad para
    hacer un examen.
  • El examen no es una medida perfecta del
    conocimiento.
  • Variabilidad por error de medida.
  • En alguna pregunta difícil, se duda entre varias
    opciones, y al azar se elige la mala
  • Variabilidad por azar, aleatoriedad.

16
  • Desviación típica (standard deviation)Es la
    raíz cuadrada de la varianza
  • Tiene las misma dimensionalidad (unidades) que la
    variable.
  • Cierta distribución que veremos más adelante
    (normal o gaussiana) quedará completamente
    determinada por la media y la desviación típica.
  • A una distancia de una desv. típica de la media
    tendremos 68 observaciones.
  • A una distancia de dos desv. típica de la media
    tendremos 95 observaciones.

17
  • Centrado en la media y a una desviación típica de
    distancia tenemos más de la mitad de las
    observaciones (izq.)
  • A dos desviaciones típicas las tenemos a casi
    todas (dcha.)

18
Muestreo
  • Las poblaciones están formadas por individuos,
    pero sería mejor denominarlas unidades de
    muestreo o unidades de estudio
  • Personas, células, familias, hospitales, países
  • La población ideal que se pretende estudiar se
    denomina población objetivo.
  • No es fácil estudiarla por completo. Aproximamos
    mediante muestras que den idealmente la misma
    probabilidad a cada individuo de ser elegido.
  • Tampoco es fácil elegir muestras de la población
    objetivo
  • Si llamamos por teléfono excluimos a los que no
    tienen.
  • Si elegimos indiv. en la calle, olvidamos los que
    están trabajando...
  • El grupo que en realidad podemos estudiar (v.g.
    los que tienen teléfono) se denomina población de
    estudio.

19
Fuentes de sesgo
  • Las poblaciones objetivo y de estudio pueden
    diferir en cuanto a las variables que estudiamos.
  • El nivel económico en la población de estudio es
    mayor que en la objetivo,...
  • Los individuos que se eligen en la calle pueden
    ser de mayor edad (mayor frecuencia de jubilados
    p.ej.)
  • En este caso, diremos que las muestras que se
    elijan estarán sesgadas. Al tipo de sesgo debido
    a diferencias sistemáticas entre población
    objetivo y población de estudio se denomina sesgo
    de selección.
  • Hay otras fuentes de error/sesgo
  • No respuesta a encuestas embarazosas
  • Consumo de drogas, violencia doméstica, prácticas
    poco éticas,
  • Mentir en las preguntas delicadas.
  • Para evitar este tipo de sesgo se utilizan la
    técnica de respuesta aleatorizada.

20
Técnicas de respuesta aleatorizada
  • Reducen la motivación para mentir (o no
    responder) a las encuestas.
  • Si digo la verdad, mostraré el cobre?
  • Cómo se hace? Pídele que lance una moneda antes
    de responder y
  • Si sale cara que diga la opción comprometedora
  • (no tiene por qué avergonzarse, la culpa es de la
    moneda)
  • Si sale sello que diga la verdad
  • (no tiene por qué avergonzarse, el encuestador
    no sabe si ha salido cara o sello)
  • Aunque no podamos saber cuál es la verdad en cada
    individuo, podemos hacernos una idea porcentual
    sobre la población, viendo en cuánto se alejan
    las respuestas del 50.

21
Ejemplo Ha tomado drogas alguna vez?
Insinceros!!
Sin respuesta aleatorizada
100 No
Con respuesa aleatorizada
Diferencia entre los que han dicho sí y los que
debían hacerlopor que así lo indicaba la moneda
40 No 60 Sí
No son mitad y mitad! El porcentaje estimado de
ind. que tomó drogas es
Los que deben decir la verdad
22
Técnicas de muestreo
  • Cuando elegimos individuo de una población de
    estudio para formar muestras podemos encontrarnos
    en las siguientes situaciones
  • Muestreos probabilistas
  • Conocemos la probabilidad de que un individuo sea
    elegido para la muestra.
  • Interesantes para usar estadística matemática con
    ellos.
  • Muestreos no probabilistas
  • No se conoce la probabilidad.
  • Son muestreos que seguramente esconden sesgos.
  • En principio no se pueden extrapolar los
    resultados a la población.
  • A pesar de ello una buena parte de los estudios
    que se publican usan esta técnica. Buff!
  • En adelante vamos a tratar exclusivamente con
    muestreos con la menor posibilidad de sesgo
    (probabilistas) aleatorio simple, sistemático,
    estratificado y por grupos.

23
Muestreo aleatorio simple (m.a.s.)
  • Se eligen individuos de la población de estudio,
    de manera que todos tienen la misma probabilidad
    de aparecer, hasta alcanzar el tamaño muestral
    deseado.
  • Se puede realizar partiendo de listas de
    individuos de la población, y eligiendo
    individuos aleatoriamente con un ordenador.
  • Normalmente tiene un coste bastante alto su
    aplicación.
  • En general, las técnicas de inferencia
    estadística suponen que la muestra ha sido
    elegida usando m.a.s., aunque en realidad se use
    alguna de las que veremos a continuación.

24
Muestreo sistemático
  • Se tiene una lista de los individuos de la
    población de estudio. Si queremos una muestra de
    un tamaño dado, elegimos individuos igualmente
    espaciados de la lista, donde el primero ha sido
    elegido al azar.
  • CUIDADO Si en la lista existen periodicidades,
    obtendremos una muestra sesgada.
  • Un caso real Se eligió una de cada cinco casas
    para un estudio de salud pública en una ciudad
    donde las casas se distribuyen en manzanas de
    cinco casas. Salieron con mucha frecuencia las de
    las esquinas, que reciben más sol, están mejor
    ventiladas,

25
Muestreo estratificado
  • Se aplica cuando sabemos que hay ciertos factores
    (variables, subpoblaciones o estratos) que pueden
    influir en el estudio y queremos asegurarnos de
    tener cierta cantidad mínima de individuos de
    cada tipo
  • Hombres y mujeres,
  • Jovenes, adultos y ancianos
  • Se realiza entonces una m.a.s. de los individuos
    de cada uno de los estratos.
  • Al extrapolar los resultados a la población hay
    que tener en cuenta el tamaño relativo del
    estrato con respecto al total de la población.

26
Muestreo por grupos o conglomerados
  • Se aplica cuando es difícil tener una lista de
    todos los individuos que forman parte de la
    población de estudio, pero sin embargo sabemos
    que se encuentran agrupados naturalmente en
    grupos.
  • Se realiza eligiendo varios de esos grupos al
    azar, y ya elegidos algunos podemos estudiar a
    todos los individuos de los grupos elegidos o
    bien seguir aplicando dentro de ellos más
    muestreos por grupos, por estratos, aleatorios
    simples,
  • Para conocer la opinión de los médicos del
    sistema nacional de salud, podemos elegir a
    varias regiones de Colombia, dentro de ellas
    varios departamentos, y dentro de ellas varios
    centros de salud, y
  • Al igual que en el muestreo estratificado, al
    extrapolar los resultados a la población hay que
    tener en cuenta el tamaño relativo de unos grupos
    con respecto a otros.
  • Regiones con diferente población pueden tener
    probabilidades diferentes de ser elegidas,
    comarcas, hospitales grandes frente a pequeños,
Write a Comment
User Comments (0)
About PowerShow.com