Title: Estad
1Estadística
2Definición
- La Estadística es la tecnología de la
- Sistematización, recogida, ordenación y
presentación de los datos referentes a un
fenómeno que presenta variabilidad o
incertidumbre para su estudio metódico, con
objeto de - deducir las leyes que rigen esos fenómenos,
- y poder de esa forma hacer previsiones sobre los
mismos, tomar decisiones u obtener conclusiones.
Descriptiva
Probabilidad
Inferencia
3Población y muestra
- Población (population) es el conjunto sobre el
que estamos interesados en obtener conclusiones
(hacer inferencia). - Normalmente es demasiado grande para poder
abarcarlo. - Muestra (sample) es un subconjunto suyo al que
tenemos acceso y sobre el que realmente hacemos
las observaciones (mediciones) - Debería ser representativo
- Esta formado por miembros seleccionados de la
población (individuos, unidades experimentales).
4Variables
- Una variable es una característica observable que
varía entre los diferentes individuos de una
población. La información que disponemos de cada
individuo es resumida en variables.
- En los individuos de la población colombiana, de
uno a otro es variable - El grupo sanguíneo
- A, B, AB, O ? Var. Cualitativa
- Su nivel de felicidad declarado
- Deprimido, Ni fu ni fa, Muy Feliz ? Var.
Ordinal - El número de hijos
- 0,1,2,3,... ? Var. Numérica discreta
- La altura
- 162 174 ... ? Var. Numérica continua
5Tipos de variables
- CualitativasSi sus valores (modalidades) no se
pueden asociar naturalmente a un número (no se
pueden hacer operaciones algebraicas con ellos) - Nominales Si sus valores no se pueden ordenar
- Sexo, Grupo Sanguíneo, Religión, Nacionalidad,
Fumar (Sí/No) - Ordinales Si sus valores se pueden ordenar
- NBI, Grado de satisfacción, Intensidad del dolor
- Cuantitativas o NuméricasSi sus valores son
numéricos (tiene sentido hacer operaciones
algebraicas con ellos) - Discretas Si toma valores enteros
- Número de hijos, Número de cigarrillos, Num. de
cumpleaños - Continuas Si entre dos valores, son posibles
infinitos valores intermedios. - Altura, Presión intraocular, Dosis de medicamento
administrado, edad
6- Los posibles valores de una variable suelen
denominarse modalidades. - Las modalidades pueden agruparse en clases
(intervalos) - Edades
- Menos de 20 años, de 20 a 50 años, más de 50
años - Hijos
- Menos de 3 hijos, De 3 a 5, 6 o más hijos
- Las modalidades/clases deben forman un sistema
exhaustivo y excluyente - Exhaustivo No podemos olvidar ningún posible
valor de la variable - Mal Cuál es su color del pelo (Rubio, Moreno)?
- Bien Cuál es su grupo sanguíneo?
- Excluyente Nadie puede presentar dos valores
simultáneos de la variable - Estudio sobre el ocio
- Mal De los siguientes, qué le gusta (deporte,
cine) - Bien Le gusta el deporte (Sí, No)
- Bien Le gusta el cine (Sí, No)
- Mal Cuántos hijos tiene (Ninguno, Menos de 5,
Más de 2)
7Presentación ordenada de datos
Género Frec.
Hombre 4
Mujer 6
- Las tablas de frecuencias y las representaciones
gráficas son dos maneras equivalentes de
presentar la información. Las dos exponen
ordenadamente la información recogida en una
muestra.
8Tablas de frecuencia
- Exponen la información recogida en la muestra, de
forma que no se pierda nada de información (o
poca). - Frecuencias absolutas Contabilizan el número de
individuos de cada modalidad - Frecuencias relativas (porcentajes) Idem, pero
dividido por el total - Frecuencias acumuladas Sólo tienen sentido para
variables ordinales y numéricas - Muy útiles para calcular cuantiles (ver más
adelante) - Qué porcentaje de individuos tiene menos de 3
hijos? Sol 83,8 - Entre 4 y 6 hijos? Soluc 1ª 8,43,61,6
13,6. Soluc 2ª 97,3 - 83,8 13,5
9Gráficos para v. cualitativas
- Diagramas de barras
- Alturas proporcionales a las frecuencias (abs. o
rel.) - Se pueden aplicar también a variables discretas
- Diagramas de sectores (tortas, polares)
- No usarlo con variables ordinales.
- El área de cada sector es proporcional a su
frecuencia (abs. o rel.) - Pictogramas
- Fáciles de entender.
- El área de cada modalidad debe ser proporcional a
la frecuencia. De los dos, cuál es incorrecto?.
10Parámetros y estadísticos
- Parámetro Es una cantidad numérica calculada
sobre una población - La altura media de los individuos de un país
- La idea es resumir toda la información que hay en
la población en unos pocos números (parámetros). - Estadístico Ídem (cambiar población por
muestra) - La altura media de los que estamos en este aula.
- Somos una muestra (representativa?) de la
población. - Si un estadístico se usa para aproximar un
parámetro también se le suele llamar estimador.
11(No Transcript)
12En resumen
- Posición
- Dividen un conjunto ordenado de datos en grupos
con la misma cantidad de individuos. - Cuantiles, percentiles, cuartiles, deciles,...
- Centralización
- Indican valores con respecto a los que los datos
parecen agruparse. - Media, mediana y moda
- Dispersión
- Indican la mayor o menor concentración de los
datos con respecto a las medidas de
centralización. - Desviación típica, coeficiente de variación,
rango, varianza - Forma
- Asimetría
- Apuntamiento o curtosis
13Estadísticos de posición
- Se define el cuantil de orden a como un valor de
la variable por debajo del cual se encuentra una
frecuencia acumulada a. - Casos particulares son los percentiles,
cuartiles, deciles, quintiles,...
14Centralización
- Añaden unos cuantos casos particulares a las
medidas de posición. En este caso son medidas que
buscan posiciones (valores) con respecto a los
cuales los datos muestran tendencia a agruparse. - Media (mean) Es la media aritmética (promedio)
de los valores de una variable. Suma de los
valores dividido por el tamaño muestral. - Media de 2,2,3,7 es (2237)/43,5
- Conveniente cuando los datos se concentran
simétricamente con respecto a ese valor. Muy
sensible a valores extremos. - Centro de gravedad de los datos
- Mediana (median) Es un valor que divide a las
observaciones en dos grupos con el mismo número
de individuos (percentil 50). Si el número de
datos es par, se elige la media de los dos datos
centrales. - Mediana de 1,2,4,5,6,6,8 es 5
- Mediana de 1,2,4,5,6,6,8,9 es (56)/25,5
- Es conveniente cuando los datos son asimétricos.
No es sensible a valores extremos. - Mediana de 1,2,4,5,6,6,800 es 5. La media es
117,7! - Moda (mode) Es el/los valor/es donde la
distribución de frecuencia alcanza un máximo.
15Variabilidad o dispersión
- Los estudiantes de Métodos de investigación
reciben diferentes calificaciones en la
asignatura (variabilidad). A qué puede deberse? - Diferencias individuales en el conocimiento de la
materia. - Podría haber otras razones (fuentes de
variabilidad)? - Por ejemplo supongamos que todos los alumnos
poseen el mismo nivel de conocimiento. Las notas
serían las mismas en todos? Seguramente No. - Dormir poco el día del examen, el croissant
estaba envenenado... - Diferencias individuales en la habilidad para
hacer un examen. - El examen no es una medida perfecta del
conocimiento. - Variabilidad por error de medida.
- En alguna pregunta difícil, se duda entre varias
opciones, y al azar se elige la mala - Variabilidad por azar, aleatoriedad.
16- Desviación típica (standard deviation)Es la
raíz cuadrada de la varianza - Tiene las misma dimensionalidad (unidades) que la
variable. - Cierta distribución que veremos más adelante
(normal o gaussiana) quedará completamente
determinada por la media y la desviación típica. - A una distancia de una desv. típica de la media
tendremos 68 observaciones. - A una distancia de dos desv. típica de la media
tendremos 95 observaciones.
17- Centrado en la media y a una desviación típica de
distancia tenemos más de la mitad de las
observaciones (izq.) - A dos desviaciones típicas las tenemos a casi
todas (dcha.)
18Muestreo
- Las poblaciones están formadas por individuos,
pero sería mejor denominarlas unidades de
muestreo o unidades de estudio - Personas, células, familias, hospitales, países
- La población ideal que se pretende estudiar se
denomina población objetivo. - No es fácil estudiarla por completo. Aproximamos
mediante muestras que den idealmente la misma
probabilidad a cada individuo de ser elegido. - Tampoco es fácil elegir muestras de la población
objetivo - Si llamamos por teléfono excluimos a los que no
tienen. - Si elegimos indiv. en la calle, olvidamos los que
están trabajando... - El grupo que en realidad podemos estudiar (v.g.
los que tienen teléfono) se denomina población de
estudio.
19Fuentes de sesgo
- Las poblaciones objetivo y de estudio pueden
diferir en cuanto a las variables que estudiamos. - El nivel económico en la población de estudio es
mayor que en la objetivo,... - Los individuos que se eligen en la calle pueden
ser de mayor edad (mayor frecuencia de jubilados
p.ej.) - En este caso, diremos que las muestras que se
elijan estarán sesgadas. Al tipo de sesgo debido
a diferencias sistemáticas entre población
objetivo y población de estudio se denomina sesgo
de selección. - Hay otras fuentes de error/sesgo
- No respuesta a encuestas embarazosas
- Consumo de drogas, violencia doméstica, prácticas
poco éticas, - Mentir en las preguntas delicadas.
- Para evitar este tipo de sesgo se utilizan la
técnica de respuesta aleatorizada.
20Técnicas de respuesta aleatorizada
- Reducen la motivación para mentir (o no
responder) a las encuestas. - Si digo la verdad, mostraré el cobre?
- Cómo se hace? Pídele que lance una moneda antes
de responder y - Si sale cara que diga la opción comprometedora
- (no tiene por qué avergonzarse, la culpa es de la
moneda) - Si sale sello que diga la verdad
- (no tiene por qué avergonzarse, el encuestador
no sabe si ha salido cara o sello) - Aunque no podamos saber cuál es la verdad en cada
individuo, podemos hacernos una idea porcentual
sobre la población, viendo en cuánto se alejan
las respuestas del 50.
21Ejemplo Ha tomado drogas alguna vez?
Insinceros!!
Sin respuesta aleatorizada
100 No
Con respuesa aleatorizada
Diferencia entre los que han dicho sí y los que
debían hacerlopor que así lo indicaba la moneda
40 No 60 Sí
No son mitad y mitad! El porcentaje estimado de
ind. que tomó drogas es
Los que deben decir la verdad
22Técnicas de muestreo
- Cuando elegimos individuo de una población de
estudio para formar muestras podemos encontrarnos
en las siguientes situaciones - Muestreos probabilistas
- Conocemos la probabilidad de que un individuo sea
elegido para la muestra. - Interesantes para usar estadística matemática con
ellos. - Muestreos no probabilistas
- No se conoce la probabilidad.
- Son muestreos que seguramente esconden sesgos.
- En principio no se pueden extrapolar los
resultados a la población. - A pesar de ello una buena parte de los estudios
que se publican usan esta técnica. Buff! - En adelante vamos a tratar exclusivamente con
muestreos con la menor posibilidad de sesgo
(probabilistas) aleatorio simple, sistemático,
estratificado y por grupos.
23Muestreo aleatorio simple (m.a.s.)
- Se eligen individuos de la población de estudio,
de manera que todos tienen la misma probabilidad
de aparecer, hasta alcanzar el tamaño muestral
deseado. - Se puede realizar partiendo de listas de
individuos de la población, y eligiendo
individuos aleatoriamente con un ordenador. - Normalmente tiene un coste bastante alto su
aplicación. - En general, las técnicas de inferencia
estadística suponen que la muestra ha sido
elegida usando m.a.s., aunque en realidad se use
alguna de las que veremos a continuación.
24Muestreo sistemático
- Se tiene una lista de los individuos de la
población de estudio. Si queremos una muestra de
un tamaño dado, elegimos individuos igualmente
espaciados de la lista, donde el primero ha sido
elegido al azar. - CUIDADO Si en la lista existen periodicidades,
obtendremos una muestra sesgada. - Un caso real Se eligió una de cada cinco casas
para un estudio de salud pública en una ciudad
donde las casas se distribuyen en manzanas de
cinco casas. Salieron con mucha frecuencia las de
las esquinas, que reciben más sol, están mejor
ventiladas,
25Muestreo estratificado
- Se aplica cuando sabemos que hay ciertos factores
(variables, subpoblaciones o estratos) que pueden
influir en el estudio y queremos asegurarnos de
tener cierta cantidad mínima de individuos de
cada tipo - Hombres y mujeres,
- Jovenes, adultos y ancianos
- Se realiza entonces una m.a.s. de los individuos
de cada uno de los estratos. - Al extrapolar los resultados a la población hay
que tener en cuenta el tamaño relativo del
estrato con respecto al total de la población.
26Muestreo por grupos o conglomerados
- Se aplica cuando es difícil tener una lista de
todos los individuos que forman parte de la
población de estudio, pero sin embargo sabemos
que se encuentran agrupados naturalmente en
grupos. - Se realiza eligiendo varios de esos grupos al
azar, y ya elegidos algunos podemos estudiar a
todos los individuos de los grupos elegidos o
bien seguir aplicando dentro de ellos más
muestreos por grupos, por estratos, aleatorios
simples, - Para conocer la opinión de los médicos del
sistema nacional de salud, podemos elegir a
varias regiones de Colombia, dentro de ellas
varios departamentos, y dentro de ellas varios
centros de salud, y - Al igual que en el muestreo estratificado, al
extrapolar los resultados a la población hay que
tener en cuenta el tamaño relativo de unos grupos
con respecto a otros. - Regiones con diferente población pueden tener
probabilidades diferentes de ser elegidas,
comarcas, hospitales grandes frente a pequeños,