Title: Presentaci
1Estadística
Introducción
Qué es la estadística? Es una Ciencia que
explica y provee de herramientas para trabajar
con datos, ha experimentado un gran desarrollo a
lo largo de los últimos años. En qué áreas se
aplica la estadística? Actualmente se aplica en
todas las áreas del saber, por ejemplo en
Sociología, Educación, Psicología,
Administración, Economía, Medicina, Ciencias
Políticas, entre otras. Ejemplos de su
aplicación son 1) En Administración de
Empresas la estadística se utiliza para evaluar
un producto antes de comercializarlo. 2) En
Economía para medir la evolución de los precios
mediante números índice o para estudiar los
hábitos de los consumidores a través de encuestas
de presupuestos familiares.
2Estadística
Introducción
Ejemplos de su aplicación son 3) En Ciencias
Políticas para conocer las preferencias de los
electores antes de una votación mediante sondeos
y así orientar las estrategias de los
candidatos. 4) En Sociología para estudiar las
opiniones de los colectivos sociales sobre temas
de actualidad. 5) En Psicología para elaborar
las escalas de los test y cuantificar aspectos
del comportamiento humano (por ejemplo los test
que se aplican a los candidatos para un cargo en
una empresa). 6) En Medicina uno entre muchos
usos de la estadística, es para determinar el
estado de salud de la población. En general en
las Ciencias Sociales, la estadística se emplea
para medir las relaciones entre variables y hacer
predicciones sobre ellas.
3Estadística
Introducción
Etapas de un estudio estadístico Un análisis
estadístico se lleva a cabo siguiendo las etapas
habituales en el llamado método científico cuyas
etapas son
- Planteamiento del problema consiste en definir
el objetivo de la investigación y precisar el
universo o población. - Recogida de la información consiste en
recolectar los datos necesarios relacionados al
problema de investigación. - Análisis descriptivo consiste en resumir los
datos disponibles para extraer la información
relevante en el estudio. - Inferencia estadística consiste en suponer un
modelo para toda la población partiendo de los
datos analizados para obtener conclusiones
generales. - Diagnóstico consiste en verificar la validez de
los supuestos del modelo que nos han permitido
interpretar los datos y llegar a conclusiones
sobre la población
4Estadística
Introducción
Esquema de las etapas de un estudio estadístico
DATOS
AREA DE INTERES
ORGANIZAR Y RESUMIR
ESTADÍSTICA DESCRIPTIVA
(Tablas, Gráficos, Medidas Descriptivas, etc.)
- Tema de Investigación
- Antecedentes Previos
- Objetivos
- Preguntas de Investigación
- Posibles Hipótesis
- Unidad de Análisis
- Población
- Variables
INTERPRETACIÓN
Muestra
Población o Muestra?
INFERENCIA ESTADÍSTICA
Población
CONCLUSIONES
Probabilidad
INFORMACIÓN
5Estadística
Introducción
Ejemplos de algunos problemas a estudiar
1) Se quiere estudiar si en cierto colectivo
existe discriminación salarial debida al sexo de
la persona empleada. 2) Se quiere determinar el
perfil de los trabajadores en términos de
condiciones económicas y sociales en diferentes
comunidades. 3) Se quiere estudiar el consumo de
las personas de una zona determinada en cuanto a
vestuario, alimentación, ocio y vivienda. 4) Se
quiere determinar las tallas estándar en
vestuario para mujeres españolas. 5) Se quiere
determinar el tiempo que dedican al trabajo y a
la familia los trabajadores de distintas empresas
del país. 6) Se quiere determinar el perfil
sociodemográfico de los estudiantes de una
Universidad. 7) Se quiere estudiar el gasto en
teléfono móvil mensual de los estudiantes de una
Universidad, y si éste tiene alguna relación con
su edad u otras características.
6Estadística
Resumen de algunos conceptos planteados en la
Introducción
- VARIABLE es lo que se va a medir y representa
una característica de la UNIDAD DE ANÁLISIS. - QUIÉNES VAN A SER MEDIDOS? Los sujetos u
objetos o Unidades de Análisis de una Población o
una Muestra
- POBLACIÓN Es el total de unidades de análisis
que son tema de estudio.
- MUESTRA Es un conjunto de unidades de análisis
provenientes de una población.
Población Las personas que trabajan en
empresas de comunicación
Muestra
Muestra 60 trabajadores de empresas de
comunicación Unidad de análisis Trabajador de
empresa de comunicación Variables sexo, edad,
salario, Nº de horas de trabajo, etc.
7Estadística
Variable corresponde a la característica de la
Unidad de Análisis
TIPOS DE VARIABLES
Variables Cualitativas
Variables Cuantitativas
CONTINUA
ORDINAL
NOMINAL
DISCRETA
Intervalo
Característica o cualidad cuyas categorías no
tienen un orden preestablecido. Ejemplos Sexo,
Deporte Favorito, etc.
Toma valores enteros Ejemplos Número de Hijos,
Número de empleados de una empresa, Número de
asignaturas aprobadas en un semestre, etc.
Toma cualquier valor dentro de un intervalo
Ejemplos Peso Estatura Temperatura, etc.
Característica o cualidad cuyas categorías tienen
un orden preestablecido. Ejemplos Calificación
(S, N, A) Grado de Interés por un tema, etc.
Unidad de Medida Gramos o Kilos para la variable
Peso Grados C o F para Temperatura
8Estadística
Frecuencia desde un conjunto de unidades,
corresponde al Número o Porcentaje de veces que
se presenta una característica.
Variable Cuantitativa
Variable Cualitativa
Variable Cualitativa
Variable Cuantitativa
NOMINAL
CONTINUA
NOMINAL
CONTINUA
ORDINAL
ORDINAL
DISCRETA
DISCRETA
Frecuencia Absoluta (F)
Frecuencia Relativa (f)
TIPO FRECUENCIA
Frecuencia Absoluta Acumulada (FAA)
Frecuencia Relativa Acumulada (fra)
9Estadística
Problema de Investigación Se quiere establecer
el perfil de las industrias de conserva en
función de algunas características. Unidad de
Análisis Industria de Conserva Población
Industrias de Conservas del país
EJEMPLO
Variables - Tipo de Industria se clasifica en
industria tipo A, B, C o D. (cualitativa
nominal) - Nº de Empleados se refiere al número
de empleados en las líneas de producción.
(cuantitativa discreta) - Superficie se refiere
a los metros cuadrados (unidad de medida)
disponibles para las áreas de producción.
(cuantitativa continua) - Calificación
calificación realizada por una institución
pública sobre cumplimiento de ciertos estándares
(Muy Bien, Bien, Regular, Mal). (cualitativa
ordinal)
Datos
10Estadística
Problema de Investigación Se quiere establecer
el perfil de las industrias de conserva en
función de algunas características. Unidad de
Análisis Industria de Conserva Población
Industrias de Conservas del país
EJEMPLO
TABLAS DE FRECUENCIA
(2)
(1)
(3)
(4)
11Estadística
Elementos de una tabla de frecuencia cuando la
variable es continua (x)
LI1 LS1
LI2 LS2
LIk LSk
aj (LSj LIj))
cj (LIj) LSj )/2
12Estadística
Ejercicio confección de una tabla de frecuencia
para una variable continua
Los datos corresponden a la edad de los hijos de
los trabajadores de una empresa
Realice la siguiente actividad
- Construya un Diagrama de Tallo y Hoja
- Cuál es la variable? Cuál es la Unidad de
análisis? Cuánto vale n? Cuál es el rango de
la variable?. - Sobre una Tabla de frecuencia Cuántos
intervalos podría construir? Cuál es la
amplitud de cada intervalo? Cuántas medidas de
frecuencia puede obtener para cada intervalo?. - Construir tabla de frecuencia para la variable
Intervalos, centro de clase, amplitud,
frecuencias.
Datos ordenados de menor a mayor
Diagrama de Tallo y Hoja permite organizar los
datos de una variable medida sobre un conjunto de
individuos. Su utilidad viene dada cuando no
contamos con herramientas automáticas para
ordenar los datos.
13Estadística
1. Gráfico de Sectores Circulares (de Torta)
TIPOS DE GRÁFICOS
14Estadística
TIPOS DE GRÁFICOS
2. Gráfico de Barras
- Este tipo de gráfico se utiliza generalmente para
representar la frecuencia de las categorías de
una variable cualitativa. - Cuando una variable es cuantitativa se puede
utilizar este tipo de gráfico sólo si la variable
se ha transformada en categorías. - Hay distintas versiones de estos gráficos (por
ejemplo en Excel), y en algunos casos son muy
útiles para describir el comportamiento de una
variable en distintos grupos.
15Estadística
TIPOS DE GRÁFICOS
3. Histograma
Histograma Distribución de los hijos de
trabajadores de la empresa de acuerdo a edad
- Histograma
- - Permite la representación de la frecuencia de
una variable Cuantitativa. - El eje x se refiere a la variable.
- El eje y se refiere a la frecuencia (Nº , ).
- Cada barra representa la frecuencia de la
variable en la población en estudio (o la
muestra). - El histograma se puede construir desde los datos
de la tabla de frecuencia de la variable en
estudio.
Nº
edad
Ejemplo En el gráfico se puede observar el número
de hijos , de menor edad (7-8 años), las de mayor
edad (13-14 años) y además que la mayoría de
hijos de los trabajadores están entre los 10 y 12
años.
16Estadística
TIPOS DE GRÁFICOS
5. Polígono de Frecuencia
Distribución de los hijos de trabajadores de la
empresa de acuerdo a edad
- Esta representación se basa en el Histograma.
- Sólo es útil para variables cuantitativas.
- El eje x se refiere a la variable.
- El eje y se refiere a la frecuencia (Nº , ).
- Los puntos que permiten la unión de las líneas
representa el centro de clase (o marca de clase).
edad
Nº
17Estadística
TIPOS DE GRÁFICOS
5. Diagrama de Caja
Edad de las personas que se realizaron
angioplastía entre 1980 y 2000
- Permite identificar gráficamente la mediana, los
cuartiles 1 y 3 (percentiles 25 y 75), mínimo y
máximo de una variable. - Sólo es útil para variables cuantitativas.
- El eje x permite identificar la poblacion en
estudio. - El eje y representa los valores de la variable
en estudio.
18Estadística
TIPOS DE GRÁFICOS
6. Otros
19Estadística
NOTACION
Variables Cuantitativas
OBSERVACIONES El Tipo de Gráfico seleccionado
va a depender de la variable en estudio. El
Gráfico debe contener un Título General y la
identificación de cada eje (variable en estudio y
frecuencia). En ocasiones resulta más
ilustrativo un gráfico que una tabla de
frecuencia. Al igual que las tablas, los
gráficos deben ser auto-explicativos.
20Estadística
- Media Aritmética (Promedio)
- Mediana
- Moda
MEDIDAS DE TENDENCIA CENTRAL
Datos Cuantitativos
Datos Cuantitativos ordenados de menor a mayor
Mediana
Media Aritmética o Promedio
Si n es impar
Si n es par
Moda
Datos Cualitativos y Cuantitativos
21Estadística
- Percentil (ejemplo 25, 50, 75)
- Decil (ejemplo 4, 5, 8)
- Cuartil (ejemplo 1, 2, 3)
Percentiles, Deciles o Cuartiles
Percentil, Decil o Cuartil corresponde al valor
que toma la variable (cuantitativa), cuando los n
datos están ordenados de Menor a Mayor
El Percentil va de 1 a 100 El percentil 25
(25/100) es el valor de la variable que reúne al
menos el 25 de los datos Ejemplo Si N80, el
25 de 80 es 20 por lo tanto, se busca el dato
que este en la posición 20. Si
N85, el 25 de 85 es 21,25 por lo tanto se
busca el dato que este en la posición 22.
El Decil va de 1 a 10 El Decil 4 (4/10) es el
valor de la variable que reúne al menos el 40 de
los datos Ejemplo Si N80, el 40 de 80 es 32
por lo tanto, se busca el dato que este en la
posición 32. Si N85, el 40 de
85 es 34 por lo tanto se busca el dato que este
en la posición 34.
El Cuartil va de 1 a 4 El Cuartil 3 (3/4) es el
valor de la variable que reúne al menos el 75 de
los datos Ejemplo Si N80, el 75 de 80 es 60
por lo tanto, se busca el dato que este en la
posición 60. Si N85, el 75 de
85 es 63,75 por lo tanto se busca el dato que
este en la posición 64.
22Estadística
- Rango
- Varianza
- Desviación Estándar
MEDIDAS DE DISPERSIÓN
Varianza
Datos Cuantitativos
Rango
Desviación Típica o Estándar
Comparación entre Variables Se refiere al
comportamiento de las variables cuantitativas en
un grupo. Por ejemplo Si se tiene un conjunto de
personas a las que se les mide Estatura, Peso,
Edad Entre estas variables cuál presenta mayor
variación?
Coeficiente de Variación
23Estadística
- Asimetría
- Kurtosis o Apuntamiento
Otras medidas o Coeficientes
Además de la posición y la dispersión de los
datos, otra medida de interés en una distribución
de frecuencias es la simetría y el apuntamiento o
kurtosis.
Si CA0 si la distribución es simétrica alrededor
de la media. Si CAlt0 si la distribución es
asimétrica a la izquierda Si CAgt0 si la
distribución es asimétrica a la derecha
Coeficiente de Asimetría
- Si CAp0 la distribución se dice normal
(similar a la distribución normal de Gauss) y
recibe el nombre de mesocúrtica. - Si CApgt0, la
distribución es más puntiaguda que la anterior y
se llama leptocúrtica, (mayor concentración de
los datos en torno a la media). - Si CAplt0 la
distribución es más plana y se llama platicúrtica.
Coeficiente de Apuntamiento
24Estadística
- Asimetría
- Kurtosis o Apuntamiento
Otras medidas o Coeficientes
Ejemplos Histogramas con distinta asimetría y
apuntamiento
25Estadística
- Asimetría
- Kurtosis o Apuntamiento
Otras medidas o Coeficientes
Ejemplos
Histograma
Medidas descriptivas
Datos
Media 3,9
Mediana 4
Moda 4
Desviación estándar 1,67
Varianza de la muestra 2,78
kurtosis -0,43
Coeficiente de asimetría -0,02
Rango 6
Mínimo 1
Máximo 7
Cuenta 30
1 4 4
1 4 4
1 4 5
2 4 5
2 4 6
2 4 6
2 4 6
3 4 6
3 4 7
4 4 7
26Estadística
Media, Desviación típica, Coeficientes de
Asimetría y Apuntamiento para datos Agrupados
(tabla de frecuencias)
2) La Desviación típica para datos agrupados esta
dada por
Tabla de frecuencia (para variable cuantitativa)
n1
f1
n2
f2
3) El Coeficiente de Asimetría para datos
agrupados esta dado por
fk
nk
Sea cj la marca de clase (o centro de clase) y fj
la frecuencia relativa de la clase j, donde j1,
2,, k.
1) La Media para datos agrupados es igual a la
suma de los productos de las marcas de clase por
sus frecuencias relativas, de la forma
4) El Coeficiente de apuntamiento para datos
agrupados esta dada por
27Estadística
Descripción de 2 variables cualitativas
Distribución conjunta
Problema Interesa estudiar cual es el principal
medio de transporte preferido por un grupo de
personas a la hora de dirigirse al centro
comercial. Para esto se consultó a cada persona
sobre la actividad a la que se dedicaba y el
medio de transporte preferido.
Tabla 1 Actividad
Transporte Estudia Pensionado Trabaja
Autobus 5 7 0
Bicicleta 3 3 2
Caminar 2 5 2
Coche 5 4 5
Metro 6 7 4
Transporte Nº
Autobus 12 20,0
Bicicleta 8 13,3
Caminar 9 15,0
Coche 14 23,3
Metro 17 28,3
TOTAL 60 100
Actividad Nº
Estudia 21 35,0
Pensionado 26 43,3
Trabaja 13 21,7
TOTAL 60 100
28Estadística
Descripción de 2 variables cualitativas
Distribución conjunta Nº de personas
Tabla 2 Actividad
Transporte Estudia Pensionado Trabaja TOTAL
Autobus 5 7 0 12
Bicicleta 3 3 2 8
Caminar 2 5 2 9
Coche 5 4 5 14
Metro 6 7 4 17
TOTAL 21 26 13 60
Actividad confeccionar tabla con porcentajes
respecto del total de personas (n60)
29Estadística
Descripción de 2 variables cualitativas
Distribución conjunta Nº de personas y
respecto de tipo de Transporte
Tabla 3 Actividad
Transporte Estudia Pensionado Trabaja TOTAL
Autobus 5 7 0 12
41,7 58,3 0 100
Bicicleta 3 3 2 8
37,5 37,5 25 100
Caminar 2 5 2 9
22,2 55,6 22,2 100
Coche 5 4 5 14
35,7 28,6 35,7 100
Metro 6 7 4 17
35,3 41,2 23,5 100
TOTAL 21 26 13 60
35 43,3 21,7 100
30Estadística
Descripción de 2 variables cualitativas
Distribución conjunta Nº de personas y
respecto de tipo de Actividad
Tabla 4 Actividad
Transporte Estudia Pensionado Trabaja TOTAL
Autobus 5 7 0 12
23,8 26,9 0 20
Bicicleta 3 3 2 8
14,3 11,5 15,4 13,3
Caminar 2 5 2 9
9,5 19,2 15,4 15
Coche 5 4 5 14
23,8 15,4 38,5 23,3
Metro 6 7 4 17
28,6 26,9 30,8 28,3
TOTAL 21 26 13 60
100 100 100 100
31Estadística
Datos Cuantitativos
MEDIDAS DE ASOCIACIÓN LINEAL
Recordemos que Hasta ahora hemos estudiado las
medidas tendencia central (Media, Mediana, Moda)
y dispersión (Varianza y Desviación Estándar)
para una Variable Cuantitativa (x).
Covarianza
Es una medida de Variabilidad Conjunta entre dos
variables (x1 , x2) o bien (x , y)
Si Cov(x,y) es positiva la asociación entre x e
y es directamente proporcional, es decir que
cuando x aumenta y también aumenta y
viceversa. Si Cov(x,y) es negativa la asociación
entre x e y es inversamente proporcional, es
decir que cuando x aumenta y disminuye y
viceversa. Si Cov(x,y) es cero no existe
asociación entre x e y.
32Estadística
Datos Cuantitativos
MEDIDAS DE ASOCIACIÓN LINEAL
Se refiere al grado de asociación entre dos
variables (x1 , x2) o bien (x , y)
Correlación
Coeficiente de Correlación de Pearson (r) Mide
el grado de Asociación Lineal entre dos variables
Cuantitativas
Si r es positivo la asociación entre x e y es
directamente proporcional, es decir que cuando x
aumenta y también aumenta y viceversa. Si r1
la asociación lineal es perfecta. Si r es
negativo la asociación entre x e y es
inversamente proporcional, es decir que cuando x
aumenta y disminuye y viceversa. Si r-1 la
asociación lineal es perfecta. Si r es cero no
existe asociación entre x e y.
33Estadística
EJEMPLO Representación gráfica de las variables
x e y
r1
r-1
34Estadística
Datos Cuantitativos
REGRESION LINEAL SIMPLE
Objetivo 2 Estudiar si los valores de una
variable pueden ser utilizados para predecir el
valor de la otra
Objetivo 1 Determinar si dos variables están
asociadas y en qué sentido se da la asociación.
Determinar si existe relación entre las variables
x e y Coeficiente de Correlación
Estudiar la dependencia de una variable respecto
de la otra Modelo de Regresión
Términos Variable Respuesta (variable
dependiente) Variable Explicativa (variable
Independiente) Relación Lineal (modelo
lineal) Parámetros (intercepto y
pendiente) Intercepto (respuesta media) Pendiente
(efecto de la variable explicativa sobre la
respuesta) Error (residuo)
35Estadística
Datos Cuantitativos
REGRESION LINEAL SIMPLE
Notación Variable Respuesta y Variable
Explicativa x Modelo de Regresión Lineal Simple
yi??xiei Intercepto ? Pendiente ? Error e
Modelo Estimado (recta de regresión)
Método de Estimación Mínimos Cuadrados
Residuos o Errores
36Estadística
REGRESION LINEAL SIMPLE
MODELO DE REGRESIÓN LINEAL SIMPLE yi??xiei
DATOS
MODELO ESTIMADO
ESTIMADORES
ERRORES
37Estadística
REGRESION LINEAL SIMPLE
EJEMPLO Aplicación del Modelo de Regresión
Lineal Simple
Problema 1 Se cuenta con las mediciones sobre la
edad y la talla de 14 niños, y estamos
interesados en determinar si existe algún tipo de
relación entre la talla del niño y su edad.
38Estadística
REGRESION LINEAL SIMPLE
EJEMPLO Aplicación del Modelo de Regresión
Lineal Simple
Problema 1 Se cuenta con las mediciones sobre la
edad y la talla de 14 niños, y estamos
interesados en determinar si existe algún tipo de
relación entre la talla del niño y su edad.
- Interpretación de los resultados
- - Existe asociación o dependencia entre la Talla
del niño y la edad (r0,88) a medida que la edad
aumenta la talla aumenta. - Desde los resultados del modelo de regresión
lineal simple, se tiene que la talla media de un
niño es de 53,64 cm. Cuando la edad del niño
(meses) aumenta en una unidad la talla se
incrementa en 2,44 cm.
39Estadística
REGRESION LINEAL SIMPLE
EJEMPLO Aplicación del Modelo de Regresión
Lineal Simple
Problema 1 Se cuenta con las mediciones sobre la
edad y la talla de 14 niños, y estamos
interesados en determinar si existe algún tipo de
relación entre la talla del niño y su edad.
De acuerdo al coeficiente de determinación, el
modelo ajustado a los datos es adecuado (R2
cercano a 1)