Estad - PowerPoint PPT Presentation

1 / 53
About This Presentation
Title:

Estad

Description:

Estad stica Descriptiva para variables continuas T picos a tratar Repaso clase anterior Identificaci n de variables continuas Medidas de tendencia central y ... – PowerPoint PPT presentation

Number of Views:90
Avg rating:3.0/5.0
Slides: 54
Provided by: Mirko8
Category:

less

Transcript and Presenter's Notes

Title: Estad


1
Estadística Descriptiva para variables continuas
2
Tópicos a tratar
  • Repaso clase anterior
  • Identificación de variables continuas
  • Medidas de tendencia central y dispersión
  • Presentaciones gráficas
  • Estimación puntual e intervalos de confianza
  • Manejo de valores fuera de rango

3
Que buscamos?Obtener un sabor de los datos
continuos
  • Estimar algunos parametros de la poblacion, en
    forma puntual y por intervalos
  • Aprender de los datos continuos a través de una
    visualización gráfica
  • Examinar la calidad de los datos

4
Clasificación general
Categórica
Cuantitativa o numérica
Nominal
Ordinal
Discreta
Continua
5
Ejemplos
  • Nominales Sexo, estado civil, presencia de
    morbilidad, resultado del tratamiento
  • Ordinales Severidad de morbilidad, riesgo
    quirúrgico, resistencia a antibioticos
  • Discretas Cociente intelectual, tiempo de
    tratamiento u hospitalización
  • Contínuas concentración de alcohol en la sangre

6
Comandos usados en STATA para identificar el tipo
de variable
  • codebook
  • tabulate

7
(No Transcript)
8
(No Transcript)
9
(No Transcript)
10
ATENCION !
  • STATA puede identificar un tipo de variable de
    manera erronea !
  • Debemos apoyarnos en la ciencia, en nuestro
    conocimiento previo de la variable con que
    estamos trabajando.

11
(No Transcript)
12
Distribución de frecuencias
  • Una lista exhaustiva y mutuamente excluyente de
    categorias (cualitativas o cuantitativas) con una
    tabulación (en valores absolutos o porcentajes)
    de cuántas observaciones en los datos se
    encuentran en cada categoría.

13
De variables continuas a variables
categóricas MIRKO, usa tabulate con generate
aqui para representar esto
Ojo que se les ha indicado que esto se usa mas
para covariables que para sus outcomes
14
Representación gráfica de una tabulación bivariada
15
Comando histogram
16
Estadísticas de resumen
  • El conjunto de agregados numéricos de una
    distribución de frecuencias las que resumen una
    característica específica de un conjunto de datos.

17
Medidas de tendencia central
  • Promedio o media aritmética. Mas sensible a
    valores extremos
  • Mediana o percentil 50 Valor que divide una
    distribución ordenada por la mitad
  • Moda Valor mas frecuente. Es mas usada para
    variables categóricas

18
Medidas de dispersión
  • Rango
  • Intervalo intercuartil (diferencia entre los
    percentiles 25 y 75)
  • Desviación estándar en que monto promedio se
    desvían los valores observados de la media
  • Varianza media de las desviaciones (DE) elevada
    al cuadrado (?)

19
Comandos usados en STATA para obtener
estadísticas de resumen
  • codebook (variables numéricas)
  • tabulate

20
Estimación puntual e intervalos de confianza
  • Los parámetros de una población tienen un valor
    fijo, (es un número exacto)
  • Usualmente estos parámetros no se conocen, por
    que es complicado medir a toda la población
  • Ante esto, los parámetros se estiman a partir
    de una muestra de la población.
  • La estimación puede ser puntual o en un
    intervalo de confianza

21
Efectos del muestreo en la estimación de un
parámetro
22
Es mejor estimar el intervalo de confianza de un
parámetro antes que su estimación puntual
  • El intervalo de confianza es una variable
    aleatoria
  • El 95 Intervalo de Confianza, es un intervalo
    que tiene un 95 de probabilidad de cubrir el
    verdadero valor del parámetro estimado

23
Intervalos de confianza de variables normales
Std.Err. Std.Dev / sqrt(N)
24
Ci varlist, level( )
25
Exploración gráfica
  • Una manera visual y muy intuitiva de tener una
    imagen clara de los datos.
  • Método muy usado para presentar resultados.
  • Un solo gráfico puede contener una densidad muy
    alta de información
  • Sujeta a interpretaciones subjetivas y problemas
    de ilusión

26
(No Transcript)
27
Representación gráfica de una tabulación bivariada
28
Comparando Desviaciones Estandard
Data A
Mean 15.5 s 3.338
11 12 13 14 15 16 17 18
19 20 21
Data B
Mean 15.5 s .9258
11 12 13 14 15 16 17 18
19 20 21
Data C
Mean 15.5 s 4.57
11 12 13 14 15 16 17 18
19 20 21
29
Dos bases de datos hipotéticas Es importante
tener una imagen visual de la distribución de la
variable
Datos de baja variabilidad
La media provee una buena representación de los
valores en la base de datos.
Al incrementar datos la distribución cambia..
Datos con alta variabilidad
La media ya NO provee ahora una buena
información de los datos como sucedía
anterioremente
30
Perfil de la distribución
  • Describe cómo los Datos están Distribuídos
  • Caracterización del perfil de la
    distribución
  • Simétrica o sesgada

31
Perfil de la distribución
  • Describe cómo los Datos están Distribuídos
  • Caracterización del perfil de la
    distribución
  • Simétrica o sesgada

Simétrica
Media


Mediana


Moda
32
Perfil de la distribución
  • Describe cómo los Datos están Distribuídos
  • Caracterización del perfil de la
    distribución
  • Simétrica o sesgada

Sesgada izquierda
Simétrica
Mean

Median

Mode
Mean


Median


Mode
33
Perfil de la distribución
  • Describe cómo los Datos están Distribuídos
  • Caracterización del perfil de la
    distribución
  • Simétrica o sesgada

Sesgada derecha
Sesgada izquierda
Simétrica
Media

Mediana

Moda
Media


Mediana


Moda
Moda

Mediana

Media
34
El comando histogram en STATA
35
Histogram inf_edad, bin(12) kdensity
36
Box Plot (Gráfico de cajas)
  • Se muestra gráficamente los datos
    utilizando 5 números (estadísticas de resumen)

Mediana
Q
Q
X
X
Mínimo
3
1
Máximo
12
4
6
8
10
37
Relación entre el perfil de la distribución y el
Box Plot
Sesgada derecha
Sesgada izquierda
Simétrica
Q


Mediana


Q
Q

Mediana

Q
Q

Mediana

Q
1
3
1
3
3
1
38
El comando Graph en STATA
39
graph box inf_edad
40
Box plot
41
Los gráficos box-plot permiten realizar
comparaciones
42
Gráficos tallo y hoja comando stem de STATA
43
(No Transcript)
44
Scatter-plots y Ejemplos de Relaciones
No-lineales
45
Ejemplos en Stata!
46
Representación gráfica y problemas éticos
Last year, 25 percent of our sales dollar was
profits. Depending on whether we present it to
our stockholders or the unions, we dont want to
give it the same emphasis.
.
Thats easy. For our stockholders, well show it
in our annual report as a coin in perspective and
take the 25 percent profits from the front
Whereas for the union, well show it from the
back where it wont look anywhere as impressive.
47
Representación gráfica y potenciales abusos
Labor Costs
Oops, we certainly dont want to advertise that
sharp increase in administrative costs, it may
raise questions by our stockholders.
Administrative Costs
Administrative Costs
No sweat. Well switch the two components
around. This way, by placing the administrative
costs at the top, it doesnt look so damning. As
a matter of fact, it looks like its going down.
Labor Costs
48
Representación gráfica y potenciales abusos
100
Now, if you could only show this declining sales
picture as going up, all my problems would be
solved.
75
50
25
0
87
88
89
90
91
92
100
Sure thing no problem. A bit of perspective
here, a bit of fore-shortening there, and now the
line looks like its going up.
75
50
25
0
87
88
89
90
91
92
49
Manejo de datos fuera de rango (outliers)
  • Los Outliers son valores que se consideran No
    Pertenecen al conjunto de datos.
  • Razones para darse
  • 1. Errores de medición
  • 2. Resultados atípicos
  • La recomendación es corregir los errores (si es
    posible) y remover las observaciones atípicas.
  • PERO! Y si así es la ciencia ?! Mejor hacer doble
    análisis con y sin outliers

50
(No Transcript)
51
(No Transcript)
52
Análisis de OUTLIERS
  • Datos Simétricos
  • Valores que se exceden en 3 DS de la media

outlier region
outlier region
-3s
3s
53
Análisis de OUTLIERS
  • Datos sesgados
  • Valores que se exceden de 3 rangos intercuartiles
    por debajo del primer cuartil Q1 o por encima del
    tercer cuartil (Q3) (percentiles 25 y 75
    respectivamente)

Sesgada izquierda
Sesgada Positiva
outlier region
outlier region
Q1
Q3
Q1
Q3
Q1 3(Q3 Q1)
Q3 3(Q3 Q1)
Write a Comment
User Comments (0)
About PowerShow.com