Title: Curso de Bioestad
1Curso de BioestadísticaParte 3Tipos de datos,
resumen y presentación
- Dr. en C. Nicolás Padilla Raygoza
- Facultad de Enfermería y Obstetricia de Celaya
- Universidad de Guanajuato México
2Presentación
- Médico Cirujano por la Universidad Autónoma de
Guadalajara. - Pediatra por el Consejo Mexicano de Certificación
en Pediatría. - Diplomado en Epidemiología, Escuela de Higiene y
Medicina Tropical de Londres, Universidad de
Londres. - Master en Ciencias con enfoque en Epidemiología,
Atlantic International University. - Doctorado en Ciencias con enfoque en
Epidemiología, Atlantic International University. - Profesor Asociado B, Facultad de Enfermería y
Obstetricia de Celaya, Universidad de Guanajuato.
- padillawarm_at_gmail.com
3Competencias
- Describirá los tipos de variables.
- Analizará como resumir y presentar los diferentes
tipos de variables. - Aplicará fórmulas para calcular medidas de
tendencia central y las localizará en gráficas. - Aplicará fórmulas para calcular medidas de
dispersión y las localizará en gráficas.
4Definiciones
- Datos se colectan sobre las características
específicas de cada sujeto, formándose grupos
para ser comparados. - Estas características se llaman variables, ya que
cambian de sujeto a sujeto. - La variable se obtiene por ser
- Un resultado de interés-variable dependiente
- O explica a la variable dependiente - factor de
riesgo- exposición-variable independiente.
5Tipos de datos
- Clasificación por su escala de medición
- Cualitativas
- Dicotómicas-binarias
- Ordinales
- Nominales
- Cuantitativas
- Discretas
- Continuas
6Tipos de datos-Ejemplos
- Cualitativas
- Dicotómicas-binarias
- Sexo masculino o femenino.
- Status de empleo empleado o desempleado.
- Ordinales
- Nivel socioeconómico alto, medio o bajo.
- Nominales
- Sitio de residencia centro, sur, norte, este,
oeste - Estado civil soltero, casado, viudo, divorciado,
unión libre - Cuantitativas
- Discretas
- Número de hijos 1,2,3,4.
- Continuas
- Nivel de glucosa en sangre 110 mg/dl, 145 mg/dl.
7Resumen de datos
- Generalmente queremos presentar los datos en
forma resumida. - El número de veces que un dato ocurre, es de
interés ya que nos presenta la distribución de
una variable. - Se puede generar una lista de frecuencias para
variables cuantitativas o cualitativas.
8Resumen de datos categóricos
- Podemos obtener frecuencias de datos categóricos
y resumirlos en una tabla o gráfica. - Ejemplo tenemos 21 diagnósticos de parásitos
aislados en heces de niños.
Giardia lamblia Entamoeba histolytica Ascaris
lumbricoides Enterobius vermicularis Ascaris
lumbricoides Enterobius vermicularis Giardia
lamblia
Giardia lamblia Entamoeba histolytica Ascaris
lumbricoides Enterobius vermicularis Ascaris
lumbricoides Enterobius vermicularis Giardia
lamblia
Giardia lamblia Entamoeba histolytica Ascaris
lumbricoides Enterobius vermicularis Ascaris
lumbricoides Enterobius vermicularis Giardia
lamblia
9Resumen de datos categóricos
- La lista de parásitos detectados nos da una idea
de la frecuencia de cada parásito, pero no es una
forma clara. - Si los ordenamos, nos clarifica la presentación.
Ascaris lumbricoides Ascaris lumbricoides Ascaris
lumbricoides Ascaris lumbricoides Ascaris
lumbricoides Enterobius vermicularis Enterobius
vermicularis
Enterobius vermicularis Enterobius
vermicularis Enterobius vermicularis Enterobius
vermicularis Entamoeba histolytica Entamoeba
histolytica Entamoeba histolytica
Giardia lamblia Giardia lamblia Giardia
lamblia Giardia lamblia Giardia lamblia Giardia
lamblia Ascaris lumbricoides
10Resumen de datos categóricos
- Podemos presentar los resultados en una
distribución de frecuencias.
Distribución de frecuencias de parásitos
intestinales detectados en niños en el CAISES
Celaya, n21
Parásito n
Giardia lamblia 6
Ascaris lumbricoides 6
Enterobius vermicularis 6
Entamoeba histolytica 3
Total 21
Fuente Reporte de Laboratorio
11Resumen de datos categóricos
- Es de utilidad, presentar los frecuencia de cada
categoría, expresada como el porcentaje de la
frecuencia total. - Se le llama distribución de frecuencias relativas
Distribución de frecuencias relativas de
parásitos intestinales detectados en niños en el
CAISES Celaya, n21
Parásito n
Giardia lamblia 6 28.57
Ascaris lumbricoides 6 28.57
Enterobius vermicularis 6 28.57
Entamoeba histolytica 3 14.29
Total 21 100.00
Fuente Reporte de Laboratorio
12Resumen de datos categóricos
- En ocasiones el número de categorías puede ser
elevado y debemos procurar disminuir el número de
categorías.
Distribución por causa de muerte en Celaya, Gto.
durante 2007
Causa de defunción n
Enfermedad cardiovascular 12,525 21.96
Cáncer 10,321 18.10
Infecciones de vías respiratorias bajas 8,745 15.34
Otras 25,435 44.60
Total 57,026 100.00
Fuente Certificados de defunción
13Distribución de frecuencias para datos
cuantitativos
- Con datos cuantitativos, necesitamos agrupar los
datos, antes de presentarlos en una tabla de
frecuencias o de frecuencias relativas.
Distribución de frecuencias de estudiantes de la
FEOC que han fumado al menos una vez. N534
Edad en años n
19 52 14.70
20 32 9.00
21 46 12.99
22 67 18.94
23 26 7.35
24 77 21.76
25 54 15.26
Total 534 100.00
Fuente Encuesta de salud
14Distribución de frecuencias para datos
cuantitativos
- Con datos cuantitativos, es de utilidad calcular
la frecuencia acumulada.
Distribución de frecuencias de estudiantes de la
FEOC que han fumado al menos una vez. N534
Edad en años n acumulado
19 52 14.70 14.70
20 32 9.00 23.70
21 46 12.99 36.69
22 67 18.94 55.63
23 26 7.35 62.98
24 77 21.76 84.74
25 54 15.26 100.00
Total 534 100.00
Fuente Encuesta de salud
15Distribución de frecuencias para datos
cuantitativos agrupados
Edad en años n
lt1 2 0.51
1 8 2.00
2 13 3.30
3 29 7.36
4 37 9.39
5 44 11.17
6 51 12.94
7 50 12.69
8 49 12.44
9 32 8.12
10 25 6.35
11 22 5.58
12 14 3.55
13 9 2.28
14 7 1.78
15 2 0.51
Total 394 100.00
- Con frecuencia hay muchas categorías de datos
cuantitativos, por lo tanto tenemos que calcular
intervalos para cada categoría.
Distribución de frecuencias de edades de niños
con faingoamigdalitis aguda
Fuente Padilla N, Moreno M. Comparación entre
claritromicina, azitromicina y propicillina en el
manejo de faringoamigdalitis aguda
estreptocóccica en niños. Archivos de
Investigación Pediátrica de México 2005 85-11.
16Distribución de frecuencias para datos
cuantitativos agrupados
Distribución de frecuencias de edades de niños
con faingoamigdalitis aguda
Edad en años n
lt1 - 3 52 13.20
4 - 6 132 33.50
6 - 9 131 33.25
10 - 12 61 15.48
13 - 15 18 4.57
Total 394 100.00
Fuente Padilla N, Moreno M. Comparación entre
claritromicina, azitromicina y propicillina en el
manejo de faringoamigdalitis aguda
estreptocóccica en niños. Archivos de
Investigación Pediátrica de México 2005 85-11.
17Agrupamiento de datos
- Guía
- Obtenga el valor mínimo y máximo y decida el
número de intervalos. - Número de intervalos entre 5 - 15.
- Asegurar los límites del intervalo.
- Asegurar que los intervalos sean de la misma
amplitud. - Evitar que el primer y/o último intervalo queden
abiertos.
18Gráficas
- Datos categóricos
- Gráfica de barras
- Gráfica de pastel
- Datos numéricos
- Histograma
- Polígono de frecuencias
19Gráfica de barras
- La frecuencia o frecuencia relativa de una
variable categórica, se puede mostrar fácilmente
con una gráfica de barras. - Se usan para datos categóricos o numéricos
discretos. - Cada barra representa una categoría y su altura
es la frecuencia o frecuencia relativa. - Las barras deben estar separadas.
- Es importante que el eje Y inicie en 0.
20Gráfica de barras
21Gráfica de barras agrupadas
- Si tenemos una variable categórica nominal,
dividida en dos categorías, podemos mostrar los
datos con una gráfica de barras agrupadas. - Permite fácil comparación entre grupos.
22Gráfica de barras agrupadas
23Gráfica de pastel
- Son una alternativa para mostrar una variable
categórica. - Cada rebanada corresponde a la frecuencia o
frecuencia relativa de las categorías de la
variable. - Sólo muestra una variable a la vez.
- Si se quiere hacer comparaciones se tienen que
hacer dos pasteles.
24Gráfica de pastel
25Gráfica de pastel
26Gráficas de distribuciones de frecuencias
histogramas
- De utilidad para variables numéricas.
- No hay espacios entre las barras.
- El área de la barra, no su altura, representan su
frecuencia. - El eje X debe ser continuo.
- El eje Y debe iniciar en 0.
- La amplitud representa el intervalo de cada grupo.
27Gráficas de distribuciones de frecuencias
histogramas
28Gráficas de distribuciones de frecuencias
polígono de frecuencias
- Es otra forma de representar la distribución de
frecuencias de una variable numérica. - Se construye uniendo el punto medio más alto de
cada barra del histograma. - Debe tomarse en cuenta la amplitud de las barras.
- Se puede trazar más de un polígono de frecuencias
en una gráfica, para poder hacer comparaciones.
29Gráficas de distribuciones de frecuencias
polígono de frecuencias
30Gráficas de distribuciones de frecuencias
histograma acumulado
- Se puede trazar directamente de una tabla de
frecuencias acumuladas. - No es necesario hacer ajustes en la altura de las
barras, ya que las frecuencias acumuladas
representan la frecuencia total superior,
incluyendo el límite superior del intervalo en
cuestión.
31Gráficas de distribuciones de frecuencias
histograma acumulado
32Gráficas de distribuciones de frecuencias
polígono de frecuencias acumulado
- Se usan para ver proporciones por debajo o por
arriba de un punto de la curva. - Podemos leer la mediana y los percentiles
directamente. - Si la distribución es simétrica, tendrá forma de
S simétrica. - Si esta sesgada a la derecha o a la izquierda
estará aplanada de ese lado.
33Gráficas de distribuciones de frecuencias
histograma acumulado
34Otras gráficas tronco y hoja
- Se usan para exhibición directa de datos
cuantitativos o paso preliminar para la
construcción de una distribución de frecuencias. - Se organizan los datos, determinando el número de
divisiones (5-15). - Se traza una línea vertical y se coloca el primer
dígito (tronco) de la categoría a la izquierda de
la línea y el segundo dígito (hojas) a la derecha
de la línea vertical.
35Otras gráficas tronco y hoja
Paciente Edad
1 54
2 35
3 49
4 61
5 58
6 64
7 32
8 57
9 43
10 42
3 5 2 4 932 5 487 6 14
36Otras gráficas caja y línea
- Se traza una línea vertical que representa el
rango de la distribución. - Se traza una línea horizontal que representa el
tercer cuartil y otra que representa el primer
cuartil. - El punto medio de la distribución se señala con
una línea horizontal dentro de la caja.
37Otras gráficas caja y línea
5500 5000 4500 4000 3500 3000 2500 2000 1500 1000
500
38Medidas de localización
- Para una variable categórica porcentaje
- Para variable cuantitativa
- Medidas de tendencia central
- Media
- Mediana
- Modo
- Medidas de dispersión
- Desviación estándar
- Percentiles
- Rango
39Medidas de tendencia central
- Media
- Es el promedio convencional.
- Si decimos de n observaciones tiene un valor xi,
entonces el valor de la media será
_ X Sxi/n
40Medidas de tendencia central en una distribución
de frecuencias
- Cada valor de los datos (xi) ocurre con una
frecuencia (fi), entonces - En una distribución agrupada, utilizamos los
puntos medios de los intervalos como valor de x
_ X Sxifi/n
41Medidas de tendencia central en una distribución
de frecuencias
Intervalo Punto medio Frecuencia
(fi) _________________________________ 1 3
2 18 4 6
5 27 7 9
8 34 10 12
11 22 13 15
14 13 ____________________
_____________ Total
114 Ejemplo de la media para una
distribución agrupada (2 x 18)
(5 x 27) (8 x 34) (11 x 22) (14 x 13)
36 135 272 242 182 867 Media
--------------------------------------------------
------------------- ----------------------------
------------ -------- 7.61
(18 27 34 22 13)
114
114 Media 7.61 años
42Medidas de tendencia central
- Mediana
- Es el valor que divide a la distribución en dos
mitades iguales. - Si es un número par de observaciones, los valores
centrales, se suman y se dividen entre dos.
51.2, 53.5, 55.6, 65.0, 74.2 la mediana es el
valor que está a la mitad, así Mediana 55.6
51.2, 53.5, 55.6, 61.4, 65.0, 74.2, 55.6 61.4
/2 Mediana 58.5
43Medidas de tendencia central para distribuciones
de frecuencias
- Mediana
- Es el valor donde está el 50.
44Medidas de tendencia central
- Modo
- Es el valor que ocurre más frecuentemente
Intervalo Punto medio Frecuencia
(fi) _________________________________ 1 3
2 18 4 6
5 27 7 9
8 34 10 12
11 22 13 15
14 13 ____________________
_____________ Total
114
45Medidas de tendencia central
- Propiedades
- La media es sensible a las colas, la mediana y el
modo, no - El modo puede ser afectado por pequeños cambios
en los datos, la media y la mediana no. - El modo y la mediana se puede localizar en una
gráfica. - Las tres medidas son iguales en una distribución
Normal.
46Medidas de tendencia central
- Cuál medida usar?
- Para distribuciones sesgadas, se usa la mediana.
- Para análisis estadístico e inferencia, se usa
más la media.
47Medidas de dispersión
- Rango
- Se señalan el valor mínimo y máximo y la
diferencia entre ellos.
51.2, 53.5, 55.6, 61.4, 65.0, 74.2 El rango de
esta distribución es 51.2 74.2 kg. Sin
embargo los valores extremos de esta distribución
están alejados del centro de la distribución,
oscureciendo el hecho de que la mayoría de los
datos están 53.5 y 65 kg.
48Medidas de dispersión
Examine la distribución de la estatura en esta
población. Cuál es el rango, mediana, percentil
25 y percentil 75? Estatura en cm.
n Frecuencia
relativa () Frecuencia acumulada () 151
2
0.7
0.7 152
3
1.1 1.8 152
6
2.2
4.0 154
12
4.5 8.5 155
27
10.0
18.5 157
29 10.8
29.3 158
26
9.7
39.0 159
33 12.3
51.3 163
37
13.8
65.1 164
16 5.9
71.0 165
24
8.9
79.9 168
18 6.7
86.6 169
14
5.2
91.8 171
6 2.2
94.0 174
7
2.6
96.6 175
1 0.4
97.0 177
4
1.5
98.5 179
2 0.7
99.2 184
1
0.4
99.6 185
1 0.4
100.0 Total
269
100.0
- Percentiles
- Un percentil o centil es el valor abajo del cual,
un porcentaje dado de los datos, ha ocurrido.
49Medidas de dispersión
- Desviación estándar
- Es la forma más común de cuantificar la
variabilidad de una distribución. - Mide que tan alejando está cada valor de su media.
Sujeto Altura
Valor
S Xi - X 1 1.6
-1 Desviación media
---------- 2 1.7 0
n 3 1.8
1
_
X 1.7 Desviación
media (-1)(0)(1)/3 0
50Medidas de dispersión
- Desviación estándar
- Debemos interesarnos más por la magnitud de las
desviaciones. - Si elevamos al cuadrado cada desviación,
tendremos valores positivos. - Si dividimos esa suma entre n -1, obtendremos la
varianza y si obtenemos la raíz cuadrada,
tendremos la desviación estándar.
Sujeto Altura
Valor2
S (Xi - X)2 1 1.6
0.1 Desviación estándar v
---------- 2 1.7
0
n-1 3
1.8 0.1
_
X 1.7
Desviación estándar v0.2/2 0.32
51Medidas de dispersión para datos agrupados
- Desviación estándar
- Se usa el punto medio de cada intervalo.
S f(Xi - X)2
Desviación estándar v
--------------
f - 1
También puede
expresarse
Sfx2 - (Sfx)2 /Sf
Desviación estándar v --------------------
-
S f -1
52Medidas de dispersión para datos agrupados
- Para datos distribuidos normalmente
- Alrededor del 68 de los datos están dentro de 1
desviación estándar. - Alrededor del 95 de los datos están dentro de 2
desviaciones estándar. - Alrededor del 99.9 de los datos están dentro de
3 desviaciones estándar. - La desviación estándar es una medición de la
anchura de la distribución. Si la desviación
estándar cambia, también cambia la distribución.
53Bibliografía
- 1.- Kirkwood BR. Essentials of medical
ststistics. Oxford, Blackwell Science, 1988. - 2.- Altman DG. Practical statistics for medical
research. Boca Ratón, Chapman Hall/ CRC 1991.