Title: Variables estad
1Variables estadísticas bidimensionales
- Se trata de variables que surgen cuando se
estudian dos características asociadas a la
observación de un fenómeno.
2Variables estadísticas bidimensionales
- Ejemplo 1.- Estudiamos la talla, medida en cm. y
el peso, medido en kg. de un grupo de 10
personas, podemos obtener los siguientes valores -
Talla (cms) 160 165 168 170 171 175 175 180 180 182
Peso (kgs) 55 58 58 61 67 62 66 74 79 83
3- Podemos llamar X a la talla e Y al peso con lo
que se obtendría la variable bidimensional (X, Y)
que toma 10 valores, que son las 10 parejas de
valores de la tabla anterior (160,55), (165,58),
etc.
4Variables estadísticas bidimensionales
- En algunos casos el número de "parejas" de
valores (x,y) es grande y además muchos de ellos
aparecen repetidos en este caso se utiliza una
"Tabla de doble entrada" como la que se muestra a
continuación en el ejemplo 2 - En la primera fila se colocan los valores de una
de las características o variable que componen la
variable bidimensional y en la primera columna
los de la otra.
5Variables estadísticas bidimensionales
- Ejemplo 2.- Se representa por X el número de
hijos de 100 familias y por Y el número de hijas
de hijas (Y) 0 1 2 3
de hijos (x) ----------- ---- ---- ---- ---
0 ----------- 10 15 15 3
1 ----------- 10 12 7 2
2 ----------- 8 4 3 1
3 ----------- 3 2 1 0
4 ----------- 2 1 1 0
6Variables estadísticas bidimensionales
- La lectura de esta tabla es sencilla. Por
ejemplo habría 7 familias que tendrían 1 hijo y
2 hijas y ninguna familia tendría 3 hijos y 3
hijas.
7Representación gráfica
- Diagramas de dispersión o nubes de puntos
8Variables Estadisticas Bidimencionales
9Diagramas de dispersión o nubes de puntos
- La representación gráfica de este tipo de
variables es en realidad semejante a la
respresentación de puntos en el plano, usando
unos ejes de coordenadas. Cada pareja de valores
da lugar a un punto en el plano y el conjunto de
puntos que se obtiene se denomina "diagrama de
dispersión o nube de puntos".
10Diagramas de dispersión o nubes de puntos
- En el ejemplo 1 anterior en el que se estudiaba
la talla y el peso de 10 personas se obtendría el
siguiente diagrama de dispersión (En el eje X se
representa la talla en cm. y en el eje Y el peso
en kg.)
11Diagramas de dispersión o nubes de puntos
- Se puede ver en el primera figura que
correspondía al diagrama de talla - peso que la
serie de puntos presenta una tendencia
"ascendente" . Se dice en este caso que existen
entre las dos variables una "dependencia directa"
. - En caso en que la tendencia sea "descendente" se
diría que estaríamos ante una " dependencia
inversa " - Naturalmente en caso en que no se pueda observar
una tendencia clara estaríamos ante una
dependencia muy débil que no se puede observar
mediante la nube de puntos
12Diagramas de dispersión o nubes de puntos
13Covarianza y su interpretación
14Covarianza
- Sean (xi, yi ) pares de observaciones de dos
caracteristicas X y Y, y sean sus
respectivas medias. La covarianza entre entre las
dos variables se define por
15Covarianza
- Donde xi e yi representan los pares de valores de
la variable y el producto corresponde al
producto de las medias aritméticas de las
variables x e y respectivamente.
16- Pasos para calcular la covarianza de una serie de
eventos - Paso 1 Se calcula Sxiyi , esto es la
sumatoria de los productos de las variablares
x y y o sea - (x1 y1) (x2 y2) ...
(xn yn ) -
- Paso 2 se define n, que el numero de eventos o
el numero de pares de cariables - Paso 3 Se calcula , que es el producto
de las medias de ambas variables - Paso 4 Obtenidos todos los datos se sustituyen
en la formula y se obtiene el resultado
17Calculemos la covarianza para el ejemplo primero
correspondiente a la variable talla - peso
- Paso 1
- La suma de todos los productos de los valores
de x (talla) por los de y (peso) sería - 160 55 165 58 168 58 170 61 171
67 175 62 175 66 180 74 180 79
182 83 114987 - Paso 2
- Definimos n como el numero de eventos en este
caso es 10
18 Paso 3 A este valor debemos restarle el
producto de las medias de ambas variables que
naturalmente sabes calcular Media de x (talla)
172.6
172.6 66.3 11443.38
Media de y (peso) 66.3 De acuerdo ala formula
tenemos que
Sxy (114987 / 10 ) 11443.38
Sxy 55.32 Hemos obtenido un
valor positivo para la covarianza que corresponde
a una dependencia directa como ya habíamos
intuido con la nube de puntos
19Regresion y Correlacion
20Recta de regresion
- Relacion entre dos variables
- Variable independiente x
- Variable dependiente y
- función lineal del tipo y ax b, su gráfica
correspondería a una recta - recta de regresión.
21se deduce que la recta de regresión debe pasar
por el punto correspondiente a las medias de
ambas variables y que debe tener por pendiente la
covarianza dividida por la varianza de la
variable x. Con ello la expresión de la recta de
regresión será
Esta es la llamada "Recta de regresión de y sobre
x". Si se deseara estudiar la dependencia de x
respecto a y sólo habría que cambiar en la
expresión de la recta x por y, obteniéndose la
recta regresión de x sobre y
22En la imagen siguiente se muestra la recta de
regresión de y (peso) sobre x (talla) del ejemplo
1 de este tema. En este caso se supone que
represente cómo depende el peso de una persona de
su talla
Si recordamos que entre la talla y el peso
decíamos que existía una dependencia directa, la
recta de regresión lo confirma ya que su
pendiente es positiva a medida que aumenta la
talla aumenta el peso. Por tanto
Dependencia directa - Pendiente de la recta
positiva - Función creciente
23Utilidad tiene la recta de regresión
- Mediante la recta de regresión podríamos obtener
de manera aproximada el valor de la variable
dependiente (y) de la que conociéramos la
variable independiente (x), en una población
semejante a aquella de la que se ha obtenido la
muestra - De manera más precisa, si conocemos la expresión
de la recta de regresión, se pueden calcular
valores para la variable y, conocidos los de x,
como si se tratara de una función
24Ejemplo Si observamos la gráfica, podríamos
suponer por ejemplo que una persona de 185 cm
pesaría algo más de 80 kg
De acuerdo ala formula
- La recta de regresión de la variable y (talla)
sobre x (peso) será la recta - que pasa por el punto (172,6 66,3) (medias
repectivas de (x,y)) - tiene de pendiente 55.32 / 50.71 1.0909
- Recta y 66.3 1.0909 ( x 172.6) que
operando y simplificando queda - y 1.0909x 121.9
25El valor del peso que suponíamos aproximado para
una talla de 185 cm sería Peso 1.0909 185
121.9 79.9 Este valor obtenido es algo menor
al esperado. Eso quiere decir que las
predicciones hechas con la recta de regresión no
son exactas. Mas adelante precisaremos la
"fiabilidad" de las mismas. Por tanto la recta
de regresión se puede utilizar para realizar
predicciones para la variable y a partir de
valores conocidos de la variable x.
26Coeficiente de correlacion
27- Una vez observado que en una variable
bidimensional existe una cierta dependencia entre
las dos características o variables que la forman
(nube de puntos y covarianza), podemos precisar
el grado de dicha dependencia. - - Si los puntos de la nube estuvieran todos sobre
la recta de regresión se diría que existe una
dependencia funcional. De su estudio se encargan
las funciones. - - Si los puntos no están todos sobre la recta de
regresión se dice que entre las variables hay una
cierta correlación lineal. Este es el caso que
nos ocupa. Para cuantificar el grado de dicha
correlación se usa el
28Coeficiente de correlación de Pearson. Si le
llamamos r, su valor es Puede observarse
que el signo del coeficiente de correlación es el
mismo que el de la covarianza y puede deducirse
que el valor del mismo esta comprendico entre -1
y 1. Se pueden deducir las siguientes
conclusiones relativas al coeficiente de
correlación (r) - Su signo es el mismo de la
covarianza, luego si r es positivo la dependencia
es directa y si es negativo inversa. - Si r se
acerca a -1 o a 1, la dependencia es fuerte y
por tanto las predicciones que se realicen a
partir de la recta de regresión serán bastante
fiables. - Si r se acerca a 0 la dependencia es
débil y por tanto las predicciones que se
realicen a partir de la recta de regresión serán
poco fiables
29Ejemplo Calcularemos la correlacion para el
ejemplo de las tallas y los pesos
Sxy 55.32 Sx 50.71 Sy 752.81
r 55.32 / (50.71 752.81) r 0.0014
r se acerca a 0 la dependencia es débil y por
tanto las predicciones que se realicen a partir
de la recta de regresión serán poco fiables
30Ejercicios
31Ejercicio 1En el ejemplo 2 (hijos - hijas) se
puede comprobar que también la covarianza es
positiva. (Se deja como ejercicio la
comprobación). Téngase en cuenta que en este caso
la variable bidimensional toma "100 valores"
- Ejercicio 2De la siguiente tabla de las perdidas
- Esperadas. En rendimiento de soya por riego
- Inoportuno Obtenga
- La covarianza
- Tipo de dependencia
- correlacion
32Partimos de la escena siguiente, en la que se
pueden ver inicialmente la nube de puntos de la
variables bidimensional que toma los siguientes 6
pares de valores
- Ejercicio 3
- - A la vista de la nube de puntos qué tipo de
dependencia se puede suponer? - Calcular la covarianza y confirmar la afirmación
anterior - Calcular el valor de y si se sabe que x 15
- calcular la correlacion