Slide sem t - PowerPoint PPT Presentation

1 / 29
About This Presentation
Title:

Slide sem t

Description:

Estat sticas descritivas: Como o pr prio nome j diz, s o c lculos, contas, que s o realizadas de modo que possamos descrever nossas vari veis, nossos dados. – PowerPoint PPT presentation

Number of Views:39
Avg rating:3.0/5.0
Slides: 30
Provided by: Cass71
Category:
Tags: sem | vars

less

Transcript and Presenter's Notes

Title: Slide sem t


1
Estatísticas descritivas Como o próprio nome já
diz, são cálculos, contas, que são realizadas de
modo que possamos descrever nossas variáveis,
nossos dados.
Se solicitados a apresentar seus dados,
demonstrá-los a um público, certamente não
apresentarão todos os dados - Vejam aqui estão
as 200 medidas de altura que realizei!!!. Para
isto servem as estatísticas descritivas, são
medidas que descrevem as principais
características de uma variável, que sumarizam o
dado.
Através delas podemos com poucos números (2 ou
3), dar uma noção de como são nossos dados, onde
se concentram, como estão variando e podemos
compará-los com outras séries de dados.
Veremos também quais as estatísticas descritivas
mais apropriadas para cada tipo de variável.
2
Medidas de tendência central (ou de posição)
São medidas que visam determinar o centro da
massa dos dados, representam o valor em torno do
qual os dados estão gravitando, o ponto central
do conjunto de valores.
Média É a mais conhecida, utilizada e que melhor
se aplica à definição de medida de tendência
central. DefiniçãoÉ a soma de todos os valores
da var. dividida pelo número de valores.
Temos 14 valores de Idade 32 35 36 36 37
38 38 39 39 39 40 40 42 45, logo nossa
média será a soma de todos 14 valores, divididos
depois por 14.

3
Símbolo de média quando obtida de uma amostra µ
média quando obtida de toda a população
Símbolo de somatório, irá somar todos os Xs,
onde cada X é um valor. N No. total de
valores (32 35 ... 42 45)/14
Utilização da média conforme o tipo de variável
- Quantitativas contínuas É onde é mais
utilizada, média de peso, de al- tura, média da
taxa de vitamina A no sangue.
- Quantitativas discretas Também pode ser
utilizada, apesar de não existirem 2,3 filhos ou
dores de cabeça por semana, a média é bastante
utilizada e aceita neste caso, vide IBGE. Em
todo caso convém refletir.
4
- Qualitativas ordinais Pode também ser
utilizada aqui. Em escalas (ótimo 5, bom 4,
regula r 3, fraco 2 e ruim 1) ou em
situações do tipo da var. escolaridade (Analf.
1, 1o. Grau 2, 2o. Grau 3 ...), ou ainda
escalas do tipo Likert (Não concordo
veementemente 1, Não Concordo 2, Indiferente
3, Concordo 4 e Concordo totalmente 5)
Necessário bastante parcimônia, verificar se faz
sentido. Contudo para a realização de testes
estatísticos é bastante utilizada .
- Qualitativas nominais Não é utilizada, não faz
sentido, qual a média da var. raça? Neste tipo de
variável (e também nas ordinais) para
descrever- mos o dados utilizamos o percentual, a
porcentagem (). Exemplo
Variável região de origem Possíveis respostas
Sul, Sudeste, Centro- oeste, Norte e Nordeste.
Verificamos o total de resposta, p. exp., 200 e
dividimos o total de resposta de cada região
pelo total Sul 48 respostas 48/200 24 das
respostas Norte 10 10/200 5
5
Mediana É o valor que divide os dados ao meio,
metade dos valo- res estão abaixo do valor da
mediana e a outra metade está acima do valor da
mediana.
Para calculá-la é necessário primeiro ordenar os
dados, depois ver se
1- se o total de dados (n) for impar, some 1 a
este total e divida-o por 2.
22 22 25 26 26 27 28
28
29 29 29 30 30 35 36
Veja, temos 15 valores (impar) ordenados, somamos
1 e dividimos por 2 (15 1)/2 8 . Então a
mediana será o valor que ocupar a 8a. Posição
28. Repare há 7 valores abaixo de 28 e sete
acima.
6
2- se o total de dados (n) for par, encontre o
valor n/2 e o valor (n2)/2 e a mediana será a
média destes dois valores.
22 22 25 26 26 27 28
28 29
29 29 29 30 30 35
36
Temos 16 valores (par) ordenados, encontramos
n/2 8 e (n2)/2 9 Então a mediana será a média
entre o 8 e 9 valor. (2829)/2 28.5
Utilização da mediana conforme o tipo de variável
Nas vars. quantitativas pode-se usá-la
tranquilamente, mas o mais co- mum é o uso da
média. Já nas variáveis qualitativas ordinais seu
uso equipara-se ao da média, e nas nominais não
faz sentido.
7
Situação na qual o uso da mediana é
recomendado e não o da média Quando temos
valores aberrantes (outliers) na amostra, p.
exp., var. Renda com estes valores 200, 350,
400, 430, 450, 500, 4000. A renda média é de 900,
mas este valor descreve bem nossos dados? A
mediana é de 430, qual descreve melhor? A mediana
é menos influenciada por valores extremos, é
robusta.
A mediana divide a amostra ao meio, em 50.
Valores que dividem a amostra em 4 partes iguais
também são utilizadas, são os Quartis. O 1o.
Quartil divide a amostra em 25 abaixo dele e 75
acima dele O 2o. Quartil nada mais é que a
Mediana. O 3o. Quartil divide a amostra em 75
abaixo dele e 25 acima dele
1.2 , 1.3, 1.4, 1.7, 1.9, 2.1, 2.2, 2.5,
3.3, 3.8, 4.2, 4.2, 4.3, 4.3, 4.4 1
quartil Mediana 3 quartil
1.8 2.5
4.2
8
São também utilizados percentis (dividir por 100)
e os decis (por 10)
Moda ou Norma Dentro de um conjunto de valores a
moda é o valor mais frequente, o valor que
aparece mais vezes. 2, 3, 9, 10, 11, 12, 13 -
Não há moda. 3, 4, 5, 6, 7, 8, 8, 9 - A moda é 8
- unimodal 3, 3, 4, 5, 6, 7, 9, 9, 10 - As modas
são 3 e 9 - bimodal 3, 3, 4, 6, 7, 8, 9, 9, 10,
11, 12, 13, 13 - As modas são 3, 9 e 13-
multi- modal.
Utilização da moda conforme o tipo de variável
A moda pode ser utilizada nos dois tipos de
variáveis quantitativas, mas é mais utilizada nas
variáveis categóricas ordinais e nominais
(quando categorizadas) onde representará a
categoria mais frequente.
9
Medidas de variabilidade (ou de dispersão)
São medidas que visam determinar o quanto a massa
dos dados esta variando em torno da média
(centro), dão a noção de qual a abran- gência dos
valores da amostra (ou população). Indicam também
o quanto os valores assemelham-se entre si. Alta
variabilidade indica que os dados não são muito
parecidos, próximos já baixa variabili- dade
indica valores próximos, parecidos.
Exemplo Notas de duas classes Classe A 1, 3,
3, 5, 7, 7, 10 Classe B 4, 4, 5, 5, 5, 6, 6
Esta 2 classes são equivalentes ?.
Problema para a estatística.
10
Variância É a mais utilizada e conhecida medida
de dispersão. Vejamos a sua fórmula
Portanto vemos que para calculá-la subtraímos
cada valor (Xi) da média, elevamos esta diferença
ao quadrado, somamos todas estas diferença e
dividimos o pelo tamanho da amostra -1.
Exemplo Xi Xi- Média (Xi- Média)2
A soma é 10
1 1 - 3 -2 4
10 dividido por 4 2.5 2
2 - 3 -1 1 Portanto a
variância destes 3 3
- 3 0 0 dados 2.5
4 4 - 3 -1 1
5
5 - 3 -2 4
11
Porém a forma mais utilizada da variância é a sua
raiz quadrada, conhecida por Desvio padrão s
. Desvio padrão Raiz quadrada da variância, no
exemplo a raiz qua- drada de 2.5 é 1.58 desvio
padrão.
Erro padrão É o desvio padrão dividido pela
raiz quadrada do tamanho da amostra.

Amplitude É a diferença entre o menor valor de
uma amostra e o maior valor de uma amostra.
Maior valor - Menor valor
Amplitude inter-quartil É a diferença entre o
valor do 1o.quartil da amostra e o valor do
3o.quartil. Valor 1o. Q - Valor 3o. Q
12
Ao iniciarmos o Minitab encontramos a seguinte
tela No topo da tela temos
a barra de ferramentas, que sempre permanece aí
e onde se encontram as principais funções. Temos
então duas janelas a 1a. (de cima) é on- de
aparecerão os resultados das aná- lises, a 2a. é
a planilha de dados, on- de ao abrirmos um
arquivo os dados aparecerão. Pode-se trabalhar
com ambas abertas ou maximizar uma e ocultar a
outra, clicando nos respectivos pontos de cada
tela
A seguir abriremos um arquivo chamado estdes .
13
Clicamos em File e vamos até Open Wor- ksheet
para abrirmos um arquivo já exis- tente.
Surgirá o quadro abaixo onde digi- taremos o nome
do arquivo estdes e clicamos em abrir.
14
Surgirá então o banco de dados( a tela já está
maximizada) estdes com- posto por 9 variáveis.
Para obtermos nossas estatísticas descritivas
vamos até o módulo Stat e o acionamos.
Na seção Basic Statistics vamos pa- ra Display
Descritive Statistics e clicamos nela, quando
aparecerá um novo quadro.
15
Temos então uma lista das nossas variáveis. Para
selecionarmos quais vars. desejamos obter as est.
descri- tivas marcamos o nome da mesma com o
mouse e clicamos em Select e ela aparecerá em
Variables. Repete-se o processo com todas
as vars. que nos interessam. Após selecionarmos
as vars. de inte- resse clicamos em OK
16
A tela minimizada de resultados então aparecerá e
lá temos todas as estatís- ticas descritivas de
cada uma das vars. selecionadas
Temos para cada var. o tamanho da amostra (N), a
média (Mean), o erro padrão da média (SE Mean),
o desvio padrão (StDev) o me- nor valor
(Minimum), o 1o. Quartil (Q1), a mediana(Median),
o 3o. Quartil (Q3) e o maior valor (Maximum) .
17
Para a variável Sexo nos interessa a frequência e
seu percentual. Para isto voltamos no módulo de
Stat, vamos até a seção Tables e daí
acionamos Tally Individual Variables.
No quadro novo selecionamos a variável de
interesse como já feito anteriormente ativamos as
células Counts e Percents que fornecerão o
número de elementos de cada categoria da var. e
seu percentual rela- tivo. E damos OK
18
Na tela de resultados temos a quantidade de cada
categoria e o seu percentual.
Para imprimir seus resultados vá em File e
depois em Print Ses- sion Window.
19
Na tela da seção de estatísticas descritivas há
um espaço escrito By variable. Se vc selecionar
e inserir uma variável, o software irá calcular
as estatísticas descritivas da variável
quantitativa para cada categoria, nível, da
variável inserida. Neste caso teremos as
estatísticas de Idade para cada Sexo.
20
DISTRIBUIÇÃO NORMAL
Um pesquisador, há muitos e muitos anos atrás,
pesou 40 pedras coletadas ao acaso em seu quintal
e obteve os seguintes valores
1 . 44 1 . 569 2 . 0344 2 . 67899 3 .
00112334 3 . 56677899 4 . 022234 4 . 55 5 .
00
Na sequência ele ordenou os dados da seguinte
forma
3,93548 2,67440 3,30983 3,10762 2,48178
3,76507 4,52549 4,03743 3,48335
3,62144 3,16867 2,93377 3,57961
1,65071 4,28888 1,46075 4,39241
2,03689 4,45589 5,07087 1,40666
2,43355 3,70547 5,09515 3,69522
2,30950 2,80332 1,94147 3,04045
4,20944 3,92837 2,74200 3,84063
3,26786 3,32436 4,23001 4,56957
2,97874 3,04060 1,53232
1 . 44 1 . 569 2 . 0344 2 . 67899 3 .
00112334 3 . 56677899 4 . 022234 4 . 55 5 .
00
Sendo que o traço na figura indica o ponto onde
está a média
21
O pesquisador realizou levantamentos
semelhantes com vários outros elementos da
natureza e verificou que quase sempre obtinha
curvas, figuras, DISTRIBUIÇÕES, semelhantes à
anteriormente vista.
O passo seguinte foi ajustar, estimar, um modelo
matemático que representa-se a curva em forma de
sino obtida. O nome deste pesquisador é CARL
FRIEDRICH GAUSS, daí esta curva também ser
conhecida como curva de Gauss ou Gaussiana.
Onde µ média e ? desvio padrão
22
A distribuição Normal, a sua forma, é
determinada totalmente pelos parâmetros µ e ?.
Observe que para diferentes médias e desvios
padrões tenho diferentes curvas.
Características da curva Normal
1- A área sob a curva é igual a 1 ou 100
2 - A distribuição é simétrica em relação à média
23
3- Os valores da média, moda e mediana são
equivalentes (teoria)
4- A área entre µ ? equivale a 68,26 da área
5- A área entre µ 2? equivale a 95,44 da área
24
6- A área entre µ 3? equivale a 99,74 da área
Como já foi dito, a dist. Normal é simétrica em
relação à média, uma me- dida que verifica a
assimetria de uma distribuição é SKEWNESS
(coefi- ciente de assimetria), que na
distribuição Normal deve ser igual a 0
Para um valor positivo do Skewness assimetria à
direita da distribuição
Para um valor negativo do Skewness assimetria
à esquerda da distribuição
25
Outra medida verificada em distribuições é a
Kurtosis (curtose ou medi- da de achatamento).
Nas dist. Normais deseja-se uma curtose próximo a
3.
Leptocúrtica K gt 3
Platicúrtica K lt 3
Mesocúrtica K 3
26
A Distribuição Normal Padrão (ou Normal
Reduzida)
Uma distribuição Normal particularmente
importante é a que possui média 0 (µ 0) e
desvio padrão 1 (? 1).
Esta distribuição N(0,1) é conhecida por z
e é tabelada, isto é, suas probabilidades são
conhecidas, já foram calculadas.
27
Por exemplo, se desejo a probabilidade de um
valor ocorrer entre 0 e 1 vou na tabela e
procuro na margem esquerda a linha de z 1 e a
coluna 0 e encontramos 0.3413. Portanto a
probabilidade de ocorrência de um valor entre 0 e
1 é de 34.13
A grande utilidade da distribuição z é que
qualquer distribuição Normal pode ser
transformada em uma z , através da seguinte
transformação
z x m ds
Onde x ponto que se deseja converter em z m
média da normal origi- nal ds desvio padrão
da normal original.
28
Exemplo Suponha que a média de um determinado
teste seja 100 e o dp seja 5. Qual a
probabilidade de uma pessoa se um valor entre 105
e 107 ?
Aplicando a transformação 105 100 1 e
107 100 1.4
5
5
Então temos que calcular a probabilidade entre
1 e 1.4 na tabela da Normal reduzida que é
equivalente a calcular a probabilidade do ponto
1.4 (0.419) menos a probabilidade do ponto 1.0
(0.3413), que equivale a 0.0779.
Portanto a prob. de se obter um valor entre 105
e 107 no teste é de 7.79
29
Determinar se uma variável possui ou não
distribuição Normal é muito importante, pois se
a variável possui normalidade utilizaremos
determina- dos testes estatísticos, se a mesma
não possuir normalidade, outros teste
serão utilizados.
Observe que só faz sentido falar em distribuição
Normal para as vars. numéricas. Não há sentido de
falar distribuição Normal para variáveis categóric
as nominais.
Para as var. cat. ordinais, conceitualmente,
teoricamente, também não faz sentido, mas na vida
real testa-se a normalidade e caso aceita a mesma
trabalha-se como se assim fosse.
Write a Comment
User Comments (0)
About PowerShow.com