Title: ESTIMA
1Seminário
ESTIMAÇÃO DE PARÂMETROS
Flávio,Genildo, Mozart e Petrúcio
Disciplina
Probabilidade e Inferência
Professor
Dr. Luis Cláudius Coradine
2- Intuitivamente ou não, todas as pessoas conhecem
e utilizam de alguma forma estatística. - Necessidades de uso ...
- Uma empresa adquiriu 100.000 rebites.
- Qual a proporção de rebites defeituosos?
3estimar
População
Amostra
- Distribuição Amostral
- Estatísticas
- (variável aleatória)
Função de distribuição de Probabilidade Parâmetro
s Populacionais Média µ Desvio padrão
s Variância s² Proporção de determinado
evento P
A inferência estatística consiste em generalizar
para a população aquilo que se observou na
amostra com o objetivo de tirar conclusões.
4(No Transcript)
5- As estimativas de parâmetros populacionais são
realizadas a partir dos resultados (dados) de uma
variável aleatória de uma amostra representativa
extraída dessa população. - As estimativas das amostras dependem dos valores
amostrados, sendo necessário conhecer a
distribuição de Probabilidade da amostra. - A partir da distribuição de probabilidade do
parâmetro, tem-se condições de avaliar o grau de
incerteza das inferências realizadas a partir de
amostras aleatórias. - Dada uma amostra aleatória (X1,X2,...Xn),
estimador ou estatística é qualquer variável
aleatória função dos elementos amostras. - Estimativa ? valor numérico de um estimador.
6- Estimativas Pontuais
- Seja a variável aleatória X, com distribuição de
probabilidade f(x), e seja que os valores dos
parâmetros populacionais da média µ e da
variância s² são desconhecidos. - Se a amostra representativa da variável aleatória
X é extraída da população, a média ? e a
variância S² dessa amostra podem ser usadas como
estimadores pontuais dos parâmetros populacionais
µ e s².
7Critérios e Características de um Estimador
- Teorema 1
- A média da distribuição amostral das médias,
denotada por µ (x), é igual à média populacional
µ. Isto é
8Critérios e Características de um Estimador
- Teorema 2
- Se a população é infinita, ou se a amostragem é
com reposição, então a variância da distribuição
amostral das médias, denotada por ?2(x), é dada
por
9Critérios e Características de um Estimador
- Teorema 3
- Se a população é finita, ou se a amostragem é
sem reposição, então a variância da distribuição
amostral das médias, denotada por ?2(x), é dada
por
10Critérios e Características de um Estimador
- Teorema do Limite Central
- Se a população tem ou não distribuição normal com
média µ e média ?2, então a distribuição das
amostras será normalmente distribuída.
11- Distribuição Amostral da Média
- Uma distribuição amostral das médias indica a
probabilidade de ocorrência de uma média
amostral. - As médias tendem a agrupar-se em torno da média
populacional.
12- Distribuição Amostral da Média
- A média das médias amostrais é igual a média
populacional - E ? µ
- O desvio padrão da distribuição amostral das
médias será dado por - sx s / Raiz(n)
13 Estimativas através de Intervalo de Confiança
- Consiste em gerar um intervalo, centrado na
estimativa pontual, no qual se admite que esteja
o parâmetro populacional. - Quanto maior a amplitude do intervalo, maior a
confiança (probabilidade) de estimar corretamente
o verdadeiro parâmetro populacional.
14 Estimativas através de Intervalo de Confiança
- Existe uma probabilidade (1 a) de que o
parâmetro populacional esteja contido no
intervalo - P L µ U 95
- Para diversas amostras aleatórias, 95 desses
intervalos iriam incluir o verdadeiro valor da
média populacional. - P L µ (1 a)
- P µ U (1 a)
15Critérios para Estimativas
- Seja X uma variável aleatória cuja distribuição
dependa do paramento ? - Seja x1, ...,xn uma amostra aleatória de X
- Seja ? uma função da amostra
- Diz-se que ? é uma estimativa não tendenciosa
de ? se - E (?) ?, para todo ?.
16Critérios para Estimativas
- Seja ? uma estimativa não tendenciosa de ?.
Diremos que ? é uma estimativa não tendenciosa,
de variância mínima de ?, se todas as estimativas
de ?, tais que E (?) 0, tivermos V(?) V
(?) pata todo ?. - A variância de uma variável aleatória mede a
variabilidade da variável aleatória em torno do
seu valor esperado.
17Critérios para Estimativas
- Seja ? uma estimativa do parâmetro ?. Diremos
que ? é uma estimativa coerente de ?,se - Lim. Prob. ? - ? gt e 0 e gt 0
- Lim. Prob. ? - ? e 1 e gt 0
- A medida que o tamanho da amostra n aumenta, a
estimativa converge para ?.
18Critérios para Estimativas
- Seja x1,x2,...,xn uma mostra de X ? uma função
de (x1,x2,...xn). - Diz-se que ? é a melhor estimativa não
tendenciosa linear de ?, se - a) E (?) 0
- b) ? ? aixi, ? é uma função linear da
amostra - c) V(?) V (?) , onde ? é qualquer outra
estimativa de ? que satisfaça (a) e (b).
19Intervalo de confiança para média, variância
conhecida
- Seja X uma variável aleatória qualquer que siga a
distribuição Normal X?N(?,?) e seja xp ..., xn
uma amostra aleatória desse processo. - A partir do teorema do limite central, sabe-se
que a distribuição da média segue a distribuição
normal -
- Mais ainda, para n suficientemente grande este
resultado é válido mesmo que a distribuição de
origem não seja Normal - Seja que uma variável aleatória X tenha média
desconhecida e variância conhecida. E seja que
amostra dessa população apresentem média igual a
20De acordo com t de Student
21Intervalo de confiança para média desconhecida e
variância conhecida
22(No Transcript)
23Erro de Estimação
24Erro de Estimação
25(No Transcript)
26Intervalo de confiança para média, variância
desconhecida
27(Somar Valores da amostra) / (nº de amostras)
Desvio Padrão
T Student 5 (20-1)
28Intervalo de confiançapara variância
29Variância
Qui-quadrado
30Intervalo de confiançapara o parâmetro da
Binomial
31(No Transcript)
32(No Transcript)
33Introdução a regra de Bayes
- Apesar da distribuição a posteriori de um
parâmetro ? conter toda a informação
probabilística a respeito deste parâmetro algumas
vezes é necessário resumir a informação contida
na posteriori através de alguns valores
numéricos - Em Bayes, um problema de decisão fica
completamente especificado pela descrição dos
seguintes espaços - Espaço do parâmetro ou estados da natureza T
- Espaço dos resultados possíveis de um experimento
O - Espaço de possíveis ações ?
34Introdução a regra de Bayes
- Uma regra de decisão d é uma função definida em O
que assume valores em ? - Regra de decisão d O ? A
- A cada d e a cada possível parâmetro ? podemos
associar uma perda L(d, ?) Obs. Assumindo
valores positivos.
35Risco de Bayes
- É a perda esperada a posteriori
- O risco de L(d, ?) é dado por
- Regra de decisão d é ótima se tem risco mínimo
R(d) lt R(d)
36Exemplo
Um laboratório farmacêutico deve decidir pelo
lançamento ou não de uma nova droga no mercado.
Supondo que foi possível construir a seguinte
tabela de perdas levando em conta a eficiência da
droga
37Solução
- Parâmetro ? está associado aos estados
- droga é eficiente (?1 1)
- droga não é eficiente (?2 0)
- E a regra de decisão d está associado as ações
- lança a droga (d1 1)
- não lança a droga (d2 0)
38Solução
- Supondo p uma incerteza para P(? 1) 0 lt p lt 1
- Para d fixo, L(d, ?) terá dois valores p e 1 -
p - Usando a definição de risco para d d1 1
- R(d1) E(L(1, ?)) p (-500) (1 - p) 600
-1100p 600 - Usando a definição de risco para d d2 0
- R(d2) E(L(0, ?)) p (1500) (1 - p) 100
1400p 100
39Solução
- Dado o valor de p é possível informar se será
lançado a droga - É possível verificar que as duas ações levarão ao
mesmo risco - Além disso
- p lt 0.2, R(d 0) lt R(d 1) e a regra de Bayes
consiste em não lançar a droga - p gt 0.2, R(d 1) lt R(d 0) e a regra de Bayes
consiste em lançar a droga
40Inferência Bayesiana
- Criada por Bayes em 1763
- Enfoques
- Inferência estatística que exige a adoção de
princípios teóricos muito bem especificados - Teoria freqüentista (ou clássica)
- Crítica Possibilidade de replicar dados na
teoria freqüentista - Contribuições (evoluções)
- Bernoulli, 1713
- Laplace, 1812
- Jeffreys, 1939
41Inferência Bayesiana
- Supor uma amostra observada (x1, x2, ..., xn) de
uma população normal N(µ, d2) - Fazer inferências baseados nas n observações
- Como? Selecionar estimadores (utilizando-se de
algum procedimento) - Obs. Ser função do vetor de observações x
(x1, x2, ..., xn)
42Inferência Bayesiana
- Admitir que os parâmetros µ e d2 podem ser
descritos por distribuição de probabilidade p(µ,
d2) - Teremos ? (µ, d2)
- Na teoria bayesiana, µ é fixo
43Inferência Bayesiana
- Se temos um ?, ou seja, temos alguma informação
anterior - Então teremos uma distribuição de probabilidade,
ou distribuição a priori de ?, p(?) - Seja ? ?1, ?2, ..., ?r
- Onde P(? ?i) p(?1), i 1, 2, ..., r
- Chamando de y a nova informação
- Pelo teorema de Bayes, teremos
44Exemplo
45Solução
- Calculando as probabilidade conjuntas (p(?)p(y?)
p(y,?)), teremos - p(y1,?1) 6/15 e p(y1,?2) 2/15
- p(y2,?1) 3/15 e p(y2,?2) 4/15
- Lembrando que do teorema de Bayes teremos a
posteriori de ?1 e ?2
46Solução
- Para y1(ygt0), teremos p(y1) 6/15 2/15
8/15 - Para y2(ylt0), teremos p(y2) 3/15 4/15
7/15 - Dessa forma para rendimentos positivos (ygt0),
teremos - e
- Dessa forma análoga para rendimentos negativos
(ylt0), teremos - e
- Resultados e inferências para mercado em alta
(?1) e mercado em baixa (?2) a partir da
probabilidade posteriori (modelo estático)
47Estimadores de Bayes
- Tendo uma amostra aleatória x1, x2, ..., xn de
p(x?), onde ? é desconhecido - Se ? ? T, então estimador d(x) ? T
- Erro d(x) ?
- Para cada ? existirá uma possível estimativa a ?
T - Perda L(a, ?) Obs. Quanto maior a distância
entre a e ? maior a perda. - Perda esperada posteriori
- A partir de agora Escolher a estimativa que
minimiza esta perda esperada
48Estimadores de Bayes
- Função perda quadrática L(a, ?) (a - ?)2
- Em alguns casos o estimador de Bayes para o
parâmetro ? será a média de sua distribuição
atualizada, exemplo - Suponha que queremos estimar a proporção ? de
itens defeituosos em um grande lote. Para isto
será tomada uma amostra aleatória x1, ..., xn de
uma distribuição de Bernoulli com parâmetro ?.
Usando uma priori conjugada Beta(a, ß) sabemos
que após observar a amostra a distribuição a
posteriori é Beta(a t, ß n - t), onde - A média desta distribuição Beta é dada por (a
t)/(a ß n) - Portanto o estimador de Bayes de ? usando perda
quadrática é
49Estimadores de Bayes
- A função de perda absoluta L(a, ?) a ?
- Introduz punições que crescem linearmente com o
erro de estimação - Pode-se mostrar que o estimador de Bayes
associado é a mediana da distribuição atualizada
de ?.
50Estimadores de Bayes
- Para reduzir ainda mais o efeito de erros de
estimação grandes - Associa uma perda fixa a um erro cometido, não
importando sua magnitude.
51Método do Maximum Likelihood
52- É um método estatístico popular usado para
calcular o melhor caminho para ajustamento do
modelo matemático de alguns dados.
Modelar Dados Reais pelo Maximum Likelihood
Gerar parâmetros do modelo para prover uma ótima
ajustagem.
53Pioneiro
- R. A. Fisher
- (Geneticista e Estatístico)
- Período1912 e 1922
54- Modelos Lineares e Generalização de Modelos
Lineares - Modelagem de Equações Estruturais
- Psychometrics and econometrics
- Detecção de Eletromagnetismo ou Acústica por
time-delay of arrival (TDOA) - Muitas situações no contexto de Teste de Hipótese
etc. -
55 56- Interesse na altura de uma população
- Possuímos uma amostra de um número desta
população (Ñ totalidade) - Anotamos os dados
- Dizemos que eles são normalmente distribuídos
(desconhecidos mean e variância) - A amostra mean é a máxima estimativa do
Likelihood do mean desta população - A variância é a mais próxima para a estimação do
Likelihood da variância desta população.
57- Considere uma familia D? de distribuição de
probabilidade parametrizada por um parâmetro ?
desconhecido associado a uma função densidade de
probabilidade, denotada como f?. - Se temos um conjunto de n
valores desta distribuição, e usando f? nós
podemos computar a densidade de probabilidade
desta multivariável associado aos dados
observados. - Como a função de ? com x1, ..., xn fixos, este é
o likelihood function. - O método do maximum likelihood estima ?
encontrando o valor de ? que maximiza.
Assim a estimação maximum likelihood(MLE) de ?
58- Obs É importante considerar que os dados da
distribuição sejam independentes e identicamente
distribuídos com parâmetros desconhecidos, Isto
simplifica consideravelmente o problema, pois o
likelihood pode ser escrito como um produto de n
densidades de probabilidade univariáveis. - E a monotonia do logaritmo não afeta as
transformações. Chegamos a expressão
59- BIAS
- O bias da estimativa maximum-likelihood pode ser
um número próximo ao resultado real. - Considere um caso onde n tickets são enumerados
de 1 ate n e são colocados em uma caixa. Um deles
é escolhido por sorteio. - Se n é desconhecido, então a estimativa
maximum-likelihood de n é o valor descrito no
ticket, mesmo conhecendo que a expectativa é
apenas (n1)/2. - Em estimativas o número máximo n, será certamente
maior ou igual ao número de tickets escolhidos.
60- Asymptotics
- Quando as medidas de conjunto de elementos
apresentam-se de forma identicamente
independente, podemos por exemplo adquirir
elementos repetitivos ou adquiridos ao acaso.
Neste caso é interessante se obter o
comportamento daquele conjunto de estimativas a
medida que se aproximam do infinito.
61- O MLE possui muitas caracteristicas que podem ser
interpretadas para representar o que é
"asymptotically optimal". Estas características
incluem - The MLE é asymptotically unbiased,(imparcial)
i.e., seu bias tende a zero com o número de
amostras tendendo ao infinito. - The MLE é asymptotically efficient,
(eficiente)i.e., ele completa o Cramér-Rao lower
bound quando o número de amostras tende ao
infinito. Significa que este método possui menor
erro mean squared ao MLE. - O MLE is asymptotically normal. Com o número de
amostras crescentes, a distribuição do MLE tende
para distribuião Gaussiana com mean ? e a matriz
de covariância igual ao inverso da matrix de
informação de Fisher.
62Pioneiro
- Harald Cramér e
- Calyampudi Radhakrishna Rao
63- Na sua forma mais simples, a variância para
qualquer estimativa imparcial é pelo menos tão
elevado quanto o inverso da informação Fisher.
Uma estimativa impessoal que completa com êxito o
lower bound é chamada eficiente. Desta maneira a
solução conclui o mais baixo erro mean squared
entre todos os métodos imparciais e é
consequentemente a mínima variância imparcial. - O CramérRao bound possui 3 casos gerais. Um
caso em que o parâmetro é escalar e sua
estimativa é impessoal. Caso multivariado e caso
geral escalar. - Todos os casos possuem regularidades em suas
condições que mantém comportamento bem
distribuído.
64- Suponha ? sendo um parâmetro determinístico
desconhecido que será mensurado e estimado ao
valor de x, distribuído de acordo com algumas
funções de densidade de probavilidade f(x?). A
variancia de qualquer estimativa imparcial de ? é
então saltado pelo inverso da informação de
Fisher I(?) - Onde a informação de Fisher I(?) é definida por
- E é o logarítmo
natural da função likelihood e denota o valor
esperado.
65- A eficiencia é uma estimativa imparcial que
mensura o quao próximo esta variância da
estimativa se aproxima deste lower bound a
eficiencia estimativa é definida como - No mínimo possivel de variância para uma
estimativa imparcial dividida por sua atual
variância. O CramérRao lower bound deste modo
nos dá
66REFERÊNCIAS
- Devore, J. L. Probabilidade Estatística para
Engenharia e Ciências, Ed. Thomson, 6ª edição,
2006 - Freud J.E. Simon G.A., Estatística Aplicada
economia administração e contabilidade, Ed.
Bookman, 9ª edição, 2000 - Meyer P.L, Probabilidade aplicações a
Estatística, 2ª edição, Ed. LTC. - Papoulis A. Pillai S.U Probability, Random
Variables and Stochastic Processes, Ed. Mc Graw
Hill - Bussab W.O. Morettin P.A. Estatística Básica
5ª edição, ed. Saraiva, 2004