Title: Geoestat
1Geoestatística Aplicada à Agricultura de Precisão
I
- Daniel Marçal de Queiroz
- DEA/UFV
2Geoestatística
- Maneira de descrever a continuidade espacial
- Técnica importante para análise de muitos
fenômenos naturais - Adaptação de técnicas de regressão clássica para
tomar vantagem da continuidade espacial
3Descrição em termos de uma variável
- Dados dão boa idéia do fenômeno apenas quando
organizados adequadamente - Muitas técnicas usadas em estatística cuida da
organização, apresentação e representação
resumida dos dados - Dados analisados representarão uma área de 10m
por 10m - Variáveis U e V foram aredondadas para o número
inteiro mais próximo
4Localização relativa dos 100 pontos da variável V
5Histograma para os 100 valores da variável V
6Frequência dos 100 valores selecionados da
variável V com largura de classe de 10 ppm.
7Frequência acumulada dos 100 valores da variável
V usando classes de 10 ppm
8Histograma acumulativo para os 100 valores
selecionados da variável V
9Gráfico de probabilidade normal para os 100
valores selecionados da variável V
A escala no eixo Y é tal que a curva de
frequência será uma reta se os valores de V
tiverem uma distribuição normal
10Gráfico de probabilidade lognormal dos 100
valores selecionados da variável V
A escala do eixo Y é tal que a curva de
frequência acumulada será uma reta se o logarítmo
de V seguir a distribuição lognormal
11Gráficos de probabilidade normal e lognormal
- Algumas ferramentas de estimativa trabalham
melhor se a variável apresenta distribuição
Gaussiana ou normal. - Distribuição Gaussiana é um dos muitos tipos de
distribuição para o qual existe todo um
tratamento matemático já desenvolvido. - A Distribuição Gaussiana apresenta propriedades
que facilita o uso de desenvolvimentos teóricos
de estimativa. - Portanto é importante determinar se a
distribuição em estudo se aproxima da
distribuição de Gauss. - O gráfico de probabilidade normal é um dos tipos
de gráfico de frequência acumulada que ajuda a
verificar se a distribuição é Gaussiana
12Gráficos de probabilidade normal e lognormal
- Em gráficos de probabilidade normal a escala do
eixo Y é tal que se a curva descrita pelos dados
for uma reta, a distribuição é gaussiana. - Para a V variável em estudo embora boa parte da
curva de frequência acumulada se aproxima de uma
reta, para pequenos valores de V forge dessa
tendência. - Muitas variáveis da Ciências da Terra têm
distribuição que não se aproximam da distribuição
normal. - É muito comum ter muitos valores que bem baixos e
poucos outros que são muito altos.
13Gráficos de probabilidade normal e lognormal
- Embora a distribuição normal é frequentemente
inapropriada para modelar esse tipo de
distribuição assimétrica, a distribuição
lognormal pode ser uma alternativa para análise. - Uma variável tem distribuição lognormal se a
distribuição dos valores dos logarítmos da
variável segue a distribuição normal. - Usando uma escala logarítmica no eixo X de um
gráfico de distribuição normal pode-se verificar
a lognormalidade. - Se a curva resultar em uma linha reta, é dito que
os dados seguem um distribuição lognormal. - Para a variável V em estudo pode-se verificar que
os dados claramente não seguem uma distribuição
lognormal.
14Análise Estatística Descritiva
- Importantes comportamentos de muitos histogramas
podem ser obtidos por meio de certas análises
estatísticas. - A estatística descritiva é classificada em três
categorias mede a localização, mede a dispersão
e mede a forma.
15Análise Estatística Descritiva
- O primeiro grupo fornece onde várias partes da
distribuição está localizada. - A média, a mediana e a moda pode dar uma idéia de
onde o centro da distribuição cai. - A localização de outras partes é fornecida pelos
quantis (quantiles).
16Análise Estatística Descritiva
- O segundo grupo inclui a variância, o desvio
padrão e a faixa dos interquantis (interquantiles
range) - Esse grupo é usado para medir a dispersão dos
dados.
17Análise Estatística Descritiva
- A forma da distribuição é medida por meio do
momento de ordem 3 (coefficient of skewness) e do
coeficiente de variação. - O momento de ordem 3 mede a informação associada
à simetria da distribuição. - O coeficiente de variação fornece informação a
respeito do comportamento do final da curva de
certas distribuição.
18Medidas de localização
- A media, m, é a média aritmética dos valores
- O valor médio dos 100 valores da variável V é
97,55 ppm.
19Medidas de localização
- A mediana, M, é o ponto médio dos valores
observados, se eles estão dispostos em ordem
crescente.
- O valor da mediana pode ser facilmente lida no
gráfico de - probabilidade.
- Para os 100 valores da variável V a mediana é
100,50 ppm.
20Lendo a mediana num gráfico de probabilidade
21Medidas de localização
- A moda é o valor que ocorre com maior frequência.
-
- Em um gráfico de barras com os valores de
frequência para cada classe a moda é representada
pela barra mais alta. - Para a variável V a classe 110-120 ppm é a classe
com mais valores. - O valor 111 ppm é o que ocorre com maior
frequência. - Um dos pontos negativos da moda é que ela é
afetada pela precisão dos dados.
22Medidas de localização
- Mínimo é o valor mais baixo do conjunto de
dados. - Muitas vezes é gravado apenas como um valor
abaixo de qualquer um limite detectável. - Em algumas análises é conveniente usar um valor
mínimo diferente de zero. - Para os valores da variável V o valor mínimo é
zero.
23Medidas de localização
- Máximo é o maior valor no conjunto de dados.
- Para os valores de V o valor máximo é 145.
24Medida de localização
- Quartil inferior e superior (Lower and Upper
Quartile) - A mediana divide os dados em duas metades, os
quartis dividem os dados em quartos. - Se os dados estão colocados em ordem crescente,
um quarto dos dados caem abaixo do quartil mais
baixo ou primeiro quartil e um quarto dos dados
caem acima do quartil mais alto ou terceiro
quartil.
25Quartis de um gráfico de probabilidade normal
26Medidas de localização
- Decis, percentis e quantis (Deciles, Percentiles
e Quantiles) - Decis dividem os dados em décimos (10 partes) Um
décimo dos dados caem abaixo do primeiro decil - Percentis dividem os dados em centésimos (100
partes) - Quantis servem para expressar qualquer fração.
27Medidas de dispersão
- Variância (?2 ) calculada por
- A variância dos 100 valores da variável V é de
688 ppm2
28Medidas de dispersão
- Desvio padrão raiz quadrada da variância
- Para os 100 valores da variaável V o desvio
padrão é de 26,23 ppm
29Medidas de dispersão
- Faixa entre os quartis (Interquartile range)
Diferença entre o maior e o menor quartil - Não utiliza da média como centro da distribuição
- Geralmente preferível se poucos valores
erradamente elevados influenciam fortemente a
média - O faixa entre os quartis para os 100 valores da
variável V é de 35,50 ppm.
30Medidas da forma
- Momento de ordem 3, Ca (coefficient of skewness)
o histograma não dá idéia da simetria dos dados.
- O momento de ordem 3 sofre mais influência que
a média e a - variância de valores erroneamente elevados
- Um único valor muito grande pode influenciar
muito o valor do - momento de ordem 3.
- Geralmente o sinal do momento de ordem 3 é mais
usado que o próprio - valor nas análises.
31Medidas da forma
- Momento de ordem 3
- Um momento de ordem 3 positivo significa que a
curva é longa com altos valores do lado direito. - Se o momento de ordem 3 é próximo de zero, o
histograma é aproximadamente simétrico e a
mediana é próxima da média - Para os 100 valores da variável V, o momento de
ordem 3 é próximo de zero (igual a 0,779),
indicando que a distribuição apenas ligeiramente
assimétrica.
32Medidas de forma
- Coeficiente de variação usado alternativamente
ao momento de ordem 3 para descrever a forma da
distribuição. - Usado para distribuições em que todos valores são
positivos e o momento de ordem 3 é também
positivo. - Embora possa ser calculado para outras situações
sua utilidade como medida de forma é questionável.
33Medidas de forma
- Um coeficiente de variação maior que um indica a
presença de alguns valores errôneamente pode ter
tido impacto significativo nas estimativas. - O coeficiente de variação para os 100 valores da
variável V é 0,269, o que signifca que o
histograma não um longo trecho no final da curva
com elevados valores
34Descrição usando duas variáveis
- Valores de duas
- variáveis U e V
35Descrição usando duas variáveis
36Resultados das análises estatísticas dos valores
da variáveis U e V
37Comparação dos quantis das variáveis V e U
38Gráfico de quartis
- O gráfico de quartis pode permitir uma
visualização comparativa entre duas
distribuições - O gráfico de quartis de duas distribuições
idênticas resultará em uma linha reta do tipo yx - Se o gráfico de quartis de duas distribuições é
uma linha reta diferente de yx, as duas
distribuições têm a mesma forma mas a sua
localização e dispersão podem diferir
39Gráfico dos quartis das distribuições de 100
valores da variável U versus os 100 valores de V
O caso em estudo mostra que as distribuições das
variáveis U e V são diferentes.
40Gráficos de dispersão
- Fornecem uma boa idéia qualitativa de como duas
variáveis estão relacionadas. - Pode auxiliar a detectar dados completamente fora
da realidade. - Nos primeiros estágios da análise de continuidade
espacial é necessário checar e corrigir os erros
que por ventura exista no conjunto de dados. - Os métodos de estimativa dependem em muito da
confiabilidade dos dados. - O gráfico de dispersão pode ser muito útil na
validação inicial dos dados e no entendimento de
futuros resultados.
41Gráfico de dispersão dos 100 valores de U versus
os 100 valores de V
O gráfico (b) ilustra um dado erroneamente
introduzido.
42Correlação
- Em um gráfico de dispersão é possível detectar se
as variáveis são positivamente correlacionadas,
negativamente correlacionadas ou se não têm
correlação. - Coeficiente de correlação (?) é a maneira mais
usada em estatística para verificar o
relacionamento entre duas variáveis. É calculado
por
43Correlação
- Covariância (Cxy) é o numerador do coeficiente
de correlação - A covariância é usada como uma característica do
gráfico de dispersão. - A covariância entre duas variáveis depende da
magnitude dos valores dessas variáveis.
44Correlação
- Se os valores de U e V são multiplicados por 10,
a covariância é multiplicada por 100, embora o
gráfico de dispersão pareça o mesmo. - Dividindo a covariância pelos devios padrões das
duas variáveis obtem-se um valor entre 1 e 1
(coeficiente de correlação) independentee da
magnitude dos dados. - Para os 100 pares de valores U-V
- a covariância é 216,1 ppm2
- o desvio padrão da variável V é 26,2 ppm
- o desvio padrão da variável U é 9,81 ppm
- o coeficiente de correlação entre U e V é 0,84
45Correlação
- O coeficiente de correlação e a covariância podem
ser afetados por poucos pares de dados
completamente fora da realidade. - O coeficiente de correlação é uma medida da
proximidade que dados observados tem de uma reta. - Se ?1, o gráfico de dispersão será uma reta com
declividade positiva. - Se ?-1, o gráfico de dispersão será uma reta com
declividade negativa
46Correlação
- Quando a relação entre as variáveis é não-linear
o coeficiente de correlação não é uma boa medida
estatística. - Ao invés do coeficiente de correlação usa-se o
coeficiente de correlação de rank - Rxi rank de xi entre os valores de x e é
geralmente calculado ordenando os valores de x em
ordem crescente. O valor mais baixo de x terá
rank igual a 1 - Ryi rank de yi entre os valores de y.
- mRx média dos ranks Rx1, Rx2, , Rxn
- ?Rx desvio padrão dos ranks Rx1, Rx2, , Rxn
47Correlação
- Grandes diferenças entre ?rank e ? revela a
localização dos pontos extremos em um gráfico de
dispersão. - O ?rank não é tão influenciado por valores
extremos. - Altos valores de ?rank e baixos valores de ?
podem significar a existência de erros nos dados
tiveram efeito adverso afetando a obtenção de uma
boa correlação. - Se ? é alto e ?rank é baixo pode ser que ? está
sendo influenciado por poucos valores extremos.
48Correlação
- Para os pares de valores V e U com um par de
ponto completamente fora (figura b) - ? 0,64
- ?rank 0,80
- Se o coeficiente de correlação dos ranks é 1
significa que os ranks das duas variáveis são
iguais. - Para Y X2 resultará em ? próximo de zero e
?rank igual a um.
49Regressão linear
- A dependência de uma variável em relação a outra
pode ser descrita pela equação de uma linha reta - y ax b
- A declividade a e a constante b são dadas
por
50Regressão linear
- Usando-se os 100 pares de valores V-U para
calcular os parâmetros do modelo de regressão
linear obtem-se - Portanto, a equação que prevê os valores de V a
partir dos valores conhecidos de U é dada por
51Regressão linear
- Se o interesse for pela equação que prevê U a
partir de valores conhecidos de V, então - A equação que prevê os valores de U a partir dos
valores conhecidos de V é dada por
52Gráfico mostrando a regressão linear sobreposta
num gráfico de dispersão
Observando-se cuidadosamente os dois gráficos
verifica-se que as duas linhas não as mesmas, ou
seja,
não é um simples arranjo de
53Esperança condicional
- Analisando-se a Figura (a) da análise de
regressão linear verifica-se que uma linha reta
não representa bem a relação entre as variáveis. - Os dados mostram que uma linha curva poderiam
representar melhor o relacionamento entre as
variáveis. - Uma alternativa à regressão linear é calcular
valores médios de y para diferentes faixas de
valores de x - Os valores são chamados de condicional porque
eles são bons apenas para uma certa faixa de
valores de U. - Para uma classe diferente, espera-se um valor
diferente.
54Valor médio de V dentro das classes de valores de
U definidas
55Gráfico do valor médio de V definido dentro de
cada classe de valores de U
56Gráfico das curvas de esperança condicional
sobrepostas nos gráficos de dispersão
Esperança condicional obtida por técnica de
regressão linear dentro de uma vizinhança local.
Existem algorítmos para definição do número de
pontos ideal que deve compor a vizinhança.