Geoestat - PowerPoint PPT Presentation

About This Presentation
Title:

Geoestat

Description:

Geoestat stica Aplicada Agricultura de Precis o I Daniel Mar al de Queiroz DEA/UFV Geoestat stica Maneira de descrever a continuidade espacial T cnica ... – PowerPoint PPT presentation

Number of Views:80
Avg rating:3.0/5.0
Slides: 57
Provided by: Danie568
Category:

less

Transcript and Presenter's Notes

Title: Geoestat


1
Geoestatística Aplicada à Agricultura de Precisão
I
  • Daniel Marçal de Queiroz
  • DEA/UFV

2
Geoestatística
  • Maneira de descrever a continuidade espacial
  • Técnica importante para análise de muitos
    fenômenos naturais
  • Adaptação de técnicas de regressão clássica para
    tomar vantagem da continuidade espacial

3
Descrição em termos de uma variável
  • Dados dão boa idéia do fenômeno apenas quando
    organizados adequadamente
  • Muitas técnicas usadas em estatística cuida da
    organização, apresentação e representação
    resumida dos dados
  • Dados analisados representarão uma área de 10m
    por 10m
  • Variáveis U e V foram aredondadas para o número
    inteiro mais próximo

4
Localização relativa dos 100 pontos da variável V
5
Histograma para os 100 valores da variável V
6
Frequência dos 100 valores selecionados da
variável V com largura de classe de 10 ppm.
7
Frequência acumulada dos 100 valores da variável
V usando classes de 10 ppm
8
Histograma acumulativo para os 100 valores
selecionados da variável V
9
Gráfico de probabilidade normal para os 100
valores selecionados da variável V
A escala no eixo Y é tal que a curva de
frequência será uma reta se os valores de V
tiverem uma distribuição normal
10
Gráfico de probabilidade lognormal dos 100
valores selecionados da variável V
A escala do eixo Y é tal que a curva de
frequência acumulada será uma reta se o logarítmo
de V seguir a distribuição lognormal
11
Gráficos de probabilidade normal e lognormal
  • Algumas ferramentas de estimativa trabalham
    melhor se a variável apresenta distribuição
    Gaussiana ou normal.
  • Distribuição Gaussiana é um dos muitos tipos de
    distribuição para o qual existe todo um
    tratamento matemático já desenvolvido.
  • A Distribuição Gaussiana apresenta propriedades
    que facilita o uso de desenvolvimentos teóricos
    de estimativa.
  • Portanto é importante determinar se a
    distribuição em estudo se aproxima da
    distribuição de Gauss.
  • O gráfico de probabilidade normal é um dos tipos
    de gráfico de frequência acumulada que ajuda a
    verificar se a distribuição é Gaussiana

12
Gráficos de probabilidade normal e lognormal
  • Em gráficos de probabilidade normal a escala do
    eixo Y é tal que se a curva descrita pelos dados
    for uma reta, a distribuição é gaussiana.
  • Para a V variável em estudo embora boa parte da
    curva de frequência acumulada se aproxima de uma
    reta, para pequenos valores de V forge dessa
    tendência.
  • Muitas variáveis da Ciências da Terra têm
    distribuição que não se aproximam da distribuição
    normal.
  • É muito comum ter muitos valores que bem baixos e
    poucos outros que são muito altos.

13
Gráficos de probabilidade normal e lognormal
  • Embora a distribuição normal é frequentemente
    inapropriada para modelar esse tipo de
    distribuição assimétrica, a distribuição
    lognormal pode ser uma alternativa para análise.
  • Uma variável tem distribuição lognormal se a
    distribuição dos valores dos logarítmos da
    variável segue a distribuição normal.
  • Usando uma escala logarítmica no eixo X de um
    gráfico de distribuição normal pode-se verificar
    a lognormalidade.
  • Se a curva resultar em uma linha reta, é dito que
    os dados seguem um distribuição lognormal.
  • Para a variável V em estudo pode-se verificar que
    os dados claramente não seguem uma distribuição
    lognormal.

14
Análise Estatística Descritiva
  • Importantes comportamentos de muitos histogramas
    podem ser obtidos por meio de certas análises
    estatísticas.
  • A estatística descritiva é classificada em três
    categorias mede a localização, mede a dispersão
    e mede a forma.

15
Análise Estatística Descritiva
  • O primeiro grupo fornece onde várias partes da
    distribuição está localizada.
  • A média, a mediana e a moda pode dar uma idéia de
    onde o centro da distribuição cai.
  • A localização de outras partes é fornecida pelos
    quantis (quantiles).

16
Análise Estatística Descritiva
  • O segundo grupo inclui a variância, o desvio
    padrão e a faixa dos interquantis (interquantiles
    range)
  • Esse grupo é usado para medir a dispersão dos
    dados.

17
Análise Estatística Descritiva
  • A forma da distribuição é medida por meio do
    momento de ordem 3 (coefficient of skewness) e do
    coeficiente de variação.
  • O momento de ordem 3 mede a informação associada
    à simetria da distribuição.
  • O coeficiente de variação fornece informação a
    respeito do comportamento do final da curva de
    certas distribuição.

18
Medidas de localização
  • A media, m, é a média aritmética dos valores
  • O valor médio dos 100 valores da variável V é
    97,55 ppm.

19
Medidas de localização
  • A mediana, M, é o ponto médio dos valores
    observados, se eles estão dispostos em ordem
    crescente.
  • O valor da mediana pode ser facilmente lida no
    gráfico de
  • probabilidade.
  • Para os 100 valores da variável V a mediana é
    100,50 ppm.

20
Lendo a mediana num gráfico de probabilidade
21
Medidas de localização
  • A moda é o valor que ocorre com maior frequência.
  • Em um gráfico de barras com os valores de
    frequência para cada classe a moda é representada
    pela barra mais alta.
  • Para a variável V a classe 110-120 ppm é a classe
    com mais valores.
  • O valor 111 ppm é o que ocorre com maior
    frequência.
  • Um dos pontos negativos da moda é que ela é
    afetada pela precisão dos dados.

22
Medidas de localização
  • Mínimo é o valor mais baixo do conjunto de
    dados.
  • Muitas vezes é gravado apenas como um valor
    abaixo de qualquer um limite detectável.
  • Em algumas análises é conveniente usar um valor
    mínimo diferente de zero.
  • Para os valores da variável V o valor mínimo é
    zero.

23
Medidas de localização
  • Máximo é o maior valor no conjunto de dados.
  • Para os valores de V o valor máximo é 145.

24
Medida de localização
  • Quartil inferior e superior (Lower and Upper
    Quartile)
  • A mediana divide os dados em duas metades, os
    quartis dividem os dados em quartos.
  • Se os dados estão colocados em ordem crescente,
    um quarto dos dados caem abaixo do quartil mais
    baixo ou primeiro quartil e um quarto dos dados
    caem acima do quartil mais alto ou terceiro
    quartil.

25
Quartis de um gráfico de probabilidade normal
26
Medidas de localização
  • Decis, percentis e quantis (Deciles, Percentiles
    e Quantiles)
  • Decis dividem os dados em décimos (10 partes) Um
    décimo dos dados caem abaixo do primeiro decil
  • Percentis dividem os dados em centésimos (100
    partes)
  • Quantis servem para expressar qualquer fração.

27
Medidas de dispersão
  • Variância (?2 ) calculada por
  • A variância dos 100 valores da variável V é de
    688 ppm2

28
Medidas de dispersão
  • Desvio padrão raiz quadrada da variância
  • Para os 100 valores da variaável V o desvio
    padrão é de 26,23 ppm

29
Medidas de dispersão
  • Faixa entre os quartis (Interquartile range)
    Diferença entre o maior e o menor quartil
  • Não utiliza da média como centro da distribuição
  • Geralmente preferível se poucos valores
    erradamente elevados influenciam fortemente a
    média
  • O faixa entre os quartis para os 100 valores da
    variável V é de 35,50 ppm.

30
Medidas da forma
  • Momento de ordem 3, Ca (coefficient of skewness)
    o histograma não dá idéia da simetria dos dados.
  • O momento de ordem 3 sofre mais influência que
    a média e a
  • variância de valores erroneamente elevados
  • Um único valor muito grande pode influenciar
    muito o valor do
  • momento de ordem 3.
  • Geralmente o sinal do momento de ordem 3 é mais
    usado que o próprio
  • valor nas análises.

31
Medidas da forma
  • Momento de ordem 3
  • Um momento de ordem 3 positivo significa que a
    curva é longa com altos valores do lado direito.
  • Se o momento de ordem 3 é próximo de zero, o
    histograma é aproximadamente simétrico e a
    mediana é próxima da média
  • Para os 100 valores da variável V, o momento de
    ordem 3 é próximo de zero (igual a 0,779),
    indicando que a distribuição apenas ligeiramente
    assimétrica.

32
Medidas de forma
  • Coeficiente de variação usado alternativamente
    ao momento de ordem 3 para descrever a forma da
    distribuição.
  • Usado para distribuições em que todos valores são
    positivos e o momento de ordem 3 é também
    positivo.
  • Embora possa ser calculado para outras situações
    sua utilidade como medida de forma é questionável.

33
Medidas de forma
  • Um coeficiente de variação maior que um indica a
    presença de alguns valores errôneamente pode ter
    tido impacto significativo nas estimativas.
  • O coeficiente de variação para os 100 valores da
    variável V é 0,269, o que signifca que o
    histograma não um longo trecho no final da curva
    com elevados valores

34
Descrição usando duas variáveis
  • Valores de duas
  • variáveis U e V

35
Descrição usando duas variáveis
36
Resultados das análises estatísticas dos valores
da variáveis U e V
37
Comparação dos quantis das variáveis V e U
38
Gráfico de quartis
  • O gráfico de quartis pode permitir uma
    visualização comparativa entre duas
    distribuições
  • O gráfico de quartis de duas distribuições
    idênticas resultará em uma linha reta do tipo yx
  • Se o gráfico de quartis de duas distribuições é
    uma linha reta diferente de yx, as duas
    distribuições têm a mesma forma mas a sua
    localização e dispersão podem diferir

39
Gráfico dos quartis das distribuições de 100
valores da variável U versus os 100 valores de V
O caso em estudo mostra que as distribuições das
variáveis U e V são diferentes.
40
Gráficos de dispersão
  • Fornecem uma boa idéia qualitativa de como duas
    variáveis estão relacionadas.
  • Pode auxiliar a detectar dados completamente fora
    da realidade.
  • Nos primeiros estágios da análise de continuidade
    espacial é necessário checar e corrigir os erros
    que por ventura exista no conjunto de dados.
  • Os métodos de estimativa dependem em muito da
    confiabilidade dos dados.
  • O gráfico de dispersão pode ser muito útil na
    validação inicial dos dados e no entendimento de
    futuros resultados.

41
Gráfico de dispersão dos 100 valores de U versus
os 100 valores de V
O gráfico (b) ilustra um dado erroneamente
introduzido.
42
Correlação
  • Em um gráfico de dispersão é possível detectar se
    as variáveis são positivamente correlacionadas,
    negativamente correlacionadas ou se não têm
    correlação.
  • Coeficiente de correlação (?) é a maneira mais
    usada em estatística para verificar o
    relacionamento entre duas variáveis. É calculado
    por

43
Correlação
  • Covariância (Cxy) é o numerador do coeficiente
    de correlação
  • A covariância é usada como uma característica do
    gráfico de dispersão.
  • A covariância entre duas variáveis depende da
    magnitude dos valores dessas variáveis.

44
Correlação
  • Se os valores de U e V são multiplicados por 10,
    a covariância é multiplicada por 100, embora o
    gráfico de dispersão pareça o mesmo.
  • Dividindo a covariância pelos devios padrões das
    duas variáveis obtem-se um valor entre 1 e 1
    (coeficiente de correlação) independentee da
    magnitude dos dados.
  • Para os 100 pares de valores U-V
  • a covariância é 216,1 ppm2
  • o desvio padrão da variável V é 26,2 ppm
  • o desvio padrão da variável U é 9,81 ppm
  • o coeficiente de correlação entre U e V é 0,84

45
Correlação
  • O coeficiente de correlação e a covariância podem
    ser afetados por poucos pares de dados
    completamente fora da realidade.
  • O coeficiente de correlação é uma medida da
    proximidade que dados observados tem de uma reta.
  • Se ?1, o gráfico de dispersão será uma reta com
    declividade positiva.
  • Se ?-1, o gráfico de dispersão será uma reta com
    declividade negativa

46
Correlação
  • Quando a relação entre as variáveis é não-linear
    o coeficiente de correlação não é uma boa medida
    estatística.
  • Ao invés do coeficiente de correlação usa-se o
    coeficiente de correlação de rank
  • Rxi rank de xi entre os valores de x e é
    geralmente calculado ordenando os valores de x em
    ordem crescente. O valor mais baixo de x terá
    rank igual a 1
  • Ryi rank de yi entre os valores de y.
  • mRx média dos ranks Rx1, Rx2, , Rxn
  • ?Rx desvio padrão dos ranks Rx1, Rx2, , Rxn

47
Correlação
  • Grandes diferenças entre ?rank e ? revela a
    localização dos pontos extremos em um gráfico de
    dispersão.
  • O ?rank não é tão influenciado por valores
    extremos.
  • Altos valores de ?rank e baixos valores de ?
    podem significar a existência de erros nos dados
    tiveram efeito adverso afetando a obtenção de uma
    boa correlação.
  • Se ? é alto e ?rank é baixo pode ser que ? está
    sendo influenciado por poucos valores extremos.

48
Correlação
  • Para os pares de valores V e U com um par de
    ponto completamente fora (figura b)
  • ? 0,64
  • ?rank 0,80
  • Se o coeficiente de correlação dos ranks é 1
    significa que os ranks das duas variáveis são
    iguais.
  • Para Y X2 resultará em ? próximo de zero e
    ?rank igual a um.

49
Regressão linear
  • A dependência de uma variável em relação a outra
    pode ser descrita pela equação de uma linha reta
  • y ax b
  • A declividade a e a constante b são dadas
    por

50
Regressão linear
  • Usando-se os 100 pares de valores V-U para
    calcular os parâmetros do modelo de regressão
    linear obtem-se
  • Portanto, a equação que prevê os valores de V a
    partir dos valores conhecidos de U é dada por

51
Regressão linear
  • Se o interesse for pela equação que prevê U a
    partir de valores conhecidos de V, então
  • A equação que prevê os valores de U a partir dos
    valores conhecidos de V é dada por

52
Gráfico mostrando a regressão linear sobreposta
num gráfico de dispersão
Observando-se cuidadosamente os dois gráficos
verifica-se que as duas linhas não as mesmas, ou
seja,
não é um simples arranjo de
53
Esperança condicional
  • Analisando-se a Figura (a) da análise de
    regressão linear verifica-se que uma linha reta
    não representa bem a relação entre as variáveis.
  • Os dados mostram que uma linha curva poderiam
    representar melhor o relacionamento entre as
    variáveis.
  • Uma alternativa à regressão linear é calcular
    valores médios de y para diferentes faixas de
    valores de x
  • Os valores são chamados de condicional porque
    eles são bons apenas para uma certa faixa de
    valores de U.
  • Para uma classe diferente, espera-se um valor
    diferente.

54
Valor médio de V dentro das classes de valores de
U definidas
55
Gráfico do valor médio de V definido dentro de
cada classe de valores de U
56
Gráfico das curvas de esperança condicional
sobrepostas nos gráficos de dispersão
Esperança condicional obtida por técnica de
regressão linear dentro de uma vizinhança local.
Existem algorítmos para definição do número de
pontos ideal que deve compor a vizinhança.
Write a Comment
User Comments (0)
About PowerShow.com