Title: Estat
1Estatística EspacialAnálise de Padrões de
Distribuição de Pontos
INPE - Divisão de Processamento de Imagens
2Organização
- Introdução
- Distribuição de Pontos
- Caracterização de Distribuição de Pontos
- Estimador de Intensidade (Kernel Estimation)
- Modelagem de Distribuição de Pontos
- Método do Vizinho Mais Próximo
- Função K
- Exemplos Práticos com o Sistema Spring
3Introdução - preliminares
- Consideramos aqui fenômenos expressos através de
- ocorrências pontuais.
- São observações disponíveis no espaço.
- Representações pontuais podem corresponder a
dados como - índice de mortalidade,
- ocorrências de doenças,
- localização de espécie vegetais, etc.
- Objetivo
- aumentar o entendimento do processo verificando
- hipóteses viáveis ou inferir valores em
áreas sem - observações.
4Introdução - preliminares
- A L G U N S E X E M P L O S
- Epidemologia
- A distribuição dos casos de uma doença formam um
padrão no espaço ? Existe associação com alguma
fonte de poluição ? Evidência de contágio ? - Crime
- Roubos que ocorrem em determinadas áreas estão
correlacionados com características sócio
econômicas ? - Geologia
- Dado um conjunto de amostras, qual a extensão de
um depósito mineral ?
5Introdução - preliminares
- Mapeando a violência - localização pontual
Santos,S.M., 1999
6Clusters
- Cluster qualquer agregado de eventos.
- resultado de classificação onde se busca definir
um grupamento de semelhantes. - Cluster espacial
- agregado de eventos no espaço ou a ocorrência de
taxas semelhantes em área próximas. - Detecção de cluster espacial
- estabelecer a significância de um sobre-risco em
um determinado espaço ou tempo e espaço.
7Clusters
- O que causa um cluster?
- Agentes infecciosos, contaminação ambiental
localizada, efeitos colaterais de tratamentos,
etc. - Os estudos
- evidência de tendência geral à clusterização, ou
a um determinado e predefinido agregado. - Podem ser usados para pontos ou áreas.
- Fatores de controle
- distribuição populacional e outras covariáveis
que podem criar agregados.
8Conceitos Básicos
- Estacionariedade
- As propriedades estatísticas da variável
independem de sua localização absoluta, ou seja,
a média e a variância são constantes em qualquer
sub-área e a covariância entre dois pontos
quaisquer depende somente de sua localização
relativa - Isotropia
- Além de estacionário, a covariância depende
somente da distância entre os pontos e não da
direção entre eles. - Processo de modelagem
- Transformações visando obtenção de
estacionariedade - Ajuste de modelos.
9Introdução - preliminares
- Fenômeno espacial contínuo ou discreto
-
- Discreto - espaço contém entidades do mundo real
- Na concepção Spring denominado de modelo de
objetos - Exs municípios, quadras, escolas, hospitais,
etc... -
- Contínuo - informação presente em todas as
posições - Na concepção Spring denominado de modelo de campo
- Exs temperatura, pressão, teor de argila no
solo, etc...
10Introdução - preliminares
C L A S S E S D E P R O B L E M A S
11Distribuição de Pontos
- Padrão pontual - conjunto de dados consistindo de
uma série de localizações pontuais (p1, p2,
...,pn) que estão - associados a eventos de interesse dentro da
área de estudo.
Área de Estudo
12Distribuição de Pontos
?
Distribuições pontuais tem as seguintes
características
- As localizações não estão associadas a valores,
mas apenas a ocorrência dos eventos. - Dimensão das medidas é zero. Medidas válidas na
distribuição de pontos são o de ocorrências no
padrão e as localizações geográficas. - Área dos eventos não é uma medida válida apesar
de em muitos casos ocuparem espaço. -
- Entidades geográficas representadas como pontos
no mapa são considerados de mesma qualidade.
13Distribuição de Pontos - Estatísticas Descritivas
- A distribuição de características pontuais pode
ser descrita pela
- Frequência
- Densidade
- Centro Geométrico
- Dispersão Espacial
- Arranjo Espacial
- Com exceção do arranjo espacial, a avaliação das
propriedades espaciais - pontuais pode ser realizada através de
estatísticas descritivas básicas.
14Distribuição de Pontos - Estatísticas Descritivas
- Frequência - de características pontuais que
ocorrem no mapa. - Nota- A comparação de duas distribuição de
frequência pode ser enganosa - se a área não é considerada.
- Quando dois padrões de pontos que
diferem na área são comparados, - é aconselhável compará-los pela
densidade. - Densidade - Frequência / Área
- Centro Geométrico e Dispersão Espacial - são
medidas que caracterizam as - propriedades geográfica de um padrão de pontos.
- Centro Geométrico média das coordenadas de
localização X e Y - Dispersão desvio padrão de cada média (X e Y).
15Distribuição de Pontos - Estatísticas Descritivas
- A figura abaixo apresenta quatro padrões de
pontos (A, B, C e D).
L O C A L I Z A Ç Õ E
S ------------------------------------------------
----------------------------------------- A
B C
D ------------------------------------------------
----------------------------------------- (2, 7)
(3, 6) (2,4) (3,4) ----------------
--------------------------------------------------
----------------------- (3, 5) (4, 4)
(3,10) (5,2) ---------------------------------
--------------------------------------------------
------ (3, 6) (4, 5) (4,7)
(5,8) --------------------------------------------
--------------------------------------------- (3,
7) (4, 6) (5,2)
(7,11) -------------------------------------------
---------------------------------------------- (3,
8) (5, 4) (7,4)
(8,5) --------------------------------------------
--------------------------------------------- (4,
6) (5, 5) (7,6)
(8,8) --------------------------------------------
--------------------------------------------- (4,
7) (5, 6) (7,9)
(9,2) --------------------------------------------
--------------------------------------------- (4,
8) (5, 7) (10,2) (10,8) ------------
--------------------------------------------------
--------------------------- (5, 6) (6, 4)
(11,6) (12,2) ------------------------------
--------------------------------------------------
--------- (5, 7) (6, 5) (11,10)
(13,4) -------------------------------------------
---------------------------------------------- (5,
8) (6, 6) (13,4)
(13,6) -------------------------------------------
---------------------------------------------- (5,
9) (7, 5) (13,8) (13,8)
16Distribuição de Pontos - Estatísticas Descritivas
- A figura abaixo apresenta quatro padrões de
pontos (A, B, C e D).
Frequência 12 em A, B, C, D
Densidade 180/12 em A, B, C, D
Centro Geométrico
CGa
CGd
CGb
CGc
Nota CGa e CGb representam bem a tendência
central porque ambas distri- buições estão
concentradas em torno dos respectivos centros.
Por outro lado, CGc e CGd não são bons
indicadores para suas respectivas
distribuições.
17Distribuição de Pontos - Estatísticas Descritivas
- Padrões de pontos com diferentes características
de dispersão espacial
?x gt ?y
?x lt ?y
?2x ?2y
?2x ?2y
? (significante)
? (insignificante)
18Distribuição de Pontos - Arranjos Espaciais
- Uma característica importante de um padrão
espacial é a localização dos pontos e - a relação entre eles. Isto tem um efeito
significativo na distribuição dos padrões.
- Objetivo verificar se os eventos observados
apresentam algum tipo de padrão sistemático, ao
invés de estar distribuídos aleatoriamente.
Aleatório
Agrupado
Regular
- Na realidade o que se deseja é detectar padrões
de aglomerados espaciais (clusters).
- Base conceitual -gt supor uma distribuição
estocástica que serve de base para a hipótese de
aleatoriedade.
- No caso de pontos é usual utilizar a distribuição
de Poisson.
19Caracterização de Distribuição de Pontos
- Processo de análise de pontos pode ser descritos
em termos de - Efeitos de Primeira Ordem
- considerados globais ou de grande escala.
- correspondem a variações no valor médio do
processo. - Neste caso estamos interessados na intensidade do
processo - (No Eventos / Unidade de Área).
- Efeitos de Segunda Ordem
- denominados locais ou de pequena escala.
- representam a dependência espacial no processo
- A maior parte das técnicas de análise de
distribuição de pontos supõe um comportamento
isotrópico.
20Caracterização de Distribuição de Pontos
- Técnicas a serem abordadas
- Para Efeitos de Primeira Ordem
- Estimador de Intensidade (Kernel Estimation) ?
- Para Efeitos de Segunda Ordem
- Vizinho mais Próximo ?
- Função K ?
21Estimador de Intensidade (Kernel Estimation)
- Segundo (Bailey e Gatrell, 1995)
- Onde
- A função I( ) -gt FDP, escolhida de forma adequada
para construir uma superfície contínua sobre os
dados. - O parâmetro ? denominado largura de faixa,
controla o amaciamento da superfície gerada. - S representa uma localização qualquer na área de
estudo e Si são as - localizações dos eventos observados.
- n representa o número de eventos.
22Estimador de Intensidade (Kernel Estimation)
- Uma função muito utilizada para I() é
- onde
- h representa a distância entre a localização em
que desejamos - calcular a função e os eventos observados.
- Assim o estimador de intensidade pode ser
expresso como - onde
- hi é a distância entre o ponto a calcular S e o
valor observado Si.
23Estimador de Intensidade (Kernel Estimation)
- A Figura abaixo ilustra a idéia do estimador de
intensidade
kernel
S
t
Si
hi
24Estimador de Intensidade (Kernel Estimation)
- Efeito da Largura de Faixa (t)
Banda estreita
t
Banda larga
25Estimador de Intensidade (Kernel Estimation)
- Uma visão do Kernel no Sistema SPRING
Plano de Informação (PI)
Grade de Intensidade
Superfície de saída
Observações
kernel
Ponto a ser estimado
26Estimador de Intensidade (Kernel Estimation)
- Exemplo Mapeando a violência na cidade de Porto
Alegre - RS.
Kernel
Santos,S.M., 1999
27Vizinho mais próximo
- Kernel
- explorar a variação da média do processo na
região de estudo - propriedade de primeira ordem - Propriedades de segunda ordem
- distâncias entre os eventos
- Dois tipos de distâncias
- evento-evento (W) e ponto aleatório-evento (X)
- Função empírica
- histograma das distâncias para o vizinho mais
próximo - cada classe do histograma é uma
contagem de eventos que ocorrem até aquela
distância
28 Vizinho mais Próximo
- O método do vizinho mais próximo estima a função
de distribuição - cumulativa ( ) baseado nas distâncias
entre eventos em uma - região de análise.
- Pode ser estimado empiricamente por
onde
- wi distância entre eventos
- A plotagem dos resultados de em relação
as distâncias, pode ser - utilizado como um método exploratório para
verificar se existe evidência - de interação entre os eventos.
29 Método - Vizinho mais Próximo
Baseado na distância mínima entre os pontos
1 distância
distância mínima
2 distância
3 distância
30 Método - Vizinho mais Próximo
- Na prática a distância de entrada w está
compreendida entre um valor - mínimo e máximo estabelecido pelo usuário.
Além disso, deve-se definir - também o número de intervalos desejados (Ex
com 9 intervalos).
31 Método - Vizinho mais Próximo
- Análise exploratória de padrões de distribuição
de pontos utilizando
1
0
w
0
1
0
w
0
32Teste de Significância
- Teste de Significância
- comparar com distribuições teóricas ou simulações
querepresentem a Completa Aleatoriedade
Espacial - A hipótese de CAE
- evento segue um processo de Poisson homogêneo
sobre a região estudada, - Outras modelos
- processo de Poisson heterogêneo, processo de Cox,
etc.
33 Método - Vizinho mais Próximo
- A significância do resultado da análise
exploratória, do padrão de - distribuição de pontos, utilizando o método
vizinho mais próximo pode ser - avaliada através de um modelo teórico
denominado Aleatoriedade Espacial - Completa ( Complete Spatial Randomness - CSR
).
- Na realidade o que se faz é comparar a
distribuição dos eventos observados - com o que se esperaria na hipótese CSR.
- Esta metodologia consiste em se criar envelopes
de simulação para a - distribuição CSR, afim de acessar a
significância dos desvios.
- Na hipótese de CSR, a função de distribuição
G(w) seria dada por um - processo de Poisson, como segue (Bailey e
Gatrell, 1995)
34 Método - Vizinho mais Próximo
- A estimação simulada para a distribuição G(w)
assumindo-se CSR é - calculada como (Bailey e Gatrell, 1995)
onde
- , i 1, 2, ..., m são funções de
distribuição empíricas, estimadas a - partir de m simulações
independentes dos n eventos, na hipótese - CSR (n eventos independentes e
uniformemente distribuídos).
35 Método - Vizinho mais Próximo
- Para calcular a condição de aleatoriedade,
calcula-se os envelopes de - simulação superior e inferior, definidos como
segue (Bailey e Gatrell, 1995)
36 Método - Vizinho mais Próximo
- A plotagem x , com adição dos
envelopes, permite medir a - significância dos desvios relativo a
aleatoriedade.
Envelope Inferior
Estimado
Envelope Superior
- Se a condição de CSR for válida para os dados
observados, a plotagem - x deve ser praticamente
linear com um ângulo de 45o
37 Método - Vizinho mais Próximo
- Se o dado apresenta tendências para
agrupamento, os traçados no gráfico - estarão acima da linha de 45o.
- Por outro lado, se o dado apresenta padrões de
regularidade os traçados - ficarão abaixo da linha de 45o.
38 Método - Vizinho mais Próximo
- O exemplo abaixo refere-se a crimes juvenis na
região de Cardiff, UK - (Herbert, 1980). Neste caso percebe-se a
posição dos envelopes e - da distribuição acima da linha de 45o, o que
caracteriza agrupamento - para as distâncias em análise.
Distância? mín.0.? máx.16 intervalos10
simulações10
39Função K
- Vizinho mais próximo
- pequena escala
- Função K
- propriedades de segunda ordem de um processo
isotrópico - Definição (Bailey e Gatrell, 1995)
- ?K(h) E (eventos a distância h de um evento
arbitrário) - onde
- ? - No eventos / área
- E() - operador esperança.
40Função K
- ?K(h) E (eventos a distância h de um evento
arbitrário)
R
eventos 7
h
Lembrando que
? denominado de intensidade ou
? no eventos/R R área
eventos 3
h
41Função K
- Necessitamos agora, definir um estimador para a
função k - ?K(h) E (eventos a distância h de um evento
arbitrário) - ?K(h) , onde dij é a
distância entre os eventos i e j. -
Ih(dij) 1 se dij lth, 0 se dij gt h. -
?R n eventos em R. - Resultando
- O estimador de lambda , então
42Função K
- Uma idéia gráfica do que está embutido na
notação do estimador da função K
43Função K
- Para um processo aleatório o esperado de
eventos a uma distância h - de UM evento escolhido aleatoriamente é
lk(h)lph2 (Bailey e Gatrell, 1995)
Processo aleatório
h
h
h
Áreaph2
h
h
h
44Função K
- Uma vez obtido, este pode ser plotado
e examinado. - O gráfico da função K não é tão intuitivo quanto
a do gráfico do vizinho - mais próximo. Portanto utiliza-se uma função
auxiliar L, para facilitar a - interpretação.
- O estimador da função L é
45Função K
- Interpretação da plotagem de
- extremos positivos mais agrupamento
- em torno de zero aleatório
0
- extremos negativos mais regularidade
h
46Função K
- Exemplo - O exemplo abaixo refere-se ao
município Bood Moor, situado no condado de
Cornwall, Inglaterra. Dados geomorfológicos com
36 localizações de rochas de granito. Neste caso
percebe-se que para distâncias entre
aproximadamente 2.5 a 3 (extremo positivo do
gráfico) há evidências de agrupamento.
Distância? mín.0.5 máx.4 intervalos10
47Função K
- Uma abordagem similar a do vizinho mais próximo
pode ser feita para se - estimar a significância dos desvios da
distribuição em relação a aleato- - riedade (CSR).
- Idéia realizar simulações CSR sobre a região R e
computar os envelopes - superior e inferior.
- O envelope superior é definido como (Baley e
Gratel, 1995)
- O envelope inferor é definido como (Baley e
Gratel, 1995)
48Função K
- Análise do gráfico com os envelopes
Upper(h) e Lower(h).
Upper(h)
aleatório
Lower(h)
h
49Função K
- Exemplo - mudas de Sequoia, Califórnia. Dados
representam 62 mudas distribuídas numa região de
23m2.
50AULA PRÁTICA NO SISTEMA SPRING
- BANCOS DE DADOS
- PORTO ALEGRE eventos de violência (homicídios,
acidentes de transito e suicídios) na cidade de
Porto Alegre - RS. - BoodminMoor refere-se ao município Bood Moor,
situado no condado de Cornwall, Inglaterra. Dados
geomorfológicos com 36 localizações de rochas de
granito. - Cardiff estado em Wales, UK. Dados representam
localizações das 168 residências de infratores
juvenis no estado de Cardiff. - Redwood mudas de Sequoia, Califórnia. Dados
representam 62 mudas distribuídas numa região de
23m2. -