Geostatystyka

class: inverse, left, nonum, clear
background-image: url("figs/Schaap-Kooi.jpg")
background-size: cover

.titlestyle[Geostatystyka:]
 
.captionstyle[Analiza autokorelacji przestrzennej 3]

.captionstyle[Jakub Nowosad, *nowosad@amu.edu.pl*]

---
class: inverse, left, bottom
# Postępowanie geostatystyczne

---
# Postępowanie geostatystyczne

<center>
<div class="DiagrammeR html-widget html-fill-item-overflow-hidden html-fill-item" id="htmlwidget-7b7483c035d2a4d5a0c5" style="width:792px;height:504px;"></div>
<script type="application/json" data-for="htmlwidget-7b7483c035d2a4d5a0c5">{"x":{"diagram":"\n graph TB;\n Pozyskanie[<center>Pozyskanie i wstępna weryfikacja danych<\/center>];\n Pozyskanie-->Eksploracja[<center>Nieprzestrzenna i przestrzenna eksploracja danych<\/center>];\n Eksploracja-->Analiza[<center>Analiza i interpretacja struktury przestrzennej<\/center>];\n Analiza -->Modelowanie[\"<center>Modelowanie matematyczne struktury przestrzennej (autokorelacji przestrzennej) <\/center>\"];\n \n Modelowanie -->Estymacja;\n Modelowanie -->Optymalizacja;\n Estymacja -->Symulacja;\n \n Modelowanie -->Symulacja;\n Estymacja -->Optymalizacja;\n Symulacja -->Optymalizacja;\n Optymalizacja -->Pozyskanie;\n \n \n style Analiza fill:#babaf7\n "},"evals":[],"jsHooks":[]}</script>
</center>

Ścieżka postępowania geostatystycznego

---
class: inverse, left, bottom
# Semiwariancja danych kodowanych

---
# Semiwariancja danych kodowanych

Semiwariancja danych kodowanych może być wykorzystywana do analizy:
- **Zmiennych ciągłych**
- **Zmiennych kategoryzowanych**

---
# Semiwariancja danych kodowanych

**Zmienna ciągła:**

- Funkcja kowariancji i semiwariogram to charakterystyki ciągłości przestrzennej (lub zmienności) dla całego zakresu wartości cechy
- Struktura ciągłości przestrzennej (lub zmienności) może jednak różnić się, zależnie czy pod uwagę bierzemy rozkład punktów danych charakteryzujących się niskimi, średnimi czy wysokimi wartościami cechy
- W wielu sytuacjach spotykanych w środowisku przyrodniczym lub społeczno-gospodarczym, losowo występujące wysokie wartości cechy, są otoczone większymi obszarami o średnich lub niskich wartościach, które zmieniają się w sposób ciągły
- To czy wartości ekstremalne są w przestrzeni rozproszone, czy też skupione, ma duże znaczenie dla wyjaśniania zjawiska, oraz jakości estymacji

---
# Semiwariancja danych kodowanych

**Zmienna ciągła:**

`$$i(u_{\alpha};z_k)=\begin{cases}1 & \text{jeżeli } z(u_{\alpha}) \le z_k \\ 0 & \text{poza tym}\end{cases}$$`
, gdzie `$z_k$` to wartość progowa
<img src="06-analiza_autokorelacji_przestrzennej3_files/figure-html/unnamed-chunk-3-1.png" style="display: block; margin: auto;" />

---
# Autokowariancja danych kodowanych

`$$C_I(h;z_k)=\frac{1}{N(h)}\sum_{\alpha=1}^{N(h)}i(u_\alpha;z_k) \cdot i(u_\alpha+h;z_k)-F_{-h}(z_k) \cdot F_{+h}(z_k)$$`
`$$C_I(h;z_k)= F(h;z_k)-F_{-h}(z_k) \cdot F_{+h}(z_k)$$`

, gdzie

.pull-left[
Proporcje (ułamek) wartości podzbioru ogona (*tail values*) nie przekraczające poziomu wartości progowej `$z_k$`:
`$$F_{-h}(z_k)=\frac{1}{N(h)}\sum_{\alpha=1}^{N(h)}i(u_\alpha;z_k)$$`
]

.pull-right[
Proporcje (ułamek) wartości podzbioru głowy (*head values*) nie przekraczające poziomu wartości progowej `$z_k$`:
`$$F_{+h}(z_k)=\frac{1}{N(h)}\sum_{\alpha=1}^{N(h)}i(u_\alpha + h;z_k)$$`
]

---
# Autokowariancja danych kodowanych

Autokowariancja danych kodowanych określa jak często, dwie wartości tej samej cechy oddalone od siebie o wektor h, są jednocześnie nie większe od wartości progowej `$z_k$`.

---
# Autokorelacja danych kodowanych

`$$\rho_I(h;z_k)=\frac{C_I(h;z_k)}{\sqrt{\sigma_{-h}^2(z_k) \cdot \sigma_{+h}^2(z_k)}} \quad \quad \in[-1,+1]$$`

Wariancja danych kodowanych podzbioru ogona (*tail values*):
`$$\sigma_{-h}^2(z_k)=F_{-h}(z_k)(1 - F_{-h}(z_k))$$`

Wariancja danych kodowanych podzbioru głowy (*head values*):
`$$\sigma_{+h}^2(z_k)=F_{+h}(z_k)(1 - F_{+h}(z_k))$$`

---
# Semiwariancja danych kodowanych

**Zmienna ciągła:**

`$$\gamma_I(h;z) = \frac{1}{2N(h)}\sum_{\alpha=1}^{N(h)}(i(u_{\alpha};z_k) - i(u_{\alpha}+h;z_k))^2$$`

Semiwariancja kodów:

- Określa jak często dwie wartości cechy oddalone o wektor `$h$` znajdują się po przeciwnych stronach wartości progowej `$z_k$`
- Innymi słowy, daje wielkość frekwencji przejść między dwoma klasami wartości cechy jako funkcję odległości ( `$h$` )

---
# Semiwariancja danych kodowanych

---
# Semiwariancja danych kodowanych

---
# Semiwariancja danych kodowanych

**Zmienna kategoryzowana:**

- Jeśli średnia wartość cechy `$z$` na obszarze należącym do określonej kategorii `$s_k$` bardzo się różni od ogólnej średniej, to geometryczny układ tej kategorii wpływa na kształt i anizotropię semiwariogramu `$z$`
- Strukturę ciągłości (zmienności) kategorii `$s_k$` można scharakteryzować za pomocą semiwariogramu określonego na zakodowanych danych obecności/braku tej kategorii według wzoru

`$$i(u_{\alpha};s_k)=\begin{cases}1 & \text{jeżeli } s(u_{\alpha}) \le s_k \\ 0 & \text{poza tym}\end{cases}$$`

---
# Semiwariancja danych kodowanych

**Zmienna kategoryzowana:**

`$$\gamma_I(h;s_k) = \frac{1}{2N(h)}\sum_{\alpha=1}^{N(h)}(i(u_{\alpha};s_k) - i(u_{\alpha}+h;s_k))^2$$`

Semiwariancja kodów:

- Określa jak często dwie wartości cechy oddalone o wektor `$h$` należą do różnych kategorii
- Im mniejsza semiwariancja, tym ciągłość przestrzenna kategorii `$s_k$` jest większa

---
# Semiwariancja danych kodowanych

---
class: inverse, left, bottom

# Dwie zmienne

---
# Jedna zmienna

Do tej pory zajmowaliśmy się wartościami głowy i ogona, które opisywały jedną zmienną.
Wartość cechy w punktach `$u_{\alpha}$` i `$u_{\alpha} + h$` dotyczy jednej i tej samej zmiennej:

---
# Dwie zmienne

Możliwa jest modyfikacja tego podejścia uwzględniając dwie zmienne.
Wartość cechy w punktach `$u_{\alpha}$` i `$u_{\alpha} + h$` dotyczy dwóch zmiennych `$z_i$` i `$z_j$`:

---
# Dwie zmienne

(W tych samych lub różnych lokalizacjach)

---
# Wykres rozrzutu z przesunięciem

*Wykres rozrzutu z przesunięciem dla dwóch zmiennych*

<img src="06-analiza_autokorelacji_przestrzennej3_files/figure-html/unnamed-chunk-11-1.png" style="display: block; margin: auto;" />

---
# Wykres rozrzutu z przesunięciem

*Wykres rozrzutu z przesunięciem dla dwóch zmiennych*

---
# Wykres rozrzutu z przesunięciem

*Wykres rozrzutu z przesunięciem dla dwóch zmiennych*

<img src="06-analiza_autokorelacji_przestrzennej3_files/figure-html/unnamed-chunk-13-1.png" style="display: block; margin: auto;" />
---
# Wykres rozrzutu z przesunięciem

*Wykres rozrzutu z przesunięciem dla dwóch zmiennych*

<img src="06-analiza_autokorelacji_przestrzennej3_files/figure-html/unnamed-chunk-14-1.png" style="display: block; margin: auto;" />
---
# Wykres rozrzutu z przesunięciem

*Wykres rozrzutu z przesunięciem dla dwóch zmiennych*

---
# Kroskowariancja

Kowariancja między wartościami cech `$z_i$`  i `$z_j$` odległymi o wektor `$h$`:

`$$C_{ij}(h)=\frac{1}{N(h)}\sum_{\alpha=1}^{N(h)}z_i(u_\alpha) \cdot z_j(u_\alpha+h)-m_{i_{-h}} \cdot m_{j_{+h}}$$`
, gdzie

`$N(h)$` to liczba par punktów odległych o wektor `$h$`

.pull-left[
Średnia wartości podzbioru ogona (*tail values*):
`$$m_{i_{-h}}=\frac{1}{N(h)}\sum_{\alpha=1}^{N(h)}z(u_\alpha)$$`
]

.pull-right[
Średnia wartości podzbioru głowy (*head values*):
`$$m_{j_{+h}}=\frac{1}{N(h)}\sum_{\alpha=1}^{N(h)}z(u_\alpha + h)$$`
]

---
# Kroskowariogram

---
# Kroskorelacja

Korelacja między wartościami cech `$z_i$`  i `$z_j$` odległymi o wektor `$h$`:

`$$\rho_{ij}(h)=\frac{C_{ij}(h)}{\sqrt{\sigma_{i_{-h}}^2 \cdot \sigma_{j_{+h}}^2}} \quad \quad \in[-1,+1]$$`

Wariancja podzbioru ogona (*tail values*):
`$$\sigma_{i_{-h}}^2=\frac{1}{N(h)}\sum_{\alpha=1}^{N(h)}(z_i(u_\alpha) - m_{i_{-h}})^2$$`

Wariancja podzbioru głowy (*head values*):
`$$\sigma_{j_{+h}}^2=\frac{1}{N(h)}\sum_{\alpha=1}^{N(h)}(z_j(u_\alpha + h) - m_{j_{+h}})^2$$`

---
# Kroskorelacja

---
# Efekt przesunięcia

- Kroskowariancja obliczana w przeciwnych kierunkach jest zazwyczaj różna: `$C_{ij}(h) \ne C_{ij}(-h)$`
- Znacząca różnica pomiędzy `$C_{ij}(h)$` i `$C_{ij}(-h)$` może oznaczać, że jedna wartość jednej cechy zmienia się w przestrzeni z pewnym opóźnieniem w stosunku do zmian drugiej cechy
- Zjawisko to nazywane jest **efektem przesunięcia** (*ang. lag effect*, Journel i Huijbregts, 1978)

*Jeśli brak jest klarownej fizycznej interpretacji tego zjawiska, lepiej je zignorować, gdyż może być skutkiem przypadkowej fluktuacji związanej z małą liczbą par danych z których wyliczono kowariancję (Goovaerts, 1997)*

---
# Efekt przesunięcia

*Przykład - skażenie gleb wokół zakładu przemysłowego*

- Jest ono związane z emisjami gazów i pyłów z komina zakładu
- Składnik A zanieczyszczeń związany jest z emisjami pyłowymi
- Składnik B zanieczyszczeń związany jest z emisjami gazowymi
- Składnik A będzie zatem „wypadał” z chmury zanieczyszczeń szybciej niż składnik B
- Zmiany przestrzenne obu składników będą miały podobną strukturę przestrzenną (bo są efektem tego samego zjawiska), ale z przesunięciem

---
# Efekt przesunięcia

Czy zmienne ndvi i savi wykazują efekt przesunięcia?

---
# Efekt przesunięcia

Czy zmienne var1 i var2 wykazują efekt przesunięcia?

---
# Dwie zmienne - gradienty

- Kroskowariancja i kroskorelacja określają jak wygląda relacja wartości cechy `$z_i$` w jednej lokalizacji w stosunku do wartości innej cechy `$z_j$` w lokalizacji odległej o wektor `$h$`
- Inaczej mówiąc porównujemy parę danych `$(z_i(u_{\alpha}), z_j(u_{\alpha}+h))$`

- Zamiast tego możemy rozważyć porównanie pary zmian (gradientów) na dystansie `$h$` `$([z_i(u_{\alpha}), z_i(u_{\alpha}+h)], [z_j(u_{\alpha}), z_j(u_{\alpha}+h)])$`, które pokazują wspólną zmianę gradientów wartości `$z_i$` i `$z_j$` przy zmianie położenia o wektor `$h$`

- Jeśli obie cechy są skorelowane dodatnio, to przyrost/spadek wartości `$z_i$` od punktu `$u_{\alpha}$` do punktu `$u_{\alpha}+h$` będzie związany ze wzrostem/spadkiem wartości `$z_j$`
- Jeśli obie cechy są skorelowane ujemnie, to spadek/przyrost wartości `$z_i$` od punktu `$u_{\alpha}$` do punktu `$u_{\alpha}+h$` będzie związany ze wzrostem/spadkiem wartości `$z_j$`

---
# Krossemiwariancja

**Krossemiwariancja** - połowa niescentralizowanej kowariancji pomiędzy różnicami na dystansie `$h$`

`$$\gamma_{ij}(h) = \frac{1}{2N(h)}\sum_{\alpha=1}^{N(h)}(z_i(u_\alpha) - z_i(u_\alpha+h)) \cdot (z_j(u_\alpha) - z_j(u_\alpha+h))$$`

- W przeciwieństwie do kroskowariancji i kroskorelacji, krossemiwariancja jest symetryczna w stosunku do cech i wektora przesunięcia
- Krossemiwariogram nie może zatem pomagać w wykrywaniu efektu przesunięcia

- Poza tym krossemiwariancja może być obliczana jedynie dla takich lokalizacji, w których zmierzono obie cechy

---
# Krossemiwariogramy

---
class: inverse, left, bottom
# Dwie zmienne: dane kodowane

---
# Kroskowariancja danych kodowanych

- Tak samo jak w przypadku analizy struktury przestrzennej jednej zmiennej, charakter i siła relacji między dwoma zmiennymi może zależeć o skali natężenia porównywanych cech: niskiej, średniej, czy wysokiej
- Często wysokie wartości skorelowanych przestrzennie cech będące efektem tego samego zjawiska mogą wykazywać większe podobieństwo niż średnie i niskie, mające odmienną genezę
- Przykładem może być zawartość toksycznych metali ciężkich w glebach.
Ich niskie lub średnie stężenia mają najczęściej genezę naturalną, związaną z procesami wietrzeniowymi skał macierzystych. 
Wysokie koncentracje natomiast są zazwyczaj związane z antropogenicznymi emisjami.

---
# Kroskowariancja danych kodowanych

Kowariancja między kodowanymi wartościami cech `$z_i$`  i `$z_j$` odległymi o wektor `$h$`:

`$$C_{ij}^I(h;z_{ik},z_{jk'})=\frac{1}{N(h)}\sum_{\alpha=1}^{N(h)}i(u_\alpha;z_{ik}) \cdot i(u_\alpha+h;z_{jk'}) - \\ F_{i_{-h}}(z_{ik}) \cdot F_{j_{+h}}(z_{jk'})$$`

`$$C_{ij}^I(h;z_{ik},z_{jk'})=F_{ij}(h;z_{ik}, z_{jk'}) - F_{i_{-h}}(z_{ik}) \cdot F_{j_{+h}}(z_{jk'})$$`

, gdzie

- `$F_{i_{-h}}(z_{ik})$` - proporcja wartości ogona, która nie przekracza poziomu progowego `$z_{ik}$`:
- `$F_{j_{+h}}(z_{jk'})$` - proporcja wartości głowy, która nie przekracza poziomu progowego `$z_{jk'}$`:

---
# Kroskowariancja danych kodowanych

Kroskowariancja określa jak często wartości `$z_i$` i `$z_j$` oddalone o wektor `$h$` są jednocześnie nie większe od określonych wartości progowych ( `$z_{ik}$`, `$z_{jk'}$` ).

---
# Kroskorelacja danych kodowanych

`$$\rho_{ij}^I(h;z_{ik},z_{jk'})=\frac{C_{ij}^I(h;z_{ik},z_{jk'})}{\sqrt{\sigma_{i_{-h}}^2(z_{ik}) \cdot} \sigma_{i_{+h}}^2(z_{jk'})} \quad \quad \in[-1,+1]$$`
Gdzie:

- Wariancja wartości danych kodowych ogona:
`$$\sigma_{i_{-h}}^2(z_{ik}) = F_{i_{-h}}(z_{ik})[1-F_{i_{-h}}(z_{ik})]$$`

- Wariancja wartości danych kodowych głowy:
`$$\sigma_{i_{+h}}^2(z_{jk'}) = F_{i_{+h}}(z_{jk'})[1-F_{i_{+h}}(z_{jk'})]$$`

---
# Krossemiwariancja danych kodowanych

`$$\gamma_{ij}^I(h;z_{ik},z_{jk'}) = \frac{1}{2N(h)}\sum_{\alpha=1}^{N(h)}(i(u_\alpha;z_{ik}) - i(u_\alpha+h;z_{ik})) \cdot \\ (i(u_\alpha;z_{jk'}) - i(u_\alpha+h;z_{jk'}))$$`

- Niezerowy udział w krossemiwariancji danych kodowanych mają jedynie te pary danych, w których wartości obu cech `$z_{i'}$` i `$z_j$` są po przeciwnych stronach ich wartości progowych ( `$z_{ik}$`, `$z_{jk'}$` )
- Udział pary danych w `$\gamma_{ij}^I(h;z_{ik},z_{jk'})$` może być pozytywny (+1) lub negatywny (-1), w zależności od tego czy wartości `$z_i$` i `$z_j$` wspólnie rosną (maleją) przy przejściu od `$u_{\alpha}$` do `$u_{\alpha} + h$`, lub też zmieniają się w sposób przeciwny

---
# Krossemiwariancja danych kodowanych

---
# Krossemiwariancja danych kodowanych

---
# Dane kodowane dwóch cech

Strukturę przestrzenną danych kodowanych dwóch cech można określić też w przypadkach:

- `$i(u_{\alpha};z_k)$` i `$i(u_{\alpha};z_k')$` mogą dotyczyć tej samej ciągłej (ilościowej) cechy `$z$`, ale dla dwóch różnych wartości progowych `$z_k$` i `$z_k'$`
- `$i(u_{\alpha};s_k)$` i `$i(u_{\alpha};s_k')$` odnoszących się do dwóch różnych kategorii `$s_k$` i `$s_k'$`
- `$i(u_{\alpha};z_k)$` i `$i(u_{\alpha};s_k)$` odnoszących się cechy ilościowej i jakościowej (kategorii)