Geostatystyka

class: inverse, left, nonum, clear
background-image: url("figs/QueensMercy.jpg")
background-size: cover

.titlestyle[Geostatystyka:]
 
.captionstyle[Eksploracyjna analiza danych]

.captionstyle[Jakub Nowosad, *nowosad@amu.edu.pl*]

---
class: inverse, left, bottom
# Postępowanie geostatystyczne

---
# Postępowanie geostatystyczne

<center>
<div class="DiagrammeR html-widget html-fill-item-overflow-hidden html-fill-item" id="htmlwidget-fe6b64506a9984abd7f4" style="width:504px;height:504px;"></div>
<script type="application/json" data-for="htmlwidget-fe6b64506a9984abd7f4">{"x":{"diagram":"\n graph TB;\n Pozyskanie[<center>Pozyskanie i wstępna weryfikacja danych<\/center>];\n Pozyskanie-->Eksploracja[<center>Nieprzestrzenna i przestrzenna eksploracja danych<\/center>];\n Eksploracja-->Analiza[<center>Analiza i interpretacja struktury przestrzennej<\/center>];\n Analiza -->Modelowanie[\"<center>Modelowanie matematyczne struktury przestrzennej (autokorelacji przestrzennej) <\/center>\"];\n \n Modelowanie -->Estymacja;\n Modelowanie -->Optymalizacja;\n Estymacja -->Symulacja;\n \n Modelowanie -->Symulacja;\n Estymacja -->Optymalizacja;\n Symulacja -->Optymalizacja;\n Optymalizacja -->Pozyskanie;\n \n \n style Eksploracja fill:#babaf7\n "},"evals":[],"jsHooks":[]}</script>
</center>

Ścieżka postępowania geostatystycznego

---
# Cele eksploracyjnej analizy danych

- Przygotowanie ogólnej charakterystyki danych oraz badanego zjawiska
- Identyfikacja przestrzennego/czasowego typu próbkowania
- Ocena relacji zachodzących pomiędzy lokalizacją pomiaru/obserwacji, a czynnikami wpływającymi na zmienność przestrzenną badanych cech

---
class: inverse, left, bottom

# Nieprzestrzenna eksploracyjna analiza danych

---
# Nieprzestrzenna eksploracyjna analiza danych

**Nieprzestrzenna jednej zmiennej:**

- typ rozkładu: jedno-, wielomodalny
- typ rozkładu: symetryczny (potencjalnie normalny), asymetryczny (skośny)
- istnienie danych globalnie odstających (ekstremów)

**Nieprzestrzenna dwóch zmiennych:**

- typ i siła korelacji zmiennych ilościowych
- istotność różnic grup zmiennej/ych ilościowych wyróżnionych względem zmiennej jakościowej

---
# Podstawowe statystyki

---
# Podstawowe statystyki

**Próba losowa - zmienna temp:**

13,85, 15,48, 14,32, 15,91,  9,94, 13,51, 12,92, 19,25, 10,53, 14,52, 15,66, 22,75, 15,03, 23,35, 12,17, 21,94, 12,07, 19,24, 21,33,  8,90, 12,55, 14,71, 16,42, 11,91, 11,98, 12,55, 12,23, 14,74, 23,68, 18,95, 13,38, 15,28

.pull-left[
**Miary położenia:**

- Średnia
- Mediana
- ...

]

.pull-right[
**Miary zmienności:**

- Wariancja
- Odchylenie standardowe
- ...

]

---
# Rozkłady danych

.lc[
**Histogram:**
- Graficzna reprezentacja rozkładu danych
- Wartości danych są łączone w przedziały (na osi poziomej) a na osi pionowej jest ukazana liczba punktów (obserwacji) w każdym przedziale
]

.rc[
<img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-5-1.png" style="display: block; margin: auto;" />
]

---
# Dane globalnie odstające

.lc[
- To bardzo niskie lub bardzo wysokie wartości względem pozostałych w zbiorze danych
- Można je zidentyfikować, np. poprzez obliczenie minimalnej i maksymalnej wartości zmiennej lub obejrzenie rozkładu danych
]

.rc[
<img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-6-1.png" style="display: block; margin: auto;" />
]

---
# Korelacje zmiennych ilościowych

.lc[
**Współczynnik korelacji (i testy korelacji): **

- Metoda Pearsona
- Metoda Spearmana
- ...

*Współczynnik korelacji (metoda Spearmana): 0.04*
]

.rc[
<img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-7-1.png" style="display: block; margin: auto;" />
]

---
# Relacje zmienne ilościowe a jakościowe

.pull-left[
**5 podstawowych statystyk opisowych oraz wartości odstające:**

- Linia środkowa to mediana
- Pudełko to zakres międzykwartylowy (IQR),
- Linie oznaczają najbardziej ekstremalne wartości, ale nie odstające.
- Górna z nich to 1,5\*IQR ponad krawędź pudełka, dolna to 1,5\*IQR poniżej wartości dolnej krawędzi pudełka
- Punkty to wartości odstające
]

.pull-right[
<img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-8-1.png" style="display: block; margin: auto;" />
]

---
# Relacje zmienne ilościowe a jakościowe

.lc[
**Testowanie istotności różnic średniej pomiędzy grupami:**
- Analiza wariancji (ang. *Analysis of Variance* - ANOVA) i test *post-hoc*
- Test Kruskala-Wallisa
]
.rc[
<img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-9-1.png" style="display: block; margin: auto;" />
]

---
class: inverse, left, bottom

# Przestrzenna eksploracyjna analiza danych

---
# Przestrzenna eksploracyjna analiza danych

**Przestrzenna jednej zmiennej:**

- Sprawdzenie poprawności współrzędnych
- Sprawdzenie poprawności danych, w tym między innymi identyfikacja danych odstających lokalnie 
- Typ próbkowania
- Rozgrupowanie danych przy próbkowaniu preferencyjnym
- Statystyki najbliższego sąsiada
- Ogólny pogląd na zmienność przestrzenną, wykorzystanie prostej automatycznej procedury interpolacji
- Istnienie efektu proporcjonalności lokalnej średniej/wariancji

---
# Poprawność współrzędnych

.pull-left[
- Czy współrzędne są w odpowiednim porządku (X-Y, Y-X)?
- Czy współrzędne są w odpowiednim układzie?
]

.pull-right[
<img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-10-1.png" style="display: block; margin: auto;" />
]

---
# Poprawność współrzędnych

- Czy wszystkie punkty znajdują się na badanym obszarze?

---
# Poprawność współrzędnych

---
# Dane lokalnie odstające

- Czy istnieją jakieś wartości (obserwacje), które nie są globanie odstające, ale nietypowe lokalnie?

---
# Dane lokalnie odstające

- Czy istnieją jakieś wartości (obserwacje), które nie są globanie odstające, ale nietypowe lokalnie?

---
# Typy próbkowania

**Zastosowany typ poboru próbek:**

- Regularny
- Losowy
- Losowy stratyfikowany
- Profilowy
- Preferencyjny (skupiony)
- Izoliniowy

---
# Typy próbkowania

---
# Próbkowanie a statystyki opisowe

.lc[
Typ próbkowania może wpływać na wartości statystyk opisowych
<img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-22-1.png" style="display: block; margin: auto;" /><img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-22-2.png" style="display: block; margin: auto;" />
]

.rc[
<img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-23-1.png" style="display: block; margin: auto;" />
]

---
# Próbkowanie a statystyki opisowe

Typ próbkowania może wpływać na wartości statystyk opisowych

|Statystyka             |Populacja |Losowa |Preferencyjna |
|:----------------------|:---------|:------|:-------------|
|Liczebność             |12192     |150    |163           |
|Minimum                |1,65      |3,89   |4,23          |
|Mediana                |16,01     |15,81  |17,74         |
|Średnia                |15,74     |15,68  |17,26         |
|Maksimum               |31,77     |28,46  |27,24         |
|Odchylenie standardowe |4,81      |4,47   |3,83          |

---
# Próbkowanie a statystyki opisowe

Potencjalne rozwiązanie tego problemu to stosowanie średniej ważonej.

`$$\bar{x}_w = \frac{\sum_{i=1}^nx_i \cdot w_i}{\sum_{i=1}^n w_i} = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n}$$`
, gdzie:

- `$x_i$` - wartość kolejnych pomiarów (punktów) 
- `$w_i$` - waga nadana kolejnym pomiarom (punktom)

Dwa główne podejścia:
- **Rozgrupowanie poligonalne** (ang. *polygon declustering*)
- **Rozgrupowanie komórkowe** (ang. *cell declustering*)

---
# Rozgrupowanie poligonalne

**Rozgrupowanie poligonalne** polega na zastosowaniu jednej z metod triangulacji, np. poligonów Woronoja:

1. Dla każdego punktu określany jest poligon
2. Wyliczana jest powierzchnia poligonu
3. Waga każdego punktu wyliczana jest poprzez podzielenie powierzchni indywidualnych przez powierzchnię całego obszaru, a następnie pomnożenie przez liczbę punktów

`$$w'_j=\frac{area_j}{\sum_{j=1}^{n}area_j} \cdot n$$`
, gdzie `$area_j$` powierzchnia dla wybranej obserwacji, a `$n$` to łączna liczba obserwacji

---
# Rozgrupowanie poligonalne

.lc[
<img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-27-1.png" style="display: block; margin: auto;" />
- Waga każdego punktu jest proporcjonalna do powierzchni (pola powierzchni) poligonu
]

.rc[
<img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-28-1.png" style="display: block; margin: auto;" />
]

---
# Rozgrupowanie komórkowe

**Rozgrupowanie komórkowe** polega na:

1. Stworzeniu regularnej siatki dla badanego obszaru
2. Policzeniu liczby pomiarów/obserwacji w każdym oczku siatki
3. Nadanie wagi dla każdego punktu, zgodnie ze wzorem:

`$$w'_j=\frac{\frac{1}{n_i}}{\text{liczba komorek z danymi}} \cdot n$$`
, gdzie `$n_i$` to liczba obserwacji w komórce, a `$n$` to łączna liczba obserwacji

---
# Rozgrupowanie komórkowe

.lc[
<img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-30-1.png" style="display: block; margin: auto;" />
- Waga każdego punktu jest odwrotnie proporcjonalna do liczby punktów w oczu siatki
]

.rc[
<img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-31-1.png" style="display: block; margin: auto;" />
]

---
# Porównanie metod rozgrupowania

|Typ                       | Średnia|
|:-------------------------|-------:|
|Populacja                 |   15,74|
|Losowa                    |   15,68|
|Preferencyjna             |   17,26|
|Rozgrupowanie poligonalne |   16,00|
|Rozgrupowanie komórkowe   |   16,00|

*W przypadku metod rozgrupowania należy jednak pamiętać, że ich wynik zależy od szeregu wprowadzonych parametrów, w szczególności granic badanego obszaru oraz zastosowanej wielkości oczka siatki.*

---
# Statystyki najbliższego sąsiada

**Statystyki najbliższego sąsiada:**

- Określenie rozkładu odległości pomiędzy każdą lokalizacją pomiaru/obserwacji, a najbliższym innym pomiarem/obserwacją
- Określenie rozkładu różnic wartości w parach najbliższych pomiarów w zależności do dzielących je odległości

*W przypadku, kiedy nie znamy reguł według których wykonywano próbkowanie, określenie rozkładu odległości najbliższego sąsiada ułatwia stwierdzenie czy było ono regularne, losowe czy skupione.*

*Określenie przeciętnej odległości do najbliższego sąsiada jest też pomocne w dobraniu odpowiednich parametrów do obliczeń autokorelacji przestrzennej.*

---
# Statystyki najbliższego sąsiada

.lc[
- 50% punktów znajduje się w odległości mniejszej lub równiej ok. 291 m od najbliższej próbki
- 90% punktów w odległości mniejszej lub równiej ok. 564 m od najbliższej próbki

Odległości między najbliższymi punktami:

- Minimalna: 39 m
- Maksymalna: 942 m
- Średnia: 308 m

]

.rc[
<img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-35-1.png" style="display: block; margin: auto;" />
]

---
# Statystyki najbliższego sąsiada

**Wskaźnik Clarka-Evansa (1954)** - stosunek między rzeczywistą średnią odległością od najbliższego sąsiada, a oczekiwaną dla rozkładu losowego

- **Wartości niższe od 1** wskazują na występowanie skupień punktów
- **Wartość równa 1** wskazuje na losowy rozkład punktów
- **Wartości wyższe od 1** wskazują na bardziej regularny ich rozkład (np., dla regularnej siatki heksagonalnej wartość wskaźnika wynosi 2,15)

---
# Statystyki najbliższego sąsiada

- Wartość wskaźnika Clarka-Evansa (1954) dla poniższych danych wynosi 0,98
- Oznacza to, że te dane były próbkowane w schemacie (układzie) zbliżonym do losowego

---
# Zmienność przestrzenna

Wykorzystanie prostej automatycznej procedury interpolacji (takiej, która nie wymaga żadnej skomplikowanej parametryzacji) może dać ogólny pogląd na zmienność przestrzenną badanego zjawiska:

.lc[
- Metoda diagramów Woronoja (ang. *Voronoi diagram*)
- Metoda średniej ważonej odległością (ang. *Inverse Distance Weighted* - IDW)
- Funkcje wielomianowe (ang. *Polynomials*) 
- Funkcje sklejane (ang. *Splines*) 
]

.rc[
<img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-37-1.png" style="display: block; margin: auto;" />
]

---
# Zmienność przestrzenna

---
# Efekt proporcjonalności...

*Efekt proporcjonalności średniej lokalnej do wariancji lokalnej*

---
# Efekt proporcjonalności...

*Efekt proporcjonalności średniej lokalnej do wariancji lokalnej*

- Czerwona linia symbolizuje lokalną średnią, a punkty symbolizują indywidualne wartości cechy
- Oś X to odległość w przestrzeni, a oś Y to wartość cechy

---
# Efekt proporcjonalności...

*Efekt proporcjonalności średniej lokalnej do wariancji lokalnej*

- Zmienne mogą wykazywać **efekt proporcjonalności**, gdy obszary o pewnych wartościach (np. wysokich/niskich) wykazują większą/mniejszą zmienność niż obszary o zupełnie innych wartościach (np. niskich/wysokich) 
- Inaczej mówiąc, występuje on, gdy lokalne średnie policzone dla fragmentów badanego obszaru wykazują związek (relację) z lokalnymi wariancjami (zmiennością)
- W przypadku przetwarzania danych wykazujących **efekt proporcjonalności** możemy otrzymać niepoprawne wyniki
- Potencjalne rozwiązania problemu **efektu proporcjonalności** obejmują zastosowanie transformacji danych przed zastosowaniem krigingu lub też użycie krigingu danych kodowanych (Manchuk et al., 2009)