class: inverse, left, nonum, clear background-image: url("figs/QueensMercy.jpg") background-size: cover .titlestyle[Geostatystyka:] <br> .captionstyle[Eksploracyjna analiza danych] <br><br><br><br><br><br> <br><br><br><br><br><br> .captionstyle[Jakub Nowosad, *nowosad@amu.edu.pl*] <!-- https://www.si.edu/object/queens-mercy:nmnhmineralsciences_1040272 --> --- class: inverse, left, bottom # Postępowanie geostatystyczne --- # Postępowanie geostatystyczne <center>
</center> Ścieżka postępowania geostatystycznego <!-- https://bookdown.org/nowosad/Geostatystyka/wprowadzenie.html --> --- # Cele eksploracyjnej analizy danych - Przygotowanie ogólnej charakterystyki danych oraz badanego zjawiska - Identyfikacja przestrzennego/czasowego typu próbkowania - Ocena relacji zachodzących pomiędzy lokalizacją pomiaru/obserwacji, a czynnikami wpływającymi na zmienność przestrzenną badanych cech <!-- + slajdy --> --- class: inverse, left, bottom # Nieprzestrzenna eksploracyjna analiza danych --- # Nieprzestrzenna eksploracyjna analiza danych **Nieprzestrzenna jednej zmiennej:** - typ rozkładu: jedno-, wielomodalny - typ rozkładu: symetryczny (potencjalnie normalny), asymetryczny (skośny) - istnienie danych globalnie odstających (ekstremów) -- **Nieprzestrzenna dwóch zmiennych:** - typ i siła korelacji zmiennych ilościowych - istotność różnic grup zmiennej/ych ilościowych wyróżnionych względem zmiennej jakościowej --- # Podstawowe statystyki <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-4-1.png" style="display: block; margin: auto;" /> --- # Podstawowe statystyki **Próba losowa - zmienna temp:** 13,85, 15,48, 14,32, 15,91, 9,94, 13,51, 12,92, 19,25, 10,53, 14,52, 15,66, 22,75, 15,03, 23,35, 12,17, 21,94, 12,07, 19,24, 21,33, 8,90, 12,55, 14,71, 16,42, 11,91, 11,98, 12,55, 12,23, 14,74, 23,68, 18,95, 13,38, 15,28 -- .pull-left[ **Miary położenia:** - Średnia - Mediana - ... ] .pull-right[ **Miary zmienności:** - Wariancja - Odchylenie standardowe - ... ] --- # Rozkłady danych .lc[ **Histogram:** - Graficzna reprezentacja rozkładu danych - Wartości danych są łączone w przedziały (na osi poziomej) a na osi pionowej jest ukazana liczba punktów (obserwacji) w każdym przedziale ] .rc[ <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-5-1.png" style="display: block; margin: auto;" /> ] --- # Dane globalnie odstające .lc[ - To bardzo niskie lub bardzo wysokie wartości względem pozostałych w zbiorze danych - Można je zidentyfikować, np. poprzez obliczenie minimalnej i maksymalnej wartości zmiennej lub obejrzenie rozkładu danych ] .rc[ <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-6-1.png" style="display: block; margin: auto;" /> ] --- # Korelacje zmiennych ilościowych .lc[ **Współczynnik korelacji (i testy korelacji): ** - Metoda Pearsona - Metoda Spearmana - ... <br><br><br><br><br><br> *Współczynnik korelacji (metoda Spearmana): 0.04* ] .rc[ <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-7-1.png" style="display: block; margin: auto;" /> ] --- # Relacje zmienne ilościowe a jakościowe .pull-left[ **5 podstawowych statystyk opisowych oraz wartości odstające:** - Linia środkowa to mediana - Pudełko to zakres międzykwartylowy (IQR), - Linie oznaczają najbardziej ekstremalne wartości, ale nie odstające. - Górna z nich to 1,5\*IQR ponad krawędź pudełka, dolna to 1,5\*IQR poniżej wartości dolnej krawędzi pudełka - Punkty to wartości odstające ] .pull-right[ <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-8-1.png" style="display: block; margin: auto;" /> ] --- # Relacje zmienne ilościowe a jakościowe <!-- improve data exampless --> .lc[ **Testowanie istotności różnic średniej pomiędzy grupami:** - Analiza wariancji (ang. *Analysis of Variance* - ANOVA) i test *post-hoc* - Test Kruskala-Wallisa ] .rc[ <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-9-1.png" style="display: block; margin: auto;" /> ] --- class: inverse, left, bottom # Przestrzenna eksploracyjna analiza danych --- # Przestrzenna eksploracyjna analiza danych **Przestrzenna jednej zmiennej:** - Sprawdzenie poprawności współrzędnych - Sprawdzenie poprawności danych, w tym między innymi identyfikacja danych odstających lokalnie - Typ próbkowania - Rozgrupowanie danych przy próbkowaniu preferencyjnym - Statystyki najbliższego sąsiada - Ogólny pogląd na zmienność przestrzenną, wykorzystanie prostej automatycznej procedury interpolacji - Istnienie efektu proporcjonalności lokalnej średniej/wariancji --- # Poprawność współrzędnych .pull-left[ - Czy współrzędne są w odpowiednim porządku (X-Y, Y-X)? - Czy współrzędne są w odpowiednim układzie? ] .pull-right[ <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-10-1.png" style="display: block; margin: auto;" /> ] --- # Poprawność współrzędnych - Czy wszystkie punkty znajdują się na badanym obszarze? <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-11-1.png" style="display: block; margin: auto;" /> --- # Poprawność współrzędnych <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-12-1.png" style="display: block; margin: auto;" /> --- # Dane lokalnie odstające - Czy istnieją jakieś wartości (obserwacje), które nie są globanie odstające, ale nietypowe lokalnie? <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-13-1.png" style="display: block; margin: auto;" /> --- # Dane lokalnie odstające - Czy istnieją jakieś wartości (obserwacje), które nie są globanie odstające, ale nietypowe lokalnie? <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-14-1.png" style="display: block; margin: auto;" /> --- # Typy próbkowania **Zastosowany typ poboru próbek:** - Regularny - Losowy - Losowy stratyfikowany - Profilowy - Preferencyjny (skupiony) - Izoliniowy --- # Typy próbkowania <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-18-1.png" style="display: block; margin: auto;" /> <!-- + examples --> <!-- + comparision between sample types --> --- # Próbkowanie a statystyki opisowe .lc[ Typ próbkowania może wpływać na wartości statystyk opisowych <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-22-1.png" style="display: block; margin: auto;" /><img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-22-2.png" style="display: block; margin: auto;" /> ] .rc[ <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-23-1.png" style="display: block; margin: auto;" /> ] --- # Próbkowanie a statystyki opisowe Typ próbkowania może wpływać na wartości statystyk opisowych |Statystyka |Populacja |Losowa |Preferencyjna | |:----------------------|:---------|:------|:-------------| |Liczebność |12192 |150 |163 | |Minimum |1,65 |3,89 |4,23 | |Mediana |16,01 |15,81 |17,74 | |Średnia |15,74 |15,68 |17,26 | |Maksimum |31,77 |28,46 |27,24 | |Odchylenie standardowe |4,81 |4,47 |3,83 | --- # Próbkowanie a statystyki opisowe Potencjalne rozwiązanie tego problemu to stosowanie średniej ważonej. `$$\bar{x}_w = \frac{\sum_{i=1}^nx_i \cdot w_i}{\sum_{i=1}^n w_i} = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n}$$` , gdzie: - `\(x_i\)` - wartość kolejnych pomiarów (punktów) - `\(w_i\)` - waga nadana kolejnym pomiarom (punktom) -- Dwa główne podejścia: - **Rozgrupowanie poligonalne** (ang. *polygon declustering*) - **Rozgrupowanie komórkowe** (ang. *cell declustering*) --- # Rozgrupowanie poligonalne **Rozgrupowanie poligonalne** polega na zastosowaniu jednej z metod triangulacji, np. poligonów Woronoja: 1. Dla każdego punktu określany jest poligon 2. Wyliczana jest powierzchnia poligonu 3. Waga każdego punktu wyliczana jest poprzez podzielenie powierzchni indywidualnych przez powierzchnię całego obszaru, a następnie pomnożenie przez liczbę punktów `$$w'_j=\frac{area_j}{\sum_{j=1}^{n}area_j} \cdot n$$` , gdzie `\(area_j\)` powierzchnia dla wybranej obserwacji, a `\(n\)` to łączna liczba obserwacji <!-- wzor do poprawy? --> --- # Rozgrupowanie poligonalne .lc[ <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-27-1.png" style="display: block; margin: auto;" /> - Waga każdego punktu jest proporcjonalna do powierzchni (pola powierzchni) poligonu ] .rc[ <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-28-1.png" style="display: block; margin: auto;" /> ] --- # Rozgrupowanie komórkowe **Rozgrupowanie komórkowe** polega na: 1. Stworzeniu regularnej siatki dla badanego obszaru 2. Policzeniu liczby pomiarów/obserwacji w każdym oczku siatki 3. Nadanie wagi dla każdego punktu, zgodnie ze wzorem: `$$w'_j=\frac{\frac{1}{n_i}}{\text{liczba komorek z danymi}} \cdot n$$` , gdzie `\(n_i\)` to liczba obserwacji w komórce, a `\(n\)` to łączna liczba obserwacji --- # Rozgrupowanie komórkowe .lc[ <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-30-1.png" style="display: block; margin: auto;" /> - Waga każdego punktu jest odwrotnie proporcjonalna do liczby punktów w oczu siatki ] .rc[ <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-31-1.png" style="display: block; margin: auto;" /> ] --- # Porównanie metod rozgrupowania <br> |Typ | Średnia| |:-------------------------|-------:| |Populacja | 15,74| |Losowa | 15,68| |Preferencyjna | 17,26| |Rozgrupowanie poligonalne | 16,00| |Rozgrupowanie komórkowe | 16,00| *W przypadku metod rozgrupowania należy jednak pamiętać, że ich wynik zależy od szeregu wprowadzonych parametrów, w szczególności granic badanego obszaru oraz zastosowanej wielkości oczka siatki.* --- # Statystyki najbliższego sąsiada **Statystyki najbliższego sąsiada:** - Określenie rozkładu odległości pomiędzy każdą lokalizacją pomiaru/obserwacji, a najbliższym innym pomiarem/obserwacją - Określenie rozkładu różnic wartości w parach najbliższych pomiarów w zależności do dzielących je odległości <br><br><br> -- *W przypadku, kiedy nie znamy reguł według których wykonywano próbkowanie, określenie rozkładu odległości najbliższego sąsiada ułatwia stwierdzenie czy było ono regularne, losowe czy skupione.* -- *Określenie przeciętnej odległości do najbliższego sąsiada jest też pomocne w dobraniu odpowiednich parametrów do obliczeń autokorelacji przestrzennej.* --- # Statystyki najbliższego sąsiada .lc[ - 50% punktów znajduje się w odległości mniejszej lub równiej ok. 291 m od najbliższej próbki - 90% punktów w odległości mniejszej lub równiej ok. 564 m od najbliższej próbki Odległości między najbliższymi punktami: - Minimalna: 39 m - Maksymalna: 942 m - Średnia: 308 m ] .rc[ <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-35-1.png" style="display: block; margin: auto;" /> ] --- # Statystyki najbliższego sąsiada **Wskaźnik Clarka-Evansa (1954)** - stosunek między rzeczywistą średnią odległością od najbliższego sąsiada, a oczekiwaną dla rozkładu losowego -- - **Wartości niższe od 1** wskazują na występowanie skupień punktów - **Wartość równa 1** wskazuje na losowy rozkład punktów - **Wartości wyższe od 1** wskazują na bardziej regularny ich rozkład (np., dla regularnej siatki heksagonalnej wartość wskaźnika wynosi 2,15) --- # Statystyki najbliższego sąsiada - Wartość wskaźnika Clarka-Evansa (1954) dla poniższych danych wynosi 0,98 - Oznacza to, że te dane były próbkowane w schemacie (układzie) zbliżonym do losowego <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-36-1.png" style="display: block; margin: auto;" /> --- # Zmienność przestrzenna Wykorzystanie prostej automatycznej procedury interpolacji (takiej, która nie wymaga żadnej skomplikowanej parametryzacji) może dać ogólny pogląd na zmienność przestrzenną badanego zjawiska: .lc[ - Metoda diagramów Woronoja (ang. *Voronoi diagram*) - Metoda średniej ważonej odległością (ang. *Inverse Distance Weighted* - IDW) - Funkcje wielomianowe (ang. *Polynomials*) - Funkcje sklejane (ang. *Splines*) ] .rc[ <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-37-1.png" style="display: block; margin: auto;" /> ] --- # Zmienność przestrzenna <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-39-1.png" style="display: block; margin: auto;" /> <!-- --> <!-- narzędzia połączonych okien?? --> --- # Efekt proporcjonalności... <!-- Manchuk, J. G., O. Leuangthong, and C. V. Deutsch. "The proportional effect." Mathematical Geosciences 41.7 (2009): 799-816. --> *Efekt proporcjonalności średniej lokalnej do wariancji lokalnej* - Zmienne mogą wykazywać **efekt proporcjonalności**, gdy obszary o pewnych wartościach (np. wysokich/niskich) wykazują większą/mniejszą zmienność niż obszary o zupełnie innych wartościach (np. niskich/wysokich) - Inaczej mówiąc, występuje on, gdy lokalne średnie policzone dla fragmentów badanego obszaru wykazują związek (relację) z lokalnymi wariancjami (zmiennością) <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-40-1.png" style="display: block; margin: auto;" /> --- # Efekt proporcjonalności... <!-- read more about it!! --> *Efekt proporcjonalności średniej lokalnej do wariancji lokalnej* <img src="03-eksploracja_danych_files/figure-html/unnamed-chunk-41-1.png" style="display: block; margin: auto;" /> - Czerwona linia symbolizuje lokalną średnią, a punkty symbolizują indywidualne wartości cechy - Oś X to odległość w przestrzeni, a oś Y to wartość cechy <!-- idea: add maps with this idea --> --- # Efekt proporcjonalności... <!-- Manchuk, J. G., O. Leuangthong, and C. V. Deutsch. "The proportional effect." Mathematical Geosciences 41.7 (2009): 799-816. --> *Efekt proporcjonalności średniej lokalnej do wariancji lokalnej* - Zmienne mogą wykazywać **efekt proporcjonalności**, gdy obszary o pewnych wartościach (np. wysokich/niskich) wykazują większą/mniejszą zmienność niż obszary o zupełnie innych wartościach (np. niskich/wysokich) - Inaczej mówiąc, występuje on, gdy lokalne średnie policzone dla fragmentów badanego obszaru wykazują związek (relację) z lokalnymi wariancjami (zmiennością) - W przypadku przetwarzania danych wykazujących **efekt proporcjonalności** możemy otrzymać niepoprawne wyniki - Potencjalne rozwiązania problemu **efektu proporcjonalności** obejmują zastosowanie transformacji danych przed zastosowaniem krigingu lub też użycie krigingu danych kodowanych (Manchuk et al., 2009)