class: inverse, left, nonum, clear background-image: url("figs/Malvern.jpg") background-size: cover .titlestyle[Geostatystyka:] <br> .captionstyle[Analiza autokorelacji przestrzennej 1] <br><br><br><br><br><br> <br><br><br><br><br><br> .captionstyle[Jakub Nowosad, *nowosad@amu.edu.pl*] <!-- https://www.si.edu/object/malvern:nmnhmineralsciences_1041351 --> --- class: inverse, left, bottom # Postępowanie geostatystyczne --- # Postępowanie geostatystyczne <center>
</center> Ścieżka postępowania geostatystycznego <!-- https://bookdown.org/nowosad/Geostatystyka/wprowadzenie.html --> <!-- toDo!! --> <!-- each slide/idea - two versions: --> <!-- 1. images + examples (for lecture) --> <!-- 2. text (for learning) --> --- # Terminologia <!-- clean and simplify next few slides!!! --> **Cecha** - fizyczna właściwość (parametr) oznaczana kursywą małą literą np. `\(z\)` lub `\(s\)` - **Cechy ciągłe** takie jak np. stężenia, są oznaczane na skali ilościowej - **Cechy kategoryzowane** mogą przybierać określoną, limitowaną ilość wartości, zazwyczaj nie mających charakteru porządkowego np. typ skał czy kategoria użytkowania terenu <img src="figs/cecha.jpg" width="70%" style="display: block; margin: auto;" /> --- # Terminologia **Zmienna** - zbiór wartości lub stanów cechy `\(z\)` lub `\(s\)` oznaczany kursywą i duża literą np. `\(Z\)` lub `\(S\)` - Zmienne mogą występować na analizowanym obszarze lub w punkcie o wektorze współrzędnych `\(u\)` - W tym wypadku zmienna jest oznaczana `\(Z(u)\)` lub `\(S(u)\)` <img src="figs/cecha2.jpg" width="70%" style="display: block; margin: auto;" /> --- # Terminologia **Obiekt** - cecha jest określana (mierzona) na fizycznej próbce, jak na przykład okruch skały, czy rdzeń glebowy, itp. W przypadku analizy eksploracyjnej nieprzestrzennej (bez uwzględniania lokalizacji) o próbce mówimy obiekt. We wszystkich innych sytuacjach każda próbka jest związana ze ścisłą lokalizacją miejsca jej poboru, które określamy `\(u_\alpha\)` -- **Populacja** - zbiór wszystkich pomiarów interesującej nas cechy, które mogą być dokonane w obrębie obszaru badań -- **Próba** (lub podzbiór) - skończona ilość pomiarów, która dysponujemy <img src="figs/population.jpg" width="1065" style="display: block; margin: auto;" /> --- # Terminologia **Parametr** - stała wartość (nie losowa) charakteryzująca model, na przykład wariancja nuggetowa semiwariogramu, lub średnia rozkładu funkcji prawdopodobieństwa na podstawie której modelujemy teoretyczny histogram --- # Terminologia **Statystyka** - wielkość charakteryzująca rozkład, która może dotyczyć jednej lub większej ilości cech, i/lub jednej lub większej ilości lokalizacji w przestrzeni - Jednozmienna, dwuzmienna lub wielozmienna statystyka jest związana z charakterystyką jednej, dwóch lub wielu cech - Terminy statystyka jednopunktowa, dwupunktowa lub wielopunktowa są stosowane są stosowane kiedy odnosi się ona do tej samej cechy w jednej, dwóch lub wielu lokalizacjach - Na przykład, współczynnik korelacji jest statystyka dwuzmienną, podczas gdy semiwariogram – dwupunktową. - Krossemiwariogram jest statystyką dwuzmienną i dwupunktową, ponieważ uwzględnia dwie różne cechy zarejestrowane w dwóch odmiennych lokalizacjach <!-- parametr a statystyka --> --- # Zmienna zregionalizowana **Zmienna zregionalizowana** - zmienna rozłożona w przestrzeni, używana do opisu zjawisk zachodzących na pewnym obszarze (Matheron, 1965) -- **Zmienne zregionalizowane** mają właściwości pośrednie między **zmiennymi losowymi** i **zmiennymi deterministycznymi** .pull-left[ Z jednej strony charakteryzują się wzajemną korelacją związaną z przestrzennym rozkładem danego zjawiska, z drugiej zaś strony mogą być traktowane lokalnie, jako zmienne losowe - mające określony rozkład prawdopodobieństwa ] .pull-right[ <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-7-1.png" style="display: block; margin: auto;" /> ] *Przykłady:* zanieczyszczenie gleb określoną substancją na pewnym obszarze, jasność spektralna pikseli na zdjęciu satelitarnym, temperatura powietrza, wilgotność gleby, natężenie określonego procesu społecznego lub gospodarczego na badanym obszarze --- class: inverse, left, bottom # Miary relacji przestrzennych --- # Miary relacji przestrzennych Przestrzenna **kowariancja**, **korelacja** i **semiwariancja** to miary określające przestrzenną zmienność analizowanej cechy. - **Kowariancja** i **korelacja** to miary podobieństwa pomiędzy dwoma zmiennymi - Przenosząc to na aspekt przestrzenny, porównujemy wartości jednej i tej samej cechy (zmiennej), ale pomiędzy dwoma punktami odległymi od siebie o pewien dystans (określany jako *lag*, `\(h\)` ) - Przestrzenna **autokowariancja** i **autokorelacja** to miary podobieństwa pomiędzy jedną zmienną, ale w wielu lokalizacjach oddalonych o przedział odległości - **Semiwariancja** to miara niepodobieństwa --- # Miary zmienności jednej zmiennej Określają przeciętne zróżnicowanie poszczególnych wartości cechy od średniej arytmetycznej. .pull-left[ **Wariancja** jest średnią arytmetyczną kwadratów odchyleń poszczególnych obserwacji od średniej arytmetycznej zbiorowości `$$\sigma^2 = \frac{1}{N} \sum_{\alpha=1}^N (z(\alpha) - m)^2$$` , gdzie - `\(z(\alpha)\)` - wartość wybranej obserwacji - `\(m\)` - średnia arytmetyczna zbiorowości ] .pull-right[ **Odchylenie standardowe** jest pierwiastkiem kwadratowym z wariancji `$$s = \sqrt{\sigma^2}$$` ] --- # Miary zmienności dwóch zmiennych Określają zależność między dwoma zmiennymi. **Kowariancja** - jej wielkość uzależniona jest od przyjętej skali zmiennych `$$\sigma_{ij} = \frac{1}{N} \sum_{\alpha=1}^N (z_i(\alpha) - m_i) \cdot (z_j(\alpha) - m_j)$$` , gdzie: - `\(m_i\)` i `\(m_j\)` to średnie arytmetyczne zmiennych `\(i\)` i `\(j\)` **Korelacja** - jej wartość mieści się między -1 a 1 `$$\rho=\frac{\sigma_{ij}}{s_i \cdot s_j}$$` --- # Wykres rozrzutu Pozwala na obrazowanie relacji między dwoma zmiennymi. <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-9-1.png" style="display: block; margin: auto;" /> Korelacja: 0,14 --- # Wykres rozrzutu Pozwala na obrazowanie relacji między dwoma zmiennymi. <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-10-1.png" style="display: block; margin: auto;" /> Korelacja: 0,94 --- # Przedział odległości Powyższe miary odległości, zamiast badania relacji dwóch zmiennych, można wykorzystać do porównania wartości jednej zmiennej, ale w wielu parach lokalizacji oddalonych o przedział odległości inaczej nazywany "odstępem" lub "przesunięciem" ( `\(h\)` ). -- <img src="figs/arrow_plot.png" width="75%" style="display: block; margin: auto;" /> --- # Wykres rozrzutu z przesunięciem <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-13-1.png" style="display: block; margin: auto;" /> --- # Wykres rozrzutu z przesunięciem <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-14-1.png" style="display: block; margin: auto;" /> --- # Wykres rozrzutu z przesunięciem <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-15-1.png" style="display: block; margin: auto;" /> --- # Wykres rozrzutu z przesunięciem <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-16-1.png" style="display: block; margin: auto;" /> --- # Wykres rozrzutu z przesunięciem <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-17-1.png" style="display: block; margin: auto;" /> --- # Autokowariancja przestrzenna `$$C(h)=\frac{1}{N(h)}\sum_{\alpha=1}^{N(h)}z(u_\alpha) \cdot z(u_\alpha+h)-m_{-h} \cdot m_{+h}$$` , gdzie: .pull-left[ Średnia wartości podzbioru ogona (*tail values*): `$$m_{-h}=\frac{1}{N(h)}\sum_{\alpha=1}^{N(h)}z(u_\alpha)$$` ] .pull-right[ Średnia wartości podzbioru głowy (*head values*): `$$m_{+h}=\frac{1}{N(h)}\sum_{\alpha=1}^{N(h)}z(u_\alpha + h)$$` ] --- # Autokowariogram *Eksperymentalna funkcja autokowariancji* <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-18-1.png" style="display: block; margin: auto;" /> <!-- examples --> --- # Autokorelacja przestrzenna `$$\rho(h)=\frac{C(h)}{\sqrt{\sigma_{-h}^2 \cdot} \sigma_{+h}^2} \quad \quad \in[-1,+1]$$` <br> Wariancja podzbioru ogona (*tail values*): `$$\sigma_{-h}^2=\frac{1}{N(h)}\sum_{\alpha=1}^{N(h)}(z(u_\alpha) - m_{-h})^2$$` Wariancja podzbioru głowy (*head values*): `$$\sigma_{+h}^2=\frac{1}{N(h)}\sum_{\alpha=1}^{N(h)}(z(u_\alpha + h) - m_{+h})^2$$` <!-- ideas--> --- # Autokorelogram *Eksperymentalna funkcja autokorelacji* <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-19-1.png" style="display: block; margin: auto;" /> <!-- examples --> --- # Semiwariancja `$$\gamma(h) = \frac{1}{2}(z(u_{\alpha}) - z(u_{\alpha} + h))^2$$` **Semiwariancja** - połowa kwadratu różnicy pomiędzy wartościami badanej zmiennej (cechy) ( `\(z\)` ) w dwóch lokalizacjach odległych o wektor `\(h\)` <!-- equation(s)? --> <img src="figs/arrow_plot.png" width="75%" style="display: block; margin: auto;" /> --- # Semiwariancja - interpretacja geometryczna <!-- https://books.google.pl/books?id=CW-7tHAaVR0C&pg=PA29&lpg=PA29&dq=semivariance+bisector&source=bl&ots=zjxkBN4Lty&sig=ACfU3U3r2CpiOjlE7glagjOLYRK7_u1dMQ&hl=en&sa=X&ved=2ahUKEwjW5--QocPrAhVkxosKHWkcB6oQ6AEwDnoECAkQAQ#v=onepage&q=semivariance%20bisector&f=false --> <!-- ?? --> - **Semiwariancja (interpretacja geometryczna)** - moment bezwładności wokół pierwszego bisektora wykresu rozrzutu z przesunięciem <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-21-1.png" style="display: block; margin: auto;" /> - Inaczej mówiąc - wartość semiwariancji jest tym większa, im punkty na wykresie rozrzutu z przesunięciem są dalej od dwusiecznej (ang. *bisector*) (Goovaerts, 1997) --- # Chmura semiwariancji <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-22-1.png" style="display: block; margin: auto;" /> --- # Chmura semiwariancji <!-- text --> <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-23-1.png" style="display: block; margin: auto;" /> --- # Semiwariancja `$$\hat{\gamma}(h) = \frac{1}{2N(h)}\sum_{\alpha=1}^{N(h)}(z(u_{\alpha}) - z(u_{\alpha}+h))^2$$` , gdzie `\(N(h)\)` oznacza liczbę par punktów w odstępie `\(h\)`. <br> Semiwariogram jest wykresem pokazującym relację pomiędzy odległością a semiwariancją. Inaczej mówiąc, dla kolejnych odstępów wartość semiwariancji jest uśredniana i przedstawiana w odniesieniu do odległości. --- # Semiwariogram Semiwariogram empiryczny <!-- example --> <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-24-1.png" style="display: block; margin: auto;" /> *Przymiotnik "empiryczny" określa, że wartości semiwariancji są obliczone z danych pomiarowych (obserwacyjnych).* *Umożliwia to odróżnienie od semiwariogramu modelowego, gdzie wartości semiwariancji są obliczone z funkcji matematycznej (modelu).* --- # Przykłady semiwariogramów .pull-left[ <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-27-1.png" style="display: block; margin: auto;" /> ] .pull-right[ <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-28-1.png" style="display: block; margin: auto;" /> ] --- # Właściwości semiwariogramu `$$\hat{\gamma}(h) = \frac{1}{2N(h)}\sum_{\alpha=1}^{N(h)}(z(u_{\alpha}) - z(u_{\alpha}+h))^2$$` <img src="figs/variogram_text.png" width="800" style="display: block; margin: auto;" /> --- # Właściwości semiwariogramu <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-32-1.png" style="display: block; margin: auto;" /> <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-33-1.png" style="display: block; margin: auto;" /> <!-- slajdy 4/27!!! --> --- # Parametry semiwariogramu <!-- 6.3.6 --> Przy ustalaniu parametrów semiwariogramu powinno się stosować do kilku utartych zasad (tzw. *rules of thumb*): - W każdym odstępie powinno się znaleźć co najmniej 30 par punktów - Maksymalny zasięg semiwariogramu (ang. *cutoff distance*) to 1/2 pierwiastka z badanej powierzchni (inne źródła mówią o połowie z przekątnej badanego obszaru/jednej trzeciej) - Liczba odstępów powinna nie być mniejsza niż 10 - Optymalnie maksymalny zasięg semiwariogramu powinien być dłuższy co najmniej o 10-15% od zasięgu zjawiska (a precyzyjniej: zasięgu autokorelacji cechy) - Optymalnie odstępy powinny być jak najmniejsze, ale jednocześnie semiwariogram nie powinien być chaotyczy - Warto metodą prób i błędów określić optymalne parametry semiwariogramu - Należy określić, czy zjawisko wykazuje anizotropię przestrzenną --- # Właściwości semiwariancji <!-- slajdy 4/28 --> <!-- toFix! --> Tak jak inne statystyki typu wariancji, wartości kowariancji i semiwariancji są bardzo czułe na występowanie danych ekstremalnych – potencjalnie błędnych. Stosuje się trzy sposoby aby ten problem rozwiązać: - **Transformację matematyczną danych** (logarytmowanie, pierwiastkowanie, itp.), aby zredukować skośność ich histogramu - **Usuwanie par danych**, które zaburzają wartość semiwariancji dla określonych odstępów `\(h\)`<!-- Procedura ta zwana jest czyszczeniem wykresu rozrzutu z przesunięciem ("h-scattergram cleansing")--> - **Używanie modyfikacji semiwariancji**, które są mniej czułe na występowanie danych ekstremalnych <!-- czyszczenie slajdy 4/29 - 4/43 ??? (to bardziej cwiczenia!) --> --- # Transformacja matematyczna danych - Transformacja danych może mieć na celu ułatwienie porównywania różnych zmiennych, zniwelowanie skośności rozkładu lub też zmniejszenie wpływu danych odstających - W efekcie transformacja danych ułatwia przeprowadzenie analiz (geo-)statystycznych i polepsza wyniki prognoz z modeli - Przykładowo, możliwe jest stworzenie modelu i estymacji używając logarytmu badanej zmiennej, a następnie przywrócenie oryginalnej jednostki danych (antylogarytmowanie wyników) -- <br> *Metody:* - logarytmowanie - pierwiastkowanie - ... --- # Transformacja matematyczna danych <!-- https://gis.stackexchange.com/questions/237574/backtransformation-of-kriging-predictions-and-variances --> .lc[ *Przykład* - logarytmowanie `$$\hat{y} = ln(y)$$` ] .rc[ <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-34-1.png" style="display: block; margin: auto;" /> <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-35-1.png" style="display: block; margin: auto;" /> ] --- # Transformacja matematyczna danych .lc[ *Przykład* - logarytmowanie `$$\hat{y} = ln(y)$$` - Przykładowo, możliwe jest stworzenie modelu i estymacji używając logarytmu badanej zmiennej, a następnie przywrócenie oryginalnej jednostki danych ] .rc[ <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-36-1.png" style="display: block; margin: auto;" /> ] --- # Transformacja matematyczna danych <!-- https://link.springer.com/article/10.1007/s10596-007-9046-x --> *Przykład* - logarytmowanie - Przywrócenie wartości do oryginalnej jednostki (np. po estymacji) wymaga zastosowania odpowiedniej metody transformacji wstecznej (Yamamoto, 2007) `$$y = k_0 \cdot exp[ln(\hat{y}_{OK})+\frac{\sigma^2_{OK}}{2}]$$` , gdzie: - `\(k_0\)` - współczynnik korekcyjny (iloraz średniej oryginalnej i średniej po transformacji wstecznej) - `\(exp\)` - funkcja wykładnicza - `\(ln\)` - funkcja logarytmiczna - `\(\hat{y}_{OK}\)` - estymacja krigingu zwykłego - `\(\sigma^2_{OK}\)` - wariacja krigingu zwykłego --- # Transformacja matematyczna danych <!-- https://link.springer.com/article/10.1007/s10596-007-9046-x --> *Przykład* - logarytmowanie <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-37-1.png" style="display: block; margin: auto;" /> --- # Usuwanie par danych... - Usuwanie par danych, które zaburzają wartość semiwariancji dla określonych odstępów `\(h\)` <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-38-1.png" style="display: block; margin: auto;" /> --- # Usuwanie par danych... - Usuwanie par danych, które zaburzają wartość semiwariancji dla określonych odstępów `\(h\)` <img src="04-analiza_autokorelacji_przestrzennej1_files/figure-html/unnamed-chunk-40-1.png" style="display: block; margin: auto;" /> --- # Modyfikacja semiwariancji Semiwariancja do potęgi `\(w\)`. `$$\gamma(h) = \frac{1}{2N(h)}\sum_{\alpha=1}^{N(h)}(z(u_{\alpha}) - z(u_{\alpha}+h))^w$$` Dla `\(w \in [0,2]\)`: - `\(w = 2\)` - semiwariogram - `\(w = 1\)` - madogram - `\(w = 0.5\)` - rodogram *Estymatory oparte na tych niższych wartościach potęgi `\(w\)` są często bardziej odporne na wartości odstające.* Istnieje również estymator wariogramu Cressiego-Hawkinsa (1980). <!-- toDo - try viz it! -->