class: center, middle, inverse, title-slide .title[ # Statystyka i wizualizacja danych ] .subtitle[ ## Rozkłady danych ] .author[ ### Jakub Nowosad
nowosad@amu.edu.pl
] --- ## Rozkłady danych - teoretyczne - rozkład wartości oparty o pewne założenia - empiryczne - rozkład wartości oparty o zaobserwowane dane <!-- --><!-- --> --- class: inverse, middle, center # Zmienne losowe (ang. *random variables*) --- ## Zmienne losowe (ang. *random variables*) - Zmienna losowa to wartość liczbowa, której wynik zależy od losu - Można powiedzieć, że prawdopodobieństwo uzyskania danej wartości zależy od gęstości prawdopodobieństwa danej zmiennej - `\(p(x)\)` (lub `\(f(x)\)`) --- ## Zmienne losowe (ang. *random variables*) - Zmienne dyskretne - Zmienne dyskretne przyjmują konkretną wartość liczbową (zliczenie) - Przykładem zmiennych dyskretnych jest rzut monetą albo rzut kostką - Zmienne ciągłe - Zmienne ciągłe mówią o dokładnej wartości - Przykładem zmiennych ciągłych jest wzrost, temperatura --- ## Rozkłady zmiennych losowych - Dyskretny (zmienna losowa przyjmuje skończenie wiele wartości) - Ciągły - Ani dyskretny ani ciągły --- ## Rozkłady dyskretne - Bernoulliego - Dwumianowy - Poissona - Geometryczny - Hipergeometryczny --- ## Rozkłady ciągłe - Normalny - T-Studenta - Chi-kwadrat - Fishera --- class: inverse, middle, center # Rozkłady danych w R --- ## Rozkłady danych w R https://github.com/bearloga/tinydensR ```r ?Distributions ``` Dla każdego rozkładu danych dostępnego w R istnieją cztery funkcje, rozpoczynające się od kolejnych liter: - **d** - zwraca wartość funkcji gęstości rozkładu (pdf - probability density function) - **p** - zwraca wartości dystrybuanty - **q** - podaje jaki kwantyl znajduje się po lewej stronie wykresu gęstości - **r** - zwraca losowo wygenerowane wartości z danego rozkładu --- class: inverse, middle, center # Rozkłady danych --- ## Rozkład zero-jedynkowy (Bernoulliego) ```r rbinom(n = 100, size = 1, prob = 0.5) ``` ``` ## [1] 1 0 0 1 0 1 1 0 1 1 1 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 1 0 0 1 1 1 1 0 0 0 ## [38] 1 1 0 0 1 0 0 1 1 1 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 1 1 1 1 1 1 0 1 0 1 0 ## [75] 0 0 0 0 0 1 1 1 1 0 1 1 1 1 0 0 0 0 1 1 0 0 0 1 0 1 ``` --- ## Rozkład zero-jedynkowy (Bernoulliego) <!-- --> --- ## Rozkład dwumianowy Opisuje liczbę sukcesów w ciągu `\(N\)` (size) niezależnych prób, z których każda ma stałe prawdopodobieństwo sukcesu równe `\(p\)` (prob). ```r rbinom(n = 1, size = 25, prob = 0.5) ``` ``` ## [1] 15 ``` ```r dbinom(14, 25, 0.5) ``` ``` ## [1] 0.1328409 ``` --- ## Rozkład dwumianowy Opisuje liczbę sukcesów w ciągu `\(N\)` (size) niezależnych prób, z których każda ma stałe prawdopodobieństwo sukcesu równe `\(p\)` (prob). ```r pbinom(16, 25, 0.5) ``` ``` ## [1] 0.9461239 ``` ```r qbinom(0.94, 25, 0.5) ``` ``` ## [1] 16 ``` --- ## Rozkład dwumianowy <!-- --> --- ## Rozkład Poissona Opisuje prawdopodobieństwo zdarzeń następujących po sobie z daną częstotliwością `\(\lambda\)` ```r rpois(1:100, lambda = 8) ``` ``` ## [1] 6 7 6 8 8 7 4 4 7 14 9 6 5 5 8 6 5 11 11 11 8 8 5 6 13 ## [26] 8 6 10 17 9 5 6 8 5 14 8 8 8 8 13 10 5 11 10 6 9 7 8 10 6 ## [51] 6 10 6 9 10 9 15 10 14 8 10 7 10 11 5 8 7 8 12 7 7 3 7 6 9 ## [76] 10 12 6 8 7 3 5 7 6 12 9 10 10 7 11 12 11 7 5 8 8 7 7 1 11 ``` --- ## Rozkład Poissona <!-- --> --- ## Rozkład jednostajny (*ang. uniform*) Jest to rozkład prawdopodobieństwa, który ma taką samą gęstość prawdopodobieństwa dla wartości w przedziale od `\(a\)` do `\(b\)` (min do max). Istnieje rozkład jednostajny ciągły oraz rozkład jednostajny dyskretny. ```r runif(n = 10, min = 25, max = 50) ``` ``` ## [1] 42.31413 47.93613 37.61649 40.89372 48.45912 38.93384 47.09748 29.69167 ## [9] 40.09113 47.62414 ``` ```r ceiling(runif(10, min = 25, max = 50)) ``` ``` ## [1] 47 36 39 46 43 41 45 41 43 46 ``` --- ## Rozkład jednostajny (*ang. uniform*) <!-- --> --- ## Rozkład normalny Zwany inaczej rozkładem Gaussa. Opisuje on sytuacje, gdy większość przypadków ma wartość zbliżoną do średniej, a im wartość jest dalsza od średniej tym jest ich coraz mniej. ```r rnorm(n = 10, mean = 0, sd = 1) ``` ``` ## [1] 0.97802804 0.75031442 0.09247843 0.56717724 0.17231502 -0.56234175 ## [7] -1.50574092 -1.59742898 -0.13469353 0.89459130 ``` --- ## Rozkład normalny <!-- --> --- ## Rozkład normalny <img src="fig/sd.png" width="100%" /> --- ## Test Shapiro-Wilka - Służy do testowania podobieństwa rozkładu danej zmiennej do rozkładu normalnego (sprawdzamy czy interesujące nas zmienne mają rozkłady zbliżone do rozkładu normalnego) - Test Shapiro-Wilka testuje hipotezę zerową o tym, że rozkład naszej zmiennej jest zbliżony do normalnego (istotny wynik testu Shapiro-Wilka świadczy o tym, że rozkład zmiennej obserwowanej nie jest podobny do rozkładu normalnego) - Testowanie normalności rozkładu jest wymagane przy użyciu testów parametrycznych, np: testy t-Studenta, analiza wariancji, etc. - Funkcja *shapiro.test()* w R - Alternatywą do testowania normalności rozkładu jest test Kołmogorowa-Smirnowa --- ## Rozkład t-Studenta - Rozkład t-Studenta - to rodzina ciągłych rozkładów prawdopodobieństwa służąca do estymacji średniej z populacji o rozkładzie normalnych w sytuacji, gdy wielkość próby jest niewielka a odchylenie standardowe populacji jest nieznane - Postać rozkładu t-Studenta zależy od parametru `\(\nu\)` – liczby stopni swobody (ang. degrees of freedom) - Rozkład t-Studenta jest symetryczny, dzwonowaty podobnie jak rozkład normalny, ale posiada więcej wartości dalej od średniej ```r rt(10, df = 1) ``` ``` ## [1] 224.41035597 0.58721712 0.42440750 4.17324402 0.14836978 ## [6] -0.86131565 2.58674242 1.74615529 0.07772357 -0.24611040 ``` --- ## Rozkład t-Studenta <!-- --> <!-- - http://shiny.snap.uaf.edu/RV_distributionsV4/ --> --- class: inverse, middle, center # Przykłady --- ## Rozkład dwumianowy Egzamin ze statystyki składa się z 20 pytań. Na każde z pytań jest pięć dostępnych odpowiedzi, z czego tylko jedna prawdziwa. Do zaliczenia egzaminu trzeba odpowiedzieć poprawnie na 11 pytań. Jakie jest prawdopodobieństwo zdania egzaminu, jeżeli będzie się odpowiadało losowo na każde z pytań? ```r prob1 = pbinom(11, size = 20, prob = 0.2) 1 - prob1 ``` ``` ## [1] 0.0001017288 ``` --- ## Rozkład Poissona Przejazd kolejowy jest zamykany średnio cztery razy na godzinę. Jakie jest prawdopodobieństwo, że w kolejnej godzinie przejazd zostanie zamknięty tylko dwa razy lub mniej? Jaka jest szansa, że w kolejnej godzinie przejazd zostanie zamknięty osiem razy? ```r prob_p1 = ppois(2, lambda = 4) prob_p1 ``` ``` ## [1] 0.2381033 ``` ```r prob_p2 = dpois(8, lambda = 4) prob_p2 ``` ``` ## [1] 0.02977018 ``` --- ## Rozkład jednostajny Wylosuj dziesięć wartości z zakresu od 0 do 20. ```r prob_j1 = runif(10, min = 0, max = 20) prob_j1 ``` ``` ## [1] 5.489159 1.396796 13.313706 4.768690 7.499951 17.152427 3.217424 ## [8] 10.431336 10.251862 9.070847 ``` ```r prob_j2 = ceiling(runif(10, min = 0, max = 20)) prob_j2 ``` ``` ## [1] 16 15 5 6 4 1 5 2 5 20 ``` --- ## Rozkład normalny Przyjmimy, że wzrost kobiet na świecie można opisać rozkładem normalnym o średniej równej 165 cm i odchyleniu standardowemu równego 9 cm. Jaki jest procent kobiet o wzroście powyżej 190 cm? ```r pnorm(190, mean = 165, sd = 9, lower.tail = FALSE) ``` ``` ## [1] 0.002736602 ``` --- class: inverse, middle, center # Rozkłady empiryczne --- ## Rozkłady empiryczne https://stats.stackexchange.com/questions/132652/how-to-determine-which-distribution-fits-my-data-best --- ## Rozkłady danych - Unimodalny, symetryczny, dzwonowaty, bez wartości odstających <img src="06_rozklady_files/figure-html/unnamed-chunk-27-1.png" style="display: block; margin: auto;" /> --- ## Rozkłady danych - Unimodalny, symetryczny, rozległy (z rozbudowanymi ogonami) <img src="06_rozklady_files/figure-html/unnamed-chunk-28-1.png" style="display: block; margin: auto;" /> --- ## Rozkłady danych - Symetryczny, z krótkimi ogonami <img src="06_rozklady_files/figure-html/unnamed-chunk-29-1.png" style="display: block; margin: auto;" /> --- ## Rozkłady danych - Unimodalny, prawoskośny <img src="06_rozklady_files/figure-html/unnamed-chunk-30-1.png" style="display: block; margin: auto;" /> --- ## Rozkłady danych - Unimodalny, lewoskośny <img src="06_rozklady_files/figure-html/unnamed-chunk-31-1.png" style="display: block; margin: auto;" /> --- ## Rozkłady danych - Bimodalny <img src="06_rozklady_files/figure-html/unnamed-chunk-32-1.png" style="display: block; margin: auto;" /> <!-- ## Rozkłady danych --> <!-- http://shiny.stat.calpoly.edu/Sampling_Distribution/ --> --- ## Rozkłady danych <img src="06_rozklady_files/figure-html/unnamed-chunk-33-1.png" style="display: block; margin: auto;" /> http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2465539/ --- class: inverse, middle, center # Zadania --- ## Zadania 1. Egzamin ze statystyki składa się z 20 pytań. Na każde z pytań są dwie dostępne odpowiedzi, z czego tylko jedna prawdziwa. Do zaliczenia egzaminu trzeba odpowiedzieć poprawnie na 11 pytań. Jakie jest prawdopodobieństwo zdania egzaminu, jeżeli będzie się odpowiadało losowo na każde z pytań? 2. Z lotniska w Poznaniu odlatuje średnio pięć samolotów na godzinę. Jaka jest szansa, że w kolejnej godzinie odleci więcej niż pięć samolotów? A jaka jest szansa, że nie odleci żaden samolot? 3. Średnia roczna temperatura powietrza na zbiorze pewnych stacji ma rozkład normalny o średniej 9 stopni Celsjusza i odchyleniu standardowym 0.8 stopnia Celsjusza. Jakie jest prawdopodobieństwo, że losowo wybrana stacja ma średnią roczną temperaturę powyżej 10 stopni Cejsjusza? 4. Jaki procent stacji ma średnią roczną temperaturę pomiędzy 8 a 10 stopni Celsjusza? 5. Jaka jest średnia roczna temperatura powyżej której znajduje się 75% stacji? 6. Wczytaj dane `data/pomiary_pol.csv`. Jak można opisać rozkład zmiennej `annual_tavg`? 7. Jak można opisać rozkład zmiennej `annual_precip`? 8. Jakie mogą być konsekwencje różnic w rozkładach zmiennych `annual_tavg` i `annual_precip` do celów analizy danych?