class: inverse, left, nonum, clear background-image: url("figs/multiplying-machine.jpg") background-size: cover .titlestyle[Statystyka:] <br> .captionstyle[Statystyki] <br> .captionstyle[opisowe] <br><br><br><br><br><br> <br><br><br><br><br><br> .captionstyle[Jakub Nowosad, *nowosad@amu.edu.pl*] <!-- https://www.si.edu/object/mathematical-table-j-d-smith-machine-multiplying-numbers:nmah_690828 --> <!-- https://www.si.edu/object/holman-adding-machine:nmah_690853 --> --- class: inverse, left, bottom # Parametry statystyczne <!-- maybe start with data examples?? --> --- # Parametry statystyczne Parametry statystyczne to wielkości liczbowe służące do syntetycznego opisu struktury zbiorowości statystycznej. Stosowane parametry dzieli się na: - **miary położenia** - **miary zmienności** (miary rozproszenia, dyspersji) - **miary asymetrii i miary koncentracji** --- class: inverse, left, bottom # Miary położenia --- # Miary położenia - **Miary położenia** opisują umiejscowienie typowych wartości cechy statystycznej na osi liczbowej <!-- s4/6 --> <!-- revise based on slides content -->
--- # Miary położenia <!-- improve this summary --> .lc[ - **Miary klasyczne** to miary, których wartość jest wyznaczona w oparciu o wszystkie obserwacje - **Miary pozycyjne** to miary, na których wartość wpływają tylko wybrane obserwacje z próby uporządkowanej ] .rc[
] --- # Miary położenia <!-- trzy srednie - improve --> - Poszczególne rodzaje średnich są obliczane na podstawie wszystkich wartości przyjmowanych przez cechę w badanej zbiorowości<!--rewrite--> - Dla każdego konkretnego przypadku powinno się obliczać tylko jedną średnią, bo tylko jedna z nich jest odpowiednia dla danej cechy statystycznej, a pozostałe nie mają sensu
--- # Miary położenia .lc[ <!-- add missing elements --> - **Wartość modalna**, jest tym wariantem cechy statystycznej, który był najczęściej obserwowany - **Kwantyle** to takie warianty cechy statystycznej, które dzielą badaną zbiorowość na części w określonych proporcjach, np. na połowy (mediana) ] .rc[
] --- # Miary położenia - Wśród miar położenia można wyróżnić **miary przeciętne** lub inaczej miary tendencji centralnej wskazujące średni lub typowy poziom cechy, które mówią o przeciętnym poziomie badanej cechy (średnie, modalna, mediana)
--- # Średnia arytmetyczna Oczekiwana dalsza długość życia dla kolejnych krajów: 43,8, 76,4, 72,3, 42,7, 75,3, 81,2, 79,8, 75,6, 64,1, 79,4, 56,7, 65,6, 74,9, 50,7, 72,4, 73,0, 52,3, 49,6, 59,7, 50,4... -- <img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-7-1.png" style="display: block; margin: auto;" /> -- Średnia arytmetyczna: 67 --- # Średnia arytmetyczna Oczekiwana dalsza długość życia dla kolejnych krajów: 43,8, 76,4, 72,3, 42,7, 75,3, 81,2, 79,8, 75,6, 64,1, 79,4, 56,7, 65,6, 74,9, 50,7, 72,4, 73,0, 52,3, 49,6, 59,7, 50,4... -- $$ \bar{x}=\frac{1}{n}\sum_{i=1}^n x_i=\frac{x_1+x_2+\ldots+x_n}{n} $$ -- Średnia arytmetyczna: 67 --- # Średnia arytmetyczna - Najczęściej wykorzystywana miara położenia $$ \bar{x}=\frac{1}{n}\sum_{i=1}^n x_i=\frac{x_1+x_2+\ldots+x_n}{n} $$ -- - Jej wadą jest wrażliwość na **wartości odstające** (ang. *outliers*) - **Wartości odstające** to pomiary, których wartość zdecydowanie odbiega od większości pozostałych - Mogą (ale nie muszą) być one wynikiem błędów --- # Średnia arytmetyczna **Przykład:** - Stacja A - 12, 15, 15, 18, 16, 21 -- `$$\bar{x}_A = \frac{12+15+15+18+16+21}{6} = \frac{97}{6} = 16\frac{1}{6}$$` -- - Stacja B - 11, 14, 14, 14, 13, 32 -- `$$\bar{x}_B = \frac{11+14+14+14+13+32}{6} = \frac{98}{6} = 16\frac{2}{6}$$` <!-- two examples: --> <!-- - one normal data --> <!-- - one with outliers --> --- # Średnia harmoniczna Gęstość zaludnienia (liczba osób na km<sup>2</sup>): 48,76, 121,13, 14,33, 9,92, 14,44, 2,65, 96,43, 1120,23, 345,41, 68,61, 8,36, 89,93, 2,75, 22,20, 66,41, 52,43, 317,53, 77,07, 38,19... -- Średnia harmoniczna: 19,7 --- # Średnia harmoniczna - Stosowana, gdy wartości cechy statystycznej podawane są w przeliczeniu na stałą jednostkę innej zmiennej, np. prędkość w km/h, gęstość zaludnienia w osobach/km<sup>2</sup>, spożycie w kg/osobę, itp. <!-- częstotliwość --> - Nie możliwa do wyliczenia na danych zawierających wartości ujemne lub zero `$$\bar{x}_H = \frac{n}{\sum\limits_{i=1}^n \frac1{x_i}} = \frac{n}{\frac1{x_1} + \frac1{x_2} + \cdots + \frac1{x_n}}$$` <!-- plot example? --> --- # Średnia harmoniczna **Przykład:** - Woda w rzece na pierwszym odcinku przepływa 100 kilometrów z prędkością 6 km/h, a na drugim odcinku 100 kilometrów z prędkością 3,2 km/h. Jaka jest średnia prędkość wody w tej rzece? Średnia arytmetyczna: 4,6 - **błędny wynik** Średnia harmoniczna: 4,17 -- *Sprawdzenie:* przepłynięcie pierwszych 100 kilometrów z prędkością 6 km/h zabiera 16,667 godzin, a przepłynięcie drugich 100 kilometrów z prędkością 3,2 km/h zabiera 31,25 godzin. W sumie jest to 47,917 godzin, co oznacza 200km/47,917 godzin, czyli 4,17 km/h. -- *W przypadku, gdyby odcinki miały różną długość należałoby użyć ważonej średniej harmonicznej* --- # Średnia geometryczna - Stosowana jest przy badaniu średniego tempa zmian zjawisk, tzn. w sytuacji, gdy zjawiska są ujmowane w sposób dynamiczny - Często odpowiednie dla wartości procentowych czy ułamkowych - Nie możliwa do wyliczenia na danych zawierających wartości ujemne lub zero `$$\bar{x}_G = \sqrt[n]{\prod_{i=1}^n x_i} = \sqrt[n]{x_1 \cdot x_2 \cdot \ldots \cdot x_n}$$` --- # Średnia geometryczna Oczekiwana długość życia w Polsce (lata 1997, 2002, 2007): 72,750, 74,670, 75,563 - Zmiana pomiędzy 1997 a 2002: $$x_1 = \frac{74.67}{72.75} = 1.026392 $$ - Zmiana pomiędzy 2002 a 2007: $$x_1 = \frac{75.563}{74.67} = 1.011959 $$ - Średni przyrost (średnia geometryczna): `$$\bar{x}_G = \sqrt{1.026392 * 1,011959} = 1.01915$$` --- # Średnia geometryczna Gdyby w tym przykładzie zastosować średnią arytmetyczną uzyskalibyśmy wynik: `$$\frac{(1.026392 + 1.011959)}{2} = 1.019176$$` Wynikałoby z tego (błędnie), że w roku 2007 oczekiwana długość życia w Polsce powinna wynosić: `$$72.75 * 1.019176 * 1.019176 = 75.56686$$` W rzeczywistości ta wartość wynosiła: `$$72.75 * 1.01915 * 1.01915 = 75.563$$` <!-- simple example --> <!-- https://en.wikipedia.org/wiki/Inequality_of_arithmetic_and_geometric_means --> <!-- example --> --- # Średnia ważona - Wartości, którym przypisano wyższe wagi ( `\(w\)` ) mają większy udział w określeniu średniej ważonej niż dane, którym przypisano niższe wagi $$ \bar{x}_w = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n} $$ - Jeśli wszystkie wagi są równe, to wówczas średnia ważona jest równa średniej arytmetycznej - Wagi powinny być liczbami nieujemnymi - Można obliczać także inne średnie ważone, jak średnia ważona geometryczna i średnia ważona harmoniczna --- # Średnia ważona - Oczekiwana długość życia dla krajów Oceanii (2 kraje) : 81,2, 80,2 - Oczekiwana długość życia dla krajów w Afryce (52 krajów) : 72,3, 42,7, 56,7, 50,7, 52,3, 49,6, 50,4, 44,7, 50,7, 65,2, 46,5, 55,3, 48,3, 54,8, 71,3, 51,6, 58,0, 52,9, 56,7, 59,4, 60,0, 56,0, 46,4, 54,1, 42,6, 45,7, 74,0, 59,4, 48,3, 54,5, 64,2, 72,8, 71,2, 42,1, 52,9, 56,9, 46,9, 76,4, 46,2, 65,5, 63,1, 42,6, 48,2, 49,3, 58,6, 39,6, 52,5, 58,4, 73,9, 51,5, 42,4, 43,5 -- <br> - *Średnia arytmetyczna Oceanii:* 80,7 - *Średnia arytmetyczna Afryki:* 54,8 -- <br> Gdybyśmy na podstawie powyższych średnich wyliczyli średnią arytmetyczną otrzymalibyśmy (błędnie) wynik: 80,7 + 54,8 / 2 = 67,8 <!-- # Średnia ważona przestrzenna lub czasowa ???? --> --- # Średnia ważona - Oczekiwana długość życia dla krajów Oceanii (2 kraje) : 81, 80 - Oczekiwana długość życia dla krajów w Afryce (52 krajów) : 72, 43, 57, 51, 52, 50, 50, 45, 51, 65, 46, 55, 48, 55, 71, 52, 58, 53, 57, 59, 60, 56, 46, 54, 43, 46, 74, 59, 48, 54, 64, 73, 71, 42, 53, 57, 47, 76, 46, 66, 63, 43, 48, 49, 59, 40, 53, 58, 74, 52, 42, 43 -- <br> - *Średnia arytmetyczna Oceanii:* 80,7 - *Średnia arytmetyczna Afryki:* 54,8 -- <br> Zamiast tego powinniśmy użyć średniej ważonej: `$$\bar{x} = \frac{2 * 80.7 + 52 * 54.8}{2 + 52} = 55.75926$$` *Jeszcze dokładniejszy wynik można byłoby uzyskać używając populacji jako wagi* --- # Moda - **Wartość modalna**, określana także jako **dominanta**, **moda** lub **wartość najczęstsza** - Wartość cechy statystycznej, która w danym rozkładzie empirycznym występuje najczęściej - Inaczej mówiąc jest to maksimum funkcji rozkładu empirycznego cechy statystycznej <!-- plot --> --- # Moda (Zaokrąglona) oczekiwana dalsza długość życia dla kolejnych krajów: 44, 76, 72, 43, 75, 81, 80, 76, 64, 79, 57, 66, 75, 51, 72, 73, 52, 50, 60, 50... <img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-14-1.png" style="display: block; margin: auto;" /> -- *Moda*: 72, 73, 76, 79 --- # Kwantyle <img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-15-1.png" style="display: block; margin: auto;" /> - **Kwantyle** - wartości cechy badanej populacji, przedstawionej w postaci szeregu statystycznego, które dzielą zbiorowość na określone części pod względem liczby jednostek - Części te pozostają do siebie w określonych proporcjach --- # Kwantyle <img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-16-1.png" style="display: block; margin: auto;" /> - **Kwartyl pierwszy (Q1)** - 25% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu, a 75% równe bądź wyższe - **Mediana (Me, kwartyl drugi)** - połowa jednostek ma wartości cechy mniejsze bądź równe medianie, a połowa wartości cechy równe lub większe od Me - **Kwartyl trzeci (Q3)** - 75% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi trzeciemu, a 25% równe bądź wyższe --- # Mediana Oczekiwana dalsza długość życia dla kolejnych krajów: 43,8, 76,4, 72,3, 42,7, 75,3, 81,2, 79,8, 75,6, 64,1, 79,4, 56,7, 65,6, 74,9, 50,7, 72,4, 73,0, 52,3, 49,6, 59,7, 50,4... <img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-17-1.png" style="display: block; margin: auto;" /> -- *Mediana:* 71,9 --- # Mediana Oczekiwana dalsza długość życia dla kolejnych krajów: 43,8, 76,4, 72,3, 42,7, 75,3, 81,2, 79,8, 75,6, 64,1, 79,4, 56,7, 65,6, 74,9, 50,7, 72,4, 73,0, 52,3, 49,6, 59,7, 50,4... <!-- check equation --> `$$Me = \frac{1}{2} (x_{\lfloor n/2\rfloor} + x_{\lceil (n+1)/2\rceil})$$` - Wartość środkowa - Połowa wartości danych jest niższa, połowa jest wyższa -- *Mediana:* 71,9 --- # Mediana **Przykład:** - Stacja A - 12, 15, 15, 18, 16, 21 -- - Stacja A - 12, 15, 15, 16, 18, 21 -- - Mediana: 15,5 -- <br> - Stacja B - 11, 14, 14, 14, 13, 32 -- - Stacja B - 11, 13, 14, 14, 14, 32 -- - Mediana: 14 <!-- --- --> <!-- # Kwartyle --> <!-- simple example --> --- # Centyle - Wskazują jaki procent jednostek w próbie uzyskał wynik mniejszy od danego - Centyl 50 odpowiada medianie, a centyle 25 i 75 to odpowiednio pierwszy i trzeci kwartyl <img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-18-1.png" style="display: block; margin: auto;" /> --- # Centyle .pull-left[ <img src="figs/siatkam.jpg" width="800" style="display: block; margin: auto;" /> ] .pull-right[ <img src="figs/siatkaf.jpg" width="800" style="display: block; margin: auto;" /> ] https://www.who.int/childgrowth/standards/en/ --- # Możliwości stostowania miar położenia <br> |Skala |Moda |Mediana |Średnia | |:-----------|:----|:-------|:-------| |Nominalna |X | | | |Porządkowa |X |X | | |Interwałowa |X |X |X | |Ilorazowa |X? |X |X | *Na przykład, obliczanie średniej arytmetycznej z ocen (skala porządkowa) jest statystycznie niepoprawne.* --- # Relacja między średnią, medianą a modą .pull-left[ - Geometryczna wizualizacja mody, mediany i średniej ] .pull-right[ <img src="figs/mode_median_mean.png" width="70%" style="display: block; margin: auto;" /> ] *Źródło: https://en.wikipedia.org/wiki/Median#/media/File:Visualisation_mode_median_mean.svg* --- # Relacja między średnią, medianą a modą <!-- https://en.wikipedia.org/wiki/Median#/media/File:Visualisation_mode_median_mean.svg --> <img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-27-1.png" style="display: block; margin: auto;" /> --- class: inverse, left, bottom # Miary zmienności --- # Miary zmienności .lc[ - **Miary zmienności (rozproszenia, dyspersji)** opisują rozrzut wartości cechy statystycznej w populacji wokół wartości przeciętnej - Charakteryzują one stopień zróżnicowania jednostek zbiorowości pod względem badanej cechy ] <!-- revise later --> .rc[
] --- # Miary zmienności .lc[ - **Miary klasyczne** to miary, których wartość jest wyznaczona w oparciu o wszystkie obserwacje - **Miary pozycyjne** to miary, na których wartość wpływają tylko wybrane obserwacje z próby uporządkowanej ] .rc[
] --- # Wariancja Oczekiwana dalsza długość życia dla kolejnych krajów w roku 2007: 43,8, 76,4, 72,3, 42,7, 75,3, 81,2, 79,8, 75,6, 64,1, 79,4, 56,7, 65,6, 74,9, 50,7, 72,4, 73,0, 52,3, 49,6, 59,7, 50,4... -- <img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-30-1.png" style="display: block; margin: auto;" /> -- *Wariancja:* 146 --- # Wariancja Oczekiwana dalsza długość życia dla kolejnych krajów w roku 1982: 39,9, 70,4, 61,4, 39,9, 69,9, 74,7, 73,2, 69,1, 50,0, 73,9, 50,9, 53,9, 70,7, 61,5, 63,3, 71,1, 48,1, 47,5, 51,0, 53,0... -- <img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-31-1.png" style="display: block; margin: auto;" /> -- *Wariancja:* 61,5 --- # Wariancja <!-- one slide before with gapminder example? --> - **Wariancja** jest średnią arytmetyczną kwadratów odchyleń poszczególnych obserwacji od średniej arytmetycznej zbiorowości `$$\sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \bar{x})^2 = \frac{(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \ldots + (x_n - \bar{x})^2}{n}$$` - Ważną cechą wariancji jest to, że nie jest wyrażona w jednostkach cechy, ale w jednostkach podniesionych do kwadratu, np. wariancja dla wzrostu może mieć jednostkę cm<sup>2</sup> - Wariancja i odchylenie standardowe to wśród statystyk opisowych wyjątki - inne obliczenia wykonuje się w zależności od tego czy dysponujemy danymi z całej populacji, czy też tylko z próby - Powyższy wzór wylicza wariancję z populacji. W przypadku, gdy posiadamy tylko wartości próby należy użyć `\(n - 1\)` zamiast `\(n\)` - Wszystkie inne statystyki opisowe liczy się tak samo niezależnie czy dysponujemy danymi z całej populacji, czy też tylko z próby --- # Odchylenie standardowe - **Odchylenie standardowe** jest pierwiastkiem kwadratowym z wariancji `$$s = \sqrt{\sigma^2}$$` - Pozwala to na uzyskanie miary zmienności o jednostce zgodnej z mianem badanej cechy statystycznej `$$s = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \bar{x})^2} = \sqrt{\frac{(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \ldots + (x_n - \bar{x})^2}{n}}$$` - Odchylenie standardowe określa przeciętne zróżnicowanie poszczególnych wartości cechy w stosunku do średniej arytmetycznej --- # Odchylenie standardowe Oczekiwana dalsza długość życia dla kolejnych krajów w roku 2007: 43,8, 76,4, 72,3, 42,7, 75,3, 81,2, 79,8, 75,6, 64,1, 79,4, 56,7, 65,6, 74,9, 50,7, 72,4, 73,0, 52,3, 49,6, 59,7, 50,4... -- <img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-32-1.png" style="display: block; margin: auto;" /> -- *Odchylenie standardowe:* 12,1 (lat) --- # Odchylenie standardowe Oczekiwana dalsza długość życia dla kolejnych krajów w roku 1982: 39,9, 70,4, 61,4, 39,9, 69,9, 74,7, 73,2, 69,1, 50,0, 73,9, 50,9, 53,9, 70,7, 61,5, 63,3, 71,1, 48,1, 47,5, 51,0, 53,0... -- <img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-33-1.png" style="display: block; margin: auto;" /> -- *Odchylenie standardowe:* 10,8 (lat) --- # Odchylenie standardowe <img src="figs/sd-plot.png" width="100%" style="display: block; margin: auto;" /> - Powyższa relacja dotyczy tylko zmiennych o rozkładzie normalnym! <!-- --- --> <!-- # Reguła Czebyszewa --> <!-- slide title ?? --> <!-- `$$F = 1 - \frac{1}{k^2}$$` --> <!--???--> <!-- s37 --> <!-- --- --> <!-- # Wariancja i odchylenie standardowe z próby --> <!-- ?? --> <!-- ?? --> <!-- , gdy `\(k > 1\)` --> --- # Odchylenie przeciętne - To średnia arytmetyczna bezwzględnych odchyleń wartości cechy od jej średniej arytmetycznej - Jego interpretacja jest podobna do odchylenia standardowego - Odchylenie przeciętne jest zawsze mniejsze od odchylenia standardowego, policzonych dla tego samego szeregu `$$d = \frac{\sum_{i=1}^{n}|x_i - \bar{x}|}{n} = \frac{|x_1-\bar{x}|+...+|x_n-\bar{x}|}{n}$$` gdzie: - `\(x_i\)` - wartość `\(i\)`-tego elementu zbioru danych * `\(\bar{x}\)` - średnia arytmetyczna * `\(n\)` – liczebność zbioru danych <!-- should we even teach this?? --> --- # Odchylenie przeciętne Oczekiwana dalsza długość życia dla kolejnych krajów w roku 2007: 43,8, 76,4, 72,3, 42,7, 75,3, 81,2, 79,8, 75,6, 64,1, 79,4, 56,7, 65,6, 74,9, 50,7, 72,4, 73,0, 52,3, 49,6, 59,7, 50,4... -- <img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-36-1.png" style="display: block; margin: auto;" /> -- *Odchylenie przeciętne:* 9,43 (lat) --- # Odchylenie przeciętne Oczekiwana dalsza długość życia dla kolejnych krajów w roku 1982: 39,9, 70,4, 61,4, 39,9, 69,9, 74,7, 73,2, 69,1, 50,0, 73,9, 50,9, 53,9, 70,7, 61,5, 63,3, 71,1, 48,1, 47,5, 51,0, 53,0... -- <img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-37-1.png" style="display: block; margin: auto;" /> -- *Odchylenie przeciętne:* 9,27 (lat) --- # Rozstęp - **Rozstęp** lub **zakres danych** to najprostsza miara zmienności - Jest to różnica między najwyższą i najniższą zaobserwowaną wartością cechy statystycznej `$$R = x_{max} - x_{min}$$` -- - Rozstęp jest podatny na wartości odstające --- # Odchylenie ćwiartkowe - Odchylenie standardowe jest najczęściej stosowane do opisania odchylenia wartości cechy od średniej arytmetycznej - Natomiast odchylenie ćwiartkowe jest miarą zmienności najczęściej używaną w parze z medianą - **Odchylenie ćwiartkowe (Q)** jest połową różnicy między trzecim, a pierwszym kwartylem `$$Q = \frac{(Q_3 - Q_1)}{2}$$` - **Odchylenie ćwiartkowe** mierzy poziom zróżnicowania tylko części jednostek pozostałej po odrzuceniu 25% jednostek o wartościach najmniejszych i 25% jednostek o wartościach największych --- # Odchylenie ćwiartkowe Oczekiwana dalsza długość życia dla kolejnych krajów w roku 2007: 43,8, 76,4, 72,3, 42,7, 75,3, 81,2, 79,8, 75,6, 64,1, 79,4, 56,7, 65,6, 74,9, 50,7, 72,4, 73,0, 52,3, 49,6, 59,7, 50,4... -- <img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-39-1.png" style="display: block; margin: auto;" /> -- *Odchylenie ćwiartkowe:* 9,63 (lat) --- # Odchylenie ćwiartkowe Oczekiwana dalsza długość życia dla kolejnych krajów w roku 1982: 39,9, 70,4, 61,4, 39,9, 69,9, 74,7, 73,2, 69,1, 50,0, 73,9, 50,9, 53,9, 70,7, 61,5, 63,3, 71,1, 48,1, 47,5, 51,0, 53,0... -- <img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-40-1.png" style="display: block; margin: auto;" /> -- *Odchylenie ćwiartkowe:* 8,99 (lat) --- # Rozstęp kwartylowy - Kwartyli można użyć również do wyznaczenia typowego obszaru zmienności (rozstępu kwartylowego): `\((Q1 < x_{typ} < Q3)\)` do którego należy 50% obserwacji --- # Współczynniki zmienności - Współczynnik zmienności jest ilorazem bezwzględnej miary zmienności cechy i średniej wartości tej cechy - W konstrukcji współczynnika zmienności można użyć zarówno miar klasycznych, jak i pozycyjnych - Współczynnik zmienności stosuje się zwykle, gdy chcemy ocenić zróżnicowanie kilku zbiorowości pod względem tej samej cechy, ewentualnie tej samej zbiorowości pod względem kilku cech - Współczynnik zmienności jest wielkością niemianowaną. Wartości współczynników podaje się z reguły w procentach - Duże wartości współczynnika zmienności świadczą o zróżnicowaniu (niejednorodności zbiorowości) --- # Klasyczne współczynniki zmienności Współczynnik zmienności odchylenia standardowego ( `\(V_s\)` ): `$$V_s = \frac{s}{\bar{x}}$$` , gdy `\(\bar{x} > 0\)` <br> Współczynnik zmienności odchylenia przeciętnego ( `\(V_d\)` ): `$$V_d = \frac{d}{\bar{x}}$$` , gdy `\(\bar{x} > 0\)` --- # Klasyczne współczynniki zmienności `\(V_s\)`: - Oczekiwana dalsza długość życia dla kolejnych krajów w roku 2017: 18 % - Oczekiwana dalsza długość życia dla kolejnych krajów w roku 1982: 17,5 % `\(V_d\)`: - Oczekiwana dalsza długość życia dla kolejnych krajów w roku 2017: 14,1 % - Oczekiwana dalsza długość życia dla kolejnych krajów w roku 1982: 15,1 % --- # Pozycyjne współczynniki zmienności *Odchylenie ćwiartkowe* `$$V_Q = \frac{Q}{Me}$$` , gdy `\(Me > 0\)` oraz `$$V_{Q_1,Q_3}=\frac{Q_3-Q_1}{Q_3+Q_1}$$` --- # Pozycyjne współczynniki zmienności `\(V_Q\)`: - Oczekiwana dalsza długość życia dla kolejnych krajów w roku 2017: 13,4 % - Oczekiwana dalsza długość życia dla kolejnych krajów w roku 1982: 14,4 % `\(V_{Q_1,Q_3}\)`: - Oczekiwana dalsza długość życia dla kolejnych krajów w roku 2017: 14,4 % - Oczekiwana dalsza długość życia dla kolejnych krajów w roku 1982: 14,5 % --- # Możliwości stostowania miar zmienności <br> |Skala |Rozstęp |Percentyle |Odchylenie.standardowe | |:-----------|:-------|:----------|:----------------------| |Nominalna | | | | |Porządkowa |X | | | |Interwałowa |X |X |X? | |Ilorazowa |X |X |X | --- class: inverse, left, bottom # Miary asymetrii --- # Miary asymetrii <!-- revise later --> - Często zdarza się, że porównanie średniego poziomu cechy i jej rozproszenia nie wykazuje różnic między badanymi zbiorowościami, a jednak rozkłady empiryczne zbiorowości się od siebie różnią
--- # Miary asymetrii Asymetrię można ocenić porównując różnice pomiędzy średnią arytmetyczną, a medianą lub modą. Asymetria prawostronna: `$$\bar{x} \gt Me \gt Mo$$` Asymetria lewostronna: `$$\bar{x} \lt Me \lt Mo$$` --- # Miary asymetrii <img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-45-1.png" style="display: block; margin: auto;" /> --- # Współczynnik skośności Jeden z trzech możliwych wzorów: `$$A_{Mo}=\frac{\bar{x} - Mo}{s}$$` `$$A_{Me}=3 \frac{\bar{x} - Me}{s}$$` `$$A_{Q}=\frac{Q_1+Q_3-2Mo}{2Q}=\frac{Q_1+Q_3-2Mo}{Q_3-Q_1}$$` gdzie: .pull-left[ - `\(\bar{x}\)` – średnia arytmetyczna - `\(Me\)` – mediana - `\(Mo\)` – moda ] .pull-right[ - `\(s\)` – odchylenie standardowe - `\(Q_1\)`, `\(Q_3\)` – pierwszy i trzeci kwartyl - `\(Q\)` – odchylenie ćwiartkowe ] --- # Współczynnik skośności Współczynnik skośności: - wartość zero dla rozkładu symetrycznego - wartości ujemne dla rozkładów o lewostronnej asymetrii (wydłużone lewe ramię rozkładu) - wartości dodatnie dla rozkładów o prawostronnej asymetrii (wydłużone prawe ramię rozkładu) --- # Współczynnik skośności .lc[ - Rozkład symetryczny: -0,00902 - Rozkład lewoskośny: -0,762 - Rozkład prawoskośny: 0,896 (*Wyniki używając drugiego wzoru*) ] .rc[ <img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-47-1.png" style="display: block; margin: auto;" /> ] --- # Kurtoza - Jedna z miar spłaszczenia wartości cechy `$$Kurt = \frac{\mu_4}{\sigma^4} - 3$$` , gdzie: - `\(\mu_4\)` jest czwartym momentem centralnym - `\(\sigma\)` to odchylenie standardowe --- # Kurtoza z próby `$$Kurt = \frac{\frac{1}{n}\sum_{i=1}^n (x_i - \mu)^4}{\sigma^4} - 3$$` , gdzie: - `\(x_i\)` to `\(i\)`-ta wartość cechy - `\(\mu\)` to wartość oczekiwana w populacji - `\(\sigma\)` to odchylenie standardowe w populacji - `\(n\)` to liczebność próby --- # Kurtoza Kurtoza - spłaszczenie lub "smukłość" rozkładu Kurtoza: - wartość dodatnia - rozkład "smukły" (*leptokurtyczny*) - wartość ujemna - rozkład "spłaszczony" (*platykurtyczny*) --- # Kurtoza .lc[ - Rozkład leptokurtyczny: 1,3 - Rozkład normalny: 0,0841 - Rozkład platykurtyczny: -0,743 ] .rc[ <img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-49-1.png" style="display: block; margin: auto;" /> ] <!-- viz example --> <!-- ?? --> <!-- Uwaga! Rozkład może się wyglądać na smukły lub spłaszczony jedynie ze względu na przyjęte skale osi X i Y – weryfikacją jest dodanie krzywej rozkładu normalnego do histogramu --> --- class: inverse, left, bottom # Opisywanie danych nominalnych --- # Opisywanie danych nominalnych <!-- s5/13 --> Częstości (frekwencje): - Występujące najczęściej? - Występujące najrzadziej? - Częstość względna (odsetki)? Częstości: - Bezwzględne - liczba przypadków w określonej klasie (grupie) - Względne - % przypadków w określonej klasie (grupie) --- # Częstości Nazwy kontynentów (klasa/grupa) dla kolejnych krajów: Azja, Europa, Afryka, Afryka, Ameryka, Oceania, Europa, Azja, Azja, Europa, Afryka, Ameryka, Europa, Afryka, Ameryka, Europa, Afryka, Afryka, Azja, Afryka... .pull-left[ - Częstości bezwzględne: |kontynenty | n| |:----------|--:| |Afryka | 52| |Ameryka | 25| |Azja | 33| |Europa | 30| |Oceania | 2| ] .pull-right[ - Częstości względne: |kontynenty |procent | |:----------|:-------| |Afryka |36,62 | |Ameryka |17,61 | |Azja |23,24 | |Europa |21,13 | |Oceania |1,41 | ] <!-- statystyki cykliczne?? --> <!-- literatura?? -->