Statystyka i wizualizacja danych

class: inverse, left, nonum, clear
background-image: url("figs/multiplying-machine.jpg")
background-size: cover

.titlestyle[Statystyka:]
<br>
.captionstyle[Statystyki]
<br>
.captionstyle[opisowe]

.captionstyle[Jakub Nowosad, *nowosad@amu.edu.pl*]

---
class: inverse, left, bottom
# Parametry statystyczne

---
# Parametry statystyczne

Parametry statystyczne to wielkości liczbowe służące do syntetycznego opisu struktury zbiorowości statystycznej.

Stosowane parametry dzieli się na:

- **miary położenia**
- **miary zmienności** (miary rozproszenia, dyspersji)
- **miary asymetrii i miary koncentracji**

---
class: inverse, left, bottom

# Miary położenia

---
# Miary położenia

- **Miary położenia** opisują umiejscowienie typowych wartości cechy statystycznej na osi liczbowej


<div class="DiagrammeR html-widget html-fill-item-overflow-hidden html-fill-item" id="htmlwidget-1e6ee732a0b3ab262b3f" style="width:864px;height:504px;"></div>
<script type="application/json" data-for="htmlwidget-1e6ee732a0b3ab262b3f">{"x":{"diagram":"\n  graph LR\n  A(miary położenia)-->B(klasyczne)\n  B-->C(średnia arytmetyczna)\n  B-->D(średnia harmoniczna)\n  B-->E(średnia geometryczna)\n  A-->F(pozycyjne)\n  F-->G(modalna)\n  F-->H(kwantyle)\n  H-->I(kwartyl pierwszy)\n  H-->J(mediana)\n  H-->K(kwartyl trzeci)\n  H-->L(centyle)\n"},"evals":[],"jsHooks":[]}</script>

---
# Miary położenia

.lc[
- **Miary klasyczne** to miary, których wartość jest wyznaczona w oparciu o wszystkie obserwacje
- **Miary pozycyjne** to miary, na których wartość wpływają tylko wybrane obserwacje z próby uporządkowanej
]

.rc[
<div class="DiagrammeR html-widget html-fill-item-overflow-hidden html-fill-item" id="htmlwidget-65d536b43c4430e6f2d6" style="width:504px;height:504px;"></div>
<script type="application/json" data-for="htmlwidget-65d536b43c4430e6f2d6">{"x":{"diagram":"\n  graph LR\n  A(miary położenia)-->B(klasyczne)\n  B-->C(średnia arytmetyczna)\n  B-->D(średnia harmoniczna)\n  B-->E(średnia geometryczna)\n  A-->F(pozycyjne)\n  F-->G(modalna)\n  F-->H(kwantyle)\n  H-->I(kwartyl pierwszy)\n  H-->J(mediana)\n  H-->K(kwartyl trzeci)\n  H-->L(centyle)\n"},"evals":[],"jsHooks":[]}</script>
]

---
# Miary położenia

- Poszczególne rodzaje średnich są obliczane na podstawie wszystkich wartości przyjmowanych przez cechę w badanej zbiorowości
- Dla każdego konkretnego przypadku powinno się obliczać tylko jedną średnią, bo tylko jedna z nich jest odpowiednia dla danej cechy statystycznej, a pozostałe nie mają sensu

<div class="DiagrammeR html-widget html-fill-item-overflow-hidden html-fill-item" id="htmlwidget-6271e3871500bf0b498e" style="width:864px;height:360px;"></div>
<script type="application/json" data-for="htmlwidget-6271e3871500bf0b498e">{"x":{"diagram":"\n  graph LR\n  A(miary położenia)-->B(klasyczne)\n  B-->C(średnia arytmetyczna)\n  B-->D(średnia harmoniczna)\n  B-->E(średnia geometryczna)\n  A-->F(pozycyjne)\n  F-->G(modalna)\n  F-->H(kwantyle)\n  H-->I(kwartyl pierwszy)\n  H-->J(mediana)\n  H-->K(kwartyl trzeci)\n  H-->L(centyle)\n"},"evals":[],"jsHooks":[]}</script>

---
# Miary położenia

.lc[

- **Wartość modalna**, jest tym wariantem cechy statystycznej, który był najczęściej obserwowany
- **Kwantyle** to takie warianty cechy statystycznej, które dzielą badaną zbiorowość na części w określonych proporcjach, np. na połowy (mediana)
]

.rc[
<div class="DiagrammeR html-widget html-fill-item-overflow-hidden html-fill-item" id="htmlwidget-b64ee1d4623ab836cfef" style="width:504px;height:504px;"></div>
<script type="application/json" data-for="htmlwidget-b64ee1d4623ab836cfef">{"x":{"diagram":"\n  graph LR\n  A(miary położenia)-->B(klasyczne)\n  B-->C(średnia arytmetyczna)\n  B-->D(średnia harmoniczna)\n  B-->E(średnia geometryczna)\n  A-->F(pozycyjne)\n  F-->G(modalna)\n  F-->H(kwantyle)\n  H-->I(kwartyl pierwszy)\n  H-->J(mediana)\n  H-->K(kwartyl trzeci)\n  H-->L(centyle)\n"},"evals":[],"jsHooks":[]}</script>
]

---
# Miary położenia

- Wśród miar położenia można wyróżnić **miary przeciętne** lub inaczej miary tendencji centralnej wskazujące średni lub typowy poziom cechy, które mówią o przeciętnym poziomie badanej cechy (średnie, modalna, mediana)

<div class="DiagrammeR html-widget html-fill-item-overflow-hidden html-fill-item" id="htmlwidget-842e9c8ac6a0301650af" style="width:864px;height:360px;"></div>
<script type="application/json" data-for="htmlwidget-842e9c8ac6a0301650af">{"x":{"diagram":"\n  graph LR\n  A(miary położenia)-->B(klasyczne)\n  B-->C(średnia arytmetyczna)\n  B-->D(średnia harmoniczna)\n  B-->E(średnia geometryczna)\n  A-->F(pozycyjne)\n  F-->G(modalna)\n  F-->H(kwantyle)\n  H-->I(kwartyl pierwszy)\n  H-->J(mediana)\n  H-->K(kwartyl trzeci)\n  H-->L(centyle)\n"},"evals":[],"jsHooks":[]}</script>

---
# Średnia arytmetyczna

Oczekiwana dalsza długość życia dla kolejnych krajów: 43,8, 76,4, 72,3, 42,7, 75,3, 81,2, 79,8, 75,6, 64,1, 79,4, 56,7, 65,6, 74,9, 50,7, 72,4, 73,0, 52,3, 49,6, 59,7, 50,4...

Średnia arytmetyczna: 67

---
# Średnia arytmetyczna

Oczekiwana dalsza długość życia dla kolejnych krajów: 43,8, 76,4, 72,3, 42,7, 75,3, 81,2, 79,8, 75,6, 64,1, 79,4, 56,7, 65,6, 74,9, 50,7, 72,4, 73,0, 52,3, 49,6, 59,7, 50,4...

$$
\bar{x}=\frac{1}{n}\sum_{i=1}^n x_i=\frac{x_1+x_2+\ldots+x_n}{n}
$$
--

Średnia arytmetyczna: 67

---
# Średnia arytmetyczna

- Najczęściej wykorzystywana miara położenia

$$
\bar{x}=\frac{1}{n}\sum_{i=1}^n x_i=\frac{x_1+x_2+\ldots+x_n}{n}
$$

- Jej wadą jest wrażliwość na **wartości odstające** (ang. *outliers*)
- **Wartości odstające** to pomiary, których wartość zdecydowanie odbiega od większości pozostałych
- Mogą (ale nie muszą) być one wynikiem błędów

---
# Średnia arytmetyczna

**Przykład:**

- Stacja A - 12, 15, 15, 18, 16, 21

`$$\bar{x}_A = \frac{12+15+15+18+16+21}{6} = \frac{97}{6} = 16\frac{1}{6}$$`
--

- Stacja B - 11, 14, 14, 14, 13, 32

`$$\bar{x}_B = \frac{11+14+14+14+13+32}{6} = \frac{98}{6} = 16\frac{2}{6}$$`

---
# Średnia harmoniczna

Gęstość zaludnienia (liczba osób na km<sup>2</sup>):   48,76,  121,13,   14,33,    9,92,   14,44,    2,65,   96,43, 1120,23,  345,41,   68,61,    8,36,   89,93,    2,75,   22,20,   66,41,   52,43,  317,53,   77,07,   38,19...

Średnia harmoniczna: 19,7

---
# Średnia harmoniczna

- Stosowana, gdy wartości cechy statystycznej podawane są w przeliczeniu na stałą jednostkę innej zmiennej, np. prędkość w km/h, gęstość zaludnienia w osobach/km<sup>2</sup>, spożycie w kg/osobę, itp.

- Nie możliwa do wyliczenia na danych zawierających wartości ujemne lub zero

`$$\bar{x}_H = \frac{n}{\sum\limits_{i=1}^n \frac1{x_i}} = \frac{n}{\frac1{x_1} + \frac1{x_2} + \cdots + \frac1{x_n}}$$`

---
# Średnia harmoniczna

**Przykład:**

- Woda w rzece na pierwszym odcinku przepływa 100 kilometrów z prędkością 6 km/h, a na drugim odcinku 100 kilometrów z prędkością 3,2 km/h.
Jaka jest średnia prędkość wody w tej rzece?

Średnia arytmetyczna: 4,6 - **błędny wynik**

Średnia harmoniczna: 4,17

*Sprawdzenie:* przepłynięcie pierwszych 100 kilometrów z prędkością 6 km/h zabiera 16,667 godzin, a przepłynięcie drugich 100 kilometrów z prędkością 3,2 km/h zabiera 31,25 godzin.
W sumie jest to 47,917 godzin, co oznacza 200km/47,917 godzin, czyli 4,17 km/h.

*W przypadku, gdyby odcinki miały różną długość należałoby użyć ważonej średniej harmonicznej*

---
# Średnia geometryczna

- Stosowana jest przy badaniu średniego tempa zmian zjawisk, tzn. w sytuacji, gdy zjawiska są ujmowane w sposób dynamiczny
- Często odpowiednie dla wartości procentowych czy ułamkowych
- Nie możliwa do wyliczenia na danych zawierających wartości ujemne lub zero

`$$\bar{x}_G = \sqrt[n]{\prod_{i=1}^n x_i} = \sqrt[n]{x_1 \cdot x_2 \cdot  \ldots \cdot  x_n}$$`
---
# Średnia geometryczna

Oczekiwana długość życia w Polsce (lata 1997, 2002, 2007): 72,750, 74,670, 75,563
- Zmiana pomiędzy 1997 a 2002:

$$x_1 = \frac{74.67}{72.75} = 1.026392 $$
- Zmiana pomiędzy 2002 a 2007:

$$x_1 = \frac{75.563}{74.67} = 1.011959 $$

- Średni przyrost (średnia geometryczna):

`$$\bar{x}_G = \sqrt{1.026392 * 1,011959} = 1.01915$$`

---
# Średnia geometryczna

Gdyby w tym przykładzie zastosować średnią arytmetyczną uzyskalibyśmy wynik:

`$$\frac{(1.026392 + 1.011959)}{2} = 1.019176$$`

Wynikałoby z tego (błędnie), że w roku 2007 oczekiwana długość życia w Polsce powinna wynosić:

`$$72.75 * 1.019176 * 1.019176 = 75.56686$$`

W rzeczywistości ta wartość wynosiła:

`$$72.75 * 1.01915 * 1.01915 = 75.563$$`

---
# Średnia ważona

- Wartości, którym przypisano wyższe wagi ( `$w$` ) mają większy udział w określeniu średniej ważonej niż dane, którym przypisano niższe wagi

$$
\bar{x}_w = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n}
$$
- Jeśli wszystkie wagi są równe, to wówczas średnia ważona jest równa średniej arytmetycznej
- Wagi powinny być liczbami nieujemnymi
- Można obliczać także inne średnie ważone, jak średnia ważona geometryczna i średnia ważona harmoniczna

---
# Średnia ważona

- Oczekiwana długość życia dla krajów Oceanii (2 kraje) : 81,2, 80,2
- Oczekiwana długość życia dla krajów w Afryce (52 krajów) : 72,3, 42,7, 56,7, 50,7, 52,3, 49,6, 50,4, 44,7, 50,7, 65,2, 46,5, 55,3, 48,3, 54,8, 71,3, 51,6, 58,0, 52,9, 56,7, 59,4, 60,0, 56,0, 46,4, 54,1, 42,6, 45,7, 74,0, 59,4, 48,3, 54,5, 64,2, 72,8, 71,2, 42,1, 52,9, 56,9, 46,9, 76,4, 46,2, 65,5, 63,1, 42,6, 48,2, 49,3, 58,6, 39,6, 52,5, 58,4, 73,9, 51,5, 42,4, 43,5

<br>
- *Średnia arytmetyczna Oceanii:* 80,7
- *Średnia arytmetyczna Afryki:* 54,8

<br>
Gdybyśmy na podstawie powyższych średnich wyliczyli średnią arytmetyczną otrzymalibyśmy (błędnie) wynik: 80,7 + 54,8 / 2 = 67,8

---
# Średnia ważona

- Oczekiwana długość życia dla krajów Oceanii (2 kraje) : 81, 80
- Oczekiwana długość życia dla krajów w Afryce (52 krajów) : 72, 43, 57, 51, 52, 50, 50, 45, 51, 65, 46, 55, 48, 55, 71, 52, 58, 53, 57, 59, 60, 56, 46, 54, 43, 46, 74, 59, 48, 54, 64, 73, 71, 42, 53, 57, 47, 76, 46, 66, 63, 43, 48, 49, 59, 40, 53, 58, 74, 52, 42, 43

<br>
- *Średnia arytmetyczna Oceanii:* 80,7
- *Średnia arytmetyczna Afryki:* 54,8

<br>
Zamiast tego powinniśmy użyć średniej ważonej:

`$$\bar{x} = \frac{2 * 80.7 + 52 * 54.8}{2 + 52} = 55.75926$$`

*Jeszcze dokładniejszy wynik można byłoby uzyskać używając populacji jako wagi*

---
# Moda

- **Wartość modalna**, określana także jako **dominanta**, **moda** lub **wartość najczęstsza**
- Wartość cechy statystycznej, która w danym rozkładzie empirycznym występuje najczęściej
- Inaczej mówiąc jest to maksimum funkcji rozkładu empirycznego cechy statystycznej

---
# Moda

(Zaokrąglona) oczekiwana dalsza długość życia dla kolejnych krajów: 44, 76, 72, 43, 75, 81, 80, 76, 64, 79, 57, 66, 75, 51, 72, 73, 52, 50, 60, 50...

*Moda*: 72, 73, 76, 79

---
# Kwantyle

- **Kwantyle** - wartości cechy badanej populacji, przedstawionej w postaci szeregu statystycznego, które dzielą zbiorowość na określone części pod względem liczby jednostek
- Części te pozostają do siebie w określonych proporcjach

---
# Kwantyle

- **Kwartyl pierwszy (Q1)** - 25% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu, a 75% równe bądź wyższe
- **Mediana (Me, kwartyl drugi)** - połowa jednostek ma wartości cechy mniejsze bądź równe medianie, a połowa wartości cechy równe lub większe od Me
- **Kwartyl trzeci (Q3)** - 75% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi trzeciemu, a 25% równe bądź wyższe

---
# Mediana

Oczekiwana dalsza długość życia dla kolejnych krajów: 43,8, 76,4, 72,3, 42,7, 75,3, 81,2, 79,8, 75,6, 64,1, 79,4, 56,7, 65,6, 74,9, 50,7, 72,4, 73,0, 52,3, 49,6, 59,7, 50,4...

*Mediana:* 71,9

---
# Mediana

Oczekiwana dalsza długość życia dla kolejnych krajów: 43,8, 76,4, 72,3, 42,7, 75,3, 81,2, 79,8, 75,6, 64,1, 79,4, 56,7, 65,6, 74,9, 50,7, 72,4, 73,0, 52,3, 49,6, 59,7, 50,4...

`$$Me = \frac{1}{2} (x_{\lfloor n/2\rfloor} + x_{\lceil (n+1)/2\rceil})$$`

- Wartość środkowa
- Połowa wartości danych jest niższa, połowa jest wyższa

*Mediana:* 71,9

---
# Mediana

**Przykład:**

- Stacja A - 12, 15, 15, 18, 16, 21

- Stacja A - 12, 15, 15, 16, 18, 21

- Mediana: 15,5

<br>
- Stacja B - 11, 14, 14, 14, 13, 32

- Stacja B - 11, 13, 14, 14, 14, 32

- Mediana: 14

---
# Centyle

- Wskazują jaki procent jednostek w próbie uzyskał wynik mniejszy od danego
- Centyl 50 odpowiada medianie, a centyle 25 i 75 to odpowiednio pierwszy i trzeci kwartyl

---
# Centyle

.pull-left[
<img src="figs/siatkam.jpg" width="800" style="display: block; margin: auto;" />
]

.pull-right[
<img src="figs/siatkaf.jpg" width="800" style="display: block; margin: auto;" />
]

https://www.who.int/childgrowth/standards/en/

---
# Możliwości stostowania miar położenia

<br>

|Skala       |Moda |Mediana |Średnia |
|:-----------|:----|:-------|:-------|
|Nominalna   |X    |        |        |
|Porządkowa  |X    |X       |        |
|Interwałowa |X    |X       |X       |
|Ilorazowa   |X?   |X       |X       |

*Na przykład, obliczanie średniej arytmetycznej z ocen (skala porządkowa) jest statystycznie niepoprawne.*

---
# Relacja między średnią, medianą a modą

.pull-left[
- Geometryczna wizualizacja mody, mediany i średniej
]

.pull-right[
<img src="figs/mode_median_mean.png" width="70%" style="display: block; margin: auto;" />
]

*Źródło: https://en.wikipedia.org/wiki/Median#/media/File:Visualisation_mode_median_mean.svg*

---
# Relacja między średnią, medianą a modą

---
class: inverse, left, bottom

# Miary zmienności

---
# Miary zmienności

.lc[
- **Miary zmienności (rozproszenia, dyspersji)** opisują rozrzut wartości cechy statystycznej w populacji wokół wartości przeciętnej
- Charakteryzują one stopień zróżnicowania jednostek zbiorowości pod względem badanej cechy
]

.rc[
<div class="DiagrammeR html-widget html-fill-item-overflow-hidden html-fill-item" id="htmlwidget-a8f78333a57ba61b669a" style="width:576px;height:504px;"></div>
<script type="application/json" data-for="htmlwidget-a8f78333a57ba61b669a">{"x":{"diagram":"\n  graph LR\n  A(miary zmienności)-->B(klasyczne)\n  B-->C(wariancja)\n  B-->D(odchylenie standardowe)\n  B-->E(odchylenie przeciętne)\n  B-->F(współczynnik zmienności)\n  A-->G(pozycyjne)\n  G-->H(rozstęp)\n  G-->I(odchylenie ćwiartkowe)\n  G-->J(współczynnik zmienności)\n"},"evals":[],"jsHooks":[]}</script>
]

---
# Miary zmienności

.rc[
<div class="DiagrammeR html-widget html-fill-item-overflow-hidden html-fill-item" id="htmlwidget-520a7e591f297e15ebf8" style="width:576px;height:504px;"></div>
<script type="application/json" data-for="htmlwidget-520a7e591f297e15ebf8">{"x":{"diagram":"\n  graph LR\n  A(miary zmienności)-->B(klasyczne)\n  B-->C(wariancja)\n  B-->D(odchylenie standardowe)\n  B-->E(odchylenie przeciętne)\n  B-->F(współczynnik zmienności)\n  A-->G(pozycyjne)\n  G-->H(rozstęp)\n  G-->I(odchylenie ćwiartkowe)\n  G-->J(współczynnik zmienności)\n"},"evals":[],"jsHooks":[]}</script>
]

---
# Wariancja

Oczekiwana dalsza długość życia dla kolejnych krajów w roku 2007: 43,8, 76,4, 72,3, 42,7, 75,3, 81,2, 79,8, 75,6, 64,1, 79,4, 56,7, 65,6, 74,9, 50,7, 72,4, 73,0, 52,3, 49,6, 59,7, 50,4...

*Wariancja:* 146

---
# Wariancja

Oczekiwana dalsza długość życia dla kolejnych krajów w roku 1982: 39,9, 70,4, 61,4, 39,9, 69,9, 74,7, 73,2, 69,1, 50,0, 73,9, 50,9, 53,9, 70,7, 61,5, 63,3, 71,1, 48,1, 47,5, 51,0, 53,0...

*Wariancja:* 61,5

---
# Wariancja

- **Wariancja** jest średnią arytmetyczną kwadratów odchyleń poszczególnych obserwacji od średniej arytmetycznej zbiorowości

`$$\sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \bar{x})^2 = \frac{(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \ldots + (x_n - \bar{x})^2}{n}$$`

- Ważną cechą wariancji jest to, że nie jest wyrażona w jednostkach cechy, ale w jednostkach podniesionych do kwadratu, np. wariancja dla wzrostu może mieć jednostkę cm<sup>2</sup>
- Wariancja i odchylenie standardowe to wśród statystyk opisowych wyjątki - inne obliczenia wykonuje się w zależności od tego czy dysponujemy danymi z całej populacji, czy też tylko z próby
- Powyższy wzór wylicza wariancję z populacji. W przypadku, gdy posiadamy tylko wartości próby należy użyć `$n - 1$` zamiast `$n$` 
- Wszystkie inne statystyki opisowe liczy się tak samo niezależnie czy dysponujemy danymi z całej populacji, czy też tylko z próby

---
# Odchylenie standardowe

- **Odchylenie standardowe** jest pierwiastkiem kwadratowym z wariancji

`$$s = \sqrt{\sigma^2}$$`
- Pozwala to na uzyskanie miary zmienności o jednostce zgodnej z mianem badanej cechy statystycznej

`$$s = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \bar{x})^2} = \sqrt{\frac{(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \ldots + (x_n - \bar{x})^2}{n}}$$`
- Odchylenie standardowe określa przeciętne zróżnicowanie poszczególnych wartości cechy w stosunku do średniej arytmetycznej

---
# Odchylenie standardowe

Oczekiwana dalsza długość życia dla kolejnych krajów w roku 2007: 43,8, 76,4, 72,3, 42,7, 75,3, 81,2, 79,8, 75,6, 64,1, 79,4, 56,7, 65,6, 74,9, 50,7, 72,4, 73,0, 52,3, 49,6, 59,7, 50,4...

*Odchylenie standardowe:* 12,1 (lat)

---
# Odchylenie standardowe

Oczekiwana dalsza długość życia dla kolejnych krajów w roku 1982: 39,9, 70,4, 61,4, 39,9, 69,9, 74,7, 73,2, 69,1, 50,0, 73,9, 50,9, 53,9, 70,7, 61,5, 63,3, 71,1, 48,1, 47,5, 51,0, 53,0...

*Odchylenie standardowe:* 10,8 (lat)

---
# Odchylenie standardowe

- Powyższa relacja dotyczy tylko zmiennych o rozkładzie normalnym!

---
# Odchylenie przeciętne

- To średnia arytmetyczna bezwzględnych odchyleń wartości cechy od jej średniej arytmetycznej
- Jego interpretacja jest podobna do odchylenia standardowego
- Odchylenie przeciętne jest zawsze mniejsze od odchylenia standardowego, policzonych dla tego samego szeregu

`$$d = \frac{\sum_{i=1}^{n}|x_i - \bar{x}|}{n} = \frac{|x_1-\bar{x}|+...+|x_n-\bar{x}|}{n}$$`
gdzie:
- `$x_i$` - wartość `$i$`-tego elementu zbioru danych
* `$\bar{x}$` - średnia arytmetyczna
* `$n$` – liczebność zbioru danych

---
# Odchylenie przeciętne

Oczekiwana dalsza długość życia dla kolejnych krajów w roku 2007: 43,8, 76,4, 72,3, 42,7, 75,3, 81,2, 79,8, 75,6, 64,1, 79,4, 56,7, 65,6, 74,9, 50,7, 72,4, 73,0, 52,3, 49,6, 59,7, 50,4...

*Odchylenie przeciętne:* 9,43 (lat)

---
# Odchylenie przeciętne

Oczekiwana dalsza długość życia dla kolejnych krajów w roku 1982: 39,9, 70,4, 61,4, 39,9, 69,9, 74,7, 73,2, 69,1, 50,0, 73,9, 50,9, 53,9, 70,7, 61,5, 63,3, 71,1, 48,1, 47,5, 51,0, 53,0...

*Odchylenie przeciętne:* 9,27 (lat)

---
# Rozstęp

- **Rozstęp** lub **zakres danych** to najprostsza miara zmienności
- Jest to różnica między najwyższą i najniższą zaobserwowaną wartością cechy statystycznej

`$$R = x_{max} - x_{min}$$`

- Rozstęp jest podatny na wartości odstające

---
# Odchylenie ćwiartkowe

- Odchylenie standardowe jest najczęściej stosowane do opisania odchylenia wartości cechy od średniej arytmetycznej
- Natomiast odchylenie ćwiartkowe jest miarą zmienności najczęściej używaną w parze z medianą
- **Odchylenie ćwiartkowe (Q)** jest połową różnicy między trzecim, a pierwszym kwartylem

`$$Q = \frac{(Q_3 - Q_1)}{2}$$`

- **Odchylenie ćwiartkowe** mierzy poziom zróżnicowania tylko części jednostek pozostałej po odrzuceniu 25% jednostek o wartościach najmniejszych i 25% jednostek o wartościach największych

---
# Odchylenie ćwiartkowe

Oczekiwana dalsza długość życia dla kolejnych krajów w roku 2007: 43,8, 76,4, 72,3, 42,7, 75,3, 81,2, 79,8, 75,6, 64,1, 79,4, 56,7, 65,6, 74,9, 50,7, 72,4, 73,0, 52,3, 49,6, 59,7, 50,4...

*Odchylenie ćwiartkowe:* 9,63 (lat)

---
# Odchylenie ćwiartkowe

Oczekiwana dalsza długość życia dla kolejnych krajów w roku 1982: 39,9, 70,4, 61,4, 39,9, 69,9, 74,7, 73,2, 69,1, 50,0, 73,9, 50,9, 53,9, 70,7, 61,5, 63,3, 71,1, 48,1, 47,5, 51,0, 53,0...

*Odchylenie ćwiartkowe:* 8,99 (lat)

---
# Rozstęp kwartylowy

- Kwartyli można użyć również do wyznaczenia typowego obszaru zmienności (rozstępu kwartylowego): `$(Q1 < x_{typ} < Q3)$` do którego należy 50% obserwacji

---
# Współczynniki zmienności

- Współczynnik zmienności jest ilorazem bezwzględnej miary zmienności cechy i średniej wartości tej cechy
- W konstrukcji współczynnika zmienności można użyć zarówno miar klasycznych, jak i pozycyjnych
- Współczynnik zmienności stosuje się zwykle, gdy chcemy ocenić zróżnicowanie kilku zbiorowości pod względem tej samej cechy, ewentualnie tej samej zbiorowości pod względem kilku cech
 - Współczynnik zmienności jest wielkością niemianowaną. Wartości współczynników podaje się z reguły w procentach
- Duże wartości współczynnika zmienności świadczą o zróżnicowaniu (niejednorodności zbiorowości)

---
# Klasyczne współczynniki zmienności

Współczynnik zmienności odchylenia standardowego ( `$V_s$` ):

`$$V_s = \frac{s}{\bar{x}}$$` 
, gdy `$\bar{x} > 0$`

<br>

Współczynnik zmienności odchylenia przeciętnego ( `$V_d$` ):

`$$V_d = \frac{d}{\bar{x}}$$`

, gdy `$\bar{x} > 0$`

---
# Klasyczne współczynniki zmienności

`$V_s$`:
- Oczekiwana dalsza długość życia dla kolejnych krajów w roku 2017: 18 %
- Oczekiwana dalsza długość życia dla kolejnych krajów w roku 1982: 17,5 %

`$V_d$`:
- Oczekiwana dalsza długość życia dla kolejnych krajów w roku 2017: 14,1 %
- Oczekiwana dalsza długość życia dla kolejnych krajów w roku 1982: 15,1 %

---
# Pozycyjne współczynniki zmienności

*Odchylenie ćwiartkowe*

`$$V_Q = \frac{Q}{Me}$$`

, gdy `$Me > 0$`

oraz

`$$V_{Q_1,Q_3}=\frac{Q_3-Q_1}{Q_3+Q_1}$$`
---
# Pozycyjne współczynniki zmienności

`$V_Q$`:
- Oczekiwana dalsza długość życia dla kolejnych krajów w roku 2017: 13,4 %
- Oczekiwana dalsza długość życia dla kolejnych krajów w roku 1982: 14,4 %

`$V_{Q_1,Q_3}$`:
- Oczekiwana dalsza długość życia dla kolejnych krajów w roku 2017: 14,4 %
- Oczekiwana dalsza długość życia dla kolejnych krajów w roku 1982: 14,5 %

---
# Możliwości stostowania miar zmienności

<br>

|Skala       |Rozstęp |Percentyle |Odchylenie.standardowe |
|:-----------|:-------|:----------|:----------------------|
|Nominalna   |        |           |                       |
|Porządkowa  |X       |           |                       |
|Interwałowa |X       |X          |X?                     |
|Ilorazowa   |X       |X          |X                      |

---
class: inverse, left, bottom

# Miary asymetrii

---
# Miary asymetrii

- Często zdarza się, że porównanie średniego poziomu cechy i jej rozproszenia nie wykazuje różnic między badanymi zbiorowościami, a jednak rozkłady empiryczne zbiorowości się od siebie różnią

<div class="DiagrammeR html-widget html-fill-item-overflow-hidden html-fill-item" id="htmlwidget-9ea0a2aea5a5d50ec1d4" style="width:432px;height:288px;"></div>
<script type="application/json" data-for="htmlwidget-9ea0a2aea5a5d50ec1d4">{"x":{"diagram":"\n  graph LR\n  A(miary asymetrii i koncentracji)-->B(współczynnik skośności)\n  A-->C(kurtoza)"},"evals":[],"jsHooks":[]}</script>

---
# Miary asymetrii

Asymetrię można ocenić porównując różnice pomiędzy średnią arytmetyczną, a medianą lub modą.

Asymetria prawostronna:

`$$\bar{x} \gt Me \gt Mo$$`

Asymetria lewostronna:

`$$\bar{x} \lt Me \lt Mo$$`
---
# Miary asymetrii

---
# Współczynnik skośności

Jeden z trzech możliwych wzorów:

`$$A_{Mo}=\frac{\bar{x} - Mo}{s}$$`

`$$A_{Me}=3 \frac{\bar{x} - Me}{s}$$`

`$$A_{Q}=\frac{Q_1+Q_3-2Mo}{2Q}=\frac{Q_1+Q_3-2Mo}{Q_3-Q_1}$$`

gdzie:

.pull-left[
- `$\bar{x}$` – średnia arytmetyczna
- `$Me$` – mediana
- `$Mo$` – moda
]

.pull-right[
- `$s$` – odchylenie standardowe
- `$Q_1$`, `$Q_3$` – pierwszy i trzeci kwartyl
- `$Q$` – odchylenie ćwiartkowe
]

---
# Współczynnik skośności

Współczynnik skośności:

- wartość zero dla rozkładu symetrycznego
- wartości ujemne dla rozkładów o lewostronnej asymetrii (wydłużone lewe ramię rozkładu)
- wartości dodatnie dla rozkładów o prawostronnej asymetrii (wydłużone prawe ramię rozkładu)

---
# Współczynnik skośności

.lc[
- Rozkład symetryczny: -0,00902
- Rozkład lewoskośny: -0,762
- Rozkład prawoskośny: 0,896

(*Wyniki używając drugiego wzoru*)
]

.rc[
<img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-47-1.png" style="display: block; margin: auto;" />
]

---
# Kurtoza

- Jedna z miar spłaszczenia wartości cechy

`$$Kurt = \frac{\mu_4}{\sigma^4} - 3$$`
, gdzie:

- `$\mu_4$` jest czwartym momentem centralnym
- `$\sigma$` to odchylenie standardowe

---
# Kurtoza z próby

`$$Kurt = \frac{\frac{1}{n}\sum_{i=1}^n (x_i - \mu)^4}{\sigma^4} - 3$$`
, gdzie:

- `$x_i$` to `$i$`-ta wartość cechy
- `$\mu$` to wartość oczekiwana w populacji
- `$\sigma$` to odchylenie standardowe w populacji
- `$n$` to liczebność próby

---
# Kurtoza

Kurtoza - spłaszczenie lub "smukłość" rozkładu

Kurtoza:

- wartość dodatnia - rozkład "smukły" (*leptokurtyczny*)
- wartość ujemna - rozkład "spłaszczony" (*platykurtyczny*)

---
# Kurtoza

.lc[
- Rozkład leptokurtyczny: 1,3
- Rozkład normalny: 0,0841
- Rozkład platykurtyczny: -0,743
]

.rc[
<img src="02-statystyki_opisowe_files/figure-html/unnamed-chunk-49-1.png" style="display: block; margin: auto;" />
]

---
class: inverse, left, bottom

# Opisywanie danych nominalnych

---
# Opisywanie danych nominalnych

Częstości (frekwencje):
- Występujące najczęściej?
- Występujące najrzadziej?
- Częstość względna (odsetki)?

Częstości:
- Bezwzględne - liczba przypadków w określonej klasie (grupie)
- Względne - % przypadków w określonej klasie (grupie)

---
# Częstości

Nazwy kontynentów (klasa/grupa) dla kolejnych krajów: Azja, Europa, Afryka, Afryka, Ameryka, Oceania, Europa, Azja, Azja, Europa, Afryka, Ameryka, Europa, Afryka, Ameryka, Europa, Afryka, Afryka, Azja, Afryka...

.pull-left[

- Częstości bezwzględne:

|kontynenty |  n|
|:----------|--:|
|Afryka     | 52|
|Ameryka    | 25|
|Azja       | 33|
|Europa     | 30|
|Oceania    |  2|
]

.pull-right[

- Częstości względne:

|kontynenty |procent |
|:----------|:-------|
|Afryka     |36,62   |
|Ameryka    |17,61   |
|Azja       |23,24   |
|Europa     |21,13   |
|Oceania    |1,41    |
]