class: inverse, left, nonum, clear background-image: url("figs/pencil.jpg") background-size: cover .titlestyle[Statystyka:] <br> .captionstyle[Wizualizacja danych] <br><br><br><br><br><br> <br><br><br><br><br><br><br> .captionstyle[Jakub Nowosad, *nowosad@amu.edu.pl*] <!-- https://www.si.edu/object/pencil-box:chndm_1960-94-2 --> --- class: inverse, left, bottom # Kwartet Anscombe’a <!-- maybe start with data examples?? --> <!-- quizes/tests? --> --- # Kwartet Anscombe’a .pull-left[ ``` ## set x y ## 1 I 10 8.04 ## 2 I 8 6.95 ## 3 I 13 7.58 ## 4 I 9 8.81 ## 5 I 11 8.33 ## 6 I 14 9.96 ## 7 I 6 7.24 ## 8 I 4 4.26 ## 9 I 12 10.84 ## 10 I 7 4.82 ## 11 I 5 5.68 ``` ``` ## set x y ## 1 III 10 7.46 ## 2 III 8 6.77 ## 3 III 13 12.74 ## 4 III 9 7.11 ## 5 III 11 7.81 ## 6 III 14 8.84 ## 7 III 6 6.08 ## 8 III 4 5.39 ## 9 III 12 8.15 ## 10 III 7 6.42 ## 11 III 5 5.73 ``` ] .pull-right[ ``` ## set x y ## 1 II 10 9.14 ## 2 II 8 8.14 ## 3 II 13 8.74 ## 4 II 9 8.77 ## 5 II 11 9.26 ## 6 II 14 8.10 ## 7 II 6 6.13 ## 8 II 4 3.10 ## 9 II 12 9.13 ## 10 II 7 7.26 ## 11 II 5 4.74 ``` ``` ## set x y ## 1 IV 8 6.58 ## 2 IV 8 5.76 ## 3 IV 8 7.71 ## 4 IV 8 8.84 ## 5 IV 8 8.47 ## 6 IV 8 7.04 ## 7 IV 8 5.25 ## 8 IV 19 12.50 ## 9 IV 8 5.56 ## 10 IV 8 7.91 ## 11 IV 8 6.89 ``` ] --- # Kwartet Anscombe’a .rc[ <br> <table> <thead> <tr> <th style="text-align:left;"> zbiór </th> <th style="text-align:right;"> średnia x </th> <th style="text-align:right;"> odchylenie standardowe x </th> <th style="text-align:right;"> średnia y </th> <th style="text-align:right;"> odchylenie standardowe y </th> <th style="text-align:right;"> korelacja </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> I </td> <td style="text-align:right;"> 9 </td> <td style="text-align:right;"> 3.32 </td> <td style="text-align:right;"> 7.5 </td> <td style="text-align:right;"> 2.03 </td> <td style="text-align:right;"> 0.82 </td> </tr> <tr> <td style="text-align:left;"> II </td> <td style="text-align:right;"> 9 </td> <td style="text-align:right;"> 3.32 </td> <td style="text-align:right;"> 7.5 </td> <td style="text-align:right;"> 2.03 </td> <td style="text-align:right;"> 0.82 </td> </tr> <tr> <td style="text-align:left;"> III </td> <td style="text-align:right;"> 9 </td> <td style="text-align:right;"> 3.32 </td> <td style="text-align:right;"> 7.5 </td> <td style="text-align:right;"> 2.03 </td> <td style="text-align:right;"> 0.82 </td> </tr> <tr> <td style="text-align:left;"> IV </td> <td style="text-align:right;"> 9 </td> <td style="text-align:right;"> 3.32 </td> <td style="text-align:right;"> 7.5 </td> <td style="text-align:right;"> 2.03 </td> <td style="text-align:right;"> 0.82 </td> </tr> </tbody> </table> ] -- .lc[ - Cztery zbiory danych mają identyczne statystyki podstawowe ] --- # Kwartet Anscombe’a .rc[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-7-1.png" style="display: block; margin: auto;" /> ] -- .lc[ - Wizualizacja danych pokazuje jednak, że wartości w czterech zbiorach się od siebie różnią ] --- class: inverse, left, bottom # Wykresy słupkowe --- # Wykresy słupkowe częstości .lc[ Częstości: |kontynenty | n| |:----------|--:| |Afryka | 52| |Ameryka | 25| |Azja | 33| |Europa | 30| |Oceania | 2| ] -- .rc[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-9-1.png" style="display: block; margin: auto;" /> ] --- # Wykresy słupkowe częstości .lc[ - Jeżeli kolejność słupków nie jest ważna (jak np. w przypadku dat) - to warto je **posortować** ] .rc[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-10-1.png" style="display: block; margin: auto;" /> ] --- # Wykresy słupkowe częstości .lc[ - Jeżeli kolejność słupków nie jest ważna (jak np. w przypadku dat) - to warto je **posortować** ] .rc[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-11-1.png" style="display: block; margin: auto;" /> ] --- # Wykresy słupkowe częstości .lc[ - Odwrócenie osi może pomóc w czytelności wykresu - Dodatkowo: czy opis osi y jest tutaj potrzebny? ] .rc[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-12-1.png" style="display: block; margin: auto;" /> ] --- # Wykresy słupkowe .lc[ - Wykresy słupkowe mogą też przedstawiać wartości przypisane do kolejnych grup/klas/kategorii ] .rc[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-14-1.png" style="display: block; margin: auto;" /> ] --- # Wykresy słupkowe .lc[ - Wykresy słupkowe mogą też przedstawiać wartości przypisane do kolejnych terminów - Ale... ] .rc[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-17-1.png" style="display: block; margin: auto;" /> ] --- # Wykresy słupkowe .lc[ - Wykresy słupkowe mogą też przedstawiać wartości przypisane do kolejnych terminów - Ale... konieczne jest uważanie na jakiej wartości zaczyna się oś y <!-- lie factor --> ] .rc[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-18-1.png" style="display: block; margin: auto;" /> ] --- class: inverse, left, bottom # Wykresy kołowe --- # Wykresy kołowe .lc[ - Wykresy kołowe również przedstawiają częstości ] .rc[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-19-1.png" style="display: block; margin: auto;" /> ] --- # Wykresy kołowe There is no data that can be displayed in a pie chart, that cannot be displayed BETTER in some other type of chart. <div style="text-align:right;"> <h5>John Tukey (?)</h5> </div> A table is nearly always better than a dumb pie chart. <div style="text-align:right;"> <h5>Edward Tufte (2001)</h5> </div> <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-20-1.png" style="display: block; margin: auto;" /> --- # Wykresy kołowe .pull-left[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-21-1.png" style="display: block; margin: auto;" /> ] .pull-right[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-22-1.png" style="display: block; margin: auto;" /> ] - [Wykresy statystyczne a wizualizacje danych](https://drive.google.com/file/d/1Yj1eKHijXUsObQ7HOxht2fIRV-Uj9OGU/view) - różny cel wizualizacji - Wykresy kołowe są przydatne w przypadku porównania proporcji dwóch grup - Nie są one najlepszym wyborem przy porównaniu udziału większej liczby grup - Artykuł ["Why humans love pie charts"](https://blog.usejournal.com/why-humans-love-pie-charts-9cd346000bdc) - Artykuł ["Understanding Pie Charts"](https://eagereyes.org/techniques/pie-charts) --- class: inverse, left, bottom # Histogramy --- # Histogramy - Jak taki wykres został stworzony? Co on przestawia? <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-23-1.png" style="display: block; margin: auto;" /> --- # Porządkowanie statystyczne **Porządkowanie statystyczne** - przedstawienie danych statystycznych w postaci ciągu rosnącego (uporządkowanie rosnące) lub malejącego (uporządkowanie malejące) - 1, 6, 11, 2, 4, 8, 9, 2 -- - 1, 2, 2, 4, 6, 8, 9, 11 --- # Szereg statystyczny **Szereg statystyczny** - zbiór wartości liczbowych badanej cechy uporządkowany według określonych kryteriów -- Typy prostych szeregów statystycznych: - wyliczające - przedstawia rosnąco lub malejąco wartości cechy - **rozdzielcze** - przedstawiają strukturę badanej zbiorowości - geograficzne - przedstawiają rozmieszczenie wartości według podziału przestrzennego (np. administracyjnego) - dynamiczne - przedstawiają rozwój zjawiska w czasie <!-- s5/22 --> <!--to s2/27 --> *Istnieją też złożone szeregi statystyczne, na przykład geograficzno-dynamiczne* --- # Szereg rozdzielczy - Przedstawia strukturę badanej zbiorowości - Jest zestawieniem, w którym wartości badanej cechy statystycznej rozdzielone są na określone grupy (klasy), a każdej grupie (klasie) przyporządkowana jest liczba wartości do niej należących |PKB na osobę (USD, 2007) | Liczebność (liczba krajów)| |:------------------------|--------------------------:| |Poniżej 10000 | 88| |10000-20000 | 21| |20000-30000 | 13| |30000-40000 | 15| |40000-50000 | 5| --- # Histogramy .lc[ - Graficzną reprezentacja rozkładu danych - Wartości danych są łączone w przedziały (na osi poziomej) a na osi pionowej jest ukazana liczba punktów (obserwacji) w każdym przedziale ] .rc[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-25-1.png" style="display: block; margin: auto;" /> ] --- # Histogramy - Różny dobór przedziałów może dawać inną informację <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-26-1.png" style="display: block; margin: auto;" /> <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-27-1.png" style="display: block; margin: auto;" /> --- # Histogramy .pull-left[ - **Histogram liczebności** - wysokości słupków odpowiadają liczebności przedziałów klasowych <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-28-1.png" style="display: block; margin: auto;" /> ] .pull-right[ - **Histogram częstości** - wysokości słupków odpowiadają częstości przedziałów klasowych <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-29-1.png" style="display: block; margin: auto;" /> ] --- # Histogramy - typy rozkładu <!-- rozklady (examples): --> <!-- 1. symetryczny --> <!-- 2. jednostajny --> <!-- 3. lewoskośny --> <!-- 4. prawoskośny --> <!-- 5. bimodalny --> <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-30-1.png" style="display: block; margin: auto;" /> --- class: inverse, left, bottom # Wykresy pudełkowe --- # Wykresy pudełkowe .lc[ - Obrazuje pięć podstawowych statystyk opisowych oraz wartości odstające - Linia środkowa to mediana - Pudełko to zakres międzykwartylowy ] .rc[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-31-1.png" style="display: block; margin: auto;" /> ] --- # Wykresy pudełkowe .lc[ - Linie oznaczają najbardziej ekstremalne wartości, ale nie odstające - Górna to maksymalnie 1,5\* zakres międzykwartylowy ponad krawędź pudełka - Dolna to maksymalnie 1,5\* zakres międzykwartylowy poniżej wartości dolnej krawędzi pudełka ] .rc[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-32-1.png" style="display: block; margin: auto;" /> ] --- # Wykresy pudełkowe .lc[ - Punkty określają wartości odstające ] .rc[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-33-1.png" style="display: block; margin: auto;" /> ] --- class: inverse, left, bottom # Wykresy rozrzutu --- # Wykresy rozrzutu .lc[ - Pokazują relacje między dwoma zmiennymi ilościowymi (osie x i y) ] .rc[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-34-1.png" style="display: block; margin: auto;" /> ] --- # Wykresy rozrzutu .lc[ - Dodatkowo, na **wykresach rozrzutu** można przedstawić trzecią zmienną (i więcej) - W przypadku, gdy trzecia zmienna jest jakościowa można użyć **kolorów** lub ... ] .rc[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-35-1.png" style="display: block; margin: auto;" /> ] --- # Wykresy rozrzutu .lc[ - Dodatkowo, na **wykresach rozrzutu** można przedstawić trzecią zmienną (i więcej) - W przypadku, gdy trzecia zmienna jest jakościowa można użyć kolorów lub **kształtów** ] .rc[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-36-1.png" style="display: block; margin: auto;" /> ] --- # Wykresy rozrzutu .lc[ - Dodatkowo, na **wykresach rozrzutu** można przedstawić trzecią zmienną (i więcej) - W przypadku, gdy trzecia zmienna jest ilościowa można użyć **kolorów** lub ... ] .rc[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-37-1.png" style="display: block; margin: auto;" /> ] --- # Wykresy rozrzutu .lc[ - Dodatkowo, na **wykresach rozrzutu** można przedstawić trzecią zmienną (i więcej) - W przypadku, gdy trzecia zmienna jest ilościowa można użyć kolorów lub **wielkości** ] .rc[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-38-1.png" style="display: block; margin: auto;" /> ] --- class: inverse, left, bottom # Wykresy liniowe --- # Wykresy liniowe .lc[ - Służą najczęściej do pokazywania zmian w czasie ] .rc[ <img src="03-wizualizacja_danych_files/figure-html/unnamed-chunk-40-1.png" style="display: block; margin: auto;" /> ] <!-- kolory? -->