class: center, middle, inverse, title-slide .title[ # Statystyka i wizualizacja danych ] .subtitle[ ## Wprowadzenie ] .author[ ### Jakub Nowosad
nowosad@amu.edu.pl
] --- class: inverse, middle, center # Kwestie organizacyjne --- ## Kwestie organizacyjne - Jakub Nowosad - nowosad@amu.edu.pl - dyżur: online, po ustaleniu mailowo terminu - [https://jakubnowosad.com/statystyka-l/](https://jakubnowosad.com/statystyka-l/) --- ## Program zajęć 1. wstęp do R, RStudio oraz RMarkdown 1. przetwarzanie danych 1. podstawowe statystyki opisowe 1. wykresy statystyczne i wizualizacja danych 1. rozkłady danych oraz podstawowe teorie statystyczne 1. wnioskowanie i testy statystyczne 1. analiza korelacji --- ## Nabyte umiejętności - używania funkcji i wykonywania obliczeń w języku R - przetwarzania danych - tworzenia oraz interpretacji wykresów statystycznych - opisywania charakterystyk rozkładów danych - doboru, wykonania oraz interpretacji testów statystycznych - zrozumienia zależności numerycznych i ich testowania - przedstawienia wyników w postaci raportu --- ## Formy oceny - praca na zajęciach - wejściówki - projekt wykres (I i II) - projekt analiza danych - zaliczenie końcowe (tylko dla osób, które mają zaliczone powyższe zadania) - inne --- ## Kodeks honorowy - wszelkie prace domowe czy zaliczeniowe muszą być samodzielne oraz odzwierciedlać sposób myślenia i pracy ich twórcy --- ## Źródła wiedzy - [Elementarz programisty](https://nowosad.github.io/elp/), [R for Data Science](http://r4ds.had.co.nz/), [Efficient R programming](https://csgillespie.github.io/efficientR/), [Geocomputation with R](https://geocompr.robinlovelace.net/), [ggplot2: Elegant Graphics for Data Analysis](https://ggplot2-book.org/), [R Graphics Cookbook, 2nd edition](https://r-graphics.org/) - książki online <!-- - [wydawnictwo CRC Press](https://www.crcpress.com/Chapman--HallCRC-The-R-Series/book-series/CRCTHERSER), [wydawnictwo O'Reilly](http://search.oreilly.com/?q=r&x=40&y=17), [amazon](https://www.amazon.com/s/keywords=r+statistics+programming+language&unfiltered=1&ie=UTF8&qid=1535644800), [wydawnictwo Springer](https://www.springer.com/series/6991) - dziesiątki książek o R --> - [Przewodnik po pakiecie R](http://www.biecek.pl/R/), [Programowanie w języku R](https://github.com/gagolews/Programowanie_w_jezyku_R/), [Język R. Kompletny zestaw narzędzi dla analityków danych](https://helion.pl/ksiazki/jezyk-r-kompletny-zestaw-narzedzi-dla-analitykow-danych-hadley-wickham-garrett-grolemund,jezrkv.htm#format/d), [Wydajne programowanie w R](https://helion.pl/ksiazki/wydajne-programowanie-w-r-praktyczny-przewodnik-po-lepszym-programowaniu-colin-gillespie-robin-lovelace,e_1vi4.htm#format/e), [Statystycznie rzecz biorąc](https://janinadaily.com/ksiazka-statystycznie-rzecz-biorac/) - polskie wydawnictwa - [the R Journal](https://journal.r-project.org/) <!-- - [inne](http://cran.r-project.org/other-docs.html) --> <!-- - [dokumentacja ggplot2](https://ggplot2.tidyverse.org/reference/) --> - wyszukiwarki internetowe [Rseek](http://www.rseek.org/), [Duckduckgo](http://duckduckgo.com/), [Google](http://google.com/), [Bing](http://bing.com/), itd. - LLMs? tak, ale pod warunkiem uwzględnienia opisu ich użycia --- class: inverse, middle, center # Zadanie --- ## Zadanie ```r install.packages("gapminder") library(gapminder) ``` Dane `gapminder` zawierają informacje o nazwie kraju, nazwie kontynentu, roku danych, oczekiwanej długości życia, populacji oraz PKB na osobę. Polecenia: 1. Który kraj miał najdłuższą i najkrótszą wartość oczekiwanej długości życia? W którym roku? 2. Jaki jest najludniejszy kraj w tym zbiorze? 3. Jaka jest średnia wartość oczekiwanej długości życia w całej bazie? A jaka jest średnia wartość oczekiwanej długości życia w roku 2007? 4. Który kontynent miał największą liczbę ludności w roku 2007? 5. Dla każdego kontynentu wylicz średnią wartość PKB na osobę w roku 2007. Na którym kontynencie ta wartość była najwyższa a na którym najniższa? 6. Zbuduj wykres pokazujący relację między oczekiwaną długością życia a PKB na osobę w roku 2007. --- class: inverse, middle, center # Statystyka --- ## [Statystyka vs Data Science](https://twitter.com/StephdeSilva/status/1017251669447340033/photo/1) <div class="figure" style="text-align: center"> <img src="fig/data-science.png" alt="Typowy projekt data science. Żródło: http://r4ds.had.co.nz/" /> <p class="caption">Typowy projekt data science. Żródło: http://r4ds.had.co.nz/</p> </div> --- ## [Rodzaje analiz statystycznych](http://www.statlit.org/pdf/2013-Smith-Data-Analytics-Six-Types-P1.pdf) - **Opisowa** - opisywanie zbioru danych - **Wyjaśniająca** - znajdowanie relacji między danymi - **Inferencyjna (wnioskująca)** - testowanie teorii - Predykcyjna - tworzenie predykcji - Przyczynowa - określanie wpływu jednej zmiennej na inną - Mechanistyczna - zrozumienie mechanizmów relacji między zmiennymi --- class: inverse, middle, center # Dane w arkuszu kalkulacyjnym --- ## Organizacja danych - Dobrze zorganizowane dane to podstawa dobrej analizy - Kilka ważnych porad (wybrane z <http://kbroman.org/dataorg/>): - Bądź konsekwentna/y - Zapisuj daty jako YYYY-MM-DD - Nie zostawiaj pustych komórek danych - Nie używaj kolorów czy wielkości czcionek jako informacji - Nie używaj surowych danych do analiz - Twórz kopie zapasowe - [Inne porady dotyczące organizacji danych](https://rtask.thinkr.fr/blog/the-ten-commandments-for-a-well-formatted-database/) --- class: inverse, middle, center # R --- ## R - język programowania stworzony do analizy danych <div class="figure" style="text-align: center"> <img src="fig/r_vs_rstudio.png" alt="Źródło: https://ismayc.github.io/moderndiver-book/index.html" /> <p class="caption">Źródło: https://ismayc.github.io/moderndiver-book/index.html</p> </div> - [Instalacja R](https://cran.r-project.org/) - [Instalacja RStudio](https://posit.co/download/rstudio-desktop/) - [R vs Excel](https://fantasyfootballanalytics.net/2014/01/why-r-is-better-than-excel.html) - [Lista firm używających R](https://github.com/ThinkR-open/companies-using-r) --- class: inverse, middle, center # Quarto --- ## Quarto - (bardzo) prosty język znaczników służący do formatowania tekstu - jest rozwinięciem języka Markdown o możliwości dodawania kodu i wyników z R oraz innych języków programowania (np. Python czy Julia) - pozwala szybko tworzyć raporty i projekty oparte o języki programowania - podstawowe zasady użycia - *Markdown Quick Reference* - https://quarto.org/docs/get-started/authoring/rstudio.html - Quarto pozwala także na [tworzenie prezentacji, stron internetowych i książek](https://www.youtube.com/live/AUt-GOZJQaY?feature=shared&t=334) --- ## Quarto - zadania 1. Stwórz nowy plik Quarto (.qmd) w formacie HTML w RStudio. 2. Ustaw tytuł nowego dokumentu na "Mój pierwszy dokument". 3. Dodaj swoje imię i nazwisko oraz dzisiejszą datę w nagłówku (podpowiedź: uzupełnij zmienne `author:` i `date:` w nagłówku). 4. Wygeneruj nowy dokument używając ikony "Render". 5. Dodaj nowy blok kodu (ang. *code chunk*), wczytujący plik `data/pomiary_pol.csv`. 6. Dodaj tekst wyjaśniający w kilku zdaniach dla osoby nie znającej R, co ten kod znaczy. 7. Zmień format wyjściowy dokumentu na `docx`. Wygeneruj nowy dokument używając ikony "Render". --- class: middle, center # "It is easy to lie with statistics; it is easier to lie without them." Frederick Mosteller