+ - 0:00:00
Notes for current slide
Notes for next slide

Statystyka i wizualizacja danych

Wprowadzenie

Jakub Nowosad

1 / 21

Kwestie organizacyjne

2 / 21

Kwestie organizacyjne

3 / 21

Program zajęć

  1. wstęp do R, RStudio oraz RMarkdown
  2. przetwarzanie danych
  3. podstawowe statystyki opisowe
  4. wykresy statystyczne i wizualizacja danych
  5. rozkłady danych oraz podstawowe teorie statystyczne
  6. wnioskowanie i testy statystyczne
  7. analiza korelacji
4 / 21

Nabyte umiejętności

  • używania funkcji i wykonywania obliczeń w języku R
  • przetwarzania danych
  • tworzenia oraz interpretacji wykresów statystycznych
  • opisywania charakterystyk rozkładów danych
  • doboru, wykonania oraz interpretacji testów statystycznych
  • zrozumienia zależności numerycznych i ich testowania
  • przedstawienia wyników w postaci raportu
5 / 21

Formy oceny

  • praca na zajęciach
  • wejściówki
  • projekt wykres (I i II)
  • projekt analiza danych
  • zaliczenie końcowe (tylko dla osób, które mają zaliczone powyższe zadania)
  • inne
6 / 21

Kodeks honorowy

  • wszelkie prace domowe czy zaliczeniowe muszą być samodzielne oraz odzwierciedlać sposób myślenia i pracy ich twórcy
7 / 21

Zadanie

9 / 21

Zadanie

install.packages("gapminder")
library(gapminder)

Dane gapminder zawierają informacje o nazwie kraju, nazwie kontynentu, roku danych, oczekiwanej długości życia, populacji oraz PKB na osobę.

Polecenia:

  1. Który kraj miał najdłuższą i najkrótszą wartość oczekiwanej długości życia? W którym roku?
  2. Jaki jest najludniejszy kraj w tym zbiorze?
  3. Jaka jest średnia wartość oczekiwanej długości życia w całej bazie? A jaka jest średnia wartość oczekiwanej długości życia w roku 2007?
  4. Który kontynent miał największą liczbę ludności w roku 2007?
  5. Dla każdego kontynentu wylicz średnią wartość PKB na osobę w roku 2007. Na którym kontynencie ta wartość była najwyższa a na którym najniższa?
  6. Zbuduj wykres pokazujący relację między oczekiwaną długością życia a PKB na osobę w roku 2007.
10 / 21

Statystyka

11 / 21

Statystyka vs Data Science

Typowy projekt data science. Żródło: http://r4ds.had.co.nz/

Typowy projekt data science. Żródło: http://r4ds.had.co.nz/

12 / 21

Rodzaje analiz statystycznych

  • Opisowa - opisywanie zbioru danych
  • Wyjaśniająca - znajdowanie relacji między danymi
  • Inferencyjna (wnioskująca) - testowanie teorii
  • Predykcyjna - tworzenie predykcji
  • Przyczynowa - określanie wpływu jednej zmiennej na inną
  • Mechanistyczna - zrozumienie mechanizmów relacji między zmiennymi
13 / 21

Dane w arkuszu kalkulacyjnym

14 / 21

Organizacja danych

  • Dobrze zorganizowane dane to podstawa dobrej analizy
  • Kilka ważnych porad (wybrane z http://kbroman.org/dataorg/):

    • Bądź konsekwentna/y
    • Zapisuj daty jako YYYY-MM-DD
    • Nie zostawiaj pustych komórek danych
    • Nie używaj kolorów czy wielkości czcionek jako informacji
    • Nie używaj surowych danych do analiz
    • Twórz kopie zapasowe
  • Inne porady dotyczące organizacji danych

15 / 21

R

16 / 21

R - język programowania stworzony do analizy danych

Źródło: https://ismayc.github.io/moderndiver-book/index.html

Źródło: https://ismayc.github.io/moderndiver-book/index.html

17 / 21

Quarto

18 / 21

Quarto

19 / 21

Quarto - zadania

  1. Stwórz nowy plik Quarto (.qmd) w formacie HTML w RStudio.
  2. Ustaw tytuł nowego dokumentu na "Mój pierwszy dokument".
  3. Dodaj swoje imię i nazwisko oraz dzisiejszą datę w nagłówku (podpowiedź: uzupełnij zmienne author: i date: w nagłówku).
  4. Wygeneruj nowy dokument używając ikony "Render".
  5. Dodaj nowy blok kodu (ang. code chunk), wczytujący plik data/pomiary_pol.csv.
  6. Dodaj tekst wyjaśniający w kilku zdaniach dla osoby nie znającej R, co ten kod znaczy.
  7. Zmień format wyjściowy dokumentu na docx. Wygeneruj nowy dokument używając ikony "Render".
20 / 21

"It is easy to lie with statistics; it is easier to lie without them."

Frederick Mosteller

21 / 21

Kwestie organizacyjne

2 / 21
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow