Automatyzacja wizualizacji danych

Strona główna

Dydaktyka

Automatyzacja wizualizacji danych

Skrypt do zajęć

Projekt

Literatura

Dane

Skrócone warunki zaliczeń

Tydzień 1

Wykład

Ćwiczenia

Dla danych gapminder_1950_2023.csv:

  1. Wybierz dane dla kraju “Australia” w roku 1950 i sprawdź, jakie zmienne są dostępne dla tego zbioru danych.
  2. Utwórz nową kolumnę ‘Średnia_PKB’ zawierającą średnią wartość PKB_na_osobe dla każdego regionu w roku 2000.
  3. Posortuj dane malejąco według populacji i zidentyfikuj trzy najbardziej zaludnione kraje w tym zbiorze danych.
  4. Oblicz sumę emisji CO2_na_osobe dla każdego regionu i wskaż dwa regiony z najwyższą emisją CO2_na_osobe.
  5. Usuń wszystkie wiersze, w których brakuje danych w kolumnie Ocz_dl_zycia i ustal ile rekordów zostało usuniętych.
  6. Zgrupuj dane według kontynentu i roku, a następnie oblicz średnią długość życia Ocz_dl_zycia dla każdej grupy.
  7. Znajdź kraj z najwyższą wartością PKB_na_osobe w każdym roku.
  8. Wykreśl wykres liniowy zmian populacji w czasie dla wybranego kraju.
  9. Filtruj dane tak, aby pozostały tylko te kraje, w których Plodnosc jest wyższa niż 3 i ustal ile krajów spełniało to kryterium w roku 1950, 1985, 2020.
  10. Dodatkowe: Utwórz nową kolumnę Roczna_zmiana_PKB, która oblicza coroczną zmianę wartości PKB_na_osobe.

Tydzień 2

Wykład

Ćwiczenia

  1. Obejrzyj dane z pliku data/gapminder_1950_2023_ver3.txt. Jakie zmienne są dostępne w tym zbiorze danych? Jakie są potencjalne problemy z wczytaniem tych danych?
  2. Wczytaj te dane do R jak ramkę danych. Ulepsz nazwy kolumn.
  3. Wartości brakujące w tym zbiorze danych określone są jako "brak". Zamień te wartości na NA (porada: można do tego użyć funkcji ifelse() w połączeniu z mutate()).
  4. Wylicz średnią wartość PKB_na_osobe dla każdego regionu w roku 2000. Do tego celu może być konieczne najpierw zamiana kolumny PKB_na_osobe na typ numeryczny.
  5. Wczytaj do R pierwsze 7 kolumn oraz 100 wierszy z arkusza kalkulacyjnego Ask A Manager Salary Survey 2021.
  6. Popraw nazwy kolumn na krótsze.
  7. Jedna z kolumn zawiera zarobki, które mogą być w różnych walutach. Przelicz je na dolary amerykańskie (USD) zgodnie z kursami wymiany z 1 stycznia 2021 roku (https://www.oanda.com/currency-converter/en/?from=EUR&to=USD&amount=1) (porada: można do tego użyć funkcji ifelse() w połączeniu z mutate()). Jakie są średnie zarobki w tej bazie?
  8. Połącz się z bazą danych data/fifa21_raw_data_v2b.sqlite i wczytaj do R dane z tabeli "fifa21".
  9. Określ średni wzrost piłkarzy w zależności od ich pozycji (porada: może to wymagać wyczyszczenia danych).
  10. Znajdź piłkarza z najwyższą wartością BOV w każdym klubie.
  11. Znajdź piłkarza/y, który najdłużej gra w jednej drużynie (porada: może to wymagać wyczyszczenia danych).

Tydzień 3

Wykład

Ćwiczenia

  1. Wczytaj dane z pliku data/clc_legend_qgis_raster.qml jako ramkę danych z trzema kolumnami: Kolor, Etykieta, Wartość.
  2. Kolumna Etykieta oprócz opisu zawiera także kod. Oddziel te dwie informacje w dwóch kolumnach.
  3. Wydziel tylko te wiersze, których kod zaczyna się od wartości 1 lub 3.
  4. Na podstawie przykładu ze strony https://jakubnowosad.com/auto-wiz-danych/04_integracja.html#api wydobądź prognozowane wartości temperatury dla wybranej pary współrzędnych znajdujących się w Stanach Zjednoczonych (14 wartości).
  5. Przelicz te wartości na stopnie Celsjusza.
  6. Narysuj wykres zmiany prognozowanej temperatury.
  7. Napisz funkcję R, która przyjmie wartości współrzędnych i wyświetli najbliższą prognozowaną temperaturę.
  8. (Dodatkowe) Pod adresem https://api.dane.gov.pl/1.4/ znajduje się API zawierające różnorodne dane dla Polski. Wśród nich jest zbiór danych dotyczących nadawanych drugich imion męskich w roku 2022: resources/44828/data. Połącz się z powyższym adresem i obejrzyj strukturę wydobytych danych json.
  9. (Dodatkowe) Wydobądź pięć najpopularniejszych imion oraz liczbę ich nadań. Na podstawie tych informacji narysuj wykres słupkowy
  10. Wczytaj dwa zbiory danych, gm1 oraz gm2, używając poniższego kodu:
    gm0 = readr::read_csv("data/gapminder_1950_2023.csv")
    gm1 = gm0[1:6]
    gm2 = gm0[c(1, 2, 7, 8)]
    
  11. Ze zbioru danych gm1 wybierz tylko pomiary dla lat 2021–2023.
  12. Dołącz do nowego zbioru danych gm1 wartości ze zbioru gm2. Nazwij nowy zbiór gm3.
  13. Zapisz nowy zbiór danych, gm3, do postaci pliku .csv, pliku .xlsx, oraz bazy danych.

Tydzień 4

Wykład

Tydzień 5

Wykład

Tydzień 6

Wykład

Tydzień 7

Wykład