Detail předmětu

Základy zpracování dat

FSI-SZD-A Ak. rok: 2025/2026 Zimní semestr

Předmět je zaměřen na základní práci s daty: představení databází a efektivní práci s nimi; základy statistického zpracování – lineární regrese, strojové učení; vizualizace výsledků, včetně geografických výstupů. Hlavní důraz předmětu je na praktické aspekty, všechny představené koncepty jsou implementovány v programovacím jazyce python.

Jazyk výuky

angličtina

Počet kreditů

6

Zajišťuje ústav

Vstupní znalosti

Základy programování.

Základy popisné statistiky, teorie pravděpodobnosti a matematické statistiky.

Pravidla hodnocení a ukončení předmětu

Během semestru budou studenti pracovat na dvou vlastních projektech zaměřených na i) práci s databázemi ii) zpracování a prezentaci dat (interaktivní dashboad).
Tyto projekty jsou povinné pro udělení zápočtu. Ať už s využitím těchto dílčích projektů nebo nezávisle na nich student zpracuje individuálně finální projekt zaměřený na zpracování dat, jehož téma bude s vyučujícím dopředu zkonzultováno. Zkouška probíhá ústně formou rozpravy nad tímto projektem, jenž bude ohodnocen na stupnici 0 – 100.

Hodnocení podle bodů: výborně (90 až 100 bodů), velmi dobře (80 až 89), dobře (70 až 79 bodů), uspokojivě (60 až 69 bodů), dostatečně (50 až 59 bodů), nevyhovující (0 až 49 bodů).

Účast na přednáškách v tomto předmětu není kontrolována.
Účast na cvičeních je povinná. Během semestru jsou tolerovány dvě neomluvené absence. Nahrazení zameškané výuky určí vedoucí cvičení.

Učební cíle

Seznámení studentů s dalšími pojmy, metodami a postupy teorie pravděpodobnosti, popisné a matematické statistiky. Navázat na výuku pravděpodobnosti a statistiky v předcházejících kurzech. Formování stochastického způsobu myšlení pro tvorbu matematických modelů s důrazem na aplikovatelnost na datech.


Studenti si rozšíří znalosti z pravděpodobnosti a statistiky a to zejména v oblastech:

  • odhadech parametrů zvoleného rozdělení
  • současné testování více parametrů
  • testování statistických hypotéz o rozdělení
  • korelační analýzy
  • regresní analýzy včetně tvorby regresních modelů
  • tvorby odhadů parametrů
  • Bayesovské statistiky
  • neparametrických metod

Použití předmětu ve studijních plánech

Program N-LAN-A: Logistics Analytics, magisterský navazující, povinný

Typ (způsob) výuky

 

Přednáška

26 hod., nepovinná

Osnova


  1. Shrnutí a připomenutí vědomostí a metod používaných v předcházejících kurzech – pravděpodobnost, náhodná proměnná.

  2. Shrnutí a připomenutí vědomostí a metod používaných v předcházejících kurzech –náhodný vektor, matematická statistika. Nastínění dalších oblastí z pravděpodobnosti a statistiky, které budou probrány.

  3. Rozšíření testů hypotéz pro binomické a normální rozdělení.

  4. Analýza rozptylu (jednoduché třídění, dvojné třídění bez interakcí a s interakcemi). Mnohonásobné porovnávání (Scheffého a Tukeyho metody).

  5. Korelační analýza

  6. Regresní analýza – část 1: lineární regresní model.

  7. Regresní analýza – část 2: nelineární regresní model. Diagnostika.

  8. Test dobré shody a další testy o rozdělení.

  9. Odhad parametrů s pomocí metody momentů a metody maximální věrohodnosti.

  10. Bayesovský přístup a konstrukce Bayesovských odhadů.

  11. Neparametrické metody testování statistických hypotéz – část 1.

  12. Neparametrické metody testování statistických hypotéz – část 2.

  13. Analýza kategoriálních dat. Kontingenční tabulky. Test nezávislosti. Čtyřpolní tabulky. Fisherův exaktní test.

Cvičení s počítačovou podporou

26 hod., povinná

Osnova


  1. Připomenutí příkladů probraných v předcházejících kurzech – pravděpodobnost, náhodná proměnná.

  2. Připomenutí příkladů probraných v předcházejících kurzech – náhodný vektor, matematická statistika.

  3. Testy hypotéz pro binomické a normální rozdělení.

  4. Zadání projektu, analýza rozptylu, post-hoc analýza.

  5. Korelační analýza

  6. Regresní analýza – lineární modely.

  7. Regresní analýza – nelineární modely.

  8. Testy o rozdělení, testy dobré shody.

  9. Metoda momentů a metoda maximální věrohodnosti.

  10. Bayesovské odhady.

  11. Neparametrické metody testování statistických hypotéz – část 1.

  12. Neparametrické metody testování statistických hypotéz – část 2.

  13. Analýza kategoriálních dat. Kontingenční tabulky. Čtyřpolní tabulky.