Delavnica: Napredna obdelava velepodatkov v Pythonu

Europe/Ljubljana
MS TEAMS

MS TEAMS

Mladen Borovič (UM FERI)
Description

Kratek opis: Udeleženci bodo spoznali različne načine pohitritve nalaganja večjih podatkovnih zbirk s knjižnico Pandas. Nadalje bodo predstavljeni načini dodatnih pohitritev dela z večjimi podatkovnimi zbirkami, ki jih omogočata knjižnici Polars in cuDF. Udeleženci bodo s primerjavo izvedbe funkcij za delo s podatki v omenjenih knjižnicah spoznali prednosti in slabosti posameznih pristopov za obdelavo podatkov.

Podrobnejši opis: V tej delavnici bodo udeleženci spoznali učinkovite metode za pospešitev procesov nalaganja in obdelave večjih podatkovnih zbirk z uporabo knjižnice Pandas, ki je uveljavljena v svetu podatkovne znanosti in analitike. Poleg optimizacij znotraj Pandas bodo predstavljene tudi alternativne knjižnice, kot sta Polars in cuDF, ki omogočata dodatno pospešitev dela z obsežnimi podatki. Udeleženci bodo pridobili praktične vpoglede v posebne prednosti, ki jih ponujajo te knjižnice, pri čemer bo Polars primeren za analize na računalnikih z omejenimi viri, cuDF pa za optimizacijo na sistemih, ki podpirajo pospeševanje z grafičnimi karticami.

V delavnici bo prikazana primerjava izvajanja osnovnih funkcij za obdelavo podatkov v vseh treh knjižnicah. Udeleženci bodo spoznali, kako različne metode delujejo v praksi, ter izvedeli, v katerih situacijah se bolj splača uporabiti Pandas, Polars ali cuDF. S primeri bo prikazana prilagoditev uporabe knjižnice glede na različne scenarije obdelave podatkov, od preprostega filtriranja in združevanja do obsežnih transformacij in operacij, ki zahtevajo večjo procesorsko moč ali paralelizacijo.

Delavnica bo tako omogočila udeležencem razviti širši nabor znanj za obdelavo podatkov, s čimer bodo lažje izbirali najbolj optimalne pristope za določene podatkovne projekte.
 

Zahtevnost: Napredna

Jezik: Slovenski

Termin: 11. 12. 2024 od 9.00 - 13.00

Omejitev števila udeležencev: 30

Virtualna lokacija: MS TEAMS

Priporočeno predznanje: Osnovno poznavanje programskega jezika Python, poznavanje osnov obdelave velepodatkov (delavnica Uvod v obdelavo velepodatkov v Pythonu)

Ciljna publika: Raziskovalci, inženirji, študenti, podatkovni znanstveniki, podatkovni analitiki 

Potek izobraževanja: Izobraževanje poteka na daljavo v okolju MS Teams. Udeleženci sodelujejo s pomočjo zvezkov Jupyter, ki jih odprejo na platformi Google Colab.

Na izobraževanju pridobljena znanja:

  • Uporaba osnovnih funkcij knjižnic Pandas, Polars in cuDF za obdelavo velepodatkov
  • Uporaba naprednih funkcij knjižnice Pandas, Polars in cuDF za delo z velepodatki
  • Optimizacija nalaganja in shranjevanja velepodatkov
  • Primerjava datotečnih formatov velepodatkovnih zbirk
  • Obdelava velepodatkov na grafični procesni enoti

 

Organizator:

Predavatelji:

Ime:Mladen Borovič
Opis:Mladen Borovič je asistent na Fakulteti za elektrotehniko, računalništvo in informatiko Univerze v Mariboru (UM FERI). Njegova raziskovalna področja so aplikacije umetne inteligence, priporočilni sistemi in iskalnike, sistemi za detekcijo podobnih vsebin, obdelava naravnega jezika in visokozmogljivo računalništvo.
E-mail:mladen.borovic@um.si 

 


Registration
Registration
    • Uvod (Predstavitev predavatelja. · Prijava v interaktivno okolje Google Colab. · Dodelitev dostopa do interaktivnih zvezkov Jupyter.)
    • Napredna obdelava velepodatkov ( • Napredne funkcionalnosti knjižnice Pandas • Optimizacija podatkovnih tipov • Primerjava datotečnih formatov • Praktični primeri)
    • 11:00
      Odmor
    • Pospeševanje obdelave velepodatkov (• Funkcionalnosti knjižnice Polars in primerjava s Pandas • Obdelava velepodatkov na GPE (knjižnica cuDF) • Profiliranje obdelave velepodatkov na GPE • Praktični primeri)