DAPHNE – Integracija kanalov za analizo podatkov za upravljanje velikih podatkov, HPC in strojno učenje

Koordinator projekta

  • Know-Center GmbH (Avstrija)

Opis projekta

Sodobne podatkovno vodene aplikacije izkoriščajo velike, raznolike zbirke podatkov, da bi našle zanimive vzorce in zgradile robustne modele strojnega učenja (ML) za natančne napovedi. Velike velikosti podatkov in napredna analitika so spodbudile razvoj in sprejemanje podatkovno vzporednih računskih ogrodij, kot sta Apache Spark ali Flink, pa tudi porazdeljenih sistemov ML, kot so MLlib, TensorFlow ali PyTorch. Ključno opažanje je, da imajo ti novi sistemi veliko podobnih pristopov iz tradicionalnega visokozmogljivega računalništva (HPC) in da se arhitektura osnovnih grozdov strojne opreme zbližuje.

Kljub temu se programske paradigme, upravljanje virov grozda ter formati in predstavitve podatkov bistveno razlikujejo glede na sklope programske opreme za upravljanje podatkov, HPC in ML. Obstaja pa trend k zapletenim cevovodom za analizo podatkov, ki združujejo te različne sisteme. Primeri so poteki dela porazdeljene predhodne obdelave podatkov, uglašene knjižnice HPC in namenski sistemi ML, pa tudi aplikacije HPC, ki izkoriščajo modele ML za stroškovno učinkovitejšo simulacijo. Glavne ovire so:

  • omejena razvojna produktivnost integriranih cevovodov za analizo zaradi različnih programskih modelov in ločena okolja grozdov,
  • nepotrebna režija pri pretoku podatkov in premajhna izrabljenost zaradi ločenih, statično predvidenih grozdov in
  • pomanjkanje skupne sistemske infrastrukture z dobro interoperabilnostjo.

Iz teh razlogov je splošni cilj DAPHNE opredelitev odprte in razširljive sistemske infrastrukture za integrirane cevovode za analizo podatkov. Naš cilj je zgraditi referenčno izvedbo jezikovnih abstrakcij (tj. API-jev in jezik, specifičen za domeno), vmesno predstavitev ter tehnike prevajanja in izvajanja s podporo za integracijo in razporejanje heterogenih pospeševalnikov in pomnilniških naprav.

Za kvalitativno in kvantitativno analizo bodo v primerjavi z najsodobnejšimi uporabljeni številni primeri z dejanskega sveta, visoko vplivni primeri uporabe, podatkovni nabori in nov nabor primerjalnih testov za meritve zmogljivosti.