Šimon Dalecký

Diplomová práce

Shlukování binárních dat v distribuovaném výpočetním prostředí

Clustering of Binary Data in a Distributed Computing Environment
Anotace:
Tato diplomová práce se věnuje identifikaci modelových portfolií v rámci rozsáhlých datových souborů, kdy rozměry datových souborů odpovídají desítkám milionů záznamů a tisícovkám popisných atributů. Jedním z nejvhodnějších nástrojů pro zpracování a analýzu rozsáhlých datových souborů je v současnosti Apache Spark, který poskytuje rozhraní pro zpracovávání dat na výpočetních clusterech a pomocí paralelizace …více
Abstract:
The scope of master thesis is to identify model investment portfolios within large datasets, where the dimensions of the datasets correspond to tens of millions of records and thousands of descriptive attributes. One of the most suitable tools for large-scale data processing is currently Apache Spark, which provides an interface for programming entire clusters with implicit data parallelism. The task …více
 
 
Jazyk práce: čeština
Datum vytvoření / odevzdání či podání práce: 6. 4. 2020

Obhajoba závěrečné práce

  • Obhajoba proběhla 8. 6. 2021
  • Vedoucí: Petr Máša
  • Oponent: Radek Nevyhoštěný

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • autentizovaným zaměstnancům ze stejné školy/fakulty
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Vysoká škola ekonomická v Praze
https://vskp.vse.cz/eid/83057

Vysoká škola ekonomická v Praze

Magisterský studijní program / obor:
Aplikovaná informatika / Znalostní a webové technologie