Šimon Dalecký

Master's thesis

Shlukování binárních dat v distribuovaném výpočetním prostředí

Clustering of Binary Data in a Distributed Computing Environment
Anotácia:
Tato diplomová práce se věnuje identifikaci modelových portfolií v rámci rozsáhlých datových souborů, kdy rozměry datových souborů odpovídají desítkám milionů záznamů a tisícovkám popisných atributů. Jedním z nejvhodnějších nástrojů pro zpracování a analýzu rozsáhlých datových souborů je v současnosti Apache Spark, který poskytuje rozhraní pro zpracovávání dat na výpočetních clusterech a pomocí paralelizace …viac
Abstract:
The scope of master thesis is to identify model investment portfolios within large datasets, where the dimensions of the datasets correspond to tens of millions of records and thousands of descriptive attributes. One of the most suitable tools for large-scale data processing is currently Apache Spark, which provides an interface for programming entire clusters with implicit data parallelism. The task …viac
 
 
Jazyk práce: Czech
Datum vytvoření / odevzdání či podání práce: 6. 4. 2020

Obhajoba závěrečné práce

  • Obhajoba proběhla 8. 6. 2021
  • Vedúci: Petr Máša
  • Oponent: Radek Nevyhoštěný

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • autentizovaným zaměstnancům ze stejné školy/fakulty
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Vysoká škola ekonomická v Praze
https://vskp.vse.cz/eid/83057

Vysoká škola ekonomická v Praze

Master programme / odbor:
Aplikovaná informatika / Znalostní a webové technologie