Šimon Dalecký

Master's thesis

Shlukování binárních dat v distribuovaném výpočetním prostředí

Clustering of Binary Data in a Distributed Computing Environment
Abstract:
Tato diplomová práce se věnuje identifikaci modelových portfolií v rámci rozsáhlých datových souborů, kdy rozměry datových souborů odpovídají desítkám milionů záznamů a tisícovkám popisných atributů. Jedním z nejvhodnějších nástrojů pro zpracování a analýzu rozsáhlých datových souborů je v současnosti Apache Spark, který poskytuje rozhraní pro zpracovávání dat na výpočetních clusterech a pomocí paralelizace …more
Abstract:
The scope of master thesis is to identify model investment portfolios within large datasets, where the dimensions of the datasets correspond to tens of millions of records and thousands of descriptive attributes. One of the most suitable tools for large-scale data processing is currently Apache Spark, which provides an interface for programming entire clusters with implicit data parallelism. The task …more
 
 
Language used: Czech
Date on which the thesis was submitted / produced: 6. 4. 2020

Thesis defence

  • Date of defence: 8. 6. 2021
  • Supervisor: Petr Máša
  • Reader: Radek Nevyhoštěný

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • autentizovaným zaměstnancům ze stejné školy/fakulty
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Vysoká škola ekonomická v Praze
https://vskp.vse.cz/eid/83057

Vysoká škola ekonomická v Praze

Master programme / field:
Aplikovaná informatika / Znalostní a webové technologie