Shlukování binárních dat v distribuovaném výpočetním prostředí – Šimon Dalecký
Šimon Dalecký
Diplomová práce
Shlukování binárních dat v distribuovaném výpočetním prostředí
Clustering of Binary Data in a Distributed Computing Environment
Anotace:
Tato diplomová práce se věnuje identifikaci modelových portfolií v rámci rozsáhlých datových souborů, kdy rozměry datových souborů odpovídají desítkám milionů záznamů a tisícovkám popisných atributů. Jedním z nejvhodnějších nástrojů pro zpracování a analýzu rozsáhlých datových souborů je v současnosti Apache Spark, který poskytuje rozhraní pro zpracovávání dat na výpočetních clusterech a pomocí paralelizace …víceAbstract:
The scope of master thesis is to identify model investment portfolios within large datasets, where the dimensions of the datasets correspond to tens of millions of records and thousands of descriptive attributes. One of the most suitable tools for large-scale data processing is currently Apache Spark, which provides an interface for programming entire clusters with implicit data parallelism. The task …více
Jazyk práce: čeština
Datum vytvoření / odevzdání či podání práce: 6. 4. 2020
Identifikátor:
https://vskp.vse.cz/eid/83057
Obhajoba závěrečné práce
- Obhajoba proběhla 8. 6. 2021
- Vedoucí: Petr Máša
- Oponent: Radek Nevyhoštěný
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- autentizovaným zaměstnancům ze stejné školy/fakulty
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Vysoká škola ekonomická v Prazehttps://vskp.vse.cz/eid/83057
Vysoká škola ekonomická v Praze
Magisterský studijní program / obor:
Aplikovaná informatika / Znalostní a webové technologie
Práce na příbuzné téma
-
Rozšíření systému pro shlukovou analýzu binárních souborů
Pavol Plaskoň -
Hierarchical cluster analysis of categorical data
Zdeněk Šulc -
Processing Big Data on Spark and Databricks
Viet ha Nguyen -
Data science v prostředí Apache Spark
Roman Hanzlík -
Měření výkonu proudového zpracování dat s využitím Apache Spark
Filip Halas -
Analyzing Data Lakehouse: The Latest Evolution of Big Data Architectures and Its Benefits for Data Science
Ondřej Holub -
Proudové zpracování dat v oblasti síťové bezpečnosti: Apache Spark
Martin Jelínek