Shlukování binárních dat v distribuovaném výpočetním prostředí – Šimon Dalecký
Šimon Dalecký
Master's thesis
Shlukování binárních dat v distribuovaném výpočetním prostředí
Clustering of Binary Data in a Distributed Computing Environment
Abstract:
Tato diplomová práce se věnuje identifikaci modelových portfolií v rámci rozsáhlých datových souborů, kdy rozměry datových souborů odpovídají desítkám milionů záznamů a tisícovkám popisných atributů. Jedním z nejvhodnějších nástrojů pro zpracování a analýzu rozsáhlých datových souborů je v současnosti Apache Spark, který poskytuje rozhraní pro zpracovávání dat na výpočetních clusterech a pomocí paralelizace …moreAbstract:
The scope of master thesis is to identify model investment portfolios within large datasets, where the dimensions of the datasets correspond to tens of millions of records and thousands of descriptive attributes. One of the most suitable tools for large-scale data processing is currently Apache Spark, which provides an interface for programming entire clusters with implicit data parallelism. The task …more
Language used: Czech
Date on which the thesis was submitted / produced: 6. 4. 2020
Identifier:
https://vskp.vse.cz/eid/83057
Thesis defence
- Date of defence: 8. 6. 2021
- Supervisor: Petr Máša
- Reader: Radek Nevyhoštěný
Citation record
Full text of thesis
Contents of on-line thesis archive
Published in Theses:- autentizovaným zaměstnancům ze stejné školy/fakulty
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Vysoká škola ekonomická v Prazehttps://vskp.vse.cz/eid/83057
Vysoká škola ekonomická v Praze
Master programme / field:
Aplikovaná informatika / Znalostní a webové technologie
Theses on a related topic
-
Rozšíření systému pro shlukovou analýzu binárních souborů
Pavol Plaskoň -
Hierarchical cluster analysis of categorical data
Zdeněk Šulc -
Processing Big Data on Spark and Databricks
Viet ha Nguyen -
Data science v prostředí Apache Spark
Roman Hanzlík -
Měření výkonu proudového zpracování dat s využitím Apache Spark
Filip Halas -
Analyzing Data Lakehouse: The Latest Evolution of Big Data Architectures and Its Benefits for Data Science
Ondřej Holub -
Proudové zpracování dat v oblasti síťové bezpečnosti: Apache Spark
Martin Jelínek