Analyzing Data Lakehouse: The Latest Evolution of Big Data Architectures and Its Benefits for Data Science – Ondřej Holub
Ondřej Holub
Diplomová práce
Analyzing Data Lakehouse: The Latest Evolution of Big Data Architectures and Its Benefits for Data Science
Analýza data lakehouse: Nejnovější evoluce v big data architekturách a její přínosy pro data science
Anotace:
Data lakehouse je novou generací architektur distribuovaných platforem pro datovou analýzu, která v unifikovaném modelu spojuje klíčové výhody platforem data lake a data warehouse a umožňuje provádět různorodé data science a business intelligence úlohy nad společnou datovou základnou. Tato práce zkoumá nově přicházející architekturu data lakehouse a sadu souvisejících technologií pro předzpracování …víceAbstract:
The data lakehouse is a new-generation distributed data analytics platform architecture that combines key benefits of data lakes and warehouses into a unified design, reconciling diverse data science and business intelligence workloads over a common data foundation. This thesis examines the novel data lakehouse architecture and a set of associated data preprocessing and data science technologies and …více
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 28. 4. 2022
Identifikátor:
https://vskp.vse.cz/eid/85749
Obhajoba závěrečné práce
- Obhajoba proběhla 1. 6. 2022
- Vedoucí: Petr Máša
- Oponent: Jan Rauch
Citační záznam
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- autentizovaným zaměstnancům ze stejné školy/fakulty
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Vysoká škola ekonomická v Prazehttps://vskp.vse.cz/eid/85749
Vysoká škola ekonomická v Praze
Magisterský studijní program / obor:
Aplikovaná informatika / Znalostní a webové technologie
Práce na příbuzné téma
-
Machine learning for isotropic and anisotropic weak interactions
Simona Dubcová -
Machine Learning for Text Anomaly Detection
Alina Tsykynovska -
Strojové učení na platformě Apache Spark
František Hylmar -
Přenesení extraktorů nástroje Plaso na platformu Apache Spark
Miroslav Baláž -
Automatizace testování softwaru na různých verzích platformy Apache Spark
Karolína Radovská -
Zpracování síťové komunikace v prostředí Apache Spark
Michal Béder -
Strojové učení v oblasti Big Data
Michal Šimánek -
Deploying Data Lake for Big Data Management
Tomáš Chomo