Zpracování velkých objemů nestrukturovaných dat na platformě Hadoop – Martin Prouza
Martin Prouza
Bachelor's thesis
Zpracování velkých objemů nestrukturovaných dat na platformě Hadoop
Processing Large Volumes of Unstructured Data on Hadoop Platform
Abstract:
Tato práce se zabývá zpracováním nestrukturovaného textu na platformě Hadoop. První část se zaměřuje na důvody vzniku konceptu Big Data. Vysvětlím problematiku dat dnešní doby a ukážu, proč jsou běžné databázové systémy nevhodné pro práci s nestrukturovanými či velkými objemy dat. Další část je zaměřená na teorii konceptu Big Data a jeho zpracování na platformě Hadoop. Představím Hadoop architekturu …moreAbstract:
This thesis is concerned with processing unstructured text on Hadoop platform. First part focuses on the reasons of creation Big Data concept. I explain data issue of these days and show, why common database systems are inappropriate for working with huge amounts of unstructured data. The next part focuses on theory about Big Data concept and processing on Hadoop platform. I introduce Hadoop architecture …more
Language used: Czech
Date on which the thesis was submitted / produced: 7. 5. 2015
Identifier:
http://hdl.handle.net/10084/108911
Thesis defence
- Date of defence: 3. 6. 2015
- Supervisor: Jiří Skácelík
- Reader: Radim Bača
Citation record
ISO 690-compliant citation record:
PROUZA, Martin. \textit{Zpracování velkých objemů nestrukturovaných dat na platformě Hadoop}. Online. Bachelor's thesis. Ostrava: VŠB - Technical University of Ostrava, Fakulta elektrotechniky a informatiky. 2015. Available from: https://theses.cz/id/qv0l5k/.
Full text of thesis
Accessibility: Plné texty vysokoškolských kvalifikačních prací obhájených na Vysoké škole báňské - Technické univerzitě Ostrava jsou uloženy v repozitáři DSpace. Přístup k plným textům mají všichni uživatelé bez omezení. Přístup je omezen pouze ve výjimečných případech, zpravidla z důvodu ochrany duševního vlastnictví. Nepřístupné práce jsou označeny jako closedAccess nebo embargoedAccess. Tištěné verze prácí jsou uloženy v Ústřední knihovně VŠB-TUO a jsou prezenčně přístupné ve studovně diplomových prací. Další nakládání s prací (kopírování, opisy, MVS) se řídí Knihovní a výpůjčním řádem Ústřední knihovny VŠB-TUO.
Contents of on-line thesis archive
Published in Theses:- autentizovaným zaměstnancům ze stejné školy/fakulty
Other ways of accessing the text
Institution archiving the thesis and making it accessible: VŠB - Technická univerzita OstravaVŠB - Technical University of Ostrava
Fakulta elektrotechniky a informatikyBachelor programme / field:
Informační a komunikační technologie / Informatika a výpočetní technika
Theses on a related topic
-
Zvýšení výkonnosti distribuovaného souborového systému
Ladislav PEŠIČKA -
Testování distribuovaných souborových systémů pro Cloud
Adam Tomek -
Dynamické směrování v distribuovaných souborových systémech
Luboš MATĚJKA -
Simulátor distribuovaného souborového systému
Martin KUČERA -
Knowledge Extraction from Huge Astronomical Data Sets using Massively Parallel Processing
Martin Cendelín -
Paralelní zpracování dat a možnosti datové analytiky v rámci Big Data
Lukáš Derján -
Paralelní zpracování dat a možnosti datové analytiky v rámci Big Data
Lukáš Derján -
Návrh a implementace aplikace pro systém SAP HANA s využitím paralelního zpracování dat
Jan Hošna