Bc. Pavel Klečanský

Diplomová práce

Deduplikace dat a jejich využití

Data deduplication and useage options
Anotace:
Diplomová práce se zabývá popisem problematiky deduplikace a spojování záznamu. Teoretická část zahrnuje celý proces deduplikace, od čištění dat až po klasifikaci. Práce také popisuje algoritmy, jako jsou Jaro-Winklerova vzdálenost, Levenshteinova vzdálenost, Damerau-Levenshteinova vzdálenost, Jaccardův index a podobnost Q-gramů. V praktické části práce je vytvořena knihovna, která umožňuje provádění …více
Abstract:
The thesis deals with the description of deduplication and record linkage. The theoretical part covers the whole workflow of deduplication, from data cleaning to classification. The thesis also describes algorithms such as Jaro-Winkler distance, Levenshtein distance, DamerauLevenshtein distance, Jaccard index and Q-gram similarity. In the practical part of the thesis, a library is developed to perform …více
 
 
Jazyk práce: čeština
Datum vytvoření / odevzdání či podání práce: 17. 5. 2024
Zveřejnit od: 31. 12. 2999

Obhajoba závěrečné práce

  • Vedoucí: Ing. Monika Borkovcová, Ph.D.

Citační záznam

Jak správně citovat práci

Klečanský, Pavel. Deduplikace dat a jejich využití. Pardubice, 2024. diplomová práce (Ing.). Univerzita Pardubice. Fakulta elektrotechniky a informatiky

Plný text práce

Právo: Autor si nepřeje zpřístupnění práce veřejnosti

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • Soubory jsou nedostupné.
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Univerzita Pardubice, Fakulta elektrotechniky a informatiky