Extrakce strukturovaných dat z českého webu s využitím extrakčních ontologií – Aleš Pouzar
Aleš Pouzar
Diplomová práce
Extrakce strukturovaných dat z českého webu s využitím extrakčních ontologií
Extracting Structured Data from Czech Web Using Extraction Ontologies
Anotace:
Předkládaná práce se zabývá úlohou automatické extrakce informací z HTML dokumentů ve dvou vybraných doménách. Ze stránek e-shopů jsou extrahovány nabídky notebooků a z webových prezentací firem volně publikované pracovní nabídky. Výsledkem extrakčního procesu jsou strukturovaná data uspořádaná do záznamů, ve kterých je každému údaji přiřazena odpovídající sémantická značka. Pro realizaci úlohy byl …víceAbstract:
The presented thesis deals with the task of automatic information extraction from HTML documents for two selected domains. Laptop offers are extracted from e-shops and free-published job offerings are extracted from company sites. The extraction process outputs structured data of high granularity grouped into data records, in which corresponding semantic label is assigned to each data item. The task …více
Jazyk práce: čeština
Datum vytvoření / odevzdání či podání práce: 12. 1. 2012
Identifikátor:
http://www.vse.cz/vskp/eid/33341
Obhajoba závěrečné práce
- Obhajoba proběhla 11. 9. 2012
- Vedoucí: Vojtěch Svátek
- Oponent: Martin Labský
Citační záznam
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- autentizovaným zaměstnancům ze stejné školy/fakulty
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Vysoká škola ekonomická v Prazehttp://www.vse.cz/vskp/eid/33341
Vysoká škola ekonomická v Praze
Magisterský studijní program / obor:
Aplikovaná informatika / Znalostní technologie
Práce na příbuzné téma
-
Rozpoznávání pojmenovaných entit ve zprávách z oblasti finančních trhů
Lucie Suchánková -
Rozpoznávání pojmenovaných entit pomocí neuronových sítí
Martin MATAS -
Rozpoznávání pojmenovaných entit
Michal KONKOL -
Využití algoritmů dataminingu pro rozpoznávání pojmenovaných entit
Vojtěch Houžvička -
Rozpoznávání pojmenovaných entit
Vojtěch Rylko -
Algoritmy pro rozpoznávání pojmenovaných entit
Luca Winter -
Hybridní systém pro detekci pojmenovaných entit v českém textu
Lubomír Sedlář -
Rozpoznání pojmenovaných entit v textu
Martin Süss