Extrakce strukturovaných dat z českého webu s využitím extrakčních ontologií – Aleš Pouzar
Aleš Pouzar
Master's thesis
Extrakce strukturovaných dat z českého webu s využitím extrakčních ontologií
Extracting Structured Data from Czech Web Using Extraction Ontologies
Abstract:
Předkládaná práce se zabývá úlohou automatické extrakce informací z HTML dokumentů ve dvou vybraných doménách. Ze stránek e-shopů jsou extrahovány nabídky notebooků a z webových prezentací firem volně publikované pracovní nabídky. Výsledkem extrakčního procesu jsou strukturovaná data uspořádaná do záznamů, ve kterých je každému údaji přiřazena odpovídající sémantická značka. Pro realizaci úlohy byl …moreAbstract:
The presented thesis deals with the task of automatic information extraction from HTML documents for two selected domains. Laptop offers are extracted from e-shops and free-published job offerings are extracted from company sites. The extraction process outputs structured data of high granularity grouped into data records, in which corresponding semantic label is assigned to each data item. The task …more
Language used: Czech
Date on which the thesis was submitted / produced: 12. 1. 2012
Identifier:
http://www.vse.cz/vskp/eid/33341
Thesis defence
- Date of defence: 11. 9. 2012
- Supervisor: Vojtěch Svátek
- Reader: Martin Labský
Citation record
Full text of thesis
Contents of on-line thesis archive
Published in Theses:- autentizovaným zaměstnancům ze stejné školy/fakulty
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Vysoká škola ekonomická v Prazehttp://www.vse.cz/vskp/eid/33341
Vysoká škola ekonomická v Praze
Master programme / field:
Aplikovaná informatika / Znalostní technologie
Theses on a related topic
-
Rozpoznávání pojmenovaných entit ve zprávách z oblasti finančních trhů
Lucie Suchánková -
Rozpoznávání pojmenovaných entit pomocí neuronových sítí
Martin MATAS -
Rozpoznávání pojmenovaných entit
Michal KONKOL -
Využití algoritmů dataminingu pro rozpoznávání pojmenovaných entit
Vojtěch Houžvička -
Algoritmy pro rozpoznávání pojmenovaných entit
Luca Winter -
Rozpoznávání pojmenovaných entit
Vojtěch Rylko -
Hybridní systém pro detekci pojmenovaných entit v českém textu
Lubomír Sedlář -
Rozpoznání pojmenovaných entit v textu
Martin Süss