Aleš Pouzar

Master's thesis

Extrakce strukturovaných dat z českého webu s využitím extrakčních ontologií

Extracting Structured Data from Czech Web Using Extraction Ontologies
Abstract:
Předkládaná práce se zabývá úlohou automatické extrakce informací z HTML dokumentů ve dvou vybraných doménách. Ze stránek e-shopů jsou extrahovány nabídky notebooků a z webových prezentací firem volně publikované pracovní nabídky. Výsledkem extrakčního procesu jsou strukturovaná data uspořádaná do záznamů, ve kterých je každému údaji přiřazena odpovídající sémantická značka. Pro realizaci úlohy byl …more
Abstract:
The presented thesis deals with the task of automatic information extraction from HTML documents for two selected domains. Laptop offers are extracted from e-shops and free-published job offerings are extracted from company sites. The extraction process outputs structured data of high granularity grouped into data records, in which corresponding semantic label is assigned to each data item. The task …more
 
 
Language used: Czech
Date on which the thesis was submitted / produced: 12. 1. 2012

Thesis defence

  • Date of defence: 11. 9. 2012
  • Supervisor: Vojtěch Svátek
  • Reader: Martin Labský

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • autentizovaným zaměstnancům ze stejné školy/fakulty
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Vysoká škola ekonomická v Praze
http://www.vse.cz/vskp/eid/33341