Bc. Samuel Benko

Bakalářská práce

A tool for checking texts extracted from PDF

A tool for checking texts extracted from PDF
Anotace:
Táto práca predstavuje vývoj a vyhodnotenie nástroja na extrakciu textu pre súbory PDF so zameraním na udržiavanie kontextu a zvládanie bežných problémov spojených s extrakciou textu PDF, ako je zlučovanie iniciálok, súvislých blokov, hlavičiek a pätiek, tabuliek, viacstĺpcových dokumentov, číslovaných dokumentov. zoznamy a delenie slov. Primárnym cieľom je znížiť ľudské úsilie potrebné na dohľad nad …více
Abstract:
This thesis presents the development and evaluation of a text extraction tool for PDF files, focusing on maintaining context and handling common challenges associated with PDF text extraction, such as merging initials, continuous blocks, headers and footers, tables, multi-column documents, numbered lists, and hyphenation. The primary goal is to reduce human effort required for overseeing extracted …více
 
 
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 18. 5. 2023

Obhajoba závěrečné práce

  • Obhajoba proběhla 26. 6. 2023
  • Vedoucí: RNDr. Vít Suchomel, Ph.D.
  • Oponent: RNDr. Miloš Jakubíček, Ph.D.

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masarykova univerzita

Fakulta informatiky

Bakalářský studijní program / obor:
Programování a vývoj aplikací / Programování a vývoj aplikací

Práce na příbuzné téma