Theses 

Utilization of Entropy in the Text Similarity – Michal Prílepok

česky | in English | slovensky

Agenda:
Změnit agendu. Adresa v ISu:

VŠB - Technická univerzita Ostrava

Fakulta elektrotechniky a informatiky

Doktorský studijní program / obor:
Informatika, komunikační technologie a aplikovaná matematika / Informatika

Michal Prílepok

Disertační práce

Utilization of Entropy in the Text Similarity

Utilization of Entropy in the Text Similarity

Anotace: V dnešním počítačovém světě, počítače a jejich uživatelé produkují každý den enormní kvanta nových dat. Jedním z nejnáročnějších problémů moderní informatiky a počítačových věd je odhalení podobností a rozdílů mezi velkým množstvím dokumentů. Předkládaná disertační práce je zaměřena na využití entropie v oblasti určení podobnosti textů. Samotná podobnost textů může být měřena metrikou založenou na bázi komprese dat. Její aplikace je demonstrována ve třech oblastech. První oblast se zabývá detekci spamů, kdy jsou příchozí e-mailové zprávy rozděleny do dvou tříd - vyžádaná či nevyžádaná - spam. Ke zmíněné klasifikaci může být použit Bayesův spamový filtr. Tento filtr je rozšířen o normalizovanou kompresní vzdálenost a signatury emailů. Toto spojení přináší lepší výsledky než při samostatném použití Bayesova spamového filtru. Druhou oblastí zájmu je detekce plagiátů. V současné době je generováno mnoho různých typů dokumentů, jako jsou zprávy, absolventské práce atd. Získávání a extrakce využitých textů z velkých sbírek dokumentů jsou důležité pro aplikace, jako je detekce plagiátů, ochrana autorských práv a analýza toku informací. K řešení nastíněných problémů nabízí předkládaná práce algoritmy, které dokáží detekovat dokumenty podobné - plagiáty. Navrhovaná metoda je také inspirována v oblasti komprese dat, ale jiným způsobem. Metoda využívá pouze některé inicializační části kompresního algoritmu a jejich modifikace. Poslední část práce představuje zpracování encefalografických (EEG) dat jakožto textových dokumentů. Nejprve však tato data musí být převedena z naměřených napěťových průběhů do textové podoby. Popsaná konverze dat se provádí pomocí želví grafiky a následnému kódování do textu. Po takto provedené konverzi mohou být EEG data zpracována a klasifikována s využitím metriky založené na bázi komprese dat. Tuto transformaci EEG dat je možno využít k detekci jednoduchých kognitivních funkcí, například pohybů prstů.

Abstract: In our computerized world, computers and users produce an enormous quantum of new data every day. One of the most challenging problems of the modern informatics and computer sciences is the detection of similarities and differences between large amounts of these documents. The presented dissertation thesis focuses on the entropy utilization in the text similarity. The text similarity can be measured by compression-based similarity metrics. Their application is shown in three areas. The first area deals with spam detection, where an incoming e-mail is classified into two classes -- solicited or unsolicited -- spam e-mail. This classification can be done by Bayesian Spam filter. This filter is extended with Normalized Compression Distance and e-mail signatures. This conjunction gives us better results as standalone Bayesian Spam filter. The second area of interest is plagiarism detection. Nowadays we are producing a lot of various types of documents, such as reports, thesis in the school environment, etc. The retrieval and extraction of reused text from large document collections are important to applications such as plagiarism detection, copyright protection, and information flow analysis. To solve these issues, this thesis presents algorithms, which can detect similar -- plagiarized documents. The proposed method is also inspired by the data compression but in different way. The method is using only some initialization parts of the compression algorithm and its modifications. The last part shows how the Encephalography (EEG) data can be processed as text documents. At first, this data has to be converted from measured voltages into text codes. The described conversion of data is performed by Turtle Graphic and coded into text. After such a conversion, the EEG data can be treated and classified by compression-based similarity metric. This transformation of EEG data is applicable to detection of simple cognitive tasks, for example, finger movements.

Klíčová slova: podobnost, textová data, detekce spamu, detekce plagiátů, EEG, BCI

Keywords: similarity, text data, spam detection, plagiarism detection, EEG, BCI

Jazyk práce: angličtina

Obhajoba závěrečné práce

  • Obhajoba proběhla 8. 6. 2016
  • Vedoucí: Václav Snášel
  • Oponent: Lidia Ogiela, Roman Šenkeřík, Pavel Krömer

Citační záznam

Citace dle ISO 690: LaTeX | HTML | text | BibTeX | Wikipedie

Plný text práce

Právo: Plné texty vysokoškolských kvalifikačních prací obhájených na Vysoké škole báňské - Technické univerzitě Ostrava jsou uloženy v repozitáři DSpace. Přístup k plným textům mají všichni uživatelé bez omezení. Přístup je omezen pouze ve výjimečných případech, zpravidla z důvodu ochrany duševního vlastnictví. Nepřístupné práce jsou označeny jako closedAccess nebo embargoedAccess. Tištěné verze prácí jsou uloženy v Ústřední knihovně VŠB-TUO a jsou prezenčně přístupné ve studovně diplomových prací. Další nakládání s prací (kopírování, opisy, MVS) se řídí Knihovní a výpůjčním řádem Ústřední knihovny VŠB-TUO.

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • nikomu
Jak jinak získat přístup k textu

Instituce archivující a zpřístupňující práci: VŠB - Technická univerzita Ostrava

Relevantní odkazy 


Nahoru | Aktuální datum a čas: 23. 7. 2019 09:22, 30. (sudý) týden

Soukromí

Kontakty: theses(zavináč/atsign)fi(tečka/dot)muni(tečka/dot)cz