Bc. Alina Tsykynovska

Master's thesis

Machine Learning for Text Anomaly Detection

Machine Learning for Text Anomaly Detection
Abstract:
Tato práce se zaměřuje na výkon algoritmů strojového učení pro detekci anomálií ve dvou různých typech datových sad: numerické (síťové logy) a textové (e-maily). Pro e-mailovou datovou sadu jsou použité tři textové reprezentace: count vectorizer, TF-IDF a word embeddings. Srovnání zahrnuje výsledky napříč těmito reprezentacemi a výsledky napříč datovými sadami.
Abstract:
This thesis focuses on the performance of machine learning algorithms for detecting anomalies across two different types of datasets: numerical (network logs) and textual (emails). Three text representations are assessed for the email dataset: count vectorizer, TF-IDF and word embeddings. The comparison includes the results across these representations and results across datasets.
 
 
Language used: English
Date on which the thesis was submitted / produced: 21. 5. 2024

Thesis defence

  • Date of defence: 20. 6. 2024
  • Supervisor: doc. Ing. RNDr. Barbora Bühnová, Ph.D.
  • Reader: doc. Ing. Radim Burget, Ph.D.

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatiky