• 1.Jak rámcově funguje hledání podobných dokumentů?
    Obsah souborů v datovém úložišti theses.cz, u kterých je k dispozici čistě textová verze, je průběžně strojově analyzován. Každou závěrečnou práci, kterou si v systému vyhledáte, lze porovnat a zobrazit si soubory, které mají podobný obsah:
    • kliknutím na název práce si zobrazíte základní informace o práci,
    • dole na stránce klikněte na řádek se souborem s plným textem práce (kliknutí pravým tlačítek myši vyvolá panel podrobností vpravo, kliknutí levým tlačítkem vyvolá kontextové menu),
    • použijte operaci „Vyhledat podobné dokumenty“ (ikona dvou vajíček „podobných jako vejce vejci“),
    • využijte zobrazené podobnosti (či upravte nastavení a nechejte si podobnosti přepočítat) k tomu, abyste mohli posoudit, jestli se může jednat o plagiát, nebo nikoliv.

    1 Operace „Vyhledat podobné soubory“.

    U nalezených podobných souborů systém vypíše míru podobnosti v procentech. K dispozici je i celková spočítaná podobnost dokumentu s ostatními:

    1 Procento celkové podobnosti s dokumenty v databázi a zdroji z internetu.

    1 Seznam zdrojových dokumentů, se kterými je dokument podobný. U každého je zobrazeno procento podobnosti.

    1 U každého zdrojového dokumentu je menu pod ikonou tří teček, kde lze o dokumentu zjistit více informací.

    1 Za pomoci křížku lze odstranit z výpočtu zdrojový dokument, který není pro porovnání podobností relevantní (například z něj měl student čerpat a má jej řádně citovaný).

    1 Po kliknutí na vybranou zvýrazněnou podobnou pasáž se zobrazí dokumenty, se kterými je text podobný.

    1 Číslo v oválu označuje počet dokumentů, se kterými je následující pasáž podobná.

    1 Po kliknutí se přehledně zobrazí počty zobrazených, přeskočených i vyřazených dokumentů včetně vysvětlení.

    1 Ovály s čísly udržují přehled o zdrojových dokumentech. Přeskočené dokumenty lze zobrazit, vyřazené dokumenty obnovit.

    K prověření můžete vybrat jeden soubor či více souborů a porovnat si podobnosti jen s vybranými soubory. O globálním porovnávání souborů (tzn. všech vzájemně mezi sebou) se více dozvíte v nápovědě Globální vyhledávání plagiátů.

    Soubory se vyhledávají v celém systému, tedy bez ohledu na školu, kam práce patří.

    Tip

    Vyzkoušejte novou verzi algoritmu pro vyhledávání podobností, blíže v otázce „Jak funguje nový algoritmus?“

  • 2.Co znamená „Dokument asi není správně porovnán“?
    Porovnává se podle textových verzí souborů. V textové verzi nebylo nalezeno dostatečné množství slov, které by se pro porovnání mohlo použít. Nahlédněte do textové verze (s příponou .txt) souboru, zda se vytvořila správně. Pokud usoudíte, že se textová verze nevytvořila správně, můžete zkusit požádat vkladatele souboru, aby si sám ověřil (např. ve Wordu), zda lze soubor exportovat do textu; příp. aby zajistil nové vložení opravené verze. Problematické jsou HTML soubory, které obsahují hodně slov, které nejsou součástí textu (formátovací příkazy apod.). Také můžete poslat adresu chybného souboru na adresu správců theses@fi.muni.cz.

  • 3.Co vyjadřuje údaj celková podobnost?
    Tento údaj uvádí celkové procento podobnosti se všemi nalezenými podobnými dokumenty.

  • 4.K čemu slouží funkce „Podobnosti s vybranými“?

    U původního algoritmu si uživatel musí zaškrtnout dokumenty, pro které chce spočítat procento podobnosti zkoumaného dokumentu s vybranými podobnými dokumenty. Např. pokud se najde podobnost se zákonem, který je správně citován, uživatel může vyjmout tento dokument a přepočítat podobnost pouze s ostatními nalezenými podobnými dokumenty, ke kterým si zobrazí červeně zvýrazněné podobné pasáže.

    U nového algoritmu jsou podobnosti s dokumenty zobrazeny rovnou.

    Tip

    Vyzkoušejte novou verzi algoritmu pro vyhledávání podobností, blíže v otázce „Jak funguje nový algoritmus?“

  • 5.Systém našel k mé práci podobnosti, co to znamená?

    Autoři si mohou ověřit, zda nedošlo k použití jejich textu v díle jiného autora.

    Důležité upozornění!

    Podobnost, kterou systém nalezl mezi vaší prací a prací/pracemi v databázi, nemusí vždy nutně znamenat, že se jedná o plagiát. Každou práci (podobnost) je nutné posoudit individuálně, zkontrolovat správnost citací apod. Neexistuje univerzální hodnota %, od které lze práci považovat za plagiát.

    Co zobrazuje rozhraní vyhledávání podobností a jak jej využít:

    1 Procento celkové podobnosti s dokumenty v databázi a zdroji z internetu.

    1 Seznam zdrojových dokumentů, se kterými je dokument podobný. U každého je zobrazeno procento podobnosti.

    1 U každého zdrojového dokumentu je menu pod ikonou tří teček, kde lze o dokumentu zjistit více informací.

    1 Za pomoci křížku lze odstranit z výpočtu zdrojový dokument, který není pro porovnání podobností relevantní (například z něj měl student čerpat a má jej řádně citovaný).

    1 Po kliknutí na vybranou zvýrazněnou podobnou pasáž se zobrazí dokumenty, se kterými je text podobný.

    1 Číslo v oválu označuje počet dokumentů, se kterými je následující pasáž podobná.

    1 Po kliknutí se přehledně zobrazí počty zobrazených, přeskočených i vyřazených dokumentů včetně vysvětlení.

    1 Ovály s čísly udržují přehled o zdrojových dokumentech. Přeskočené dokumenty lze zobrazit, vyřazené dokumenty obnovit.

  • 6.Jak funguje vyhledávací algoritmus?

    Jedná se o porovnávání dokumentů mezi sebou:

    • U každého dokumentu v databázi se generuje textová prohledávatelná verze. Algoritmus se v této textové verzi zaměřuje na podobné nebo parafrázované úseky textů a vyhodnocuje míru shody napříč celou sdílenou databází dokumentů, včetně zdrojů z internetu.
    • Srovnávají se texty v češtině, angličtině a slovenštině, podmínkou je, aby měly alespoň pár vět či odstavců (v úplně malých souborech není dostatek textu pro jejich analýzy a nalezení podobností).
    • Předtím, než se výsledek prezentuje uživateli, jsou vynechány ty dokumenty, které se překrývají jen v pasážích, jež jsou stejné jako u dříve nalezených zdrojů. Prakticky jde například o citace určitého zákona v další stovce závěrečných pracích a dokumentů na internetu. Pokud je podobných zdrojů méně než 10, zobrazí se pro přehlednost všechny bez vynechávání.
    • Uživateli se zobrazí ty nejvíce relevantní dokumenty, u kterých dochází k významné podobnosti s hledaným dokumentem, a procento míry této podobnosti.
    Tip: Opisovat se nevyplatí

    Jako varovný mechanismus pro studenty je důležité, že odevzdané práce jsou v Theses archivovány a mohou být podrobeny zkoumání opakovaně. Například kdykoliv později další vylepšenou verzí algoritmu. Nezapomeňte, že čas ušetřený opisováním může jednou znamenat mnoho práce navíc s napravováním vlastní reputace. Vývojáři IS MU postupně algoritmus vylepšují a databáze prohledávaných dokumentů se neustále rozšiřuje o další zdroje. Co dnes systémy neodhalí, neznamená, že neodhalí zítra.

  • 7.Jak mohu porovnat dva dokumenty mezi sebou?

    Pomocí aplikace Porovnej dva, která graficky zobrazuje korelaci mezi podobnými texty v obou dokumentech v místech, kde byly nalezeny podobnosti, včetně míry podobnosti nalezených pasáží.

    Aplikace pro porovnání dvou dokumentů.

    Aplikace je funkční, i pokud uživatel nemá přístup ke zdrojovému dokumentu. V tomto případě se zobrazí pouze podobné pasáže, ostatní text je záměrně do určité míry nečitelný (místo písmen se zobrazují čtverečky), protože dokument není veřejný.

    1 Nečitelný okolní text.

    2 Zobrazení podobných pasáží u neveřejného dokumentu.

    Odkaz na aplikaci je dostupný v pravém panelu aplikace pro vyhledání podobností po rozkliknutí tří teček u vybraného dokumentu.

    1 U vybraného dokumentu klikněte na ikonku tří teček a následně vyberte možnost Porovnej dva.

  • 8.Jak aplikace Porovnej dva funguje?
    Aplikace obsahuje řadu grafických prvků, které usnadňují orientaci v nalezených podobnostech. Barvami v různých místech aplikace je značena míra podobnosti pasáže:

    Doplňkově je míra podobnosti v textu naznačena i vyplněním kolečka.

    Porovnávaný i zdrojový dokument je zobrazen podobným způsobem. Text je rozdělen na kratší části, přibližně velikosti odstavce, a prorovnávají se dva po sobě jdoucí odstavce porovnávaného dokumentu se třemi odstavci zdrojového dokumentu.

    Na stránce jsou dostupné následující prvky:

    1. Čas změny dokumentu a počet slov
      Pro posouzení, který z dokumentů je starší, případně „významnější“.
    2. Lineární mapa dokumentu
      Zobrazuje výskyt podobných pasáží v dokumentu. V případě že jedno místo dokumentu odpovídá více částem protějšího dokumentu, je použita barva odpovídající největší podobnosti.
    3. Barevná čára vlevo
      Označuje míru podobnosti v konkrétních částech textu.
    4. Barevná kolečka v textu
      Po kliknutí na kolečko se modře zvýrazní příslušná pasáž v obou dokumentech. Na jednom místě může být více koleček, protože jedno místo může být podobné více místům protějšího dokumentu.
    5. Modře zvýrazněný blok
      Vybrané dva odstavce porovnávaného, resp. tři odstavce zdrojového dokumentu jsou podbarveny světle modře a zvýrazněny svislou modrou čárou vpravo.
    6. Modře podbarvená slova
      V rámci vybrané pasáže textu jsou na řádcích výraznější modrou podbarvena slova, která se vyskytují ve vybrané pasáži i v protějším dokumentu. Krátká slova a interpunkce se pro tyto účely neporovnávají, jsou podbarveny podle toho, jestli se vyskytují mezi dvěma společnými slovy.
    7. Šedě podbarvená slova
      Značí slova, která nejsou v obou dokumentech ve vybrané pasáži, ale jsou součástí podobnosti s jinou pasáží protějšího dokumentu.
    8. Ostatní slova
      Nepodbarvená jsou zbývající slova která se v rámci vybrané pasáže vyskytují jen v jednom z dokumentů.
  • 9.Porovnej dva: jak číst 2D mapu?

    2D mapa ukazuje graficky umístění podobných pasáží v obou dokumentech.

    1 Na vodorovné ose je porovnávaný dokument, napsaný zleva doprava.

    2 Na svislé ose je zdrojový dokument, napsaný zdola nahoru.

    3 Barevné tečky ukazují podobné pasáže obou dokumentů, barva značí míru shody. Kliknutím na barevnou tečku zvýrazníme příslušné pasáže v obou dokumentech.

    Například vpravo nahoře mohou být vyznačeny podobnosti mezi závěrečnými částmi obou dokumentů (typicky seznam literatury).

    Pomocí 2D mapy si lze udělat rychlý přehled o charakteru podobných pasáží. Několik příkladů:

    Výrazná diagonála
    Výrazná červená diagonála naznačuje rozsáhlý souvislý text vyskytující se v obou dokumentech.

    Zde příklad dizertace skládající se z několika článků, přičemž jeden z těchto článků je zde zdrojový dokument. I další podobnosti naznačují delší, v oboru ustálená sousloví, použitá i v dalších článcích, ze kterých se dizertace sestává. Poznámka: sklon diagonály se může lišit podle poměru délek obou dokumentů.

    Úvodní prohlášení autora

    Krátká podobnost vlevo dole je typicky úvodní poděkování nebo prohlášení autora, které bývá v rámci jedné instituce standardizované.

    Seznam literatury

    Shluk bodů v pravé horní části textu jsou delší sousloví – citace v seznamu literatury. Může naznačovat, že práce vycházejí z podobných zdrojů, ale o plagiát se v tomto případě nejedná. Víceméně diagonální směr naznačuje, že články jsou odkazovány v podobném pořadí, tříděné podle stejného kritéria (např. rok vydání).

    Několik bodů svisle nad sebou

    Jedná se o vícenásobný výskyt podobnosti mezi jednou pasáží porovnávaného a více místy zdrojového dokumentu (u několika bodů vodorovně vedle sebe naopak). Typicky jde o delší sousloví, definici nebo jinou formulaci v oboru obvyklou. Zpravidla není třeba řešit.

    Nevýrazná podobnost

    Nejde-li o výraznější shluky nebo diagonální linie a jde-li zejména a žlutě nebo světleoranžově zobrazené podobnosti, pravděpodobně se jedná o podobnost v delších ustálených formulacích nebo o společné téma obou textů, obvykle nejde o plagiát.

    Přeformulovaný text

    Toto je skutečný plagiát, téměř celá práce napsaná výrazným přeformulováním jiné práce. V mapě se v podstatě nevyskytují červené body, ale zvlněná diagonální linie naznačuje podobnost téměř „od začátku do konce“. Prázdná místa v diagonální linii můžou naznačovat, že systém zde podobnost neodhalil, anebo že zdrojem této části textu je jiný dokument.

    Tečky podél horního okraje jsou podobnosti v seznamu literatury, kde zdrojová práce odkazuje literaturu až v závěrečné souvislé části, zatímco zkoumaný dokument odkazuje na literaturu průběžně v místě použití, například poznámkami pod čarou.

    Opsaná kapitolka

    Toto je stejný dokument jako předchozí, zdrojovým dokumentem je tentokrát článek z Wikipedie. V plagiátu byl použitý jako zdroj se stejnou strukturou informací, ale výrazným přeformulováním a vypuštěním části textu. Vzhledem k výraznému nepoměru velikostí obou dokumentů je zde sklon diagonály téměř svislý. Rozsah zkopírovaného textu jsou necelé dvě strany A4: i takto malými podobnostmi tedy má cenu se zabývat.

    Úvodní část práce

    V mnoha oborech je zvykem, že úvodní část závěrečné práce se věnuje přehledu informací v daném oboru. Zde se jedná o dvě maturitní práce přibližně stejné délky ze stejné školy. Tyto práce evidentně čerpaly svojí úvodní část z těch stejných zdrojů (nebo od sebe navzájem). Druhá polovina obou dokumentů (na obrázku pravá, resp. horní) už podobnost neobsahuje, což naznačuje, že druhá polovina dokumentu, text s „vlastní prací“ obou autorů může být originální.


Nenašli jste odpověď? Pošlete nám svůj dotaz na theses(zavináč/atsign)fi(tečka/dot)muni(tečka/dot)cz.