Hledání podobných dokumentů jednotlivě
- 1.Jak rámcově funguje hledání podobných dokumentů?Obsah souborů v datovém úložišti theses.cz, u kterých je k dispozici čistě textová verze, je průběžně strojově analyzován. Každou závěrečnou práci, kterou si v systému vyhledáte, lze porovnat a zobrazit si soubory, které mají podobný obsah:
- kliknutím na název práce si zobrazíte základní informace o práci,
- dole na stránce klikněte na řádek se souborem s plným textem práce (kliknutí pravým tlačítkem myši vyvolá panel podrobností vpravo, kliknutí levým tlačítkem vyvolá kontextové menu),
- použijte operaci „Vyhledat podobné dokumenty“ (ikona dvou vajíček „podobných jako vejce vejci“),
- využijte zobrazené podobnosti (či upravte nastavení a nechejte si podobnosti přepočítat) k tomu, abyste mohli posoudit, jestli se může jednat o plagiát, nebo nikoliv.
U nalezených podobných souborů systém vypíše míru podobnosti v procentech. K dispozici je i celková spočítaná podobnost dokumentu s ostatními:1 Operace „Vyhledat podobné soubory“.
1 Procento celkové podobnosti s dokumenty v databázi a zdroji z internetu.
2 Seznam zdrojových dokumentů, se kterými je dokument podobný. U každého je zobrazeno procento podobnosti.
3 U každého zdrojového dokumentu je menu pod ikonou tří teček, kde lze o dokumentu zjistit více informací.
4 Za pomoci křížku lze odstranit z výpočtu zdrojový dokument, který není pro porovnání podobností relevantní (například z něj měl student čerpat a má jej řádně citovaný).
5 Po kliknutí na vybranou zvýrazněnou podobnou pasáž se zobrazí dokumenty, se kterými je text podobný.
6 Číslo v oválu označuje počet dokumentů, se kterými je následující pasáž podobná.
7 Po kliknutí se přehledně zobrazí počty zobrazených, přeskočených i vyřazených dokumentů včetně vysvětlení.
8 Ovály s čísly udržují přehled o zdrojových dokumentech. Přeskočené dokumenty lze zobrazit, vyřazené dokumenty obnovit.
9 Možnost přepnutí na jednobarevnou verzi zobrazení podobností, kdy je míra podobnosti vyjádřena intenzitou barvy.
K prověření můžete vybrat jeden soubor či více souborů a porovnat si podobnosti jen s vybranými soubory. O globálním porovnávání souborů (tzn. všech vzájemně mezi sebou) se více dozvíte v nápovědě Globální vyhledávání plagiátů.
Pro získání lepšího přehledu o míře nalezených podobností si lze zapnout jednobarevné zobrazení podobných pasáží, kdy je míra podobnosti vyjádřena intenzitou červené barvy.
1 Ikonka pro přepnutí do jednobarevné verze zobrazení podobných pasáží.
Soubory se vyhledávají v celém systému, tedy bez ohledu na školu, kam práce patří.
- 2.Co znamená „Dokument asi není správně porovnán“?Porovnává se podle textových verzí souborů. V textové verzi nebylo nalezeno dostatečné množství slov, které by se pro porovnání mohlo použít. Nahlédněte do textové verze (s příponou .txt) souboru, zda se vytvořila správně. Pokud usoudíte, že se textová verze nevytvořila správně, můžete zkusit požádat vkladatele souboru, aby si sám ověřil (např. ve Wordu), zda lze soubor exportovat do textu; příp. aby zajistil nové vložení opravené verze. Problematické jsou HTML soubory, které obsahují hodně slov, které nejsou součástí textu (formátovací příkazy apod.). Také můžete poslat adresu chybného souboru na adresu správců theses@fi.muni.cz.
- 3.Co vyjadřuje údaj celková podobnost?
Tento údaj uvádí celkové procento podobnosti se všemi nalezenými podobnými dokumenty.
Nalezená podobnost nemusí nutně znamenat, že se u jedné z prací jedná o plagiát. Každou práci (podobnost) musí posoudit odborník na dané téma. Neexistuje žádná hodnota %, od které lze práci považovat za plagiát.
- 4.Systém našel k mé práci podobnosti, co to znamená?
Autoři si mohou ověřit, zda nedošlo k použití jejich textu v díle jiného autora.
Co zobrazuje rozhraní vyhledávání podobností a jak jej využít:Podobnost, kterou systém nalezl mezi vaší prací a prací/pracemi v databázi, nemusí vždy nutně znamenat, že se jedná o plagiát. Každou práci (podobnost) je nutné posoudit individuálně, zkontrolovat správnost citací apod. Neexistuje univerzální hodnota %, od které lze práci považovat za plagiát.
1 Procento celkové podobnosti s dokumenty v databázi a zdroji z internetu.
2 Seznam zdrojových dokumentů, se kterými je dokument podobný. U každého je zobrazeno procento podobnosti.
3 U každého zdrojového dokumentu je menu pod ikonou tří teček, kde lze o dokumentu zjistit více informací.
4 Za pomoci křížku lze odstranit z výpočtu zdrojový dokument, který není pro porovnání podobností relevantní (například z něj měl student čerpat a má jej řádně citovaný).
5 Po kliknutí na vybranou zvýrazněnou podobnou pasáž se zobrazí dokumenty, se kterými je text podobný.
6 Číslo v oválu označuje počet dokumentů, se kterými je následující pasáž podobná.
7 Po kliknutí se přehledně zobrazí počty zobrazených, přeskočených i vyřazených dokumentů včetně vysvětlení.
8 Ovály s čísly udržují přehled o zdrojových dokumentech. Přeskočené dokumenty lze zobrazit, vyřazené dokumenty obnovit.
9 Možnost přepnutí na jednobarevnou verzi zobrazení podobností, kdy je míra podobnosti vyjádřena intenzitou barvy.
- 5.Jak funguje vyhledávací algoritmus?
Jedná se o porovnávání dokumentů mezi sebou:
- U každého dokumentu v databázi se generuje textová prohledávatelná verze. Algoritmus se v této textové verzi zaměřuje na podobné nebo parafrázované úseky textů a vyhodnocuje míru podobnosti napříč celou sdílenou databází dokumentů, včetně zdrojů z internetu.
- Srovnávají se texty v češtině, angličtině a slovenštině, podmínkou je, aby měly alespoň pár vět či odstavců (v úplně malých souborech není dostatek textu pro jejich analýzy a nalezení podobností).
- Předtím, než se výsledek prezentuje uživateli, jsou vynechány ty dokumenty, které se překrývají jen v pasážích, jež jsou stejné jako u dříve nalezených zdrojů. Prakticky jde například o citace určitého zákona v další stovce závěrečných pracích a dokumentů na internetu. Pokud je podobných zdrojů méně než 10, zobrazí se pro přehlednost všechny bez vynechávání.
- Uživateli se zobrazí ty nejvíce relevantní dokumenty, u kterých dochází k významné podobnosti s hledaným dokumentem, a procento míry této podobnosti.
Jako varovný mechanismus pro studenty je důležité, že odevzdané práce jsou v Theses archivovány a mohou být podrobeny zkoumání opakovaně. Například kdykoliv později další vylepšenou verzí algoritmu. Nezapomeňte, že čas ušetřený opisováním může jednou znamenat mnoho práce navíc s napravováním vlastní reputace. Vývojáři IS MU postupně algoritmus vylepšují a databáze prohledávaných dokumentů se neustále rozšiřuje o další zdroje. Co dnes systémy neodhalí, neznamená, že neodhalí zítra.
- 6.Jak mohu porovnat dva dokumenty mezi sebou?
Pomocí aplikace Porovnej dva, která graficky zobrazuje korelaci mezi podobnými texty v obou dokumentech v místech, kde byly nalezeny podobnosti, včetně míry podobnosti nalezených pasáží.
Aplikace pro porovnání dvou dokumentů.
Aplikace je funkční, i pokud uživatel nemá přístup ke zdrojovému dokumentu. V tomto případě se ze zdrojového dokumentu zobrazí pouze začátky podobných slov, ostatní text je záměrně nečitelný. Toto slouží jako vodítko pro alespoň přibližné posouzení závažnosti textové podobnosti.
1 Označení neveřejného dokumentu.
2 Nečitelný okolní text.
3 Zobrazení podobných pasáží u neveřejného dokumentu.
Odkaz na aplikaci je dostupný v pravém panelu aplikace pro vyhledání podobností po rozkliknutí tří teček u vybraného dokumentu. V případě, že máte menší obrazovku, je potřeba nejprve rozkliknout panel se zdrojovými dokumenty.
1 U vybraného zdrojového dokumentu klikněte na ikonku tří teček.
2 V zobrazených informacích o dokumentu naleznete odkaz na aplikaci Porovnej dva.
- 7.Jak aplikace Porovnej dva funguje?Aplikace obsahuje řadu grafických prvků, které usnadňují orientaci v nalezených podobnostech. Barvami v různých místech aplikace je značena míra podobnosti pasáže:
1 Téměř doslovná shoda.
2 Jen mírné odlišnosti.
3 Částečně podobná pasáž.
4 Značně přeformulovaná pasáž.
5 Malá míra podobnosti, řešit jen ve spojitosti s okolními pasážemi.
Doplňkově je míra podobnosti v textu naznačena i vyplněním kolečka.
Porovnávaný i zdrojový dokument je zobrazen podobným způsobem. Text je rozdělen na kratší části, přibližně velikosti odstavce, a prorovnávají se dva po sobě jdoucí odstavce porovnávaného dokumentu se třemi odstavci zdrojového dokumentu.
Na stránce jsou dostupné následující prvky:
- Čas změny dokumentu a počet slov
Pro posouzení, který z dokumentů je starší, případně „významnější“.
- Lineární mapa dokumentu
Zobrazuje výskyt podobných pasáží v dokumentu. V případě že jedno místo dokumentu odpovídá více částem protějšího dokumentu, je použita barva odpovídající největší podobnosti.
- Barevná čára vlevo
Označuje míru podobnosti v konkrétních částech textu.
- Barevná kolečka v textu
Po kliknutí na kolečko se modře zvýrazní příslušná pasáž v obou dokumentech. Na jednom místě může být více koleček, protože jedno místo může být podobné více místům protějšího dokumentu.
- Modře zvýrazněný blok
Vybrané dva odstavce porovnávaného, resp. tři odstavce zdrojového dokumentu jsou podbarveny světle modře a zvýrazněny svislou modrou čárou vpravo.
- Modře podbarvená slova
V rámci vybrané pasáže textu jsou na řádcích výraznější modrou podbarvena slova, která se vyskytují ve vybrané pasáži i v protějším dokumentu. Krátká slova a interpunkce se pro tyto účely neporovnávají, jsou podbarveny podle toho, jestli se vyskytují mezi dvěma společnými slovy.
- Šedě podbarvená slova
Značí slova, která nejsou v obou dokumentech ve vybrané pasáži, ale jsou součástí podobnosti s jinou pasáží protějšího dokumentu.
- Ostatní slova
Nepodbarvená jsou zbývající slova která se v rámci vybrané pasáže vyskytují jen v jednom z dokumentů.
- Čas změny dokumentu a počet slov
- 8.Porovnej dva: jak číst 2D mapu?
2D mapa ukazuje graficky umístění podobných pasáží v obou dokumentech.
Například vpravo nahoře mohou být vyznačeny podobnosti mezi závěrečnými částmi obou dokumentů (typicky seznam literatury). Pomocí 2D mapy si lze udělat rychlý přehled o charakteru podobných pasáží. Několik příkladů:1 Na vodorovné ose je porovnávaný dokument, napsaný zleva doprava.
2 Na svislé ose je zdrojový dokument, napsaný zdola nahoru.
3 Barevné tečky ukazují podobné pasáže obou dokumentů, barva značí míru podobnosti. Kliknutím na barevnou tečku zvýrazníme příslušné pasáže v obou dokumentech.
- Výrazná diagonála
- Výrazná červená diagonála naznačuje rozsáhlý souvislý text vyskytující se v obou dokumentech.
Zde příklad dizertace skládající se z několika článků, přičemž jeden z těchto článků je zde zdrojový dokument. I další podobnosti naznačují delší, v oboru ustálená sousloví, použitá i v dalších článcích, ze kterých se dizertace sestává. Poznámka: sklon diagonály se může lišit podle poměru délek obou dokumentů.
- Úvodní prohlášení autora
-
Krátká podobnost vlevo dole je typicky úvodní poděkování nebo prohlášení autora, které bývá v rámci jedné instituce standardizované.
- Seznam literatury
-
Shluk bodů v pravé horní části textu jsou delší sousloví – citace v seznamu literatury. Může naznačovat, že práce vycházejí z podobných zdrojů, ale o plagiát se v tomto případě nejedná. Víceméně diagonální směr naznačuje, že články jsou odkazovány v podobném pořadí, tříděné podle stejného kritéria (např. rok vydání).
- Několik bodů svisle nad sebou
-
Jedná se o vícenásobný výskyt podobnosti mezi jednou pasáží porovnávaného a více místy zdrojového dokumentu (u několika bodů vodorovně vedle sebe naopak). Typicky jde o delší sousloví, definici nebo jinou formulaci v oboru obvyklou. Zpravidla není třeba řešit.
- Nevýrazná podobnost
-
Nejde-li o výraznější shluky nebo diagonální linie a jde-li zejména a žlutě nebo světleoranžově zobrazené podobnosti, pravděpodobně se jedná o podobnost v delších ustálených formulacích nebo o společné téma obou textů, obvykle nejde o plagiát.
- Přeformulovaný text
-
Toto je skutečný plagiát, téměř celá práce napsaná výrazným přeformulováním jiné práce. V mapě se v podstatě nevyskytují červené body, ale zvlněná diagonální linie naznačuje podobnost téměř „od začátku do konce“. Prázdná místa v diagonální linii můžou naznačovat, že systém zde podobnost neodhalil, anebo že zdrojem této části textu je jiný dokument.
Tečky podél horního okraje jsou podobnosti v seznamu literatury, kde zdrojová práce odkazuje literaturu až v závěrečné souvislé části, zatímco zkoumaný dokument odkazuje na literaturu průběžně v místě použití, například poznámkami pod čarou. - Opsaná kapitolka
-
Toto je stejný dokument jako předchozí, zdrojovým dokumentem je tentokrát článek z Wikipedie. V plagiátu byl použitý jako zdroj se stejnou strukturou informací, ale výrazným přeformulováním a vypuštěním části textu. Vzhledem k výraznému nepoměru velikostí obou dokumentů je zde sklon diagonály téměř svislý. Rozsah zkopírovaného textu jsou necelé dvě strany A4: i takto malými podobnostmi tedy má cenu se zabývat.
- Úvodní část práce
-
V mnoha oborech je zvykem, že úvodní část závěrečné práce se věnuje přehledu informací v daném oboru. Zde se jedná o dvě maturitní práce přibližně stejné délky ze stejné školy. Tyto práce evidentně čerpaly svojí úvodní část z těch stejných zdrojů (nebo od sebe navzájem). Druhá polovina obou dokumentů (na obrázku pravá, resp. horní) už podobnost neobsahuje, což naznačuje, že druhá polovina dokumentu, text s „vlastní prací“ obou autorů může být originální.
Provided you have failed to find the information you were searching for, you can contact us at