Stahování informací o podobnostech v XML nebo PDF protokolu

Sbalit Rozbalit

1.Jak zjistím celkovou podobnost daného dokumentu?
Celkové procento je v prvku plg:fullscore, všechny podobné pasáže pak v prvku plg:common.
2.Jak zjistím podobnost mezi vybranými soubory?
Pro zobrazení podobností ve vzorovém dokumentu AAAAA s dokumenty 11111 a 22222 lze použít odkaz z prvku plg:similar:
```
https://theses.cz/auth/dplag/podobnosti?dokument=AAAAA;xml=1
```
a přidat parametry src do výsledního url:
```
https://theses.cz/auth/dplag/podobnosti?dokument=AAAAA;xml=1;src=11111;src=22222
```
kde v parametru dokument je url vzorového dokumentu a další dva parametry src jsou identifikátory dokumentů, ke kterým chceme zobrazit podobnosti.

– src: je hodnota prvku plg:doc_hash podobného dokumentu
Parametr src může být zadán opakovaně.
Příklad použití:
```
curl -u 200425:ti54as234la -F dokument=AAAAA -F src=111111 -F src=222222 -F xml=1 https://theses.cz/auth/dplag/podobnosti
```
3.Můžu si vypsat pouze podobnosti k jednotlivé práci?
Ano, lze hledat a nechat si protokolem vypsat i podobnosti jen k jediné práci.

Podobnosti si můžete nechat zobrazit opět manuálně nebo automaticky.
Manuálně: v aplikaci
Theses.cz Plagiáty podobnosti k VŠKP
si vyberte školu/fakultu, ke které příslušná práce náleží. Dále vepište lokální identifikátor závěrečné práce (tzn. identifikátor, pod kterým je práce uložena v počítačovém systému poskytovatele).
Na základě identifikátorů pts:sender.id (vybraná škola) a pts:thesis.id (resp. dc:identifier pokud používáte formát EVSKP) dostanete k dané práci výpis podobných prací a podobností buď v XML nebo PDF protokolu.

Automaticky: podobnosti k dané práci je možné volat vzdáleně podobně jako u globálního vyhledávání přes neosobní účet pomocí skriptu na stránce https://theses.cz/auth/plagiaty/plag_vskp.pl.

Příklad použití:
```
curl -u 200425:ti54as234la "https://theses.cz/auth/plagiaty/plag_vskp.pl?pts:sender.id=th3190;pts:thesis.id=https://www.vse.cz/vskp/eid/2183"
```
Jediným možným parametrem je pdf=1, takže místo implicitního XML záznamu dostanete protokol ve formátu PDF.
4.Mohu parametrizovat výsledky stahování podobností?
Ano, lze získat celkové procento podobností nebo vynechat z nalezených podobností dokumenty, které mají stejného autora jako vzorový dokument.
itos – ignorovat dvojice souborů, které mají stejného autora
all_perc – zobrazit celkové procento podobností u daného dokumentu
ignzp – ignorovat podobné soubory patřící stejné práci dle dvojice (pts:sender.id, pts:thesis.id)
pdf – výstupní formát ve formátu PDF
xml – výstupní formát ve formátu XML
Příklad použití:
```
curl -u 200425:ti54as234la "https://theses.cz/auth/plagiaty/plag_vskp.pl?pts:sender.id=th3190;pts:thesis.id=https://www.vse.cz/vskp/eid/2183;all_perc=1;pdf=1"
```
5.Jak při stahování podobností zjistím stav požadovaného dokumentu?
Stav požadovaného dokumentu můžete zjistit prostřednictvím atributu plg:status, který se nachází v prvku plg:info.
Atribut plg:status může nabývat hodnoty od 1 do 9 následovně:
1. Dokument není v metadatech – neznámé url. Je nutné provést nový import.
2. Dokument je připraven ke stažení (stahování by mělo proběhnout v noci).
3. Dokument je zaveden v systému, ale nemá vytvořenou textovou verzi (může se zobrazit i důvod, proč bylo vytvoření neúspěšné nebo upozornění, že soubor není v textovém formátu ale např. ve formátu .eps apod.).
4. Dokument není zkontrolovaný systémem na odhalování plagiátů – po vytvoření textové verze chvíli trvá, než dojde k nalezení podobností (prvek plg:info se zde nachází v prvku plg:record).
5. K souboru nebyly nalezeny žádné podobnosti (prvek plg:info se zde nachází v prvku plg:record).
6. K souboru byly nalezeny podobnosti, informace najdete ve vnořených prvcích plg:plagiat.
7. Dokument zkontrolován u předchozí verze, podobnosti se teď přepočítávají.
8. Dokument nezkontrolován, je příliš malý.
9. Dokument nezkontrolován, obsahuje různé jazykové sady (např. latinka a azbuka).
10. Podobnost byla zkontrolována, jestě se kontroluje s novými dokumenty.
6.Mohou uživatelé zkontrolovat výsledky podobností neautentizovaně přímo v systému Theses?
Pokud škola přebírá výsledky hromadně do svého (studijního) systému, může si uživatel prohlédnout výsledky podobností přímo v systému Theses pomocí speciálně vygenerovaného odkazu s tajným klíčem bez nutnosti se do systému Theses autentizovat.
Správce, který stahuje výsledky podobností ke konkrétnímu dokumentu pomocí XML souboru, má k dispozici i jednoznačný identifikátor dokumentu v systému Theses, kterým je prvek plg:doc_hash. V případě požadavku uživatele může správce použitím tohoto identifikátoru v aplikaci
```
https://theses.cz/auth/plagiaty/get_noauth_url?plg:doc_hash=XXXXX
```
požádat o unikátní odkaz, kde se nachází aplikace Zobrazení podobností k příslušnému dokumentu pro pokročilou práci s nalezenými podobnostmi.
Systém vrátí XML soubor s prvkem plg:similar, kde se nachází neautentizovaný odkaz, a ten předá uživateli, který může následně přistoupit k dokumentu, dále s ním pracovat a využívat rozšířené grafické funkcionality systému (více o práci s dokumentem naleznete v Nápovědě).

Unikátní odkaz je platný po dobu 6 hodin od vygenerování odkazu. Po prvním použití však může uživatel přistupovat k dokumentu ze stejné IP adresy jen po maximální dobu 1 hodiny. Po uplynutí této doby může správce požádat znovu o další odkaz, a to opakovaně.

Sbalit Rozbalit

Nenašli jste odpověď? Pošlete nám svůj dotaz na theses (zavináč/atsign) fi (tečka/dot) municz.