Theses 

Nápověda

česky | in English

Stahování informací o podobnostech v XML nebo PDF protokolu


  1. Jaké jsou možnosti stažení protokolu o nalezených podobnostech? (globální vyhledávání)

    Máte dvě možnosti, jak získat protokol o nalezených podobnostech ve všech pracech vaší školy/fakulty - manuální a automatická.

    Manuální: Po vyhledání podobností v aplikaci globálního vyhledávání si tyto informace můžete stáhnout v PDF protokolu nebo XML záznamu.

    Automatické: Informace o globálním vyhledávání můžete stahovat ze systému také automaticky. Nejprve je nutné si vytvořit neosobní účet, pomocí kterého budete přistupovat k aplikaci. Neosobní účet může vytvořit pouze osoba s právem "th_data_manager". Tato osoba bude za tento účet nadále zodpovědná.

    Informace můžete poté stáhnout pomocí skriptu na stránce https://theses.cz/auth/dok/plag_th_glob_vyhledat.pl. Skript má jako povinný parametr "fak", takže je třeba upřesnit, na které škole/fakultě chcete globální vyhledávání provést.

    Příklad použití:

    curl -u 200425:ti54as234la "https://theses.cz/auth/dok/plag_th_glob_vyhledat.pl"
    Další možné parametry:
    from - jen práce do uvedeného data (ve formátu 'DD MM YYYY' nebo 'YYYY-MM-DD')
    proc - jen podrobnosti, které mají minimálně danou percentuální shodu (0-100)
    vel - jen soubory, které mají minimálně daný počet znaků (např. 40 000).

    ist2 - ignorovat soubory závěrečných prací na adresách majících shodné dvě nejvyšší složky (/id/yyyyyy/)
    ijpl - ignorovat dvojice souborů, které byly ručně označeny, že jsou plagiáty
    inpl - ignorovat dvojice souborů, které byly ručně označeny, že nejsou plagiáty
    ukpl - omezit na soubory, které byly ručně označeny, že jsou plagiáty

    pdf - místo XML záznamu dostanete PDF protokol

    Příklad:
    curl -u 200425:ti54as234la "https://theses.cz/auth/dok/plag_th_glob_vyhledat.pl?fak=S1433&from=2009-01-01&proc=40&vel=40000&ist2=1&ijpl=1&inpl=1&pdf=1"
    Dostanete pdf protokol o podobnostech na škole/fakultě S1433 (Masarykova Univerzita/Fakulta Informatiky), omezených na práce vložené po 1. 1. 2009 s minimálně 40% mírou shody. Porovnávané dokumenty budou mít velikost minimálně 40 000 znaků a nebyly označeny, zda jsou nebo nejsou plagiáty, nebo
    curl -u 200425:ti54as234la -F from="01 01 2010" -F fak=S1433 -F vel=40000 -F proc=40 -F ist2=1 https://theses.cz/auth/dok/plag_th_glob_vyhledat.pl
    Protokol ve formátu XML.

  2. Jak zjistím celkovou podobnost daného dokumentu?

    Po zjištění podobnosti u vybrané práce je v xml dokumentu uveden i prvek plg:doc_hash, který jednoznačně identifikuje soubor v Theses.

    Pro zjištění celkové podobnosti lze použít odkaz: https://theses.cz/auth/podob/XXX/?all;xml

    Celkové procento je v prvku plg:fullscore, všechny podobné pasáže pak v prvku plg:common.

    Pro výstup ve formátu PDF stačí v odkazu nahradit atribut xml atributem pdf.

  3. Jak zjistím podobnost mezi vybranými soubory?

    Pro zobrazení podobností ve vzorovém dokumentu 00000 s dokumenty 11111 a 22222 lze použít odkaz: https://theses.cz/auth/podob/00000/11111/22222/, kde první identifikátor je vzorový soubor a další dva jsou identifikátory souborů, ke kterým chceme zobrazit podobnosti.

    Při zobrazení většího počtu podobných dokumentů, může být URL příliš dlouhé. V takovém případě lze podobnosti získat odesláním GET požadavku, který má následující parametry:

    - vzor: doc_hash vzorového dokumentu
    - dok: doc_hash podobného dokumentu

    Parametr dok může být zadán opakovaně. Je možné použít i další parametry viz níže.

    Příklad použití:

    curl -u 200425:ti54as234la -F vzor=000000 -F dok=111111 -F dok=222222 -F itos=1 -F xml=1 https://theses.cz/auth/dok/plag_pod_dokumentu.pl

  4. Můžu si vypsat pouze podobnosti k jednotlivé práci?

    Ano, lze hledat a nechat si protokolem vypsat i podobnosti jen k jediné práci.

    Podobnosti si můžete nechat zobrazit opět manuálně nebo automaticky.

    Manuálně: v aplikaci

    Theses → Plagiáty → podobnosti v závěrečné práci
    si vyberte školu/fakultu, ke které příslušná práce náleží. Dále vepište lokální identifikátor závěrečné práce (tzn. identifikátor, pod kterým je práce uložena v počítačovém systému poskytovatele).
    Na základě identifikátorů pts:sender.id (vybraná škola) a pts:thesis.id (resp. dc:identifier pokud používáte formát EVSKP) dostanete k dané práci výpis podobných prací a podobností buď v XML nebo PDF protokolu.

    Automaticky: podobnosti k dané práci je možné volat vzdáleně podobně jako u globálního vyhledávání přes neosobní účet pomocí skriptu na stránce https://theses.cz/auth/plagiaty/plag_vskp.pl.

    Příklad použití:
    curl -u 200425:ti54as234la "https://theses.cz/auth/plagiaty/plag_vskp.pl?pts:sender.id=th3190;pts:thesis.id=http://www.vse.cz/vskp/eid/2183"
    Jediným možným parametrem je pdf=1, takže místo implicitního XML záznamu dostanete protokol ve formátu PDF.

  5. Mohu parametrizovat výsledky stahování podobností?

    Ano, lze získat celkové procento podobností nebo vynechat z nalezených podobností dokumenty, které mají stejného autora jako vzorový dokument.

    itos - ignorovat dvojice souborů, které mají stejného autora
    all_perc - zobrazit celkové procento podobností u daného dokumentu
    perc_min - zobrazit pouze podobnosti, které jsou větší než určené minimální procento (např.: perc_min=5 zobrazí podobnosti jen se soubory, jejichž podobnost je větší než 5 %)
    pdf - výstupní formát ve formátu PDF
    xml - výstupní formát ve formátu XML

    Příklad použití:

    curl -u 200425:ti54as234la "https://theses.cz/auth/plagiaty/plag_vskp.pl?pts:sender.id=th3190;pts:thesis.id=http://www.vse.cz/vskp/eid/2183;all_perc=1;pdf=1"

  6. Jak při stahování podobností zjistím stav požadovaného dokumentu?

    Stav požadovaného dokumentu můžete zjistit prostřednictvím atributu plg:status, který se nachází v prvku plg:info.

    Atribut plg:status může nabývat hodnoty od 1 do 9 následovně:

    1. Dokument není v metadatech - neznámé url. Je nutné provést nový import.
    2. Dokument je připraven ke stažení (stahování by mělo proběhnout v noci).
    3. Dokument je zaveden v systému, ale nemá vytvořenou textovou verzi (může se zobrazit i důvod, proč bylo vytvoření neúspěšné nebo upozornění, že soubor není v textovém formátu ale např. ve formátu .eps apod.).
    4. Dokument není zkontrolovaný systémem na odhalování plagiátů - po vytvoření textové verze chvíli trvá, než dojde k nalezení podobností (prvek plg:info se zde nachází v prvku plg:record).
    5. K souboru nebyly nalezeny žádné podobnosti (prvek plg:info se zde nachází v prvku plg:record).
    6. K souboru byly nalezeny podobnosti, informace najdete ve vnořených prvcích plg:plagiat.
    7. Dokument zkontrolován u předchozí verze, podobnosti se teď přepočítávají.
    8. Dokument nezkontrolován, je příliš malý.
    9. Dokument nezkontrolován, obsahuje různá kódování textu.


Nenašli jste odpověď? Pošlete nám svůj dotaz na theses(zavináč/atsign)fi(tečka/dot)muni(tečka/dot)cz.

Relevantní odkazy 


Nahoru | Aktuální datum a čas: 23. 10. 2017 15:29, 43. (lichý) týden

Kontakty: theses(zavináč/atsign)fi(tečka/dot)muni(tečka/dot)cz