PDF se zmršenou diakritikou – lze z něj dostat správný text?
Napsal: 13 pro 2013 17:04
V práci mj. upravuji různá periodika a převádím je do čistého textu (TXT).
Mezi tato periodika patří i týdeník Církve československé Husitské Český zápas.
Poslední čísla (například 47 – viz uvedený odkaz) mají zmršenou diakritiku.
ukázka ve spoileru:
Na rozdíl od nakopírování sem nebo do Notepadu jsou sice v PSPadu některá písmenka reprezentovaná dvojicí znaků, z nichž je jeden unikátní, takže by bylo možné náhradou řetězce za znak získat správný text, kdyby… – kdyby tak byla zmršena všechna písmena. Problém je, že třeba í nebo é jsou pouze zkráceny o čárku na i a e, takže bych musel tak jako tak celý text číst a opravovat, na což opravdu nemám čas. To už je rychlejší celé noviny oskenovat, když už je musím kvůli uvedenému problému číst – jenže takhle na jednom blbém čísle strávím hodiny namísto jedné půlhodiny, kterou mi úprava zabrala dřív.
Napadá někoho, jak z takhle zčuněného pédéefka dostat bezchybný text?
Mezi tato periodika patří i týdeník Církve československé Husitské Český zápas.
Poslední čísla (například 47 – viz uvedený odkaz) mají zmršenou diakritiku.
ukázka ve spoileru:
► Zobrazit spoiler
Na rozdíl od nakopírování sem nebo do Notepadu jsou sice v PSPadu některá písmenka reprezentovaná dvojicí znaků, z nichž je jeden unikátní, takže by bylo možné náhradou řetězce za znak získat správný text, kdyby… – kdyby tak byla zmršena všechna písmena. Problém je, že třeba í nebo é jsou pouze zkráceny o čárku na i a e, takže bych musel tak jako tak celý text číst a opravovat, na což opravdu nemám čas. To už je rychlejší celé noviny oskenovat, když už je musím kvůli uvedenému problému číst – jenže takhle na jednom blbém čísle strávím hodiny namísto jedné půlhodiny, kterou mi úprava zabrala dřív.
Napadá někoho, jak z takhle zčuněného pédéefka dostat bezchybný text?