Stránka 1 z 1

PDF se zmršenou diakritikou – lze z něj dostat správný text?

Napsal: 13 pro 2013 17:04
od Myloš
V práci mj. upravuji různá periodika a převádím je do čistého textu (TXT).
Mezi tato periodika patří i týdeník Církve československé Husitské Český zápas.
Poslední čísla (například 47 – viz uvedený odkaz) mají zmršenou diakritiku.

ukázka ve spoileru:
► Zobrazit spoiler

Na rozdíl od nakopírování sem nebo do Notepadu jsou sice v PSPadu některá písmenka reprezentovaná dvojicí znaků, z nichž je jeden unikátní, takže by bylo možné náhradou řetězce za znak získat správný text, kdyby… – kdyby tak byla zmršena všechna písmena. Problém je, že třeba í nebo é jsou pouze zkráceny o čárku na i a e, takže bych musel tak jako tak celý text číst a opravovat, na což opravdu nemám čas. To už je rychlejší celé noviny oskenovat, když už je musím kvůli uvedenému problému číst – jenže takhle na jednom blbém čísle strávím hodiny namísto jedné půlhodiny, kterou mi úprava zabrala dřív.
Napadá někoho, jak z takhle zčuněného pédéefka dostat bezchybný text?

Re: PDF se zmršenou diakritikou – lze z něj dostat správný t

Napsal: 13 pro 2013 17:10
od Clorky
Tohle by teoreticky mohlo fungovat, vyzkoušej:
http://www.motobit.com/util/charset-cod ... ersion.asp
Je to konvertor charsetu. Znaky ě,č,ř atd. by měl podporovat windows-1250/utf-8 a dalších x.

Re: PDF se zmršenou diakritikou – lze z něj dostat správný t

Napsal: 13 pro 2013 17:32
od Myloš
Tak ten web mi sice nepomohl, ale náhodou jsem zjistil, že svou vinu nese i PSPad.
Zatímco notepad nehradí všechna písmenka obdélníčkeý, z nichž je každý sice opticky stejný, ale kódem unikátní, PSPad převede na dvojici znaků všechny vyjma ÁÍÉ, takže by to šlo v Notepadu nahradit.
Je to rozhodně jednodušší než skenovat a všechno pozorně číst., přesto – napadá někoho nějaké elegantnější řešení?

Re: PDF se zmršenou diakritikou – lze z něj dostat správný t

Napsal: 13 pro 2013 17:56
od tux
A co ve wordu nahradit znaky?
Pokud je obdelníček zastupující písmeno í kódově jinej, než třeba ten co zastupuje á, tak by stačilo zkopírovat a ve wordu nahradit znaky, nebo jak se ta funkce jmenuje. Pokud jsem ten problém teda pochopil.

Re: PDF se zmršenou diakritikou – lze z něj dostat správný t

Napsal: 13 pro 2013 23:59
od Myloš
Tak to už je fuk, jestli to budu nahrazovat ve Wordu nebo v Notepadu.

Re: PDF se zmršenou diakritikou – lze z něj dostat správný t

Napsal: 14 pro 2013 00:02
od tux
Já myslel pomocí tej funkce.
Dáš vyhledat všechny , a ty potom jedním kliknutím přepíšeš na á, případně jiný písmeno.

Re: PDF se zmršenou diakritikou – lze z něj dostat správný t

Napsal: 14 pro 2013 00:12
od Myloš
Ale jistě – Ctrl+H – to znám; jak říkám, totéž můžu udělat i v poznámkovém bloku, když je to prostý text.

Re: PDF se zmršenou diakritikou – lze z něj dostat správný t

Napsal: 14 pro 2013 00:23
od tux
Koukám že Word tam dělá vůbec jiný znaky. Nějaký smajlíky, a podobný nesmysly.

Re: PDF se zmršenou diakritikou – lze z něj dostat správný t

Napsal: 14 pro 2013 00:39
od Myloš
Jo, myslím že ty samý jako mám tady nahoře ve spoileru v prvním příspěvku.

Doplňuji – aha, tak tady jsou ještě divočejší. ;-)