Stránka 1 z 1

Stránka do txt...

Napsal: 14 zář 2015 18:33
od jeninicicek
Nemáte někdo tip jak dostat jakoukoli stránku do txt, výsledné txt by mělo vypadat stejně jako, když stránku přes ctrl-a -c -v, vrazím do poznámkového bloku.
Zkoušel jsem nějaké html parsery, i projet html nějakým regulárním výrazem, ale prostě se mi pořád nedaří to vyčistit tak, jak přes ctrl-c -v.
Nechtěl bych na to nějakou aplikaci, ale spíš jak to řešit, kdybych si chtěl něco takového napsat... Jde to ctrl... nějak nasimulovat nebo tak něco bez otvírání stránek v prohlížeči?

Re: Stránka do txt...

Napsal: 14 zář 2015 18:43
od faraon
Co prostě vzít znak po znaku pouze obsah BODY, vyházet všechny tagy, a pouze reagovat na odstavce a odřádkování?

Re: Stránka do txt...

Napsal: 14 zář 2015 21:26
od jeninicicek
Právě odfiltrovat vše, co se tam objeví je někdy problém(ne všichni píší stránky slušně :D), aneb jak píši parsery(např. jsoup) jsem zkoušel, ale nebyl jsem zrovna spokojen....

Re: Stránka do txt...  Vyřešeno

Napsal: 17 zář 2015 11:29
od jeninicicek
No nic, nakonec se mi to kombinací několika řešní podařilo....