Scanování manuálu, OCR a překlad

Celeron · Založen: Apr 02, 2011 Příspěvky: 17949 Bydliště: Nový Bydžov

Pořídil jsem si logickej analyzátor. Je u něj 90 dvojstránek anglickýho manuálu. Protože anglina není moc moje parketa, chtěl bych si ten manuál oscanovat, prohnat nejakou OCR a pak to Gůglem přežvejkat. Scaner mám HP4370, už v sobě OCR soft má. V černobílým manuálu jsou občas nákresy uspořádání displeje analyzátoru, tam je jasný, že to bude obrázek.
Takže se ptám, jak na to nejlíp. Zkusil jsem oscanovat pár stran do html, že bych to pak přeložil přímo v Maxthon prohlížeči ale je tam nějaká nekompatibilita a dělá to hroznej guláš s formátem. OCR to umí přímo do HTML, Corel word perfect 8, Word Pad. Corela nemám, takže zbývá jen ten WorldPad. Ovšem narazil jsem na problém v HP-čkový OCR, využívá jen 300 DPI a US engl si plete c, o a dalších pár podobných znaků. Bohužel učící režim nemá, je to jen takovej blb, co má pouze nastavení kolik sloupců. Výstup je RTF. Takže to znamená vše projít , opravit a naformátovat. Pak přeložit, opravit a finál poskládat s obrázky v Word 2007.
Není nějaká jiná cesta? Hlavně s lepší OCR, kde by se daly vyladit ty sporný znaky? HP umí vygenerovat všechny klasický grafický formáty v rozlišení až 9600.
Nechci žádný teorie, ale rady od lidí, kteří tohle už někdy dělali.
Díky
Jirka

**rnbw** · Založen: Mar 21, 2006 Příspěvky: 34078 Bydliště: Bratislava

Najlepsi OCR SW je FineReader. Ma aj ucenie a formatovanie textu. Ale aj s nim to bude dost prace.

**Hill**

Fine Reader nejspolehlivěji čte jen skeny v rozlišení 300dpi, kvalitu JPG (ten neodmítá) vyžaduje příliš nešidit, pak je umí převést s minimem chyb do Wordu.

**rnbw** · Založen: Mar 21, 2006 Příspěvky: 34078 Bydliště: Bratislava

Radsej by som JPG vobec nepouzival, aby kompresia nezvysovala chybovost (neviem, ci ten HP software umoznuje nastavovat kvalitu). Skenovat bud priamo z Fine Readeru alebo do bezstratoveho formatu.

Ak sa da manual rozobrat na jednotlive listy, tak dost pomoze skener s automatickym podavacom (a pripadne duplexom).

**Hill**

Až na to, že většinu bezeztrátových formátů FineReader odmítá, takže těžko skenovat třeba do TIFF (kvůli srovnání horizontu, šikmé řádky čte vždycky blbě) a pak nechat přečíst. Jaký formát používá FineReader vnitřně, netuším, ale JPEG s jednoprůchodovou kompresí na 95% kvality čte spolehlivě.

serviceman · Založen: Jul 09, 2013 Příspěvky: 4045

FineReader a TIFF, pokud je scan špatný. Protože to děláš sám, můžeš to nascenovat kvalitně a pak je JPG zrovna tak dobré, nebo PDF, pokud to scanner dělá a pokud je originál dobře vytištěný. Všechno začíná kvalitním scanem. Na internetu jsou dost propracované postupy. Také se vyplatí podívat se na programy ScanTailor a ruský ScanKromsator. Oba slouží ke zpracování scanu před OCR. Nauč se to napřed na pár stránkách a věnuj tomu dost času.

Celeron · Založen: Apr 02, 2011 Příspěvky: 17949 Bydliště: Nový Bydžov

Tak jsem 2,5 hodiny scanoval. Naštěstí má manuál kroužkovej hřbet a tak to šlo snadno rozebrat a přikládáním na hranu skanovací plochy dobře "ukolmit". TIFF hrůza na 600 DPI to jelo každou stránku 3x, takže jsem to změnil na výstup s HP OCR do RTF. Zkusil jsem 10 stránek strčit do Gůgla překladače a kupodivu z toho nevylezla nějaká překladová slátanina ale celkem logickej text jen a pár gramatickejma problémama. Jen pár slov bylo nepřeložených, protože byly špatně oscanovaný. Ale narazil jsem na problém, jak je někde odstavcování nebo tabelátor, chová se jako kdyby to byly sloupce a text se rozhází a musí se hodně značit, kopírovat a mazat.
Zkusím toho ABBYY jestli to nebude lepší.
Díky za tip.
to servicemann: Ty 2 programy jsou nějaký vylepšovače kontůr písma a čističe pozadí písma?
Jirka

serviceman · Založen: Jul 09, 2013 Příspěvky: 4045

Český videomanuál na ScanTailor. ScanTailor a Kromsator řeší odstranění šmouhatého pozadí, náklon řádků, rozdělení dvojstránek (to umí Finereader výtečně), kontury písma, a řadu podobných praktických detailů. Pracují se vstupem v TIFF.

Jinak, Finereader pracuje s 300dpi, takže nemá cenu ztrácet čas s vyšším rozlišením. Lépe nežli černobíle, je také scanovat text ve stupních šedi. Na ebookforum.sk jsou podrobné návody, nebo v ruštině zde.

Celeron · Založen: Apr 02, 2011 Příspěvky: 17949 Bydliště: Nový Bydžov

Zkusil jsem Abbyy FR 12 a nepomohl. Je placenej a zkušebka má omezení jen na 15 dní nebo 50 stran. Já potřebuju 3x tolik stran. Maj to dobře posychrovaný na IP adresu, jde namontovat jen jednou na jedný IP. Trojku za to dávat nebudu, nemělo by to u mě využití.
Nakonec to vypadá, že funguje původní cesta přes HP scaner s OCR do RTF. Předloha je velmi kvalitní a moc chyb nenaseká. Natvrto blbne na will kdy dává 2 jedničky a občas zablbnou tabelátory, pomlčky, přidá mezeru ve slově a projeví se kazy tisku. S kolmostí problém není, scaner má boční vodítko. RTF natáhnu do Word 2007, srovnám odstavce a tabelace, vyházím obrázky a zapnu US pravopis a ten mi najde všechny chyby scanu, který pak opravím. To je dost zásadní věc. Pak si s tím až na pár složenin a američtin už strejda Gůgl poradí. Už mám slíznutých a opravených kolem 2/3 manuálu. Až to bude celý přeložený, přidám do toho nákresy a obrázky a půjdu zkoumat, co ten Gould vlastně všechno umí. Už teď vím, že je o dost lepší než Schlumberger 7600, co jsem měl. Nejvíc mě překvapilo, že má dissas na 48, 51, 85, 86, Z80, 96, M68, co podle prodávajícího nemá. Smile

to serviceman: Scanování obrázků na 600 DPI je strašně pomalý a ještě jede 2x ale naštěstí je jich tam jen pár. Zkusím ten ScanTailor na vyčištění obrázků. A propo, umí to nebo jen text?
Díky všem za snahu pomoci.
Jirka


Informace na portálu Elektro bastlírny jsou prezentovány za účelem vzdělání čtenářů a rozšíření zájmu o elektroniku. Autoři článků na serveru neberou žádnou zodpovědnost za škody vzniklé těmito zapojeními. Rovněž neberou žádnou odpovědnost za případnou újmu na zdraví vzniklou úrazem elektrickým proudem. Autoři a správci těchto stránek nepřejímají záruku za správnost zveřejněných materiálů. Předkládané informace a zapojení jsou zveřejněny bez ohledu na případné patenty třetích osob. Nároky na odškodnění na základě změn, chyb nebo vynechání jsou zásadně vyloučeny. Všechny registrované nebo jiné obchodní známky zde použité jsou majetkem jejich vlastníků. Uvedením nejsou zpochybněna z toho vyplývající vlastnická práva. Použití konstrukcí v rozporu se zákonem je přísně zakázáno. Vzhledem k tomu, že původ předkládaných materiálů nelze žádným způsobem dohledat, nelze je použít pro komerční účely! Tento nekomerční server nemá z uvedených zapojení či konstrukcí žádný zisk. Nezodpovídáme za pravost předkládaných materiálů třetími osobami a jejich původ. V případě, že zjistíte porušení autorského práva či jiné nesrovnalosti, kontaktujte administrátory na diskuzním fóru EB. PHP-Nuke Copyright © 2005 by Francisco Burzi. This is free software, and you may redistribute it under the GPL. PHP-Nuke comes with absolutely no warranty, for details, see the license. Čas potřebný ke zpracování stránky 0.20 sekund