Vítejte na Elektro Bastlírn?
Nuke - Elektro Bastlirna
  Vytvořit účet Hlavní · Fórum · DDump · Profil · Zprávy · Hledat na fóru · Příspěvky na provoz EB

Vlákno na téma KORONAVIRUS - nutná registrace


Nuke - Elektro Bastlirna: Diskuzní fórum

 FAQFAQ   HledatHledat   Uživatelské skupinyUživatelské skupiny   ProfilProfil   Soukromé zprávySoukromé zprávy   PřihlášeníPřihlášení 

Scanování manuálu, OCR a překlad

 
Přidat nové téma   Zaslat odpověď       Obsah fóra Diskuzní fórum Elektro Bastlírny -> Výpočetní technika
Zobrazit předchozí téma :: Zobrazit následující téma  
Autor Zpráva
Celeron



Založen: Apr 02, 2011
Příspěvky: 17949
Bydliště: Nový Bydžov

PříspěvekZaslal: po duben 28 2014, 17:47    Předmět: Scanování manuálu, OCR a překlad Citovat

Pořídil jsem si logickej analyzátor. Je u něj 90 dvojstránek anglickýho manuálu. Protože anglina není moc moje parketa, chtěl bych si ten manuál oscanovat, prohnat nejakou OCR a pak to Gůglem přežvejkat. Scaner mám HP4370, už v sobě OCR soft má. V černobílým manuálu jsou občas nákresy uspořádání displeje analyzátoru, tam je jasný, že to bude obrázek.
Takže se ptám, jak na to nejlíp. Zkusil jsem oscanovat pár stran do html, že bych to pak přeložil přímo v Maxthon prohlížeči ale je tam nějaká nekompatibilita a dělá to hroznej guláš s formátem. OCR to umí přímo do HTML, Corel word perfect 8, Word Pad. Corela nemám, takže zbývá jen ten WorldPad. Ovšem narazil jsem na problém v HP-čkový OCR, využívá jen 300 DPI a US engl si plete c, o a dalších pár podobných znaků. Bohužel učící režim nemá, je to jen takovej blb, co má pouze nastavení kolik sloupců. Výstup je RTF. Takže to znamená vše projít , opravit a naformátovat. Pak přeložit, opravit a finál poskládat s obrázky v Word 2007.
Není nějaká jiná cesta? Hlavně s lepší OCR, kde by se daly vyladit ty sporný znaky? HP umí vygenerovat všechny klasický grafický formáty v rozlišení až 9600.
Nechci žádný teorie, ale rady od lidí, kteří tohle už někdy dělali.
Díky
Jirka
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu
rnbw



Založen: Mar 21, 2006
Příspěvky: 34078
Bydliště: Bratislava

PříspěvekZaslal: po duben 28 2014, 18:01    Předmět: Citovat

Najlepsi OCR SW je FineReader. Ma aj ucenie a formatovanie textu. Ale aj s nim to bude dost prace.
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu
Hill
Administrátor


Založen: Sep 10, 2004
Příspěvky: 19599
Bydliště: Jičín, Český ráj

PříspěvekZaslal: po duben 28 2014, 18:16    Předmět: Citovat

Fine Reader nejspolehlivěji čte jen skeny v rozlišení 300dpi, kvalitu JPG (ten neodmítá) vyžaduje příliš nešidit, pak je umí převést s minimem chyb do Wordu.
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu
rnbw



Založen: Mar 21, 2006
Příspěvky: 34078
Bydliště: Bratislava

PříspěvekZaslal: po duben 28 2014, 18:32    Předmět: Citovat

Radsej by som JPG vobec nepouzival, aby kompresia nezvysovala chybovost (neviem, ci ten HP software umoznuje nastavovat kvalitu). Skenovat bud priamo z Fine Readeru alebo do bezstratoveho formatu.

Ak sa da manual rozobrat na jednotlive listy, tak dost pomoze skener s automatickym podavacom (a pripadne duplexom).
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu
Hill
Administrátor


Založen: Sep 10, 2004
Příspěvky: 19599
Bydliště: Jičín, Český ráj

PříspěvekZaslal: po duben 28 2014, 18:59    Předmět: Citovat

Až na to, že většinu bezeztrátových formátů FineReader odmítá, takže těžko skenovat třeba do TIFF (kvůli srovnání horizontu, šikmé řádky čte vždycky blbě) a pak nechat přečíst. Jaký formát používá FineReader vnitřně, netuším, ale JPEG s jednoprůchodovou kompresí na 95% kvality čte spolehlivě.
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu
serviceman



Založen: Jul 09, 2013
Příspěvky: 4045

PříspěvekZaslal: po duben 28 2014, 19:43    Předmět: Citovat

FineReader a TIFF, pokud je scan špatný. Protože to děláš sám, můžeš to nascenovat kvalitně a pak je JPG zrovna tak dobré, nebo PDF, pokud to scanner dělá a pokud je originál dobře vytištěný. Všechno začíná kvalitním scanem. Na internetu jsou dost propracované postupy. Také se vyplatí podívat se na programy ScanTailor a ruský ScanKromsator. Oba slouží ke zpracování scanu před OCR. Nauč se to napřed na pár stránkách a věnuj tomu dost času.
_________________
Nebojte se skloňovat (i cizí slova).
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu
Celeron



Založen: Apr 02, 2011
Příspěvky: 17949
Bydliště: Nový Bydžov

PříspěvekZaslal: po duben 28 2014, 22:38    Předmět: Citovat

Tak jsem 2,5 hodiny scanoval. Naštěstí má manuál kroužkovej hřbet a tak to šlo snadno rozebrat a přikládáním na hranu skanovací plochy dobře "ukolmit". TIFF hrůza na 600 DPI to jelo každou stránku 3x, takže jsem to změnil na výstup s HP OCR do RTF. Zkusil jsem 10 stránek strčit do Gůgla překladače a kupodivu z toho nevylezla nějaká překladová slátanina ale celkem logickej text jen a pár gramatickejma problémama. Jen pár slov bylo nepřeložených, protože byly špatně oscanovaný. Ale narazil jsem na problém, jak je někde odstavcování nebo tabelátor, chová se jako kdyby to byly sloupce a text se rozhází a musí se hodně značit, kopírovat a mazat.
Zkusím toho ABBYY jestli to nebude lepší.
Díky za tip.
to servicemann: Ty 2 programy jsou nějaký vylepšovače kontůr písma a čističe pozadí písma?
Jirka
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu
serviceman



Založen: Jul 09, 2013
Příspěvky: 4045

PříspěvekZaslal: út duben 29 2014, 5:57    Předmět: Citovat

Český videomanuál na ScanTailor. ScanTailor a Kromsator řeší odstranění šmouhatého pozadí, náklon řádků, rozdělení dvojstránek (to umí Finereader výtečně), kontury písma, a řadu podobných praktických detailů. Pracují se vstupem v TIFF.

Jinak, Finereader pracuje s 300dpi, takže nemá cenu ztrácet čas s vyšším rozlišením. Lépe nežli černobíle, je také scanovat text ve stupních šedi. Na ebookforum.sk jsou podrobné návody, nebo v ruštině zde.

_________________
Nebojte se skloňovat (i cizí slova).
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu
Celeron



Založen: Apr 02, 2011
Příspěvky: 17949
Bydliště: Nový Bydžov

PříspěvekZaslal: út duben 29 2014, 15:12    Předmět: Citovat

Zkusil jsem Abbyy FR 12 a nepomohl. Je placenej a zkušebka má omezení jen na 15 dní nebo 50 stran. Já potřebuju 3x tolik stran. Maj to dobře posychrovaný na IP adresu, jde namontovat jen jednou na jedný IP. Trojku za to dávat nebudu, nemělo by to u mě využití.
Nakonec to vypadá, že funguje původní cesta přes HP scaner s OCR do RTF. Předloha je velmi kvalitní a moc chyb nenaseká. Natvrto blbne na will kdy dává 2 jedničky a občas zablbnou tabelátory, pomlčky, přidá mezeru ve slově a projeví se kazy tisku. S kolmostí problém není, scaner má boční vodítko. RTF natáhnu do Word 2007, srovnám odstavce a tabelace, vyházím obrázky a zapnu US pravopis a ten mi najde všechny chyby scanu, který pak opravím. To je dost zásadní věc. Pak si s tím až na pár složenin a američtin už strejda Gůgl poradí. Už mám slíznutých a opravených kolem 2/3 manuálu. Až to bude celý přeložený, přidám do toho nákresy a obrázky a půjdu zkoumat, co ten Gould vlastně všechno umí. Už teď vím, že je o dost lepší než Schlumberger 7600, co jsem měl. Nejvíc mě překvapilo, že má dissas na 48, 51, 85, 86, Z80, 96, M68, co podle prodávajícího nemá. Smile
to serviceman: Scanování obrázků na 600 DPI je strašně pomalý a ještě jede 2x ale naštěstí je jich tam jen pár. Zkusím ten ScanTailor na vyčištění obrázků. A propo, umí to nebo jen text?
Díky všem za snahu pomoci.
Jirka
Návrat nahoru
Zobrazit informace o autorovi Odeslat soukromou zprávu
Zobrazit příspěvky z předchozích:   
Přidat nové téma   Zaslat odpověď       Obsah fóra Diskuzní fórum Elektro Bastlírny -> Výpočetní technika Časy uváděny v GMT + 1 hodina
Strana 1 z 1

 
Přejdi na:  
Nemůžete odesílat nové téma do tohoto fóra.
Nemůžete odpovídat na témata v tomto fóru.
Nemůžete upravovat své příspěvky v tomto fóru.
Nemůžete mazat své příspěvky v tomto fóru.
Nemůžete hlasovat v tomto fóru.
Nemůžete připojovat soubory k příspěvkům
Můžete stahovat a prohlížet přiložené soubory

Powered by phpBB © 2001, 2005 phpBB Group
Forums ©
Nuke - Elektro Bastlirna

Informace na portálu Elektro bastlírny jsou prezentovány za účelem vzdělání čtenářů a rozšíření zájmu o elektroniku. Autoři článků na serveru neberou žádnou zodpovědnost za škody vzniklé těmito zapojeními. Rovněž neberou žádnou odpovědnost za případnou újmu na zdraví vzniklou úrazem elektrickým proudem. Autoři a správci těchto stránek nepřejímají záruku za správnost zveřejněných materiálů. Předkládané informace a zapojení jsou zveřejněny bez ohledu na případné patenty třetích osob. Nároky na odškodnění na základě změn, chyb nebo vynechání jsou zásadně vyloučeny. Všechny registrované nebo jiné obchodní známky zde použité jsou majetkem jejich vlastníků. Uvedením nejsou zpochybněna z toho vyplývající vlastnická práva. Použití konstrukcí v rozporu se zákonem je přísně zakázáno. Vzhledem k tomu, že původ předkládaných materiálů nelze žádným způsobem dohledat, nelze je použít pro komerční účely! Tento nekomerční server nemá z uvedených zapojení či konstrukcí žádný zisk. Nezodpovídáme za pravost předkládaných materiálů třetími osobami a jejich původ. V případě, že zjistíte porušení autorského práva či jiné nesrovnalosti, kontaktujte administrátory na diskuzním fóru EB.


PHP-Nuke Copyright © 2005 by Francisco Burzi. This is free software, and you may redistribute it under the GPL. PHP-Nuke comes with absolutely no warranty, for details, see the license.
Čas potřebný ke zpracování stránky 0.20 sekund