martedì 8 febbraio 2011

Tesseract GUI + Google Books - OCR facile per linux

Tesseract-OCR è uno dei migliori Engine OCR open source disponibili. Il problema che spesso ci si presenta è manipolare l'immagine in modo da ottenere una digitalizzazione del testo quasi perfetta. Con Tesseract GUI non dovremo più occuparci del lavoro sporco. Esso ci permette di selezionare direttamente il testo da digitalizzare. Abbiamo sperimentato questa interfaccia facendo lo screenshout di una pagina di Google Books. Il risultato è stato veramente stupefacente.

Pagina ufficiale di Tesseract GUI:
http://sourceforge.net/projects/tesseract-gui

Ovviamente è necessario installare tesseract-ocr più il language pack.
Per gli utenti debian:
sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-ita
I language pack disponibili sono per le lingue: Italiano, Inglese, Francese, Tedesco, Portoghese, Spagnolo e Vietnamita

Video Dimostrativo
Buon OCR a tutti.