domenica 1 novembre 2009

OCR facile per Linux

Ecco come convertire il testo contenuto nelle immagini in un banalissimo file testo.

per Ubuntu: apt-get install zenity imagemagick tesseract-ocr tesseract-ocr-ita
Scarichiamo lo script:
Da quì
Estraiamo e diamo il permesso di esecuzione a img2txt.sh con: chmod +x img2txt.sh
A questo punto possiamo lancarlo: ./img2txt.sh
Possiamo selezionare un file per volta in qualunque formato.
E consigliabile dare in pasto allo script immagini contenenti solo testo (grande da facilitare le cose)

Per usare lo script in una lingua diversa dall'italiano basta installare il pacchetto corrispondente e modificare lo script mettendo al posto di ita la sigla del pacchetto
Buon OCR.