Tempo fa ho dovuto inserire sul mio sito un articolo tecnico molto lungo scritto su un dépliant. Le mie capacità di battitura sono pari a zero, avrei impiegato almeno 15 minuti per scrivere l'articolo, che tra l'altro non era l'unico. Mi sono ricordato che esiste l' OCR che mi era stato regalato insieme alla stampante, lo apro e mi accorgo che è scaduto, era a tempo determinato , cerco in rete qualcosa di gratuito...
Il più affidabile e Open Source sotto licenza Apache è Tesseracr-ocr leggimi e download.
Non uso Linux quindi mi sono dovuto cercare qualcosa di installabile ed ho trovato freeOCR che è basato su motore Tesseracr-ocr.
Se non dovesse funzionare la 3.0 scaricare da qui (il mio sito di prove) la versione 2.6.
La lingua italiana per freeOCR (2.6 e 3.0) si scarica da qui, la lingua serve solo per il motore di riconoscimento caratteri e va inserita scompattata in C:\WINDOWS\tessdata così:
Riconoscimento di un libro, sulla sinistra la scansione, sulla destra il testo estrapolato che può essere copiato su qualunque editor.
Per scrupolo ho controllato il captcha che avevo sul mio sito ed ho avuto l'amara sorpresa, sulla sinistra l'immagine ed a destra il facile riconoscimento dei caratteri.
Ho subito cambiato i parametri del captcha che adesso è illeggibile dal programma freeOCR e spero anche dai robot che tentano di iscriversi al mio sito.