Reconnaissance optique de caractères (OCR) avec Tesseract

J'ai longtemps cru qu'il n'existait pas de bon logiciel d'OCR sous Linux. Grossière erreur ! Il y a Tesseract, un logiciel qui a été développé puis abandonné par HP avant d'être repris sous licence Apache.

Sur Debian et dérivés, il suffit d'installer les paquets tesseract-ocr et tesseract-ocr-fra (sinon le français n'est pas bien reconnu)

Puis pour "océhèriser" une image : tesseract -l fra testOCR.png résultatOCR va produire le fichier résultatOCR.txt

Il y a une bonne page sur ubuntu-fr qui explique plein d'autres choses sur cet excellent logiciel.