Reconnaissance optique de caractères (OCR) avec Tesseract
J'ai longtemps cru qu'il n'existait pas de bon logiciel d'OCR sous Linux. Grossière erreur ! Il y a Tesseract, un logiciel qui a été développé puis abandonné par HP avant d'être repris sous licence Apache.
Sur Debian et dérivés, il suffit d'installer les paquets tesseract-ocr et tesseract-ocr-fra (sinon le français n'est pas bien reconnu)
Puis pour "océhèriser" une image : tesseract -l fra testOCR.png résultatOCR
va produire le fichier résultatOCR.txt
Il y a une bonne page sur ubuntu-fr qui explique plein d'autres choses sur cet excellent logiciel.