OCR signifie optical character recognition ; c’est à dire reconnaissance optique de caractères. En fait, c’est une traduction d’images de textes imprimés ou dactylographiés en fichiers de texte.

À quoi ça sert ? 

Il est possible de récupérer des fichiers textes numérisés, donc utilisables dans un traitement de texte, à partir d’une image scannée d’un document (livre, affiche etc.).
Mon collègue et moi l’utilisons régulièrement à l’école.

Que faut-il ? 

Un scanner pour récupérer l’image du document à numériser en texte et quelques logiciels …
Nous avons besoin d’installer :

  • xsane ; pour scanner les documents
  • tesseract ; le logiciel OCR
  • gimp ; pour retoucher les images (facultatif)
  • imagemagick ; pour convertir les fichiers images
  • gscan2pdf ; une interface graphique (facultatif)

Installons le nécessaire :

# apt install tesseract-ocr tesseract-ocr-fra imagemagick

Générons maintenant une image avec Xsane ; un extrait des droits de l’Homme (droits.jpg).

img

Pour un travail correct, nous devons convertir cette image au format .tif ; utilisons imagemagick :

$ convert droits.jpg -quality 100 droits.tif

Vous pouvez également utiliser Gimp pour convertir l’image en .tif.
L’image est prête, nous pouvons en extraire le texte.

$ tesseract droits.tif droits -l fra

Le résultat : 

XI. La libre communication des pensées et des opi-
nions est un des droits les plus précieux de l'homme :
tout citoyen peut donc parler, écrire, imprimer libre-
ment ; sauf à répondre de l’abus de cette liberté dans
les cas déterminés par la loi.

On rencontre encore souvent des erreurs (les textes en colonnes ne sont pas gérés) mais le résultat est plutôt satisfaisant ; le gain de temps est appréciable.