L'OCR en console sous GNU/Linux

Rédigé par govez - 27 décembre 2011

L'OCR, c'est quoi ?

OCR signifie optical character recognition ; c'est à dire reconnaissance optique de caractères. En fait, c'est une traduction d'images de textes imprimés ou dactylographiés en fichiers de texte.

À quoi ça sert ?

Il est possible de récupérer des fichiers textes numérisés, donc utilisables dans un traitement de texte, à partir d'une image scannée d'un document (livre, affiche etc.).
Mon collègue et moi l'utilisons régulièrement à l'école.

Que faut-il ?

Un scanner pour récupérer l'image du document à numériser en texte et quelques logiciels ...
Nous avons besoin d'installer :
  • xsane ; pour scanner les documents
  • tesseract ; le logiciel OCR
  • gimp ; pour retoucher les images (facultatif)
  • imagemagick ; pour convertir les fichiers images
  • gscan2pdf ; une interface graphique (facultatif)

Installons le nécessaire

# aptitude install tesseract-ocr tesseract-ocr-fra imagemagick
Générons maintenant une image avec Xsane (il faut choisir « noir et blanc » et une résolution de 300dpi )
Voici l'image scannée ; un extrait des droits de l'Homme (droits.jpg) :



Pour un travail correct, nous devons convertir cette image au format .tif ; utilisons imagemagick :
$ convert droits.jpg -quality 100 droits.tif
Vous pouvez également utiliser Gimp pour convertir l'image en .tif.
L'image est prête, nous pouvons en extraire le texte.

Lançons la bête

$ tesseract droits.tif droits -l fra

Le résultat

XI. La libre communication des pensées et des opi-
nions est un des droits les plus précieux de l'homme :
tout citoyen peut donc parler, écrire, imprimer libre-
ment ; sauf à répondre de l’abus de cette liberté dans
les cas déterminés par la loi.
On rencontre encore souvent des erreurs (les textes en colonnes ne sont pas gérés) mais le résultat est plutôt satisfaisant. On peut gagner un temps précieux en évitant de retaper tout le texte.

Classé dans : Bureautique - Mots clés : bureautique, école, éducation

Promouvoir cet article sur : Identi.ca Delicious Facebook

3 commentaires

Avatar Gravatar jeudi 16 février 2012 @ 12:37 dahu a dit : #1

Bonjour !
Pour information, il semble que la dernière version de tesseract gère autre chose que le tiff (via libleptonica), et reconnaisse les colonnes.
Bien entendu, il faut la compiler soi-même. :)

Avatar Gravatar mardi 07 août 2012 @ 17:42 massi a dit : #2

Bonjour ,

je vous contacte suite a l'article du net sur l'OCR http://pingouindesalpes.com/?article196/l-ocr-sous-gnu-linux,

j'ai des images jpg et quand je lance le tesseract il me genere le texte mais il n'arrive pas a interepreter bien les chiffre par exemple il renvoie 5 au lieu de 6 ou 3 au lieu de 8 ,


Y a til un moyen d’améliorer la qualité des images ?

merci pour votre aide

Avatar Gravatar samedi 11 août 2012 @ 11:11 Govez a dit : #3

Peut-être en choisissant une image au format tif.

Écrire un commentaire

Capcha
Entrez le code de l'image : 

Ce blog est sous licence Creative Commons. Vous pouvez utiliser les publications, les modifier et même les publier à nouveau sous une licence identique à celle-ci. Vous ne pouvez pas utiliser ces écrits à des fins commerciales.

Patrice Blondel 
			alias Govez ou le Pingouin des @lpes

J'ai 56 ans, je suis instituteur (bientôt en retraite) au cycle 3 dans une petite école de l'Oise (Crillon).
Passionné d'informatique, je suis autodidacte en la matière.
J'utilise GNU/Linux exclusivement depuis plus de 10 ans. J'ai choisi Debian (après avoir testé beaucoup d'autres distributions). La meilleure distribution est celle que l'on maîtrise.

Pour vous y retrouver :

Je vous conseille d'utiliser d'abord le bouton « recherche » en tapant un mot clé. Vous pouvez également naviguer en affichant les articles par catégorie.

Les commentaires :

En indiquant votre adresse mail, vous ferez afficher votre avatar au début du commentaire.
Je me réserve le droit de supprimer les commentaires désobligeants, commerciaux ou sans intérêt.

Catégories

Archives

Mots clés

Derniers articles

Derniers commentaires

L'actualité Debian

LinuxFr.org