Test OCR sous Linux

Au fil de mes recherches sur les ebooks, je suis tombé sur un article qui développe une idée plutôt amusante : numériser soi-même ses livres. Je me suis donc demandé où en était la reconnaissance optique de caractères sous Linux.

Je n'ai pas cherché à faire un test exhaustif ni très poussé, simplement une manipulation de base : j'ai pris le premier bouquin sous la main, Sang de pierre d'Elisabeth Vonarburg, je l'ai ouvert à une page quelconque et je l'ai placé dans le scanner ; SimpleScan, logiciel intégré dans Ubuntu 10.04, s'est ensuite chargé d'en créer une image png.

scan

Scan des pages 24 et 25 de Sang de pierre d'Elisabeth Vonarburg.

Il faut ensuite traiter cette image avec un logiciel de reconnaissance optique de caractères. J'opte pour Tesseract et installe les paquets paquetstesseract-ocr et tesseract-ocr-fra via synaptic. Le logiciel ne gérant que le format tif et ne comprenant pas le texte en colonnes multiples, il faut éditer cette image avec le Gimp pour en extraire une des pages. Les traitements restent sommaires : augmentation du constraste, passage en mode niveau de gris et suppression du canal alpha pour enregitrer au format tif sans compression et éviter ainsi certains désagréments.

Une fois tout ce travail de préparation effectué, il ne reste plus qu'à lancer Tesseract en ligne de commande :

tesseract fichier_image.tif fichier_texte -l fra
Lancement du traitement de l'image par Tesseract.

Il peut aussi être effectué via un service en ligne, Free OCR. Voilà ce que donne au final la conversion de la page 24 :

— Oui.
— Comment s'appelle-t-elle, Ordo ‘! »
Un petit silence: «La phonologie.»
Hilsh met la console sur VISUEL et tape PHO-
N()L©GlE. Les informations défilent sur l’éeran.
« Mais ça concerne le mécanisme de la parole. ça,
les sims. .Ie veux quelque chose sur les mots, Ordo.
- Quels mots `?>> répond Ordo à sa demande.
« La, une, elle. Des definitions de ces mots,
()rdo >>, dit Hilsh après avoir remis la console sur
V()(`/\L.
Un petit silence de nouveau; Hilsh se demande
si ()i·tlo va se mettre à toussoter; il s’étonne presque
qu'on n‘ait pas inclus ce maniérisme dans sa pseudo-
personnalité humaine,
« Lu est un article défini. Une est un article
intlelinl. Les articles servent à désigner les choses.
Iillv est un pronom personnel. Les pronoms per-
sonnels servent at désigner les personnes.
-- Mais pourquoi suis-je un il et pas un elle, par
exetnple 'l Y a-t-il une différence, O1·do?>>
lineore le petit silence, Puis: « La raison en est
hien snnple... »
Mais un elignotement rouge s’allume sur les
ecrans, une alarme se met à résonner: « Panne en
lncuhation section 2 l » dit Ordo d`une voix inquiète.
('ltaeun s’al`l`aire aussitôt à sa console. Hilsh
devrait peut-être s‘en aller, mais il reste là à regar-
der passer sur les écrans des chiffres et des courbes
et des diagrammes, qui ne signifient rien pour lui.
Section 2. C'est la section où se trouvent les clones,
(Jn se trouve diHilsh. ll observe les visages un peu
tendus, il sent qu’il se passe quelque chose de
grave, mais il n`ose rien demander.
Traitement de la page 24 effectué en local.
- Oui. -
- Comment s'appelle-t-elle, Ordo ? ››
Un petit silence: «La phonologie.›› s
Hilsh met la console sur VÎSUEL et tape PHO-
NOLOGIE. Les informations déñlent sur l`écran.
« Mais ça conceme le mécanisme de la parole, ça,
les sons. Je veux quelque chose sur les mots, Ordo.
- Quels mots ?›› répond Ordo à sa demande.
« La, une, elle. Des définitions de ces mots,
Ordo ››, dit Hilsh après avoir remis la console sur
VOCAL.
Un petit silence de nouveau; Hilsh se demande
si Ordo va se mettre à toussoter; il s'étonne presque
qu'on n'ait pas inclus ce maniérisme dans sa pseudo-
personnalité humaine.
*« La est un article défini. Une est un article
indéfini. Les articles servent à désigner les choses.
Elle est un pronom personnel. Les pronoms_ per-
sonnels servent à désigner les personnes. '
- Mais pourquoi suis-je un il et pas un elle, par
exemple ? Y a-t-il une différence, Ordo ?››
Encore le petit silence. Puis: « La raison en est
bien simple… ›› ~
Mais un clignotement rouge s°allume sur les
écrans, une alarme se môt à résonner: « Panne en
incubation section 2 ! ›› dit Ordo d'une voix inquiète.
Chacun s`affaire aussitôt ã sa console. Hilsh
devrait peut-être s'en aller, mais il reste là à regar-
der passer sur les écrans des chiffres et des courbes
et des diagrammes, qui ne signifient rien pour lui.
Section 2. C`est la section où se trouvent les clones.
Où se trouve diHilsh. Il observe les visages *un peu
tendus, il sent qu'il se passe quelque chose de
grave, mais il n`ose rien demander. _
Traitement de la page 24 effectué par le service web Free OCR.

Pas tip top ! On peut peut-être obtenir un meilleur résultat en affinant les traitements préalables de l'image ou en optant pour une toute autre technique, via gscan2pdf par exemple. Dans tout les cas, je me vois mal scanner / corriger ma centaine de romans et mon autre centaine d'essais en vu de leur numérisation !

Titre
Reconnaissance optique de caractères (ROC)
Editeur
Ubuntu-fr
Date
Titre
Linux OCR Software Comparison
Auteurs
  • Andreas GOHR
Éditeur
splitbrain.org
Date