L'OCR dans tous ses états

Hier a eu lieu à la Bibliothèque nationale le dernier Library Science Talk de l'année 2011, consacré à la question de la reconnaissance optique des caractères, en Anglais Optical Caracter Recognition (OCR).

L'invité, Aly Conteh, est l'un des responsables du département numérisation de la British Library. C'est dans le cadre d'un projet de numérisation des Quotidiens Britanniques du XIXe siècle que la question de l'OCR s'est posée à la BL avec acuité.

Pour rappel, la numérisation est un domaine complexe, qui dépasse la simple "scannerisation" des documents. La première étape consiste à sélectionner un corpus à numériser. La seconde étape est la numérisation proprement dite, qui produit des fichiers en format image. Selon Hubert Villard, cette dernière représente environ 40% des coûts d'un projet de numérisation. Il faut ensuite un programme OCR qui extraie automatiquement le texte des documents numérisés à partir des images. Enfin, il faut construire une interface qui permette aux utilisateurs de visualiser, accéder, et faire des recherches au sein du corpus numérisé.

Comment fonctionne un programme OCR ? Tout d'abord le programme segmente le document en lignes distinctes. Il isole ensuite les différents mots, et pour chaque mot les différents caractères qui le composent. Il compare ensuite les caractères avec une base de référence alphabétique et reconstitue les mots en format texte. Les mots font ensuite automatiquement l'objet d'une vérification lexicale dans un dictionnaire, avant d'être validés.

L'étape de l'OCR peut se révéler assez triviale pour des documents récents, mais devient diaboliquement compliquée quand il s'agit de journaux du XIXe siècle.

Voici quelques-uns des problèmes rencontrés par la BL: les journaux étant reliés, les images scannées sont distordues du côté intérieur des pages, ce qui perturbe le programme OCR. Certains jeux de caractères anciens ne sont pas reconnus par les programmes OCR. Il en va de même avec les ligatures et autres archaïsmes typographiques (typiquement le S allongé qui est reconnu comme un F). Le langage du XIXe est également riche de variantes orthographiques, qui restent absentes des dictionnaires de référence des programmes OCR. Enfin, la mise en page des journaux du XIXe varie considérablement, ce qui rend difficile la segmentation automatique des articles et des lignes de texte. Résultat, le taux d'exactitude de l'OCR, considéré comme acceptable au-dessus des 95%, tombe à 60%, voir plus bas dans certains cas-limites.

Pour remédier à ces problèmes, la BL à lancé un projet européen réunissant 26 partenaires publiques et privés autours de l'OCR. (Le marché mondial de l'OCR est dominé par quelques grandes firmes commerciales, dont ABBYY semble être le leader.) Intitulé IMPACT (IMProving ACces to Text), le projet termine cette année sa première phase (16 mio. d'euros investis) et se transforme en un centre de compétence. Un nouveau site web sera inauguré le 30 septembre lors de la conférence conclusive du projet.

IMPACT à développé différentes ressources pour améliorer l'OCR: guides à la gestion de projet de numérisation, lexiques spécialisés pour les langages du XIXe siècle, et différents outils pour vérifier l'exactitude des OCR, améliorer la segmentation des pages ou corriger les distorsions géométriques.

Une autre piste explorée est celle du Crowdsourcing, avec l'objectif d'inciter les utilisateurs à corriger directement les transcriptions erronées. L'idée vient de la National Library of Australia, qui a déjà mis en place un outil de correction par crowdsourcing pour ses journaux numérisés.

Reste à rappeler le projet similaire mené en Suisse autours des Archives du Journal de Genève (1826-1998) et de La Gazette de Lausanne (1798-1998), qui a dû affronter en son temps toutes ces questions, avec un certain succès, si l'on en croit la recherche en plein texte et la segmentation des pages en articles, qui semblent tous deux bien fonctionner.