Compte rendu: e-newspaperarchives.ch

Remarque: Ce billet est une avant-première d'une nouvelle rubrique disponible dès l'été 2019. "Recensions Web" présentera des sites, outils, portails, collections et autres ressources en ligne pour les sciences historiques du point de vue des usagers. Plusieurs formats sont prévus: après la collection de ressources autour d'un thème - voir l'avant-première sur la Grève générale - nous présentons ici une recension détaillée d'un site. Vous retours sont les bienvenus.

Introduction
Mis en ligne en été 2018, e-newspaperarchives.ch est la nouvelle plateforme de consultation de la presse suisse numérisée gérée par la Bibliothèque nationale suisse en coopération avec plusieurs bibliothèques et éditeurs de presse. Le site donne accès à une centaine de titres de presse suisse numérisés, publiés entre 1798 et 2016, pour un total de plus de 3.8 millions de pages.

Corpus
Le portail offre un corpus riche, mais disparate. Le Canton du Valais y est surreprésenté avec plus de la moitié des titres disponibles. On notera une intéressante variété de titres issus des mouvances syndicales (La Lutte syndicale, Bern, 1906–1998; Die Gewerkschaft, Zürich, 1901–1992; Die Schweizer Arbeitnehmer, St. Gallen, 1919–1996). Les orientations socialistes (La Sentinelle, Neuchâtel, 1890–1971), anarchistes (Le Falot: le cri du peuple, Valais, 1914–1927), libérales (Der Liberale Alpenbote, Graubünden, 1847–1860), radicales (Le Confédéré, Valais, 1861–2009), et catholiques (St. Galler Volksblatt, St. Gallen, 1856–1900) sont également représentées.

Le corpus comprend également de nombreux journaux locaux, en majorités issus du Canton du Valais. Certains titres sont disponibles sur de très longues périodes alors que d’autres le sont uniquement sur un ou deux ans. On aurait apprécié une visualisation de l’intégralité de chaque collection, qui aurait permis de se faire une idée de la période de publication ainsi que des trous dans les collections sans devoir vérifier manuellement. Le corpus est destiné à croître au fur et à mesure des nouvelles campagnes de numérisation.

Comment ça marche ?

1. Navigation
La page d’accueil du site présente une carte de la Suisse qui permet de se faire rapidement une idée des collections par canton. L’onglet « Feuilleter » permet d’explorer les collections par titre, par date ou par canton. Dans la navigation par titre, chaque journal fait l’objet d’une courte description qui donne un aperçu de son histoire et de son orientation politique, ainsi que de la période pendant laquelle le titre est paru. La navigation par date, elle, offre la possibilité de voir les titres disponibles pour chaque jour du calendrier entre janvier 1798 et décembre 2016.

2. Recherche
La recherche en plein texte permet d’interroger l’ensemble de la base. Elle peut être limitée via les options de recherche avancée à un seul journal, langue, canton, ou à une période chronologique spécifique. L’aide à la recherche rappelle les options de syntaxe de recherche, qui comprend, en plus des opérateurs booléens standards, la pondération des termes de recherche, les jokers (*) et la recherche floue.

3. Visualisation des résultats
Une fois la recherche lancée, on obtient une liste de résultats avec différentes options de filtrage. En sélectionnant un résultat, l’utilisateur est ensuite renvoyé vers le visualiseur de journaux. Ce dernier présente dans sa partie principale l’image de la page numérisée, zoomée automatiquement au niveau de l’article et avec le terme recherché souligné en jaune. Dans la partie gauche du visualiseur, s’affiche l’OCR du texte en question, permettant ainsi à l’utilisateur de comparer l’image et le texte issu de l’OCR.

4. Citabilité, téléchargement, captures d'écran
Tous les journaux sont segmentés au niveau de l’article. Chaque article possède son propre URL, ce qui facilite la citabilité des contenus. Tous les contenus peuvent être téléchargés en PDF, mais uniquement au niveau de l’édition. (On ne peut pas télécharger des articles isolés, mais uniquement l’édition du jour dans laquelle ils sont parus). Enfin, un outil dans le visualiseur permet de réaliser librement des captures d’écran, qui peuvent ensuite être exportées manuellement.

5. Options pour les utilisatrices et utilisateurs enregistrés
Les utilisateurs enregistrés ont la possibilité de créer des listes privées, dans lesquelles enregistrer des articles, et les annoter sommairement. De même, les utilisateurs enregistrés sont autorisés à corriger l’OCR du texte des journaux de façon simple et directe. Il existe également la possibilité d’ajouter des tags libres et des commentaires pour chaque article, mais il semble que ces options soient peu utilisées pour le moment.

Que pourrait-on améliorer ?
L’OCR comporte naturellement des fautes, surtout pour les journaux plus anciens et/ou en mauvais état, mais le choix d’afficher l’image et le texte en parallèle est un gage de transparence. La segmentation des articles est souvent approximative; les programmes de reconnaissance automatique de la mise en page peinent à suivre l’organisation souvent complexe des articles en plusieurs colonnes. Enfin, la distinction entre articles, illustrations et publicités semble pour le moment totalement inopérante et par conséquent pratiquement inutilisable.

Nota bene: En réaction à cette critique, la bibliothèque nationale informe que les titres récemment numérisés et ceux à venir seront segmentés correctement et vérifiés manuellement. Une facette « niveau de segmentation » permet de sélectionner les articles vraiment reconnus.

Commentaire
Une plateforme comme celle-ci offre un accès instantané à une quantité de sources passionnantes, et on serait facilement tenté de considérer ce corpus comme une source universelle sur tous les aspects du passé de la Suisse. L’accessibilité accrue et la possibilité de recherche en plein texte ne doivent cependant pas faire oublier les spécificités de ce type de sources, et la nécessité de leur critique historique, notamment en ce qui concerne l’orientation politique des différents journaux, leur caractère régional ou local, leur tirage réel, etc. On saluera dans cette perspective la présence des fiches biographiques des différents journaux, qui aideront l’historienne ou l’historien dans sa tâche. Cependant, comme le rappelait Marie-Ève Thérenty, directrice du projet Numapresse, qui explore les nouvelles façons d’exploiter les grands corpus de presse numérisés, les sources de presse sont avant tout utiles pour retracer l’évolution… de la presse elle-même !

Évaluation générale
e-newspaperarchives.ch, malgré son URL d’une longueur prohibitive, est un outil puissant et bien pensé. Il a comme premier avantage d’offrir un accès unique à presque tous les titres de presse suisse numérisés, et signale même sur sa page d’accueil les quelques cantons qui ont préféré faire cavaliers seuls (Genève et Vaud essentiellement). Le choix de donner à voir côte à côte la page et l’OCR du texte est profitable, tout comme celui de pouvoir créer des listes personnalisées, ce qui en fait un outil de travail sérieux pour l’historienne et l’historien. Les plus motivés pourront s’amuser à corriger les fautes d’OCR, et auront la satisfaction de voir apparaître leur nom dans le classement des meilleurs correcteurs. Les options de navigation sont bien développées, notamment l’option de voir pour une date précise tous les titres disponibles. Enfin, les courtes descriptions des différents titres sont très précieuses.

Projets similaires
• impresso. Media Monitoring of the Past [LINK]
• Newseye. A Digital Investigator for Historical Newspapers [LINK]
• Numapresse. Du papier à l'écran: mutations culturelles, transferts génériques, poétiques médiatiques de la presse [LINK]