Le portail suisse pour les sciences historiques

Google Books et les métadonnées

La grande force de Google Books est de permettre la recherche en plein texte sur l'ensemble des livres de sa base. Sa grande faiblesse, c'est le manque de fiabilité des métadonnées qui structurent son contenu.

Je signale ici deux contributions sur la question des métadonnées dans Google Books, thème déjà abordé sur ce blog.

Dans un article intitulé Google Books: A Metadata Train Wreck, le prof. Geoffrey Nunberg détaille les types d'erreurs contenues dans Google Books. Il explique par ailleurs que le schéma de classification thématique utilisé, le BISAC Subject Headings, est un produit de l'industrie du livre utilisé par les librairies commerciales pour ranger les livres dans les rayons, qui répond d'avantage à l'exigence de placer avec justesse des publicités contextuelles qu'aux besoins des chercheurs.

Dans sa longue réponse, Jon Orwant, responsable de l'équipe métadonnées de Google Books, concède avec ironie:

"First, we know we have problems. Oh lordy we have problems. Geoff refers to us having hundreds of thousands of errors. I wish it were so. We have millions."

Sa réponse donne également une idée du contexte dans lequel se fabrique la plus grande bibliothèque numérique du monde. Il évoque notamment les multiples sources hétérogènes de métadonnées utilisées, publiques comme privées, provenant des Etats-Unis, du Brésil, ou même d'Arménie.

Ce qui semble ressortir du dialogue entre les deux auteurs, c'est la coexistence nécessaire des ressources scientifiques. Les bibliothèques universitaires resteront les institutions de référence indispensables, tandis que les bibliothèques numériques continueront à élargir l'accès aux livres. Complémentarité et non pas concurrence, le reste étant une question d'argent.