Inheritance and loss? A brief survey of Google Books by Paul Duguid First Monday, volume 12, number 8 (August 2007). Html

Un article sur la qualité de la numérisation de livres chez Google qui mérite attention, non pour ses constatations : la qualité est mauvaise, c'est bien connu et documenté, mais pour la conclusion. Extrait (trad JMS) :

Le Google Books Project est surement un programme important, sur plus d'un point même inestimable. C'est aussi, comme la preuve en a été brièvement administrée ici, un programme hautement problématique. Comptant sur la puissance de ses outils de recherche, Google a négligé des métadonnées élémentaires, comme le numéro de volume. La qualité de la numérisation (et donc on peut supposer celle de la recherche) est parfois totalement inadéquate. Les éditions proposées (à la recherche ou à la vente) sont, au mieux, regrettables. Étonnamment, cela me laisse penser que les techniciens de Google ont une vision plus romantique du livre que les bibliothécaires. Google Books considèrent les livres comme un entrepôt de sagesse à exploiter avec de nouveaux outils. Ils ne voient pas ce que les bibliothécaires savent : Les livres peuvent être des choses obtuses, obstinés et même odieuses. En général, ils ne se résignent pas à entrer sur une étagère standardisée, un scanner standardisé ou une ontologie standardisée. On ne peut non plus surmonter leurs contraintes en grattant le texte ou en développant des algorithmes. Sans doute ces stratégies sont utiles, mais en essayant de laisser de côté des contraintes vraiment simples (comme les volumes) ces stratégies sous-estiment le fait que les rigidités des livres sont en même temps des ressources qui précisent comment les auteurs et les éditeurs ont cherché à créer le contenu, le sens et la signification que Google cherche aujourd'hui à libérer. Même avec les meilleures technologies de recherche et de numérisation à sa disposition, il est imprudent d'ignorer les éléments livresque d'un livre. D'une façon plus générale, un transfert des artéfacts de communication complexes entre les générations de technologies est sûrement problématique et non automatique.

Finalement, considérant la transmission comme une assurance qualité, la question de la qualité dans le programme bibliothèque de Google Book nous rappelle que les formes nouvelles sont toujours susceptibles de parricide, détruisant dans le processus les ressources dont elles espèrent hériter. Cela reste problématique, par exemple, pour Google News. Dans leur offre gratuite d'actualités, cela risque de miner le flot entrant des sources sur la qualité desquelles Google News compte pour vivre. Cela est aussi vrai, à une moindre mesure, pour Google Books. Google compte ici sur l'assurance qualité des grandes bibliothèques qui collaborent au projet. Les bibliothèques de Harvard et de Standford ne voient pas leur réputation renforcées par la qualité douteuse de Tristram Shandy (note JMS :livre ayant servi à la démonstration de l'auteur), marquée à leur nom dans la base de données de Google. Et Tristram Shandy n'est pas le seul. Pour chaque page mal numérisée ou chaque livre mal catalogué, Google ternit non seulement sa propre réputation sur la qualité et la sophistication de sa technologie, mais aussi celle des institutions qui se sont alliées avec lui.(..)

Voilà des affirmations qui alimenteront sûrement les débats entre partisans et adversaires du projet.


Actu du 10-09-2008

Un des débats les plus intéressants a eu lieu sur le liste des historiens du livre SHARP-L entre P. Duguid et P. Leary, auteur de l'article Googling the Victorians (pdf) qui montre a contrario combien l'outil est utile pour les historiens. Le débat a été reproduit par P. Brandley dans un billet sur O'Reilly Radar sous le titre The Google exchange.


Mon intérêt est ailleurs, sur le fond de la question posée qui rappelle les réflexions de Roger et prennent ici une dimension économique que je n'avais pas encore perçue.

Le premier texte de Roger a fait ressortir trois dimensions indissociables pour définir un document que je traduirais aujourd'hui ainsi :

  • Anthropologique : Forme (Document = Support + Inscription)
  • Intellectuelle :Texte (Document = Code + représentation)
  • Sociale : Médium (Document = Mémoire + transaction)

ou sous forme d'un schéma :

La remarque de P. Duguid revient à dire que la transposition par Google d'un livre sous format numérique n'a pris en compte (et mal) que la dimension du texte, en s'appuyant sur sa valeur sociale construite par les bibliothèques et en oubliant la forme. On pourrait dire aussi qu'un livre ancien et prenant une valeur patrimoniale réduit l'importance du texte au profit de la forme ce qu'a oublié Google, spécialiste du traitement linguistique.

Une autre facette du problème est soulevée par l'auteur celui de la fidélité de la transposition qui pose la question de la très difficile définition du texte. Celle-ci est traité cette fois dans le deuxième texte de Roger, qui se demande notamment comment définir les invariants documentaires à préserver dans une transposition de forme.

Le plus intéressant donc, pour moi, dans l'article de P. Duguid est de constater que les réflexions de Roger trouvent ici un écho pratique doublé enjeu économique. Ces difficultés ont, en effet d'après l'auteur, des conséquences sur la valeur de l'objet créé et en retour sur celle de la source.