Numérisation récentes, textes surannés..
Par Jean-Michel Salaun le vendredi 14 septembre 2007, 04:20 - Sémio - Lien permanent
Il y a des jours comme cela où cela fuse de toutes parts !
À lire ce billet de La Feuille Quand les oeuvres anciennes questionnent les oeuvres récentes qui renvoie lui-même à une critique de R-P Droit dans Le Monde des traductions surrannées mises en ligne par la numérisation de masse de livres des collections anciennes des bibliothèques et au commentaire qu'en fait F. Bon.
Le tout peut être mis en rapport avec le billet sur l'analyse de P. Duguid ou encore le précédent billet sur le rôle des bibliothèques dans la numérisation de masse.. on sent que le débat mûrit très rapidement !
Commentaires
On pourrait ajouter un billet provocant de Peter Brantley, sur son blog personnel, à propos des bibliothèques.
blogs.lib.berkeley.edu/sh...
Il y prêche entre autres propositions à examiner de près l'abandon immédiat du cataloguage "traditionnel" :
"Permanently and significantly reduce cataloguing staff. Now."
Au profit du CIP (Cataloging in Publication de la Bibliothèque du Congrès) et d'ONIX, ce qui rend la proposition pour le moins intriguante.
Je ne sais pas si le débat mûrit vraiment, mais en tout cas il est nourri...
Tous les corpus en ligne souffrent de l'amputation des oeuvres sous droit. Les traductions et les transcriptions des oeuvres anciennes n'en sont qu'un cas particulier.
Une fois qu'on a pigé que la numérisation produit non pas des oeuvres numérisées mais des clones d'éditions, tout va bien.
(ou l'apprentissage du mulot chez RP Droit ;-)
"la numérisation produit [...] des clones d'éditions"
Cela me paraît trop vite dit :
• le concept de redocumentarisation (www.cepadues.com/livre_de... mérite d'être pris en compte (surtout sur ce bloc-notes!)
• le changement de format, de dispositif de restitution et de moyen de diffusion/distribution éloigne sérieusement du clone. On pourrait essayer de comparer l'original et son "clone" numérique selon le schéma de Roger Pédauque (voir le billet blogues.ebsi.umontreal.ca... ).
• les programmes de numérisation de masse considérés sont tous assortis de compléments éditoriaux (OCR, indexation) qui en font au moins ce que l'on aurait appelé autrefois une édition augmentée.
Avatar d'édition aurait été plus correct que 'clone'.
Sur le fond, je rappelais simplement que ce sont des éditions que l'on numérise, le plus souvent, et non des oeuvres. C'est surtout vrai pour les numérisations industrielles en masse qui se développent aujourd'hui.
Il y a qq années déjà, j'avais exploré la différence de statut entre les numérisations 'en mode texte' et 'en mode image', dans une interview à Internet Actu :
www.etudes-francaises.net...
Pour ce qui concerne l'OCR et l'indexation probabiliste des facsmilés telles qu'elles sont pratiquées, ce sont plutôt, me semble-t-il, les modes d'accès (donc le support et ses contingences matérielles) qui se trouvent augmentés, plutôt que l'édition elle-même. Sauf quand l'OCR est parfaitement réalisée, ce qui est rarissime pour les opérations en cours. Je reste quand-même assez réservé sur l'idée que numériser un exemplaire en mode image, même enrichi de métadonnées, produise une nouvelle 'édition' d'une oeuvre. Ce n'est 'que' le support et les modes d'accès qui se trouvent transformés.
Et sur la redocumentarisation enfin, j'avoue ne pas saisir encore très la différence entre cette notion et le distinguo assez classique entre un document primaire et les documents non primaires qui en sont issu.
Une citation du New-York Times sur if:book (www.futureofthebook.org/b... me fait découvrir le terme “seo'd” [search engine optimized]
« The change is because of what’s happened in the internet in the past two years—particularly the power of search.” She [Vivian Schiller, senior vp and general manager of nytimes.com] added later: “Think about this recipe—millions and millions of new documents, all seo’d [search engine optimized], double-digit advertising growth.” The Times expects “the scale and the power of the revenue that would come from that over time” to replace the subscriptions revenue and then some. »
Cette optimisation va à mon avis au-delà du simple enrichissement du mode d'accès, et implique une responsabilité éditoriale : la recherche plein texte peut être utilisée pour trouver une oeuvre (la "manifestation" d'une oeuvre, plus précisément) mais aussi pour y circuler en interne, induisant un ordre de lecture.
Les choix d'optimisation ne sont pas sans conséquences, comme en témoigne la remarque de Patrick Lozeau (voir monmemex.com/ cité dans le billet Son Memex blogues.ebsi.umontreal.ca... ) sur les mots vides.
Il faudrait peut-être chercher un terme pour désigner les avatar “seo'd”, “édition indexée plein-texte” ?
Il faudrait dans ce cas aussi pouvoir désigner une “édition indexée structurée”.
Si ce n'est que ces clones d'édition comme tu les appelles Pierre, sont pour beaucoup de gens, l'édition elle-même. Et le ranking à la Google, qui va pendant longtemps les faire sortir en tête des requêtes, risque de renforcer cet état de fait.
Quant à l'augmentation - à la Google -, on voit qu'elle n'a pas lieu sur le document ou ses données, mais via les liens qui y pointent ou en parlent - quasiment exclusivement.