Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

dimanche 01 juin 2008

Les raccourcis de l'histoire du document

Découvert grâce à Alain Pierrot qui le commente (ici), cet article du célèbre historien du livre R. Darnton mérite lecture et réflexion, à cause d'abord de la limpidité habituelle de la prose et du raisonnement de l'auteur, qui en fait une référence pour les étudiants comme pour les érudits, et aussi pour la thèse qu'il défend que je discuterai brièvement.

Robert Darnton, “The Library in the New Age,” The New York Review of Books 55, no. 10 (Juin 12, 2008), .

Ironiquement, l'article, dont on verra que les références remontent très loin dans le temps, est accessible avant sa parution le 12 juin prochain, ce qui est déjà un signe : le passé est peut-être en avance sur l'avenir ;-), en vérité l'historien se sert des leçons du passé pour tenter d'éclairer nos décisions à venir. Malgré la qualité de son propos, je ne suis pas sûr qu'il le fasse toujours à bon escient.

Commençons par citer la chronologie qu'il propose en introduction (trad JMS) :

En simplifiant largement, on pourrait dire qu'il y a eu quatre changements fondamentaux dans les technologies de l'information depuis que les hommes ont appris à parler :

Quelque part vers 4000 avant JC, les hommes ont appris à écrire. Les hiéroglyphes égyptiens remontent à environ 3200 avant JC, l'écriture alphabétique à 1000 avant JC. Si l'on suit les chercheurs comme J. Goody, l'invention de l'écriture fut la plus importante rupture de l'histoire de l'humanité. Elle a transformé la relation des hommes à leur passé et a ouvert la voie à l'émergence du livre comme une force dans l'histoire.

L'histoire du livre conduit à une seconde étape quand le codex a remplacé le rouleau peu après le début de l'ère chrétienne. (..) Cela a transformé l'expérience de lecture : la page est devenue l'unité de perception, et les lecteurs ont pu feuilleter un texte bien construit, qui pouvait inclure des mots différenciés (c'est à dire séparés par des espaces), des paragraphes et des chapitres, tout cela avec une table des matières, des index et d'autres aides à la lecture.

Le codex a été transformé à son tour par l'invention de l'imprimerie à caractères mobiles vers 1450. (..) La technologie de l'impression n'a pas changé pendant près de quatre siècles, mais le cercle des lecteurs s'est considérablement élargi grâce aux progrès de l'alphabétisation, de l'éducation et l'accès au monde de l'imprimé. Les prospectus et journaux, tirés sur des presses à vapeur et sur du papier issu de la pulpe de bois plutôt que des chiffons, ont accru le processus de démocratisation jusqu'à ouvrir le lectorat à un public de masse dans la seconde moitié du dix-neuvième siècle.

Le quatrième changement, la communication électronique, c'était hier, ou la veille selon la façon dont vous le mesurez. L'internet date de 1974, au moins comme nom. (..)

Enchainé de cette façon, le rythme du changement coupe le souffle : de l'écriture au codex, 4.300 ans ; du codex aux caractères mobiles, 1150 ans ; des caractères mobiles à internet, 524 ans ; d'internet aux moteurs, 19 ans ; des moteurs à l'algorithme de Google pour un classement pertinent, 7 ans ; et qui sait ce qui nous attend demain et est peut-être déjà dans les tuyaux ?

On peut faire un rapprochement entre cette chronologie et celle des quatre âges de l'imprimé (ici), en remarquant néanmoins que R. Darnton ne différencie pas l'âge de la presse de celui de la paperasse, contrairement à A. Marshall. Cette différence n'est pas anodine. En effet, les machines légères à imprimer ont sorti l'imprimé d'une production industrielle pour l'entrer dans notre quotidien, d'abord professionnel puis domestique, et cela modifie sensiblement la pertinence de la suite de l'article de R. Darnton.

Dans celle-ci, l'auteur fait d'abord remarquer que l'information n'a jamais été stable et que son inscription sur des artefacts, soumise à de nombreuses contraintes, matérielles, professionnelles et sociales, varie suivant les circonstances. Il prend pour cela avec beaucoup de verve notamment des exemples dans son expérience propre, comme journaliste ou comme historien du livre (en particulier sur les différentes versions de l'Encyclopédie dont il est un expert). Il relativise ainsi les discours communs sur l'instabilité de l'information sur le Web, allant jusqu'à inverser le propos. Puisque cette instabilité est maintenant clairement visible, nous pourrions mieux la gérer :

Au lieu de documents solidement fixés, nous devons jouer avec des textes multiples et instables. En les étudiant avec un esprit critique sur l'écran de notre ordinateur, nous pouvons apprendre à lire de façon plus pertinente notre journal quotidien, et même à apprécier les livres anciens. (trad JMS)

Mais cet argumentaire, séparant l'écriture réservée à quelques clercs de la lecture démocratisée, n'est pas vraiment pour moi convaincant. En sautant l'âge de la paperasse, l'auteur ne peut plus percevoir que l'imprimé s'est démocratisé aussi dans son écriture, avant même l'arrivée du micro-ordinateur.

Et alors, on peut renverser son raisonnement : sans doute l'information n'a jamais été stable dans l'histoire, mais sa fixation sur des documents peu nombreux et industriellement reproductibles en avait stabilisé des versions, à tort ou à raison socialement admises comme référence parce que diffusées à l'identique ; la diffusion d'un très grand nombre d'informations sur des fichiers mémorisés et donc fixés quoiqu'on en dise, déstabilise notre relation au document. C'est faire preuve d'optimisme de croire que nous en tirons un plus grand esprit critique, on pourrait tout aussi bien dire qu'il en découle une plus grande confusion.

R. Darnton conclut son article par une vibrante défense des bibliothèques de recherche, qui était, comme le titre l'indique, son objectif premier. Je ne reprendrai pas ses huit arguments, qui d'ailleurs n'en prennent que plus de poids depuis l'annonce de l'abandon par Microsoft de son programme de numérisation de livres. Sans doute l'auteur a raison d'insister sur l'importance de leur rôle traditionnel, fondamental même dans un environnement numérique.. mais doit-on s'en tenir simplement à ce rôle quand justement le rapport au document a changé ? je n'ai pas vraiment de réponse à cette question. L'auteur nous exhorte à ne pas les penser comme des entrepôts ou des musées, mais j'ai peur que son raisonnement nous y conduise tout droit.

lundi 19 mai 2008

Archivistique et Cloud computing

L'expression consacrée pour le calcul parallèle est maintenant Cloud computing. Elle renvoie à une technique informatique ancienne visant l'amélioration de la performance des machines pour de très gros calculs scientifiques, mais elle est aujourd'hui appliquée pour notre communication et documentation ordinaire grâce aux centres de données mis en place par les firmes comme Google ou Amazon dans le cadre de leur activité.

Christian Fauré vient de prononcer une intéressante conférence à l'association Ars Industrialis sur le sujet. Il faut passer au-dessus de la tentative un peu agaçante de vouloir enfermer le propos dans une pensée globalisante, qui est le péché mignon de cette association pilotée par B. Stiegler. Je ne suis pas sûr, par exemple, que la théorie des coûts de transaction soit applicable à ce phénomène et encore moins d'A. Gramsci et son intellectuel organique aient vraiment un rapport, pour parler d'auteurs que je connais un peu. Néanmoins le propos de C. Fauré est important pour la thématique de ce blogue, très important même. Il rejoint des constatations faites par François Bourdoncle, responsable d'Exalead, entendues à la journée d'études évoquée dans le précédent billet.

Christian Fauré, La gigantomachie autour des data centers, 17 mai 2008, Vidéo (je n'ai réussi qu'à avoir le son sur ma machine)

La puissance des centres de données des firmes s'adressant au grand public, alliée à la facilité pour l'utilisateur (ergonomie, rapidité..) des outils documentaires et de communication disponibles tend à externaliser l'activité documentaire des organisations. Chacun peut en faire l'expérience quand il utilise Gmail ou Yahoo! plutôt que la messagerie mise à sa disposition par son organisation, ou quand il préfère un de leurs services partagés pour un travail collectif. Les demandes des utilisateurs, habitués à la facilité des outils qu'ils ont expérimentés dans leur vie quotidienne privée et dans leur loisir, sont de retrouver le même confort sur leur poste de travail. Or cette puissance de calcul est hors de portée de chaque organisation prise individuellement et les outils internes ne peuvent rivaliser avec ceux mis à disposition gratuitement par des firmes qui se rémunèrent sur un autre marché, en particulier celui de la publicité.

Toute organisation est confrontée à ce phénomène, y compris les universités où les étudiants, les chercheurs et les professeurs, font suivre leur courriel dans leur boite Gmail, ouvrent des blogues ou des services partagés pour leurs travaux à l'extérieur des services informatiques à leur disposition. Bien sûr cela pose des problèmes de confidentialité, mais l'essentiel est ailleurs.

Comme le souligne C. Fauré, l'organisation elle-même se trouve menacée, comme si des morceaux essentiels de son activité lui échappait de plus en plus. Il s'agit ni plus ni moins de ce qui la cimente : sa communication et sa mémoire. J'ajouterai pour ma part que le problème est d'abord archivistique, au sens québécois des archives intégrées. Les archivistes jusqu'à présent étaient confrontés avec le numérique à une explosion quantitative et qualitative, mais elle ne remettait pas vraiment en cause leurs principes fondamentaux. Ils font face avec ce phénomène à un défi beaucoup plus grand. Comme les bibliothécaires avant eux qui ont vu leurs fonctions principales s'externaliser (collection, traitement, accès..). les archivistes voient à leur tour les documents leur échapper.

Il y a là une réflexion à mener d'urgence et des pratiques nouvelles à inventer. Selon que l'on est optimiste, on dira que l'archiviste sera celui qui sauvera l'organisation de son éclatement documentaire en lui permettant de ne pas perdre sa mémoire vive et à long terme, ou pessimiste que l'archivistique va s'éclater et ses compétences se diluer avec l'organisation elle-même.

Actu du 20 mai 2008

Voir le billet de D. Durand sur l'investissement de MS dans le domaine :

Cloud computing: microsoft monte sur le nuage avec 100+ millions de boîtes à lettres Exchange pour 2012, Média & Tech, 20 mai 2008. Ici

Actu du 21 mai 2008

Repéré par le compte-rendu de Virginie Clayssen (ici), voir l'excellente synthèse :

Naugès Louis, Web 2.0, “On the cloud” : mais où ?, 13 avril 2008,.

et en suivant les liens, suite à la question d'A. Pierrot en commentaire :

Koomey Jonathan G., ESTIMATING TOTAL POWER CONSUMPTION BY SERVERS IN THE U.S. AND THE WORLD, Final report, February 15, 2007. Pdf (pas encore lu)

Actu du 31 mai 2008

Repérés par F. Pisani (ici) qui en fait une lecture un peu superficielle, deux articles de presse sur le sujet :

Down on the server farm, The Economist, 22 mai 2008. ici

Thompson Bill, Storm warning for cloud computing, BBC-News, 27 mai 2008.

Actu du 7 juin 2008

Repéré grâce à H. Le Crosnier, cet article ancien mais révélateur :

Stephen Baker, “Google and the Wisdom of Clouds,” BusinessWeek: magazine, Décembre 13, 2007, ici.

dimanche 18 mai 2008

Nouveau et vieux mondes

J’ai participé à une intéressante journée d’études sur l’économie et le droit des moteurs de recherche organisée à la Sorbonne dans le cadre de la Chaire de recherche « Innovation & Régulation des services numériques » (voir ici pour le programme). Je n'entrerai pas dans l'ensemble du contenu, il devrait être accessible sur le site prochainement. Ce fut fort riche et j'y ai beaucoup appris. Je voudrais juste relever une impression générale.

Cette journée a montré de façon éclatante combien l'époque que nous vivons peut se lire comme un choc, une confrontation, entre un nouveau monde qui se cherche, audacieux parfois jusqu'à l'arrogance et l'inconscience, et un vieux monde qui l'observe, sage mais parfois jusqu'à la frilosité et l'aveuglement. Cette confrontation a été illustrée par plusieurs des thèmes développés, par la structure des analyses, et jusque dans les postures, l'habillement, on pourrait dire l'éthologie de la recherche.

Commençons par cette dernière dimension. Il y eut en effet dans la journée un moment magnifique quand le responsable des affaires juridiques de Google, Peter Fleisher, est intervenu. Je n'ai malheureusement pas le talent littéraire pour une description fidèle et personne n'a filmé la scène. Son propos du jour n’a aucune importance, nous n’avons rien appris. Tout était dans la posture, l’attitude, la sienne d’abord, prenant littéralement le pouvoir et la direction des évènements au détriment du président de séance quelque peu dépassé et muselé. L'attitude de la salle, la nôtre donc, harcelant l’impudent, puis s'indignant une fois qu'il l'eut quittée, était tout aussi révélatrice. On aurait dit l'arrivée d'un jeune mâle dans une vieille horde et Pascal Picq en aurait fait ses délices (wkp).

On se fera une petite idée du choc en comparant le sommet de classissisme de la salle de la Sorbonne où se déroulait la journée avec le portrait du représentant de Google figurant sur la page d'accueil de son blogue (ici, incidemment les vidéos du blogue par contre valent vraiment le visionnement).

flickr-chanzi

Mais au delà de ce folklore dont, j'espère, on me pardonnera la relation impertinente, la confrontation des anciens et des modernes était aussi perceptible dans la différence entre les points de vue juridiques sur les données privées d'un côté et de l'autre de l'Atlantique. D'un côté mon collègue de l'université de Montréal, Pierre Trudel, insistait sur l'autodiscipline, la nécessité de préserver la transparence et la possibilité d'accès aux informations, trop d'encadrement risquant d'être « liberticide ». De l'autre, le représentant français de la CNIL rendait compte de l'avis unanime du groupe de travail des 29 membres de l'Union européenne sur les problèmes posés par la collecte des données privées par les moteurs de recherche.

Opinion on data protection issues related to search engines, 00737/EN WP 148, adopté le 4 Avril 2008. Pdf

Un certain nombre de propositions sont faites dans ce document, dont celle, centrale, d'obliger les moteurs à ne garder pas plus de 6 mois les données privées collectées. La vieille Europe, qui dans son histoire a pu mesurer le danger de l'utilisation par des États totalitaires de listes permettant de classer les personnes, n'a à l'évidence pas eu beaucoup de mal à se mettre d'accord sur ce document de 29 pages. L'Amérique du nord, qui développe des industries fondées sur la traçabilité des comportements, souligne au contraire les déplacements qui s'opèrent dans la notion de vie privée et insiste l'inéluctabilité de la publicisation d'une part plus large de ce qu'on appelle encore aujourd'hui la vie privée et donc sur l'évolution des comportements et des mentalités.

Autre illustration de la confrontation entre nouveau et vieux monde ; la nécessité soulignée par les intervenants à la table ronde sur les bibliothèques d'un repositionnement radical face aux moteurs qui reprennent leurs fonctions et même leur structure en l'industrialisant. Alain Giffard parle ainsi d'« industrie de la lecture ».

Giffard Alain, Lectures industrielles, 10 sept 2007. ici

Bien des évènements du numérique peuvent se lire au travers de cette dialectique entre deux mondes. Il n'est pas surprenant que les anciens se rebiffent devant les insolences des nouveaux et qu'inversement ces derniers s'impatientent des frilosités des premiers. L'idéal serait de pouvoir allier l'audace et la sagesse, en effaçant l'ignorance et la sclérose. En attendant, il y a eu au moins un point d'accord unanime dans la journée : l'urgence de mettre en place une vigoureuse action éducative pour que la génération qui vit l'émergence d'un nouveau média n'en subisse pas à terme les dangers d'une utilisation imprudente du fait de son incapacité à l'oubli.

mardi 13 mai 2008

Naviguer et lire, l'attention et le regard

Deux études signalées récemment ont attiré mon œil ou mon attention. La nuance n'est pas ici fortuite.

L'une et l'autre s'intéresse à la lecture, mais leur perspective est radicalement différente et en dit long sur les réflexions qui restent à mener sur la dimension Forme de la redocumentarisation.

La première est proposée par le gourou de l'usabilité des sites Web, Jacob Nielsen, qui retraite les données d'une recherche antérieure réalisée par des chercheurs allemands :

How Little Do Users Read?, Jakob Nielsen's Alertbox, May 6, 2008. (ici), repéré par F. Pisani ()

Harald Weinreich, Hartmut Obendorf, Eelco Herder, and Matthias Mayer, Not Quite the Average: An Empirical Study of Web Use, ACM Transactions on the Web, vol. 2, no. 1 (February 2008), article #5. ()

Après les avoir nettoyées des évènements accidentels, il en conclut (extraits trad JMS) :

J'ai été capable de construire de très belles formules pour décrire les pratiques de lecture des usagers pour les pages qui contenaient entre 30 et 1250 mots. Pour de plus longues pages, la lecture devient tout à fait erratique. De toutes façons, les pages avec un énorme nombre de mots ne sont sans doute pas de «vraies» pages - ce sont probablement plutôt soit des articles scientifiques ou des clauses contractuelles, sur lesquelles les gens ne passent pas leur temps (dans notre recherche pour le livre Prioritizing Web Usability, nous avions trouvé que les gens ne lisent environ que 10% des textes qu'ils sont supposés «accepter»). (..)

D'habitude, je considère que la vitesse de lecture est de 200 mots par minute, mais les usagers de cette étude sont particulièrement cultivés. J'irai donc jusqu'à 250 mots par minute. À cette vitesse de lecture, les internautes peuvent lire 18 mots en 4,4 secondes. Dès lors, quand on ajoute du texte à une page, on peut considérer que les clients en liront 18%.(..)

La formule semble indiquer que les gens passent une partie de leur temps à comprendre la mise en page et les fonctionnalités de navigation, comme à regarder les images. Il est clair que les gens ne lisent pas durant chaque seconde de leur visite.

Pourtant la totalité du temps passé sur une page est nécessairement la limite la plus haute du temps de lecture. Ainsi nous pouvons calculer le nombre maximal de mots qu'un usager est capable de lire, s'il consacrait tout le temps de sa visite à cette activité. (..)

La courbe décline très rapidement. Dans une visite moyenne, les usagers lisent la moitié des informations seulemnt sur les pages qui ont 111 mots ou moins.

Sur la totalité des données, une page moyenne comprend 593 mots. Donc en moyenne, les usagers auront le temps de lire 28% des mots s'ils consacrent tout leur temps à la lecture. De façon plus réaliste, disons que les usagers lisent environ 20% du texte sur une page moyenne.

On peut évidemment contester ces affirmations, qui ont néanmoins le mérite de nous alerter sur la différence entre lire et naviguer. Mais le plus intéressant pour moi est de noter la posture prise : l'objectif est de faire coller les pages Web aux limites de l'attention de l'internaute. Puisque l'internaute lit très peu, on nous conseille d'écrire très peu. Ainsi peut se configurer un certain ordre documentaire du Web.

La perspective de l'autre étude est tout autre. Je l'ai découverte grâce à Alain Pierrot (ici). Elle a été réalisée dans le mythique centre de recherche de Fuji Xerox à Palo Alto. Il s'agit de reformater des zônes d'un document afin qu'elles soient lisibles sur des terminaux de différents formats, en particulier sur les écrans minuscules d'un téléphone cellulaire. La meilleure synthèse est sur ce diaporama :

Seamless Documents, Inside Innovation at Xerox, Palo Alto California, 28029 avril 2008 Pdf

L’objectif est ici de permettre au lecteur de lire un passage préalablement repéré d’un document sur différents terminaux et tout particulièrement les écrans minuscules des téléphones cellulaires. Il est facile de comprendre l’enjeu. Le principe même du XML est de séparer la forme du contenu. On voudrait pouvoir lire chaque document sur n’importe quel support. Mais il reste que la mise en page a une signification et qu’il n’est pas anodin pour un document de passer d’un support à un autre d’une autre configuration. La proposition est ici de laisser la main au lecteur pour signaler les passages qu’il souhaite lire.

Mais tout comme dans l'étude précédente, ce qui m'intéresse le plus est la posture. Ce n'est pas pour rien que Xerox s'appelle The Document Company. Le point de départ n'est pas ici l'attention du lecteur, mais la surface du document.

Dans la première étude, l’attention est limitée et il faut produire des documents répondant à cette contrainte. Dans la seconde, c’est la surface du terminal qui est limitée et il faut pouvoir redécouper les documents pour qu’ils rentrent dans un espace contraint. Deux objectifs de redocumentarisation à partir d’un raisonnement sur la forme aux prémisses forts différents.

vendredi 09 mai 2008

Archithécaires toujours..

Cette semaine est celle des Congrès professionnels au Québec. Aujourd’hui s’ouvre dans la ville de Québec le congrès de l’Association des Archivistes du Québec (ici). Dans la seconde moitié de la semaine, se déroulera le congrès conjoint de la Corporation des bibliothécaires professionnels du Québec et de l’Association pour l’avancement des sciences et des techniques de la documentation (). Malheureusement je n’ai pas la disponibilité pour y assister.

Alors pour réduire un peu ma frustration, voici juste quelques réflexions complémentaires. J’ai proposé l’année dernière le néologisme, un peu barbare mais éloquent, d’ «archithécaire» (voir et aussi ) pour signifier l’effacement par le numérique ou le déplacement de plus en plus manifeste des frontières entre les fonctions bibliothéconomique et archivistique. L’occasion est bonne pour y revenir.

L’archivistique québécoise prône une vision intégrée qui ne réduit pas l’archiviste à une intervention in fine, quand il ne reste plus qu’à conserver et classer des documents devenus inactifs, mais au contraire prend en compte la gestion des documents courants. En France, l'archivistique dominée par l'École nationale des Chartes, met en avant les archives historiques. Pour les archives courantes, on y reprend l’expression anglophone de records management (bonne présentation ici) dont la fonction relève souvent des documentalistes.. que l'on préfère appeler bibliothécaires spécialisés au Québec. Ainsi d'un côté et de l'autre de l'Atlantique, une même fonction est assumée par deux familles différentes des professions documentaires. Difficile d'illustrer plus clairement que dans le monde de l'organisation, la gestion des documents doit être assumée dorénavant avec une vision globale.

Au congrès de l'AAQ, Carol Couture présente un premier bilan de la fusion des Archives nationales du Québec et de la Bibliothèque nationale devenue pour l'occasion BAnQ. Le bilan est éloquent. La synergie a permis une forte amélioration des capacité financière, des ressources humaines et de l'organisation

  • Soutien d’une équipe informatique spécialisée dans la gestion d’outils propres au domaine documentaire
  • Refonte en profondeur de l’interface Web de Pistard
  • Développement d’interfaces de repérage pour certaines séries d’archives numérisées (Ex: les greffes de notaires)
  • Développement du site généalogique Voici ma famille et de son moteur de recherche
  • Développement d’un extranet dédié aux organismes publics et privés du milieu des archives en mode informationnel et bientôt interactif
  • Hébergement et prise en charge du Réseau de diffusion des archives du Québec
  • Renouvellement complet des équipements informatiques des centres d’archives
  • Accélération sensible de la numérisation des archives
    • de 900 000 images numérisées au moment de la fusion, on en est maintenant à plus de 2 000 000. Par ailleurs, 50 000 000 d’images à forte teneur généalogique seront numérisées en partenariat avec la Société généalogique de l’Utah dans un horizon de 5 ans

Autre exemple, au congrès de la CBPQ-ASTED, Gérard Boismenu présente l'initiative de Bibliothèques et Archives Canada, intitulée: Stratégie canadienne sur l’information numérique (voir ici). La présentation de son intervention indique : La question première et qui reste posée, ne concerne pas tant l’opportunité d’une action concertée en matière d’information numérique au Canada, mais bien plutôt la capacité de réalisation d’une telle action au Canada. Tout le monde s'accorde en effet à penser que les problématiques sont transversales aux professions. Reste à trouver la meilleure échelle pour l'application de ces principes.

- page 72 de 144 -