Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

vendredi 11 février 2011

Paradoxes de la mesure de l'information

Le numéro de Science qui vient de sortir (ici) est entièrement consacré aux questions posées par l'explosion quantitative des flux de données pour la recherche. Les articles concernent autant les transformations sur des disciplines (climat, écologie, neuroscience, santé, sciences sociales, biologie, génomique, physique des particules, astrophysique..) que des problématiques transversales (visualisation 3D, théorisation des capteurs et du signal, métaconnaissances, mesure de l'information). Un numéro très riche donc, essentiel témoignant d'un tournant fondamental dans la construction et l'exposition de nos savoirs.

Avant de présenter dans un futur billet un article particulièrement stimulant sur le traitement des métaconnaissances dans les articles scientifiques (ici), je voudrais alerter sur les interprétations trop rapides que l'on peut faire d'un autre.

Martin Hilbert et Priscilla Lopez, “The World's Technological Capacity to Store, Communicate, and Compute Information,” Science Express (Février 11, 2011): 692-693. ()

Celui-ci reprend un leitmotiv des sciences de l'information : la mesure de l'explosion de l'information. Sans surprise car il fait image et paraît illustrer ou même démontrer scientifiquement d'une situation que chacun pressent, il a déjà été largement signalé et commenté par la presse (par ex ici, , , ou pour être en résonance avec mon sujet ). Il tente, en effet, de mesurer l'information enregistrée, l'information communiquée et l'activité de calcul. Ici je ne reprendrai que le raisonnement concernant l'information enregistrée.

L'ensemble peut-être résumé par cette diapo et trois citations :

Hilbert-Lopez-Science-11-02-2011.jpg

Extraits (trad JMS) :

Le montant total d'information s'est accru de 2,6 exaoctets (10 puissance 20) compressés de façon optimale en 1986 à 15,6 en 1993, plus de 54,5 en 2000, à 295 en 2007. C'est l'équivalent de pas moins d'un cédérom de 730 Mo par personne en 1986 (539 Mo), en gros 4 cédéroms par personne en 1993, 12 l'année 2000 et presque 61 en 2007. (..)

En 1986, les disques vinyles comptaient encore pour une part significative (14%), tout comme les cassettes audio analogiques (12%) et la photo (5 et 8%). Ce n'est qu'à partir de 2000 que le numérique a commencé à compter pour notre mémoire technologique, représentant 25% du total. Les disques durs se taillent la part du lion en 2007 (52%), les disques optiques font plus du quart (28%) et les bandes numériques environ 11%. Les solutions de stockage sur papier prennent une part décroissante (0,33% en 1986 et 0,007% en 2007), bien que leur capacité n'a pas cessé d'augmenter en terme absolu de 8,7 à 19,4 Petaoctets compressés de façon optimale.

Si leur démonstration me parait bien illustrer la rapidité de la bascule vers le numérique, elle pose une question préalable quant à l'étalon de mesure et donc son interprétation. Voici donc les éléments à ce sujet, qu'on ne retrouve malheureusement pas dans les comte-rendus de presse :

L'information dans sa conception théorique est l'opposée de l'incertitude. Shannon a défini un octet comme la quantité d'information qui réduisait l'incertitude de moitié (dans un espace de probabilité comme des lettres de l'alphabet ou des pixels sur une échelle de couleur). Cette définition est indépendante de la tâche spécifique ou du contenu. Après normalisation en octets compressés nous pouvons dire par exemple « une image de journal carrée de 6cm de côté est équivalente à 1.000 mots », parce que les deux demandent le même nombre moyen de décisions binaires oui/non pour résoudre le même montant d'incertitude.

Cet étalon est classique, c'est celui de la théorie générale de l'information de Shannon (wkp). Il a déjà été beaucoup discuté, car il fait référence à concept d'information particulier, qui sert à l'optimisation du signal. Certains, notamment Weaver par la cybernétique, ont voulu l'étendre à toute situation de communication, non sans ambiguïtés (wkp). Mais s'il est dans cet article cohérent de l'employer pour mesurer les capacités de stockage informatique, cela devient plus problématique lorsque que l'on déborde sur d'autres domaines et la polysémie du mot information nous fait vite déraper. Les auteurs de l'article ne manquent pas de tomber dans ce travers.

Même en restant dans la perspective mécaniste qui est la leur, deux objections viennent rapidement à l'esprit :

  • Mesurer l'information contenue sur un support analogique avec un étalon numérique préjuge déjà que l'ensemble de celle-ci sera converti en numérique. Supposons un instant que nous fassions l'inverse, mesurer l'information numérique par un étalon papier, c'est à dire tout simplement mesurer la surface de la sortie imprimante ramenée à un format moyen (comme les auteurs ont pris une compression optimale pour le signal). Nous aurions alors approximativement le résultat suivant pour le même exemple : « une image de journal carrée de 6cm de côté est équivalente à 76 mots » avec une mesure indépendante de la tâche spécifique ou du contenu. Le rapport quantitatif entre l'image et l'écrit est totalement inversé.
  • Plus problématique encore, les auteurs concluent leur article par une comparaison entre la capacité humaine à traiter l'information par les neurones et la capacité des ordinateurs. Mais nous savons aujourd'hui la captation et le traitement du signal par les sens et un cerveau humain pour la lecture par exemple (wkp), n'a pas grand chose à voir avec celle d'un ordinateur. Et que penser de l'image vidéo à 25 images par seconde, traitée à l'évidence complètement différemment par l'œil humain, la persistance rétinienne et notre cerveau, et par un signal numérique et un ordinateur analysant séparément chaque image ?

Dès lors que mesurent vraiment les auteurs de l'article ?

Actu du 15 février

Voilà un bel exemple de ce que devient l'étude revisitée par la presse, et réduite à un schéma sans référence à la pertinence de la mesure ici le Washington Post

mardi 11 janvier 2011

Document, une histoire de mots (maj) (2)

J'avais dit que je reviendrais sur la première occurrence du mot «document» dans la langue française, car j'avais quelque doute sur sa pertinence. J'ai pu le faire grâce aux conseils de Céline Guillot, chercheure à ICAR, merci à elle.

La plupart des auteurs la situe en 1214. Ils s'appuient vraisemblablement tous sur la notice du Trésor de la langue française de l'ATILF qui indique à ce mot :

Étymol. et Hist. 1214 (Frère ANGER, Vie de S. Grégoire, éd. P. Meyer, 1231). Empr. au lat. class. documentum « enseignement », b. lat. « acte écrit qui sert de témoignage, preuve », dér. de docere « enseigner, informer ».

Malheureusement cette référence est doublement fausse. Tout d'abord le texte en question est de Frère Angier et on peut le retrouver dans le T12 de la revue Romania (1883) exactement ici ; ensuite et surtout, il n'y est nullement fait mention du mot «document», son éditeur n'aurait pas manqué de le signaler . Une autre collègue linguiste de l'ATILF, Hiltrud Gerner me signale mon erreur. Le mot figure bien dans le texte en question à la page 168 , au vers1231. L'ATILF n'est pas coupable, c'est moi qui suis négligent..

Il semble en tous cas que le terme existait au 15e, sous la forme «documens», comme l'indique les nombreuses citations de cette notice du Dictionnaire du Moyen Français de l'ATILF sous les deux acceptions de A. -"Leçon, enseignement", semble-t-il la plus courante ; B. -"Acte écrit qui sert de preuve".

Niels Lund écrit dans son article Document Theory de l'ARIST 2009 (trad JMS) :

Beaucoup considèrent la conception légale du document comme étant la conception originelle, qui remonterait à l'antiquité. Cependant, cette signification particulière est reliée à l'émergence de la bureaucratie dans les États européens depuis le 17e et ensuite. (399-400)

Si on peut le suivre dans son affirmation que la première acception du document était bien l'enseignement, il semble que la seconde acception soit bien antérieure au 17e.

Ajout 14 janv 2011 À ce sujet le livre ci dessous apporte des précisions importantes :

M.T. Clancy, From memory to written record. England. 1066-1307, Blackwell Publishers Ltd. (Oxford, 1999). GB, critique.

Il montre la très grande importance des chartes écrites en Angleterre dès le début du premier millénaire. Citation p.2 (trad JMS) : une estimation dans cet ouvrage suggère que huit millions de chartes pourraient avoir été écrites au XIIIe siècle seulement pour les petits exploitants et les serfs.

Il semble donc que les documents légaux, notamment pour fixer la propriété, aient été très développés, très tôt. Mais ils n'avaient pas vocation à être diffusés. Le statut de document pourrait résulter du lent croisement de ces pratiques légales et des pratiques monastiques.

fin de l'ajout

Mieux, il n'est pas même sûr qu'elle ait été très développée à la fin du 18e. En effet, une recherche des occurrences du mot dans l'Encyclopédie de Diderot et d'Alembert donne un résultat surprenant. On pouvait s'attendre à une multiplication d'un mot synonyme de preuve et renseignement dans ce genre d'ouvrage. On y trouve cette très courte définition :

DOCUMENS, s. m. pl. (Jurisprud.) sont tous les titres, pieces, & autres preuves qui peuvent donner quelque connoissance d'une chose. (A)

ainsi que seulement deux occurrences une dans «Langue» et une dans «Sensibilité,sentiment»

Dès lors, il semble difficile de penser que la montée du mot soit parallèle à celle des États européens et au juridique. Il est plus probable qu'elle soit liée à la révolution scientifique et industrielle. L'utilisation courante du mot ne démarre vraiment qu'au 18e siècle. J'ai précisé mon interrogation sur NGram en ajoutant le mot dans son orthographe ancienne (documens) ainsi que le pluriel. Le résultat est, je crois, très probant :

NGram-documens-document-documents-11-01-2011.jpg

On trouve 15281 fois le mot «document» dans la version française de Wikipédia au moment où j'écris ce billet (ici)..

Tout cela aurait pris des mois auparavant, peut-être ici trois heures, merci internet !

mardi 09 novembre 2010

Apple, Google, Facebook, décryptage en images

J'ai déjà eu l'occasion de montrer que les stratégies de Apple, Google et Facebook pouvaient se lire à partir d'une théorie du document. Voici une petite illustration en images.

Rappel du schéma théorique des trois dimensions du document :

3-dimensions-document.jpg

J'ai pris chaque fois la page d'accueil de la firme de ce jour.


Apple, la stratégie de la forme Apple-nov-2010.jpg

..difficile de mieux illustrer le caractère anthropologique de la relation au document.


Google, la stratégie du texte Page-accueil-Google-nov-2010.jpg

.. ici le corps a totalement disparu pour laisser toute la place aux mots que l'on attend.


Facebook, la stratégie du médium Facebook-Pedauque-nov-2010.jpg

.. là le désordre des relations, des conversations, des attentes, des sollicitations est mis en scène.


Voilà comment le schéma initial peut alors se décliner :

3-dimensions-strategies.png

mercredi 15 septembre 2010

Théories du document

À la lecture de l'actualité, générale ou celle des Digital Humanities, je me disais que décidément on manquait d'une meilleure compréhension de la notion de document. Niels Lund a fait avec une collègue une excellente recension des théories à ce sujet dans laquelle il insiste sur l'originalité des apports francophones. Paradoxalement ceux-là paraissent bien méconnus au Québec ou dans l'Hexagone. Cela n'est pas nouveau. P. Otlet ou S. Briet ont été « redécouverts » par un professeur de Berkeley M. Buckland et la dernière rééditée en anglais, mais jamais en français..

Niels Windfeld Lund et Roswitha Skare, “Document Theory,” dans Encyclopedia of Library and Information Sciences, Third Edition, vol. 1, 1 vol., 2010, 1632-1639. (ici sur abonnement)

Voici la traduction du résumé de l'article :

Cet article donne une vue d'ensemble du développement historique des réflexions théoriques sur le document et de la formulation des théories du document. Partant de son prédécesseur latin documentum et des pratiques de la bureaucratie des États européens depuis le dix-septième siècle, le premier intérêt pour une théorie du document a été professionnel et se repère au début du vingtième siècle avec les noms de Paul Otlet et Suzanne Briet. Tandis que la notion de document et de documentation a été bien établie vers 1930, elle a été remplacée par celle d'information après la seconde guerre mondiale, au moins chez les anglophones. Néanmoins, à la même époque, une autre sorte de théorie du document a vu le jour, une théorie critique où l'on retrouve les noms de Michel Foucault, Harold Garfinkel et Dorothy E. Smith. Tandis que la théorie du document « professionnelle » développée par Paul Otlet et les autres insistait sur les connaissances plus ou moins contenus dans les documents et sur la façon dont quelque chose pouvait devenir document, la théorie générale développée par les théoriciens critiques comme Michel Foucault se préoccupait plus de ce qu'était et faisait un document. Depuis les années quatre-vingt-dix, on observe un renouveau de l'intérêt pour la notion de document et de documentation toujours à l'intérieur des sciences de l'information et des bibliothèques, avec des auteurs comme Michael Buckland, Ronald Day, and Bernd Frohmann. Ensemble avec un accent mis sur le document numérique, des théoriciens du document en Amérique du nord, en Scandinavie et en France ont souligné la complexité d'une théorie du document et la nécessité d'approches complémentaires articulant les dimensions physiques, sociales et culturelles pour comprendre ce qu'ils sont et ce qu'ils font.

Et voici en complément, quelques éléments de mon cru sur cette question, puisant largement dans l'article ci-dessus et dans les réflexions du RTP-DOC (ici) :

Pour la plupart des textes réglementaires ou des normes, le document est un objet (matériel ou électronique) sur lequel est consignée une information, en anglais on dira un record, un enregistrement. L’objet a une forme et l’information est un texte, au sens large c'est-à-dire aussi bien de l’écrit que de l’image ou du son représentés par des symboles. De ces premières définitions, il faut surtout retenir le terme « consigné ». Les sciences de l’information se sont construites autour de cette notion d’enregistrement, sans toujours bien le concevoir. Quand on y parle d’information il s’agit implicitement d’une information consignée.

Mais ces définitions officielles, aussi opérationnelles soient-elles pour régler bien des situations, restent à la surface des choses. Un document ne se réduit pas à sa forme et son contenu, sinon tout écrit en serait un. Dire qu'un écrit est document, c'est lui donner un statut, une fonction particulière. Plus précisément, un document a deux fonctions complémentaires qui se sont affirmées au cours des siècles avec la mise en place de procédures spécifiques : transmettre et prouver. La fonction principale du document est donc mémorielle : on enregistre une information sur un objet pour pouvoir la transmettre ou s’y référer. L’ensemble du système documentaire est en quelque sorte notre mémoire externe pour paraphraser M. Serres (ici).

Le RTP-DOC, au cours d’une réflexion collective, a proposé une représentation tri-dimensionnelle pour rendre compte de ces différentes facettes : forme, contenu ou texte et médium (ici). Les deux premières dimensions sont les plus communément indiquées, la troisième, le médium, renvoie à sa fonction sociale. En voici un petit résumé rapide que j’ai un peu adapté.

La première dimension du document, celle de la forme, est anthropologique. Il s’agit du rapport de notre corps et de nos sens à l’objet document, quelle que soit sa forme ou son support. Elle se traduit par l’équation Document = Support + inscription. L’inscription doit être lisible, c'est-à-dire déchiffrable. L’exemple le plus traditionnel est le livre imprimé. Pour bien des documents aujourd’hui, notamment les documents numériques, cette dimension passe par un appareillage spécial pour permettre leur lecture, et leur forme variera suivant le terminal de lecture. Cette dimension privilégie le repérage, le document doit pouvoir être vu.

La seconde dimension est intellectuelle. Il s’agit du rapport de notre cerveau et de ses capacités de raisonnement au contenu du document, au texte donc, quelle que soit la façon dont il est représenté. Elle se traduit par l’équation Document = Code + représentation. La représentation est préjugée être fidèlement rendue par le code, ce qui suppose donc qu’elle soit transposable et qu’elle existe préalablement. Si l’on reprend l’exemple de notre livre imprimé, l’accent cette fois est mis sur le texte, sur son sens sans se préoccuper de son support. La productivité du code informatique autorise une manipulation inédite des documents sous forme numérique, jusqu’à parfois les faire apparaître à la demande. Cette fois il ne suffit plus de repérer, cette dimension met en avant la signification, le document doit pouvoir être compris ou lu.

La troisième dimension est sociale. Il s’agit du rapport de notre humanité, de notre position dans une société, à la fonction du document, à sa capacité de médiation donc, quelle que soit sa forme ou son contenu. Elle se traduit par l’équation Document = Mémoire + transaction. Nous retrouvons alors les fonctions de transmission et de preuve. Dans le cas du livre imprimé, cette transmission passe par l’acte de lecture qui fait que l’information présentée est interprétée par le lecteur qui l’assimile. Le lecteur est transformé par l’information qui a été mise en mémoire sur le livre. Une fois de plus le numérique, cette fois principalement par la capacité des réseaux, modifie considérablement le rapport au temps et à l’espace, à la lecture au sens large et par la même sinon la fonction documentaire, du moins à la place du document dans le social. Cette dernière dimension insiste donc sur la fonction du document, la capacité de son contenu à être assimilé en dépassant le cercle intime et la barrière du temps, autrement à être su. 3-dimensions-document.jpg Chacune de ces dimensions a sa propre logique qui ne réduit pas aux autres et pourtant aucune n’est complètement indépendante des deux autres, et un document doit intégrer et coordonner les trois. Ses modalités anthropologiques (lisibilité-perception, forme-signe), intellectuelles (intelligibilité-assimilation, texte-contenu) et sociales (sociabilité-intégration, médium-relation) doivent non seulement être efficientes prises chacune séparément, mais encore être cohérentes entre elles.

Pour chacune de ces dimensions, les professions traditionnelles du document, archivistes, bibliothécaires et documentalistes, ont développé des outils adaptés : les classifications pour repérer les documents, l’indexation pour rendre compte du contenu et retrouver l’information, la conservation et les services d’accès pour les partager. Le numérique a fait surgir chaque fois des questions nouvelles qui ont été analysées et traitées par des expertises différentes, aussi bien en informatique que dans les sciences humaines et sociales.

J'ai souvent appliqué, sur ce blogue et ailleurs, cette grille de lecture pour analyser les développements actuels et leurs hésitations. Elle me parait tout à fait éclairante. Qu'est-ce que le web, sinon de l'information consignée et donc un système documentaire ?

lundi 12 octobre 2009

Éco, Bouvard et Pécuchet

Interview de Umberto Eco dans Télérama, délicieux et parfaitement en phase avec ce blogue.

Umberto Eco : Le livre est une invention aussi indépassable que la roue ou le marteau , Télérama, Octobre 11, 2009, ici.

Morceaux choisis :

Robinson Crusoé sur son île aurait eu de quoi lire pendant trente ans avec une bible de Gutenberg. Si elle avait été numérisée dans un e-book, il en aurait profité pendant les trois heures d'autonomie de sa batterie. Vous pouvez jeter un livre du cinquième étage, vous le retrouverez plus ou moins complet en bas. Si vous jetez un e-book, il sera à coup sûr détruit. Nous pouvons encore aujourd'hui lire des livres vieux de cinq cents ans. En revanche, nous n'avons aucune preuve scientifique que le livre électronique puisse durer au-delà de trois ou quatre ans. En tout cas, il est raisonnable de douter, compte tenu de la nature de ses matériaux, qu'il conserve la même intensité magnétique pendant cinq cents ans. Le livre, c'est une invention aussi indépassable que la roue, le marteau ou la cuiller.

L'homme d'Internet est un homme de Gutenberg parce qu'il est obligé de lire, énormément. Ce qu'a révolutionné l'imprimerie, c'est la diffusion de l'écrit. Internet aussi. Les gens lisent, et probablement plus vite que leurs ancêtres. Ils passent d'un sujet à l'autre. Selon moi, Internet encourage la lecture de livres parce qu'il augmente la curiosité. Des statistiques ont démontré que ceux qui regardent beaucoup la télévision (mais raisonnablement), qui surfent beaucoup sur Internet (mais pas au point de passer leurs nuits sur des sites pornos), sont aussi ceux qui lisent le plus.

Revendiquer sa propre encyclopédie est typique de la bêtise ! La culture est là justement pour empêcher les Bouvard et Pécuchet de triompher.

- page 5 de 14 -