Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

Recherche - redocumentarisation

mardi 06 novembre 2012

La redocumentarisation en 50 diapos

Beaucoup à dire sur ce diaporama de Mary Meeker de mai dernier, mais ce sera pour le cours. Pour ce billet, je retiens déjà une merveilleuse illustration de la redocumentarisation (baptisée de façon imprécise par l'auteur re-Imagination) sur 50 diapositives. La première et la dernière :

Mary-Meeker-1.jpgMary-Meeker-2.jpg

En passant, entre autres, par :

Mary-Meeker-4.jpg Mary-Meeker-5.jpg

L'ensemble est là (diapos 33 à 84) :

KPCB Internet Trends 2012

vendredi 31 août 2012

Big data, la fourmilière ou les Lumières

Edge vient de publier une conversation avec Alex Pentland qui a fondé au MIT un centre de recherche transversal intitulé : Center for Connection Science and Engineering. J'en reproduis de larges extraits traduits ci-dessous, mais l'ensemble mérite lecture.

« Reinventing Society In The Wake Of Big Data ». Edge, août 30, 2012. .

Je crois que le pouvoir des Bib Data c'est qu'elles renseignent sur les gens plutôt que sur leurs croyance. Il s'agit du comportement des consommateurs, des employés et des prospects pour vos nouvelles affaires. Contrairement à ce que la plupart des gens croient, il ne s'agit pas des choses que vous postez sur Facebook, il ne s'agit pas de vos recherches sur Google, et ce ne sont pas non plus les données tirées du fonctionnement interne de l'entreprise et des RFID. Les Big Data proviennent de choses comme les données de localisation de votre téléphone mobile ou de votre carte de crédit. Ce sont les petites miettes de données que vous laissez derrière vous quand vous vous déplacez sur terre.

Ce que ces miettes racontent, c'est l'histoire de votre vie. Elles disent ce que vous avez choisi de faire. C'est très différent de ce que vous mettez sur Facebook. Ce que vous mettez sur Facebook, c'est ce que vous voudriez dire aux gens, rédigé selon les normes d'aujourd'hui. (...)

Si je peux connaitre certains de vos comportements, je peux inférer le reste juste en vous comparant avec la foule de ceux qui vous ressemblent. Vous pouvez raconter toutes sortes de choses sur une personne, même si elle ne sont pas explicitement dans les données, parce que les gens sont tellement pris dans le tissu social environnant qui détermine le genre de choses qu'ils pensent normales, et les comportements qu'ils vont apprendre les uns des autres. (...)

Ce qui compte vraiment, c'est comment les gens sont reliés les uns aux autres par les machines et comment ils créent un marché financier, un gouvernement, une entreprise et d'autres structures sociales. (...)

C'est la promesse d'un système financier qui ne s'écroule pas, de gouvernements qui ne soient pas embourbés dans l'inaction, de systèmes de santé qui fonctionnent vraiment, et ainsi de suite, et ainsi de suite. (...)

Bien qu'il soit utile de raisonner sur des moyennes, les phénomènes sociaux sont faits en réalité de millions de petites transactions entre les individus. Il existe des modèles dans ces petites transactions qui sont responsables du krach boursier ou du printemps arabe. (...)

Cela veut dire que vous pouvez construire des villes plus efficaces, beaucoup plus humaines et qui dépensent énormément moins d'énergie. Mais vous avez besoin de voir les gens bouger pour obtenir ces résultats. (...)

Y a-t-il une opposition (au partage des données dans les entreprises) ? Étonnamment, peu. Les historiques de l'internet sont sans doute les plus opposés parce que (et je ne leur reproche pas) Facebook et Google ont grandi dans un monde complètement déréglementé. Pour eux, il est naturel de penser qu'ils ont le contrôle de leurs données, mais lentement, lentement ils en viennent à admettre qu'ils devront faire des compromis. (...)

Ce nouveau monde pourrait faire de George Orwell un petit joueur manquant d'imagination. Il est devenu très clair que l'on doit réfléchir fortement à la défense de la vie privée et à la propriété des données. George Orwell n'avait pas vu que si vous pouvez observer les modèles de comportements des gens qui interéagissent vous pouviez alors prévoir des choses comme qui va voter pour quoi ou comment va-t-il réagir à des situations variées comme un changement dans les réglements et ainsi de suite. Vous pouvez construire quelque chose qui, en première approximation ressemble vraiment à l'empire du mal. Et, bien sûr, certains chercheront à le faire. (...)

Même si on peut penser qu'il y a encore loin entre cette présentation et les réalisations concrètes, c'est une édifiante lecture sociale du mouvement des Big data, et de la redocumentarisation des personnes, faisant la différence entre l'explicite (le publié) et l'implicite (l'agit) montrant la bascule de l'explication statistique vers l'algorithmie. Il y a aussi derrière ce discours une idéologie de la transparence qui mériterait d'être plus interrogée et mieux assumée. J'ai essayé de poser quelques questions à ce sujet, m'en tenant à la problématique documentaire, dans un article écrit pour l'INRIA :

Salaün, Jean-Michel. Du document à la donnée et retour. La fourmilière ou les Lumières. In "Le document numérique à l’heure du web de données", séminaire INRIA, 1er au 5 octobre 2012, Carnac. Paris, ADBS Éditions, 2012

04-09-2012

« Internet et les fourmis fonctionnent de la même manière | Slate ». Slate.fr.

05-09-2012

Driscoll, Kevin. « From Punched Cards to “Big Data”: A Social History of Database Populism ». communication 1 1, nᵒ. 1 (août 29, 2012). http://scholarworks.umass.edu/cpo/vol1/iss1/4.

jeudi 23 juin 2011

Redocumentarisation et web documentaire

Pour conclure les trois semaines intensives du cours sur l'économie du document de la maîtrise en sciences de l'information de l'EBSI, voici un dernier module (M9) qui élargit la problématique en développant la notion de redocumentarisation et, cerise sur le gâteau grâce à l'amabilité du Collégium de Lyon, ci-dessous un petit film qui articule la théorie du document et son économie numérique contemporaine, présentée dans un module précédent (M7).

Pour aller plus loin :

Olivier Ertzscheid, L'homme est un document comme les autres : du World Wide Web au World Life Web, Hermès, no. 53 (2009): 33-40.

Roger T. Pédauque, Le document à la lumière du numérique, C&F éditions, 2006.

Roger T Pédauque, “Document : forme, signe et médium, les re-formulations du numérique” dans Le Document à la lumière du numérique (C & F éditions., 2006), English version, Versión española

Roger T. Pédauque, Document et modernités, dans Le Document à la lumière du numérique (C & F Éditions, 2006), .

Jean-Michel Salaün, Web et théorie du document. Utopie des ingénieurs et appétit des entrepreneurs. In 3ème Conférence "Document numérique et Société", sous la dir. de Evelyne Broudoux, Parina Hassanaly, Ghislaine Chartron. 15-16 novembre 2010, Aix en Provence. ADBS-Édition.

Il me reste à remercier les étudiants pour avoir parfaitement joué le jeu de l'intelligence collective (quelques 70 commentaires sur les billets du blogue et une participation intensive sur les forums et travaux internes) et Martin Bélanger, mon assistant sur ce cours, pour son aide discrète mais très efficace.

mardi 05 avril 2011

La redocumentarisation (du journalisme) en deux citations

Après les quatre images du billet précédent, voici deux citations pour illustrer la redocumentarisation. Il s'agit de montrer l'inversion de la perspective du rapport à la vérité qui s'est opéré entre le début du 20e et celui du millénaire en prenant l'exemple du journalisme. Comme précédemment les commentaires sont bienvenus.

La première citation m'a déjà servi dans un précédent billet. Elle est tirée du livre de P. Starr The Creation of The Media (trad JMS) :

Lippmann {en 1920} exhortait les journalistes à être plus «objectifs», un mot qui venait d'apparaître pour décrire le journalisme. Les critiques aujourd'hui dénoncent l'objectivité comme une idéologie professionnelle, mais il est important de comprendre les pratiques professionnelles que Lippmann voulait faire adopter aux journalistes. Il voulait que les journalistes s'inspirent de la science en développant un «sens de la preuve» et en reconnaissant franchement les limites de l'information disponible : il les exhortait de démonter les idées reçues et les abstractions et de refuser de laisser de côté des nouvelles ou de mettre la morale ou n'importe quelle autre cause avant la véracité. Ce que Lippmann demandait avant tout aux journalistes était la responsabilité (accountability). p.396

La seconde citation est tirée d'un entretien sur RSLN avec Michael Cross du Guardian, un des plus avancés dans le journalisme de données :

(..) Que va t-il se passer si les données sont mal comprises et interprétées ? J’ai peur que nous ne puissions pas y faire grand chose et qu’il faille faire avec.

Dans le même temps, plus les données sont disponibles, plus il y a de chances pour que les gens en parlent, les analysent, les croisent : la discussion offre une chance de réinterpréter les données de manière efficace et fiable, même si elles sont peut-être utilisées pour servir un certain agenda.

Les données sont accessibles et, avec la puissance du web, nous pouvons faire en sorte que l’interprétation la plus fiable se retrouve mise en avant.

Reprenons les mots clés de l'une et l'autre citations sur un tableau pour les mettre en perspective. 1920 correspond à l'organisation systématique des systèmes documentaires qui a pour modèle la science positive. 2010 correspond à la transformation de notre rapport au document sur un tout autre modèle de rapport à la vérité. Le tableau montre l'écho de ce mouvement dans les pratiques journalistiques.

Redocumentarisation-journalisme.jpg

mercredi 30 mars 2011

La redocumentarisation en quatre images

Pour avancer dans les réflexions sur la redocumentarisation et la théorie du document dans la continuité du travail collectif sur Roger II, voici quatre images et quelques réflexions. Tous les commentaires et critiques sont bienvenues, j'avance sur un terrain encore à défricher.

Documentarisation

La première image est issue du livre testament de P. Otlet, premier théoricien de la documentation, et date de 1934 :

Otlet-1934.jpg

Les quatre premières lignes veulent présenter la construction des documents. À partir de l’univers, se forment les représentations grâce aux intelligences humaines particulières qui ensuite s’organisent et se confrontent dans la dynamique de la science et sont consignées dans des livres eux-mêmes réunis dans les bibliothèques.

Les trois lignes suivantes présentent les principaux éléments de l’ordre documentaire nouveau selon P. Otlet. Il s’agit d’abord de rédiger des notices bibliographiques et de les réunir dans un répertoire bibliographique universel. L’ensemble de ces fiches réunies dans les meubles à tiroirs a constitué le catalogue de la bibliothèque jusqu’à l’arrivée de l’informatisation à la fin des années soixante-dix. Il s’agit d’abord de l’outil de repérage des documents dans une collection de bibliothèque. La notice bibliographique est donc un substitut du document qui le remplace avantageusement dans le système documentaire du fait de son formalisme, aujourd’hui nous dirions qu’il s’agit de ses métadonnées. Le système documentaire est piloté par des catalogues normalisés et reliés entre eux. Pour P. Otlet, il doit même être centralisé dans un répertoire universel. L’auteur suggère un instrument supplémentaire, l’Encyclopédie, constituée d’une série de dossiers de synthèse sur tous les sujets constituant le savoir humain, réalisés et actualisés par les documentalistes à partir des documents existants et diffusables à la demande. Dernier élément essentiel à l’ordre documentaire : la classification. La classification joue pour P. Otlet un rôle central, organisant et reliant l’ensemble des instruments.

Ce modèle systématise et justifie le rôle de la bibliothèque qui l'appliquera et le perfectionnera jusqu'à aujourd'hui. Il sépare clairement la production du livre de la documentarisation qui vient ensuite.

Redocumentarisation

La seconde image est celle du «cake» du Web sémantique.

Web-semantique-2007.jpg

Dans le schéma de P. Otlet, on trouvait tout en haut les auteurs qui pensaient le monde, le représentaient en concepts grâce à la science et le consignaient dans des documents. Le schéma du W3C met à leur place des utilisateurs qui, plutôt que représenter le monde, vont reconstruire selon leurs besoins des réponses à leurs questions à partir des ressources documentaires existantes. On pourrait dire en raccourci le monde n’est plus représenté par un travail scientifique préalable, mais chacun se représente le monde à partir de données récoltées préalablement. On pourrait discuter longtemps de la pertinence épistémologique de l’une ou l’autre posture. Là n’est pas mon propos, je voulais simplement souligner que d’un point de vue documentaire celles-ci sont inversées : l’une part des producteurs de documents et classe ces derniers ; l’autre part des lecteurs qui reconstruisent les documents à partir de ressources classées.

Les trois dimensions

De plus sans discuter les détails d’un schéma qui n’est pour ses auteurs même qu’illustratif, on peut remarquer que l’on retrouve dans la succession des couches les trois dimensions du document . Déjà présentées pour le livre ainsi :

3-dimensions-document.jpg

Les couches les plus basses (URL/URI, XML, RDF) concernent les adresses et les formats des ressources, c’est à dire le repérage par la forme. Les couches intermédiaires (SPARQL, OWL, RDFS, RIF) s’occupent de la recherche, de l’indexation, de la sémantique, de la représentation des connaissances, c’est à dire un traitement à partir du contenu, du texte. Enfin les couches supérieures supportent des règles sociales (Unifying logic, Proof, Trust), celles-là même qui supportent la fonction du document, transmission et preuve. J’ai donc découpé le « cake » en tranche que j’ai redistribué sur les trois dimensions du document. Cette présentation, comparée à celle que j’avais présenté pour le livre souligne l’ampleur de la réingénierie documentaire. Précédemment nous trouvions une représentation du livre sur chacun des sommets du triangle, même si la différence de perspective soulignait les différences de dimensions. Cette fois, le document n’apparait plus qu’au centre, comme un navigateur qui le reconstruira à la demande de l’internaute. On pourrait dire que le système documentaire a réintégré la construction du document. La notion « parenthèse Gutenberg » prend alors une tout autre ampleur. L’imprimerie avait sorti la production documentaire des bibliothèques, des infrastructures épistémiques de l’époque. Le numérique réintègre la production documentaire dans l’infrastructure épistémique contemporaine : le web.

WS-dimensions-document.jpg

Cette représentation triangulaire a la vertu supplémentaire de casser l’empilement et sa lecture linéaire en montrant notamment les liaisons fortes qui existent entre les formats et les adresses et la confiance et la preuve.

- page 1 de 13