La messe des données
Par Jean-Michel Salaun le lundi 06 avril 2009, 07:25 - Cours - Lien permanent
Une façon d'enrichir le cours sur l'économie des documents est de prendre quelques évènements significatifs de l'actualité et de les passer au prisme des notions développées. J'ai l'ambition de permettre le décryptage des mouvements qui agitent le monde documentaire. Un repérage critique à l'avantage d'en faire la démonstration ou, inversement, de repérer des failles à réparer.
Pour éviter de trop longs développements, je coderai les références au cours de la façon suivante : SxDyA08, x étant le numéro de la séquence, y le numéro de la diapositive, A08 signifie qu'il s'agit de la version de l'automne 08. Par exemple, S1D7A08 fait référence à la diapositive 7 «Pilier2. Le prototype» que l'on trouve dans la séquence 1 du cours de l'automne 08. Pour la retrouver et écouter son commentaire, il suffira de suivre le lien qui conduit à la partie du diaporama concernée et de se rendre à la diapositive en question par son numéro : S1D7A08. Il est probable qu'avec le temps les liens vont se casser, mais d'ici là j'aurai peut-être trouvé une formule plus simple.
Illustration de la Séquence 1 : Particularités économiques du document publié
Commençons donc par la séquence 1 sur les particularités économiques du document avec un document emblématique : le discours de Tim Berners-Lee au congrès TED pour Technology, Entertainment, Design en février 2009 (le discours est sous-titré en français).
L'argumentaire de TBL pour «libérer les données» s'appuie clairement sur les particularités économiques de l'information : la non destruction qui permet à tous de se resservir des mêmes données sans les altérer ; le prototype, les données ne sont produites qu'une fois pour être partagées ; la plasticité qui permet de construire de nouvelles informations par la combinaison et le calcul des anciennes ; l'interprétation qui autorise l'utilisation des mêmes données à des fins diverses ; la résonance par les effets de réseau (S1D6,7,8,9,12A08).
Mais il en laisse de côté deux, et cet oubli n'est pas sans signification : l'expérience et l'attention (S1D10,11A08). En réalité , l'économie marchande de l'information est construite sur ces deux particularités là qui sont synonymes de rareté. C'est parce que l'on ne connait pas un document avant de l'avoir lu que l'on peut le vendre. C'est parce que l'attention est limitée que l'on peut la capter au profit d'annonceurs intéressés (S1D13A08).
Le discours de TBL est donc un discours d'économie publique. Cela est particulièrement flagrant dans les exemples qu'il prend : données gouvernementales, données scientifiques, Wikipédia. Mais cela peut être trompeur et ambigu quand il évoque les données privées, les traces de navigation ou encore les réseaux sociaux. Prenons l'exemple de Google qui s'est construit sur l'architecture de l'ancien Web, celui que TBL appelle le «Web des documents». Google a fait sa fortune en «libérant les documents», mais en enchaînant les données. C'est parce Google garde les données brutes, tout particulièrement celles sur les pratiques de navigation, mais aussi celles par exemple sur la géolocalisation, qu'il peut construire son marché de l'attention en détruisant celui des anciens médias. Il est tout à fait intéressant de voir que le déplacement du verrouillage était suggéré, il y a 10 ans dans le manuel de Shapiro et Varian (S1D16A08), Hal Varian qui est aujourd'hui Chief economist chez Google.
Quelques mots, enfin, sur la forme du discours qui est en cohérence avec les constatations précédentes, TBL semble avoir adopté le style du prêche Hi-Tech californien, dont Steve Jobs est la star inégalable (voir ici, l'introduction du iPhone) et qui n'est pas sans rappeler celui des pasteurs baptistes (p. ex ici), à la différence près que pour les gourous Hi-Tech, il n'y a pas d'enfer. La motivation est le bien de l'humanité sans la peur de la damnation. Nous sommes dans le «bien public» dans tous les sens du terme.
Cette forme n'est pas anodine, il s'agit de faire partager une utopie quasi-religieuse, ici une communion, au sens propre, des données, qu'il faut libérer pour sauver le monde. Je le dis en souriant mais sans vraie ironie. P. Flichy (là, S2D41A08), parmi d'autres, a montré combien l'imaginaire était important pour l'innovation et combien il était présent dans le développement de l'internet.
Et après tout, le bien de l'humanité n'est pas une mauvaise motivation, optimiste mais peut-être angélique puisqu'elle gomme des volets importants du développement du numérique et des réseaux : les limites qui permettent justement la construction du marché, et aussi qui favorisent sa partie noire, obscure qui explose, elle aussi, le contrôle, la manipulation, l'escroquerie, le vol, le détournement, le mensonge, etc.
Par ailleurs, il y aurait bien des choses à dire sur le fait que TBL n'évoque pas le Web sémantique du moins dans ce prêche où le mot n'est pas prononcé. Passer du Web sémantique au Web des données n'est pas innocent. J'y reviendrai peut-être à l'occasion quand j'en serai à la révision de la séquence sur la redocumentatisation (ici).
Actu du 7 janvier 2010
Voir aussi l'importance de l'accessibilité des données dans cet article du NYT :
John Markoff, “A Deluge of Data Shapes a New Era in Computing,” The New York Times, Décembre 15, 2009, sec. Science, ici.
Actu du 12 mars 2010
Un an plus tard, TBL récidive avec, cette fois une démonstration par l'exemple d'utilisations, notamment sur des cartes, des données en accès libre ici.
Commentaires
Merci de ces rappels Jean-Michel.
Si Tim Berners-Lee n'évoque pas le Web sémantique, c'est juste par souci pédagogique. Les technologies et standards sous-jacents à la mise en place du Web de données sont bien celles définis par le W3C dans le cadre de l'activité sur le Web sémantique, à savoir RDF, OWL, SPARQL, pour ne citer que les trois plus importantes. Dbpedia.org que timBL présente dans cette vidéo est une exposition selon le modèle RDF des données structurées de Wikipedia requêtables avec le langage de requêtes SPARQL.
Tim Berners-Lee a clairement annoncé que le terme "Web sémantique" était une erreur, car porteur d'ambigüités (le mot sémantique dans ce cas renvoyait à l'acception des spécialistes de la logique de description légèrement différente de celle des linguistes). Il lui préfère "Web de données", terme qui apparaît d'ailleurs dans un document prospectif qu'il a écrit en 2000 et qui est une ébauche très claire du Web de données tel qu'il est présenté ici par Tim Berners-Lee (http://www.w3.org/DesignIssues/Sema...).
Par conséquent, sans présager de ce que vous pourriez dire, ne nous y trompons pas, il ne faut voir dans cette absence qu'un changement de stratégie de communications et non un abandon de l'idée du Web sémantique, car ce qu'on appelle aujourd'hui Web de données, c'est bien l'idée du Web sémantique telle que Tim Berners-Lee l'a toujours envisagée et défendue (cf. sa présentation en 1994 de la 1ère conférence WWW).
Bonjour Gautier,
Merci pour cette alerte. Comme déjà mentionné, je ne suis pas spécialiste de ces questions et je crois que les professionnels peuvent consulter avec profit un diaporama de présentation sur le sujet ;-) :
http://www.lespetitescases.net/prof...
Néanmoins, je crois que l'on ne peut réduire l'absence du terme Web sémantique à une question de communication. Il a trop été défendu comme un étendard pour qu'on puisse dire que son gommage suffirait à effacer la «légère» différence de conception entre les ingénieurs et les linguistes. L'absence d'allusion à la «signification» n'est pas neutre et, malgré tout l'intérêt de ces architectures, je ne suis pas sûr que l'on résolve la difficulté simplement en l'effaçant du vocabulaire. La notion de «donnée», au moins dans son acception francophone, est elle aussi lourde de sous-entendus.
Mais encore une fois cela n'enlève rien à l'intérêt de toute cette aventure.