Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

Mot-clé - 513. À LA RECHERCHE DU NEODOCUMENT ; Les paradoxes du néodocument ; Conversation et traces

Fil des billets

jeudi 20 décembre 2012

Big Data, mythes et enjeux (V. Peugeot et Télécom Paris Tech)

2012 a été l'année du Big Data et on peut parier sans risque que 2013 ne verra pas s'éteindre le buzz ou peut-être la bulle. En attendant, j'ai retenu deux références significatives ces derniers jours.

La première est une journée complète sur le big data, organisée par Télécom Paris Tech le 6 décembre dernier qui a mis en ligne à cette occasion une série de courtes vidéos des intervenants pointant des questions vives. On y constate que la grande école se positionne clairement sur le thème avec des formations et des chaires de recherche dédiées. Un débat ressort, qui n'a certainement pas fini de rebondir, celui de la place de l'individu face aux possibilités de traçage et les calculs sur les données personnelles.

La seconde référence est une intervention dans une table ronde récente de Docforum à Lyon de Valérie Peugeot, chercheur chez Orange mais aussi très impliquée depuis longtemps dans le mouvement sur les Communs. Ses diapos sont accessibles ici. J'ai retenu celle-ci :

VPeugeot-Docforum-2012.png

V. Peugeot y montre que la thématique suscite des espoirs et peurs dans des champs très différents. Il faut comprendre ici le terme "mythe" dans son plein sens : un récit qui nous permet de penser l'inexplicable, une possible illusion ou un horizon souhaitable. Les huit mythes cités renvoient à des imaginaires différents. L'image de la Pythie est là pour nous rappeler que l'enjeu derrière les mythes est deviner l'avenir.

Les deux questions, auxquelles elle fait allusion, sont :

  1. Comment protéger les données produites par les utilisateurs ?
  2. Comment valoriser les données ?

21-12-1012

Une bonne illustration de ces mythes vue à partir d'une perspective UX Architecture de l'information :

Connecting (Full Film) from Bassett & Partners on Vimeo.

mercredi 28 novembre 2012

De la pertinence des algorithmes (T. Gillepsie)

En écho aux interventions de D. Cardon et D. Kaplan au colloque archinfo et au webinaire Pédauque sur l'importance d'analyser de l'intérieur les conséquences de l'algorithme de recherche de Google, voici un article de Tarleton Gillepsie qui pose clairement la question du rôle éditorial des algorithmes et de la nécessité de mieux en comprendre les conséquences :

Gillespie, Tarleton. “The Relevance of Algorithms". forthcoming, in Media Technologies, ed. Tarleton Gillespie, Pablo Boczkowski, and Kirsten Foot. Cambridge, MA: MIT Press.

Extraits (trad. JMS) :

Les algorithmes jouent un rôle croissant dans la sélection des informations les plus pertinentes pour nous, devenant un élément crucial de notre participation à la vie publique. Les moteurs de recherche nous aident à naviguer dans les énormes bases de données d'information ou sur l'ensemble du web. Les algorithmes de recommandation cartographient nos préférences par rapport aux autres, suggérant de nouvelles informations ou des informations oubliées parmi les morceaux de culture qui comptent pour nous. Les algorithmes gèrent nos interactions sur les sites de réseaux sociaux, mettant en avant des informations d'un ami et excluant celles d'un autre. Les algorithmes construisent ce qui est "chaud" ou "tendance" ou "le plus discuté", écrémant le bavardage apparemment sans fin qui nous est présenté. Ensemble les algorithmes ne font pas que nous aider à trouver l'information, ils donnent le moyen de savoir ce qu'il y a à savoir et comment le savoir, de participer au débat social et politique, et de nous familiariser avec la chose publique à laquelle nous participons. Ils sont aujourd'hui la clé logique qui gouverne le flux d'informations dont nous dépendons, détenant "le pouvoir d'activer et d'affecter du sens, gérant la façon dont sont perçues les informations par les utilisateurs, la "distribution du sensible" (Langlois 2012)."

(...)

Nous avons besoin d'interroger les algorithmes comme un élément clé de notre écosystème informationnel (Anderson 2011) et des formes culturelles émergeant dans leur ombre (Striphas 2011), avec une attention particulière sur où et de quelle manière ils peuvent avoir des ramifications politiques. Cet essai est une carte conceptuelle pour y arriver. Je soulignerai six dimensions de la pertinence des algorithmes publics (cad ayant des conséquences publiques) qui ont un poids politique :

  1. Les schémas d'inclusion : les choix en amont qui mettent quoi à la première place dans un index, qui excluent quoi ? Et comment les données rendent l'algorithme opérationnel
  2. Les cycles d'anticipation : les implications des fournisseurs d'algorithmes pour tenter de bien connaître et prévoir les utilisateurs et comment leurs conclusions importent
  3. L'évaluation de la pertinence : les critères par lesquels les algorithmes décident de ce qui est pertinent, et comment ces critères nous sont cachés, et comment ils agissent sur les choix concernant les connaissances correctes et légitimes
  4. La promesse d'objectivité des algorithmes : la façon dont les caractéristiques techniques des algorithmes sont placées comme un gage d'impartialité, et comment cette affirmation est défendue face à la contradiction
  5. L'intrication avec la pratique : comment les utilisateurs réarrangent leurs pratiques en fonction des algorithmes dont elles dépendent et comment ils peuvent transformer les algorithmes en terrain de contestation politique, parfois même pour interroger la politique de l'algorithme lui-même
  6. La production de publics par le calcul : comment la présentation algorithmique des publics à eux-mêmes construit la compréhension qu'ils ont d'eux-mêmes, et qui est le mieux placé pour profiter de cette connaissance

L'auteur développe chacune de ces dimensions en les illustrant par des exemples et en rappelant les débats auxquels elles renvoient. On peut lui reprocher de rester en retrait, n'amenant pas de données ou d'analyses inédites, mais son essai a le mérite de proposer un canevas précis pour avancer. Il est plus que temps, en effet, que ces questions soient posées et que l'on sorte des deux ornières opposées de la neutralité ou l'objectivité des calculs d'un côté et de la manipulation ou les stratégies perverses de l'autre. Le programme proposé par Tarleton Gillepsie est autant un programme à grande échelle pour les chercheurs en SHS qu'une feuille de route pour un organisme public de régulation.

Cerise sur le gâteau : un tel programme nous permettrait peut-être aussi de sortir des polémiques convenues autour du droit d'auteur en comprenant plus lucidement le rôle éditorial du web et donc en repérant et mesurant plus lucidement les responsabilités des uns et des autres.

29-11-2012

Hubert Guillaud fait ce jour un cr beaucoup plus détaillé que le mien dans InternetActu.

Voir aussi : Algorithms are Decision Systems de T Striphas.

Le débat parait donc lancé. Il serait utile de ne pas le confiner juste à notre époque contemporaine. On pourrait aussi s'inspirer de l'important travail d'A. Desrosières sur l'histoire des statistiques qui préfigure celle des algorithmes :

''La constitution d’un espace rendant possible le débat contradictoire sur les options de la cité suppose l’existence d’un minimum d’éléments de référence communs aux divers acteurs : langage pour mettre en forme les choses, pour dire les fins et les moyens de l’action, pour en discuter les résultats. Ce langage ne préexiste pas au débat : il est négocié, stabilisé, inscrit, puis déformé et défait peu à peu, au fil des interactions propres à un espace et une période historique données.''

Alain Desrosières, La politique des grands nombres : histoire de la raison statistique. Paris : La Découverte, 2000,

J'avais proposé quelques pistes pour l'INRIA à l'occasion de son école sur le Web de données.

mardi 02 octobre 2012

Economie de surveillance (2)

J'ai rendu compte à l'automne en 2010 d'une série d'articles du WSJ sur l'économie de surveillance qui se mettait en place. Deux ans plus tard, un nouvel article du même journal montre que les efforts dans ce domaine n'ont pas molli. Si l'on a toujours du mal à percevoir la réalité du retour sur investissement de ces efforts, par contre le quadrillage systématique mis en place pour la surveillance à l'aide des réseaux numériques témoigne d'une tentative de changement profond de la régulation de nos sociétés. Pas mal flippant...

The Economics of Surveillance, Wall Street Journal, 28 sept 2012

Extraits (trad JMS) :

Du fait de la baisse des coûts de stockage des données et de l'augmentation de la volonté de dépenser dans le domaine, les entreprises et les forces de l'ordre sont souvent capables d'engranger un très grand nombre de données, juste au cas où elles pourraient être utiles un jour.

"Aujourd'hui les téléphones portables sont des capteurs, indique le colonel Lisa Shay, professeur à l'académie militaire de West Point, vous portez maintenant un capteur personnel avec vous tout le temps."

"L'information, qui était autrefois éphémère, dure maintenant beaucoup plus longtemps, affirme Shay, si je suis photographié, ces données resteront potentiellement dans une bases disponibles plusieurs années" (...)

L'espoir pour les entreprises, comme pour les gouvernements est que l'augmentation des données améliorera et facilitera leur travail. Plus ils auront de données plus ils pourront repérer de modèles de comportement : l'application de la loi pourra pointer les criminels potentiels, et les annonceurs pourront envoyer le bon message à la bonne personne exactement au moment opportun.

On ne sait pas vraiment si cet objectif est à portée de main ou si plus de données ne créent simplement pas plus de bruit. Les forces de l'ordre disent que l'énorme quantité d'information ne leur facilite pas toujours le travail pour attraper les criminels. (...)

Une industrie près de 30 milliards a été créée dans la Silicon Valley autour des entreprises construisant des modèles opérationnels de collecte de données personnelles et d'utilisation de ces données pour attirer les annonceurs. Et le WSJ a constaté que le ministère américain de la Sécurité intérieure a dépensé plus de 50 millions de dollars en subventions fédérales aux locaux forces de l'ordre pour la technologie sur les lecteurs de plaques d'immatriculation au cours des cinq dernières années.

Le journal passe ensuite en revue les technologies de collecte de données personnelles, juste dans les situations de la vie quotidienne :

  • En voiture : lecteur de plaque d'immatriculation, GPS, ordinateur de bord, GPS externe.
  • Sur les ordinateurs personnels : réseaux sociaux, messagerie, recherche, connexion et wifi
  • Chez soi : TV cablée, téléphone, tablette, compteur électrique
  • En faisant ses courses : ordonnances, cartes de fidélité, cartes de crédit, distributeurs de billets
  • En déplacement : caméra et reconnaissance faciale, téléphone portable, relais téléphoniques
  • Comme citadin : enregistrements pour le vote, adresses postales, courrier

vendredi 31 août 2012

Big data, la fourmilière ou les Lumières

Edge vient de publier une conversation avec Alex Pentland qui a fondé au MIT un centre de recherche transversal intitulé : Center for Connection Science and Engineering. J'en reproduis de larges extraits traduits ci-dessous, mais l'ensemble mérite lecture.

« Reinventing Society In The Wake Of Big Data ». Edge, août 30, 2012. .

Je crois que le pouvoir des Bib Data c'est qu'elles renseignent sur les gens plutôt que sur leurs croyance. Il s'agit du comportement des consommateurs, des employés et des prospects pour vos nouvelles affaires. Contrairement à ce que la plupart des gens croient, il ne s'agit pas des choses que vous postez sur Facebook, il ne s'agit pas de vos recherches sur Google, et ce ne sont pas non plus les données tirées du fonctionnement interne de l'entreprise et des RFID. Les Big Data proviennent de choses comme les données de localisation de votre téléphone mobile ou de votre carte de crédit. Ce sont les petites miettes de données que vous laissez derrière vous quand vous vous déplacez sur terre.

Ce que ces miettes racontent, c'est l'histoire de votre vie. Elles disent ce que vous avez choisi de faire. C'est très différent de ce que vous mettez sur Facebook. Ce que vous mettez sur Facebook, c'est ce que vous voudriez dire aux gens, rédigé selon les normes d'aujourd'hui. (...)

Si je peux connaitre certains de vos comportements, je peux inférer le reste juste en vous comparant avec la foule de ceux qui vous ressemblent. Vous pouvez raconter toutes sortes de choses sur une personne, même si elle ne sont pas explicitement dans les données, parce que les gens sont tellement pris dans le tissu social environnant qui détermine le genre de choses qu'ils pensent normales, et les comportements qu'ils vont apprendre les uns des autres. (...)

Ce qui compte vraiment, c'est comment les gens sont reliés les uns aux autres par les machines et comment ils créent un marché financier, un gouvernement, une entreprise et d'autres structures sociales. (...)

C'est la promesse d'un système financier qui ne s'écroule pas, de gouvernements qui ne soient pas embourbés dans l'inaction, de systèmes de santé qui fonctionnent vraiment, et ainsi de suite, et ainsi de suite. (...)

Bien qu'il soit utile de raisonner sur des moyennes, les phénomènes sociaux sont faits en réalité de millions de petites transactions entre les individus. Il existe des modèles dans ces petites transactions qui sont responsables du krach boursier ou du printemps arabe. (...)

Cela veut dire que vous pouvez construire des villes plus efficaces, beaucoup plus humaines et qui dépensent énormément moins d'énergie. Mais vous avez besoin de voir les gens bouger pour obtenir ces résultats. (...)

Y a-t-il une opposition (au partage des données dans les entreprises) ? Étonnamment, peu. Les historiques de l'internet sont sans doute les plus opposés parce que (et je ne leur reproche pas) Facebook et Google ont grandi dans un monde complètement déréglementé. Pour eux, il est naturel de penser qu'ils ont le contrôle de leurs données, mais lentement, lentement ils en viennent à admettre qu'ils devront faire des compromis. (...)

Ce nouveau monde pourrait faire de George Orwell un petit joueur manquant d'imagination. Il est devenu très clair que l'on doit réfléchir fortement à la défense de la vie privée et à la propriété des données. George Orwell n'avait pas vu que si vous pouvez observer les modèles de comportements des gens qui interéagissent vous pouviez alors prévoir des choses comme qui va voter pour quoi ou comment va-t-il réagir à des situations variées comme un changement dans les réglements et ainsi de suite. Vous pouvez construire quelque chose qui, en première approximation ressemble vraiment à l'empire du mal. Et, bien sûr, certains chercheront à le faire. (...)

Même si on peut penser qu'il y a encore loin entre cette présentation et les réalisations concrètes, c'est une édifiante lecture sociale du mouvement des Big data, et de la redocumentarisation des personnes, faisant la différence entre l'explicite (le publié) et l'implicite (l'agit) montrant la bascule de l'explication statistique vers l'algorithmie. Il y a aussi derrière ce discours une idéologie de la transparence qui mériterait d'être plus interrogée et mieux assumée. J'ai essayé de poser quelques questions à ce sujet, m'en tenant à la problématique documentaire, dans un article écrit pour l'INRIA :

Salaün, Jean-Michel. Du document à la donnée et retour. La fourmilière ou les Lumières. In "Le document numérique à l’heure du web de données", séminaire INRIA, 1er au 5 octobre 2012, Carnac. Paris, ADBS Éditions, 2012

04-09-2012

« Internet et les fourmis fonctionnent de la même manière | Slate ». Slate.fr.

05-09-2012

Driscoll, Kevin. « From Punched Cards to “Big Data”: A Social History of Database Populism ». communication 1 1, nᵒ. 1 (août 29, 2012). http://scholarworks.umass.edu/cpo/vol1/iss1/4.

dimanche 12 février 2012

Le Web sous tension (2)

Voici enfin la nouvelle version du Web sous tension de Roger II Pédauque !

L'écriture collective du texte de Roger II a pris du retard. Le temps de la coordination entre les membres du groupe initial et celui de la maturation de la réflexion est très éloigné de la réactivité de l'internet.

Voici comment s'est déroulé le processus. Dans une première étape, les auteurs des différentes parties ont intégré les commentaires du texte initial et celui-ci a été largement remanié. Puis, constatant que cette nouvelle version ne répondait pas à notre attente, nous nous sommes réunis au cours d'un séminaire de deux jours, nous répartissant la critique du texte. Il y a été décidé de publier une nouvelle version du texte en deux temps :

  1. Tout d'abord un résumé soulignant l'essentiel de l'enjeu sur le ton d'un manifeste, c'est ce résumé qui est aujourd'hui mis en ligne et soumis à la critique.
  2. Ensuite, certaines parties, amendées et corrigées du texte initial serviront de développements et d'illustrations des propos du résumé. Le texte, alors complet, sera publié courant avril.

Nous avons aussi prévu une suite, sous une forme différente, intégrant toutes ces réflexions.

Je crois que cela valait de coup de prendre son temps... Le temps est justement la principale tension du Web que Roger II a fait ressortir. Le nouveau texte est là :

Et pour un accès direct, c'est ici.

- page 1 de 3