Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

samedi 16 février 2013

Il faut lire Alain Desrosières

Alain Desrosières est mort.

Je n'ai eu ni l'honneur, ni l'avantage de le connaître personnellement. Mais à la lecture de ses travaux, c'est pour moi un des plus fins analystes et un esprit parmi les plus subtils et érudits de son siècle. Son œuvre maîtresse et magistrale est :

DESROSIERES, A., 2010, La politique des grands nombres. Histoire de la raison statistique, La Découverte/Poche, Paris, 3ème édition.

En ligne, on pourra lire, par exemple :

Aujourd'hui, alors que partout on ne parle que d'humanités numériques, de web des données, de données ouvertes, de big data, de datajournalism, où l'on s'interroge sur la pertinence et l'effet des algorithmes (ici et ) et même maintenant de philosophie des données, il faut relire A. Desrosières qui nous explique que les calculs ne sont pas neutres et participent de la construction des institutions et du grand récit que les sociétés se font à elles-mêmes.

Pour comprendre l'importance du chemin qu'il nous montre, je ne prendrai qu'un court extrait du livre cité plus haut (p.398) :

Dans son architecture actuelle, la statistique se présente comme la combinaison de deux types d’outillages distincts (…). Le premier est politico-administratif : peu à peu se sont mis en place, depuis le 18e siècle, des systèmes d’enregistrement, de codage, de tabulation et de publications de « statistiques » au sens de description chiffrée de divers aspects du monde social. Le second est cognitif, et implique la mise en forme de schèmes scientifiques (moyenne, dispersion, corrélation, échantillonnage probabiliste), destinés à résumer, notamment par des outils mathématiques une diversité supposée non maîtrisable.

Remplaçons juste quelques mots pour l'appliquer à la période contemporaine, sans changer le raisonnement. Le paragraphe devient :

Dans son architecture actuelle, le web de données se présente comme la combinaison de deux types d’outillages distincts. Le premier est politico-administratif : peu à peu se sont mis en place, à partir de la fin du 19e siècle des systèmes d’enregistrement, de codage, de classification et de publication de « bases de données » au sens de description factuelles de divers aspects du monde social. Le second est cognitif et implique la constitution de schémas logiques destinés à résumer grâce à des algorithmes une diversité supposée non maîtrisable.

Il y a là de quoi retrousser ses manches et aiguiser ses neurones pour mieux éclairer notre époque... n'y a-t-il pas ?

mardi 22 janvier 2013

Apprentissage connecté contre fracture numérique

Un nouveau rapport du groupe de chercheurs US qui travaille sur l'apprentissage connecté vient de sortir, faisant le point sur ses recherches en cours (présentation, Pdf du rapport). S'appuyant sur des études de cas négatives ou positives, il met principalement l'accent sur les conséquences de l'arrivée du numérique sur les inégalités sociales.

Extraits de la présentation (trad JMS) :

Tendances repérées :

  • Le chemin de l'éducation à l'opportunité de travail est coupé : les jeunes entrent sur un marché du travail très différent de celui des générations précédentes. La formation, même à un niveau de premier cycle universitaire n'assure plus une ouverture sur des opportunités de travail. Les jeunes se trouvent en compétition sur un nombre plus réduit d'emplois intéressants. Et une "course aux armements" a éclaté sur les niveaux d'éducation, tout particulièrement dans les familles aisées pour gagner des avantages supplémentaires.
  • Le fossé s'élargit dans l'éducation : l'écart de réussite dans l'enseignement public a des répercussions sur les jeunes afro-américains et latinos. L’iniquité est aggravée par le niveau d'investissements qui s'accélère dans les activités éducatives et formatrices hors de l'école, dont beaucoup augmentent l'avance dans l'apprentissage par l'internet et les technologies numériques.
  • Une écologie des médias marchande et fragmentée : nous vivons une bascule radicale des médias et des technologies et cette bascule est plus forte pour les enfants et les jeunes. De plus en plus, l'apprentissage en classe est déconnecté de la vie quotidienne et des intérêts de nombreux jeunes, les décourageant encore plus dans leur scolarité.

Et pour les solutions :

Chaque fois les jeunes ont construit ensemble leur environnement d'apprentissage sous l’œil attentif d'adultes qui ont relié leurs intérêts, les retours entre jeunes et les résultats des recherches, et se sont servis des capacités des médias numériques et des communications internet pour :

  • accroitre l'interaction et l'expression personnelle : baissant les barrières d'accès aux connaissances, informations et expertises ;
  • proposer un soutien social par les médias sociaux et les communautés en ligne ;
  • fournir un plus large éventail de formations possibles.

mercredi 28 novembre 2012

De la pertinence des algorithmes (T. Gillepsie)

En écho aux interventions de D. Cardon et D. Kaplan au colloque archinfo et au webinaire Pédauque sur l'importance d'analyser de l'intérieur les conséquences de l'algorithme de recherche de Google, voici un article de Tarleton Gillepsie qui pose clairement la question du rôle éditorial des algorithmes et de la nécessité de mieux en comprendre les conséquences :

Gillespie, Tarleton. “The Relevance of Algorithms". forthcoming, in Media Technologies, ed. Tarleton Gillespie, Pablo Boczkowski, and Kirsten Foot. Cambridge, MA: MIT Press.

Extraits (trad. JMS) :

Les algorithmes jouent un rôle croissant dans la sélection des informations les plus pertinentes pour nous, devenant un élément crucial de notre participation à la vie publique. Les moteurs de recherche nous aident à naviguer dans les énormes bases de données d'information ou sur l'ensemble du web. Les algorithmes de recommandation cartographient nos préférences par rapport aux autres, suggérant de nouvelles informations ou des informations oubliées parmi les morceaux de culture qui comptent pour nous. Les algorithmes gèrent nos interactions sur les sites de réseaux sociaux, mettant en avant des informations d'un ami et excluant celles d'un autre. Les algorithmes construisent ce qui est "chaud" ou "tendance" ou "le plus discuté", écrémant le bavardage apparemment sans fin qui nous est présenté. Ensemble les algorithmes ne font pas que nous aider à trouver l'information, ils donnent le moyen de savoir ce qu'il y a à savoir et comment le savoir, de participer au débat social et politique, et de nous familiariser avec la chose publique à laquelle nous participons. Ils sont aujourd'hui la clé logique qui gouverne le flux d'informations dont nous dépendons, détenant "le pouvoir d'activer et d'affecter du sens, gérant la façon dont sont perçues les informations par les utilisateurs, la "distribution du sensible" (Langlois 2012)."

(...)

Nous avons besoin d'interroger les algorithmes comme un élément clé de notre écosystème informationnel (Anderson 2011) et des formes culturelles émergeant dans leur ombre (Striphas 2011), avec une attention particulière sur où et de quelle manière ils peuvent avoir des ramifications politiques. Cet essai est une carte conceptuelle pour y arriver. Je soulignerai six dimensions de la pertinence des algorithmes publics (cad ayant des conséquences publiques) qui ont un poids politique :

  1. Les schémas d'inclusion : les choix en amont qui mettent quoi à la première place dans un index, qui excluent quoi ? Et comment les données rendent l'algorithme opérationnel
  2. Les cycles d'anticipation : les implications des fournisseurs d'algorithmes pour tenter de bien connaître et prévoir les utilisateurs et comment leurs conclusions importent
  3. L'évaluation de la pertinence : les critères par lesquels les algorithmes décident de ce qui est pertinent, et comment ces critères nous sont cachés, et comment ils agissent sur les choix concernant les connaissances correctes et légitimes
  4. La promesse d'objectivité des algorithmes : la façon dont les caractéristiques techniques des algorithmes sont placées comme un gage d'impartialité, et comment cette affirmation est défendue face à la contradiction
  5. L'intrication avec la pratique : comment les utilisateurs réarrangent leurs pratiques en fonction des algorithmes dont elles dépendent et comment ils peuvent transformer les algorithmes en terrain de contestation politique, parfois même pour interroger la politique de l'algorithme lui-même
  6. La production de publics par le calcul : comment la présentation algorithmique des publics à eux-mêmes construit la compréhension qu'ils ont d'eux-mêmes, et qui est le mieux placé pour profiter de cette connaissance

L'auteur développe chacune de ces dimensions en les illustrant par des exemples et en rappelant les débats auxquels elles renvoient. On peut lui reprocher de rester en retrait, n'amenant pas de données ou d'analyses inédites, mais son essai a le mérite de proposer un canevas précis pour avancer. Il est plus que temps, en effet, que ces questions soient posées et que l'on sorte des deux ornières opposées de la neutralité ou l'objectivité des calculs d'un côté et de la manipulation ou les stratégies perverses de l'autre. Le programme proposé par Tarleton Gillepsie est autant un programme à grande échelle pour les chercheurs en SHS qu'une feuille de route pour un organisme public de régulation.

Cerise sur le gâteau : un tel programme nous permettrait peut-être aussi de sortir des polémiques convenues autour du droit d'auteur en comprenant plus lucidement le rôle éditorial du web et donc en repérant et mesurant plus lucidement les responsabilités des uns et des autres.

29-11-2012

Hubert Guillaud fait ce jour un cr beaucoup plus détaillé que le mien dans InternetActu.

Voir aussi : Algorithms are Decision Systems de T Striphas.

Le débat parait donc lancé. Il serait utile de ne pas le confiner juste à notre époque contemporaine. On pourrait aussi s'inspirer de l'important travail d'A. Desrosières sur l'histoire des statistiques qui préfigure celle des algorithmes :

''La constitution d’un espace rendant possible le débat contradictoire sur les options de la cité suppose l’existence d’un minimum d’éléments de référence communs aux divers acteurs : langage pour mettre en forme les choses, pour dire les fins et les moyens de l’action, pour en discuter les résultats. Ce langage ne préexiste pas au débat : il est négocié, stabilisé, inscrit, puis déformé et défait peu à peu, au fil des interactions propres à un espace et une période historique données.''

Alain Desrosières, La politique des grands nombres : histoire de la raison statistique. Paris : La Découverte, 2000,

J'avais proposé quelques pistes pour l'INRIA à l'occasion de son école sur le Web de données.

mardi 02 octobre 2012

Economie de surveillance (2)

J'ai rendu compte à l'automne en 2010 d'une série d'articles du WSJ sur l'économie de surveillance qui se mettait en place. Deux ans plus tard, un nouvel article du même journal montre que les efforts dans ce domaine n'ont pas molli. Si l'on a toujours du mal à percevoir la réalité du retour sur investissement de ces efforts, par contre le quadrillage systématique mis en place pour la surveillance à l'aide des réseaux numériques témoigne d'une tentative de changement profond de la régulation de nos sociétés. Pas mal flippant...

The Economics of Surveillance, Wall Street Journal, 28 sept 2012

Extraits (trad JMS) :

Du fait de la baisse des coûts de stockage des données et de l'augmentation de la volonté de dépenser dans le domaine, les entreprises et les forces de l'ordre sont souvent capables d'engranger un très grand nombre de données, juste au cas où elles pourraient être utiles un jour.

"Aujourd'hui les téléphones portables sont des capteurs, indique le colonel Lisa Shay, professeur à l'académie militaire de West Point, vous portez maintenant un capteur personnel avec vous tout le temps."

"L'information, qui était autrefois éphémère, dure maintenant beaucoup plus longtemps, affirme Shay, si je suis photographié, ces données resteront potentiellement dans une bases disponibles plusieurs années" (...)

L'espoir pour les entreprises, comme pour les gouvernements est que l'augmentation des données améliorera et facilitera leur travail. Plus ils auront de données plus ils pourront repérer de modèles de comportement : l'application de la loi pourra pointer les criminels potentiels, et les annonceurs pourront envoyer le bon message à la bonne personne exactement au moment opportun.

On ne sait pas vraiment si cet objectif est à portée de main ou si plus de données ne créent simplement pas plus de bruit. Les forces de l'ordre disent que l'énorme quantité d'information ne leur facilite pas toujours le travail pour attraper les criminels. (...)

Une industrie près de 30 milliards a été créée dans la Silicon Valley autour des entreprises construisant des modèles opérationnels de collecte de données personnelles et d'utilisation de ces données pour attirer les annonceurs. Et le WSJ a constaté que le ministère américain de la Sécurité intérieure a dépensé plus de 50 millions de dollars en subventions fédérales aux locaux forces de l'ordre pour la technologie sur les lecteurs de plaques d'immatriculation au cours des cinq dernières années.

Le journal passe ensuite en revue les technologies de collecte de données personnelles, juste dans les situations de la vie quotidienne :

  • En voiture : lecteur de plaque d'immatriculation, GPS, ordinateur de bord, GPS externe.
  • Sur les ordinateurs personnels : réseaux sociaux, messagerie, recherche, connexion et wifi
  • Chez soi : TV cablée, téléphone, tablette, compteur électrique
  • En faisant ses courses : ordonnances, cartes de fidélité, cartes de crédit, distributeurs de billets
  • En déplacement : caméra et reconnaissance faciale, téléphone portable, relais téléphoniques
  • Comme citadin : enregistrements pour le vote, adresses postales, courrier

vendredi 31 août 2012

Big data, la fourmilière ou les Lumières

Edge vient de publier une conversation avec Alex Pentland qui a fondé au MIT un centre de recherche transversal intitulé : Center for Connection Science and Engineering. J'en reproduis de larges extraits traduits ci-dessous, mais l'ensemble mérite lecture.

« Reinventing Society In The Wake Of Big Data ». Edge, août 30, 2012. .

Je crois que le pouvoir des Bib Data c'est qu'elles renseignent sur les gens plutôt que sur leurs croyance. Il s'agit du comportement des consommateurs, des employés et des prospects pour vos nouvelles affaires. Contrairement à ce que la plupart des gens croient, il ne s'agit pas des choses que vous postez sur Facebook, il ne s'agit pas de vos recherches sur Google, et ce ne sont pas non plus les données tirées du fonctionnement interne de l'entreprise et des RFID. Les Big Data proviennent de choses comme les données de localisation de votre téléphone mobile ou de votre carte de crédit. Ce sont les petites miettes de données que vous laissez derrière vous quand vous vous déplacez sur terre.

Ce que ces miettes racontent, c'est l'histoire de votre vie. Elles disent ce que vous avez choisi de faire. C'est très différent de ce que vous mettez sur Facebook. Ce que vous mettez sur Facebook, c'est ce que vous voudriez dire aux gens, rédigé selon les normes d'aujourd'hui. (...)

Si je peux connaitre certains de vos comportements, je peux inférer le reste juste en vous comparant avec la foule de ceux qui vous ressemblent. Vous pouvez raconter toutes sortes de choses sur une personne, même si elle ne sont pas explicitement dans les données, parce que les gens sont tellement pris dans le tissu social environnant qui détermine le genre de choses qu'ils pensent normales, et les comportements qu'ils vont apprendre les uns des autres. (...)

Ce qui compte vraiment, c'est comment les gens sont reliés les uns aux autres par les machines et comment ils créent un marché financier, un gouvernement, une entreprise et d'autres structures sociales. (...)

C'est la promesse d'un système financier qui ne s'écroule pas, de gouvernements qui ne soient pas embourbés dans l'inaction, de systèmes de santé qui fonctionnent vraiment, et ainsi de suite, et ainsi de suite. (...)

Bien qu'il soit utile de raisonner sur des moyennes, les phénomènes sociaux sont faits en réalité de millions de petites transactions entre les individus. Il existe des modèles dans ces petites transactions qui sont responsables du krach boursier ou du printemps arabe. (...)

Cela veut dire que vous pouvez construire des villes plus efficaces, beaucoup plus humaines et qui dépensent énormément moins d'énergie. Mais vous avez besoin de voir les gens bouger pour obtenir ces résultats. (...)

Y a-t-il une opposition (au partage des données dans les entreprises) ? Étonnamment, peu. Les historiques de l'internet sont sans doute les plus opposés parce que (et je ne leur reproche pas) Facebook et Google ont grandi dans un monde complètement déréglementé. Pour eux, il est naturel de penser qu'ils ont le contrôle de leurs données, mais lentement, lentement ils en viennent à admettre qu'ils devront faire des compromis. (...)

Ce nouveau monde pourrait faire de George Orwell un petit joueur manquant d'imagination. Il est devenu très clair que l'on doit réfléchir fortement à la défense de la vie privée et à la propriété des données. George Orwell n'avait pas vu que si vous pouvez observer les modèles de comportements des gens qui interéagissent vous pouviez alors prévoir des choses comme qui va voter pour quoi ou comment va-t-il réagir à des situations variées comme un changement dans les réglements et ainsi de suite. Vous pouvez construire quelque chose qui, en première approximation ressemble vraiment à l'empire du mal. Et, bien sûr, certains chercheront à le faire. (...)

Même si on peut penser qu'il y a encore loin entre cette présentation et les réalisations concrètes, c'est une édifiante lecture sociale du mouvement des Big data, et de la redocumentarisation des personnes, faisant la différence entre l'explicite (le publié) et l'implicite (l'agit) montrant la bascule de l'explication statistique vers l'algorithmie. Il y a aussi derrière ce discours une idéologie de la transparence qui mériterait d'être plus interrogée et mieux assumée. J'ai essayé de poser quelques questions à ce sujet, m'en tenant à la problématique documentaire, dans un article écrit pour l'INRIA :

Salaün, Jean-Michel. Du document à la donnée et retour. La fourmilière ou les Lumières. In "Le document numérique à l’heure du web de données", séminaire INRIA, 1er au 5 octobre 2012, Carnac. Paris, ADBS Éditions, 2012

04-09-2012

« Internet et les fourmis fonctionnent de la même manière | Slate ». Slate.fr.

05-09-2012

Driscoll, Kevin. « From Punched Cards to “Big Data”: A Social History of Database Populism ». communication 1 1, nᵒ. 1 (août 29, 2012). http://scholarworks.umass.edu/cpo/vol1/iss1/4.

- page 1 de 9