Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

Mot-clé - 332. REINGENIERIES DOCUMENTAIRES ; D’une modernité à l’autre ; De la neutralité

Fil des billets

samedi 16 février 2013

Il faut lire Alain Desrosières

Alain Desrosières est mort.

Je n'ai eu ni l'honneur, ni l'avantage de le connaître personnellement. Mais à la lecture de ses travaux, c'est pour moi un des plus fins analystes et un esprit parmi les plus subtils et érudits de son siècle. Son œuvre maîtresse et magistrale est :

DESROSIERES, A., 2010, La politique des grands nombres. Histoire de la raison statistique, La Découverte/Poche, Paris, 3ème édition.

En ligne, on pourra lire, par exemple :

Aujourd'hui, alors que partout on ne parle que d'humanités numériques, de web des données, de données ouvertes, de big data, de datajournalism, où l'on s'interroge sur la pertinence et l'effet des algorithmes (ici et ) et même maintenant de philosophie des données, il faut relire A. Desrosières qui nous explique que les calculs ne sont pas neutres et participent de la construction des institutions et du grand récit que les sociétés se font à elles-mêmes.

Pour comprendre l'importance du chemin qu'il nous montre, je ne prendrai qu'un court extrait du livre cité plus haut (p.398) :

Dans son architecture actuelle, la statistique se présente comme la combinaison de deux types d’outillages distincts (…). Le premier est politico-administratif : peu à peu se sont mis en place, depuis le 18e siècle, des systèmes d’enregistrement, de codage, de tabulation et de publications de « statistiques » au sens de description chiffrée de divers aspects du monde social. Le second est cognitif, et implique la mise en forme de schèmes scientifiques (moyenne, dispersion, corrélation, échantillonnage probabiliste), destinés à résumer, notamment par des outils mathématiques une diversité supposée non maîtrisable.

Remplaçons juste quelques mots pour l'appliquer à la période contemporaine, sans changer le raisonnement. Le paragraphe devient :

Dans son architecture actuelle, le web de données se présente comme la combinaison de deux types d’outillages distincts. Le premier est politico-administratif : peu à peu se sont mis en place, à partir de la fin du 19e siècle des systèmes d’enregistrement, de codage, de classification et de publication de « bases de données » au sens de description factuelles de divers aspects du monde social. Le second est cognitif et implique la constitution de schémas logiques destinés à résumer grâce à des algorithmes une diversité supposée non maîtrisable.

Il y a là de quoi retrousser ses manches et aiguiser ses neurones pour mieux éclairer notre époque... n'y a-t-il pas ?

mercredi 28 novembre 2012

De la pertinence des algorithmes (T. Gillepsie)

En écho aux interventions de D. Cardon et D. Kaplan au colloque archinfo et au webinaire Pédauque sur l'importance d'analyser de l'intérieur les conséquences de l'algorithme de recherche de Google, voici un article de Tarleton Gillepsie qui pose clairement la question du rôle éditorial des algorithmes et de la nécessité de mieux en comprendre les conséquences :

Gillespie, Tarleton. “The Relevance of Algorithms". forthcoming, in Media Technologies, ed. Tarleton Gillespie, Pablo Boczkowski, and Kirsten Foot. Cambridge, MA: MIT Press.

Extraits (trad. JMS) :

Les algorithmes jouent un rôle croissant dans la sélection des informations les plus pertinentes pour nous, devenant un élément crucial de notre participation à la vie publique. Les moteurs de recherche nous aident à naviguer dans les énormes bases de données d'information ou sur l'ensemble du web. Les algorithmes de recommandation cartographient nos préférences par rapport aux autres, suggérant de nouvelles informations ou des informations oubliées parmi les morceaux de culture qui comptent pour nous. Les algorithmes gèrent nos interactions sur les sites de réseaux sociaux, mettant en avant des informations d'un ami et excluant celles d'un autre. Les algorithmes construisent ce qui est "chaud" ou "tendance" ou "le plus discuté", écrémant le bavardage apparemment sans fin qui nous est présenté. Ensemble les algorithmes ne font pas que nous aider à trouver l'information, ils donnent le moyen de savoir ce qu'il y a à savoir et comment le savoir, de participer au débat social et politique, et de nous familiariser avec la chose publique à laquelle nous participons. Ils sont aujourd'hui la clé logique qui gouverne le flux d'informations dont nous dépendons, détenant "le pouvoir d'activer et d'affecter du sens, gérant la façon dont sont perçues les informations par les utilisateurs, la "distribution du sensible" (Langlois 2012)."

(...)

Nous avons besoin d'interroger les algorithmes comme un élément clé de notre écosystème informationnel (Anderson 2011) et des formes culturelles émergeant dans leur ombre (Striphas 2011), avec une attention particulière sur où et de quelle manière ils peuvent avoir des ramifications politiques. Cet essai est une carte conceptuelle pour y arriver. Je soulignerai six dimensions de la pertinence des algorithmes publics (cad ayant des conséquences publiques) qui ont un poids politique :

  1. Les schémas d'inclusion : les choix en amont qui mettent quoi à la première place dans un index, qui excluent quoi ? Et comment les données rendent l'algorithme opérationnel
  2. Les cycles d'anticipation : les implications des fournisseurs d'algorithmes pour tenter de bien connaître et prévoir les utilisateurs et comment leurs conclusions importent
  3. L'évaluation de la pertinence : les critères par lesquels les algorithmes décident de ce qui est pertinent, et comment ces critères nous sont cachés, et comment ils agissent sur les choix concernant les connaissances correctes et légitimes
  4. La promesse d'objectivité des algorithmes : la façon dont les caractéristiques techniques des algorithmes sont placées comme un gage d'impartialité, et comment cette affirmation est défendue face à la contradiction
  5. L'intrication avec la pratique : comment les utilisateurs réarrangent leurs pratiques en fonction des algorithmes dont elles dépendent et comment ils peuvent transformer les algorithmes en terrain de contestation politique, parfois même pour interroger la politique de l'algorithme lui-même
  6. La production de publics par le calcul : comment la présentation algorithmique des publics à eux-mêmes construit la compréhension qu'ils ont d'eux-mêmes, et qui est le mieux placé pour profiter de cette connaissance

L'auteur développe chacune de ces dimensions en les illustrant par des exemples et en rappelant les débats auxquels elles renvoient. On peut lui reprocher de rester en retrait, n'amenant pas de données ou d'analyses inédites, mais son essai a le mérite de proposer un canevas précis pour avancer. Il est plus que temps, en effet, que ces questions soient posées et que l'on sorte des deux ornières opposées de la neutralité ou l'objectivité des calculs d'un côté et de la manipulation ou les stratégies perverses de l'autre. Le programme proposé par Tarleton Gillepsie est autant un programme à grande échelle pour les chercheurs en SHS qu'une feuille de route pour un organisme public de régulation.

Cerise sur le gâteau : un tel programme nous permettrait peut-être aussi de sortir des polémiques convenues autour du droit d'auteur en comprenant plus lucidement le rôle éditorial du web et donc en repérant et mesurant plus lucidement les responsabilités des uns et des autres.

29-11-2012

Hubert Guillaud fait ce jour un cr beaucoup plus détaillé que le mien dans InternetActu.

Voir aussi : Algorithms are Decision Systems de T Striphas.

Le débat parait donc lancé. Il serait utile de ne pas le confiner juste à notre époque contemporaine. On pourrait aussi s'inspirer de l'important travail d'A. Desrosières sur l'histoire des statistiques qui préfigure celle des algorithmes :

''La constitution d’un espace rendant possible le débat contradictoire sur les options de la cité suppose l’existence d’un minimum d’éléments de référence communs aux divers acteurs : langage pour mettre en forme les choses, pour dire les fins et les moyens de l’action, pour en discuter les résultats. Ce langage ne préexiste pas au débat : il est négocié, stabilisé, inscrit, puis déformé et défait peu à peu, au fil des interactions propres à un espace et une période historique données.''

Alain Desrosières, La politique des grands nombres : histoire de la raison statistique. Paris : La Découverte, 2000,

J'avais proposé quelques pistes pour l'INRIA à l'occasion de son école sur le Web de données.

vendredi 14 septembre 2012

Nouveau régime de vérité, démonstration par l'absurde

Décidément Wikipédia est un excellent marqueur des changements documentaires en cours et de leurs limites. La récente histoire autour de Philippe Roth, un des plus célèbres écrivains nord-américains, est pleine d'enseignements. C'est une sorte de démonstration par l'absurde, comme il en existe en mathématique.

On trouvera un résumé de l'histoire ici. Ph. Roth contestait la relation dans Wikipédia de l'inspiration du personnage principal d'un de ses romans, présentée par un critique et reprise dans Wikipédia. Pour cela, il a envoyé une lettre ouverte sur le New Yorker pour demander à l'encyclopédie d'effectuer la correction après que son agent ait échoué à corriger en son nom directement la rubrique, faute de pouvoir présenter de références crédibles. Aujourd'hui la rubrique est corrigée.

L'histoire de Philippe Roth s'énervant à corriger une erreur sur l'interprétation de son œuvre ne serait qu'une anecdote, parmi les très nombreuses discussions internes et externes autour des pages de l'encyclopédie, si le statut d'auteur du plaignant, le moyen employé et la réaction des wikipédiens n'éclairaient de façon éclatante ces changements en cours dans les régimes de vérité et leurs limites que j'ai déjà eu l'occasion souvent de pointer sur ce blogue ou ailleurs.

L'effacement de l'auteur

Le premier point à noter est que l'information produite par l'auteur sur son inspiration était jusqu'à présent inédite (ou presque, il en avait fait allusion dans une interview), contrairement à la spéculation du critique citée dans Wikipédia qui avait été publiée, elle, dans un journal reconnu et reprise ensuite par d'autres. Dès lors, la demande de correction n'a pas été jugée digne de foi selon les règles même de Wikipédia, car non référencée. Et les corrections du biographe autoproclamé (sic) de l'auteur ont été effacées par des éditeurs chevronnés de l'encyclopédie, qui ont au contraire surligné la version jugée erronée par l'auteur de la nouvelle (voir la discussion ici).

Aujourd'hui la rubrique de Wikipédia est corrigée sur la foi de la lettre publiée par Ph. Roth. Toujours selon les règles de Wikipédia, la précision sur l'inspiration est maintenant "sourcée", c'est à dire qu'elle peut-être validée par une référence publiée. Les règles de rédaction de Wikipédia sont très claires à ce sujet : Les articles de Wikipédia devraient reposer principalement sur des sources secondaires fiables. Toute utilisation de sources primaires devrait s'appuyer sur des sources secondaires, et ne pas être une sélection, analyse, synthèse ou interprétation inédite réalisée par un contributeur de Wikipédia. Les sources primaires seules sont acceptées si elles consistent en des assertions factuelles et non sujettes à interprétation ou polémique.

La lettre ouverte de Ph. Roth n'est pas un simple accès d'humeur. Il s'agit d'un long texte, précisant dans le détail les tenants et les aboutissants de son inspiration et pourquoi l'interprétation précédente était erronée. L'ampleur de l'argumentaire montre que Ph. Roth a pris très au sérieux la documentation de son œuvre, au-delà de l'agacement qu'il laisse poindre.

Mais, comme le fait remarquer un Wikipédien dans la discussion autour de l'article incriminé (trad JMS) : Le plus génant pour moi est d'avoir considéré que Roth n'était pas une source valide. Et oui, je comprends l'aspect préventif de la différence entre des sources primaires et secondaires. Mais seul Roth peut parler de ses propres motivations. Pour n'importe qui d'autres, cela relève d'une simple spéculation. Et la spéculation ne devrait pas faire partie d'un bon article d'encyclopédie.

Il s'agit ainsi bien d'une démonstration par l'absurde du nouveau régime de vérité représenté par Wikipédia. Il est, en effet, absurde de considérer qu'un auteur ne soit pas la meilleure source pour éclairer son inspiration, mais, en même temps, la règle défendue par l'encyclopédie est sa garantie contre des intrusions intempestives non contrôlables. On ne saurait mieux illustrer que Wikipédia, et sans doute le web en général, se trouve à la fois dans la continuité d'une tradition documentaire et en même temps peut-être dans une bascule de notre régime de vérité. Son fonctionnement repose sur l'accessibilité des documents et leur valeur n'est construite que par leur inter-relation. J'ai déjà montré combien cette logique était à la base même du développement du web et combien Wikipédia y jouait un rôle décisif (par ex ici).

Cette logique entre en contradiction avec la polarisation sur l'auteur et sur la création des deux derniers siècles, y compris dans la science. Elle retourne notre relation au savoir qui devient le résultat d'une interrogation contrôlée d'un patrimoine documentaire accumulé et donc seulement de façon indirecte le résultat de la découverte d'un travail créatif, d'un inédit, d'une invention. La création n'est plus au centre, elle fait place au partage. En réalité, création et partage sont depuis toujours les deux piliers de l'avancement du savoir dans une société. Mais depuis au moins deux siècles l'accent a été mis dans les sociétés occidentales sur la création qui a été particulièrement valorisée. Le web insiste à l'inverse sur le partage, jusqu'à, comme le montre l'histoire de Ph. Roth, contester la parole du créateur.

Ainsi on voit grâce à l'absurdité de cette situation que le dialogue de sourds entre les défenseurs du droit d'auteur et les tenants du partage a des racines plus profondes que la simple dénonciation de logiques marchandes, rentes indues ou prédations illégitimes. Même si les appétits marchands brouillent les pistes, derrière ces incompréhensions se cache aussi, et peut-être surtout, une transformation de notre rapport au document, considéré comme soit comme le résultat d'une création, soit comme un patrimoine.

Les limites de l'attention

La seconde leçon de cette petite histoire est la question, souvent mal comprise, de l'économie de l'attention, et ici sa fragilité. La garantie de la qualité de Wikipédia est dans la sagesse des foules, ou plutôt de la multitude pour reprendre un mot à la mode, puisque sa correction est laissée sous la surveillance de chacun. Mais on oublie souvent que l'économie de la multitude repose sur l'attention. Pour Wikipédia, la garantie de qualité dépend du bon fonctionnement de la chaîne attentionnelle des différents acteurs concernés par la production de l'encyclopédie. Et l'encyclopédie a mis en place des mécanismes efficaces pour pallier cette difficulté, mais au risque de réduire "la multitude" à un petit nombre de contributeurs investis d'un pouvoir éditorial radical, comme nous allons le voir.

Remarquons, d'abord, que l'allusion, maintenant contestée par Ph. Roth, à l'inspiration de la nouvelle ne date pas d'hier sur Wikipédia. Elle était présente depuis longtemps, précisément depuis octobre 2005 (ici) et n'a été relevée par l'auteur qu'il y a quelques jours. J'ignore comment son attention a été attirée, mais on peut penser que le rôle de plus en plus important joué par Wikipédia dans le monde scolaire a pu jouer dans sa volonté de correction de la rubrique.

Plus révélateur, est le scénario de la correction manquée :

  • Le 20 août la première correction est faite par un internaute avec ce commentaire : I have removed the reference to Anatole Broyard, at Philip Roth's insistence. I am his biographer (j'ai retiré la référence à Anatole Broyard sur l'insistance de Philip Roth, je suis son biographe).
  • Une minute après, un éditeur de wkp remet le texte initial avec pour commentaire Can you verify that? (Pouvez-vous le vérifier ?).
  • Vingt minutes plus tard. La correction est renouvelée avec ce nouveau commentaire : Once again, I removed the reference to Anatole Broyard. It is wholly inaccurate and therefore pointless. I am Roth's biographer, and have removed it at his request. (Une nouvelle fois, j'ai enlevé la référence à Anatole Broyard. C'est tout à fait inexact et donc sans objet. Je suis le biographe de Roth et j'ai fait cette correction à sa demande).
  • Six minutes après, un autre éditeur de wkp remet de nouveau le texte initial et ajoute de nouveaux détails pour confirmer l'inspiration de la nouvelle par le personnage d'A. Broyard. Cet éditeur prendra deux heures de son temps pour cette rédaction. Comme l'indique le wikipédien qui relate l'histoire : cet éditeur a du se prendre pour un vrai détective !

Le timing est plus intéressant encore que le contenu de l'échange. Les éditeurs de Wikipédia sont intervenus en un temps record, alertés sans doute par les robots qui repèrent les corrections. Cette précipitation, doublée d'une référence brutale à des règles inconnues de l'internaute néophyte, décourage l'argumentation. Face à une telle surveillance et radicalité, il est peu probable que quiconque ait le goût d'insister.

Mais Ph. Roth a de la suite dans les idées. Il est assez logique alors que, constatant l'échec de son autorité d'auteur (confirmé dit-il par un échange de courrier) non reconnue par l'encyclopédie, il ait préféré changer de terrain et choisir un lieu où justement sa qualité n'était pas contestée, une revue traditionnelle, pour faire valoir son point de vue.

Cette histoire souligne doublement les limites de l'économie de l'attention sur le web. La vulgate commune de la sagesse des foules voudrait qu'une sorte de main invisible de l'attention de la multitude régule la valeur sur le web. Les éléments les plus pertinents seraient mis en avant par le jeu des interactions des internautes.

On constate d'abord que Wikipédia a mis en place une organisation qui, de fait, courcircuite cette logique grâce à un petit nombre d'éditeurs bénévoles appuyés par des robots. Ensuite, l'encyclopédie évite les pièges de l'auto-édition ou des stratégies de référencement des activistes du web en s'appuyant sur le modèle éditorial traditionnel pour ses références.

Si l'on ajoute que Wikipédia devient, lui-même, une référence sur le web et ailleurs, et même pour la construction du web de données par DBpédia, l'histoire de Philippe Roth n'a pas fini de nous faire réfléchir.

16-09-2012

Pour un procès à charge contre Ph Roth par un wikipédien :

« Philip Roth and Wikipedia, Non-Commercial Use », 15 sept 2012 .

La charge montre surtout, à mon avis, l'écart entre les deux mondes, aussi radicaux et sûrs de leur bon droit l'un que l'autre.

jeudi 22 mars 2012

L'inversion du rapport au savoir à l'école

A lire et à faire lire absolument pour comprendre l'inversion du rapport au savoir sur le Web dès le lycée :

Comment j'ai pourri le web, 21 mars 2012, la vie moderne.

25-03-2012

Pour un contrepoint parmi d'autres :

Pourritures pédagogiques, Contrebande, 23 mars 2012.

26-03-2012

Petite remarque : l'écho qu'a rencontré cette histoire et les débats passionnés qu'elle a susités soulignent le hiatus qui s'est installé entre les "penseurs de l'école" et les "penseurs du web", souvent aussi péremptoires les uns que les autres et sans beaucoup d'écoute. Peut-être qu'un peu de modestie serait bienvenue.

L'école doit être un lieu d'émancipation où il est important d'apprendre aux élèves à penser par eux-mêmes et à citer leurs sources. L'erreur serait de croire que le Web pourrait la remplacer. Mais le web peut être très utile pour favoriser cette émancipation, il est même incontournable comme lieu principal aujourd'hui de récolte des informations, à condition de comprendre comment le savoir s'y construit. Et il s'y construit de façon sensiblement différente du savoir traditionnellement enseigné à l'école.

C'est pourquoi j'ai apprécié cette petite expérience.

vendredi 16 mars 2012

Le sens commun lu par Google

Google vient d'annoncer un important changement dans l'utilisation de ses algorithmes à l'issu notamment du rachat récent de la firme Metaweb (Wsj repéré par Abondance). Il s'agit pour certaines questions simples de donner directement la réponse en haut de la page, plutôt qu'une liste de liens y conduisant.

Extraits de l'article du Wsj qui reprend la présentation d'Amit Singhal, un des responsables du moteur (trad JMS) :

Le moteur s'approchera plus de "comment les hommes comprennent le monde" a dit M Singhal, remarquant que pour de nombreuses recherches aujourd'hui "nous croisons les doigts en espérant qu'il y ait bien une page où se trouve notre réponse." (..)

Selon ce changement, quelqu'un qui cherche "Lac Tahoe" verra les principaux "attributs" connus du moteur sur le lac, comme la localisation, l'altitude, la température moyenne ou sa salinité. Aujourd'hui, ceux qui cherchent "lac Tahoe" ne trouvent que des liens vers le site Web des visites, ses rubriques Wikipédia et un lien sur une carte.

Pour une question plus complexe comme : "quels sont les 10 plus grands lacs de la Californie ?", Google donnera la réponse plutôt que des liens vers d'autres sites. (..)

Par exemple, des gens qui cherchent un auteur particulier comme Ernest Hemingway pourront trouver sous le nouveau système une liste des livres de l'auteur qu'ils pourront feuilleter et des pages d'information sur d'autres auteurs ou livres pertinents, selon une personne au courant des plans de la firme. On peut supposer que Google proposera aussi d'acheter des livres. (..)

Quelqu'un de bien informé a dit que ce changement vers une recherche sémantique pourrait toucher les résultats de recherche de 10 à 20% de toutes les requêtes, soit des dizaines de milliards par mois. (..)

M Singhal a dit que Google et l'équipe du Metaweb, qui comprend aujourd'hui environ 50 ingénieurs, ont augmenté la taille de leur index à plus de 200 millions d'entités, en partie grâce au développement d'algorithmes d'extraction ou des formules mathématiques capables d'organiser les données disséminées sur le Web. Les organisations et agences gouvernementales ont été aussi approchées pour l'accès à leurs bases de données, y compris le CIA World Factbook, qui hébergent des informations encyclopédiques actualisées sur tous les pays du monde.

Une étape supplémentaire s'ouvre donc dans l'industrie de la lecture, la priorité mise par Google sur la deuxième dimension du document, le lu, proche des efforts du Web de données. De plus en plus, Google et Wikipédia deviennent complémentaires dans la construction d'un "sens commun" à partir des multiples documents disponibles. Il faut entendre ici sens commun dans toutes ses acceptions et il faudrait des études plus sérieuses que celles que j'ai consultées jusqu'ici à propos des conséquences de cette évolution globale du "lu" sur notre rapport au savoir, sur "comment les hommes comprennent le monde ?". Est-il raisonnable de laisser la réponse à cette question aux aléas de la stratégie d'une firme commerciale ?

- page 1 de 4