Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

Recherche - attention

mercredi 28 novembre 2012

De la pertinence des algorithmes (T. Gillepsie)

En écho aux interventions de D. Cardon et D. Kaplan au colloque archinfo et au webinaire Pédauque sur l'importance d'analyser de l'intérieur les conséquences de l'algorithme de recherche de Google, voici un article de Tarleton Gillepsie qui pose clairement la question du rôle éditorial des algorithmes et de la nécessité de mieux en comprendre les conséquences :

Gillespie, Tarleton. “The Relevance of Algorithms". forthcoming, in Media Technologies, ed. Tarleton Gillespie, Pablo Boczkowski, and Kirsten Foot. Cambridge, MA: MIT Press.

Extraits (trad. JMS) :

Les algorithmes jouent un rôle croissant dans la sélection des informations les plus pertinentes pour nous, devenant un élément crucial de notre participation à la vie publique. Les moteurs de recherche nous aident à naviguer dans les énormes bases de données d'information ou sur l'ensemble du web. Les algorithmes de recommandation cartographient nos préférences par rapport aux autres, suggérant de nouvelles informations ou des informations oubliées parmi les morceaux de culture qui comptent pour nous. Les algorithmes gèrent nos interactions sur les sites de réseaux sociaux, mettant en avant des informations d'un ami et excluant celles d'un autre. Les algorithmes construisent ce qui est "chaud" ou "tendance" ou "le plus discuté", écrémant le bavardage apparemment sans fin qui nous est présenté. Ensemble les algorithmes ne font pas que nous aider à trouver l'information, ils donnent le moyen de savoir ce qu'il y a à savoir et comment le savoir, de participer au débat social et politique, et de nous familiariser avec la chose publique à laquelle nous participons. Ils sont aujourd'hui la clé logique qui gouverne le flux d'informations dont nous dépendons, détenant "le pouvoir d'activer et d'affecter du sens, gérant la façon dont sont perçues les informations par les utilisateurs, la "distribution du sensible" (Langlois 2012)."

(...)

Nous avons besoin d'interroger les algorithmes comme un élément clé de notre écosystème informationnel (Anderson 2011) et des formes culturelles émergeant dans leur ombre (Striphas 2011), avec une attention particulière sur où et de quelle manière ils peuvent avoir des ramifications politiques. Cet essai est une carte conceptuelle pour y arriver. Je soulignerai six dimensions de la pertinence des algorithmes publics (cad ayant des conséquences publiques) qui ont un poids politique :

  1. Les schémas d'inclusion : les choix en amont qui mettent quoi à la première place dans un index, qui excluent quoi ? Et comment les données rendent l'algorithme opérationnel
  2. Les cycles d'anticipation : les implications des fournisseurs d'algorithmes pour tenter de bien connaître et prévoir les utilisateurs et comment leurs conclusions importent
  3. L'évaluation de la pertinence : les critères par lesquels les algorithmes décident de ce qui est pertinent, et comment ces critères nous sont cachés, et comment ils agissent sur les choix concernant les connaissances correctes et légitimes
  4. La promesse d'objectivité des algorithmes : la façon dont les caractéristiques techniques des algorithmes sont placées comme un gage d'impartialité, et comment cette affirmation est défendue face à la contradiction
  5. L'intrication avec la pratique : comment les utilisateurs réarrangent leurs pratiques en fonction des algorithmes dont elles dépendent et comment ils peuvent transformer les algorithmes en terrain de contestation politique, parfois même pour interroger la politique de l'algorithme lui-même
  6. La production de publics par le calcul : comment la présentation algorithmique des publics à eux-mêmes construit la compréhension qu'ils ont d'eux-mêmes, et qui est le mieux placé pour profiter de cette connaissance

L'auteur développe chacune de ces dimensions en les illustrant par des exemples et en rappelant les débats auxquels elles renvoient. On peut lui reprocher de rester en retrait, n'amenant pas de données ou d'analyses inédites, mais son essai a le mérite de proposer un canevas précis pour avancer. Il est plus que temps, en effet, que ces questions soient posées et que l'on sorte des deux ornières opposées de la neutralité ou l'objectivité des calculs d'un côté et de la manipulation ou les stratégies perverses de l'autre. Le programme proposé par Tarleton Gillepsie est autant un programme à grande échelle pour les chercheurs en SHS qu'une feuille de route pour un organisme public de régulation.

Cerise sur le gâteau : un tel programme nous permettrait peut-être aussi de sortir des polémiques convenues autour du droit d'auteur en comprenant plus lucidement le rôle éditorial du web et donc en repérant et mesurant plus lucidement les responsabilités des uns et des autres.

29-11-2012

Hubert Guillaud fait ce jour un cr beaucoup plus détaillé que le mien dans InternetActu.

Voir aussi : Algorithms are Decision Systems de T Striphas.

Le débat parait donc lancé. Il serait utile de ne pas le confiner juste à notre époque contemporaine. On pourrait aussi s'inspirer de l'important travail d'A. Desrosières sur l'histoire des statistiques qui préfigure celle des algorithmes :

''La constitution d’un espace rendant possible le débat contradictoire sur les options de la cité suppose l’existence d’un minimum d’éléments de référence communs aux divers acteurs : langage pour mettre en forme les choses, pour dire les fins et les moyens de l’action, pour en discuter les résultats. Ce langage ne préexiste pas au débat : il est négocié, stabilisé, inscrit, puis déformé et défait peu à peu, au fil des interactions propres à un espace et une période historique données.''

Alain Desrosières, La politique des grands nombres : histoire de la raison statistique. Paris : La Découverte, 2000,

J'avais proposé quelques pistes pour l'INRIA à l'occasion de son école sur le Web de données.

vendredi 14 septembre 2012

Nouveau régime de vérité, démonstration par l'absurde

Décidément Wikipédia est un excellent marqueur des changements documentaires en cours et de leurs limites. La récente histoire autour de Philippe Roth, un des plus célèbres écrivains nord-américains, est pleine d'enseignements. C'est une sorte de démonstration par l'absurde, comme il en existe en mathématique.

On trouvera un résumé de l'histoire ici. Ph. Roth contestait la relation dans Wikipédia de l'inspiration du personnage principal d'un de ses romans, présentée par un critique et reprise dans Wikipédia. Pour cela, il a envoyé une lettre ouverte sur le New Yorker pour demander à l'encyclopédie d'effectuer la correction après que son agent ait échoué à corriger en son nom directement la rubrique, faute de pouvoir présenter de références crédibles. Aujourd'hui la rubrique est corrigée.

L'histoire de Philippe Roth s'énervant à corriger une erreur sur l'interprétation de son œuvre ne serait qu'une anecdote, parmi les très nombreuses discussions internes et externes autour des pages de l'encyclopédie, si le statut d'auteur du plaignant, le moyen employé et la réaction des wikipédiens n'éclairaient de façon éclatante ces changements en cours dans les régimes de vérité et leurs limites que j'ai déjà eu l'occasion souvent de pointer sur ce blogue ou ailleurs.

L'effacement de l'auteur

Le premier point à noter est que l'information produite par l'auteur sur son inspiration était jusqu'à présent inédite (ou presque, il en avait fait allusion dans une interview), contrairement à la spéculation du critique citée dans Wikipédia qui avait été publiée, elle, dans un journal reconnu et reprise ensuite par d'autres. Dès lors, la demande de correction n'a pas été jugée digne de foi selon les règles même de Wikipédia, car non référencée. Et les corrections du biographe autoproclamé (sic) de l'auteur ont été effacées par des éditeurs chevronnés de l'encyclopédie, qui ont au contraire surligné la version jugée erronée par l'auteur de la nouvelle (voir la discussion ici).

Aujourd'hui la rubrique de Wikipédia est corrigée sur la foi de la lettre publiée par Ph. Roth. Toujours selon les règles de Wikipédia, la précision sur l'inspiration est maintenant "sourcée", c'est à dire qu'elle peut-être validée par une référence publiée. Les règles de rédaction de Wikipédia sont très claires à ce sujet : Les articles de Wikipédia devraient reposer principalement sur des sources secondaires fiables. Toute utilisation de sources primaires devrait s'appuyer sur des sources secondaires, et ne pas être une sélection, analyse, synthèse ou interprétation inédite réalisée par un contributeur de Wikipédia. Les sources primaires seules sont acceptées si elles consistent en des assertions factuelles et non sujettes à interprétation ou polémique.

La lettre ouverte de Ph. Roth n'est pas un simple accès d'humeur. Il s'agit d'un long texte, précisant dans le détail les tenants et les aboutissants de son inspiration et pourquoi l'interprétation précédente était erronée. L'ampleur de l'argumentaire montre que Ph. Roth a pris très au sérieux la documentation de son œuvre, au-delà de l'agacement qu'il laisse poindre.

Mais, comme le fait remarquer un Wikipédien dans la discussion autour de l'article incriminé (trad JMS) : Le plus génant pour moi est d'avoir considéré que Roth n'était pas une source valide. Et oui, je comprends l'aspect préventif de la différence entre des sources primaires et secondaires. Mais seul Roth peut parler de ses propres motivations. Pour n'importe qui d'autres, cela relève d'une simple spéculation. Et la spéculation ne devrait pas faire partie d'un bon article d'encyclopédie.

Il s'agit ainsi bien d'une démonstration par l'absurde du nouveau régime de vérité représenté par Wikipédia. Il est, en effet, absurde de considérer qu'un auteur ne soit pas la meilleure source pour éclairer son inspiration, mais, en même temps, la règle défendue par l'encyclopédie est sa garantie contre des intrusions intempestives non contrôlables. On ne saurait mieux illustrer que Wikipédia, et sans doute le web en général, se trouve à la fois dans la continuité d'une tradition documentaire et en même temps peut-être dans une bascule de notre régime de vérité. Son fonctionnement repose sur l'accessibilité des documents et leur valeur n'est construite que par leur inter-relation. J'ai déjà montré combien cette logique était à la base même du développement du web et combien Wikipédia y jouait un rôle décisif (par ex ici).

Cette logique entre en contradiction avec la polarisation sur l'auteur et sur la création des deux derniers siècles, y compris dans la science. Elle retourne notre relation au savoir qui devient le résultat d'une interrogation contrôlée d'un patrimoine documentaire accumulé et donc seulement de façon indirecte le résultat de la découverte d'un travail créatif, d'un inédit, d'une invention. La création n'est plus au centre, elle fait place au partage. En réalité, création et partage sont depuis toujours les deux piliers de l'avancement du savoir dans une société. Mais depuis au moins deux siècles l'accent a été mis dans les sociétés occidentales sur la création qui a été particulièrement valorisée. Le web insiste à l'inverse sur le partage, jusqu'à, comme le montre l'histoire de Ph. Roth, contester la parole du créateur.

Ainsi on voit grâce à l'absurdité de cette situation que le dialogue de sourds entre les défenseurs du droit d'auteur et les tenants du partage a des racines plus profondes que la simple dénonciation de logiques marchandes, rentes indues ou prédations illégitimes. Même si les appétits marchands brouillent les pistes, derrière ces incompréhensions se cache aussi, et peut-être surtout, une transformation de notre rapport au document, considéré comme soit comme le résultat d'une création, soit comme un patrimoine.

Les limites de l'attention

La seconde leçon de cette petite histoire est la question, souvent mal comprise, de l'économie de l'attention, et ici sa fragilité. La garantie de la qualité de Wikipédia est dans la sagesse des foules, ou plutôt de la multitude pour reprendre un mot à la mode, puisque sa correction est laissée sous la surveillance de chacun. Mais on oublie souvent que l'économie de la multitude repose sur l'attention. Pour Wikipédia, la garantie de qualité dépend du bon fonctionnement de la chaîne attentionnelle des différents acteurs concernés par la production de l'encyclopédie. Et l'encyclopédie a mis en place des mécanismes efficaces pour pallier cette difficulté, mais au risque de réduire "la multitude" à un petit nombre de contributeurs investis d'un pouvoir éditorial radical, comme nous allons le voir.

Remarquons, d'abord, que l'allusion, maintenant contestée par Ph. Roth, à l'inspiration de la nouvelle ne date pas d'hier sur Wikipédia. Elle était présente depuis longtemps, précisément depuis octobre 2005 (ici) et n'a été relevée par l'auteur qu'il y a quelques jours. J'ignore comment son attention a été attirée, mais on peut penser que le rôle de plus en plus important joué par Wikipédia dans le monde scolaire a pu jouer dans sa volonté de correction de la rubrique.

Plus révélateur, est le scénario de la correction manquée :

  • Le 20 août la première correction est faite par un internaute avec ce commentaire : I have removed the reference to Anatole Broyard, at Philip Roth's insistence. I am his biographer (j'ai retiré la référence à Anatole Broyard sur l'insistance de Philip Roth, je suis son biographe).
  • Une minute après, un éditeur de wkp remet le texte initial avec pour commentaire Can you verify that? (Pouvez-vous le vérifier ?).
  • Vingt minutes plus tard. La correction est renouvelée avec ce nouveau commentaire : Once again, I removed the reference to Anatole Broyard. It is wholly inaccurate and therefore pointless. I am Roth's biographer, and have removed it at his request. (Une nouvelle fois, j'ai enlevé la référence à Anatole Broyard. C'est tout à fait inexact et donc sans objet. Je suis le biographe de Roth et j'ai fait cette correction à sa demande).
  • Six minutes après, un autre éditeur de wkp remet de nouveau le texte initial et ajoute de nouveaux détails pour confirmer l'inspiration de la nouvelle par le personnage d'A. Broyard. Cet éditeur prendra deux heures de son temps pour cette rédaction. Comme l'indique le wikipédien qui relate l'histoire : cet éditeur a du se prendre pour un vrai détective !

Le timing est plus intéressant encore que le contenu de l'échange. Les éditeurs de Wikipédia sont intervenus en un temps record, alertés sans doute par les robots qui repèrent les corrections. Cette précipitation, doublée d'une référence brutale à des règles inconnues de l'internaute néophyte, décourage l'argumentation. Face à une telle surveillance et radicalité, il est peu probable que quiconque ait le goût d'insister.

Mais Ph. Roth a de la suite dans les idées. Il est assez logique alors que, constatant l'échec de son autorité d'auteur (confirmé dit-il par un échange de courrier) non reconnue par l'encyclopédie, il ait préféré changer de terrain et choisir un lieu où justement sa qualité n'était pas contestée, une revue traditionnelle, pour faire valoir son point de vue.

Cette histoire souligne doublement les limites de l'économie de l'attention sur le web. La vulgate commune de la sagesse des foules voudrait qu'une sorte de main invisible de l'attention de la multitude régule la valeur sur le web. Les éléments les plus pertinents seraient mis en avant par le jeu des interactions des internautes.

On constate d'abord que Wikipédia a mis en place une organisation qui, de fait, courcircuite cette logique grâce à un petit nombre d'éditeurs bénévoles appuyés par des robots. Ensuite, l'encyclopédie évite les pièges de l'auto-édition ou des stratégies de référencement des activistes du web en s'appuyant sur le modèle éditorial traditionnel pour ses références.

Si l'on ajoute que Wikipédia devient, lui-même, une référence sur le web et ailleurs, et même pour la construction du web de données par DBpédia, l'histoire de Philippe Roth n'a pas fini de nous faire réfléchir.

16-09-2012

Pour un procès à charge contre Ph Roth par un wikipédien :

« Philip Roth and Wikipedia, Non-Commercial Use », 15 sept 2012 .

La charge montre surtout, à mon avis, l'écart entre les deux mondes, aussi radicaux et sûrs de leur bon droit l'un que l'autre.

vendredi 24 août 2012

Communautés privées et tragédie des communs du savoir

Voici une édifiante présentation du travail des communautés privées sur le web :

Sonntag, Benjamin. « Communauté privées : Légalisez les partages hors marché ! » Benji’s blog !, août 23, 2012.

En accord avec son titre, l'auteur conclut son billet par un appel à la légalisation des partages hors-marché. C'est l'objectif du billet : plaider pour le partage. Mais si la démonstration de la valeur ajoutée des échanges entre ces passionnés est très convaincante, elle montre a contrario, me semble-t-il, combien cet équilibre est fragile et complexe. Il reste à mener un travail de réflexion beaucoup plus ample et approfondi que les habituels oukases pour ou contre Hadopi pour construire une régulation juridique et économique sérieuse et efficace. Il ne suffit pas, loin de là, de légaliser les partages hors-marché.

Les règles mises en place par les membres des communautés privées sur le web ressemblent de façon frappante à celles étudiées par Elinor Ostrom dans les sociétés primitives pour éviter la "tragédie des biens communs". La tragédie en question est celle de la surexploitation du bien commun au profit de quelques intérêts particuliers, l'exemple canonique étant celui du paturage partagé. Pour préserver le bien commun, les communautés mettent en place des règles institutionnelles. Dans nombre de cas, la tragédie a bien lieu et la propriété privée s'impose comme la loi "naturelle", mais si les règles sont convenablement posées et défendues, alors le bien commun peut être préservé, pour la satisfaction de l'ensemble des membres de la communauté.

E. Ostrom a cherché a élargir sa réflexion aux biens du savoir en les définissant comme non-rivaux. Cette idée est maintenant largement répandue sur le net. C'est devenu un lieu commun : la gratuité s'impose car les biens informationnels numériques sont infiniement partageables. Mais j'ai eu plusieurs fois l'occasion de dire (ici) que cette idée était inexacte, ou plutôt seulement partiellement exacte, car elle ne tient pas compte des différentes dimensions du document. Si le contenu est non-rival, l'attention l'est de moins en moins. Dès lors, on ne peut réellement parler de bien commun du savoir que dans un environnement clos, c'est à dire protégé de l'économie de l'attention. Sinon, pour reprendre le vocabulaire du débat traditionnel des économistes, on tombe dans une tragédie des communs du savoir, et immanquablement la propriété intellectuelle devient la référence "naturelle".

Déjà, comme le souligne l'auteur du billet au sujet des communautés plus ouvertes : Ces communautés sont souvent moins intéressantes car leur côté public fait que les forums sont moins remplis de passionnés et les règles de partage plus difficiles à faire jouer, puisqu’il est toujours possible de se créer un nouveau compte si besoin. En réalité plus une communauté est ouverte, plus l'économie de l'attention y joue un rôle important et plus le risque de tomber dans une régulation marchande est important, sauf encadrement strict par la loi.

L'exemple des communautés privées sur le web illustre la parenté entre les communautés du web et les sociétés étudiées par E. Ostrom. L'auteur du billet cite sept règles qui sont autant de protection et que je traduis ainsi : fonctionnement par parrainage, coresponsabilité "familiale", non publicisation de l'accès, réciprocité dans le partage, discussions communes, financement non-commercial, outils spécifiques (logiciels maisons). Ces règles sont le prix à payer pour la qualité des échanges et de l'accumulation d'un patrimoine commun. Et le résultat est concluant; Voici quelques uns des avantages, extraits des différents exemples cités :

  • La qualité des sorties : format sans perte, jaquette, fichiers avec des métadonnées propres, etc. 80% des requêtes ont été trouvées par l’un des utilisateurs du site.
  • Uniquement des films n’ayant pas fait un carton ces dernières années, et conséquence de cela, on y trouvera surtout des fans hyper pointus de cinéma.
  • Chaque film peut être partagé en différentes qualités (standard, hd, blueray ...). On y trouve de très nombreuses informations sur chaque film : acteurs, réalisateur, scénariste etc.
  • Des ebooks, films, logiciels, centrés sur les thèmes de l’apprentissage : formation aux langues, documentation de concours pour obtenir une certification, cours en tout genre, livres de culture générale etc. Cette communauté est, de ce fait, plus petite, mais les membres les plus actifs sont totalement experts de leur champ de compétence, des forums impressionants !

Il semble que le nombre de ces communautés autogérées soit très important. On y trouve les qualités des "infractructures épistémiques" indispensables à toute économie du savoir : conservation, confrontation et partage des documents. Dans l'histoire, les bibliothèques se sont construites sur ces éléments et nombre de bibliothèques sont issues d'initiatives de collectes privées, léguées ensuite à la collectivité.

L'auteur du billet conclut : Enfin, ne serait-ce pas tellement mieux si ces communautés pouvaient exister de manière ouvertes grâce à une légalisation des échanges hors marché, permettant à ces passionnés de pouvoir enfin partager leurs coups de cœur légalement, sans être obligés de se cacher de majors censés aider les artistes à trouver leur public... Sans doute, mais les règles des communautés autogérées ne sont pas seulement destinées à se cacher du gendarme, elles sont aussi la garantie du fonctionnement collectif. La légalisation du partage suppose un encadrement strict pour ne pas tomber dans la tragédie des communs de la surexploitation de l'économie de l'attention par quelques uns et par voie de conséquence d'un retour au régime de la propriété intellectuelle.Les internautes sont-ils prêts à les rendre plus officielles ? A lire les débats actuels, on peut en douter.

La tragédie est sans doute proche sinon déjà en route. On peut analyser de cette façon la (més)aventure de Megaupload qui cherchait à tirer profit de l'économie de l'attention, ou de façon plus insidieuse mais plus fondamentale l'exploitation commerciale de nos traces par des firmes comme Google ou Facebook.

jeudi 23 août 2012

Vu, lu, su et UX

Tout comme j'avais été interpelé par cette affirmation de la designer Jannet Murray (ici) :

J'ai deux éclairages sur ce qu'est un média que je peux présenter brièvement ici : le premier est que tout média est composé de trois parties : l'inscription, la transmission et la représentation ; le second est que le paradigme le plus productif pour le designer pour penser un média est, de mon point de vue, celui de l'attention captée (focused attention).

Je retrouve dans cette lumineuse présentation de l'architecture de l'information de Matthieu Mingasson à ParisWeb 2010 (repéré grâce à F. Cavazza) un schéma familier.

M._Mingasson-ParisWeb-2010_2_.jpg

En effet, on y retrouve les éléments de la théorie du document (présentation courte, medium, longue) : la forme (vu, design), le texte ou le fond (lu, contenu) et le medium ou la fonction (su, technologie). Nuance tout de même, ici la triade est orientée vers un objectif qui unifie les trois facettes, tandis que dans la théorie du document, il s'agit d'un contrat de lecture. En réalité, la temporalité est simplement différente. La présentation de M. Mingasson présente une méthode pour construire un site web avec une finalité immédiate. Le contrat de lecture est bien alors entièrement compris dans l'objectif. Si l'on raisonne sur un temps plus long, le site devient alors un document dont l'objectif initial peut se diluer, mais son usage est toujours dépendant de la validité d'un contrat de lecture.

C'est aussi l'occasion pour moi de rappeler que les inscriptions pour le colloque international sur l'architecture de l'information sont ouvertes (ici)

mercredi 27 juin 2012

Master architecture de l'information : dernier jour

Actualisation : Les demandes d'inscription sont maintenant fermées pour la première session. Une seconde session se tiendra du 20 juillet 2012 au 22 août 2012 compris.

Attention !

Pour celles et ceux qui voudraient faire acte de candidature au master en architecture de l'information, premier master francophone de sa spécialité, c'est aujourd'hui le dernier jour pour remplir le formulaire de pre-inscription sur le site de l'ENS de Lyon. Toutes les informations sur les modalités de candidatures sont ici.

Une seconde session sera ouverte fin août en fonction des places encore disponibles. Cela reste donc aléatoire.

Master-AI-Plaquette1.jpg Master-AI-Plaquette2.jpg

- page 3 de 27 -