Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

Recherche - économie de l'attention

vendredi 04 janvier 2013

L'opérateur Free, la publicité et la neutralité du net

Petite réflexion en passant. La décision d'intégrer une application par défaut dans la dernière version de son modem une application visant à bloquer les publicités a suscité beaucoup de réactions indignées (voir ici).

Je relèverai un argument plutôt ironique. Certains accusent Free de violer la neutralité du réseau en coupant arbitrairement des contenus (la publicité). Mais on pourrait facilement retourner l'argument en se demandant si le principe même de la publicité, confisquant l'attention de l'internaute à son profit ne viole pas, à son tour, la neutralité du réseau.

Il n'est pas sûr que le modèle publicitaire perdure longtemps sur un web "neutre". Le principe y est en effet la liberté laissée à l'internaute de choisir ses applications et ce qu'il veut voir. Qui souhaite voir de la publicité ? C'est d'ailleurs l'analyse de ceux qui prônent une économie de l'intention.

Il est possible que Free dans son bras de fer avec Google, en faisant une large promotion aux logiciels ad-block ait ouvert une boite de Pandore. L'économie du web est encore loin d'avoir trouvé son équilibre.

6 janvier 2013

Pour bien comprendre les enjeux de l'affaire Free (hors question de la pub), Lire :

Lacroix, Dominique. « Jeux de coopération au bazar  ». Lois des réseaux, décembre 17, 2012.

Lacroix, Dominique. « Stratégies en haute mer  ». Lois des réseaux, décembre 17, 2012.

vendredi 14 décembre 2012

Economie du web (COOPT-Enssib-5)

Les cinquième et sixième séances de mon cours sur l'écosystème du document pour l'Enssib sont consacrées aux rapports de cet écosystème avec l'économie du web. En réalité le sujet dépasse largement ce que je peux présenter en si peu de temps, mon objectif est simplement d'attirer l'attention sur quelques mécanismes essentiels pour la compréhension des mouvements en cours dans la continuité des séances précédentes (1. Les sept piliers, 2. Modèles économiques, 3. Economie de la bibliothèque, 4. Etude de cas).

Pour ces dernières séances de ce cours ouvert, l’interaction en ligne passera par deux mécanismes : les commentaires sous ce billet sur les notions discutables ou à éclairer qui y sont présentées et, par la suite, des billets rédigés collaborativement par les étudiantes inscrites au cours.

Nous avons vu que le modèle du web se glissait entre celui de la bibliothèque et celui du flot. Du premier, il reprend la tradition de coopération et de mutualisation. Plusieurs penseurs ont proposé une interprétation de cette caractéristique du web, la présentant souvent comme inédite. J'en rappellerai brièvement quelques traits importants sous la dénomination économie de la contribution. Mais le web documentaire tire aussi la majorité de ses revenus de l'économie de l'attention en s'appuyant sur sa capacité à capter et fidéliser les internautes par un réseau électronique, tout comme l'ont fait avant lui la radio et la télévision (le flot).

En réalité, économie de la contribution et économie de l'attention s'articulent et conduisent à des stratégies industrielles fortes qui progressivement configurent le modèle du web en tentant d'en accaparer la valeur au profit de quelques firmes, non sans contradictions avec la nécessité d'ouverture du modèle.

Economie de la contribution...

Le terme économie de la contribution est dû à Bernard Stiegler (ici ou ). Il a, pour lui et ses collègues d'Ars industrialis, une acception très politique, marquée par une tradition française de philosophes engagés. Proche de ce courant, on peut aussi citer la notion de multitudes, proposée par Antonio Negri et reprise en France par Yann Moulier-Boutang (wkp) selon laquelle nous serions passés d'une organisation industrielle où les masses et les classes sociales fondaient la structure sociale à une organisation post-industrielle où la multiplication des consciences et actions individuelles serait le moteur du changement.

Je reprends ici le terme "économie de la contribution" d'une façon plus générique pour caractériser la pensée d'un mouvement plus large et ancien autour de l'économie des réseaux et de l'open source dont Yochaï Benkler est le représentant le plus célèbre suite à la publication de son livre :

Benkler, Yochai. La Richesse des réseaux. Marchés et libertés à l’heure du partage social. Presses Universitaires de Lyon, 2009 (première édition américaine 2006). (Introduction sur InternetActu)

Y. Benkler a résumé son analyse dans une intervention à TED en 2005 qu'il est indispensable de visionner (le texte de l'intervention est accessible en français sur le site).

Le tableau ci-dessous présente la clé de sa thèse :

Yochai-Benkler-TED.jpg

La colonne de gauche renvoie au raisonnement classique en économie depuis Ronald Coase (wkp) sur la nature de la firme. C'est lorsque les coûts de transaction augmentent qu'il devient avantageux de s'organiser pour produire en interne plutôt que d'acheter sur un marché les produits ou services, et donc le marché et la firme (ou l'entreprise) ne sont que deux manières complémentaires d'organiser les échanges économiques. L'originalité de Benkler (très largement en décalage par rapport à la pensée de Coase) est de tenter un raisonnement parallèle sur des transactions non-marchandes et l'économie sociale en montrant qu'avec le web il serait possible de coordonner des micro-actions non-marchandes à grande échelle.

ou économie de l'attention

Néanmoins cette vision généreuse de l'économie s'accompagne aussi dans notre domaine d'un déplacement des marchés, selon le principe vu dans les premières séances : plus l'offre documentaire s’agrandit, plus l'attention est sollicitée et devient un bien rare que l'on pourra revendre. Autrement dit, elle sous-estime l'importance du caractère multidimensionnel du document (vu, lu, su).

Un diaporama récent du cabinet de consultant Business Insider témoigne de l'importance du déplacement des marchés.

Future-of-Digital-Business-Insider-dec-2012.png

Pour vous faire mesurer ce phénomène à la fois sur le fond et par la pratique, voici un petit exercice.

Trouvez les diapositives qui vous permettront de répondre aux questions ci-dessous :

  1. Quelle proportion de la population de la planète est-elle connectée ? En quoi est-ce plus important qu'il n'y paraît ?
  2. Depuis quand les ventes de smartphones ont-elles dépassé celles des ordinateurs ?
  3. Quelle est la différence entre le marché américain et le marché chinois des smartphones ?
  4. Quels sont les principaux marchés médias pour la publicité ?
  5. Quelle a été l'évolution du marché publicitaire des journaux américains depuis les années 50 ?
  6. Pourquoi Facebook n'arrivera probablement pas à concurrencer Google sur la publicité en ligne ?
  7. Pourquoi le marché publicitaire sur le téléphone mobile est-il incertain ?
  8. Les usagers d'Androïd utilisent-ils les applications ?

Ces analyses sur les développements des marchés ne sont pas vraiment contradictoires avec l'économie de la contribution présentée plus haut, même si souvent ceux qui les portent paraissent s'opposer. En étant cynique on pourrait même dire que l'économie de la contribution joue le rôle que jouait l'économie de l'information auparavant : alimenter l'économie de l'attention, capter l'attention pour la vendre à des annonceurs intéressés. Mais à la différence de l'économie de l'attention précédente, dans l'économie de la contribution le lecteur est plus actif, tout comme le lecteur dans une bibliothèque est plus actif que le téléspectateur devant son poste de télévision. Ainsi, la captation de l'attention est plus efficace lorsque l'internaute est en train de chercher quelque chose puisque l'on pourra faire coïncider les annonces avec sa recherche (mots-clés de Google) que lorsqu'il échange avec ses amis, car les annonces viendront perturber la relation (difficultés de Facebook).

Stratégies industrielles

J'ai eu très souvent l'occasion de montrer que les principales firmes du web documentaire construisaient leur stratégie en privilégiant chaque fois une facette du document : la forme pour Apple, le texte pour Google et la relation pour Facebook.

On en trouvera un résumé sur cette vidéo, un développement dans la deuxième partie du chapitre 5 du livre Vu, lu, su. et une actualisation sur les billets de ce blog : Apple, Google, Facebook (lire au moins les deux derniers billets concernant chaque firme).

Questions d'actualité

Les prochains et derniers billets de ce cours seront rédigés par les étudiantes de l'Enssib autour de trois thèmes chauds de l'actualité de l'écosystème du document numériques :

  • La ville de Lyon a-t-elle eu raison de contractualiser avec Google ?
  • Google confisque-t-il la valeur créée par les journaux ?
  • Peut-on prêter des ebooks en bibliothèque ?

Vous pouvez les aider en suggérant références et réflexions en commentaire de ce billet.

vendredi 14 septembre 2012

Nouveau régime de vérité, démonstration par l'absurde

Décidément Wikipédia est un excellent marqueur des changements documentaires en cours et de leurs limites. La récente histoire autour de Philippe Roth, un des plus célèbres écrivains nord-américains, est pleine d'enseignements. C'est une sorte de démonstration par l'absurde, comme il en existe en mathématique.

On trouvera un résumé de l'histoire ici. Ph. Roth contestait la relation dans Wikipédia de l'inspiration du personnage principal d'un de ses romans, présentée par un critique et reprise dans Wikipédia. Pour cela, il a envoyé une lettre ouverte sur le New Yorker pour demander à l'encyclopédie d'effectuer la correction après que son agent ait échoué à corriger en son nom directement la rubrique, faute de pouvoir présenter de références crédibles. Aujourd'hui la rubrique est corrigée.

L'histoire de Philippe Roth s'énervant à corriger une erreur sur l'interprétation de son œuvre ne serait qu'une anecdote, parmi les très nombreuses discussions internes et externes autour des pages de l'encyclopédie, si le statut d'auteur du plaignant, le moyen employé et la réaction des wikipédiens n'éclairaient de façon éclatante ces changements en cours dans les régimes de vérité et leurs limites que j'ai déjà eu l'occasion souvent de pointer sur ce blogue ou ailleurs.

L'effacement de l'auteur

Le premier point à noter est que l'information produite par l'auteur sur son inspiration était jusqu'à présent inédite (ou presque, il en avait fait allusion dans une interview), contrairement à la spéculation du critique citée dans Wikipédia qui avait été publiée, elle, dans un journal reconnu et reprise ensuite par d'autres. Dès lors, la demande de correction n'a pas été jugée digne de foi selon les règles même de Wikipédia, car non référencée. Et les corrections du biographe autoproclamé (sic) de l'auteur ont été effacées par des éditeurs chevronnés de l'encyclopédie, qui ont au contraire surligné la version jugée erronée par l'auteur de la nouvelle (voir la discussion ici).

Aujourd'hui la rubrique de Wikipédia est corrigée sur la foi de la lettre publiée par Ph. Roth. Toujours selon les règles de Wikipédia, la précision sur l'inspiration est maintenant "sourcée", c'est à dire qu'elle peut-être validée par une référence publiée. Les règles de rédaction de Wikipédia sont très claires à ce sujet : Les articles de Wikipédia devraient reposer principalement sur des sources secondaires fiables. Toute utilisation de sources primaires devrait s'appuyer sur des sources secondaires, et ne pas être une sélection, analyse, synthèse ou interprétation inédite réalisée par un contributeur de Wikipédia. Les sources primaires seules sont acceptées si elles consistent en des assertions factuelles et non sujettes à interprétation ou polémique.

La lettre ouverte de Ph. Roth n'est pas un simple accès d'humeur. Il s'agit d'un long texte, précisant dans le détail les tenants et les aboutissants de son inspiration et pourquoi l'interprétation précédente était erronée. L'ampleur de l'argumentaire montre que Ph. Roth a pris très au sérieux la documentation de son œuvre, au-delà de l'agacement qu'il laisse poindre.

Mais, comme le fait remarquer un Wikipédien dans la discussion autour de l'article incriminé (trad JMS) : Le plus génant pour moi est d'avoir considéré que Roth n'était pas une source valide. Et oui, je comprends l'aspect préventif de la différence entre des sources primaires et secondaires. Mais seul Roth peut parler de ses propres motivations. Pour n'importe qui d'autres, cela relève d'une simple spéculation. Et la spéculation ne devrait pas faire partie d'un bon article d'encyclopédie.

Il s'agit ainsi bien d'une démonstration par l'absurde du nouveau régime de vérité représenté par Wikipédia. Il est, en effet, absurde de considérer qu'un auteur ne soit pas la meilleure source pour éclairer son inspiration, mais, en même temps, la règle défendue par l'encyclopédie est sa garantie contre des intrusions intempestives non contrôlables. On ne saurait mieux illustrer que Wikipédia, et sans doute le web en général, se trouve à la fois dans la continuité d'une tradition documentaire et en même temps peut-être dans une bascule de notre régime de vérité. Son fonctionnement repose sur l'accessibilité des documents et leur valeur n'est construite que par leur inter-relation. J'ai déjà montré combien cette logique était à la base même du développement du web et combien Wikipédia y jouait un rôle décisif (par ex ici).

Cette logique entre en contradiction avec la polarisation sur l'auteur et sur la création des deux derniers siècles, y compris dans la science. Elle retourne notre relation au savoir qui devient le résultat d'une interrogation contrôlée d'un patrimoine documentaire accumulé et donc seulement de façon indirecte le résultat de la découverte d'un travail créatif, d'un inédit, d'une invention. La création n'est plus au centre, elle fait place au partage. En réalité, création et partage sont depuis toujours les deux piliers de l'avancement du savoir dans une société. Mais depuis au moins deux siècles l'accent a été mis dans les sociétés occidentales sur la création qui a été particulièrement valorisée. Le web insiste à l'inverse sur le partage, jusqu'à, comme le montre l'histoire de Ph. Roth, contester la parole du créateur.

Ainsi on voit grâce à l'absurdité de cette situation que le dialogue de sourds entre les défenseurs du droit d'auteur et les tenants du partage a des racines plus profondes que la simple dénonciation de logiques marchandes, rentes indues ou prédations illégitimes. Même si les appétits marchands brouillent les pistes, derrière ces incompréhensions se cache aussi, et peut-être surtout, une transformation de notre rapport au document, considéré comme soit comme le résultat d'une création, soit comme un patrimoine.

Les limites de l'attention

La seconde leçon de cette petite histoire est la question, souvent mal comprise, de l'économie de l'attention, et ici sa fragilité. La garantie de la qualité de Wikipédia est dans la sagesse des foules, ou plutôt de la multitude pour reprendre un mot à la mode, puisque sa correction est laissée sous la surveillance de chacun. Mais on oublie souvent que l'économie de la multitude repose sur l'attention. Pour Wikipédia, la garantie de qualité dépend du bon fonctionnement de la chaîne attentionnelle des différents acteurs concernés par la production de l'encyclopédie. Et l'encyclopédie a mis en place des mécanismes efficaces pour pallier cette difficulté, mais au risque de réduire "la multitude" à un petit nombre de contributeurs investis d'un pouvoir éditorial radical, comme nous allons le voir.

Remarquons, d'abord, que l'allusion, maintenant contestée par Ph. Roth, à l'inspiration de la nouvelle ne date pas d'hier sur Wikipédia. Elle était présente depuis longtemps, précisément depuis octobre 2005 (ici) et n'a été relevée par l'auteur qu'il y a quelques jours. J'ignore comment son attention a été attirée, mais on peut penser que le rôle de plus en plus important joué par Wikipédia dans le monde scolaire a pu jouer dans sa volonté de correction de la rubrique.

Plus révélateur, est le scénario de la correction manquée :

  • Le 20 août la première correction est faite par un internaute avec ce commentaire : I have removed the reference to Anatole Broyard, at Philip Roth's insistence. I am his biographer (j'ai retiré la référence à Anatole Broyard sur l'insistance de Philip Roth, je suis son biographe).
  • Une minute après, un éditeur de wkp remet le texte initial avec pour commentaire Can you verify that? (Pouvez-vous le vérifier ?).
  • Vingt minutes plus tard. La correction est renouvelée avec ce nouveau commentaire : Once again, I removed the reference to Anatole Broyard. It is wholly inaccurate and therefore pointless. I am Roth's biographer, and have removed it at his request. (Une nouvelle fois, j'ai enlevé la référence à Anatole Broyard. C'est tout à fait inexact et donc sans objet. Je suis le biographe de Roth et j'ai fait cette correction à sa demande).
  • Six minutes après, un autre éditeur de wkp remet de nouveau le texte initial et ajoute de nouveaux détails pour confirmer l'inspiration de la nouvelle par le personnage d'A. Broyard. Cet éditeur prendra deux heures de son temps pour cette rédaction. Comme l'indique le wikipédien qui relate l'histoire : cet éditeur a du se prendre pour un vrai détective !

Le timing est plus intéressant encore que le contenu de l'échange. Les éditeurs de Wikipédia sont intervenus en un temps record, alertés sans doute par les robots qui repèrent les corrections. Cette précipitation, doublée d'une référence brutale à des règles inconnues de l'internaute néophyte, décourage l'argumentation. Face à une telle surveillance et radicalité, il est peu probable que quiconque ait le goût d'insister.

Mais Ph. Roth a de la suite dans les idées. Il est assez logique alors que, constatant l'échec de son autorité d'auteur (confirmé dit-il par un échange de courrier) non reconnue par l'encyclopédie, il ait préféré changer de terrain et choisir un lieu où justement sa qualité n'était pas contestée, une revue traditionnelle, pour faire valoir son point de vue.

Cette histoire souligne doublement les limites de l'économie de l'attention sur le web. La vulgate commune de la sagesse des foules voudrait qu'une sorte de main invisible de l'attention de la multitude régule la valeur sur le web. Les éléments les plus pertinents seraient mis en avant par le jeu des interactions des internautes.

On constate d'abord que Wikipédia a mis en place une organisation qui, de fait, courcircuite cette logique grâce à un petit nombre d'éditeurs bénévoles appuyés par des robots. Ensuite, l'encyclopédie évite les pièges de l'auto-édition ou des stratégies de référencement des activistes du web en s'appuyant sur le modèle éditorial traditionnel pour ses références.

Si l'on ajoute que Wikipédia devient, lui-même, une référence sur le web et ailleurs, et même pour la construction du web de données par DBpédia, l'histoire de Philippe Roth n'a pas fini de nous faire réfléchir.

16-09-2012

Pour un procès à charge contre Ph Roth par un wikipédien :

« Philip Roth and Wikipedia, Non-Commercial Use », 15 sept 2012 .

La charge montre surtout, à mon avis, l'écart entre les deux mondes, aussi radicaux et sûrs de leur bon droit l'un que l'autre.

vendredi 24 août 2012

Communautés privées et tragédie des communs du savoir

Voici une édifiante présentation du travail des communautés privées sur le web :

Sonntag, Benjamin. « Communauté privées : Légalisez les partages hors marché ! » Benji’s blog !, août 23, 2012.

En accord avec son titre, l'auteur conclut son billet par un appel à la légalisation des partages hors-marché. C'est l'objectif du billet : plaider pour le partage. Mais si la démonstration de la valeur ajoutée des échanges entre ces passionnés est très convaincante, elle montre a contrario, me semble-t-il, combien cet équilibre est fragile et complexe. Il reste à mener un travail de réflexion beaucoup plus ample et approfondi que les habituels oukases pour ou contre Hadopi pour construire une régulation juridique et économique sérieuse et efficace. Il ne suffit pas, loin de là, de légaliser les partages hors-marché.

Les règles mises en place par les membres des communautés privées sur le web ressemblent de façon frappante à celles étudiées par Elinor Ostrom dans les sociétés primitives pour éviter la "tragédie des biens communs". La tragédie en question est celle de la surexploitation du bien commun au profit de quelques intérêts particuliers, l'exemple canonique étant celui du paturage partagé. Pour préserver le bien commun, les communautés mettent en place des règles institutionnelles. Dans nombre de cas, la tragédie a bien lieu et la propriété privée s'impose comme la loi "naturelle", mais si les règles sont convenablement posées et défendues, alors le bien commun peut être préservé, pour la satisfaction de l'ensemble des membres de la communauté.

E. Ostrom a cherché a élargir sa réflexion aux biens du savoir en les définissant comme non-rivaux. Cette idée est maintenant largement répandue sur le net. C'est devenu un lieu commun : la gratuité s'impose car les biens informationnels numériques sont infiniement partageables. Mais j'ai eu plusieurs fois l'occasion de dire (ici) que cette idée était inexacte, ou plutôt seulement partiellement exacte, car elle ne tient pas compte des différentes dimensions du document. Si le contenu est non-rival, l'attention l'est de moins en moins. Dès lors, on ne peut réellement parler de bien commun du savoir que dans un environnement clos, c'est à dire protégé de l'économie de l'attention. Sinon, pour reprendre le vocabulaire du débat traditionnel des économistes, on tombe dans une tragédie des communs du savoir, et immanquablement la propriété intellectuelle devient la référence "naturelle".

Déjà, comme le souligne l'auteur du billet au sujet des communautés plus ouvertes : Ces communautés sont souvent moins intéressantes car leur côté public fait que les forums sont moins remplis de passionnés et les règles de partage plus difficiles à faire jouer, puisqu’il est toujours possible de se créer un nouveau compte si besoin. En réalité plus une communauté est ouverte, plus l'économie de l'attention y joue un rôle important et plus le risque de tomber dans une régulation marchande est important, sauf encadrement strict par la loi.

L'exemple des communautés privées sur le web illustre la parenté entre les communautés du web et les sociétés étudiées par E. Ostrom. L'auteur du billet cite sept règles qui sont autant de protection et que je traduis ainsi : fonctionnement par parrainage, coresponsabilité "familiale", non publicisation de l'accès, réciprocité dans le partage, discussions communes, financement non-commercial, outils spécifiques (logiciels maisons). Ces règles sont le prix à payer pour la qualité des échanges et de l'accumulation d'un patrimoine commun. Et le résultat est concluant; Voici quelques uns des avantages, extraits des différents exemples cités :

  • La qualité des sorties : format sans perte, jaquette, fichiers avec des métadonnées propres, etc. 80% des requêtes ont été trouvées par l’un des utilisateurs du site.
  • Uniquement des films n’ayant pas fait un carton ces dernières années, et conséquence de cela, on y trouvera surtout des fans hyper pointus de cinéma.
  • Chaque film peut être partagé en différentes qualités (standard, hd, blueray ...). On y trouve de très nombreuses informations sur chaque film : acteurs, réalisateur, scénariste etc.
  • Des ebooks, films, logiciels, centrés sur les thèmes de l’apprentissage : formation aux langues, documentation de concours pour obtenir une certification, cours en tout genre, livres de culture générale etc. Cette communauté est, de ce fait, plus petite, mais les membres les plus actifs sont totalement experts de leur champ de compétence, des forums impressionants !

Il semble que le nombre de ces communautés autogérées soit très important. On y trouve les qualités des "infractructures épistémiques" indispensables à toute économie du savoir : conservation, confrontation et partage des documents. Dans l'histoire, les bibliothèques se sont construites sur ces éléments et nombre de bibliothèques sont issues d'initiatives de collectes privées, léguées ensuite à la collectivité.

L'auteur du billet conclut : Enfin, ne serait-ce pas tellement mieux si ces communautés pouvaient exister de manière ouvertes grâce à une légalisation des échanges hors marché, permettant à ces passionnés de pouvoir enfin partager leurs coups de cœur légalement, sans être obligés de se cacher de majors censés aider les artistes à trouver leur public... Sans doute, mais les règles des communautés autogérées ne sont pas seulement destinées à se cacher du gendarme, elles sont aussi la garantie du fonctionnement collectif. La légalisation du partage suppose un encadrement strict pour ne pas tomber dans la tragédie des communs de la surexploitation de l'économie de l'attention par quelques uns et par voie de conséquence d'un retour au régime de la propriété intellectuelle.Les internautes sont-ils prêts à les rendre plus officielles ? A lire les débats actuels, on peut en douter.

La tragédie est sans doute proche sinon déjà en route. On peut analyser de cette façon la (més)aventure de Megaupload qui cherchait à tirer profit de l'économie de l'attention, ou de façon plus insidieuse mais plus fondamentale l'exploitation commerciale de nos traces par des firmes comme Google ou Facebook.

mercredi 06 juin 2012

Web de données, Google, Wikipédia, les liaisons dangereuses

Voici un nouveau billet pour montrer combien les avancées techniques et commerciales du web peuvent se lire au travers de la grille de la théorie du document et que celle-ci permet de souligner des impensés ou des non-dits. Cette fois je prendrai deux illustrations reliées : le web de données et la dernière annonce de Googlle, le Knowledge Graph.

Le web de données

Tim Berners-Lee dans une prestation, bien connue de la petite histoire du web, a prôné la mise à disposition libre des données, pour réaliser ce qu'il appelle le web de données, après avoir renoncé à l'appellation "web sémantique". Dans cette conférence de février 2009 à TED, je retiendrai pour mon propos le passage soulignant le rôle joué par Wikipédia (à 8mn 25s), et notamment cette diapositive.

TBL-WKP-TED-Fev-2009.jpg

L'image devrait éveiller quelques souvenirs aux bibliothécaires. Wikipédia, en effet, réalise une opération qui s'apparente au cataloguage, plaçant dans des champs des données descriptives du document principal pour construire une sorte de répertoire bibliographique, DBpédia, même si ici les champs sont moins formalisés que ceux des catalogueurs.

L'homologie est encore plus surprenante si l'on se souvient que P. Otlet, un des premiers théoriciens du document, avait lui-aussi proposé la réalisation d'une encyclopédie dans son rêve de cataloguer tous les documents du monde. On peut le vérifier, par exemple, sur cette image tirée de son livre testament (p.41) et bien connue des lecteurs de ce blogue :

Otlet-1934.jpg

Pourtant, il existe une différence radicale entre le projet de P. Otlet et celui de T. Berners-Lee. La documentarisation s'est déplacée. Pour le premier, l'enjeu est de récolter les documents pour les cataloguer, et l'encyclopédie n'est qu'un aboutissement, en réalité une utopie qui ne sera jamais vraiment opérationnelle. Pour le promoteur du web, cet objectif est atteint. En effet, les documents sont déjà en ligne, repérables par les moteurs de recherche, mis en place par la première étape du web. Mieux l'encyclopédie est aussi déjà là et s'enrichit dans une dynamique continue selon la logique de la seconde étape du web (Wikipédia est une figure emblématique du web 2.0).

L'enjeu est alors différent, conforme à l'évolution de la société - nous ne sommes plus à l'époque du triomphe de la science positive. Il s'agit de reconstruire des documents à partir des requètes des internautes en se servant comme ossature logique des données récoltées notamment dans l'encyclopédie et aussi dans d'autres bases coopératives comme Freebase. DBpédia est considérée par les chercheurs comme un noyau pour un web de données ouvertes. Tim O'Reilly, l'inventeur de l'expression Web 2.0 souligne pour sa part que Freebase constitue le pont entre l'intelligence collective issue de la base du web 2.0 et le monde plus structuré du web sémantique (ici trad JMS).

Nous sommes toujours dans une sorte de cataloguage, mais les métadonnées ne servent plus à retrouver un document, "libérées", rendues interopérables et traitables par les logiciels du web de données, elles se détachent de leur document d'origine pour se combiner et produire de nouveaux documents, nous dirons des néodocuments. A cet ensemble premier, peut alors se relier nombre de bases de toutes natures, libérées elles-aussi, mais ordonnées grâce à l'ossature initiale. Ci-dessous la version de sept 2011 du graphe ainsi constitué (voir ici pour naviguer dessus)

DBpedia-W3C-col-sept-2011.jpg

L'encyclopédie Wikipédia est un outil privilégié pour construire l'armature de ce nouvel ensemble car elle a vocation à être neutre et universelle. Tout se passe comme si les wikipédiens avaient catalogué les entrées de l'encyclopédie en ligne et que la mise en réseau de cette classification universelle pouvait autoriser la construction d'un nouveau monde documentaire, celui du néodocument servant sans doute moins à transmettre et prouver, comme son ancêtre, mais plus à échanger et convaincre dans une relation utilitariste.

Et en trichant un peu, on peut modifier et compléter alors le tableau de P. Otlet pour bien signifier la continuité historique de la logique documentaire du web, y compris pour ses applications les plus contemporaines. Peut-être que d'autres, plus doués que moi en graphisme, auront le plaisir de développer les pictogrammes...

Otlet-revisite.jpg

Le Knowledge Graph

Google a annoncé tout récemment l'intégration d'une dimension sémantique dans son moteur de recherche, baptisée Knowledge Graph (communiqué, pour une présentation rapide en fr voir Abondance, et une analyse voir Affordance). La firme fait ici un pas important vers le web de données.

Le principe du service est de proposer parallèlement aux réponses traditionnelles aux requêtes (liste de liens vers des documents pertinents récupérés par le PageRank), des informations construites à la volée donnant des éléments de contexte et, le cas échéant, la réponse elle-même. Google a indiqué qu'il avait soigneusement retravaillé son algorithme pour puiser des informations dans des bases de données comme Freebase ou Wikipedia afin de donner du contexte aux mots. (Les Echos).

Là encore, la continuité avec l'histoire documentaire est manifeste. Déjà comme l'indique Tim Berners-Lee lui-même, Google avait permis au premier web de devenir une bibliothèque : dès le développement du Web, ses détracteurs ont souligné qu’il ne pourrait jamais être une bibliothèque bien organisée, que sans base de données centrale et sans structure arborescente, on ne pourrait jamais être sûr de tout trouver. Ils avaient raison. Mais la puissance d’expression du système a mis à la disposition du public des quantités importantes d’informations et les moteurs de recherche (qui auraient paru tout à fait irréalisables il y a dix ans) permettent de trouver des ressources. (citation extraite de l'article qui lance le web sémantique, trad fr ici). Avec ce nouveau service, Google reconstruit à la volée un néodocument correspondant au contexte de la requête et l'affiche sur la page de réponse. Il participe ainsi directement à la suite de l'aventure, le web des données ou le web 3.

L'avenir nous dira quel sera l'intérêt et le succès de ces néodocuments, qui remplaceront sans doute quelques documents traditionnels et ouvriront peut-être aussi d'autres avenues. Mais avec l'arrivée de Google dans le paysage du web de données, il est déjà possible de pointer un non-dit de cette aventure. Pour cela l'analyse en trois dimensions du document (vu, lu, su) est éclairante. J'ai déjà eu l'occasion de dire que les trois étapes de l'histoire du web privilégiaient chaque fois une des dimensions : la forme, le repérage, le vu avec le premier web, celui du document ; le medium, la transmission, l'échange, le su avec le web 2.0, celui du partage ; le sens, le contenu, le lu avec le web de données, l'ex-web sémantique. Tim Berners-Lee et ses collègues du W3C se sont surtout intéressés aux webs 1 et 3, considérant le 2 comme simplement une extension naturelle du 1 et repoussant les questions sociales dans les dernières couches logicielles du ''cake''. Pourtant le carburant économique du web, nous le savons, est bien dans l'économie de l'attention, c'est-à-dire dans la deuxième dimension.

Déjà dans le premier web pris selon cette dimension, Google et Wikipédia n'étaient pas sans connivence (ici). On peut même prétendre que sans Google, Wikipédia n'aurait pas eu le même succès et que sans Wikipédia, Google n'aurait pas eu la même saveur. Mieux, la tentative de Google de construire sa propre encyclopédie a tourné court, comme si le succès de la coopération dans Wikipédia impliquait l'affichage du désintéressement. Les deux services sont alors complémentaires, fondant un écosystème au sens fort du terme basé sur l'économie de l'attention.

Il est un peu tôt pour savoir ce que donnera le nouveau service de Google en termes documentaires, mais on peut déjà avoir une petite idée de son impact sur l'économie de l'attention. Comme l'explique O. Andrieu sur ''Abondance'', Il semble déjà que l'impact sur le nombre de requêtes soit important. Il ajoute : Cela est logique dans le sens où le "Knowledge Graph" propose de nombreux liens concernant l'objet de la requête et de l'"entité nommée" détectée. D'ailleurs, cela pourrait clairement être à l'avantage de Google : l'internaute tape une requête sur la page d'accueil du moteur, obtient les résultats du Knowledge Graph, reclique sur les liens de recherche proposés, etc. Bref, autant de possibilité d'afficher des Adwords pour Google et autant de clics publicitaires potentiels !. De plus le processus tend à réduire l'impact des stratégies de référencement des sites au profit de l'achat de mots-clés, ce qui est doublement profitable pour Google. Inversement, il tend à faire monter dans les réponses les rubriques de Wikipédia...

Pour illustrer l'importance du changement, voici trois requêtes faites sur Google.com, telles qu'elles apparaissent en plein écran sur ma machine. Le néodocument généré automatiquement se trouve sur la droite. Le lecteur conclura de lui-même.

F-Hollande-Knoledge-Graph-06-06-2012.jpg

L-Page-Knowledge-Graph-06-06-2012.jpg

W-Disney-Knowledge-Graph-06-06-2012.jpg

29 juillet 2012

ITW d'Emily Moxley, responsable du Knowledge Graph chez Google :

« How Google Organizes the World: Q&A With the Manager of Knowledge Graph ». ReadWriteWeb, 26 juil 2012 .

Extraits (trad JMS) :

ReadWriteWeb: Quel est l'objectif de Google avec le Knowledge Graph ?

Emily Moxley : Il s'agit de cartographier le monde réel en quelque chose que les ordinateurs puissent comprendre. Cela consiste à prendre des objets du monde réel, à comprendre ce que sont ces choses et quelles sont les choses importantes à leur sujet, ainsi que leurs relations à d'autres choses. C'est la partie que je trouve la plus fascinante : Quelle est la relation entre toutes ces différentes choses ? (..)

RWW: Comment les choses sont ajoutées au Knowledge Graph ? Apprend-il de noueaux concepts des usagers ?

EM: Il est actualisé très activement par les employés de Google. Avant, Metaweb (JMS : qui a développé Freebase, rachetée par Google) était cette base d'entités et de faits et les employés de cette société utilisaient beaucoup leur intuition sur ce qui importait pour les usagers et sur quelle information aller chercher. Depuis qu'ils ont été rachetés par Google, Google dispose de tous ces usagers cherchant de l'information,(...) Google sait que les gens qui cherchent une chose en cherchent aussi d'autres. Ainsi on peut voir des relations intéressantes en regardant les sessions agrégées des usagers. Une des prochaines étapes est effectivement d'expliquer ces relations fortuites. Qu'est-ce qui est semblable à ce groupe d'acteurs ? Qu'est-ce qui explique dans ce film que les gens le recherche souvent avec ces cinq autres ? (..)

RWW: Est-ce que travailler avec des sources de données extérieures comme le CIA World Factbook ou Wikipedia, est plus compliqué que travailler avec les données de Freebase ?

EM: Il y a un vrai défi avec les sources de données externes, c'est la correspondance (reconciliation). Même en interne, nous venons d'acheter Metaweb il y a deux ans, et nous avions déjà une énorme quantité de données dans certains domaines, les données des livres et cartes locales sont les principaux. Ces deux étaient bien plus importants que Freebase. Ils disposaient de beaucoup plus d'entités et d'informations. Les faire correspondre à la nouvelle organisation des données fut un gros défi. (..) Ce n'est pas plus difficile avec des éléments extérieurs qu'internes.

RWW: Mais devez-vous corriger des choses ? Comment choisissez-vous si c'est plutôt le CIA World Factbook ou Google qui a raison ?

EM: Volontairement, nous essayons de nous en tenir à des choses définitivement vraies - factuelles - pas des choses sujètes à spéculation ou opinion, et nous faisons des erreurs du côté des faits. Aussi si cela est sujet de controverse, nous pourrions décider de ne pas le montrer (dans la Knowledge box). (...)

Avec Knowledge Graph l'objectif est différent (de la recherche classique). Il s'agit d'obtenir une information le plus rapidement possible, mais aussi de vous donner des informations que vous ne saviez même pas que vous recherchiez. (...)

9 août 2012

La présentation officielle en vidéo du KG. Cela va très vite, la recherche par image a été intégrée.

30 août 2012

Il semble que les infos de profil de Google + soient intégrées maintenant :

- page 2 de 15 -