Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

Recherche - écosystème

vendredi 14 décembre 2012

Economie du web (COOPT-Enssib-5)

Les cinquième et sixième séances de mon cours sur l'écosystème du document pour l'Enssib sont consacrées aux rapports de cet écosystème avec l'économie du web. En réalité le sujet dépasse largement ce que je peux présenter en si peu de temps, mon objectif est simplement d'attirer l'attention sur quelques mécanismes essentiels pour la compréhension des mouvements en cours dans la continuité des séances précédentes (1. Les sept piliers, 2. Modèles économiques, 3. Economie de la bibliothèque, 4. Etude de cas).

Pour ces dernières séances de ce cours ouvert, l’interaction en ligne passera par deux mécanismes : les commentaires sous ce billet sur les notions discutables ou à éclairer qui y sont présentées et, par la suite, des billets rédigés collaborativement par les étudiantes inscrites au cours.

Nous avons vu que le modèle du web se glissait entre celui de la bibliothèque et celui du flot. Du premier, il reprend la tradition de coopération et de mutualisation. Plusieurs penseurs ont proposé une interprétation de cette caractéristique du web, la présentant souvent comme inédite. J'en rappellerai brièvement quelques traits importants sous la dénomination économie de la contribution. Mais le web documentaire tire aussi la majorité de ses revenus de l'économie de l'attention en s'appuyant sur sa capacité à capter et fidéliser les internautes par un réseau électronique, tout comme l'ont fait avant lui la radio et la télévision (le flot).

En réalité, économie de la contribution et économie de l'attention s'articulent et conduisent à des stratégies industrielles fortes qui progressivement configurent le modèle du web en tentant d'en accaparer la valeur au profit de quelques firmes, non sans contradictions avec la nécessité d'ouverture du modèle.

Economie de la contribution...

Le terme économie de la contribution est dû à Bernard Stiegler (ici ou ). Il a, pour lui et ses collègues d'Ars industrialis, une acception très politique, marquée par une tradition française de philosophes engagés. Proche de ce courant, on peut aussi citer la notion de multitudes, proposée par Antonio Negri et reprise en France par Yann Moulier-Boutang (wkp) selon laquelle nous serions passés d'une organisation industrielle où les masses et les classes sociales fondaient la structure sociale à une organisation post-industrielle où la multiplication des consciences et actions individuelles serait le moteur du changement.

Je reprends ici le terme "économie de la contribution" d'une façon plus générique pour caractériser la pensée d'un mouvement plus large et ancien autour de l'économie des réseaux et de l'open source dont Yochaï Benkler est le représentant le plus célèbre suite à la publication de son livre :

Benkler, Yochai. La Richesse des réseaux. Marchés et libertés à l’heure du partage social. Presses Universitaires de Lyon, 2009 (première édition américaine 2006). (Introduction sur InternetActu)

Y. Benkler a résumé son analyse dans une intervention à TED en 2005 qu'il est indispensable de visionner (le texte de l'intervention est accessible en français sur le site).

Le tableau ci-dessous présente la clé de sa thèse :

Yochai-Benkler-TED.jpg

La colonne de gauche renvoie au raisonnement classique en économie depuis Ronald Coase (wkp) sur la nature de la firme. C'est lorsque les coûts de transaction augmentent qu'il devient avantageux de s'organiser pour produire en interne plutôt que d'acheter sur un marché les produits ou services, et donc le marché et la firme (ou l'entreprise) ne sont que deux manières complémentaires d'organiser les échanges économiques. L'originalité de Benkler (très largement en décalage par rapport à la pensée de Coase) est de tenter un raisonnement parallèle sur des transactions non-marchandes et l'économie sociale en montrant qu'avec le web il serait possible de coordonner des micro-actions non-marchandes à grande échelle.

ou économie de l'attention

Néanmoins cette vision généreuse de l'économie s'accompagne aussi dans notre domaine d'un déplacement des marchés, selon le principe vu dans les premières séances : plus l'offre documentaire s’agrandit, plus l'attention est sollicitée et devient un bien rare que l'on pourra revendre. Autrement dit, elle sous-estime l'importance du caractère multidimensionnel du document (vu, lu, su).

Un diaporama récent du cabinet de consultant Business Insider témoigne de l'importance du déplacement des marchés.

Future-of-Digital-Business-Insider-dec-2012.png

Pour vous faire mesurer ce phénomène à la fois sur le fond et par la pratique, voici un petit exercice.

Trouvez les diapositives qui vous permettront de répondre aux questions ci-dessous :

  1. Quelle proportion de la population de la planète est-elle connectée ? En quoi est-ce plus important qu'il n'y paraît ?
  2. Depuis quand les ventes de smartphones ont-elles dépassé celles des ordinateurs ?
  3. Quelle est la différence entre le marché américain et le marché chinois des smartphones ?
  4. Quels sont les principaux marchés médias pour la publicité ?
  5. Quelle a été l'évolution du marché publicitaire des journaux américains depuis les années 50 ?
  6. Pourquoi Facebook n'arrivera probablement pas à concurrencer Google sur la publicité en ligne ?
  7. Pourquoi le marché publicitaire sur le téléphone mobile est-il incertain ?
  8. Les usagers d'Androïd utilisent-ils les applications ?

Ces analyses sur les développements des marchés ne sont pas vraiment contradictoires avec l'économie de la contribution présentée plus haut, même si souvent ceux qui les portent paraissent s'opposer. En étant cynique on pourrait même dire que l'économie de la contribution joue le rôle que jouait l'économie de l'information auparavant : alimenter l'économie de l'attention, capter l'attention pour la vendre à des annonceurs intéressés. Mais à la différence de l'économie de l'attention précédente, dans l'économie de la contribution le lecteur est plus actif, tout comme le lecteur dans une bibliothèque est plus actif que le téléspectateur devant son poste de télévision. Ainsi, la captation de l'attention est plus efficace lorsque l'internaute est en train de chercher quelque chose puisque l'on pourra faire coïncider les annonces avec sa recherche (mots-clés de Google) que lorsqu'il échange avec ses amis, car les annonces viendront perturber la relation (difficultés de Facebook).

Stratégies industrielles

J'ai eu très souvent l'occasion de montrer que les principales firmes du web documentaire construisaient leur stratégie en privilégiant chaque fois une facette du document : la forme pour Apple, le texte pour Google et la relation pour Facebook.

On en trouvera un résumé sur cette vidéo, un développement dans la deuxième partie du chapitre 5 du livre Vu, lu, su. et une actualisation sur les billets de ce blog : Apple, Google, Facebook (lire au moins les deux derniers billets concernant chaque firme).

Questions d'actualité

Les prochains et derniers billets de ce cours seront rédigés par les étudiantes de l'Enssib autour de trois thèmes chauds de l'actualité de l'écosystème du document numériques :

  • La ville de Lyon a-t-elle eu raison de contractualiser avec Google ?
  • Google confisque-t-il la valeur créée par les journaux ?
  • Peut-on prêter des ebooks en bibliothèque ?

Vous pouvez les aider en suggérant références et réflexions en commentaire de ce billet.

mercredi 28 novembre 2012

De la pertinence des algorithmes (T. Gillepsie)

En écho aux interventions de D. Cardon et D. Kaplan au colloque archinfo et au webinaire Pédauque sur l'importance d'analyser de l'intérieur les conséquences de l'algorithme de recherche de Google, voici un article de Tarleton Gillepsie qui pose clairement la question du rôle éditorial des algorithmes et de la nécessité de mieux en comprendre les conséquences :

Gillespie, Tarleton. “The Relevance of Algorithms". forthcoming, in Media Technologies, ed. Tarleton Gillespie, Pablo Boczkowski, and Kirsten Foot. Cambridge, MA: MIT Press.

Extraits (trad. JMS) :

Les algorithmes jouent un rôle croissant dans la sélection des informations les plus pertinentes pour nous, devenant un élément crucial de notre participation à la vie publique. Les moteurs de recherche nous aident à naviguer dans les énormes bases de données d'information ou sur l'ensemble du web. Les algorithmes de recommandation cartographient nos préférences par rapport aux autres, suggérant de nouvelles informations ou des informations oubliées parmi les morceaux de culture qui comptent pour nous. Les algorithmes gèrent nos interactions sur les sites de réseaux sociaux, mettant en avant des informations d'un ami et excluant celles d'un autre. Les algorithmes construisent ce qui est "chaud" ou "tendance" ou "le plus discuté", écrémant le bavardage apparemment sans fin qui nous est présenté. Ensemble les algorithmes ne font pas que nous aider à trouver l'information, ils donnent le moyen de savoir ce qu'il y a à savoir et comment le savoir, de participer au débat social et politique, et de nous familiariser avec la chose publique à laquelle nous participons. Ils sont aujourd'hui la clé logique qui gouverne le flux d'informations dont nous dépendons, détenant "le pouvoir d'activer et d'affecter du sens, gérant la façon dont sont perçues les informations par les utilisateurs, la "distribution du sensible" (Langlois 2012)."

(...)

Nous avons besoin d'interroger les algorithmes comme un élément clé de notre écosystème informationnel (Anderson 2011) et des formes culturelles émergeant dans leur ombre (Striphas 2011), avec une attention particulière sur où et de quelle manière ils peuvent avoir des ramifications politiques. Cet essai est une carte conceptuelle pour y arriver. Je soulignerai six dimensions de la pertinence des algorithmes publics (cad ayant des conséquences publiques) qui ont un poids politique :

  1. Les schémas d'inclusion : les choix en amont qui mettent quoi à la première place dans un index, qui excluent quoi ? Et comment les données rendent l'algorithme opérationnel
  2. Les cycles d'anticipation : les implications des fournisseurs d'algorithmes pour tenter de bien connaître et prévoir les utilisateurs et comment leurs conclusions importent
  3. L'évaluation de la pertinence : les critères par lesquels les algorithmes décident de ce qui est pertinent, et comment ces critères nous sont cachés, et comment ils agissent sur les choix concernant les connaissances correctes et légitimes
  4. La promesse d'objectivité des algorithmes : la façon dont les caractéristiques techniques des algorithmes sont placées comme un gage d'impartialité, et comment cette affirmation est défendue face à la contradiction
  5. L'intrication avec la pratique : comment les utilisateurs réarrangent leurs pratiques en fonction des algorithmes dont elles dépendent et comment ils peuvent transformer les algorithmes en terrain de contestation politique, parfois même pour interroger la politique de l'algorithme lui-même
  6. La production de publics par le calcul : comment la présentation algorithmique des publics à eux-mêmes construit la compréhension qu'ils ont d'eux-mêmes, et qui est le mieux placé pour profiter de cette connaissance

L'auteur développe chacune de ces dimensions en les illustrant par des exemples et en rappelant les débats auxquels elles renvoient. On peut lui reprocher de rester en retrait, n'amenant pas de données ou d'analyses inédites, mais son essai a le mérite de proposer un canevas précis pour avancer. Il est plus que temps, en effet, que ces questions soient posées et que l'on sorte des deux ornières opposées de la neutralité ou l'objectivité des calculs d'un côté et de la manipulation ou les stratégies perverses de l'autre. Le programme proposé par Tarleton Gillepsie est autant un programme à grande échelle pour les chercheurs en SHS qu'une feuille de route pour un organisme public de régulation.

Cerise sur le gâteau : un tel programme nous permettrait peut-être aussi de sortir des polémiques convenues autour du droit d'auteur en comprenant plus lucidement le rôle éditorial du web et donc en repérant et mesurant plus lucidement les responsabilités des uns et des autres.

29-11-2012

Hubert Guillaud fait ce jour un cr beaucoup plus détaillé que le mien dans InternetActu.

Voir aussi : Algorithms are Decision Systems de T Striphas.

Le débat parait donc lancé. Il serait utile de ne pas le confiner juste à notre époque contemporaine. On pourrait aussi s'inspirer de l'important travail d'A. Desrosières sur l'histoire des statistiques qui préfigure celle des algorithmes :

''La constitution d’un espace rendant possible le débat contradictoire sur les options de la cité suppose l’existence d’un minimum d’éléments de référence communs aux divers acteurs : langage pour mettre en forme les choses, pour dire les fins et les moyens de l’action, pour en discuter les résultats. Ce langage ne préexiste pas au débat : il est négocié, stabilisé, inscrit, puis déformé et défait peu à peu, au fil des interactions propres à un espace et une période historique données.''

Alain Desrosières, La politique des grands nombres : histoire de la raison statistique. Paris : La Découverte, 2000,

J'avais proposé quelques pistes pour l'INRIA à l'occasion de son école sur le Web de données.

vendredi 16 novembre 2012

Les sept piliers de l’économie du document révisés (COOPT-Enssib)

Voici une première occasion d’appliquer mes bonnes résolutions sur les COurs Ouverts Pour Tous (COOPT). Il ne s’agit pas encore du cours transatlantique annoncé, mais, dans le cadre du master Politique des bibliothèques et de la documentation de l’Enssib, je dois animer quelques séances sur les « écosystèmes du document ». Compte tenu du petit nombre de séances, du public visé et des limites de mes compétences, je m’en tiendrai à une introduction à l’économie du document publié. Ce sera en même temps un test et une préfiguration pour le cours transatlantique ultérieur.

Les séances ont lieu en présentiel mais je vais utiliser la méthode de la classe inversée : le cours s’assimile à l’extérieur, avant la rencontre avec le professeur qui sert, elle, à vérifier que les notions ont été comprises et acquises. Dans la logique d’un COOPT, le cours (c'est-à-dire la partie non présentielle du processus) peut ainsi être ouvert et tout le monde peut en profiter… et même y participer, soit en annotant directement les matériaux du cours mis en ligne, soit en réagissant par Twitter avec #ecodoc. Je m’efforcerai de répondre à toutes les remarques.

La première séance sera consacrée aux particularités de l’économie du document. J’ai depuis longtemps l’habitude de les présenter sous forme d’une parabole dont les deux protagonistes sont une baguette de pain et un journal, parabole que j’actualise régulièrement. On trouvera ci-dessous la dernière version, fortement révisée par rapport à la précédente. Vous pouvez l’annoter, la commenter, contester, demander des explications et précisions, ajouter des références, etc. directement sur le fichier (l’outil est prévu pour par le bouton <Comment> en haut de la fenêtre) ou sur Twitter #ecodoc. Je suggère en particulier aux étudiantes de l’Enssib inscrites au cours de profiter de cette opportunité… cela leur sera très utile en vue de leur premier examen.

(si vous avez des difficultés de lecture, n'hésitez pas à agrandir le texte par la petite loupe en haut à gauche et tout rentrera dans l'ordre)

Pour aller plus loin, on peut lire la troisième partie du chapitre 4 du livre Vu, lu, su, et pour un lien vers les billets de ce blogue concernés par la thématique, cliquer sur les mots clés en haut de ce billet.

Autoévaluation

Pour vérifier votre compréhension, ci-dessous un petit quiz que je vous suggère d'annoter avec vos réponses et de discuter celles posées par d'autres lecteurs éventuels. De la confrontation nait la lumière !

(si vous avez des difficultés de lecture ou d'écriture, n'hésitez pas à agrandir ou rétrécir le document par les boutons en haut et à gauche de la fenêtre)

mercredi 06 juin 2012

Web de données, Google, Wikipédia, les liaisons dangereuses

Voici un nouveau billet pour montrer combien les avancées techniques et commerciales du web peuvent se lire au travers de la grille de la théorie du document et que celle-ci permet de souligner des impensés ou des non-dits. Cette fois je prendrai deux illustrations reliées : le web de données et la dernière annonce de Googlle, le Knowledge Graph.

Le web de données

Tim Berners-Lee dans une prestation, bien connue de la petite histoire du web, a prôné la mise à disposition libre des données, pour réaliser ce qu'il appelle le web de données, après avoir renoncé à l'appellation "web sémantique". Dans cette conférence de février 2009 à TED, je retiendrai pour mon propos le passage soulignant le rôle joué par Wikipédia (à 8mn 25s), et notamment cette diapositive.

TBL-WKP-TED-Fev-2009.jpg

L'image devrait éveiller quelques souvenirs aux bibliothécaires. Wikipédia, en effet, réalise une opération qui s'apparente au cataloguage, plaçant dans des champs des données descriptives du document principal pour construire une sorte de répertoire bibliographique, DBpédia, même si ici les champs sont moins formalisés que ceux des catalogueurs.

L'homologie est encore plus surprenante si l'on se souvient que P. Otlet, un des premiers théoriciens du document, avait lui-aussi proposé la réalisation d'une encyclopédie dans son rêve de cataloguer tous les documents du monde. On peut le vérifier, par exemple, sur cette image tirée de son livre testament (p.41) et bien connue des lecteurs de ce blogue :

Otlet-1934.jpg

Pourtant, il existe une différence radicale entre le projet de P. Otlet et celui de T. Berners-Lee. La documentarisation s'est déplacée. Pour le premier, l'enjeu est de récolter les documents pour les cataloguer, et l'encyclopédie n'est qu'un aboutissement, en réalité une utopie qui ne sera jamais vraiment opérationnelle. Pour le promoteur du web, cet objectif est atteint. En effet, les documents sont déjà en ligne, repérables par les moteurs de recherche, mis en place par la première étape du web. Mieux l'encyclopédie est aussi déjà là et s'enrichit dans une dynamique continue selon la logique de la seconde étape du web (Wikipédia est une figure emblématique du web 2.0).

L'enjeu est alors différent, conforme à l'évolution de la société - nous ne sommes plus à l'époque du triomphe de la science positive. Il s'agit de reconstruire des documents à partir des requètes des internautes en se servant comme ossature logique des données récoltées notamment dans l'encyclopédie et aussi dans d'autres bases coopératives comme Freebase. DBpédia est considérée par les chercheurs comme un noyau pour un web de données ouvertes. Tim O'Reilly, l'inventeur de l'expression Web 2.0 souligne pour sa part que Freebase constitue le pont entre l'intelligence collective issue de la base du web 2.0 et le monde plus structuré du web sémantique (ici trad JMS).

Nous sommes toujours dans une sorte de cataloguage, mais les métadonnées ne servent plus à retrouver un document, "libérées", rendues interopérables et traitables par les logiciels du web de données, elles se détachent de leur document d'origine pour se combiner et produire de nouveaux documents, nous dirons des néodocuments. A cet ensemble premier, peut alors se relier nombre de bases de toutes natures, libérées elles-aussi, mais ordonnées grâce à l'ossature initiale. Ci-dessous la version de sept 2011 du graphe ainsi constitué (voir ici pour naviguer dessus)

DBpedia-W3C-col-sept-2011.jpg

L'encyclopédie Wikipédia est un outil privilégié pour construire l'armature de ce nouvel ensemble car elle a vocation à être neutre et universelle. Tout se passe comme si les wikipédiens avaient catalogué les entrées de l'encyclopédie en ligne et que la mise en réseau de cette classification universelle pouvait autoriser la construction d'un nouveau monde documentaire, celui du néodocument servant sans doute moins à transmettre et prouver, comme son ancêtre, mais plus à échanger et convaincre dans une relation utilitariste.

Et en trichant un peu, on peut modifier et compléter alors le tableau de P. Otlet pour bien signifier la continuité historique de la logique documentaire du web, y compris pour ses applications les plus contemporaines. Peut-être que d'autres, plus doués que moi en graphisme, auront le plaisir de développer les pictogrammes...

Otlet-revisite.jpg

Le Knowledge Graph

Google a annoncé tout récemment l'intégration d'une dimension sémantique dans son moteur de recherche, baptisée Knowledge Graph (communiqué, pour une présentation rapide en fr voir Abondance, et une analyse voir Affordance). La firme fait ici un pas important vers le web de données.

Le principe du service est de proposer parallèlement aux réponses traditionnelles aux requêtes (liste de liens vers des documents pertinents récupérés par le PageRank), des informations construites à la volée donnant des éléments de contexte et, le cas échéant, la réponse elle-même. Google a indiqué qu'il avait soigneusement retravaillé son algorithme pour puiser des informations dans des bases de données comme Freebase ou Wikipedia afin de donner du contexte aux mots. (Les Echos).

Là encore, la continuité avec l'histoire documentaire est manifeste. Déjà comme l'indique Tim Berners-Lee lui-même, Google avait permis au premier web de devenir une bibliothèque : dès le développement du Web, ses détracteurs ont souligné qu’il ne pourrait jamais être une bibliothèque bien organisée, que sans base de données centrale et sans structure arborescente, on ne pourrait jamais être sûr de tout trouver. Ils avaient raison. Mais la puissance d’expression du système a mis à la disposition du public des quantités importantes d’informations et les moteurs de recherche (qui auraient paru tout à fait irréalisables il y a dix ans) permettent de trouver des ressources. (citation extraite de l'article qui lance le web sémantique, trad fr ici). Avec ce nouveau service, Google reconstruit à la volée un néodocument correspondant au contexte de la requête et l'affiche sur la page de réponse. Il participe ainsi directement à la suite de l'aventure, le web des données ou le web 3.

L'avenir nous dira quel sera l'intérêt et le succès de ces néodocuments, qui remplaceront sans doute quelques documents traditionnels et ouvriront peut-être aussi d'autres avenues. Mais avec l'arrivée de Google dans le paysage du web de données, il est déjà possible de pointer un non-dit de cette aventure. Pour cela l'analyse en trois dimensions du document (vu, lu, su) est éclairante. J'ai déjà eu l'occasion de dire que les trois étapes de l'histoire du web privilégiaient chaque fois une des dimensions : la forme, le repérage, le vu avec le premier web, celui du document ; le medium, la transmission, l'échange, le su avec le web 2.0, celui du partage ; le sens, le contenu, le lu avec le web de données, l'ex-web sémantique. Tim Berners-Lee et ses collègues du W3C se sont surtout intéressés aux webs 1 et 3, considérant le 2 comme simplement une extension naturelle du 1 et repoussant les questions sociales dans les dernières couches logicielles du ''cake''. Pourtant le carburant économique du web, nous le savons, est bien dans l'économie de l'attention, c'est-à-dire dans la deuxième dimension.

Déjà dans le premier web pris selon cette dimension, Google et Wikipédia n'étaient pas sans connivence (ici). On peut même prétendre que sans Google, Wikipédia n'aurait pas eu le même succès et que sans Wikipédia, Google n'aurait pas eu la même saveur. Mieux, la tentative de Google de construire sa propre encyclopédie a tourné court, comme si le succès de la coopération dans Wikipédia impliquait l'affichage du désintéressement. Les deux services sont alors complémentaires, fondant un écosystème au sens fort du terme basé sur l'économie de l'attention.

Il est un peu tôt pour savoir ce que donnera le nouveau service de Google en termes documentaires, mais on peut déjà avoir une petite idée de son impact sur l'économie de l'attention. Comme l'explique O. Andrieu sur ''Abondance'', Il semble déjà que l'impact sur le nombre de requêtes soit important. Il ajoute : Cela est logique dans le sens où le "Knowledge Graph" propose de nombreux liens concernant l'objet de la requête et de l'"entité nommée" détectée. D'ailleurs, cela pourrait clairement être à l'avantage de Google : l'internaute tape une requête sur la page d'accueil du moteur, obtient les résultats du Knowledge Graph, reclique sur les liens de recherche proposés, etc. Bref, autant de possibilité d'afficher des Adwords pour Google et autant de clics publicitaires potentiels !. De plus le processus tend à réduire l'impact des stratégies de référencement des sites au profit de l'achat de mots-clés, ce qui est doublement profitable pour Google. Inversement, il tend à faire monter dans les réponses les rubriques de Wikipédia...

Pour illustrer l'importance du changement, voici trois requêtes faites sur Google.com, telles qu'elles apparaissent en plein écran sur ma machine. Le néodocument généré automatiquement se trouve sur la droite. Le lecteur conclura de lui-même.

F-Hollande-Knoledge-Graph-06-06-2012.jpg

L-Page-Knowledge-Graph-06-06-2012.jpg

W-Disney-Knowledge-Graph-06-06-2012.jpg

29 juillet 2012

ITW d'Emily Moxley, responsable du Knowledge Graph chez Google :

« How Google Organizes the World: Q&A With the Manager of Knowledge Graph ». ReadWriteWeb, 26 juil 2012 .

Extraits (trad JMS) :

ReadWriteWeb: Quel est l'objectif de Google avec le Knowledge Graph ?

Emily Moxley : Il s'agit de cartographier le monde réel en quelque chose que les ordinateurs puissent comprendre. Cela consiste à prendre des objets du monde réel, à comprendre ce que sont ces choses et quelles sont les choses importantes à leur sujet, ainsi que leurs relations à d'autres choses. C'est la partie que je trouve la plus fascinante : Quelle est la relation entre toutes ces différentes choses ? (..)

RWW: Comment les choses sont ajoutées au Knowledge Graph ? Apprend-il de noueaux concepts des usagers ?

EM: Il est actualisé très activement par les employés de Google. Avant, Metaweb (JMS : qui a développé Freebase, rachetée par Google) était cette base d'entités et de faits et les employés de cette société utilisaient beaucoup leur intuition sur ce qui importait pour les usagers et sur quelle information aller chercher. Depuis qu'ils ont été rachetés par Google, Google dispose de tous ces usagers cherchant de l'information,(...) Google sait que les gens qui cherchent une chose en cherchent aussi d'autres. Ainsi on peut voir des relations intéressantes en regardant les sessions agrégées des usagers. Une des prochaines étapes est effectivement d'expliquer ces relations fortuites. Qu'est-ce qui est semblable à ce groupe d'acteurs ? Qu'est-ce qui explique dans ce film que les gens le recherche souvent avec ces cinq autres ? (..)

RWW: Est-ce que travailler avec des sources de données extérieures comme le CIA World Factbook ou Wikipedia, est plus compliqué que travailler avec les données de Freebase ?

EM: Il y a un vrai défi avec les sources de données externes, c'est la correspondance (reconciliation). Même en interne, nous venons d'acheter Metaweb il y a deux ans, et nous avions déjà une énorme quantité de données dans certains domaines, les données des livres et cartes locales sont les principaux. Ces deux étaient bien plus importants que Freebase. Ils disposaient de beaucoup plus d'entités et d'informations. Les faire correspondre à la nouvelle organisation des données fut un gros défi. (..) Ce n'est pas plus difficile avec des éléments extérieurs qu'internes.

RWW: Mais devez-vous corriger des choses ? Comment choisissez-vous si c'est plutôt le CIA World Factbook ou Google qui a raison ?

EM: Volontairement, nous essayons de nous en tenir à des choses définitivement vraies - factuelles - pas des choses sujètes à spéculation ou opinion, et nous faisons des erreurs du côté des faits. Aussi si cela est sujet de controverse, nous pourrions décider de ne pas le montrer (dans la Knowledge box). (...)

Avec Knowledge Graph l'objectif est différent (de la recherche classique). Il s'agit d'obtenir une information le plus rapidement possible, mais aussi de vous donner des informations que vous ne saviez même pas que vous recherchiez. (...)

9 août 2012

La présentation officielle en vidéo du KG. Cela va très vite, la recherche par image a été intégrée.

30 août 2012

Il semble que les infos de profil de Google + soient intégrées maintenant :

mardi 28 février 2012

Séminaire AI : Algorithmes, données et sens (9 mars Lyon)

Le prochain séminaire sur l'architecture de l'information se tiendra à Lyon le 9 mars 13h30 à l'IXXI à Lyon. Entrée libre.

Programe alléchant comme d'habitude :

Vers une sociologie des algorithmes (Toward a Sociology of Algorithms, présentation en anglais), Tarleton Gillespie, Cornell University

Les algorithmes jouent un rôle de plus en plus important dans la façon dont nous trouvons les informations les plus importantes pour nous. L'algorithme de recherche de Google, le Newsfeed de Facebook, les recommandations d'Amazon et les Trends de Twitter, tous les jours nous nous tournons vers des algoritmes informatiques conçus pour nous dire ce qui est le plus important pour nous et pour les autres. En réalité, les ressources informatiques que nous avons créées sont maintenant trop vastes et trop complexes. Seuls des algorithmes peuvent les gérer.

Pourtant cette emprise des algorithmes s'accompagne d'une vulnérabilité. Les algorithmes décident des informations à mettre en évidence, de quelles relations à faire ou ne pas faire entre elles. Et leur logique est opaque, construite dans des outils dont nous pouvons nous servir mais pas démonter. Les conclusions qu'ils dessinent ont des implications sociales et politiques pour les gens, les communautés et les organisations qui dépendent d'eux.

Nous avons besoin d'une sociologie des algorithmes. Cela va au delà des questions leur marche et leur perfectionnement. C'est une caractéristique essentielle de notre écosystème informationnel, et il faut se demander comment ces algorithmes façonnent la production et la mise à l'écart de l'information, de la connaissance et de la culture. A quelles obligations les designers et les développeurs d'algorithmes doivent faire face, puisque que leurs outils rendent de plus en plus de services vitaux pour des fonctions publiques dans la détermination de ce qui est vu et perçu comme pertinent et de comment nous nous reconnaissons nous même comme un public ?

Donner du sens aux données, Gautier Poupeau, Antidot

Open Data, Linked Data, Big Data, Data journalism... autant d'expressions qui ont remplacé sous les feux des projecteurs des professionnels du numérique le Web 2.0 et le Web social entré peu à peu dans leur pratique quotidienne, mais qu'en est-il réellement et, surtout, que faut-il attendre de ces concepts et des avancées sous-jacentes ? S'agit-il d'un effet de mode engendré par le buzz et le besoin de nouveautés constantes de ce milieu ou d'une tendance lourde qui marquerait un tournant dans la place accordée à la donnée et plus généralement à l'attention à l'information dans le système d'information ?

En définissant chacune de ces visions, nous en dresserons une cartographie pour mieux les critiquer et montrer leurs apports et leurs limites. Nous les analyserons en particulier à la lumière de la place accordée à la donnée elle-même et à sa logique. Ainsi, nous tenterons de montrer la nécessité d'accorder une place prépondérante à la question du sens que les données véhiculent, tant dans leur modélisation, leur mise à disposition, leur traitement, leur croisement, leur usage que leur visualisation.

- page 2 de 5 -