Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

dimanche 10 juin 2012

Colloque architecture de l'information (inscriptions ouvertes)

Les inscriptions pour le colloque international sur l'architecture de l'information qui se tiendra à Lyon les 19-20 novembre sont maintenant ouvertes.

Tarifs (pauses cafés et repas de midi compris) :

  • Professionnels 150 €
  • Académiques 75 €
  • Etudiants 25 €

Attention, le nombre de places est limité.

Présentation et bulletin d'inscription, comité scientifique et programme du colloque

Par ailleurs, je rappelle que les candidatures au master sont ouvertes jusqu'à la fin du mois pour la première session. Là aussi les places sont limitées.

mercredi 06 juin 2012

Web de données, Google, Wikipédia, les liaisons dangereuses

Voici un nouveau billet pour montrer combien les avancées techniques et commerciales du web peuvent se lire au travers de la grille de la théorie du document et que celle-ci permet de souligner des impensés ou des non-dits. Cette fois je prendrai deux illustrations reliées : le web de données et la dernière annonce de Googlle, le Knowledge Graph.

Le web de données

Tim Berners-Lee dans une prestation, bien connue de la petite histoire du web, a prôné la mise à disposition libre des données, pour réaliser ce qu'il appelle le web de données, après avoir renoncé à l'appellation "web sémantique". Dans cette conférence de février 2009 à TED, je retiendrai pour mon propos le passage soulignant le rôle joué par Wikipédia (à 8mn 25s), et notamment cette diapositive.

TBL-WKP-TED-Fev-2009.jpg

L'image devrait éveiller quelques souvenirs aux bibliothécaires. Wikipédia, en effet, réalise une opération qui s'apparente au cataloguage, plaçant dans des champs des données descriptives du document principal pour construire une sorte de répertoire bibliographique, DBpédia, même si ici les champs sont moins formalisés que ceux des catalogueurs.

L'homologie est encore plus surprenante si l'on se souvient que P. Otlet, un des premiers théoriciens du document, avait lui-aussi proposé la réalisation d'une encyclopédie dans son rêve de cataloguer tous les documents du monde. On peut le vérifier, par exemple, sur cette image tirée de son livre testament (p.41) et bien connue des lecteurs de ce blogue :

Otlet-1934.jpg

Pourtant, il existe une différence radicale entre le projet de P. Otlet et celui de T. Berners-Lee. La documentarisation s'est déplacée. Pour le premier, l'enjeu est de récolter les documents pour les cataloguer, et l'encyclopédie n'est qu'un aboutissement, en réalité une utopie qui ne sera jamais vraiment opérationnelle. Pour le promoteur du web, cet objectif est atteint. En effet, les documents sont déjà en ligne, repérables par les moteurs de recherche, mis en place par la première étape du web. Mieux l'encyclopédie est aussi déjà là et s'enrichit dans une dynamique continue selon la logique de la seconde étape du web (Wikipédia est une figure emblématique du web 2.0).

L'enjeu est alors différent, conforme à l'évolution de la société - nous ne sommes plus à l'époque du triomphe de la science positive. Il s'agit de reconstruire des documents à partir des requètes des internautes en se servant comme ossature logique des données récoltées notamment dans l'encyclopédie et aussi dans d'autres bases coopératives comme Freebase. DBpédia est considérée par les chercheurs comme un noyau pour un web de données ouvertes. Tim O'Reilly, l'inventeur de l'expression Web 2.0 souligne pour sa part que Freebase constitue le pont entre l'intelligence collective issue de la base du web 2.0 et le monde plus structuré du web sémantique (ici trad JMS).

Nous sommes toujours dans une sorte de cataloguage, mais les métadonnées ne servent plus à retrouver un document, "libérées", rendues interopérables et traitables par les logiciels du web de données, elles se détachent de leur document d'origine pour se combiner et produire de nouveaux documents, nous dirons des néodocuments. A cet ensemble premier, peut alors se relier nombre de bases de toutes natures, libérées elles-aussi, mais ordonnées grâce à l'ossature initiale. Ci-dessous la version de sept 2011 du graphe ainsi constitué (voir ici pour naviguer dessus)

DBpedia-W3C-col-sept-2011.jpg

L'encyclopédie Wikipédia est un outil privilégié pour construire l'armature de ce nouvel ensemble car elle a vocation à être neutre et universelle. Tout se passe comme si les wikipédiens avaient catalogué les entrées de l'encyclopédie en ligne et que la mise en réseau de cette classification universelle pouvait autoriser la construction d'un nouveau monde documentaire, celui du néodocument servant sans doute moins à transmettre et prouver, comme son ancêtre, mais plus à échanger et convaincre dans une relation utilitariste.

Et en trichant un peu, on peut modifier et compléter alors le tableau de P. Otlet pour bien signifier la continuité historique de la logique documentaire du web, y compris pour ses applications les plus contemporaines. Peut-être que d'autres, plus doués que moi en graphisme, auront le plaisir de développer les pictogrammes...

Otlet-revisite.jpg

Le Knowledge Graph

Google a annoncé tout récemment l'intégration d'une dimension sémantique dans son moteur de recherche, baptisée Knowledge Graph (communiqué, pour une présentation rapide en fr voir Abondance, et une analyse voir Affordance). La firme fait ici un pas important vers le web de données.

Le principe du service est de proposer parallèlement aux réponses traditionnelles aux requêtes (liste de liens vers des documents pertinents récupérés par le PageRank), des informations construites à la volée donnant des éléments de contexte et, le cas échéant, la réponse elle-même. Google a indiqué qu'il avait soigneusement retravaillé son algorithme pour puiser des informations dans des bases de données comme Freebase ou Wikipedia afin de donner du contexte aux mots. (Les Echos).

Là encore, la continuité avec l'histoire documentaire est manifeste. Déjà comme l'indique Tim Berners-Lee lui-même, Google avait permis au premier web de devenir une bibliothèque : dès le développement du Web, ses détracteurs ont souligné qu’il ne pourrait jamais être une bibliothèque bien organisée, que sans base de données centrale et sans structure arborescente, on ne pourrait jamais être sûr de tout trouver. Ils avaient raison. Mais la puissance d’expression du système a mis à la disposition du public des quantités importantes d’informations et les moteurs de recherche (qui auraient paru tout à fait irréalisables il y a dix ans) permettent de trouver des ressources. (citation extraite de l'article qui lance le web sémantique, trad fr ici). Avec ce nouveau service, Google reconstruit à la volée un néodocument correspondant au contexte de la requête et l'affiche sur la page de réponse. Il participe ainsi directement à la suite de l'aventure, le web des données ou le web 3.

L'avenir nous dira quel sera l'intérêt et le succès de ces néodocuments, qui remplaceront sans doute quelques documents traditionnels et ouvriront peut-être aussi d'autres avenues. Mais avec l'arrivée de Google dans le paysage du web de données, il est déjà possible de pointer un non-dit de cette aventure. Pour cela l'analyse en trois dimensions du document (vu, lu, su) est éclairante. J'ai déjà eu l'occasion de dire que les trois étapes de l'histoire du web privilégiaient chaque fois une des dimensions : la forme, le repérage, le vu avec le premier web, celui du document ; le medium, la transmission, l'échange, le su avec le web 2.0, celui du partage ; le sens, le contenu, le lu avec le web de données, l'ex-web sémantique. Tim Berners-Lee et ses collègues du W3C se sont surtout intéressés aux webs 1 et 3, considérant le 2 comme simplement une extension naturelle du 1 et repoussant les questions sociales dans les dernières couches logicielles du ''cake''. Pourtant le carburant économique du web, nous le savons, est bien dans l'économie de l'attention, c'est-à-dire dans la deuxième dimension.

Déjà dans le premier web pris selon cette dimension, Google et Wikipédia n'étaient pas sans connivence (ici). On peut même prétendre que sans Google, Wikipédia n'aurait pas eu le même succès et que sans Wikipédia, Google n'aurait pas eu la même saveur. Mieux, la tentative de Google de construire sa propre encyclopédie a tourné court, comme si le succès de la coopération dans Wikipédia impliquait l'affichage du désintéressement. Les deux services sont alors complémentaires, fondant un écosystème au sens fort du terme basé sur l'économie de l'attention.

Il est un peu tôt pour savoir ce que donnera le nouveau service de Google en termes documentaires, mais on peut déjà avoir une petite idée de son impact sur l'économie de l'attention. Comme l'explique O. Andrieu sur ''Abondance'', Il semble déjà que l'impact sur le nombre de requêtes soit important. Il ajoute : Cela est logique dans le sens où le "Knowledge Graph" propose de nombreux liens concernant l'objet de la requête et de l'"entité nommée" détectée. D'ailleurs, cela pourrait clairement être à l'avantage de Google : l'internaute tape une requête sur la page d'accueil du moteur, obtient les résultats du Knowledge Graph, reclique sur les liens de recherche proposés, etc. Bref, autant de possibilité d'afficher des Adwords pour Google et autant de clics publicitaires potentiels !. De plus le processus tend à réduire l'impact des stratégies de référencement des sites au profit de l'achat de mots-clés, ce qui est doublement profitable pour Google. Inversement, il tend à faire monter dans les réponses les rubriques de Wikipédia...

Pour illustrer l'importance du changement, voici trois requêtes faites sur Google.com, telles qu'elles apparaissent en plein écran sur ma machine. Le néodocument généré automatiquement se trouve sur la droite. Le lecteur conclura de lui-même.

F-Hollande-Knoledge-Graph-06-06-2012.jpg

L-Page-Knowledge-Graph-06-06-2012.jpg

W-Disney-Knowledge-Graph-06-06-2012.jpg

29 juillet 2012

ITW d'Emily Moxley, responsable du Knowledge Graph chez Google :

« How Google Organizes the World: Q&A With the Manager of Knowledge Graph ». ReadWriteWeb, 26 juil 2012 .

Extraits (trad JMS) :

ReadWriteWeb: Quel est l'objectif de Google avec le Knowledge Graph ?

Emily Moxley : Il s'agit de cartographier le monde réel en quelque chose que les ordinateurs puissent comprendre. Cela consiste à prendre des objets du monde réel, à comprendre ce que sont ces choses et quelles sont les choses importantes à leur sujet, ainsi que leurs relations à d'autres choses. C'est la partie que je trouve la plus fascinante : Quelle est la relation entre toutes ces différentes choses ? (..)

RWW: Comment les choses sont ajoutées au Knowledge Graph ? Apprend-il de noueaux concepts des usagers ?

EM: Il est actualisé très activement par les employés de Google. Avant, Metaweb (JMS : qui a développé Freebase, rachetée par Google) était cette base d'entités et de faits et les employés de cette société utilisaient beaucoup leur intuition sur ce qui importait pour les usagers et sur quelle information aller chercher. Depuis qu'ils ont été rachetés par Google, Google dispose de tous ces usagers cherchant de l'information,(...) Google sait que les gens qui cherchent une chose en cherchent aussi d'autres. Ainsi on peut voir des relations intéressantes en regardant les sessions agrégées des usagers. Une des prochaines étapes est effectivement d'expliquer ces relations fortuites. Qu'est-ce qui est semblable à ce groupe d'acteurs ? Qu'est-ce qui explique dans ce film que les gens le recherche souvent avec ces cinq autres ? (..)

RWW: Est-ce que travailler avec des sources de données extérieures comme le CIA World Factbook ou Wikipedia, est plus compliqué que travailler avec les données de Freebase ?

EM: Il y a un vrai défi avec les sources de données externes, c'est la correspondance (reconciliation). Même en interne, nous venons d'acheter Metaweb il y a deux ans, et nous avions déjà une énorme quantité de données dans certains domaines, les données des livres et cartes locales sont les principaux. Ces deux étaient bien plus importants que Freebase. Ils disposaient de beaucoup plus d'entités et d'informations. Les faire correspondre à la nouvelle organisation des données fut un gros défi. (..) Ce n'est pas plus difficile avec des éléments extérieurs qu'internes.

RWW: Mais devez-vous corriger des choses ? Comment choisissez-vous si c'est plutôt le CIA World Factbook ou Google qui a raison ?

EM: Volontairement, nous essayons de nous en tenir à des choses définitivement vraies - factuelles - pas des choses sujètes à spéculation ou opinion, et nous faisons des erreurs du côté des faits. Aussi si cela est sujet de controverse, nous pourrions décider de ne pas le montrer (dans la Knowledge box). (...)

Avec Knowledge Graph l'objectif est différent (de la recherche classique). Il s'agit d'obtenir une information le plus rapidement possible, mais aussi de vous donner des informations que vous ne saviez même pas que vous recherchiez. (...)

9 août 2012

La présentation officielle en vidéo du KG. Cela va très vite, la recherche par image a été intégrée.

30 août 2012

Il semble que les infos de profil de Google + soient intégrées maintenant :

jeudi 24 mai 2012

Publier, partager, ouvrir : 2. Partager

Rappel :

Cette réflexion m'est venue à la suite de la lecture d'un billet sur Open data Rennes, de discussions dans un dernier séminaire à l'ENS de Lyon et aussi, il faut avouer, d'un certain malaise à la lecture d'analyses toujours plus rapides et plus radicales du tout petit monde de la biblioblogosphère.

Les verbes "publier", "partager" et "ouvrir" pourraient être pris comme synonymes dans le contexte du web, mais il est sans doute préférable de bien distinguer la réalité qu'ils recouvrent, qui renvoie à des logiques et raisonnements sensiblement différents et parfois contradictoires. Compte-tenu de la longueur d'écriture et de lecture du développement, ce billet se rapporte seulement au deuxième des trois verbes : partager. Il est le deuxième d'une série de trois ou quatre. Publier est déjà accessible ici.

Voici donc, de mon point de vue, quelques propositions pour préciser ce terme et, le cas échéant en étant un peu optimiste, réduire quelques difficultés des débats actuels.

Partager

A la différence de "publier", "partager" suppose que le bien que l'on partage soit déjà disponible. Même si les frontières sont poreuses, partager fait donc plutôt référence à une dimension patrimoniale, tandis que publier renvoie plutôt à la création. Dit autrement : un auteur souhaite publier, un lecteur aime partager. La différence entre publier et partager a été inscrite dans le droit : droit d'auteur ou copyright d'un côté, exceptions ou fair use de l'autre. Elle a donné aussi lieu à des modèles économiques du document différents : édition d'un côté, bibliothèque de l'autre.

L'organisation systématique du partage des connaissances est beaucoup plus ancienne que celle de la diffusion de la création. Les communautés se sont très tôt organisées pour capitaliser et transmettre les connaissances utiles en leur sein. Les écoles d'un côté et les bibliothèques, de l'autre, en constituent le modèle séminal. Il s'agit de transmettre et conserver le patrimoine de connaissances de la communauté. Rappelons que le modèle éditorial n'a que deux cents ans, tandis que le modèle bibliothéconomique en compte plus de deux milles.

Les bibliothèques constituent un exemple de ce que Elinor Ostrom a remis au goût du jour sous la notion de "commun", c'est-à-dire une institution, un ensemble de règles ici permettant l'exploitation par les membres d'une communauté d'une réunion de documents, la collection, contenant les connaissances qu'elle a accumulées. Contrairement à une idée reçue, le document d'une bibliothèque, dans sa forme traditionnelle imprimée, est un bien non-exclusif mais rival (Wkp comme le paturage chez E. O.) et la bibliothèque est justement là pour le préserver afin qu'il puisse potentiellement être exploité par tous les membres de la communauté et non accaparé par quelques-uns. L'exploitation est ici la lecture.

Le numérique a effacé, ou plutôt a déplacé, le caractère rival du document. Devenu fichier, c'est-à-dire signal et non plus objet, le document parait infiniment partageable sous réserve de disposer des moyens techniques de stockage, diffusion et accès. Cette caractéristique nouvelle (qui met en réalité l'accent sur la deuxième dimension du document, le texte, plutôt que la première, l'objet dans le monde de l'imprimé) a conduit de nombreux observateurs à un raccourci dans l'analyse source de quelques confusions. Infiniment partageable, le document serait alors devenu un "bien public" (et non un "bien commun" comme cela est souvent écrit), et il suffirait de défendre les règles de neutralité du web, de se battre contre toutes les "''enclosures''", pour que la connaissance soit partagée à l'échelle de la planète.

Cette utopie est très productive. Elle permet notamment de limiter les excès d'un système faisant la part trop belle à la création, très valorisée dans la modernité. Profitant de cette aura les éditeurs et producteurs ont, nous l'avons vu dans le billet précédent, utilisé le principe de monopole du droit d'auteur pour développer une rente et ralentir le partage au moment même où le patrimoine devenait énorme tout comme le potentiel de lecteurs suffisamment cultivés pour l'exploiter. Parmi d'autres, Lawrence Lessig en proposant les ''Creative Commons'' a montré qu'il était possible d'envisager d'autres voies. Parmi beaucoup d'autres exemples, on trouvera ici une présentation de cette utopie confrontée au journalisme traditionnel. D'une façon générale compte tenu de l'évolution de la société, il serait naturel que les institutions du partage reprennent le pas sur celles de la création.

Néanmoins, cette idéologie du web est aussi un raccourci dommageable. En effet, ne raisonnant que sur les deux premières dimensions du document, la forme (qui autorise le monopole du créateur) et le texte (qui autorise le partage), on oublie la troisième dimension, celle du médium. Or lorsque l'on réduit les barrières à l'accès construites par la forme, en numérisant les objets et les proposant sur un système ouvert comme le web, on construit paradoxalement de la rareté sur la troisième dimension, car l'attention humaine est limitée. En simplifiant on pourrait dire que la rivalité effacée sur l'objet se reconstruit sur l'attention dans une sorte de balance. Plus l'accès est ouvert, plus l'attention est sollicitée. Et comme notre cerveau et notre temps disponibles ont leurs limites, l'attention portée à une information l'est au détriment de celle portée sur une autre.

Balance-du-document.jpg

A partir du moment où une rivalité s'installe, un marché peut se construire. On le repère facilement pour le web sur deux processus :

  • le haut-parleur. Le web est un outil puissant d'accélération de la diffusion des documents. Ainsi il retrouve les caractéristiques de concurrence et de vente d'espaces publicitaires des médias de flot (radio-télévision)
  • la personnalisation. Le web reprend aussi la logique bibliothéconomique, pilotée par l'aval, le lecteur. Mais dépassant la non-rivalité induite par l'objet, il autorise un traçage des comportements facilitant la personnalisation des services et donc la commercialisation ciblée de l'attention. « Les données privées sont le carburant du numérique. »

Dès lors un marché (réel ou potentiel) peut s'installer et on voit bien qu'il y est un puissant levier d'accélération du développement des web-services. L'accélération, facteur d'aliénation dénoncé par H. Rosa comme caractéristique de la modernité tardive, est aussi largement portée par la marchandisation de l'attention développée sur le web.

En résumé, nous avons vu 1) que publication et partage renvoyaient à deux logiques différentes, l'une portée par l'amont (la création), l'autre par l'aval (la lecture), 2) qu'aujourd'hui un rééquilibrage s'opérait (ou devrait s'opérer) par le web en faveur de la seconde, 3) que ce changement favorisait le développement d'un marché de l'attention, lui-même accélérateur du développement du web.

Aussi il est peut-être temps de quitter la guerre de tranchée entre les fondamentalistes du droit d'auteur et les fondamentalistes du partage, pour questionner plus sérieusement la relation aux connaissances qui s'installe en tâtonnant sur le web. Quelques éléments de réponse, je l'espère, dans le prochain billet sur "ouvrir".

lundi 21 mai 2012

La valeur de Facebook

A lire...

« Well, Now That Everyone Has Sobered Up, Let’s Figure Out What Facebook Is Actually Worth... » Business Insider, 21 mai 2012.

L'entrée en bourse de Facebook pourrait être un désastre pour des millions d'investisseurs individuels.

Un prix correct pour Facebook pourrait-être entre 16 et 24$. (l'action a été proposée à 38$)

Facebook-vs-Google-Businessinsider.jpg

Au moins les lecteurs de ce blogue étaient prévenus.

vendredi 18 mai 2012

Gouvernement du Québec : La Honte !

J'ai déjà eu l'occasion d'évoquer la grève des étudiants québécois, en saluant la responsabilité de certains étudiants et de m'étonner du silence des médias français. Aujourd'hui il faut malheureusement y revenir pour dénoncer avec force l'attitude méprisante du gouvernement québécois, méprisante non seulement pour les étudiants, que l'on soit ou non d'accord avec les grévistes sur le fond, mais méprisante aussi pour toute la communauté académique et méprisante tout simplement pour la démocratie.

L'Université de Montréal venait de faire une proposition raisonnable et constructive, suggérant une session exceptionnelle en août et septembre pour rattraper celle perdue par la grève. La condition évidemment était que le conflit trouve une issue. Rappelons que certains étudiants, dont ceux de l'EBSI, sont en grève depuis le 12 février.

Le gouvernement du Québec, de son côté, a brutalement déposé une loi qui rappelle les heures les plus sombres de la province, celles d'avant la Révolution tranquille. Qu'on en juge (extrait d'un éditorial du Devoir intitulé Déclaration de guerre aux étudiants) :

La loi, qui serait d’application temporaire (jusqu’au 1er juillet 2013), aurait des dents. Il permet une réorganisation du calendrier scolaire. Il suspend les sessions des établissements touchés par un « boycott » (ou une grève, selon le vocable utilisé par les associations étudiantes). Il contraint notamment les professeurs des établissements visés à se présenter à 7 h à partir du 17 août à leur lieu de travail et à enseigner. Le projet de loi indique que « nul ne peut, par un acte ou une omission, entraver le droit d’un étudiant de recevoir l’enseignement dispensé par l’établissement d’enseignement qu’il fréquente ».

La loi baliserait de manière serrée le droit de manifestation, exigeant que les organisateurs d’une manifestation révèlent le nombre de manifestants impliqués et leur itinéraire au moins huit heures avant le début de la manifestation. La loi prévoira qu’une association étudiante d’un établissement et une fédération d’associations sont « solidairement responsables du préjudice causé à un tiers ». La loi comportera une disposition pour priver les associations étudiantes de leurs cotisations.

Les amendes prévues à la loi se veulent sévères. Entre 7000 et 35 000 $ s’il s’agit d’un dirigeant, employé ou représentant d’association étudiante. Entre 25 000 et 125 000$ pour une association étudiante. En cas de récidive, les montants seraient doublés.

Comme ancien directeur de l'EBSI et professeur toujours associé à l'Université de Montréal et, j'imagine, comme l'ensemble de mes collègues, je me sens insulté par ce cynisme. Je pense qu'il y a un vrai danger pour la démocratie. Je ne sais comment vont réagir les professeurs, il ne m'appartient pas de faire des suggestions. Mais je voudrais leur dire à l'avance toute ma solidarité et ma disponibilité pour relayer leur point de vue de ce côté de l'Atlantique.

- page 11 de 144 -